百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

「MySQL」性能测试如何快速生成千万数据

lipiwang 2024-11-02 13:41 22 浏览 0 评论

前两天发现同事要做一个对大表进行范围查询的功能,然后想在本地生成7千万数据进行性能测试,苦于代码插入太慢,SQL单条插入也很慢,于是想到了用以下几个方法快速生成千万级数据。

数据单条插入

首先我们的表结构如下(嫌麻烦也可以直接看下面的截图):

CREATE TABLE `batch_index` (
  `id` int(10) unsigned NOT NULL AUTO_INCREMENT COMMENT '主键',
  `resource_id` int(10) unsigned NOT NULL COMMENT 'xx id',
  `name` varchar(255) NOT NULL DEFAULT '' COMMENT '名称',
  `cate_id` int(10) unsigned NOT NULL DEFAULT '0' COMMENT '分类id',
  `input_time` int(10) unsigned NOT NULL DEFAULT '0' COMMENT '创建时间',
  PRIMARY KEY (`id`),
  KEY `idx_resource_id` (`resource_id`),
  KEY `idx_cate_id` (`cate_id`),
  KEY `idx_input_time` (`input_time`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4;
复制代码

然后单条SQL语句为一万条:

INSERT INTO batch_index VALUES (1, 1357, 'name_1357', 16, 1626984835);
INSERT INTO batch_index VALUES (2, 1148, 'name_1148', 6, 1617323895);
INSERT INTO batch_index VALUES (3, 1168, 'name_1168', 5, 1638031542);
...
复制代码

执行时间为:42.497

数据批量插入

将数据表截断清空后,再批量导入这一万条

INSERT INTO batch_index VALUES 
(1, 1357, 'name_1357', 16, 1626984835)
,(2, 1148, 'name_1148', 6, 1617323895)
,(3, 1168, 'name_1168', 5, 1638031542)
...
复制代码

执行时间为:1.815

加事务

这种情况我们也分成两组:单条插入一万条并加事务、批量插入一万条并加事务。

单条插入一万条并加事务

start transaction;
INSERT INTO batch_index VALUES (1, 1357, 'name_1357', 16, 1626984835);
INSERT INTO batch_index VALUES (2, 1148, 'name_1148', 6, 1617323895);
...
commit;
复制代码

执行时间为:3.644

批量插入一万条并加事务

start transaction;
INSERT INTO batch_index VALUES 
(1, 1357, 'name_1357', 16, 1626984835)
,(2, 1148, 'name_1148', 6, 1617323895)
...
commit;
复制代码

执行时间为:2.003

储存过程

有小伙伴会说我们可以用储存过程,这样可以快很多。

我们先定义存储过程:

DELIMITER $  -- 定义结束符(为了不跟储存过程的“;”冲突,这里重新定义)
drop procedure if exists `insert_batch_index` $
CREATE procedure `insert_batch_index` (in n int)
begin
	declare i int default 1;
	declare resource_id int default 0;
	declare test_name varchar(255) default '';
	declare cate_id int default 0;
	declare input_time int default 0;

	while i < n do
		set resource_id = floor(1 + rand() * 3000);
		set test_name = concat('name_', resource_id);
		set cate_id = floor(1 + rand() * 20);
		set input_time = floor(1609430400 + rand() * 32227200);
		insert into batch_index values (null, resource_id, test_name, cate_id, input_time);
		set i = i + 1;
	end while;
end $
delimiter ;  --把结束符再设置回“;”
复制代码

然后运行

call insert_batch_index(10000);
复制代码

执行时间为:41.796

加上事务执行

start transaction;
call insert_batch_index(10000);
commit;
复制代码

执行时间为:0.798

储存过程 + 内存表

跟我们前面创建的innodb的表结构一样,只是存储引擎用memory内存:

CREATE TABLE `batch_index_memory` (
  `id` int(11) unsigned NOT NULL AUTO_INCREMENT COMMENT '主键',
  `resource_id` int(11) NOT NULL COMMENT 'xx id',
  `name` varchar(255) NOT NULL DEFAULT '' COMMENT '名称',
  `cate_id` int(10) unsigned NOT NULL DEFAULT '0' COMMENT '分类id',
  `input_time` int(10) unsigned NOT NULL DEFAULT '0' COMMENT '创建时间',
  PRIMARY KEY (`id`) USING BTREE
) ENGINE=MEMORY DEFAULT CHARSET=utf8mb4 ROW_FORMAT=DYNAMIC;
复制代码

同样我们也创建一个存储过程,只是插入的表为batch_index_memory

-- 存储过程,插入到batch_index_memory内存表
call insert_batch_index_memory(10000); 
insert into batch_index select * from batch_index_memory;
复制代码

执行时间为:0.745

如果报错,说表空间已满,可以在my.cnf或my.ini文件中设置max_heap_table_size = 1G,视情况设置大小。

加上事务后:

start TRANSACTION;
call insert_batch_index_memory(10000);
commit;
insert into batch_index select * from batch_index_memory;
复制代码

执行时间为:0.740
貌似没啥变化

临时表(内存表)

首先用你熟悉的编程语言生成以下文件(生成1万条大约耗时1.002秒):

再在MySQL客户端或者navicat等工具上运行(耗时0.02秒):

load data infile 'F:/batch_sql.sql' replace into table tmp_table;
复制代码

其中“F:/batch_sql.sql”是你的文件路径。

如果报错:

mysql> load data infile 'F:/batch_sql.sql' replace into table tmp_table;
ERROR 1290 (HY000): The MySQL server is running with the --secure-file-priv option so it cannot execute this statement
复制代码

需要在my.cnf或者my.ini配置文件中设置你的路径:

secure_file_priv =F:/
复制代码

然后从临时表复制主键id,并用随机生成的其他字段,复制到batch_index表,耗时0.245秒

insert into batch_index (
  select 
    id, 
    floor(1 + rand() * 1000000) as resource_id, 
    concat('name', '_', floor(1 + rand() * 1000000)) as `name`, 
    floor(1 + rand() * 20) as cate_id, 
    floor(1609430400 + rand() * 32227200) as input_time 
  from tmp_table
);
复制代码

整个过程为1.267

对比

我们把这些用表格对比一下

方式

数据量

耗时

单条插入

10000

42.497 s

批量插入

10000

1.815 s

单条插入 + 事务

10000

3.644 s

批量插入 + 事务

10000

2.003 s

储存过程

10000

41.796 s

存储过程 + 事务

10000

0.798 s

储存过程 + 内存表

10000

0.745 s

储存过程 + 内存表 + 事务

10000

0.740 s

临时表(内存表)

10000

1.267 s

我们发现快速导入数据起作用的因素是:

  • 事务
  • 批量
  • 存储过程
  • 内存表/临时表

最后,我们将数据量提高到100万,做了以下对比:

方式

数据量

耗时

存储过程 + 事务

1000000

80.530 s

储存过程 + 内存表

1000000

77.822 s

储存过程 + 内存表 + 事务

1000000

76.466 s

临时表(memory表)

1000000

84.874 s

临时表(innodb表)

1000000

92.456 s

当我以为这里基本就可以得出结论,存储过程 + 内存表的方式是最快的时候,准备生成1000万数据,发现我的mysqld服务挂了,因为内存爆了。

总结

快速生成测试数据的方法,我们主要尝试了用批量事务储存过程临时内存表 的方式做对比,最终发现存储过程 + 内存表的方式是最快的,但随着数据量的增大,内存有可能爆掉,我们可以分批次生成。

有兴趣的小伙伴可以尝试一下,毕竟每台机器上的配置文件和机器性能不一样,可能结果上导致一些偏差。欢迎提出你的结论~

好了,这个技巧你学废了吗?


作者:易科编程
链接:https://juejin.cn/post/7053467694560968712

相关推荐

前端入门——css 网格轨道详细介绍

上篇前端入门——cssGrid网格基础知识整体大概介绍了cssgrid的基本概念及使用方法,本文将介绍创建网格容器时会发生什么?以及在网格容器上使用行、列属性如何定位元素。在本文中,将介绍:...

Islands Architecture(孤岛架构)在携程新版首页的实践

一、项目背景2022,携程PC版首页终于迎来了首次改版,完成了用户体验与技术栈的全面升级。作为与用户连接的重要入口,旧版PC首页已经陪伴携程走过了22年,承担着重要使命的同时,也遇到了很多问题:维护/...

HTML中script标签中的那些属性

HTML中的<script>标签详解在HTML中,<script>标签用于包含或引用JavaScript代码,是前端开发中不可或缺的一部分。通过合理使用<scrip...

CSS 中各种居中你真的玩明白了么

页面布局中最常见的需求就是元素或者文字居中了,但是根据场景的不同,居中也有简单到复杂各种不同的实现方式,本篇就带大家一起了解下,各种场景下,该如何使用CSS实现居中前言页面布局中最常见的需求就是元...

CSS样式更改——列表、表格和轮廓

上篇文章主要介绍了CSS样式更改篇中的字体设置Font&边框Border设置,这篇文章分享列表、表格和轮廓,一起来看看吧。1.列表List1).列表的类型<ulstyle='list-...

一文吃透 CSS Flex 布局

原文链接:一文吃透CSSFlex布局教学游戏这里有两个小游戏,可用来练习flex布局。塔防游戏送小青蛙回家Flexbox概述Flexbox布局也叫Flex布局,弹性盒子布局。它决定了...

css实现多行文本的展开收起

背景在我们写需求时可能会遇到类似于这样的多行文本展开与收起的场景:那么,如何通过纯css实现这样的效果呢?实现的难点(1)位于多行文本右下角的展开收起按钮。(2)展开和收起两种状态的切换。(3)文本...

css 垂直居中的几种实现方式

前言设计是带有主观色彩的,同样网页设计中的css一样让人摸不头脑。网上列举的实现方式一大把,或许在这里你都看到过,但既然来到这里我希望这篇能让你看有所收获,毕竟这也是前端面试的基础。实现方式备注:...

WordPress固定链接设置

WordPress设置里的最后一项就是固定链接设置,固定链接设置是决定WordPress文章及静态页面URL的重要步骤,从站点的SEO角度来讲也是。固定链接设置决定网站URL,当页面数少的时候,可以一...

面试发愁!吃透 20 道 CSS 核心题,大厂 Offer 轻松拿

前端小伙伴们,是不是一想到面试里的CSS布局题就发愁?写代码时布局总是对不齐,面试官追问兼容性就卡壳,想跳槽却总被“多列等高”“响应式布局”这些问题难住——别担心!从今天起,咱们每天拆解一...

3种CSS清除浮动的方法

今天这篇文章给大家介绍3种CSS清除浮动的方法。有一定的参考价值,有需要的朋友可以参考一下,希望对大家有所帮助。首先,这里就不讲为什么我们要清楚浮动,反正不清除浮动事多多。下面我就讲3种常用清除浮动的...

2025 年 CSS 终于要支持强大的自定义函数了?

大家好,很高兴又见面了,我是"高级前端进阶",由我带着大家一起关注前端前沿、深入前端底层技术,大家一起进步,也欢迎大家关注、点赞、收藏、转发!1.什么是CSS自定义属性CSS自...

css3属性(transform)的一个css3动画小应用

闲言碎语不多讲,咱们说说css3的transform属性:先上效果:效果说明:当鼠标移到a标签的时候,从右上角滑出二维码。实现方法:HTML代码如下:需要说明的一点是,a链接的跳转需要用javasc...

CSS基础知识(七)CSS背景

一、CSS背景属性1.背景颜色(background-color)属性值:transparent(透明的)或color(颜色)2.背景图片(background-image)属性值:none(没有)...

CSS 水平居中方式二

<divid="parent"><!--定义子级元素--><divid="child">居中布局</div>...

取消回复欢迎 发表评论: