分库分表ShardingSphereJ

公益中国爱心救助定点医院 http://m.39.net/disease/a_6169058.html

一、分库分表解决的现状问题

解决数据库本身瓶颈

连接数:连接数过多时,就会出现‘toomanyconnections’的错误,访问量太大或者数据库设置的最大连接数太小的原因

Mysql默认的最大连接数为.可以修改,而mysql服务允许的最大连接数为

数据库分表可以解决单表海量数据的查询性能问题

数据库分库可以解决单台数据库的并发访问压力问题

解决系统本身IO、CPU瓶颈

可以通过showprocesslist;、showfullprocesslist,发现CPU使用率比较高的SQL

常见的对于查询时间长,State列值是Sendingdata,Copyingtotmptable,Copyingtotmptableondisk,Sortingresult,Usingfilesort等都是可能有性能问题SQL,清楚相关影响问题的情况可以kill掉

也存在执行时间短,但是CPU占用率高的SQL,通过上面命令查询不到,这个时候最好通过执行计划分析explain进行分析

磁盘读写IO瓶颈,热点数据太多,尽管使用了数据库本身缓存,但是依旧有大量IO,导致sql执行速度慢

网络IO瓶颈,请求的数据太多,数据传输大,网络带宽不够,链路响应时间变长

CPU瓶颈,尤其在基础数据量大单机复杂SQL计算,SQL语句执行占用CPU使用率高,也有扫描行数大、锁冲突、锁等待等原因

二、垂直和水平分库分表区别

垂直角度(表结构不一样)

好处:避免表之间竞争同个物理机的资源,比如CPU/内存/硬盘/网络IO

原则:根据业务相关性进行划分,领域模型,微服务划分一般就是垂直分库

好处:避免IO时锁表的次数,分离热点字段和非热点字段,避免大字段IO导致性能下降

原则:业务经常组合查询的字段一个表;不常用字段一个表;text、blob类型字段作为附属表

垂直分表:将一个表字段拆分多个表,每个表存储部分字段

垂直分库:根据业务将表分类,放到不同的数据库服务器上

水平角度(表结构一样)

单个表的数据量少了,业务SQL执行效率高,降低了系统的IO和CPU压力

原则

选择合适的分片键和分片策略,和业务场景配合

避免数据热点和访问不均衡、避免二次扩容难度大

好处:多个数据库,降低了系统的IO和CPU压力

原则

选择合适的分片键和分片策略,和业务场景配合

避免数据热点和访问不均衡、避免二次扩容难度大

水平分库:把同个表的数据按照一定规则分到不同的数据库中,数据库在不同的服务器上

水平分表:同个数据库内,把一个表的数据按照一定规则拆分到多个表中,对数据进行拆分,不影响表结构

2.1垂直分表

也就是“大表拆小表”,基于列字段进行的

拆分原则一般是表中的字段较多,将不常用的或者数据较大,长度较长的拆分到“扩展表如text类型字段

访问频次低、字段大的商品描述信息单独存放在一张表中,访问频次较高的商品基本信息单独放在一张表中

垂直拆分原则

把不常用的字段单独放在一张表;

把text,blob等大字段拆分出来放在附表中;

业务经常组合查询的列放在一张表中

2.2垂直分库

垂直分库针对的是一个系统中的不同业务进行拆分,数据库的连接资源比较宝贵且单机处理能力也有限

没拆分之前全部都是落到单一的库上的,单库处理能力成为瓶颈,还有磁盘空间,内存,tps等限制

拆分之后,避免不同库竞争同一个物理机的CPU、内存、网络IO、磁盘,所以在高并发场景下,垂直分库一定程度上能够突破IO、连接数及单机硬件资源的瓶颈

垂直分库可以更好解决业务层面的耦合,业务清晰,且方便管理和维护

一般从单体项目升级改造为微服务项目,就是垂直分库

2.3水平分表

把一个表的数据分到一个数据库的多张表中,每个表只有这个表的部分数据

核心是把一个大表,分割N个小表,每个表的结构是一样的,数据不一样,全部表的数据合起来就是全部数据

针对数据量巨大的单张表(比如订单表),按照某种规则(RANGE,HASH取模等),切分到多张表里面去

但是这些表还是在同一个库中,所以单数据库操作还是有IO瓶颈,主要是解决单表数据量过大的问题

减少锁表时间,没分表前,如果是DDL(create/alter/add等)语句,当需要添加一列的时候mysql会锁表,期间所有的读写操作只能等待

2.4水平分库

把同个表的数据按照一定规则分到不同的数据库中,数据库在不同的服务器上

水平分库是把不同表拆到不同数据库中,它是对数据行的拆分,不影响表结构

每个库的结构都一样,但每个库的数据都不一样,没有交集,所有库的并集就是全量数据

水平分库的粒度,比水平分表更大

三、水平分库分表常见策略

3.1Range

范围角度思考问题(范围的话更多是水平分表)

地理位置:省份、区域(华东、华北、华南)

比如按照省份生成库或表

年、月、日范围

比如按照月份生成库或表pay_log__01、pay_log__02

自增id范围

数字

时间

空间

例如:自增id,根据ID范围进行分表(左闭右开)

规则案例

1~1,,是table_1

1,,~2,,是table_2

2,,~3,,是table_3

...更多

优点

id是自增长,可以无限增长

扩容不用迁移数据,容易理解和维护

缺点

大部分读和写都访会问新的数据,有IO瓶颈,整体资源利用率低

数据倾斜严重,热点数据过于集中,部分节点有瓶颈

基于Range范围分库分表业务场景

微博发送记录、


转载请注明:http://www.aierlanlan.com/rzgz/3543.html

  • 上一篇文章:
  •   
  • 下一篇文章: