MySQL数据库分库分表方案

随着项目不断迭代，使用人数的不断增加。数据库中某些表数据正在逐步膨胀，往单表千万迅速靠拢。所以最近领导也在考虑做一下分库分表，写此文章记录下来。

一、什么是分库分表？

分库：从单个数据库拆分成多个数据库的过程，将数据散落在多个数据库中。分表：从单张表拆分成多张表的过程，将数据散落在多张表内。

二、为什么分库分表？

随着平台的业务发展，数据可能会越来越多，甚至达到亿级。以MySQL为例，单库数据量在万以内性能比较好，超过阈值后性能会随着数据量的增大而明显降低。单表的数据量超过w，性能也会下降严重。这就会导致查询一次所花的时间变长，并发操作达到一定量时可能会卡死，甚至把系统给拖垮。

三、怎么选择分库分表策略？四、分库分表方式及带来的问题？

分库分表有效的缓解了大数据、高并发带来的性能和压力，也能突破网络IO、硬件资源、连接数的瓶颈，但同时也带来了一些问题。

4.1、事务一致性问题

由于分库分表把数据分布在不同库甚至不同服务器，不可避免会带来分布式事务问题，我们需要额外编程解决该问题。

4.2、跨节点join

在没有进行分库分表前，我们检索商品时可以通过以下SQL对店铺信息进行关联查询：

SELECTp.*,s.[店铺名称],s.[信誉]FROM[商品信息]pLEFTJOIN[店铺信息]sONp.id=s.[所属店铺]WHERE...ORDERBY...LIMIT...

但经过分库分表后，[商品信息]和[店铺信息]不在一个数据库或一个表中，甚至不在一台服务器上，无法通过sql语句进行关联查询，我们需要额外编程解决该问题。

4.3、跨节点分页、排序和聚合函数

跨节点多库进行查询时，limit分页、orderby排序以及聚合函数等问题，就变得比较复杂了。需要先在不同的分片节点中将数据进行排序并返回，然后将不同分片返回的结果集进行汇总和再次排序。例如，进行水平分库后的商品库，按ID倒序排序分页，取第一页：

以上流程是取第一页的数据，性能影响不大，但由于商品信息的分布在各数据库的数据可能是随机的，如果是取第N页，需要将所有节点前N页数据都取出来合并，再进行整体的排序，操作效率可想而知，所以请求页数越大，系统的性能也会越差。

在使用Max、Min、Sum、Count之类的函数进行计算的时候，与排序分页同理，也需要先在每个分片上执行相应的函数，然后将各个分片的结果集进行汇总和再次计算，最终将结果返回。

4.4、主键避重

在分库分表环境中，由于表中数据同时存在不同数据库中，主键值平时使用的自增长将无用武之地，某个分区数据库生成的ID无法保证全局唯一。因此需要单独设计全局主键，以避免跨库主键重复问题。

由于分库分表之后，数据被分散在不同的服务器、数据库和表中。因此，对数据的操作也就无法通过常规方式完成，并且它还带来了一系列的问题。我们在开发过程中需要通过一些中间件解决这些问题，市面上有很多中间件可供我们选择，其中Sharding-JDBC和mycat较为流行。

五、使用分库分表组件帮我们解决一些问题

分库分表的技术方案总体上来讲分为两大类：应用层依赖类中间件、中间层代理类中间件。

我们选择技术方案时主要考虑的是，开源、开发成本、学习成本、技术复杂度，技术使用人数，参考资料的多少等方面。

由于我本人也不是每样技术都有用过。所以在这里只是在能力范围内做一个初步了解，并进行选型。目前这些组件对于分库分表的一些主要问题都有相对完善的解决方案，区别的只是一些细节的问题。又结合目前项目所在只需要轻量级的分库分表。所以我还是比较偏向成本较低，复杂度较低的方案。

目前市面上使用较多的是，mycat及sharding-jdbc。mycat属于中间层代理类中间件、sharding-jdbc属于应用层依赖类中间件

5.1.Atlas

奇虎关键词：分库分表Atlas百度为您找到相关结果约,个中间层代理类中间件

github.

下一篇文章：没有了