数据价值在线化,TiDB在企查查数据中台

北京哪家医院白癜风最好 http://www.pfzhiliao.com/

来源:中关村在线

企查查是一家专注于企业信用信息服务的科技公司,依托大数据、人工智能等技术,为企业提供全面、准确、及时的企业信用信息,助力企业降本增效、风险防控。年5月,企查查正式发布全球首款商查大模型——“知彼阿尔法”。该模型基于企查查覆盖的全球企业信用数据进行训练,可以为司法、金融、风控、政务等人士提供多维度数据服务。

从MySQL到TiDB的升级之路

数据是企查查业务的核心,需要对海量数据进行清洗、分析、挖掘,才能充分释放数据价值。在引入TiDB之前,企查查使用MySQL数据库。MySQL是一款受欢迎的开源关系型数据库,但存在单机性能瓶颈。当数据量达到一定规模后,垂直扩容只能有限提升性能,在高并发写入和复杂SQL查询等场景下,性能会受到单机性能的限制。

由于MySQL是单机数据库,在业务不中断的情况下,只能采用热备。但是,随着数据量的增长,MySQL的热备操作会变得越来越慢,对数据库的性能产生较大影响。此外,热备数据的恢复速度也较慢。在企查查的数据流向中,爬虫采集到的数据需要先存储到数据库中,然后再由Flink进行清洗。由于MySQL不支持将数据直接投递到Flink,因此需要通过Flink来读写数据库,这对MySQL库产生了较大的压力。

年底,企查查通过TiDB社区接触到TiDB,并对其产生了浓厚的兴趣。经过对比选型测试,企查查选择了TiDB数据库,结合Flink场景的需求,构建了Flink+TiDB的实时数仓框架,应用于企查查数据中台。企查查选择TiDB的主要原因有:

切换到TiDB几乎无任何学习成本

因为MySQL存在的诸多问题,企查查迫切需要寻找一种兼容MySQL协议、且能解决上述问题的数据库。TiDB在MySQL兼容性方面表现出色,能够兼容绝大多数MySQL语法和函数,包括MySQL生态的相关工具也都默认支持。此外,TiDB在使用体验上与MySQL几乎没有差异,对于企查查这些MySQL基础的DBA来说,切换到TiDB几乎不需要学习成本,非常亲切。

原生分布式架构带来明显优势

在兼容MySQL协议的前提下,企查查需要一款能灵活水平扩展的分布式数据库满足业务发展的要求。企查查当时对分库分表类的分布式数据库进行了对比测试,发现对应用的开发侵入很大,且扩展性受限。TiDB采用原生分布式数据库架构,基于Spanner和F1的论文设计。TiDB的存储和计算分离,无中心化节点,支持任意扩缩容,支持分布式事务。此外,TiDB的数据存储基于Raft共识算法,数据分片无需业务事先规划分片键,默认3个副本,保证了数据的高可用。TiDB集群中的每个组件都做到了高可用设计,保证了服务的高可用。

周边工具完善

TiDB的周边工具非常优秀,尤其是监控体系。TiDB的监控体系采用了Prometheus+Grafana+Alertmanager等通用组件设计,这使得TiDB的监控体系能够无缝融入到企查查企业的监控告警体系中,非常方便。此外,TiDB的监控体系非常全面,覆盖了系统运行中的各个环节,便于排查问题。TiDB的上下游数据迁移和同步工具也比较成熟,特别是TiCDC工具。TiCDC支持将TiDB中的数据同步到Kafka中,且支持


转载请注明:http://www.aierlanlan.com/rzdk/9468.html