所在的位置: mysql >> mysql优势 >> MysqlETLCloudCDCSt

MysqlETLCloudCDCSt

业务需求及其痛点

大型企业需要对各种业务系统中的销售及营销数据进行实时同步分析,例如库存信息、对账信号、会员信息、广告投放信息,生产进度信息等等,这些统计分析信息可以实时同步到StarRocks中进行分析和统计,StarRocks作为分析型数据库特别适合于对海量数据的存储和分析,我们只需要把MySQL的表单数据实时同步到StarRocks既可以实现实时数据分析能力。

StarRocks介绍

StarRocks是一款极速全场景MPP企业级数据库产品,具备水平在线扩缩容,金融级高可用,兼容MySQL5.7协议和MySQL生态,提供全面向量化引擎与多种数据源联邦查询等重要特性。StarRocks致力于在全场景OLAP业务上为用户提供统一的解决方案,适用于对性能,实时性,并发能力和灵活性有较高要求的各类应用场景。

CDC实时同步工具选型

目前能免费使用的成熟CDC工具且同时支持MySQL+StarRocks的有FlinkCDC和ETLCloudCDC等

这里我们主要考虑选择比较成熟的FlinkCDC和ETLCloudCDC,CDC的同步原理其实不同平台的原理都是一样的,都是读取数据库log然后通过清洗、转换或计算后存入目标仓库中

FlinkCDC安装和使用难度比较大,没有可视化的CDC配置和监控界面对于不熟的用户安装相对比较麻烦,对于实时数据的加工和处理还需要写代码,没一点技术的用户根据搞不定,对于数据工程师来说难度太大

ETLCloudCDC安装和使用相对容易提供了一键安装功能同时也支持windows个人电脑安装,安装完成后提供全WEB配置界面,对于用户可以说是非常友好,我们这里选择ETLCloudCDC来实现实时数仓的构建

如何提升写入StarRocks的性能?

StarRocks兼容MySQL协议但是直接用jdbc写入StarRocks的速度是非常慢基本不可用,所以必须要采用StarRocks提供的Streamload方式来进行数据的载入才能提升速度

ETLCloudCDC提供了专门针对StarRocks的高性能输出组件,还支持自动创建表结构同时支持批量加载技术

数据写入StarRocks之前如何直接转换为宽表?

通常情况下我们使用CDC实时监听表销售或订单表数据的LOG时会形成流式的数据,CDC每次传入的数据有可能是一条也可能是多条,监听到的流式数据都是订单表的单条数据,但在业务上单表的数据在业务价值上可能缺少一些关键的维度业务数据字段,例如要计算毛利合并客户及产品数据等。

为了补充这些缺少的数据字段之前的做法是先让他入库,然后再用SQL语句或者ETL流程再给他变换一次形成我们需要的宽表数据,虽然这样也可以实现这个业务需求但是失去了数据处理的时效性,即本来是实时流的数据但是到了业务那里变成不是实时的了,因为我们中间有一个定时变换的数据过程。

通过ETLCloud的ETL功能可以轻松实现实时数据直接变为宽表数据存入到StarRocks中

(单表实时流合并其他维度数据直接输出宽表数据到StarRocks中)

ETLCloudCDC同步原理

ETLCloudCDC的功能之所有比其他CDC工具都强大是因为他把CDC和ETL流程给连接起来了,CDC实时数据流入ETL流程中,再通过ETL流程对实时数据进行处理和输出。

ETLCloudCDC中配置MySQL表的监听

MySQL先要开启binglog功能,开启方式可以查看




转载请注明:http://www.aierlanlan.com/grrz/10026.html