所在的位置: mysql >> mysql介绍 >> Datastream和Dataflow进

Datastream和Dataflow进

作者:MeshCloud脉时云公有云架构师于文宝

背景

对于拥有许多独立数据源的企业而言,访问整个组织内的企业数据(尤其是实时访问)并非易事。这会导致数据访问受限且速度缓慢,因而造成组织无法进行检查。

Datastream提供近乎实时的访问权限,让您能够更改各种本地和云端数据源中的数据以创建组织数据访问权限。Datastream提供简单的设置体验和统一的使用API,让组织普遍能够访问组织内可用的最新企业数据,从而为集成式近乎实时的场景提供支持。

其中一种场景是,将数据从源数据库转移到云端存储服务或消息传递队列,然后将这些数据转换为可供与该存储服务或消息传递队列通信的其他应用和服务(例如Dataflow)读取的形式。Dataflow是一项用于在GoogleCloud上捕获和处理数据的Web服务。

在本教程中,您将了解Datastream如何通过简化的Dataflow模板与Dataflow无缝集成,从而在BigQuery中实现最新具体化视图以执行分析。

您将了解如何使用Dataflow将更改(插入、更新或删除的数据)从源MySQL数据库流式传输到CloudStorage存储桶中的文件夹。

您将配置CloudStorage存储桶以发送通知,供Dataflow了解包含Datastream从源数据库流式传输的数据更改的任何新文件。然后,Dataflow作业将处理这些文件并将更改转移到BigQuery。

架构图

准备工作

启用DatastreamAPI。

确保您已为您的用户帐号分配DatastreamAdmin角色。

确保您有一个Datastream可以访问的源数据库。本教程使用作为来源。

确保源数据库中有数据、表和架构。

配置源数据库以允许来自Datastream公共IP地址的传入连接。如需查看包含所有Datastream地区及其关联公共IP地址的列表,请参阅。

为源数据库设置变更数据捕获(CDC)。如需了解详情,请参阅。

确保您已配置Datastream可以访问的目标CloudStorage存储桶。

确保您满足所有,以便为CloudStorage启用Pub/Sub通知。

您将在CloudStorage中创建目标存储桶,并为存储桶启用Pub/Sub通知。这样设置后,Dataflow就可以接收通知来了解Datastream写入存储桶的新文件。这些文件包含Dataflow从源数据库流式传输到存储桶的数据更改。

要求

Datastream提供各种来源选项、目标选项和网络连接方法。

在本教程中,假设您使用独立的MySQL数据库和目标CloudStorage服务。对于源数据库,您应该能够将网络配置为添加入站防火墙规则。源数据库可以位于本地,也可以位于云提供商。对于CloudStorage目标位置,无需配置连接。

由于我们无法获知您环境的具体细节,因此我们无法提供网络配置的详细步骤。

在本教程中,您将选择IP许可名单作为网络连接方法。IP许可名单是一项安全功能,通常用于仅限受信任的用户访问您的源数据库中的数据并对这些访问进行控制。您可以使用IP许可名单创建受信任的IP地址或IP地址范围列表,您的用户和其他GoogleCloud服务(如Datastream)可通过这些地址访问此数据。要使用IP许可名单,您必须向来自Datastream的传入连接开放源数据库或防火墙。

在CloudStorage中创建存储桶

在本部分中,您将在CloudStorage中创建存储桶。DataStream将架构、表和数据从源MySQL数据库流式传输到的目标存储桶。

转到GoogleCloudConsole中CloudStorage的浏览器页面。

点击创建存储桶。此时将显示创建存储桶页面。

在为存储桶命名区域的文本字段中,输入my-integration-bucket-,然后点击继续。

对于页面每个剩余区域,请接受默认设置。为此,


转载请注明:http://www.aierlanlan.com/rzfs/1524.html

  • 上一篇文章:
  •   
  • 下一篇文章: