值得考虑的七大顶级ETL工具

】如今,各个行业与组织能够访问到的数据越来越庞大、且越来越复杂。不过,我们需要对这些海量的信息进行有效的处理和分析,进而发掘出那些隐藏在“噪声”中的数据洞见。目前,当属ETL(提取、转换、加载,三个首字母缩写)方法最为常见。它是指:我们需要先从诸如数据库、文件、以及电子表格之类的数据源中提取信息,然后对其进行转换,以符合数据仓库的标准,最后将它们加载到集中式的数据仓库中。

作为数据仓库分析与转化的重要组成部分,ETL往往需要依赖合适的工具来实现。目前市场上此类工具可谓林林总总。本文将为您筛选出七大顶级、八大补充ETL软件工具,在逐一介绍其特点和社区得分的基础上,最后给出各种适用的场景。

1.Xplenty

作为基于云端的ETL和ELT(提取、加载、转换)数据的集成平台,Xplenty可以轻松地组合多个数据源。该平台提供了一个简单、直观的可视化界面,可用于在大量数据源和目标之间建立管道。

目前,Xplenty包装了上百种流行的数据存储和SaaS(软件即服务)应用,其中包括:MongoDB、MySQL、PostgreSQL、AmazonRedshift、GoogleCloudPlatform、Facebook、Salesforce、Jira、Slack、以及QuickBooks等。

Xplenty的优势在于:可扩展性、安全性和出色的客户支持。例如,Xplenty具有一项称为“字段级加密(FieldLevelEncryption)”的新功能,可允许用户使用自己的加密密钥,对数据字段进行加密或解密。同时,Xplenty也能遵守HIPPA、GDPR和CCPA等法律法规。

目前,在G2网站(译者注:知名的软件与服务评价平台)上有93位评论者为Xplenty给出了4.4颗星(满分为5颗星),并将其称为ETL工具领域的“领先者”之一。作为其中的一名评论者,KerryD.声称:“该工具非常实用,它使得代码的开发与支持变得迅速且高效。”

2.Talend

TalendDataIntegration是一个开源的ETL数据集成解决方案。Talend平台不但能够与本地和云中的数据源相兼容,而且包括了数百个预构建(pre-built)的集成。

虽然对于一般用户而言,Talend的开源版本足以够用,但是较大型的企业用户则会选用其付费版本的数据管理平台。毕竟,付费版里包含了用于设计、生产力管理、监空、以及数据治理的各种工具和功能。

Talend在G2上的平均得分为4.0颗星,并在Gartner的《数据集成工具魔力象限》报告中被评为“领先者”。作为其中的一名评论者,JanL.认为:Talend是一个强大的、具有清晰易用界面的通用数据集成工具。

3.Stitch

Stitch是一个开源的ELT数据集成平台。与Talend类似,Stitch也提供了付费的服务版本,应用于更高级的用例、以及更多的数据源。有趣的是,Talend于年11月收购了Stitch。

Stitch平台通过提供自助式的ELT和自动化的数据流水线,来简化流程。鉴于Stitch的ELT工具不会自动执行任意转换。因此,Stitch团队建议,转换一旦被添加到数据仓库内部,就应在原始数据之上添加各种分层。

G2上的评论者为Stitch给出了诸如高性能之类的正面评价。一位评论者称赞Stitch为“定价简单、提供内部工作流、且开源易用”。当然,Stitch也存在着一些小的技术问题,以及缺乏对小众数据源的支持。

4.InformaticaPowerCenter

InformaticaPowerCenter是用于ETL任务的成熟、且功能丰富的企业级数据集成平台。当然,PowerCenter只是Informatica云数据管理工具套件中的一种。

作为企业级、且与数据库类型无关的解决方案,PowerCenter以其高性能、以及能与许多不同数据源(包括各种SQL和非SQL数据库)相兼容而著称。而InformaticaPowerCenter的缺点在于:售价过高,且对于小型组织而言,可能由于较难学习与掌握,进而带来技术障碍。

尽管存在着上述缺点,InformaticaPowerCenter还是在G2上斩获了4.3颗星,同时被誉为数据集成软件领域的“领先者”。作为其中的一名评论者,VictorC.认为PowerCenter是自己曾用过的、功能最强大的ETL工具。当然,他也抱怨PowerCenter的速度过慢,且无法与Tableau和QlikView等可视化的工具进行很好的集成。

5.OracleDataIntegrator

作为Oracle数据管理生态系统中的一部分,OracleDataIntegrator(ODI)是一个全面的数据集成解决方案。显然,该平台是HyperionFinancialManagement和OracleE-BusinessSuite(EBS)等其他Oracle产品用户的合适选择。ODI既具有本地版本,又提供了Oracle数据集成平台云。

与其他工具不同的是,OracleDataIntegrator只支持ELT任务,而不支持ETL。而用户对此褒贬不一。同时,由于大部分外围功能都已经包含在了其他Oracle软件之中,因此ODI比其他各种工具更为简单。

目前,OracleDataIntegrator在G2上的平均得分为4.0。作为其中的一名评论者,ChristopherT.认为,虽然ODI是众多选项中最强大的一款工具,但是需要经过必要的培训,方可上手。

6.Skyvia

Skyvia是一款可用于大数据集成、迁移和备份的云平台。用户可以用它来为包括Redshift、BigQuery和Azure在内的数据仓库,创建数据管道。Skyvia的最大亮点是:它通过提供无代码式的数据集成向导,以方便新、老ETL用户使用。

Skyvia在G2的用户群中备受欢迎,其评分为4.8。作为其中的一名评论者,DavidK.认为:即便知识有限,他们仍然可以使用由Skyvia提供的直观且灵活的连接工具,在多渠道零售业务中同步库存。

当然,在使用Skyvia作为ETL工具之前,请事先注意如下三个方面:

Skyvia主要专注于ETL的提取和加载阶段,其转换功能比较有限。

与其他ETL工具相比,Skyvia提供的集成和连接器数量较少。

有用户抱怨在遇到技术问题时,其客户支持在效率上存在问题。

7.Fivetran

作为基于云端的ETL解决方案,Fivetran支持与Redshift、BigQuery、Azure和Snowflake等数据仓库的数据集成。Fivetran的最大优势在于提供了丰富的数据源阵列,其中包括约90种SaaS源,以及添加用户自定义集成的能力。

目前,Fivetran在G2上斩获了4.2星。许多用户对其简单性和易用性赞许有加。作为其中的一名评论者,DanielH.认为:Fivetran可以提供快速、可靠的文档连接,并能够直接连接到新的连接器上。

当然,针对Fivetran从连接器的数量更改为基于消费的崭新定价模式,有用户提出了异议。同时,也有少数用户在技术和客户支持方面遇到过问题。他们认为:Fivetran是一个黑匣子,当出现问题时,不但很难自行诊断,而且难以获取热线支持。

其他值得参考的8种ETL工具

8.Striim

Striim为大数据任务提供了一个实时的数据集成平台。用户能够以约20多种不同的文件格式,集成各种数据源与目标,其中包括Oracle、SQLServer、MySQL、PostgreSQL、MongoDB和Hadoop。由于Striim符合GDPR和HIPAA等数据隐私法规,因此用户可以使用SQL或Java定义预加载式的转换。

Striim平台主要缺点是:它无法包含任何SaaS源或目标,也不允许用户添加新的数据源。此外,Striim的用户群并不大,目前G2上只有1条评论。

9.Matillion

作为一个云端的ETL平台,Matillion可以将数据与Redshift、Snowflake、BigQuery和AzureSynapse相集成。用户可以通过界面上的简单点击或在SQL中的定义,在Matillion中创建数据转换。

与Striim类似,与前面讨论的其他工具相比,Matillion仅支持约40种SaaS数据源。虽然它在G2处获得了4.2颗星,它的基于虚拟机的时间,而非实际工作量、或正在使用的计算资源的定价模式,让部分评论者们表示不认可。

10.Pentaho

由HitachiVantara提供的Pentaho(也称为Kettle)是一种可被用于数据集成和分析的开源平台。用户既可以选择Pentaho的免费社区版本,又可以购买其企业版的商用许可证。与Xplenty类似,Pentaho具有易用的界面,即使是ETL的新手,也可以使用它来构建稳定的数据管道。当然,Pentaho也存在着诸如:模板和技术有限等缺点。

目前,Pentaho在G2上的平均得分为4.3颗星。不过,有用户抱怨:由于在日志记录中缺乏针对错误的详细注释,因此他们很难识别错误的真正原因。

11.AWSGlue

可用于大数据分析任务的AWSGlue,是由AmazonWebServices提供的完全托管式的ETL服务。作为一种端到端的ETL产品,AWSGlue不但减轻了ETL的工作负载,而且能够与AWS生态系统中的其余部分,进行良好的集成。

值得注意的是,AWSGlue是无服务器的。这意味着Amazon会自动为用户配置服务器,并在工作负载完成后将其关闭。AWSGlue通过提供作业调度、以及开发者端点(developerendpoints)等功能,方便易用地测试各种AWSGlue脚本。

目前,AWSGlue不但在G2平台上获得了3.9颗星,而且在X2上被评为ETL工具领域的“领先者”(类似Xplenty)。我们未将其列为前面7大顶级ETL工具的原因在于,它不如其他工具灵活,并且通常更适合那些已经处于AWS生态系统内的用户。

12.Panoply

作为一个自动化的自助式云端数据仓库,Panoply旨在简化数据集成的过程。那些标准的ODBC/JDBC连接、Postgres连接、以及AWSRedshift连接的等数据连接器,都可以与Panoply兼容。此外,用户也可以将Panoply与前面提到的Stitch和Fivetran等ETL工具相连接,以进一步扩展其数据集成的工作流。

在G2上,Panoply已获得了4.4颗星。作为一名评论者,StacieB认为:Panoply的最大优点是能够轻松地从多个来源导入数据,并能快速地设置程序,与实现数据的加载。

Panoply未被入选七大顶级ETL工具的理由在于:Panoply既是数据仓库,又是ETL解决方案。因此,如果您已经正在使用其他类型的云端数据仓库,并且不打算进行更换的话,则没有必要选用Panoply。

13.Alooma

作为一种云端数据仓库的ETL数据迁移工具,Alooma的主要卖点在于,它自动化了大部分数据管道,以方便用户去


转载请注明:http://www.aierlanlan.com/rzgz/5288.html

  • 上一篇文章:
  •   
  • 下一篇文章: 没有了