【.comExpressTranslation】今天,行业和组织可以访问越来越大和复杂的数据。然而,我们需要对这些海量信息进行有效的处理和分析,进而发现隐藏在“噪音”中的数据洞察。目前,ETL(extract、transform、load,三个首字母缩写词)方法最为常见。这意味着:我们需要从数据库、文件和电子表格等数据源中提取信息,将它们转换成符合数据仓库标准,最后加载到一个集中的数据仓库中。ETL作为数据仓库分析和改造的重要组成部分,往往需要借助合适的工具来实现。现在市场上有很多这样的工具。本文将为大家精选七款顶级和八款辅助的ETL软件工具,一一介绍它们的特点和社区评分,最后给出各种适用场景。1.Xplenty,作为ETL和ELT(extract,load,transform)数据的云端集成平台,Xplenty可以很方便的结合多个数据源。该平台提供了一个简单、直观的可视化界面,可用于在大量数据源和目标之间构建管道。目前,Xplenty封装了数百种流行的数据存储和SaaS(软件即服务)应用程序,包括:MongoDB、MySQL、PostgreSQL、AmazonRedshift、GoogleCloudPlatform、Facebook、Salesforce、Jira、Slack和QuickBooks等。Xplenty的优势是:可扩展性、安全性和强大的客户支持。例如,Xplenty有一项称为字段级加密的新功能,允许用户使用自己的加密密钥加密或解密数据字段。同时,Xplenty还可以遵守HIPPA、GDPR和CCPA等法律法规。目前,G2网站(译者注:某知名软件和服务测评平台)上的93位评测者给Xplenty4.4星(满分5星),并称其为ETL工具领域的“全球联网平台”。其中一位领导者”。作为评论者之一,KerryD.声称:“这个工具非常实用,它使代码开发和支持变得快速和高效。”2.TalendTalendDataIntegration是一个开源的ETL数据集成解决方案.Talend平台不仅与本地和云数据源兼容,还包括数百个预构建的集成。虽然Talend的开源版本足以满足一般用户的需求,但更大的企业用户会选择其付费版的数据管理平台。毕竟,付费版本包括用于设计、生产力管理、监控和数据治理的各种工具和功能。Talend在G2上的平均得分为4.0颗星,并在Gartner的《数据集成工具魔力象限》报告中被评为“领导者”。作为审稿人之一,JanL.认为:Talend是一款功能强大的通用数据集成工具,界面清晰易用。3.StitchStitch是一个开源的ELT数据集成平台。与Talend类似,Stitch也为更高级的用例和更多的数据源提供付费服务版本。有趣的是,Talend于2018年11月收购了Stitch。Stitch平台通过提供自助式ELT和自动化数据管道简化了流程。而Stitch的ELT工具不会自动执行任意转换。因此,Stitch团队建议,一旦在数据仓库中添加了转换,就应该在原始数据之上添加各种层。G2的评论者给予Stitch积极的评价,例如高性能。一位评论家称赞Stitch的“定价简单、内部工作流程和开源易用性”。当然,Stitch也有一些小的技术问题,以及缺乏对小众数据源的支持。4.InformaticaPowerCenterInformaticaPowerCenter是一个成熟的、功能丰富的企业级ETL数据集成平台。当然,PowerCenter只是Informatica云数据管理工具套件中的一个。作为企业级、独立于数据库的解决方案,PowerCenter以其高性能和与许多不同数据源(包括各种SQL和非SQL数据库)的兼容性而著称。InformaticaPowerCenter的缺点是价格太高,对于小型组织来说,学习和掌握可能比较困难,可能会造成技术障碍。尽管存在这些缺点,InformaticaPowerCenter在G2上获得了4.3颗星,并被评为数据集成软件的“领导者”。作为评审人之一,VictorC.认为PowerCenter是他用过的最强大的ETL工具。当然,他也抱怨PowerCenter太慢,不能很好地与Tableau、QlikView等可视化工具集成。5.OracleDataIntegrator作为Oracle数据管理生态系统的一部分,OracleDataIntegrator(ODI)是一个全面的数据集成解决方案。显然,该平台是HyperionFinancialManagement和OracleE-BusinessSuite(EBS)等其他Oracle产品用户的合适选择。ODI同时拥有本地和Oracle数据集成平台云。与其他工具不同,OracleDataIntegrator仅支持ELT任务,不支持ETL。用户的评价褒贬不一。同时,ODI比其他工具更简单,因为大部分外围功能已经包含在其他Oracle软件中。目前,OracleDataIntegrator在G2上的平均得分为4.0。作为评论者之一,ChristopherT.认为,虽然ODI是众多选项中最强大的工具,但在上手之前需要经过必要的培训。6.SkyviaSkyvia是一个可用于大数据集成、迁移和备份的云平台。用户可以使用它为包括Redshift、BigQuery和Azure在内的数据仓库创建数据管道。Skyvia最大的亮点在于通过提供免代码的数据集成向导,方便了ETL新老用户的使用。Skyvia在G2的用户群中非常受欢迎,评分为4.8。作为评论者之一,DavidK.认为,即使知识有限,他们仍然可以使用Skyvia提供的直观灵活的连接工具来同步多渠道零售业务中的库存。当然,在使用Skyvia作为ETL工具之前,请注意以下三个方面:Skyvia主要专注于ETL的提取和加载阶段,其转换功能相对有限。与其他ETL工具相比,Skyvia提供的集成和连接器数量较少。一些用户抱怨说,在涉及技术问题时,其客户支持效率不高。7.Fivetran作为基于云的ETL解决方案,Fivetran支持与Redshift、BigQuery、Azure、Snowflake等数据仓库的数据集成。Fivetran的最大优势在于其丰富的数据源,包括大约90个SaaS源,以及添加用户定义的集成的能力。目前,Fivetran在G2上有4.2颗星。许多用户对其简单易用赞不绝口。作为审稿人之一,DanielH.认为:Fivetran可以提供快速可靠的文档连接,并且可以直接连接到新的连接器。当然,也有部分用户对Fivetran从连接器数量转变为新的以消费为基础的定价模式提出异议。同时,少数用户在技术和客户支持方面遇到了问题。他们的观点:Fivetran是一个黑盒子,一旦出现问题,不仅难以自行诊断,也难以获得热线支持。其他8个值得参考的ETL工具8.StriimStriim为大数据任务提供实时数据集成平台。用户可以以大约20种不同的文件格式集成各种数据源和目标,包括Oracle、SQLServer、MySQL、PostgreSQL、MongoDB和Hadoop。由于Striim符合GDPR和HIPAA等数据隐私法规,因此用户可以使用SQL或Java定义预加载的转换。Striim平台的主要缺点是它不能包含任何SaaS源或目标,也不允许用户添加新的数据源。此外,Striim的用户群并不大,目前G2上只有1条评论。9.Matillion作为云ETL平台,Matillion可以与Redshift、Snowflake、BigQuery和AzureSynapse进行数据集成。用户可以通过简单地点击界面或SQL中的定义,在Matillion中创建数据转换。与Striim类似,与前面讨论的其他工具相比,Matillion仅支持大约40个SaaS数据源。虽然它在G2上获得了4.2颗星,但其定价模型基于虚拟机时间,而不是实际工作负载或正在使用的计算资源,这让一些评论者对其产生了质疑。10.PentahoPentaho(也称为Kettle)由HitachiVantara开发,是一个开源平台,可用于数据集成和分析。用户可以选择Pentaho的免费社区版和企业版的商业许可。与Xplenty类似,Pentaho具有易于使用的界面,即使是ETL新手也可以使用它来构建稳定的数据管道。当然,Pentaho也有模板和技术有限等缺点。目前,Pentaho在G2上的平均评分为4.3星。但也有用户反映,由于日志记录中缺乏对错误的详细注释,他们很难确定错误的真正原因。11、AWSGlueAWSGlue,可用于大数据分析任务,是AmazonWebServices提供的完全托管的ETL服务。作为端到端的ETL产品,AWSGlue不仅减少了ETL的工作量,而且与AWS生态系统的其余部分很好地集成。值得注意的是,AWSGlue是无服务器的。这意味着亚马逊会自动为用户配置服务器,并在工作负载完成后关闭它们。AWSGlue通过提供作业调度和开发人员端点等功能,可以轻松测试各种AWSGlue脚本。目前,AWSGlue不仅在G2平台上获得了3.9颗星,还在X2上被评为ETL工具领域的“Leader”(类似于Xplenty)。我们没有将它列入前7名顶级ETL工具的原因是它不如其他工具灵活,而且通常更适合那些已经在AWS生态系统中的工具。12.Panoply作为一个自动化的自助式云数据仓库,Panoply旨在简化数据集成的过程。标准ODBC/JDBC连接、Postgres连接和AWSRedshift连接等数据连接器都与Panoply兼容。此外,用户还可以将Panoply与前面提到的Stitch和Fivetran等ETL工具连接起来,进一步扩展他们的数据集成工作流程。在G2上,Panoply获得了4.4星。作为评测者,StacieB认为Panoply最大的优势在于可以轻松导入多源数据,可以快速搭建程序,实现数据加载。Panoply之所以没有被列入前七名的ETL工具,是因为Panoply既是数据仓库又是ETL解决方案。因此,如果您已经在使用其他类型的云数据仓库,并且不打算更换,则没有必要选择Panoply。13、Alooma是一款云数据仓库的ETL数据迁移工具。Alooma的主要卖点是它自动化了大部分数据管道,以便用户可以专注于技术细节而不是结果。2019年2月,谷歌收购了Alooma,并将其注册限制为谷歌云平台的用户。这意味着任何使用其他数据仓库(例如Redshift或Snowflake)的客户都将无法使用该工具。尽管如此,Alooma在G2上仍然获得了4.0星。其中一位评论者认为,虽然Alooma通过其代码引擎功能提供了各种灵活性,但其一些关键工具堆栈服务还不成熟。14.HevoData作为ETL数据集成平台,HevoData预置了数百个连接器,可用于连接Redshift、BigQuery和Snowflake等各种数据库、云存储和SaaS源。用户可以使用Python在HevoData中自定义预加载的转换。Hevo最大的局限性是它不能添加自己的数据源来建立新的连接。此外,HevoData的用户基数较小,目前在G2上只有6条评论。15.FlyData作为一个实时数据复制平台,FlyData最大的优势在于只兼容AmazonRedshift数据仓库。也就是说,如果你是Redshift的“铁杆用户”,可以直接使用这款为Redshift量身打造的工具。但是,如果你正在使用其他数据仓库解决方案,或者想保持灵活性并避免供应商锁定的风险,那么FlyData就不适合了。此外,FlyData仅适用于AmazonRDS、AmazonAurora、MySQL、Percona、PostgreSQL、MariaDB等少数数据源(其中没有SaaS平台)。一个好的ETL工具的用例从上面可以看出,没有两个ETL软件工具是完全一样的,每个都有自己的优点和缺点。为了让您能够找到最适合您业务需求的ETL工具,我们来讨论一下每个工具最适合的应用场景。大家可以据此进行综合评价和选择。Xplenty:适用于ETL和/或ELT任务的日常处理,满足非技术人员直观的拖放界面,以及需要多个预置集成和重视数据安全的项目。Talend:适用于喜欢开源解决方案的公司,以及需要多个预构建集成的项目。Stitch:适合喜欢开源解决方案,简单的ELT流程,但不想进行复杂转换的人。InformaticaPowerCenter:适用于预算庞大、性能要求苛刻的大型企业。OracleDataIntegrator:适用于现有的Oracle客户,以及需要处理ELT任务的公司。Skyvia:适用于不需要大量转换的无代码解决方案的项目。Fivetran:适用于需要多种预构建集成和灵活性的多个数据仓库的用户。Striim:适用于需要遵守GDPR或HIPAA而无需添加新数据源(尤其是SaaS)的项目。Matillion:适用于需要简单的点击界面和有限数据源的公司。Pentaho:用于使用开源ETL工具的项目。AWSGlue:适用于需要完全托管的ETL解决方案的现有AWS用户和公司。Panoply:适用于需要结合ETL和数据仓库解决方案的项目。Alooma:适用于现有的GoogleCloudPlatform用户。HevoData:适合需要在自己的数据转换任务中加入Python,但又不需要增加新数据源的项目。FlyData:适用于只需要使用Redshift作为数据仓库的公司。正如您所见,在为您的团队确定最好的ETL软件工具时,您需要了解项目的特点和使用场景,只有通过试用和研究才能找到最佳选择。原标题:Top7ETLToolsfor2021,作者:AbeDearmer
