跳过主要内容

什么是数据管道?

在当今的商业环境中,快速做出更明智的决策是一个关键的竞争优势。但从公司数据中获取及时的见解似乎是一项令人头疼的挑战。数据和数据源的数量每天都在增长:内部解决方案、SaaS应用程序、数据库和其他外部数据源。如何将来自所有这些不同来源的数据整合到一起?数据管道

什么是数据管道?

数据管道是一组将原始数据从源路由到目的地的操作和技术。数据管道有时被称为数据连接器。

数据管道由三个组件组成:源、数据转换步骤和目标。

  • 一个数据源可能包括一个内部数据库,比如由MongoDB或PostgreSQL支持的生产事务数据库;Salesforce、Shopify或MailChimp等云平台;或外部数据源,如Nielsen或Qualtrics

  • 数据转换可以使用工具执行,如印度生物技术部Trifacta,或者可以使用Python、Apache风流和类似工具等技术的混合手工构建。这些工具主要用于使来自外部源的数据与每个独特的业务用例相关。

  • 目的地是数据提取后存储在其中的存储库,如数据仓库或数据湖。

数据管道使您能够将来自不同来源的数据集中到一个地方进行分析。您可以获得客户更健壮的视图,创建统一的财务仪表板等等。

例如,一家公司的营销和商务堆栈可能包括独立的平台,如Facebook Ads、谷歌Analytics和Shopify。如果客户体验分析师想要理解这些数据点,以了解广告的有效性,他们需要一个数据管道来管理从这些不同来源的数据到数据仓库(如Snowflake)的传输和规范化。

此外,数据管道可以将数据从数据仓库或数据湖输入操作系统,如客户体验处理系统Qualtrics

数据管道还可以确保一致的数据质量,这对于可靠的业务智能至关重要。

数据管道架构

许多公司正在通过采用云本地工具来更新他们的数据基础设施。自动化数据管道是这个现代数据堆栈的关键组件,它使企业能够接受新的数据源,并改进业务智能。

现代数据栈包括:

  1. 自动化数据管道工具,如Fivetran

  2. 云数据目的地,例如雪花BigQueryAWS红移

  3. 加载后转换工具,例如印度生物技术部(也被称为数据构建工具,由Fishtown Analytics开发)

  4. 业务智能引擎,例如美人Chartio

数据管道可以将数据从源平台转移到目的地,分析师和数据科学家可以在目的地消费数据,并将其转化为有价值的见解。

以跑鞋制造商ASICS为例。公司需要整合来自NetSuite和Salesforce营销云的数据进入雪花,以获得360°的客户视角。

为了做到这一点,ASICS数据团队研究了它的核心应用数据——在这个例子中,来自流行的应用程序过程——并将忠诚度计划的注册数据与其他归因渠道的数据结合起来。通过数据管道,ASICS能够轻松扩展其数据集成。

根据业务用例和选择的目的地,上面的工作流有许多变体。

数据传输的基本步骤包括:

1:阅读

源可以包括生产数据库,例如MySQLMongoDBPostgresSQL,以及web应用程序,例如SalesforceMailChimp的。数据管道按预定的时间间隔从API端点读取数据。

2:定义目的地

目的地可能包括云数据仓库(雪花BigQuery红移)、数据湖或商业智能/仪表板引擎。

3.转换数据

数据专业人员需要结构化和可访问的数据,这些数据可以被解释,以便对他们的业务伙伴有意义。数据转换使执行者能够更改数据和格式,使其与他们特定的业务用例相关并有意义。

数据转换可以采用多种形式,如:

  • 建设性:添加、复制或复制数据

  • 破坏性:删除字段、记录或列

  • 美学:标准化称呼、街道名称等(也就是数据清理)

转换使数据具有良好的格式和良好的组织—便于人类和应用程序解释。数据分析师可以使用像dbt这样的工具来标准化、分类、验证和验证从管道输入的数据。

ETL和数据管道可靠性

就像技术世界里的任何事情一样,事情会发生变化,包括数据流。当您的数据分析和业务智能操作依赖于从各种来源提取的数据时,您希望数据管道快速而可靠。但是,当您接收外部源(如Stripe、Salesforce或Shopify)时,API更改可能会导致删除字段和破坏数据流。

此外,构建数据管道往往超出了分析师的技术能力(或愿望)。它通常需要It和工程人才的密切参与,以及定制的代码来提取和转换每个数据源。数据管道需要维护和关注,其方式类似于泄漏的管道——企业将资金投入其中——却没有什么回报。不要去想建造一个幂等数据管道

随着基于云计算的选项的快速增长和基于云计算和存储的成本直线下降,没有什么理由继续这种做法。如今,可以在云中以低成本维护大量数据,并使用SaaS数据管道工具来改进和简化数据分析。

简而言之,您现在可以提取并加载数据(在云中),然后根据分析的需要对其进行转换。如果你在考虑ETL和英语教学英语教学是正确的选择。

自动数据连接器

您的数据工程师无疑可以构建连接器来从各种平台提取数据。但在构建数据连接器之前,请回顾我们的数据管道构建vs.购买考虑。成本因地区和工资级别而异,但你可以快速计算一下,然后决定付出的努力和风险是否值得。

数据工程师更愿意专注于更高层次的项目,而不是将数据从A点移动到B点,更不用说维护上面提到的那些“泄漏管道”了。

比较手工构建连接器和自动化数据管道工具的工作。这种工具监视数据源的任何类型的更改,并且可以在不涉及开发人员的情况下自动调整数据集成过程。

这就是为什么自动数据连接器是减少程序员负担和支持数据分析师和数据科学家的最有效的方法。

随着数据传输(或数据管道)的处理,数据工程师可以自由地扮演一个更有价值、更有趣的角色:为内部利益相关者编目数据,并成为分析和数据科学之间的桥梁。

为什么Fivetran

Fivetran自动化数据连接器是预构建和预配置的,支持150多个数据源,包括数据库、云服务和应用程序。当供应商通过添加或删除列、更改数据元素的类型或添加新表来更改模式时,Fivetran连接器会自动进行调整。最后,我们的管道管理规范化,并为您的企业创建可以容错并在出现故障时自动恢复的就绪查询数据资产。了解更多有关自动化的数据集成解决方案。