首页 博客
为什么Elt是数据集成的未来
Fivetran
首页 博客
为什么Elt是数据集成的未来

为什么Elt是数据集成的未来

许多分析程序很难从大量和不可预测的来源吸收数据,但自动ELT提供了一个解决方案。

通过 杰森•哈里斯2020年11月23日

为什么如此多的企业难以建立成功的分析程序?缺乏数据不是问题所在。从数以百计的云应用到数以百万计的物联网终端,数据量在组织和行业中呈爆炸式增长。真正的挑战是如何在可靠的基础上获得及时、可信的数据,以便数据分析师能够真正完成他们的工作——分析数据!

数量和多样性的问题

数据可以来自组织中的成百上千个来源,包括:

  • 软件触发器记录的数字活动,例如点击网站或应用程序

  • 存储在金融系统中的交易

  • 报告来自不同广告平台的数据

获得简单、可靠的数据访问有两个问题。随着SaaS应用程序的不断发展和在各种规模的组织中证明其价值,公司正在实现更多的应用程序来运行他们的业务。大多数公司都使用各种各样的应用程序来处理诸如客户关系管理、账单和客户服务等业务。

此外,每一个不同的应用程序都有一个复杂的api和数据模型组成的网络,这些api和数据模型可以在接到通知后立即更改——或者根本没有通知。所有这些都构成了一个令人生畏的数据集成挑战。应用程序数量的爆炸性增长和应用程序复杂性的不断增加相结合,难怪组织不能很好地进行分析或实现任何商业价值。

为什么传统的ETL过程步履蹒跚

数据集成的主要方法是一个被称为提取-转换-加载(extract-transform-load,简称ETL)的过程,它已经存在了几十年。缩写ETL通常被通俗地用来描述数据集成活动。ETL是在计算能力、存储和带宽稀缺且价格昂贵的时候发展起来的。在这样一个资源受限的时代,ETL是云时代一个有限的、过时的数据集成工具,其特点是马力无限,成本效益巨大。

在构建ETL管道时,数据工程师和分析师遵循的工作流通常包括以下步骤:

  1. 确定项目范围-确定报告的范围和业务目标

  2. 定义模式——为数据建模并确定必要的转换

  3. 构建ETL——编写软件,指定要调用的API端点的详细信息,如何规范数据,以及如何将数据加载到目标

  4. 表面洞察——生成重要决策者可消化的报告

  5. 处理破裂管道并报告中断情况

  6. Re-scope项目

这最终是一个资源密集型的、无休止的循环,因为每个数据管道都运行在为特定用例设计的自定义代码上。代码可能在没有任何警告的情况下变得无功能,从而导致管道破裂。当管理层或业务线需要一个新的需求时,数据工程师要面对大量的代码修改。

ETL如何阻碍数据分析师

任何依赖于ETL的组织总是在正确的时间访问正确的信息。然而,正如我们上面提到的,ETL仍然是已建立的组织中的行业标准。许多企业都在使用上世纪70年代的技术,而现代的、基于云计算的企业正在逐步退出。

2020年6月维的研究调查近500名数据专业人士透露了与过时的集成技术相关的多种容易出错的做法、效率低下和数据延迟问题:

  • 62%的数据分析师表示,他们每个月都要多次等待工程资源

  • 90%的受访者表示,在过去12个月里,许多数据来源都不可靠

  • 86%的分析师表示,他们不得不使用过时的数据,41%的分析师使用两个月或更早的数据

数据集成的现代方法

许多现代企业,包括广场, Urban Outfitters和DocuSign的数据集成采用了不同的方法。这种被称为“自动ELT”或“自动数据集成”的现代方法使数据访问像电力一样简单可靠。使用自动ELT和现代数据堆栈的数据分析师可以及时、充分地提出建议,而无需承担任何工程负担。

自动化ELT的工作原理

ELT,或“提取、加载、转换”,将“转换”步骤转移到数据管道的末端:分析师可以在转换数据之前加载数据,因此他们不必事先确定他们想要生成什么洞见;底层源数据被忠实地复制到数据仓库,并成为“单一真实源”。然后,分析师可以在不影响仓库数据完整性的情况下对数据执行转换。

ELT充分利用现代云数据仓库的成本效率,这些云数据仓库是面向列的和功能架构,其单独计算从存储。旨在非常有效地运行分析查询,它们允许组织存储大量数据并经常有效地运行查询。

自动化ELT利用预构建的零配置数据连接器,自动检测和复制模式和API更改,并稍微清理和规范化数据。这些活动需要对数据源的深入了解、广泛的数据建模和分析专业知识,以及构建健壮的软件系统的工程知识。

我们所说的“现代数据栈”是以ELT为基础的,并以云本地SaaS技术取代本地技术。现代数据栈中的关键工具是:

  1. 用于提取和加载的完全托管的数据管道

  2. 云数据仓库

  3. 商业智能工具

通过适当的实现,现代数据堆栈提供了持续的数据集成和组织范围内的数据可访问性,并减少了人工干预和定制代码。

《旧城堡》:一个真实世界的成功分析故事

自动化数据集成和现代数据栈提供了许多好处,从降低工程成本和丰富数据到缩短洞察时间和提高对不断变化的市场条件的适应性。下面的案例研究说明了现代数据栈如何通过云迁移帮助一家公司节省了数十万美元。

作为构建附属产品的行业领导者,Oldcastle Infrastructure在决定将近40年的数据迁移到云计算时,恰当地采取了“自己动手”的方法。该公司启动了一个仓库项目,专注于从内部ERP数据库和NetSuite收集销售数据,这样就可以在两个ERP之间拥有交易、制造和生产数据的单一视图。这个项目进行了8个月后,Oldcastle意识到它需要一种新的方法。管道难题中最具挑战性的部分是NetSuite连接器。

Oldcastle BI的IT经理Nick Heigerick解释道:

NetSuite不断改变其API,使得传统的管道策略难以维护。我以为我得花一大笔钱雇个人来监控后台发生的事,但Fivetran与API保持一致,获取所有数据,并自动集中它雪花。第一个项目甚至从未试图获取数据。他们认为这是不可能的。使用Fivetran,我在10个工作日内复制了我们所有的数据——从我们的on-prem和云erp中复制了每一张表和每一个字段,这为我们节省了大约36万美元的初始设置和维护我们的SQL Server和NetSuite连接器。

如何使你的数据堆栈现代化

您可以在不到一个小时的时间内设置并开始测试一个现代的数据堆栈,因为许多关键工具彼此兼容,并提供快速设置和免费试用。但是,在您这样做之前,请考虑您的组织的需求,并评估每种技术的产品:数据集成工具、云数据仓库和业务智能平台。在我们的博客中基于云的数据分析三步,“我们将带领您完成这个过程,向您展示如何选择和测试组成现代数据堆栈的工具。

在几分钟内开始分析您的数据,而不是几个月

立即启动任何Fivetran连接器。