在一项新的调查,数据工程师说,他们能够提供更多的商业价值 - 但过时的流程阻止他们。
数据工程成功的主要指标是简单的:正在使用的数据,以做出更好的组织决策?使这样的成功的基础,然而,是不是所有的简单。数据工程师需要不断集中和维护他们所有的组织产生的有价值的数据,将其转换成有用的指标,并使其分析师,数据科学家,内部业务用户和客户访问。
根据Fivetran赞助、Dimensional Research进行的一项全球调查,大多数数据工程师缺乏实现这一目标所需的时间和技术资源。对于许多组织来说,明智的决策仍然遥不可及。这项调查有两个突出的发现:
数据的工程师近50%的人认为有价值的组织分析数据不集中
近70%的人表示,他们没有足够的时间从现有数据中提取最大价值
问题是数据集成。
dimension Research发现,绝大多数数据工程师都在使用基于脚本的工具将数据输送到中央存储库,许多人仍然在使用电子表格。这些和其他常见的集成技术存在两个问题:它们很难构建,而且很容易崩溃。
10 +天
花费的时间,大多数工程师构建一个基于脚本的ETL解决方案
调查发现,近70%的基于脚本的解决方案,将近一半基于电子表格的解决方案,花了10多天来构建。尽管一次性投资,大部分管道都没有强大的 - 他们都容易发生故障且难以修复。接受调查的工程师的51%%的人说他们每天的管道破裂,每周或每月,超过一半的人认为它花了超过一个工作日修复破损管道。
数据工程师的51%
说他们的数据管道破裂每天,每周或每月
该问题是由数量众多的数据源现代企业使用的,并与从这些来源需要的数据移动频率加剧。调查发现,公司的59%,使用11种或多个数据源,并且近四分之一使用超过50 72%需要移动数据从源代码到目标超过每天一次。
> 1个工作日
大多数工程师修复管道断裂需要的时间
这些ETL低效解释两者的背线的统计数据,我们上面的叫了一声。楼宇管道是非常耗费时间,许多数据源去未集成和数据工程师不能充分地变换和他们,因为他们的数据模型花费在ETL那么多时间.
自动数据集成技术是专门为解决效率低下的管道建设和维护,同时加速数据转换和建模的过程。下面是它如何解决这些核心数据的工程挑战。
自动数据集成提供了具体的数据源的预建数据连接器,消除了管道建设的数据工程师的负担。供应商可以仔细研究各个数据源的API和数据库,然后构建连接器,自动标准化数据,并将其加载到分析就绪模式。
50%的公司
需要超过一个商业周刊构建数据管道
在Dimensional Research的调查中,工程师们表示,管道中断的两个主要原因是模式更改和源可用性问题(连接、正常运行时间等)。自动数据连接器可以通过自动检测和响应模式和API更改来排除这些故障。在出现故障时,它们会智能地从数据交付过程的最后一个成功点重新启动。
近60%的公司
遭受重大决策的决策延误时,管道破裂
预构建的自动化管道将数据工程师解放出来,专注于数据建模和转换。与仓库内转换工具的集成可以加速该过程,允许工程师与其他数据专业人员协作,并使他们能够在统一的托管环境中构建数据模型。
替换低效的ETL过程让数据工程师有更多的时间专注于战略性项目,而不会降低它们在市场上的价值。数据工程人才一直短缺至少从2016年开始,而对这一角色的需求也在持续增长。企业将继续需要数据工程师——但ETL并不一定需要。
79%的公司
今年计划招聘数据工程师
特里斯坦便捷,首席执行官Fishtown分析的创造者,印度生物技术部已观察到的自动化数据集成的上升第一手。汉迪认为,数据的工程师仍然是一个“任何高功能的数据团队的重要组成部分,”他在写最近的博客文章.他接着概述了数据工程师的四个主要角色,这些人不再需要担心ETL:
管理和优化核心数据基础设施
建设和维护定制摄入管道
支持数据团队资源的设计和性能优化
建立非SQL管线改造
在Fivetran,我们已经看到这种情况下打了很多次。当企业采用自动化数据集成,数据工程团队重新专注于创新,定制和优化,成果斐然。这里有一些例子:
Sendbird..数据工程团队成员每个保存的每月20小时,在构建数据湖再投资大部分时间。他们也开始重新设计产品功能,以增加销售和客户保留。
正方形.数据工程师将他们的注意力从构建和维护管道转向为新产品构建基础设施,包括针对业务需求的第一方解决方案。
点火组.摆脱了ETL任务,数据仓库团队可以更容易地与其他业务部门合作,并通过为Snowflake仓库编写维度视图来帮助公司的分析师。