通过用自动ELT取代自制的ETL, Autodesk将数据吸收过程从6个月缩短到6天。
自2019年加入欧特克以来,杰西Pederson欧特克的数据平台和洞察副总裁一直专注于燃烧“正确的卡路里”。
“如果你看今天我们花费我们所有的精神卡路里,我们建立管道将数据仓库和带入我们的湖——而不是关注最重要的部分:为什么你甚至建立一个数据湖首先,”杰西2021年在Gartner数据&分析峰会上表示。
“我来到我的团队,对他们说:看,我们需要更多地关注连接,而不是管道。”
曾经以AutoCAD闻名,欧特克现为全球设计软件供应商,员工超过11,000人。“无论是一座新桥,一座摩天大楼,一辆智能汽车,还是一部新的大片,我们的软件帮助人们设计和制造任何东西。”欧特克的快速增长和收购战略创造了巨大的机遇和内部需求。
Jesse向他的团队提出挑战:“今天,我们花了6个月的时间将新的数据集引入数据平台。我打赌我们能在六天内到达那里。六天时间来收集客户的需求,让供应商建立起来,并通过所有安全和隐私控制来实际运行。”
“从头到尾,整整6个工作日。这就是我们的目标。”
Jesse通过关注四个指导原则来调整团队的思维方式和使命,从而开启了Autodesk内部的转型:
买>构建:把有价值的工程卡路里放在困难的问题上,让供应商来做剩下的工作。
保持简单:有通知我们将提供一套严格的工具。
尽量缩短影响时间:让客户快速将数据带到欧特克数据平台,并获得价值回报。
安全而私密地离开大门:从第一天开始就要尊重数据。
当Jesse继承Autodesk的数据堆栈时,数据的摄入是一个主要问题。“我们使用了大量不同的摄取机制来将数据带入我们的数据湖——Attunity、Glue、Kinesis和自定义脚本——坦白地说,还有大量的管道胶带,以确保这些数据进入我们的数据湖。”
团队一直在导入数据Salesforce,SAP,Siebel,和Autodesk自己的产品,如AutoCAD, Revit和Maya进入S3数据湖。数据可视化也有自己的挑战,“有一大堆不同的工具:Looker或Power BI、笔记本,以及大量其他可视化数据的方法。”
为了简化流程,杰西引入了Fivetran雪花-并清楚地描述了数据摄取的过程。
如今,Autodesk已经将其数据管道分成了两部分,有两种固执己见的数据接收和存储路径:
如果来源是结构化数据存储,Jesse的团队使用Fivetran进行摄入。结构化数据存储在Snowflake中。
如果数据源是非结构化数据存储—例如Autodesk自己产品和软件的使用指标—Autodesk使用AWS Kinesis将大量数据导入S3。
根据需要在两个存储库之间复制数据。根据Autodesk的隐私控制,产品使用数据被提升到Snowflake,以便于可视化和分析,Snowflake数据的快照被持久化到S3中,以供历史参考和机器学习。
“坦率地说,我认为这真的有助于解放我们的团队,让他们去解决他们更愿意解决的问题。”有了节省下来的时间,Jesse的团队现在可以专注于构建有助于业务增长的解决方案,并将他的团队从成本中心转移到收入中心。
这种变化是巨大的——不仅节省了时间,还避免了电子邮件。我再也不会收到邮件说:“紧急——管道坏了。”我现在收到的邮件都是这样的:‘嘿,我什么时候能把数据放进去呢?’”