通过Fivetran、Snowflake和dbt, Autodesk Construction Services为其许多收购建立了统一的数据架构。
通过现代化的数据栈,Autodesk Construction Services整合了来自多个收购的财富500强的数据架构。随着Fivetran、Snowflake和dbt的加入,管道的维护被取消了。数据加载不再需要人工回填或数千行Python代码和运行时间,这可能需要几个小时,现在BIM 360和BuildingConnected(最近四个建筑产品收购中的两个)只需几分钟。
管道:Fivetran
来源:振幅,AWSλ,Amazon S3,JIRA,mareto的,Mixpanel年,MongoDB,NetSuite,PostgreSQL,Salesforce,SFTP,条纹,人则,Zendesk
目的地:雪花
转换:印度生物技术部
欧特克交付服务于制造、建筑、建筑、媒体和娱乐行业需求的软件组合。Autodesk建筑服务(ACS)是Autodesk的一个部门,拥有工具使建筑客户提供更好的建筑生命周期,从设计阶段,到规划(施工前),建筑(施工)和运营。然而,随着多起收购,包括BuildingConnected和女子360它混合了不同的应用程序、数据库、客户数据平台和企业需要集中的分析工具。
Autodesk Construction Services数据团队面临的主要业务挑战包括数据提取、存储和转换。数据工程经理Evin Anderson解释了BuildingConnected的情况:
我们一直在使用Alooma,每当一列有不同的格式或出现意外的值时,团队就必须逐个排除每个单独的问题。通常情况下,只需重新设置桌面就容易多了,这对于故障排除来说是件麻烦的事情。估计有3-5%的分析时间花在对Alooma进行故障诊断上,以适应列格式的变化。
该团队还在其存储解决方案中遇到了并发问题。对数据库的过多调用和并行运行的查询降低了查询的速度,最长记录的运行时间为1小时40分钟。存储限制是有限的,计算的扩展速度需要计划升级。需要3000多行Python代码来解包JSON并格式化数据,以使其成为可用的分析形式。数据分析师Raul Maldonado解释说BIM 360也存在同样的问题:
提取需要每天监控,分析员进入系统以确保没有数据丢失,上游的模式变化不会影响下游的工作流程。有超过20个下游模型,业务必须确保是可靠的。参数和回填功能的限制意味着可能会有几天的数据丢失,需要人工回填,转换可能需要23个小时。
公司意识到有必要将收购整合在一起,为客户提供更具凝聚力的产品和体验。他们还希望为组织提供洞见,以鼓励数据素养和明智的决策。包括Anderson和Maldonado在内的一个小组开始定义他们的理想数据体系结构,其中包括将数据源放入仓库并执行转换。对于改进架构,Autodesk可以通过Fivetran、Snowflake和dbt组成的现代数据栈轻松实现一些关键需求:
为源标准化创建高度非标准化的表
仓库的大小调整
提高并发性
在仓库中实现JSON处理和列表转换。
安德森解释了Autodesk的每个部分的好处:
第五章:“通过Fivetran,我们可以进行自动模式迁移,因此数据流不会中断。我们有测试来排除可能出现的特定领域的故障,但这并不能阻止我们的最终用户使用我们的报告工具。设计直观、简单,连接器覆盖范围满足我们的大多数工具需求,客户服务很棒。”
雪花:“有了雪花,我们就有了无限的伸缩性和弹性并发性。以前,如果运行的查询太多,会降低我们的体验。现在,我们可以很容易地管理交通,它不会干扰运行时间。如果我们需要更快的查询速度,独立的计算资源允许我们调整仓库的大小。一般来说,我们将在实际数据仓库本身中实现所有与JSON提取相关的流程。安全的数据共享和经济有效的存储对于与企业共享数据非常重要。”
印度生物技术部:“dbt允许我们建立可重复的数据转换。我们可以安排作业为我们创建数据表,在下游表中显示。有了这种设置,我们应该能够不知道我们使用的具体工具,”Anderson说。
通过Fivetran、Snowflake和dbt的收购,这两笔收购在时间和维护方面都节省了大量资金,而且业务正在顺利地为Autodesk和它的多笔收购创造一个单一的真相来源。随着架构的到位,Autodesk现在可以巩固其BI仪表板,确定机器学习基础设施,并增强dbt测试和文档。以下总结了两种产品的结果:
BuildingConnected:
管道维护已经从分析师花费的3%到5%的时间减少到不足1%的时间(简单地添加新的连接器)
不再需要任何Python代码行来解包JSON
所有的转换都在仓库内完成
通过灵活的并发性和创建更大表的能力,转换运行时间减少了68%
360年女子:
提取过程不再需要每天监控——如果连接器延迟或同步失败,Fivetran会自动提供电子邮件警报
由于Fivetran在上次成功同步的基础上提取数据,数据将自动回填
转换发生在几分钟内,这真的很有影响力,并帮助分析师更快地提供见解
想亲身体验Fivetran如何通过无缝地将您的数据集成到云数据仓库中来节省您的时间和资源,请注册一个个性化的演示或者开始你的免费试用今天。
关于Fivetran:根据数据分析师的实际需求,Fivetran技术是将应用程序、数据库、事件和文件复制到高性能云数据仓库的最聪明、最快的方法。Fivetran连接器可在几分钟内部署,无需维护,并自动调整源更改-因此您的数据团队可以停止对工程的担忧,而专注于驱动洞察力。
雪花:雪花是领先的云数据仓库。其独特的体系结构在性能、并发性和简单性方面实现了突破。这是第一次,多个组可以同时访问pb级的数据,速度比非云解决方案快200倍,成本低10倍。Snowflake是一个完全托管的服务,具有按需付费的模型,可以处理结构化和半结构化数据。
关于印度生物技术部:dbt是由Fishtown Analytics构建和维护的开发环境,它使用的是数据分析师的首选语言——sql。有了dbt,分析师就拥有了整个分析工程工作流的所有权,从编写数据转换代码到部署和文档。