首页 博客
扩展数据文化是一场马拉松,而不是短跑
Fivetran
首页 博客
扩展数据文化是一场马拉松,而不是短跑

扩展数据文化是一场马拉松,而不是短跑

工程师:遵循这三个步骤来推进公司的数据驱动文化。

通过 杰森•哈里斯2021年3月19日

Strava运动员追踪进展和分享成果的社交网络。这家成立12年的公司近年来取得了巨大的增长,并一直在寻求提高业务洞察力和加速数据驱动决策的方法。拥抱一个现代数据堆栈Strava的数据团队已经能够超越预期,培养Strava的数据文化。

数据工程师感恩日Strava的数据工程主管丹尼尔黄他公布了他的数据团队的流程,通过自动化和重塑新的数据文化来扩大和满足公司不断增长的数据需求。

1.意识到什么时候需要改变

黄说,在数据工程团队的成长过程中,公司往往会经历一个转折点,工程师们不仅要重新思考他们的工具和流程,还要重新思考他们的整个数据文化。

就像那些在Strava的应用上追踪自己活动的自行车手和跑步者一样,黄的团队花了大量的时间拼命比赛,只是为了跟上这家发展迅速、已有12年历史的公司的需求。

黄回忆说:“我们发现,更多的问题是在‘人员规模’方面。”

当他的团队停下来喘口气时,他们设想了公司的数据工程文化在未来几年应该是什么样子。黄回忆道:“这始于向平台的转变。”“作为数据工程师,我们的角色应该是构建平台,并引导人们通过它。让平台满足数据需求。”

作为上下文,Strava的原始数据基础设施如图所示。

2.确定瓶颈

Strava当然不是唯一一个对日益增长的数据需求反应迟缓的人。一项全球调查由Dimensional Research进行的调查显示,63%的公司仍然依赖手工脚本,尽管公司移动数据的速度比以往任何时候都要快。事实上,72%的组织现在需要每天、每小时甚至每几秒钟移动一次数据。

“一开始,我们所有的ETL作业都是由几个数据工程师编写的,这意味着我们要维护所有这些作业。我们随时准备解决这些就业问题,而不是建设基础设施或服务。”

这个小团队刚刚开始使用Redshift集群,与他们最初的MySQL reader实例相比,这是一个受欢迎的变化。但他们很快意识到,即使是这个解决方案也有一个上限——查询仍然会花费太长时间或失败,存储也变得越来越昂贵。

“底线是:我们越来越频繁地成为数据的界面,这超出了我们的意愿,我们正在成为公司的一个瓶颈。”

3.通过现代数据栈实现规模化

Strava的数据团队在新的愿景指引下,开始了扩展数据文化的道路,他们知道这需要10K的耐力,而不是绕着街区慢跑。Strava在Snowflake上实现了一个云数据栈,作为数据仓库,Tableau作为BI工具,Fivetran作为其数据管道供应商,自动将第三方供应商的数据导入Snowflake。

让我们看看Strava使用现代数据堆栈的现代数据管理方法的可视化地图。

“我们仍然是一个小团队,但我们已经取得了进步,”黄说。“基于云的工具的便利性让我们的团队能够从整体上思考公司的数据文化,他们已经建立了内部数据用户的分类,以更好地理解和满足他们的需求。”

还有增长的空间,他们的下一个目标是提高数据民主化和创建一个集中的数据目录。

享受这个过程,承认你的进步

这是一段有益的旅程,尽管并不容易。但随着Strava的新数据堆栈就位,Huang说,团队的数据工程师发现他们的工作更有回报和影响力,业务的其他部分也在扩展他们的工作,以增加更多的价值。

“推动采用新工具需要时间和精力,”他指出。“尽管我们得到了所有人的支持,但这仍需要时间。它必须被当作一种产品来对待。你必须推销,寻求意见,进行培训,以身作则。”

观看所有数据工程师答谢日会议

现在查看会话

在几分钟内开始分析你的数据,而不是几个月

立即启动任何Fivetran连接器。