跳过主要内容

行业领袖:构建多云现代数据堆栈

现代数据堆栈(MDS)使业务对不断变化的需求更加敏感,同时允许工程师将使头脑麻木的任务自动化,并专注于高价值的工作。当组织采用多云策略,利用不同的云服务来实现堆栈中的不同功能时,它们仍然可以获得更高的效率。例如,他们可以根据云提供商的相对优势来挑选数据的存放位置,或者更重要的是,通过优化来降低成本。

但是,在实现MDS时,组织会犯哪些常见错误,如何确保您的MDS是可预见的呢?互操作性和开源也很重要,但为什么呢?

我们最近的炉边聊天多云现代数据栈,聚集了四个行业的开拓者,讨论了多云MDS的基本规则:

高增长的企业拥抱数据云和多云

马丁•卡萨多(Martin Casado)表示,如果你是安德森•霍洛维茨基金(Andreessen Horowitz)的普通合伙人,你会看到“大量的宣传材料”,然后你“每年会见大约3000家公司”。在这些推介和聚会中,卡萨多看到了一个趋势:数据是高增长业务的核心。

作为事实上的调解人,Casado表示,在成功的企业中,多云已经成为一种默认设置:“我认为它在对话中很常见。”

Ali Ghodsi指出,像Fivetran和Databricks这样的公司将继续重新设想如何处理数据。随着时间的推移,这些公司和其他公司将使日常工作比现在更容易完成。“我们正处于现代数据堆栈的第一局,”Ghodsi说。这是因为“MDS的目的不仅仅是模仿on-prem。”相反,多云MDS正在引领潮流。

Sudhir Hasbe开玩笑说:“我希望谷歌云上有所有的数据,但他知道这不太可能:“真正的问题是我们如何让组织在这些平台上利用他们的所有数据。”

多云帮助您的组织抵御未来

Ghodsi说,如果你是一位商业领袖,你应该确保你的公司具有前瞻性。最好的方法是避免被单一的技术所束缚。相反,选择最好的品种。当您有一个多云MDS时,“您不会选择错误的云”—您已经选择了多种云。

由于Ghodsi相信未来将由人工智能和机器学习主导,他还建议在构建现代数据堆栈时,要记住这两种技术。随着时间的推移,这些新兴技术将变得越来越重要。

George Fraser补充了一些建议:注意你在数据栈上构建的东西。许多将传统数据仓库迁移到Databricks、BigQuery或Snowflake等现代系统的公司现在都对自己的存储过程感到后悔。这些公司将大量的逻辑建立在与特定系统相连的数据堆栈之上——实际上,它们是被锁定的。

根据Fraser的说法,解决这个问题的一个方法是选择来自dbt实验室的流行框架。Dbt在数据仓库之上管理视图,它在很大程度上将您与系统之间的差异隔离开来。

对于Hasbe来说,互操作性是至关重要的——但多云中的互操作性只是起点。您还应该确保所有存储层和引擎都具有互操作性,无论您是将信息用于数据科学任务还是任何其他操作。

Hasbe补充说,在多云MDS空间中涉及到四种角色:数据工程师、数据科学家、数据分析师——以及管理和支付管理费用的管理员。通常情况下,软件只针对这些角色中的一两个。为他们每个人争取一席之地是值得的。“如果你不这样做,这些角色之间可能会有内讧和政治斗争,”哈斯贝说。

跨云数据治理是关键

Hasbe认为,简化数据摄取非常重要,但是利用一个允许您选择数据驻留位置的平台也非常重要。此外,您还需要一个通用的治理框架来管理数据存储的时间——以及何时删除数据。

但Hasbe表示,最关键的任务是避免数据重复。他说,客户经常“被他们组织中不同的用户创造了这么多副本所震惊”。这就产生了治理和法规遵循问题。拥有一个可以区域化但也可以通过公共目录进行治理的单一数据存储层非常重要。

弗雷泽表示,数据治理“现在有点像西部拓荒时期的东西”。虽然不是一个数据治理工具,但Fivetran想要提供帮助。“我们有很多知识这个数据是从哪里来的,当我们得到它时,使用的用户ID从Salesforce数据,所以很多东西我们谈论的是我们如何表面所有的元数据来喂它下游数据治理工具,使他们更好的工作,”弗雷泽说。

优化降低云成本

根据一篇文章云服务的平均商品成本(COGs)是“绝对疯狂的”。他的文章调查了在过去五年中进行首次公开募股的软件公司——他们的销货率是50%。

Ghodsi开玩笑说:“扔手榴弹做得不错。”云计算费用是一个大问题,因为业务需要围绕其销货成本的可预测性,而云计算供应商的利润率为30%。Ghodsi认为,随着时间的推移,云计算供应商之间的竞争将推动成本下降。

Hasbe说:“我认为组织需要能够灵活升降的基础设施。通过云计算,企业可以更快地创新:“我认为,这就是移动到云计算的价值主张,无论你移动到哪种云计算。”规模经济开始发挥作用;成本将会改善。

弗雷泽表示,Fivetran能够通过“不断优化”,将成本减半,这在云计算中要简单得多:“在云计算中切香肠要容易得多。”弗雷泽说,公司应该从寻找容易实现的、可以优化的目标开始。

未来堆栈:一个存储层,多个用例

现代数据堆栈的方向是什么?弗雷泽说:“这是关于创建一个存储层,服务于多个用例。”例如,Databricks具有类似数据仓库的特性,比如快速SQL引擎和可快速读取到数据湖的优化文件格式。

“每个人都在试图解决同样的问题,”他指出。供应商从数据仓库开始,并向其添加类似数据湖的特征。其他人则从数据湖开始,并在其中添加数据仓库特征:“无论如何,它都将对客户有好处。”

Hasbe补充说,多云互操作性将允许你在任何你能得到最好价格的地方存储数据。Ghodsi对此表示同意,并补充道,多云将成为必备。如果一个软件只能在一个云上运行,对大多数用户来说,这将是一个致命的打击。

Ghodsi认为,对于现代多云数据堆栈来说,“前方将是一个令人兴奋的时代”——收益远远大于挑战。