首页 博客
2025年的现代数据堆栈会是什么样子?
Fivetran
首页 博客
2025年的现代数据堆栈会是什么样子?

2025年的现代数据堆栈会是什么样子?

五位领先的专家分享了他们对数据行业未来发展的见解。

通过 杰森•哈里斯2020年12月9日

在不久的将来,数据工具和技术将如何飞跃?

这是一个重要的问题现代数据栈2020大会.Fivetran的首席执行官乔治·弗雷泽(George Fraser)召集了四位顶尖专家,讨论我们可能在短短几年内看到的进展。

加入董事会的行业名人包括:

  • 米歇尔Ufford他是Noteable的首席执行官和联合创始人,曾是Netflix数据团队的关键成员

  • 马丁Casado他是安德森•霍洛维茨基金(Andreessen Horowitz)的普通合伙人

  • Bob Muglia他是Fivetran董事会成员,也是Snowflake的前首席执行官

  • 特里斯坦方便他是Fishtown Analytics的首席执行官和创始人,也是开源数据分析工程工具dbt的创始人

以下是该小组就三个关键话题发表的看法。

数据湖在现代数据栈中有一席之地吗?

弗雷泽:在这样一个世界里,我们有数据仓库,使用对象存储来存储他们的数据,并给你一些数据湖的优势,数据湖仍然有一席之地吗?

Ufford:数据湖将占有一席之地。我不认为它会消失。我只是觉得不会像现在这样了。像Snowflake这样的技术消除了我们最初开始创建数据湖时的需求。但我认为,你将开始看到数据团队的分散化或数据网格化的转变。

Casado:根据我的经验,你最终会得到多种技术,它们可以做另一种技术在架构上所做的事情。但最终,你会得到围绕用例进行优化的产品和公司。我认为运营AI用例是一个很大的用例,而且增长得更快。所以实际上,我认为随着时间的推移,你可以认为是数据湖最终消耗了一切。

Muglia:事实上,不,我不认为数据湖还会有一席之地。但这是一个长期的观点。这是一个时间弧。您必须了解基础设施如何随着时间的推移而变化,以获得新的功能。我认为,从现在开始的5年时间里,数据将基本上坐在SQL提示符后面,然后随着时间的推移演变成关系。关系数据将占主导地位,SQL数据仓库将取代数据湖。

方便:由于很多原因,我相信一个组织会一次性存储他们的文件。您将不会有文件的数据仓库副本和文件的数据湖副本,这是您在今天的一些架构中看到的。这就要求你有一个开源的文件格式,可以在你的数据仓库用例和其他用例之间共享。这些也必须开始收敛,以便不同的用例可以利用相同的东西。

机器学习将如何影响分析?

弗雷泽:我们如何将机器学习、Python和Scala与我们的分析、SQL和BI工具结合在一起?主要有三个互相争生意的愿景:1)你要把机器学习SQL,像BigQuery是做什么,2)你把SQL为Python或Scala,砖的愿景,或者你使用Apache箭头3),每个人都实现了交换格式和一切谈判。你认为哪一个会胜出?

Ufford:我想看到的是绿箭侠。但最终,在一天结束的时候,你会继续看到专业化。例如,如果你想做深度学习,你想做的事情与预测模型有根本的不同。

方便:关于绿箭侠版本的世界,我想了很多。我认为在适当的时候,这将会成为主导。因为这个原因,工具最终演变成它们所服务的角色和它们所服务的用例。

Casado:我也相信绿箭的未来。你将会有一个异构的,分散的系统。在计算机科学中一直都是这样。因此,您确实需要开放接口。

Muglia:我要大胆地说,我们正在接近一个混合建筑的时代,在未来三到五年,混合建筑将占主导地位。您将看到各大厂商正在构建混合系统。它们都将拥有一个完整的预测性堆栈和一个完整的声明性、关系型SQL堆栈,并使用类似的接口内置其中——但这只是在关系型实际解决了更广泛的问题之后才会出现。

现代数据堆栈的用例是什么?

弗雷泽:您认为在未来几年内,哪些最有趣或最令人惊讶的用例可能会被拉入现代数据堆栈的轨道?

Muglia:我认为它将围绕复杂的数据。例如,我昨天与一家医疗领域的公司交谈,图像和医生笔记中存在的大量数据对我们今天的系统来说是不透明的。五年后就不会了。现代的数据栈将能够提取所有有用的信息。对我来说,这是一个巨大的转变,转变成未来几年将会出现的应用程序类型。

方便:在上一份工作中,我为一家公司负责市场营销。您在这里遇到的问题是,由于不同的操作系统做不同的事情,您需要在所有系统中使用相同的数据,因此您需要不断地编写代码来在系统之间来回推送数据。目前还没有人对系统进行重新架构,但我认为会有很多事情发生。

Muglia:Tristan,您真正在谈论的是现代数据应用程序的出现,这是一种利用数据为业务实际自主做出决策的操作应用程序。我们今天看到的这些例子很少,重要的例子大多在未来,但是孩子们,它们在未来会很重要吗。

感谢执行委员会全体成员参加现代数据栈会议!

观看所有现代数据栈会议

现在查看会话

在几分钟内开始分析你的数据,而不是几个月

立即启动任何Fivetran连接器。