2020数据仓库基准：红移，雪花，Presto和Bigquery |博客|Fivetran.

BigQuery平衡速率类似于雪花，除了没有计算群集的概念，只是一个可配置的“计算插槽”。BigQuery按需是一个纯粹的无服务器模型，其中用户一次提交一个查询并每次查询付款。根据您的工作量的性质，按需模式可能更昂贵，或更便宜。使用24/7使用计算容量的“稳定”工作负载将在平衡模式下更便宜。包含长期闲置或较低利用率的周期性大查询的“尖峰”工作负载将在按需模式下更便宜。

为什么我们的结果与以前的基准不同？

系统	集群成本	地理时间
Azure SQL DW.	$ 181 / hr	15.60
红移	$ 144 / hr	18.45
雪花	$ 128 / hr	28.40
beyquery.	55美元/小时	101.22

亚马逊的红移与BigQuery基准

2016年10月，亚马逊在BigQuery和Redshift上运行了TPC-DS查询的版本。亚马逊报告说，Redshift是6倍的速度更快，BigQuery执行时间通常大于一分钟。他们的基准和我们的主要差异是：

它们使用了10倍较大的数据集（10TB而不是1TB）和2倍更大的红班群（38.40美元/小时与19.20美元/小时）。
他们使用Sort和Dist键调整仓库，而我们没有。
Bigquery Standard-SQL于2016年10月仍处于Beta;当我们运行这个基准时，它可能已经更快地获得了更快的速度。

声称自己产品的供应商的基准是最好的，应该用一粒盐进行。亚马逊博客文章中没有指定有许多细节。例如，他们使用了一个巨大的红移群集 - 他们是否将所有内存分配给单个用户，使得这款基准测试完全超快，即使这不是一个现实的配置？我们不知道。如果AWS将发布重现基准测试所需的代码，那将是伟大的，因此我们可以评估它的现状程度。

潜望镜的红移与雪花与BigQuery基准

此外，2016年10月，潜望镜数据使用每小时聚合查询的三个变体比较红移，雪花和BigQuery，将10亿行事实表加入小维度表。他们发现红移与Bigquery的速度大致相同，但雪花较慢。他们的基准和我们的主要差异是：

它们多次耗尽了相同的查询，这消除了红移的慢编译时间。
他们的查询比我们的TPC-DS查询更简单。

用“简单”查询进行基准测试的问题是，每个仓库都会在此测试中做得很好;如果雪花是一个简单的查询快速和redshift真的，那并不重要，真的很快，真的很快。重要的是你是否能够足够快地完成艰难的疑问。

潜望镜也比较成本，但它们使用了一种不同的方法来计算每查询的成本。像我们一样，他们看着他们的客户的实际使用量数据，而不是使用时间闲置的百分比，他们看每小时查询数量。他们确定了大多数（但不是全部）潜望魄的客户会发现红移更便宜，但这并不是一个巨大的差异。

Mark Litwintschik的11亿出租车乘坐基准

Mark Litwintshik基准Bigquery于2016年4月和Redshift于2016年6月。他跑了四个简单的查询，对阵单一的桌子，带有11亿行。他发现BigQuery与大约2x大的红移集群比我们的速度大约相同（41美元/小时）。两个仓库在1-3秒内完成了他的查询，因此这可能代表“性能楼层”：即使是最简单的查询也有最小的执行时间。

免费14天试用

立即创建您的帐户！数据集成在几分钟内，而不是几天。

结论

这些仓库都具有优异的价格和性能。我们不应该感到惊讶，他们类似：制作快速柱状数据仓库的基本技术是众所周知的C店纸已于2005年发布。这些数据仓库无疑使用标准性能技巧：柱状存储，基于成本的查询规划，流水线执行和立即编译。我们应该对声称一个数据仓库的任何基准持怀疑态度比另一个数据仓库的基准迅速。

仓库之间最重要的差异是他们的设计选择引起的定性差异：一些仓库强调可调性，其他易于使用。如果您正在评估数据仓库，则应演示多个系统，然后选择为您击中正确平衡的系统。

关于fivetran.：Fivetran是自动数据集成的领导者，提供了使用的连接器，可自动适应模式和API更改，确保一致，可靠地访问数据。Fivetran通过将数据从源应用程序从源应用程序与任何目的部门连续同步，提高数据驱动的决策的准确性，允许分析师使用最新鲜的数据。为了加速分析，Fivetran可以在仓库中转换，并提供特定的源分析模板。了解有关数据集成的更多信息，以便更改www.miaplace.com.或者开始免费试用www.miaplace.com/signup.。

2020数据仓库基准

比较红移，雪花，presto，bigquery

下载报告

笔记

[1] TPC-DS是用于数据仓库的行业标准基准。Even though we used TPC-DS data and queries, this benchmark is not an official TPC-DS benchmark, because we only used one scale, we modified the queries slightly, and we didn’t tune the data warehouses or generate alternative versions of the queries.

[2]这是数据仓库标准的小规模，但大多数Fivetran用户都对Salesforce或MySQL等数据来源感兴趣，这些源具有复杂的模式但适度的大小。

[3]我们不得不稍微修改查询，以让它们跨越所有仓库。我们所做的修改很小，大多是更改的类型名称。我们使用buequery标准sql，而不是learacy-sql。

[4]为了计算每个查询的成本，我们假设每个仓库都在使用50％的时间。

[5]雪花成本基于AWS中的“标准”定价。如果您使用更高的层，如“企业”或“业务至关重要”，您的成本将是1.5倍或2倍。

[6] Presto是一个开源查询引擎，因此它与此基准测试中的商业数据仓库并没有真正匹配。但它有可能成为这个空间中的重要开源替代品。我们用了v0。329.的Starburst.Presto的分布。成本是基于Google Cloud上的按需成本。

[7] buequery是纯的共享资源查询服务，因此没有等效的“配置”;您只需向BueQuery发送查询，它会向您发送回放结果。

[8]如果您知道仓库上会运行什么样的查询，您可以使用这些功能调整表格并使特定查询更快。但是，典型的Fivetran用户在他们的仓库上运行各种不可预测的查询，因此将永远存在许多从调整中受益的查询。

[9]我们假设现实世界数据仓库空闲50％的时间，因此我们将基本成本乘以两个。

在几分钟内开始分析您的数据，而不是几个月

立即启动任何Fivetran连接器。

开启免费体验

得到一个演示

平台

为什么fivetran. 提取/加载转变嵌入式

连接器

应用程序数据库目的地活动文件功能

价钱

行计算器建立与购买

解决方案

客户支持数据分析和商业智能数据库复制数据工程学数据科学企业外部数据集成金融营销营销机构产品与工程销售量

资源

博客实例探究文件活动新闻和新闻资源中心网络研讨会

伙伴

找一个合作伙伴系统集成商技术合作伙伴

支持

支持门户网站常见问题解答

有用的内容

数据集成的基本指南数据集成：建造或购买？数据仓库基准如何实现自动数据集成如何选择完美的BI工具

公司

关于fivetran. 文化职业生涯联系我们合法的

跟着我们