企业数据仓库:定义和指南|博客| Fivetran

在某些情况下，我们有一个数据仓库中的数据子集，称为数据集市-数据仓库中供特定部门或团队使用的数据子集。从这些数据集市获得的报告和见解对于跟踪和衡量部门特定指标的进展非常有用，如流失率或支持票数量。当然，这些是需要跟踪的重要指标，但它们的范围有限，因为数据存储库只存储和管理与单个业务组的范围和操作相关的数据。

业务发展迅速，精明的企业将希望有一个数据存储和解决方案，能够在部门内实现可重复和准确的报告，并具有跨组织的视图(例如360度的客户视图)。简而言之，我们需要一个单一的真理来源，使:

1.立即访问可操作的数据

存储在企业数据仓库中的数据应该是最新的，由数据工程师进行清理和丰富，以符合公司的需要。这种访问使数据分析师(以及他们所支持的业务团队)能够以敏捷的方式构建基于整体数据集的洞见。

2.多个部门朝着一个共同的目标努力

企业数据仓库和其中包含的全公司数据提供了企业所面临的问题的总体视图。让我们来看一个在线销售商品的电子商务公司的例子。

在这个例子中，营销可能是跟踪社交媒体和有偿媒体上的广告如何推动网站流量上升。这个部门是由指标驱动的，这很好，但如果他们能够与销售和CRM系统协调，跟踪客户的购买过程，并看到一个广告如何引导潜在客户访问网站、浏览在线目录并购买多个商品，那会怎么样呢?有了EDW，销售和营销就可以一起优化潜在吸引力、发现和最终转化。

在本例和无数其他案例中，EDWs提供了上下文并演示了单个数据点之间的关系。这样可以更好地理解信息的含义，以及如何使用它。

3.合并和标准化数据

企业数据仓库的独特之处在于，它们存储了来自整个企业运营的大量数据集。当使用有效的数据转换时，可以将该数据用于整个企业的准确比较。

标准化的数据存储还可以帮助理解通过各种输入进入组织的看似随机的数据片段，并且通过自动聚合这些信息可以节省宝贵的时间。当组织的数据以这样一种系统的、自动化的方式组织时，组织很可能在未来的增长中处于更好的位置。

4.授权较少的技术团队成员

当EDW与数据驱动的文化当数据专业人士和决策者聚集在一起，在全公司范围内努力简化流程并影响收入时，洞察力开始流动。EDW惠及所有部门的非技术团队成员，包括营销、财务、人力资源、供应链等。在这些情况下，团队可以识别新的、范围更广的kpi和测量结果，允许关键人员进行相应的计划。

云企业数据仓库的好处

既然已经确定了EDW的业务需求，那么讨论拥有EDW的好处是很重要的基于云的仓库相对于本地的，传统的解决方案。

云数据仓库提供的主要功能包括:

速度和可伸缩性
更低的总拥有成本(TCO)
云弹性和集成能力
更好地为业务用户启用自助服务功能

云数据仓库的三家主要供应商是:Snowflake、AWS Redshift和谷歌BigQuery。

雪花

Snowflake的平台提供了一个完全弹性和高度灵活的数据仓库，可以收集、存储、查询和共享来自各种不同来源的数据集，从结构化数据到JSON。凭借完全集成的数据湖、安全的数据共享、数据交换和数据应用程序开发工作负载，Snowflake可以根据需要轻松地向上、向下或向外扩展，以处理现代数据企业不断波动的数据需求，跨越不同的部门、业务单位、地理位置和云。

谷歌BigQuery

BigQuery类似于Snowflake，除了没有计算集群的概念，只有可配置的“计算槽”数量。BigQuery按需查询是一个纯粹的无服务器模型，用户一次提交一个查询，并为每个查询付费。

AWS红移

Redshift是面向开发团队的AWS服务套件的一部分。通过Redshift，您可以使用标准SQL查询和组合数据仓库、操作数据库和数据湖中的结构化和半结构化数据。Redshift允许您使用开放格式(如Apache Parquet)轻松地将查询结果保存回S3数据湖，这样您就可以从其他分析服务(如Amazon EMR、Amazon Athena和Amazon SageMaker)进行额外的分析。

欲了解更多详细信息，参见我们的2020云数据仓库基准．

如何评估企业数据仓库选项?

由于许多供应商在云数据仓库中提供集中式数据存储，当您开始搜索时可能会感到畏惧。虽然每个公司都有自己独特的特点，但这里有一些关键的选择标准，可以帮助你做出决定。

1.选择一个有利于您的生态系统的云数据仓库

选择一个适合您的业务模型和现有系统的云数据仓库是很重要的。雪花，AWS，谷歌云，微软和砖所有这些都提供了出色的数据仓库选项。考虑基础设施的其余部分和现有的数据工具生态系统，以确保公司的数据类型和现有的生态系统与企业数据仓库的选择一致。

例如，进行兼容性评估，确认您的云数据仓库供应商将与您选择的数据转换、商业智能和数据集成/ETL工具很好地匹配。

2.成本比较

云数据仓库提供商有不同的计算计算和存储成本的方法。根据您的使用模型，这些成本配置可能会对每月的成本产生重大影响。执行使用审计并根据供应商选择检查您的模型，以确保成本处于您满意的水平。为了帮助您评估移动平台的成本，请参阅我们的帖子数据出口成本你应该阅读并分享给你的数据团队。

谈到成本，一定要考虑与数据迁移和采用新的云数据仓库相关的劳动力成本。您的团队内部是否有资源来采用新的数据堆栈，或者您需要与外部顾问接洽?这些问题对于您的数据仓库决策很重要。

3.安全

随着业务数据使用量的增加，数据源的数量也会随着传输和存储所有这些数据的安全因素的增加而增加。选择具有锁定模式、监视实用程序、远程维护功能和类似功能等特性的云数据仓库作为基准产品。

根据您公司的用例，需要选购的额外安全组件包括:

强大的用户身份验证和授权，将禁止未经授权的访问
数据加密
数据擦除，通过完全覆盖物理存储来保护数据，防止恶意恢复
通过数据屏蔽保护数据属性

4.考虑规模成本

随着公司的数据变得越来越成熟，另一个需要考虑的因素是数据容量、查询量和复杂性只会上升。审计您当前的数据仓库使用情况，并预测这些需求将如何随着时间的推移而增长，这一点至关重要。有了这一点，你可以问问你的潜在供应商，当你的需求扩展和灵活时，成本会受到什么影响。明智地购买，避免在团队不需要的能力上花钱。

5.用户访问

无论你的公司是否在HIPAA或GDPR等法律的监管下运营，确保正确的数据访问都是非常重要的。在评估供应商时，检查从只读、具有锁定权限的自定义用户组、加密列和支持一致帐户审计和清理的工具等特性。这些访问控制流程因云数据仓库供应商而异，因此要确保在选择供应商过程中满足您的需求。

6.容错

自然灾害和人为灾害是不可避免的，因此，您的云数据仓库必须具有足够的容错能力。询问以下问题:在数据中心发生灾难性故障时，您的云数据仓库是否提供了足够的高可用性和持久性?具体来说，询问您的供应商，他们是否提供适当的备份、容错和冗余硬件，以保护您的数据堆栈免受电源故障和潜在设备故障造成的丢失。

有了这些特性和注意事项，选择云数据仓库就不那么困难了。最后一个建议是询问你所在领域的同行——尤其是那些拥有与你公司类似的数据使用模型的同行——询问他们在可用性、易用性和成本方面的偏好，以及他们是如何做出云数据仓库决策的。

关于Fivetran

Fivetran是自动数据集成的领导者，它提供了随模式和api变化而自动适应的即用连接器，确保对数据的一致、可靠访问。Fivetran通过不断地将数据从源应用程序同步到任何目的地，提高了数据驱动决策的准确性，使分析师能够使用最新的可能数据。

在几分钟内开始分析你的数据，而不是几个月

立即启动任何Fivetran连接器。

开始免费试用

得到一个演示

平台

为什么Fivetran 提取/加载变换嵌入式

连接器

应用程序数据库目的地事件文件功能

定价

行计算器构建与购买

解决方案

客户支持数据分析和商业智能数据库复制工程数据数据科学企业外部数据集成金融市场营销营销机构产品及工程销售

资源

博客案例研究文档事件新闻和媒体资源中心在线研讨会

合作伙伴

找到合作伙伴系统集成商技术合作伙伴

支持

支持门户常见问题

有用的内容

数据集成的基本指南数据集成:构建还是购买? 数据仓库的基准如何实现自动数据集成如何选择完美的商业智能工具

公司

关于Fivetran 文化职业生涯联系我们法律

关注我们