首页 博客
企业数据仓库:定义和指南
Fivetran
首页 博客
企业数据仓库:定义和指南

企业数据仓库:定义和指南

企业数据仓库对于业务的长期生存能力至关重要。

通过 杰森•哈里斯2021年3月2日

为了保持竞争力,现代企业必须灵活,并根据数据而不是直觉做出明智的商业决策。不幸的是,重要的数据往往分散在多个部门和团队中,造成孤立的思维,使领导者很难全面了解业务。

在一个应用示例中,销售团队管理与CRM、销售转换等相关的数据;支持是客户成功和支持指标的关键;采购了解供应链管理的事实;等等等等。关键任务数据存放在不同的部门,由不同的团队管理。

我们需要的是一种解决方案,通过集成重要数据来进行集中分析和业务智能,从而实现数据驱动的决策和更快的洞察时间。

最终的目标是单一真理来源

什么是企业数据仓库?

这个词数据仓库并不新鲜。它被定义为一个集中的数据存储库,有时称为数据库的数据库,用于报告和分析目的。企业数据仓库(EDW)是一个数据库的数据库,存储来自业务各个领域的数据。

EDWs存储来自多个部门、源和应用程序的数据,以便在整个企业中进行集中分析。这些数据通常来自不同的系统,包括本地源,如生产应用程序和物理记录,以及云源,如客户关系管理(CRM)、企业资源规划(ERP)和其他基于web的应用程序。

EDW中的数据是企业最重要的资产之一,因为它包含了关键信息,能够捕捉到其他任何地方都不存在的整个企业的视图。

传统上,数据仓库托管在本地数据中心,但云计算的出现使“无服务器”、基于云的数据仓库成为可能,在这里,计算和存储资源可以根据需要独立地伸缩。对于资源有限的组织来说,现代云数据仓库已经变得非常容易使用。例子包括砖、Snowflake,谷歌BigQuery和AWS Redshift

企业数据仓库的主要好处

你的公司为什么需要一台EDW?

在没有集中式数据仓库的公司中,部门通常在数据竖井中工作。团队独立地从各种来源获取数据,并尝试用Excel进行分析。然而,这种方法容易出错,因为特定的数据导入者的偏见和他们对分析数据的偏见。

在某些情况下,我们有一个数据仓库中的数据子集,称为数据集市-数据仓库中供特定部门或团队使用的数据子集。从这些数据集市获得的报告和见解对于跟踪和衡量部门特定指标的进展非常有用,如流失率或支持票数量。当然,这些是需要跟踪的重要指标,但它们的范围有限,因为数据存储库只存储和管理与单个业务组的范围和操作相关的数据。

业务发展迅速,精明的企业将希望有一个数据存储和解决方案,能够在部门内实现可重复和准确的报告,并具有跨组织的视图(例如360度的客户视图)。简而言之,我们需要一个单一的真理来源,使:

1.立即访问可操作的数据

存储在企业数据仓库中的数据应该是最新的,由数据工程师进行清理和丰富,以符合公司的需要。这种访问使数据分析师(以及他们所支持的业务团队)能够以敏捷的方式构建基于整体数据集的洞见。

2.多个部门朝着一个共同的目标努力

企业数据仓库和其中包含的全公司数据提供了企业所面临的问题的总体视图。让我们来看一个在线销售商品的电子商务公司的例子。

在这个例子中,营销可能是跟踪社交媒体和有偿媒体上的广告如何推动网站流量上升。这个部门是由指标驱动的,这很好,但如果他们能够与销售和CRM系统协调,跟踪客户的购买过程,并看到一个广告如何引导潜在客户访问网站、浏览在线目录并购买多个商品,那会怎么样呢?有了EDW,销售和营销就可以一起优化潜在吸引力、发现和最终转化。

在本例和无数其他案例中,EDWs提供了上下文并演示了单个数据点之间的关系。这样可以更好地理解信息的含义,以及如何使用它。

3.合并和标准化数据

企业数据仓库的独特之处在于,它们存储了来自整个企业运营的大量数据集。当使用有效的数据转换时,可以将该数据用于整个企业的准确比较。

标准化的数据存储还可以帮助理解通过各种输入进入组织的看似随机的数据片段,并且通过自动聚合这些信息可以节省宝贵的时间。当组织的数据以这样一种系统的、自动化的方式组织时,组织很可能在未来的增长中处于更好的位置。

4.授权较少的技术团队成员

当EDW与数据驱动的文化当数据专业人士和决策者聚集在一起,在全公司范围内努力简化流程并影响收入时,洞察力开始流动。EDW惠及所有部门的非技术团队成员,包括营销、财务、人力资源、供应链等。在这些情况下,团队可以识别新的、范围更广的kpi和测量结果,允许关键人员进行相应的计划。

云企业数据仓库的好处

既然已经确定了EDW的业务需求,那么讨论拥有EDW的好处是很重要的基于云的仓库相对于本地的,传统的解决方案。

云数据仓库提供的主要功能包括:

  • 速度和可伸缩性

  • 更低的总拥有成本(TCO)

  • 云弹性和集成能力

  • 更好地为业务用户启用自助服务功能

云数据仓库的三家主要供应商是:Snowflake、AWS Redshift和谷歌BigQuery。

雪花

Snowflake的平台提供了一个完全弹性和高度灵活的数据仓库,可以收集、存储、查询和共享来自各种不同来源的数据集,从结构化数据到JSON。凭借完全集成的数据湖、安全的数据共享、数据交换和数据应用程序开发工作负载,Snowflake可以根据需要轻松地向上、向下或向外扩展,以处理现代数据企业不断波动的数据需求,跨越不同的部门、业务单位、地理位置和云。

谷歌BigQuery

BigQuery类似于Snowflake,除了没有计算集群的概念,只有可配置的“计算槽”数量。BigQuery按需查询是一个纯粹的无服务器模型,用户一次提交一个查询,并为每个查询付费。

AWS红移

Redshift是面向开发团队的AWS服务套件的一部分。通过Redshift,您可以使用标准SQL查询和组合数据仓库、操作数据库和数据湖中的结构化和半结构化数据。Redshift允许您使用开放格式(如Apache Parquet)轻松地将查询结果保存回S3数据湖,这样您就可以从其他分析服务(如Amazon EMR、Amazon Athena和Amazon SageMaker)进行额外的分析。

欲了解更多详细信息,参见我们的2020云数据仓库基准

如何评估企业数据仓库选项?

由于许多供应商在云数据仓库中提供集中式数据存储,当您开始搜索时可能会感到畏惧。虽然每个公司都有自己独特的特点,但这里有一些关键的选择标准,可以帮助你做出决定。

1.选择一个有利于您的生态系统的云数据仓库

选择一个适合您的业务模型和现有系统的云数据仓库是很重要的。雪花AWS谷歌云微软所有这些都提供了出色的数据仓库选项。考虑基础设施的其余部分和现有的数据工具生态系统,以确保公司的数据类型和现有的生态系统与企业数据仓库的选择一致。

例如,进行兼容性评估,确认您的云数据仓库供应商将与您选择的数据转换、商业智能和数据集成/ETL工具很好地匹配。

2.成本比较

云数据仓库提供商有不同的计算计算和存储成本的方法。根据您的使用模型,这些成本配置可能会对每月的成本产生重大影响。执行使用审计并根据供应商选择检查您的模型,以确保成本处于您满意的水平。为了帮助您评估移动平台的成本,请参阅我们的帖子数据出口成本你应该阅读并分享给你的数据团队。

谈到成本,一定要考虑与数据迁移和采用新的云数据仓库相关的劳动力成本。您的团队内部是否有资源来采用新的数据堆栈,或者您需要与外部顾问接洽?这些问题对于您的数据仓库决策很重要。

3.安全

随着业务数据使用量的增加,数据源的数量也会随着传输和存储所有这些数据的安全因素的增加而增加。选择具有锁定模式、监视实用程序、远程维护功能和类似功能等特性的云数据仓库作为基准产品。

根据您公司的用例,需要选购的额外安全组件包括:

  1. 强大的用户身份验证和授权,将禁止未经授权的访问

  2. 数据加密

  3. 数据擦除,通过完全覆盖物理存储来保护数据,防止恶意恢复

  4. 通过数据屏蔽保护数据属性

4.考虑规模成本

随着公司的数据变得越来越成熟,另一个需要考虑的因素是数据容量、查询量和复杂性只会上升。审计您当前的数据仓库使用情况,并预测这些需求将如何随着时间的推移而增长,这一点至关重要。有了这一点,你可以问问你的潜在供应商,当你的需求扩展和灵活时,成本会受到什么影响。明智地购买,避免在团队不需要的能力上花钱。

5.用户访问

无论你的公司是否在HIPAA或GDPR等法律的监管下运营,确保正确的数据访问都是非常重要的。在评估供应商时,检查从只读、具有锁定权限的自定义用户组、加密列和支持一致帐户审计和清理的工具等特性。这些访问控制流程因云数据仓库供应商而异,因此要确保在选择供应商过程中满足您的需求。

6.容错

自然灾害和人为灾害是不可避免的,因此,您的云数据仓库必须具有足够的容错能力。询问以下问题:在数据中心发生灾难性故障时,您的云数据仓库是否提供了足够的高可用性和持久性?具体来说,询问您的供应商,他们是否提供适当的备份、容错和冗余硬件,以保护您的数据堆栈免受电源故障和潜在设备故障造成的丢失。

有了这些特性和注意事项,选择云数据仓库就不那么困难了。最后一个建议是询问你所在领域的同行——尤其是那些拥有与你公司类似的数据使用模型的同行——询问他们在可用性、易用性和成本方面的偏好,以及他们是如何做出云数据仓库决策的。

关于Fivetran

Fivetran是自动数据集成的领导者,它提供了随模式和api变化而自动适应的即用连接器,确保对数据的一致、可靠访问。Fivetran通过不断地将数据从源应用程序同步到任何目的地,提高了数据驱动决策的准确性,使分析师能够使用最新的可能数据。

在几分钟内开始分析你的数据,而不是几个月

立即启动任何Fivetran连接器。