博客
Databricks和Fivetran团队为您的湖泊填写填写图片
Fivetran.
博客
Databricks和Fivetran团队为您的湖泊填写填写图片

Databricks和Fivetran团队为您的湖泊填写填写图片

Fivetran和Databricks合作解决数据架构中的两个最大挑战。

通过 肖恩Spediacci,2月23日2020年2月23日

数据湖部分正在快速发展。Hadoop的分布式文件系统(HDFS)是一个很好的开始,但是现在HDFS已经很大程度上被用来创建“数据湖”的廉价对象存储所取代。这很好,直到您必须弄清楚如何确保数据质量和治理。然后是企业数据的完整性问题;数据湖传统上并没有解决各种来自企业运营数据源的“小数据”。

这就是为什么我们激动地宣布伙伴关系与Databricks的团队作为他们的发射合作伙伴数据摄取网络为了简化将数据加载到Delta Lake的过程,Delta Lake是一种开源技术,用于构建可靠、快速的Lakehouse。

首先,让我们从一个简单的问题开始:什么是湖屋?

作为由databricks创造和定义,一个湖屋有以下主要特点

  • 存储与计算解耦

  • 开源

  • 支持从非结构化到结构化数据的不同数据类型

  • 支持不同的工作负载

  • 酸事务支持

  • 能够通过流和批处理来获取数据

Delta Lake是一个开源存储层,为Apache Spark™带来ACID事务和大数据工作负载。它的设计目的是为数据湖带来可靠性、性能和生命周期管理。它是Databricks统一数据服务(Databricks Unified Data Service)的核心组件,帮助企业构建不仅可靠,而且符合合规和安全策略的数据湖。

这些对Fivetran来说都是很重要的概念,因为我们相信每个公司都应该有一个单一的数据库,记录在业务中发生过的每一个事实,每一个事件。当公司这样做时,他们可以为BI应用程序和报告生成准确且一致的有价值的分析。虽然我们传统上与领先的数据仓库合作伙伴合作来实现这一目标,但我们相信,这种精神也适用于数据科学和数据湖的世界。

有两种核心问题有许多数据湖泊的经验:

  1. 由于缺乏对摄入数据的控制而导致数据质量的问题

  2. 大多数数据湖缺乏提供整体业务上下文的关键操作数据

这是因为从未构建数据湖来处理复杂的问题,如历史查询、数据验证、再处理或更新。其次,由于这些问题,在所有数据都可以存在的单一环境中,数据湖从未被用作数据科学和商业智能报告。来自Salesforce、NetSuite、谷歌Ads、Marketo、Zendesk、Postgres等现代数据源的关键运营数据通常只存在于数据仓库中。

为了解决这个问题,出现了一些反模式,主要关注于解决这些问题系统问题而不是专注于如何从数据中提取价值:

  1. 数据质量:为了解决数据验证,再处理和更新等问题,通常采用Lambda架构,以便业务可以确保数据质量水平

  2. 数据完整性:如果需要将您的物联网、事件或日志数据与您的业务数据结合起来,可以通过运行Spark作业并将其卸载到数据仓库或通过创建临时管道将电子表格或CSV文件上传到数据湖来解决。这就给您留下了一个不完整的客户视图。

我们与Databricks的合作可以在以下几个关键方面帮助解决这两个问题:

  1. 通过ACID事务、DML支持和模式实施等特性,Delta Lake在很大程度上消除了数据质量的核心挑战。

  2. Fivetran通过零配置,自动数据集成解决了数据完整性挑战,因此无论源的架构或API更改,您可以将数据管道从这些现代系统中放置在自动导航。

总而言之,当客户可以专注于从集中位置的数据中提取价值,而不是构建和维护多个系统时,他们最终会成为赢家。过去通过架构和维护复杂系统来解决系统问题的团队现在被授权将所有的数据和分析需求统一到一个具有自动化数据管道的可靠数据湖中。当一切都统一起来时,组织就能够做出更明智的决策,同时节省关键的开发时间和资金。

在几分钟内开始分析您的数据,而不是几个月

立即启动任何Fivetran连接器。