Databricks和Fivetran将数据集成带到Delta Lake Lakehouse建筑|博客|Fivetran.

Delta Lake是一个开源存储层，为Apache Spark™带来ACID事务和大数据工作负载。它的设计目的是为数据湖带来可靠性、性能和生命周期管理。它是Databricks统一数据服务(Databricks Unified Data Service)的核心组件，帮助企业构建不仅可靠，而且符合合规和安全策略的数据湖。

这些对Fivetran来说都是很重要的概念，因为我们相信每个公司都应该有一个单一的数据库，记录在业务中发生过的每一个事实，每一个事件。当公司这样做时，他们可以为BI应用程序和报告生成准确且一致的有价值的分析。虽然我们传统上与领先的数据仓库合作伙伴合作来实现这一目标，但我们相信，这种精神也适用于数据科学和数据湖的世界。

有两种核心问题有许多数据湖泊的经验：

由于缺乏对摄入数据的控制而导致数据质量的问题
大多数数据湖缺乏提供整体业务上下文的关键操作数据

这是因为从未构建数据湖来处理复杂的问题，如历史查询、数据验证、再处理或更新。其次，由于这些问题，在所有数据都可以存在的单一环境中，数据湖从未被用作数据科学和商业智能报告。来自Salesforce、NetSuite、谷歌Ads、Marketo、Zendesk、Postgres等现代数据源的关键运营数据通常只存在于数据仓库中。

为了解决这个问题，出现了一些反模式，主要关注于解决这些问题系统问题而不是专注于如何从数据中提取价值:

数据质量：为了解决数据验证，再处理和更新等问题，通常采用Lambda架构，以便业务可以确保数据质量水平
数据完整性:如果需要将您的物联网、事件或日志数据与您的业务数据结合起来，可以通过运行Spark作业并将其卸载到数据仓库或通过创建临时管道将电子表格或CSV文件上传到数据湖来解决。这就给您留下了一个不完整的客户视图。

我们与Databricks的合作可以在以下几个关键方面帮助解决这两个问题:

通过ACID事务、DML支持和模式实施等特性，Delta Lake在很大程度上消除了数据质量的核心挑战。
Fivetran通过零配置，自动数据集成解决了数据完整性挑战，因此无论源的架构或API更改，您可以将数据管道从这些现代系统中放置在自动导航。

总而言之，当客户可以专注于从集中位置的数据中提取价值，而不是构建和维护多个系统时，他们最终会成为赢家。过去通过架构和维护复杂系统来解决系统问题的团队现在被授权将所有的数据和分析需求统一到一个具有自动化数据管道的可靠数据湖中。当一切都统一起来时，组织就能够做出更明智的决策，同时节省关键的开发时间和资金。

在几分钟内开始分析您的数据，而不是几个月

立即启动任何Fivetran连接器。

开启免费体验

得到一个演示

平台

为什么fivetran. 提取/加载变换嵌入式

连接器

应用程序数据库目的地事件文件功能

价钱

行计算器构建与购买

解决方案

客户支持数据分析和商业智能数据库复制数据工程学数据科学企业外部数据集成金融营销营销机构产品与工程销售

资源

博客实例探究文档事件新闻和媒体资源中心网络研讨会

合作伙伴

找到合作伙伴系统集成商技术合作伙伴

支持

支持门户常见问题

有用的内容

数据集成的基本指南数据集成：建造或购买？数据仓库的基准如何实现自动数据集成如何选择完美的商业智能工具

公司

关于Fivetran 文化职业生涯联系我们合法的

关注我们