第二届现代数据栈年会将于2021年9月22日至23日举行。了解更多,注册在这里.

首页 博客
如何设计业界领先的数据连接器
Fivetran
首页 博客
如何设计业界领先的数据连接器

如何设计业界领先的数据连接器

归结起来就是:我们如何从源中提取数据,如何准备数据,以及如何将数据加载到您的仓库中。

通过 希拉拉弗蒂2019年5月8日

我们制造了最好的连接器——我们知道这是一个重要的声明。我们高效、经过战斗测试的API连接器、我们的数据准备和数据加载技术使我们有别于其他解决方案,并使您的企业能够使用集中的数据大幅改进报告和分析。

此外,虽然大多数ETL工具是为本地仓库构建的,但Fivetran是为连接云数据仓库而构建的。托管在云中有很多好处。如果出现问题,我们会立即介入并修复它——我们不需要在你的服务器上部署一个新版本的Fivetran。我们还每周发布多次更新,并始终保持对管道问题的关注。

我们如何从应用程序中提取数据

要从应用程序中获取数据,必须调用API。如果没有微妙的策略,您可以轻松地使用比实际需要更多的API调用,从而浪费时间和带宽以及API调用的分配。不同类型的API协议,如SOAP和REST,在提取特定类型的数据时更可靠,并且在使用不当时可能会失败。Fivetran有一个从我们支持的api中提取数据的有效策略,允许我们可靠而快速地收集您的所有数据。此外,由于我们专门研究这些连接器,所以我们紧跟API的变化。如果一家公司改变了它的API,我们使用它的速度比处理许多其他不相关任务的团队要快。

我们的SalesforceAPI例如,它已经过数百名客户的战斗测试,我们甚至能够成功地解决出现的最模糊的问题。这就是我们创建最佳连接器的方式。我们的支持团队已经解决了人们在构建自己的连接器时遇到的众多问题,为您的工程师节省了构建脆性连接器的麻烦和精力。

我们如何从数据库中提取数据

数据库体系结构通常包括一个主数据库(生产数据库)和一个副本数据库(生产数据库的备份)。从数据库提取数据的一种常见方法是反复查询主数据库。但是,查询主数据库的负载很大,可能会降低整个系统的运行速度。如果您正在运行数据库之外的关键应用程序,这可能会对您的整个业务造成损害。

有一种更有效的方法来提取数据,它只需对数据库施加最小的负载。每个数据库都有一个日志记录系统,告诉复制副本主数据库中发生了哪些更改。对于初始历史同步,Fivetran直接查询数据库。但之后,对于任何新的或更改的数据,Fivetran利用一种称为“更改数据捕获”的日志记录技术,以增量方式检测和复制数据更改。增量读取日志是一项先进的技术,它涉及到对通常复杂的日志系统进行解码。其结果是一个准确、闪电般快速的连接器,几乎不会给您的生产系统带来任何负载。

我们如何准备数据

当我们将数据引入Fivetran时,我们将其转换为预先构建的标准模式。我们的模式是规范化的,这限制了冗余,提高了数据完整性,并使它们为分析人员做好了准备。如果您只是从API复制数据,那么最终将得到一个非常混乱的模式。

如何加载数据

我们获取数据,在服务器中将其转换为CSV,自动创建表,并将数据加载到您的仓库中。许多其他工具将原始数据加载到仓库中的暂存表中,浪费了仓库的计算能力。其他人强迫你创建表格——要么手工,要么通过工程师编写的脚本。如果您有一个包含数千个表和数千列的数据库,那么创建这些表可能需要很长时间。

我们还可以将来自多个来源的数据一次加载到您的仓库中。对于像Snowflake这样具有每秒定价的仓库,并行加载数据源可以降低成本,因为我们不会不断地逐源运行它。

关于安全的说明

我们可以让您控制仓库中的货物。您可以按单个列或表来阻止或散列数据。数据在传输和静止时都会加密,我们会在数据加载到您的仓库后立即将其从系统中删除。了解更多关于我们在安全领域的承诺文档.

要了解有关Fivetran连接器的更多信息,请注册服务演示. 如果您已经准备好亲自了解我们为什么要构建最好的连接器,请注册一个免费试用.

关于Fivetran

Fivetran技术受数据分析师现实世界需求的影响,是将应用程序、数据库、事件和文件复制到高性能云仓库的最智能、最快速的方法。Fivetran connectors可在几分钟内部署,无需维护,并可自动调整以适应源代码更改,因此您的数据团队可以不再担心工程问题,而专注于推动洞察。

在几分钟内开始分析你的数据,而不是几个月

立即启动任何Fivetran连接器。