首页 案例研究
比利使用阿帕奇气流和Fivetran节省高达20%的仓储成本
Fivetran.
首页 案例研究
比利使用阿帕奇气流和Fivetran节省高达20%的仓储成本

比利使用阿帕奇气流和Fivetran节省高达20%的仓储成本

智能支付提供商在气流中策划ELT,以产生大量成本节省

Theo Hopkinson.,7月22日,2021年

Billie.io.是一家建立在创新速度的业务。Fintech Startup位于柏林,正在重塑业务处理支付的方式:通过Billie,中小企业可以为每张发票获得即时融资(即,他们不需要等待90天才能得到客户的报酬)。Billie.io还会出于收集过程和覆盖默认风险。

如果我们在Billie的数据架构看看引擎盖,那么图片就像创新一样。自2017年2月联合成立本公司以来,Billie的数据副总裁Igor Chtivelband自悄悄地构建了用于数据驱动的企业的原型效仿。作为在之前的案例研究中讨论过伊戈尔在Billie的团队使用Fivetran来摄取数据到雪花。

“我们使用Fivetran从各种数据源复制数据,从谷歌Analytics, Salesforce,我们的生产数据库,LinkedIn, Facebook,到我们的数据仓库,也就是Snowflake。我们完全委托了这一部分,我们不想处理它。”伊戈尔说。然而,如果我们想要构建带有某种先决条件的复杂逻辑,“如果那个,做这个,先做这个,然后做那个,计算这个,再计算那个”,这就是气流是有用的。“

Apache Airflow是一个社区管理的平台,用于编程管理,计划和监视工作流程,允许复杂的编排和自动化。正如我们博客帖子中所讨论的那样调度与策划在美国,引入“气流”来协调ELT有许多明显的好处。

“这就是气流帮助我们的地方,”伊戈尔说,“这就是我们使用两者组合的原因。因此,您可以将Airflow视为这些过程的orchestrator。Airflow决定,“现在是时候将来自Google Analytics的数据同步到我们的数据仓库。”

“气流”让Igor在Billie的团队对事情发生的时间进行精细的控制,并意识到包括管道、它们的依赖关系和执行情况在内的任务。这允许跨传入数据源进行数据转换。

上图:Billie的提取、加载和转换过程是由Apache风流组织的

对于Billie来说,许多Fivetran连接器都是按原样使用的,但在其生产数据库到数据仓库的提取、加载和转换过程中,气流是必不可少的。Igor将每个步骤视为“片段”,然后可以通过气流动态调度或管理。例如,Fivetran段,或“提取”和“加载”,可以独立于转换层进行调度和运行,以避免延迟问题或SLA问题,甚至防止转换过早发生。

营业时间,Billie每五分钟运行其最重要的数据管道。在营业时间之外,频率将拨打返回每两个小时,显着切割使用的雪花计算资源。由于气流的灵活和可配置数据流水线调度,这是可能的。

从长远来看,从5分钟到2小时的同步可以为公司节省很多钱。

“这是一个非常简单的技巧。真的,这是一个无意识的人。我们谈论账单减少了大约20%。在那之上,我们也对自己感觉更好,因为我们省钱,我们救了资源。我们帮助这个星球,因为服务器没有运行,所以没有人必须冷却他们,“伊戈尔说。

运营商和传感器

igor和他的团队现在正在使用气流和fivetran操作员,传感器和钩子为业务创建复杂和有价值的工作流程。

运营商用于在气流中执行任务。对于FiVetran,这意味着Fivetranoperator启动Fivetran数据同步。当调用Fivetranoperator时,气流调度的灵活性使得Billie在调用Fivetranoperator时轻松且动态地改变,使其对其数据仓库成本进行精细控制。

传感器将在完成之前检查某个标准是否满足某个标准,并让他们的下游任务执行。FiveTransensor将监控FiveTran Sync的状态,并尽快将DAG进展到仓库。“这使我们能够理解,”这同步是否则的吗?“Igor,”如果同步完成,请在气流中立即做点什么。“

Billie一起使用这些工具进行报告调度——一个智能工作流,确保在Snowflake上运行报告流程之前数据完全同步和可用。

“每天早上,我们都有时间紧迫的操作。如果有数据,我们必须尽快生成报告。在我们获得Snowflake中的数据之前,我们不能将这份报告发送给我们的业务伙伴。所以我们使用“Sensor”操作符,来理解“我们能不能做到?”这比每五分钟提取一次数据要好得多。”

谁是气流+ Fivetran的权利?

今天,成千上万的公司将受益于与气流协调的fivetraningestion和转换。Igor对刚起步的团队有一些明智的建议:

“我想说,这是食欲随食物而来的情况之一。一旦从Teradata这样的传统数据仓库技术迁移到Snowflake,您就会意识到这是多么容易。下一步是Fivetran和dbt。我的建议是尝试一个简单的实验,如果它有效,那么就更容易被说服。你也可以向你的老板展示,比如“我们在一周内就实现了这个目标,我们的数据分析师很高兴。”

要开始,参观Fivetran Github回购,您可以在那里找到关于在谷歌云到AWS和天文学家的各种平台上设置的文档。您还可以通过运行pip安装airflow-provider-fivetran直接在气流环境中直接安装Fivetran提供程序包。阅读更多关于Fivetran的博客在这里

在几分钟内开始分析你的数据,而不是几个月

立即启动任何Fivetran连接器。