公司博客上

驾驶在西北相互转换(见解平台)朝着一个可伸缩的、开放Lakehouse架构bob体育客户端下载

通过Madhu Kotian

2021年7月15日 公司博客上

分享这篇文章

这是一个客人Madhu Kotian撰写文章,工程副总裁(投资产品数据、CRM应用程序和报告)在西北相互的。


数字转换前,在大多数当代大数据中心公司的计划,特别是在沉重的公司遗留的足迹。支撑组件之一的数字转换数据及其相关数据存储。160 +年,西北相互帮助家庭和企业实现财务安全。拥有超过310亿美元的收入,4.6 +客户和9300 +金融专业人士,没有太多的公司这一卷跨各种来源的数据。

数据摄取是一个挑战在这个时代,当组织处理数百万数据点在不同的格式,时间框架,从不同的方向以前所未有的体积。我们想使数据准备分析来理解它。今天,我兴奋地分享我们的新颖的方法来改造和现代化我们的数据摄入过程,调度过程,并与数据存储的旅程。我们学到的一件事是,一个有效的方法是多方面的,这就是为什么除了技术安排我走过我们计划在我们的团队。

所面临的挑战

在我们开始变换之前,我们与我们的业务伙伴合作,真正了解我们的技术约束和帮助我们塑造的问题陈述我们的业务案例。bob体育外网下载

我们确定的业务难点是缺乏集成数据,与客户和业务数据来自不同的内部和外部团队和数据源。我们意识到实时数据的价值,但有限的访问到生产/实时数据,可以使我们能够及时作出业务决策。我们也了解到数据存储业务团队建造的导致数据仓库,进而导致数据延迟问题,增加数据管理成本和不必要的安全约束。

此外,有技术挑战对我们当前的状态。需求增加和额外的数据需要,我们经验丰富的约束与基础设施的可伸缩性,数据延迟、成本管理数据仓库,数据规模和容量限制和数据安全问题。这些挑战越来越多,我们知道我们有很多,需要找到合适的合作伙伴来帮助我们在我们的转换旅程。bob体育外网下载

解决方案分析

我们需要成为数据驱动的竞争力,更好地为我们的客户服务和优化内部流程。我们探索了各种选项和执行几个poc来选择最后的建议。以下为我们的前进策略——是必备的

  1. 我们的数据摄入的全方位的解决方案,数据管理和分析的需要
  2. 一个现代数据平台,可以有效地bob体育客户端下载支持我们的开发人员和业务分析人员使用SQL执行他们的分析
  3. 数据引擎可以支持ACID事务上的S3和实现基于角色的安全性
  4. 一个系统,可以有效地保障我们的PII /φ信息
  5. 一个bob体育客户端下载平台,可以自动扩展基于数据处理和分析的需求

我们遗留的基础设施是基于MSBI堆栈。我们使用SSIS摄入,SQL Server数据存储,Azure服务表格分析模型和PowerBI仪表盘和报表。虽然平台最初满足业务的需要bob体育客户端下载,我们有挑战在扩展增加数据量和数据处理需求,和限制我们的数据分析的期望。有额外的数据需求,我们的数据延迟加载延迟和数据存储的问题具体业务需求数据仓库和数据扩张引起的。

安全成为了一个挑战由于传播跨多个数据存储的数据。我们有大约300个ETL作业花了超过7小时的日常工作。时间的任何变化或新开发的市场是大约4至6周(根据复杂性)。

西北相互之前的遗留数据分析堆栈数据现代化计划。
图1:传统的体系结构

评估在市场上多个解决方案后,我们决定推进砖来帮助我们提供一个集成数据管理解决方案在一个开放的lakehouse架构。

砖正在开发的Apache火花™启用我们使用Python来构建自定义数据摄入和元数据管理框架。它提供了我们灵活地执行特殊分析和其他数据发现使用笔记本。砖三角洲湖(我们的数据的存储层之上湖)为我们提供了灵活地实现各种数据库管理功能(ACID事务、元数据管理、时间旅行,等等),包括实现所需的安全控制。砖的头痛从有效地管理/扩展集群和反应的被压抑的需求我们的工程师和业务用户。

西北相互之前的遗留数据分析堆栈数据现代化计划。
图2:建筑砖

迁移的方法和新员工培训资源

我们开始与一小群工程师和分配给一个虚拟团队从我们现有的scrum团队。执行不同的POC,他们的目标是建立在推荐的解决方案,开发最佳实践和过渡回到各自的团队,以帮助新员工培训。利用现有团队成员支持我们更好的因为他们现有的遗留系统知识,了解当前摄入流/业务规则,精通至少一个编程知识(数据工程+软件工程知识)。这支球队第一次训练自己在Python中,理解复杂的火花和δ的细节,和与砖团队密切合作,验证解决方案/方法。而团队正在形成未来的状态,其余的我们的开发人员从事业务优先级。

因为大多数开发人员MSBI栈的工程师,我们的行动计划是提供一个数据平台,将会为我们的开发人员无摩擦,业务用户,我们的顾问。bob体育客户端下载

  • 我们建立了一个摄入框架,覆盖所有的数据加载和转换的需要。它有内置的安全控制,维护所有的元数据和我们的源系统的秘密。摄入过程接受JSON文件,包括源、目标和需要转换。它允许简单的和复杂的转换。
  • 对于调度,我们最终使用气流但鉴于DAG的复杂性,我们建立自己的自定义框架顶部的气流,接受YAML文件,包括工作信息及其相关的相互依赖关系。
  • 使用δ为管理模式的变化,我们构建自己的定制框架,自动化不同类型数据库操作(DDL)不需要开发人员有破玻璃访问数据存储。这也帮助我们实现不同审计控制数据存储。

并行,团队还与我们的安全团队,确保我们理解和符合所有的标准数据安全(在运输过程中加密,加密PII静止和列级加密保护信息)。

一旦这些框架建立,群体团队部署了一个端到端流程(源到目标与所有转换)和生成一组新的报告/仪表盘PowerBI指向三角洲湖。目的是为了测试我们的端到端流程的性能,验证数据和获得任何反馈从我们的用户。我们根据反馈不断改进的产品和我们的性能/验证测试结果。

同时,我们建立了板载我们的开发人员来培训指导和指引。不久之后,我们决定将队列团队成员各自的团队,同时保留几继续支持平台基础设施(DevOps)。bob体育客户端下载每个scrum团队负责管理和交付各自设置的功能/特性的业务。一旦团队成员搬回各自的团队,他们开始了团队的任务调整速度,包括迁移工作的积压。团队领导都给予具体指导和适当的目标,以满足不同的Sprint /迁移目标项目增量。队列组的团队成员现在常驻专家和他们帮助他们的球队在新平台。bob体育客户端下载他们可用于任何特定问题或帮助。

逐步建立我们的新平台,我们保留旧的确认和验证平台。bob体育客户端下载

成功的开始

整体转换花了大约一年半,这完全就是一次壮举,因为我们必须构建框架,业务优先级管理,管理安全预期,重组我们的团队和迁移平台。bob体育客户端下载整体加载时间下来非常从7个小时到2个小时。我们的上市时间是大约1 - 2周,显著低于4 - 6周。我知道这是一个重大的改进,将扩展本身在很多方面对我们的业务。

我们的旅程还没有结束。当我们继续加强我们的平台,我们下一个任务将扩大在lakehobob体育客户端下载use模式。我们正在将我们的平台迁移到E2和部署砖SQL。bob体育客户端下载我们正在我们的策略提供一个自助服务平台,我们的业务用户执行他们的特别的分析,也使他们能够带着自己的数据与我们的集成bob体育客户端下载数据进行分析的能力。我们学到的是,使用一个平台,使我们获益匪浅是开放的、统一的和可伸缩的。bob体育客户端下载随着我们的需要和能力的增长,我们知道我们有一个强大的合作伙伴在砖。

听到更多西北Lakehouse共同的旅程


关于Madhu Kotian

Madhu Kotian是工程副总裁(投资产品数据、CRM应用程序和报告)在西北相互的。他已经超过25年的经验在信息技术领域的经验和专业知识在数据工程、人员管理、项目管理、架构、设计、开发和维护使用敏捷实践。他也是一个专家在数据仓库方法和实现数据集成和分析。

免费试着砖
看到所有公司博客上的帖子