公司博客上

通过向可扩展的开放式湖屋架构迈进,推动西北互惠银行(见解平台)的转型bob体育客户端下载

通过Madhu Kotian

2021年7月15日 公司博客上

分享这篇文章

本文由西北互助银行工程副总裁Madhu Kotian撰写,负责投资产品数据、客户关系管理、应用程序和报告。


在大多数当代大数据企业计划中,数字化转型一直处于前沿和中心位置,特别是在那些遗留足迹沉重的公司中。数字转换的基础组件之一是数据及其相关的数据存储。160多年来,西北互助银行一直致力于帮助家庭和企业实现财务安全。拥有超过310亿美元的收入,460多万客户和9300多名金融专业人士,没有多少公司拥有如此多的各种来源的数据量。

在当今这个时代,数据摄取是一个挑战,因为组织要处理数以百万计的数据点,这些数据点以不同的格式、时间框架和不同的方向以前所未有的数量出现。我们想让数据为分析做好准备。今天,我很高兴地分享我们对数据摄取过程、调度过程和数据存储过程进行转换和现代化的新方法。我们学到的一件事是,有效的方法是多方面的,这就是为什么除了技术安排外,我还将向我们的团队介绍我们的计划。

所面临的挑战

在我们开始我们的转换之前,我们与我们的业务伙伴一起工作,以真正理解我们的技术限制,并帮助我们为我们的业务用例塑造问题陈述。bob体育外网下载

我们发现的业务痛点是缺乏集成数据,客户和业务数据来自不同的内部和外部团队和数据源。我们意识到实时数据的价值,但对生产/实时数据的访问有限,这些数据可以使我们及时做出业务决策。我们还了解到,业务团队构建的数据存储导致了数据孤岛,这反过来又导致了数据延迟问题、数据管理成本的增加和毫无根据的安全约束。

此外,就我们目前的状态而言,还有技术上的挑战。随着需求的增加和对额外数据的需求,我们经历了基础设施可扩展性、数据延迟、管理数据孤岛的成本、数据大小和容量限制以及数据安全问题等方面的限制。随着这些挑战的增加,我们知道我们有很多事情要做,需要找到合适的合作伙伴来帮助我们进行转型。bob体育外网下载

解决方案分析

我们需要通过数据驱动来提高竞争力,更好地为客户服务,优化内部流程。我们探索了各种选择,并执行了几个poc,以选择最终的建议。以下是我们前进战略的必备要素

  1. 一个全面的解决方案,为我们的数据摄取,数据管理和分析需求
  2. 一个现代的数据平台,可以有效bob体育客户端下载地支持我们的开发人员和业务分析师使用SQL执行他们的分析
  3. 一个可以在S3之上支持ACID事务并启用基于角色的安全性的数据引擎
  4. 一个系统,可以有效地保护我们的PII/PHI信息
  5. 一个bob体育客户端下载可以根据数据处理和分析需求自动扩展的平台

我们的传统基础设施是基于MSBI Stack的。我们使用SSIS进行摄取,使用SQL Server进行数据存储,使用Azure分析服务进行表格模型,使用PowerBI进行仪表板和报表。虽然该平台最初满足了业务需bob体育客户端下载求,但随着数据量和数据处理需求的增加,我们在扩展方面遇到了挑战,并限制了我们的数据分析期望。由于有额外的数据需求,我们的数据延迟问题(来自负载延迟和特定业务需求的数据存储)导致了数据孤岛和数据蔓延。

由于数据分布在多个数据存储中,安全性成为一个挑战。我们有大约300个ETL工作,从我们的日常工作中花费了7个多小时。任何更改或新开发的上市时间大约是4到6周(取决于复杂性)。

西北互惠银行在其数据现代化计划之前的传统数据分析堆栈。
图1:遗留架构

在评估了市场上的多种解决方案之后,我们决定使用Databricks来帮助我们在开放的湖屋架构上交付一个集成的数据管理解决方案。

Databricks是在Apache Spark™之上开发的,它使我们能够使用Python来构建数据摄取和元数据管理的自定义框架。它为我们提供了使用笔记本进行特别分析和其他数据发现的灵活性。Delta Lake(建立在数据湖之上的存储层)为我们提供了实现各种数据库管理功能(ACID事务、元数据治理、时间旅行等)的灵活性,包括实现所需的安全控制。Databricks解决了管理/扩展集群的难题,并有效地响应了工程师和业务用户被压抑的需求。

西北互惠银行在其数据现代化计划之前的传统数据分析堆栈。
图2:带有数据块的体系结构

迁移方法和入职资源

我们从一小群工程师开始,并将他们分配到现有scrum团队中的一个虚拟团队中。他们的目标是执行不同的POC,以推荐的解决方案为基础,开发最佳实践,并移交给各自的团队,以帮助员工入职。利用现有的团队成员对我们更有利,因为他们拥有现有的遗留系统知识,了解当前的摄取流/业务规则,并且精通至少一种编程知识(数据工程+软件工程知识)。这个团队首先用Python训练自己,了解Spark和Delta的复杂细节,并与Databricks团队密切合作来验证解决方案/方法。当团队致力于形成未来状态时,我们的其他开发人员致力于交付业务优先级。

由于大多数开发人员都是MSBI Stack工程师,我们的行动计划是为开发人员、业务用户和现场顾问提供一个无摩擦的数据平台。bob体育客户端下载

  • 我们构建了一个包含所有数据加载和转换需求的摄取框架。它有内置的安全控制,可以维护源系统的所有元数据和秘密。摄取流程接受一个JSON文件,其中包含源、目标和所需的转换。它允许简单和复杂的转换。
  • 对于调度,我们最终使用了气流,但考虑到DAG的复杂性,我们在气流之上构建了自己的定制框架,它接受一个包含作业信息及其相关相互依赖关系的YAML文件。
  • 为了使用Delta管理模式级别的更改,我们构建了自己的自定义框架,该框架可以自动执行不同的数据库类型操作(DDL),而不需要开发人员对数据存储进行破窗访问。这也帮助我们在数据存储上实现不同的审计控制。

与此同时,该团队还与我们的安全团队合作,以确保我们理解并满足数据安全的所有标准(传输加密、静止加密和保护PII信息的列级加密)。

一旦建立了这些框架,队列团队就部署了端到端流程(所有转换的源到目标),并在PowerBI上生成了一组指向Delta Lake的新报告/仪表板。我们的目标是测试端到端流程的性能,验证数据并从现场用户那里获得任何反馈。我们根据反馈和性能/验证测试的结果逐步改进产品。

同时,我们为开发人员提供培训指南和操作方法。不久之后,我们决定将队列团队成员转移到他们各自的团队,同时保留一些继续支持平台基础设施(DevOps)。bob体育客户端下载每个scrum团队负责管理和向业务交付各自的功能/特性集。一旦团队成员回到他们各自的团队,他们就开始了调整团队速度的任务,以包括迁移工作的积压。团队领导给出了具体的指导和适当的目标,以满足不同Sprint/Program增量的迁移目标。在队列组中的团队成员现在是常驻专家,他们帮助他们的团队登上新的平台。bob体育客户端下载他们可以提供任何特别的问题或帮助。

当我们逐步构建新平台时,我们保留旧平台进行确认和验证。bob体育客户端下载

成功的开始

整个转型花了我们大约一年半的时间,考虑到我们必须构建所有框架、管理业务优先级、管理安全期望、重组团队和迁移平台,这是相当了不起的。bob体育客户端下载总体负载时间从7小时显著下降到仅2小时。我们的上市时间从4-6周大幅缩短至1 - 2周。这是一个重大的改进,我知道它将在几个方面扩展到我们的业务。

我们的旅程还没有结束。随着我们平台的不断完善,我们的下一个任务将是扩展湖屋模式。bob体育客户端下载我们正致力于将我们的平台迁移到E2,并部署Databricks bob体育客户端下载SQL。我们正在制定策略,为业务用户提供一个自助服务平台,以执行他们的特别分析,并使他们能够将自己的数据与我们的集成数据一bob体育客户端下载起执行分析。我们了解到,使用一个开放、统一和可扩展的平台让我们受益匪浅。bob体育客户端下载随着我们的需求和能力的增长,我们知道我们有一个强大的合作伙伴Databricks。

了解更多关于西北互助银行的莱克豪斯之旅


关于Madhu Kotian

Madhu Kotian是Northwestern Mutual的工程副总裁(投资产品数据、客户关系管理、应用程序和报告)。他在信息技术领域拥有超过25年的经验,在数据工程、人员管理、项目管理、架构、设计、开发和使用敏捷实践的维护方面拥有丰富的经验和专业知识。他也是数据仓库方法和数据集成与分析实现方面的专家。

免费试用Databricks
看到所有公司博客上的帖子