工程的博客

传输的及时性和可靠性管理报告

2021年9月17日 工程的博客

分享这篇文章

风险管理和监管合规是一个日益复杂和昂贵的努力。监管变化增加了500%自2008年全球金融危机和在此过程中提高了监管成本。与不相关的罚款和SLA违反(银行再创新高的罚款AML的100亿年的2019美元),有继续即使数据处理报告是不完整的。另一方面,数据质量差的记录也是“罚款”,因为“控制不足。”As a consequence, many Financial Services Institutions (FSIs) are often left battling between poor data quality and strict SLAs, balancing between data reliability and data timeliness.

在这个监管报告解决方案加速器,我们证明三角洲生活表能保证监管实时数据的采集和处理,以适应监管sla。共享和δ住表相结合,分析人士获得实时监管数据传输质量的信心。在这篇文章中,我们展示的好处Lakehouse架构结合金融服务行业数据模型与云计算的灵活性使高较低的治理标准开发的开销。现在我们将解释火灾数据模型是什么以及如何DLT可以集成构建健壮的数据管道。

火灾数据模型

金融监管数据标准(火)规范定义了一个常见的颗粒之间数据传输的金融监管体系。监管数据指的是数据,构成监管意见书,要求和计算和用于政策,监测和监督的目的。的火灾数据标准是支持的欧洲委员会,开放数据研究所开放数据孵化器火灾数据标准欧洲通过地平线2020资金计划。作为这个解决方案的一部分,我们贡献PySpark模块可以解释火灾数据模型到Apache火花™操作管道。

三角洲生活表

数据管道砖最近宣布了一项新产品编制δ生活表,这使得它易于构建和管理在企业范围内可靠的数据管道。能够评估多个预期,丢弃、实时监控无效记录、整合的好处三角洲住表上的火灾数据模型是显而易见的。见下面的架构中,δ住表摄取细粒度的监管数据降落到云存储,系统化内容和验证数据记录的一致性符合消防规范。继续阅读看到我们演示使用三角洲之间共享交换颗粒信息监管系统在一个安全的、可伸缩的和透明的方式进行。

三角洲之间的信息共享交换颗粒的使用监管系统在一个安全的、可伸缩的和透明的方式进行。

执行模式

虽然一些数据格式可能“看”结构(例如JSON文件),执行模式不仅仅是一个良好的工程实践;在企业环境中,特别是在法规遵从性的空间,模式执行担保任何缺失的字段可以预料到的,意想不到的领域被丢弃和数据类型完全评估(如日期应该被视为一个约会对象,而不是一个字符串)。它还为最终检验系统数据漂移。使用火pyspark模块,我们以编程方式检索过程所需的火花模式给定火灾实体(在这个例子抵押品的实体),我们应用流的原始记录。

fire.spark进口FireModelfire_model = FireModel () .load (“担保”)fire_schema = fire_model.schema

在下面的例子中,我们执行模式传入的CSV文件。由装修这个过程使用@dlt注释,我们定义入口点δ生活表,阅读原始CSV文件从一个安装目录,写个图示记录铜层。

@dlt.create_table ()defcollateral_bronze():返回(火花.readStream.option (“maxFilesPerTrigger”,“1”).option (“badRecordsPath”,“/道路/ /无效担保”)格式(“csv”). schema (fire_schema).load (“/道路/ /生/担保”)

评估预期

应用模式是一回事,是另一个加强限制。考虑到模式定义火灾实体(参见附带的示例模式定义),我们可以检测是否一个字段是必需的。鉴于枚举对象,我们确保其价值观是一致的(如货币代码)。除了模式的技术限制,火模型也报道业务预期,如最小、最大、货币和maxItems。所有这些技术和业务约束将以编程方式从火中检索数据模型和解释为一系列引发SQL表达式。

fire.spark进口FireModelfire_model = FireModel () .load (“担保”)fire_constraints = fire_model.constraints

与达美住表,用户有能力评估多个预期,使他们放弃无效的记录,只是监控数据质量或中止整个管道。在我们的特定场景中,我们想把记录没有任何我们的期望,我们后存储到一个隔离表,在这个博客提供的笔记本电脑。

@dlt.create_table ()@dlt.expect_all_or_drop (fire_constraints)defcollateral_silver():返回dlt.read_stream (“collateral_bronze”)

只有几行代码,我们确保银表是语法(有效模式)和语义(有效的预期)正确。如下所示,合规官员完全能见度在实时处理的记录数量。在这个特定的例子中,我们确保我们的附属实体92.2%完成(检疫处理剩余的7.8%)。

直接无圈图的三角洲生活表输出质量指标

操作数据存储

除了实际的数据存储为三角洲文件,三角洲生活表还存储操作指标作为“δ”格式下系统/事件。我们遵循一个标准的模式Lakehouse架构的“订阅”新的操作指标使用自动装卸机,处理系统事件的新指标——实时批处理或展开。由于三角洲湖的事务日志记录的数据更新,组织可以访问新指标,而无需建立和维护自己的检查点过程。

input_stream =火花\.readStream \格式(“δ”)\.load (“/道路/ /管道/系统/事件”)
              output_stream = extract_metrics (input_stream)
              output_stream \.writeStream \格式(“δ”)\.option (“checkpointLocation”,“/道路/ /检查站”)\.table (metrics_table)

与所有可用指标集中成一个操作存储,分析师可以使用砖的SQL创建简单的仪表盘功能或更复杂的报警机制实时检测数据质量问题。

从管道执行数据质量标准流

三角洲湖格式的不变性方面加上δ现场提供的数据质量的透明度表允许金融机构“时间旅行”的特定版本的数据匹配所需的数量和质量法规遵从性。在我们的具体的例子,重演我们的7.2%的无效的记录存储在隔离会导致不同版本的三角洲连接到我们的银表,监管机构之间可以共享的版本。

描述历史fire.collateral_silver

监管数据的传输

数据质量和体积都充满信心,金融机构可以安全地使用监管系统之间交换信息三角洲分享为企业数据交换,一个开放的协议。不限制终端用户相同的平台或依赖复杂的ETL管道消费数据(例如通过SFTP服bob体育客户端下载务器访问数据文件),三角洲湖的开源性质使消费者从Python图示数据的访问本地数据,火花或直接通过MI / BI仪表板(如表或PowerBI)。bob下载地址

虽然我们可以分享我们的银表按原样,我们可能想要使用业务规则,只有当一个预定义的数据共享管理数据质量阈值。在这个例子中,我们克隆银表在不同的版本和特定地点分开我们的内部网络和由最终用户访问(非军事区,或DMZ)。

delta.tables进口*deltaTable = DeltaTable.forName(火花,“fire.collateral_silver”)deltaTable.cloneAtVersion (approved_version,dmz_path,isShallow =,取代=真正的)
              spark.sql (“创建表。colleral_gold使用三角洲位置“{}”格式(dmz_path))

虽然三角洲共享开放源代码解决方案依赖于共享服务器的管理bob下载地址权限,砖利用统一目录集中存储和执行访问控制策略,为用户提供完整的审计日志功能和简化通过SQL接口访问管理。在下面的示例中,我们创建一个分享,包括我们的监管表和一个接收方分享我们的数据。

——定义我们的共享策略创建分享regulatory_reports;改变分享regulatory_reports添加fire.collateral_gold;改变分享regulatory_reports添加fire.loan_gold;改变分享regulatory_reports添加fire.security_gold;改变分享regulatory_reports添加fire.derivative_gold;——创建收件人和格兰特选择访问创建收件人regulatory_body;格兰特选择分享regulatory_reports收件人regulatory_body;

任何监管机构或用户授予权限可以使用个人的访问令牌访问底层数据交换通过这一过程。关于δ分享的更多信息,请访问我们的产品页面,联系你的砖的代表。

测试你的合规证明

通过这一系列的笔记本和δ表工作生活,我们演示了在摄入Lakehouse架构带来的好处,处理、验证和管理数据的传输。具体来说,我们需要解决组织,以确保一致性、完整性和及时性监管管道,可以很容易地通过使用一个公共数据模型(火)加上一个灵活的编排引擎(δ生活表)。与达美共享功能,我们终于证明FSIs如何给监管带来完全透明和信心,各种管理系统之间的数据交换,同时满足报告要求、降低操作成本和适应新标准。

熟悉消防使用附加的数据管道笔记本电脑和访问我们的解决方案加速器中心得到最新的金融服务与我们的最新解决方案。

免费试着砖
看到所有工程的博客的帖子