工程的博客

AML大规模解决方案使用砖Lakehouse平台bob体育客户端下载

分享这篇文章

反洗钱(AML)合规已经毫无疑问的议程项目管理者提供对全球金融机构的监督。随着AML的进化,成为更复杂的在过去的几十年里,所以设计的监管要求,以应对现代洗钱和恐怖主义融资方案。的1970年银行保密法案》为金融机构提供指导和框架放在适当的控制监督金融交易和向有关部门报告可疑的财政活动。本法为金融机构提供了设置框架打击洗钱和金融恐怖主义。

反洗钱为什么这么复杂

当前AML业务承担的过去十年几乎没有相似之处。转向数字银行、金融机构(FI)处理每天数十亿美元的交易,导致了洗钱的范围不断增加,即使有更严格的交易监控系统和健壮的了解你的客户什么解决方案。在这个博客中,我们分享我们的经历与FI客户合作,建立企业级的AML的解决方案lakehouse平bob体育客户端下载台提供了强有力的监督和提供创新的、可扩展的解决方案,以适应现代网络洗钱的现实威胁。

构建一个与lakehouse AML的解决方案

每天的操作负担处理数十亿交易来自于需要存储来自多个数据源的数据和电力密集,下一代AML的解决方案。这些解决方案提供了强大的风险分析和报告同时支持使用先进的机器学习模型来减少误报,提高下游调查效率。FIs已经采取措施解决基础设施和规模问题,从本地为更好的安全云,敏捷性和所需的规模经济来存储大量的数据。

还有的问题如何理解大量的结构化和非结构化数据收集和存储在廉价的对象存储。虽然云供应商提供一个廉价的方式来存储数据,使得下游AML的数据风险管理和合规活动始于存储中数据的高质量和高性能格式下游消费。的砖Lakehousebob体育客户端下载站台到底。通过结合数据的存储成本低效益湖泊健壮的事务数据仓库的功能,金融中间人才能真正建立现代AML平台。bob体育客户端下载

上述数据存储的挑战,AML分析师面临一些关键领域特定的挑战:

  • 提高了价值分析非结构化数据,如图像、文本数据和网络链接
  • 减少DevOps负担支持关键毫升实体解析等功能,计算机视觉和图像分析的实体元数据
  • 打破竖井引入分析工程对AML交易和仪表盘层和丰富表

幸运的是,砖有助于解决这些利用三角洲湖存储和非结构化和结构化数据结合,建立实体关系;此外,砖的使用新三角洲引擎提供高效的访问光子计算加快BI对表的查询。这些功能,在lakehouse毫升是一等公民,这意味着分析师和数据科学家不浪费时间二次抽样或移动数据分享仪表板和领先一步糟糕的演员。

AML Lakehouse参考体系结构

检测AML模式图形功能

的一个主要数据源AML分析师使用的情况交易数据。尽管该数据表格和方便的使用SQL,跟踪链变得繁琐事务和SQL查询三个或三个以上层深。出于这个原因,重要的是要有一个灵活的语言和api来表达简单的概念如一个连接网络的可疑人员一起非法交易。幸运的是,这是简单的使用GraphFrames来完成,一个图形API中预装砖运行时机器学习。

在本节中,我们将展示如何使用图表分析来检测AML方案等合成身份和分层结构。我们要利用数据集组成的事务,以及实体来自交易,来检测这些模式使用Apache的存在引发™,GraphFrames和三角洲湖。持久化保存在三角洲湖这样的模式砖的SQL可以应用于金牌汇总版本的这些发现,向最终用户提供图形分析的力量。

场景1——合成身份

正如上面提到的,合成身份的存在可以报警的原因。使用图表分析,所有的实体从我们的事务可以批量分析检测的风险水平。在我们的分析,这样做是在三个阶段:

  1. 基于事务数据,提取实体
  2. 基于地址、创建实体之间的联系的电话号码或电子邮件
  3. 使用GraphFrames连接组件来确定是否有多个实体(由一个ID和其他属性)是通过一个或多个连接链接。

基于多少连接(即公共属性)之间存在的实体,我们可以指定一个更低或更高的风险评分和创建警报基于高分组。下面是一个基本的表示这一想法。

基于多少连接(即公共属性)之间存在的实体,我们可以分配更低或更高AML风险评分

首先,我们创建一个身份图使用一个地址,电子邮件和电话号码链接个人如果他们匹配任何这些属性。

e_identity_sql =“‘选择entity_id src,地址从aml dst。aml_entities_synth地址不是空的地方联盟选择entity_id src,电子邮件与aml dst。aml_entities_synth email_addr不是空的地方联盟选择entity_id src,电话从aml dst。aml_entities_synth phone_number的not null“‘graphframes进口*pyspark.sql.functions进口*aml_identity_g = GraphFrame (identity_vertices identity_edges)结果= aml_identity_g.connectedComponents ()
              结果\.select (“id”,“组件”,“类型”)\.createOrReplaceTempView (“组件”)

接下来,我们将运行查询识别当两个实体有重叠的个人识别和分数。基于这些查询的结果图组件,我们希望一群组成的只有一个匹配的属性(如地址),而不是过多的关注的原因。然而,随着更多属性匹配,提醒我们应该期待。如下所示,我们可以标记所有三个属性匹配的情况下,允许SQL分析师得到每天的结果从图分析运行在所有实体。

示例查询可视化识别当两个实体有重叠的个人识别和分数。

场景2 -结构

另一个常见的模式结构,这发生在多个实体勾结和发小在雷达下的支付的银行,后来路线更大的总金额最终机构(如下描述最右侧)。在这种情况下,各方一直在10000美元的门槛金额,通常会提醒当局。这不仅是来轻松完成图分析,但是主题发现技术网络可以自动扩展到其他排列和定位其他可疑交易以同样的方式。

一个常见的模式被称为组织。这是当多个实体发送勾结和发小在雷达下的支付的银行,后来路线大总最后一个机构

现在我们将编写基本motif-finding代码来检测上述场景中使用图表功能。注意,这里是半结构化的JSON输出;所有的数据类型,包括非结构化类型,方便在lakehouse——我们将保存这些特定的SQL报告结果。

主题=“(一)- (e1) - > (b);(b) - (e2) - > (c);(c) - (e3) - > (d);(e) - (e4) - > (f);(f) - (e5) - > (c);(c) - (e6) - > (g)”struct_scn_1=aml_entity_g.find(主题)joined_graphs=struct_scn_1.alias \ (“a”)加入(struct_scn_1.alias (b)、坳(“a.g.id”)==坳(“b.g.id”)) \过滤器(坳(“a.e6.txn_amount”)+坳(“b.e6.txn_amount”)>10000年)

使用主题的发现,我们提取有趣的模式,资金通过4种不同的实体,并不断进行阈值10000美元。我们加入我们的图元数据的结构化数据集生成见解AML分析师做进一步调查。

通过图形图案发现识别可能的结构

场景3——风险评分传播

识别高风险的实体将会影响圈(网络效应)。所以,所有的实体的风险评分与必须进行调整,以反映区域的影响。使用迭代方法,我们可以遵循交易流向任何深度和调整网络中影响他人的风险评分。如前所述,图表分析避免了多个重复运行SQL连接和复杂的业务逻辑,从而影响性能由于内存限制。图分析和Pregel API是建立准确的目的。最初由谷歌开发的,Pregel递归地允许用户“传播”消息从任何顶点对应的邻国,更新顶点状态(他们的风险评分)每一步。我们可以代表使用Pregel API动态风险方法如下。

使用图表分析和Pregel API来检测在一个网络实体如何AML传播风险。

上面的图表显示了网络的起始状态和两个后续迭代。说我们开始与一个坏的演员(节点# 3)的风险评分10。我们要惩罚所有人办理与该节点(即节点4、5和6)和接收基金通过,例如,风险评分的一半坏的演员,然后添加到他们的基础分数。在下一次迭代中,所有节点下游节点4,5、6会调整他们的分数。

节点号 迭代# 0 迭代# 1 迭代# 2
1 0 0 0
2 0 0 0
3 10 10 10
4 0 5 5
5 0 5 5
6 0 5 5
7 0 0 5
8 0 0 0
9 0 0 2.5
10 0 0 0

使用Pregel API从GraphFrame,我们可以计算和保存修改后的分数为下游消费的其他应用程序。

graphframes。自由进口Pregel排名=aml_entity_g。pregel \.setMaxIter (3)\.withVertexColumn (“risk_score”,坳(“风险”),合并(Pregel.msg ()+坳(“风险”),坳(“risk_score”)))\.sendMsgToDst (Pregel.src (“risk_score”)/2)\.aggMsgs (总和(Pregel.msg ())) \.run ()

地址匹配

我们想简要提及模式实际街景图片地址匹配的文本。通常,需要AML分析师验证地址的合法性与实体的文件。这个地址是一个商业建筑,居民区或简单的邮箱吗?然而,分析图片往往是一个冗长费时的和手动过程获得,清洁和验证。lakehouse数据体系结构允许我们使用Python和ML自动化大多数这个任务运行时和PyTorch pre-trained开源模型。下面是一个例子,一个有效的解决人类的眼睛。自动化验证,我们将使用一个pre-trained VGG有成百上千的有效对象模型我们可以用来检测一个住宅。

有效的住宅左边的图像。无效的居住地址在右边显示潜在的风险更高。

使用下面的代码,可以自动运行,我们现在有一个标签附加到所有我们的图片,我们已经加载图像引用和标签也成一个简单的SQL表查询。注意到下面的代码是多么简单的查询图像的一组对象里面,查询等非结构化数据的能力与三角洲湖是一个巨大的分析师,节省时间,加快了验证过程到几分钟,而不是几天或几周。

公益诉讼进口图像matplotlib进口厘米
              img = Image.fromarray (img)vgg = models.vgg16 (pretrained =真正的)预测= vgg (img).argmax预测= prediction.data.numpy () ()img_and_labels[我]=标签(预测)

当我们开始总结时,我们注意到一些有趣的类别出现。从分解如下看到,有几个明显的标签如庭院、活动房屋和小型摩托车我们期望看到物品中发现一个住宅地址。另一方面,CV模型标记一个太阳能盘从周围的对象在一个图像。(注意:因为我们不局限于一个开源模型训练一组自定义的图片,太阳盘标签是不准bob下载地址确的。)对图像的进一步分析,我们深入并立即看到我)没有一个真正的太阳能碟,更重要的是ii)这个地址不是一个真正的住宅(见上面我们并排比较)。三角洲湖格式可以让我们商店的引用非结构化数据和标签的简单查询分类下面分解。

三角洲湖的力量可以让我们商店的引用非结构化数据和标签的简单查询分类下面分解

样例AML可视化解决方案解决验证,显示标签附加到每个图像分析。

实体解析

最后一类,我们关注的是AML挑战实体解析。许多开源库解决这个问题,所以对于一些基本实体模糊匹配,我们选择的亮点Splink,实现了连杆在规模和提供配置指定匹配列和屏蔽规则。

在实体的上下文来源于我们的交易,这是一个简单的练习将δ湖事务插入Splink的上下文。

设置= {“link_type”:“dedupe_only”,“blocking_rules”:【“l。txn_amount = r.txn_amount”,),“comparison_columns”:【{“col_name”:“rptd_originator_address”,},{“col_name”:“rptd_originator_name”,}]}splink进口Splink链接器= Splink(设置、df2火花)df2_e = linker.get_scored_comparisons ()

Splink通过分配匹配概率,可以用来识别交易实体属性的高度相似,提高潜在的警告对报道地址,实体名称或事务数量。考虑到实体解析可以高度手动匹配的账户信息,在开源库自动化这个任务并保存信息三角洲湖可以让调查人员更有效率的情况下解决。虽然有几个选项可用于实体匹配,我们建议使用Locality-Sensitive散列(激光冲徊化)来确定合适的算法。您可以了解更多关BOB低频彩于激光冲徊化和它的好处这篇博客

正如上面报道的,我们很快就发现了一些不一致的纽约梅隆银行地址,与“加拿大广场、金丝雀码头,伦敦,英国“类似于“加拿大广场、金丝雀码头,伦敦,英国”。我们可以存储重复项消除记录回差值表可用于AML的调查。

删除匹配实体

AML lakehouse仪表板

砖lakehouse SQL是缩小差距的对传统数据仓库的简化数据管理、光子与新的查询引擎和用户的并发性能。这非常重要,因为许多组织没有预算过高专有AML软件支持多种使用情况下,如打击资助恐怖主义(钢管),帮助打击金融犯罪。在市场上,有专门的解决方案,可以执行上面的图表分析,专门解决BI在仓库,专门解决方案毫升。AML lakehouse设计结合。AML数据平台团队bob体育客户端下载可以利用低成本的三角洲湖云存储而轻松地集成开源技术生产策划报告基于图形技术,计算机视觉和SQL分析工程。bob下载地址下面我们将介绍一个物质化的AML的报告。

附加的笔记本生产交易对象、实体对象,以及总结等构建前景,合成身份分类使用pre-trained模型层和地址。在下面的砖SQL的可视化,我们使用我们的光子的SQL引擎执行总结有关这些主题和内置的可视化生成一个报告仪表板在几分钟内。两个表上有完整的acl,以及仪表板本身,允许用户与高管和数据分享团队——一个调度程序定期运行这个报告也内置。仪表板是人工智能的一个高潮,BI和分析工程建在AML的解决方案。

仪表板是人工智能的一个高潮,BI,和分析工程建在AML的解决方案。

开放银行业的转型

开放银行业的崛起使FIs能够提供更好的客户体验通过消费者之间的数据共享,FIs和第三方服务提供者通过api。这方面的一个例子支付服务指令(PSD2)在欧盟地区,改变了金融服务的一部分开放的欧洲银行监管。因此,FIs获得更多数据从多个银行和服务提供者,包括客户账户和交易数据。这一趋势已扩展诈骗和金融犯罪的世界内的最新指导FinCEN下section 314 (b)美国爱国者法案;覆盖FIs现在可以共享信息与其他金融中间人和在国内外分支机构关于个人、实体、组织等等,被怀疑参与潜在的洗钱。

而信息共享提供帮助与透明度和保护美国的金融系统打击洗钱和恐怖主义融资、信息交换必须通过使用协议通过适当的数据和安全保护。解决安全问题的信息共享,砖最近宣布的三角洲分享为数据共享、开放和安全协议。使用熟悉的开源API,比如熊猫bob下载地址和火花,数据生产者和消费者现在可以共享数据使用安全,开放协议和维护一个完整的审计事务的所有数据保持遵守FinCEN法规。

AML组织内数据共享

结论

lakehouse架构是最可伸缩的和通用的平台,使分析师AML分析。bob体育客户端下载Lakehouse支持用例从模糊匹配图像分析与内置的仪表板,BI和所有这些功能将允许组织减少总体拥有成本相比AML专有的解决方案。金融服务团队在砖正致力于各种业务问题在金融服务领域,使数据工程和科学专业人士开始砖之旅解决方案加速器像AML。

笔记本电脑今天在砖来加速你的AML的发展战略联系我们了解更BOB低频彩多关于我们如何帮助客户提供类似的用例。

免费试着砖
看到所有工程的博客的帖子