从疫苗管理到重症监护病房规划:CRISP如何在大流行期间释放数据的力量

2021年5月27日下午04:25(太平洋时间)

下载幻灯片

切萨皮克患者区域信息系统(CRISP)是一个非营利性医疗保健信息交换系统(HIE),其客户包括马里兰州等州和约翰霍普金斯大学等医疗保健提供商。CRISP的工作通过安全地共享有助于护理和改善健康结果的数据,为当地医疗保健社区提供支持。

当大流行开始时,马里兰州卫生部向CRISP提出了一个请求:为我们提供跟踪COVID-19所需的人口数据,并积极支持我们的社区。因此,CRISP员工花费了很长时间试图处理具有复杂数据丰富过程的多个数据源。为了自动化这些请求,CRISP与Slalom合作建立了一个由Databricks和Delta Lake支持的数据平台。bob体育客户端下载

利用Databricks Lakehouse平台的强大功能和Delta Lake的灵活性bob体育客户端下载,Slalom帮助CRISP向马里兰州卫生部提供了近实时的COVID-19关键措施报告。有了这些信息,马里兰州就能够跟踪大流行的传播路径,确定新检测点的位置,并最终改善弱势社区的就医机会。

工作并没有就此停止——一旦CRISP的客户看到了平台的价值,就会有更多的请求。bob体育客户端下载现在,自该平台创建近一年以来,CRISP已经处理了来自数百个数bob体育客户端下载据源的数十亿条记录,以抗击大流行。这项工作的显著成果包括每小时接触者追踪,已经交叉引用了个人风险因素的数据,COVID-19住院情况的自动报告,急诊医生的实时ICU容量报告,学生群体中COVID-19模式的跟踪,疫苗接种运动的跟踪,将马里兰州的mcco与需要优先接种疫苗的弱势人群联系起来,以及分析COVID-19对怀孕的影响。

在本节中请注意:
Andy Hanks,切萨皮克区域信息系统分bob体育客户端下载析平台所有者
Steve Dowling, Slalom Consulting的数据工程师

成绩单

史蒂夫·道林:大家好吗?感谢大家参加我们今天的会议。我叫史蒂夫·道林。我是一名数据工程师和Slalom咨询公司的技术平台负责人,今天和我在一bob体育客户端下载起的是我的朋友安迪·汉克斯。安迪,你想自我介绍一下吗?

安迪·汉克斯:很高兴,史蒂夫。我叫安迪·汉克斯。我在CRISP工作,它是马里兰州的健康信息交换中心,我领导着数据分析团队。

史蒂夫·道林:太棒了。谢谢你,安迪。所以,我们今天在这里向你们介绍我们的会议,这将是Slalom和Chris在大流行期间如何合作,释放数据的力量。
在我们开始之前,我要先回顾一下我们的议程。从议程开始,安迪将首先介绍医疗保健领域对数据湖屋的需求。然后,我将介绍一个湖屋的力量,深入研究一些平台架构,讨论如何使用元数据驱动的管道,最后,安迪将使用数据来对抗COVID-19。bob体育客户端下载所以,安迪,你可以把我们踢出去,让我们开始。

安迪·汉克斯:太棒了。因此,COVID-19的挑战在于,我们继承了一个拥有漂亮的基于微服务架构的组织,这意味着我们可以识别任何患者的所有医疗保健细节。CRISP的任务是接收来自全州所有不同医院和医疗保健机构的数百万行数据,并将其整合在一起。唯一的问题是,一些数据,比如实时住院数据和索赔信息都存储在远程站点上。所以当我们一次给一个病人做手术时,我们做得很快,非常成功。当我们需要开始匹配10万,20万,3万名患者时,这真的非常困难。于是我们开始了这个建造湖屋的项目,我们成功地把数以亿计的实时住院记录拉进了数据湖。我们在湖边小屋收集了上百万病人的病历信息。然后,我们很快就能创建一个用例,将这些数据匹配起来,并产生每日输出。
所以当我们开始的时候,我们在四月中旬开始了一个项目,他们说,“好吧,在五月初,你能给我们提供到目前为止病例的匹配数据吗?”我们迅速建立起架构。这一切都是在三周内完成的。我们达到了每天追踪联系人的目标。
但与此同时,他们说,“哦,顺便说一下,你能每小时做一次吗?因为我们真的很想快速应对这些疫情。”因此,我们采用了另一个包含数百万行实时实验室数据的大型数据源,并将这些数据导入数据湖,并将其作为覆盖接触追踪的触发器。
给你们一个背景,这是健康信息交换。很多人跳入其中,他们承担了如何在这些远程数据存储中进行查询的任务,如何将它们整合到Excel电子表格中,并进行各种vlookup并得出答案。但是我们有5个甚至更多的人每天工作8到12个小时来实现这个目标。
在六、七周的时候,当我们开始每小时追踪联系人的时候,我们从他们的电子表格中获取了所有的业务知识,这些用户说,“哦,我可以永远挂起我的Excel VLOOKUP电子表格了。”有一个大的派对。
但这只是开始。我们从匹配大约3万个箱子开始。现在我们有45万箱了湖屋经营得很好。缩放效果非常好。我认为我们看到的时间比我们在那里的时候稍微延长了一些,所以不是线性的缩放,这太棒了,移交给休斯顿。
我把它交给你,史蒂夫。

史蒂夫·道林:太棒了。谢谢你,安迪。现在安迪已经谈到了一些常见的健康博览会数据挑战,我要谈谈拥有一个湖屋的力量,以及我们是如何决定建造它的。
所以,通过安迪所说的一些挑战,数据无处不在,没有统一的标准化。当我们坐下来真正思考什么是一个好的平台,我们可以构建来管理医疗保健数据中的一些常见挑战时,我想到了一些事情。bob体育客户端下载
首先是要灵活,有很多不同的来源,不同的来源类型,来自各地;我们怎样才能灵活地摄入呢?第二件事是可扩展性。我们知道随着大流行的继续,数据基本上会增长,更多的任务会进来,更多的记录会进来,我们需要我们的平台能够非常好地处理这些,在需要的时候扩大和缩小规模,节省资金,但也要在需要的时候处理大数据集。bob体育客户端下载
接下来是数据转换。我们希望它与SQL非常非常地集成。因此,我们希望了解SQL的人能够参与进来,处理不同类型的数据转换,并且能够真正产生影响,而不必过多地切换他们的技能集。
最后一件事就是有能力。我们希望这个平台的功能非常强大bob体育客户端下载,它不仅可以像典型的SQL分析师那样查询SQL,还可以提供可视化、位置分析和少量报告等功能。
所以再深入一点,就灵活性而言,当我们最初建立这个湖屋平台时,我们知道会有来自四面八方的资源,所以我们需要确保我们能够吸收它们。bob体育客户端下载所以,我们一开始看到的一些常见的来源,我们可以很容易地处理与lakehouse将SFTP, Azure SQL, on-prem SQL,应用程序洞察,然后甚至从Salesforce和Microsoft Dynamics吸收一些东西,如CRM系统。
所以这个系统带来了一些不同的文件类型,每个人都知道文件类型有时是一个挑战。但是使用Spark的开放平台和所有不同bob体育客户端下载的连接器,我们能够继续调整csv,不同类型的压缩csv, JSON, Parquet,显然是Spark的标准,然后我们甚至开始摆弄COBOL,获得一些遗留数据来提取价值并加入到一些现代数据中,这真的帮助我们发展我们的平台。因此,感谢Cobrix这样的开放包,所有这些都是可能的,并且您不再受限于您的平台可以根据您拥有的系统吸收什么。bob体育客户端下载那真是太棒了。
接下来是可伸缩性。Databricks的可扩展性显然很棒。作为一名数据工程师,通常最困难的事情是建立一个工作流,然后你不知道当你把这些记录扩大10倍或20倍时,它将如何扩大。我认为使用集群和扩大和缩小规模的真正好处是我们说,“好吧,我们将为每天10,000个测试构建这个,但如果明天我们要进行100,000个测试,我们可以继续进行计算,我们知道运行时间将是完全相同的。因此,我认为,随着大流行数据的增长,这种简单的扩大和缩小确实为我们提供了一个毫不费力的过渡。
接下来是数据转换。我们知道Spark在处理大数据方面是非常强大的,但我认为Spark最好的事情之一显然是有不同的方式来使用该API。所以我们有pi -Spark API,我们有很多熟悉的Python开发人员,但我认为使用Spark SQL API对我们非常有帮助,因为我们可以把那些更传统的SQL分析师带到我们的环境中,并将他们转变为数据工程师。他们能够做一些事情,比如数据混合,数据丰富,我认为最重要的事情之一可能是数据重复删除。所以我们有时能够对一个人进行10到20次测试,为单个记录找到共同的真相来源,并继续将其推送给我们的最终消费者,这样最终消费者只使用最好和最真实的数据。我认为在像大流行这样的环境中,确保被联系的人是正确的人,拥有正确的数据,并且没有被发送多个通知是非常关键的。所以Databricks的湖屋平台非常有帮助。bob体育客户端下载
至于能力,我认为这才是Databricks真正的闪光点。正如我所说,作为SQL分析师,您应该习惯于只查询数据和只做汇总表。从中获得见解是很好的,但我认为能够在Databricks中做一些事情,比如数据可视化,是非常强大的。因此,我们能够使用数据可视化非常容易地查询一些数据源并发现数据源问题。这样,我们就可以在数据源中找到烟雾,然后进一步调查以找到火灾。所以我认为拥有这个内置的功能让很多人感到惊讶,甚至能够可视化你的数据,还有什么是可能的。
第二件让我非常自豪的事情是位置分析。所以我认为当大流行开始时,最大的困难之一是获得数据,获得良好的数据。我们能够得到很多数据,这些数据有非常不稳定的地址信息,但是我们能够使用Spark用户定义的函数来访问不同的地理编码api,比如谷歌,人口普查数据,然后是一大堆不同的本地api,并且实际上在这些数据的基础上丰富了一些不稳定的地址信息并为我们的最终用户提供了非常稳定的标准化地址,位置,纬度。我认为这确实有助于最终用户获得这些数据,并为下游提供更多价值,并采取更多行动对抗大流行。
最后,显然Databricks是一个计算平台。bob体育客户端下载所以你可以在它上面附加任何库,用于你使用的任何语言。我们可以利用很多很棒的Python库。Matplotlib已经安装在Databricks中,他们能够使用像O-365这样的东西。使用这个,我们创建了一些自动的电子邮件报告,这真的很有帮助。因为周六早上,你想确保所有的跑步都很顺利因为你每天24小时都在运行输油管道。所以你只需要发送一个自动的电子邮件报告。因此,你不必登录电脑,检查你的管道是否运行正常,你可以继续,只检查你的电子邮件,看看一切都运行正常,得到一份报告,得到一个大拇指,然后就可以开始了。所以我认为我们为我们的数据工程师节省了很多早上的时间,只要说:“嘿,我们会得到一个快速的报告,就这样,你可以继续你的一天。”所以能够在平台上灵活地做任何我们想做的创造性的事情,帮助我们向前发展,帮助平台发展,帮助团队bob体育客户端下载真正整合,我认为这是很棒的。
这是在湖屋上方的高处。我要讲的是我们在CRISP专门开发的架构。接下来,我们将进入实际的平台架构。bob体育客户端下载现在,我将从我们在CRISP所做的更高层次的工具和过程来讨论这个问题,如果有任何更详细的问题,我很乐意在问答环节中跳过它们。但是看看架构,你会发现我们有各种各样的Azure工具集。我将调用数据工厂。在这个图中,我们使用数据工厂进入所有的Databricks节点。这只是为了说明数据工厂实际上是在编排我们的Databricks作业。我们使用Databricks进行几乎所有的计算处理,但它是在它之上的编排工具来启动一切。
对于源的摄取,我们也使用了一点数据工厂。如果我从左到右,在左边我们有所有我们要摄取的数据源,这些可以是on-prem,公共云资源,api。几乎你能想到的任何东西都是我们在这个过程中摄取的东西,以获得良好的数据。数据工厂,我们会把数据拉出来放到我们的着陆区。我们的着陆区域将是源数据的精确复制。如果我们在source上有一个CSV,它会在登陆时是CSV。这很好,因为如果发生了任何事情我们知道源数据在那里,我们知道我们可以通过有一个on源数据的副本在下游重建任何东西。
从着陆区继续前进,我们进入系统中所谓的原始区。所以原始区域几乎是我们摄入的所有东西的精确复制品。但这是我们开始把它转换成Delta格式的地方。这非常有帮助,因为我们能够获取所有原始数据,解析它,无论是CSV, JSON, Parquet,还是其他类型的格式,并将其放入Delta表中,因此现在分析师可以使用标准SQL查询它或针对它编写Pi Spark,任何他们想做的事情,他们都可以开始拾取数据。这就是我们每天都要添加的每一个数据。然后数据就会出现在这个原始区域。
然后我们从原始区过渡到所谓的过程区。这就是我想说的数据的魔力发生的地方。如果我们在原始层中有追加,当我们转换到处理区时我们将使用类型二合并样式维度。而且,任何小的转换都将发生在这个层中。这个存在的意义是,如果我是一个SQL分析师,我要回到流程区,我要确保我总是在处理最干净,更新最多的数据,这就是我要做的事情。因此,我将把所有的查询都指向流程层。
你可以在上面的过程层中看到我们的作业状态DB。很快地,你可以把它想象成一个水印表。这个数据库中没有存储实际数据。我们只是跟踪每一个进入我们lake的文件,从登陆到原始到加工,在这个表中做了一个条目,我们一直跟踪它。因此,如果发生故障,集群有时会宕机。如果发生这种情况,下一次作业运行时,它将从它停止的地方开始,我们不会在整个管道中丢失任何数据,这很好。
从加工到策划。如果你是数据工程师,SQL分析师或类似的人,你会花90%的时间在这上面。这就是我们将所有处理过的数据自动放入处理层的地方我们开始处理它,进行查询,制作不同的表格。然后我们将这些数据推送给下游的最终用户和客户。它的格式可以是将文件推送到SFTP,在power BI中使用仪表板,使用Spark连接到SQL将表推送到SQL数据库。我们甚至做了一些很酷的事情,比如使用批量API更新Salesforce,甚至使用内置的API更新Smartsheets。因为Spark是一个非常容易处理数据的平台,然后我们在上面有Pythonbob体育客户端下载。我们能够将这些数据下放到不同的api中,让我们的终端消费者以他们感觉最好、最舒服的方式使用这些数据。所以有这样的选择和灵活性真的很好,就像我之前提到的,帮助我们的最终用户以他们想要的方式消费数据。
这是对我们平台的一个高层次的概述。bob体育客户端下载接下来,我想谈谈元数据驱动的管道。对我们来说最重要的一件事是,我们知道我们会有很多数据和很多不同的来源。所以当我们退后一步的时候,我们的一个想法是我们如何帮助数据工程师从登陆到处理的整个过程中尽可能快地获得数据源?作为一名数据工程师,我在以前的组织工作过,我知道通常情况下,当一个新的输入必须发生时,这将是一个两到三周的过程,从需求到来,到新代码将要构建,连接建立,从整个过程中必须发生的一切,到它需要的地方,人们可以开始使用它。
因此,我们决定为CRISP创建元数据驱动的管道,在某种意义上,一旦您为Parquet创建了摄取故事,如果Parquet将来会出现,我就不必再创建更多的函数或编写任何代码片段来再次使用Parquet。我已经把代码写好了,标准化了,参数化了,这样我就可以在元数据文件中创建条目,下次我必须摄取Parquet源时,我可以复制粘贴元数据,然后我们就摄取那个确切的源。所以我们真的把摄入时间从两到三周缩短到了两到三小时。如果我是一名数据工程师,我所需要做的就是编辑元数据,然后我就可以继续工作了,源代码一旦被推到生产环境中,就会登陆并进行处理。然后我可以让我的分析师使用它,或者我可以用它创建精心策划的用例。所以我认为这对我们的可重用性是有好处的。它使我们的流程标准化。然后我认为最大的事情显然是更快的设置时间。如果只需要2到3个小时就可以获取一个源,那么您将花费更多的时间从数据中获得见解,而不是仅仅试图将数据放到一个地方。
最后一点,它是内置在文档中的。我知道作为一名数据工程师,文档总是我们最不关心的事情。所以很高兴我们在做的时候能记录下来。由于我们已经在CRISP中摄取了大约100个数据源,我们能够进入并查看我们的元数据文件,并看到“这是每个数据源的设置方式,这是每个数据源的每个主键,这是我们从着陆到处理的整个过程。”所以我认为作为一名数据工程师,我对此非常感激。这使我不必多次做文档。所以这对我们CRISP来说真的非常有用,我认为随着我们的发展,它也会对数据工程师有很大的帮助。
以上就是关于元数据驱动的管道以及它们如何为我们的管道提供动力的一个简短片段。现在我要把它传给安迪,你可以继续谈谈我们如何在CRISP利用数据抗击COVID-19。

安迪·汉克斯:对我来说,好消息是,这张幻灯片是,我不需要过多地解释这些用例,因为我想你们大多数人都是从报纸上知道这些用例的。我们最初讨论过接触追踪用例,但我想说的是,我们仍然每天都在工作并改进它,即使是一年之后的现在。
因此,我们每周与合同追踪团队会面三次,该管理团队监督使用Salesforce的数百名接触追踪者,联系那些检测呈阳性的人,并向他们提供指示,帮助防止进一步传播。
所以我们开始做的一件事就是在记录中加入种族和民族。所以电子实验记录,有些实验室不收集。有些人不想分享。但我们可以查看他们两年来的住院数据然后填上。这确实帮助规划者考虑到在种族和民族方面的战略,因为他们已经推出了接触追踪工作。
下一件事是,它与下面的住院图标对齐,是我们能够将住院信息发送到接触追踪。因此,我们能够收集实时的医院信息,找出谁在医院里。实验室记录在两点钟送来,我在三点钟把它送到接触追踪部门。此时,病人可能不在医院。然后每天我们都会发送我们所谓的真实情况,告诉你他们当时的住院状况。所以,如果他们在第二天或三天后入院,在接触追踪系统中,它会弹出,说他们在某家医院,在这个日期入院。然后我们也会告诉他们出院日期,他们稍后回家。
我们会继续添加这样的信息。我们添加了CRISP主患者索引中的电话号码。所以,在实验室测试中输入的电话号码可能被打错了,但是当我们回到我们的主患者索引时,我们会看最新的电话号码,并把它们通过接触追踪。这非常成功。我认为从70%的连接率到95%以上的连接率,这对于第一次接触用户来说是巨大的。
然后我们继续增加价值,因为人们已经想到了新的方法来确定外展。显然,现在我们有了疫苗接种报告数据,我们已经能够把疫苗接种数据拉进来,并产生报告,帮助那些计划按地点、按数量推出大规模疫苗接种中心的人,他们能够做到这一点,部分原因是我们能够迅速为他们提供报告和分析。
当然,我们现在已经更新了接触者追踪用例,这是这个检测呈阳性的人的疫苗接种状态。他们现在已经到了下一个阶段,我们正在寻找重新感染的人,所以他们在90天后再次感染COVID。谢天谢地,非常非常少。然后我们也在研究所谓的突破性病例,即人们已经完全接种了疫苗,但检测结果仍然呈阳性。其中一些人,他们只是检测呈阳性,因为他们检测呈阳性,这不是一种新的感染,而另一些人检测呈阳性,这是有原因的。它使我们能够对人和病毒进行测序,并继续降低这种感染的传播。
总体来说,我们已经能够获取大量的数据,所以我们的实验室数据在过去五年里有数十亿行;我们已经能够把它拉进湖屋,并把它们放在一起进行研究。总的来说,我们已经能够承受这么大的历史负荷,然后每天摄取,并保持所有这些不同的来源在湖屋的最新状态,所以我们觉得我们已经得到了接近实时的分析,一切都是从昨晚开始的,我们能够在我们需要的地方运行。对于每小时的接触追踪,我们也会回溯实时数据。
我想就这样结束,这是我们要处理的体积。我们每天都要处理这些因为数据中有删除。这是一个值得参与的伟大项目。我们很乐意回答你的问题。

安迪·汉克斯


阅读更多

Steve Dowling

Steve Dowling


阅读更多