RWE &患者分析利用数据-一个用例

2021年5月26日上午11:30(太平洋时间)

下载幻灯片

从真实世界的健康数据(RWD)中获得见解和知识,即在随机临床试验背景之外获得的数据,一直是制药公司的一个持续机会领域。

什么是真实世界的数据和真实世界的证据——它是如何产生的,它为生命科学带来了什么价值,以及执行了什么样的分析。

云托管的大数据平台在数据安全、隐私和产业化方面有哪些考虑因素和挑战?bob体育客户端下载

我们如何利用Databricks执行大数据摄取-相对于原生AWS批处理/粘合的优势下游利用DB为RWE的一些高级分析用例示例。

注意:该解决方案和利用该解决方案的一个用例赢得了2020年高德纳创新之眼奖。

https://www.gartner.com/en/newsroom/press releases/2020 - 11 - 17 - gartner宣布赢家-的- 2020 gartner -医疗保健和生命科学-眼-创新- awardin这个

在本节中请注意:
Harini Gopalakrishnan,赛诺菲董事
赛诺菲建筑师Martin Longpre


成绩单

Harini Gopalakr:大家好。我叫Harini Gopalakrishnan。我在赛诺菲,负责我们所谓的证据生成和洞察分析的技术战略,而Databricks是我们建立的这个生态系统的关键组成部分。我很高兴今天能和你们分享这些。和马丁·朗普雷一起,他是解决方案架构师他帮助建造了[听不清]。所以,这个主题本身就叫做真实世界证据和患者分析。这是赛诺菲引以为豪的一个用例。所以我演讲的第一部分主要是解释我们所说的真实世界的证据和数据的背景。为什么它对生命科学很重要,然后我们转到一些技术元素,关于我们如何重新利用数据库来实现这些目标。
所以,这将是一个快速的演示。我们不会给你放太多幻灯片。正如你们在议程中所看到的,这将是非常集中的,我们将为问答留出很多时间,但我希望在会议结束时,当你们离开时,你们能理解我们所说的真实世界的证据和数据,为什么隐私和安全是重要的,以及我们如何定制Databricks来实现这些目标,并期待我们的合作之路。bob体育外网下载
我们来定义问题。什么是真实世界的数据和证据,为什么它对我们很重要,对吗?从本质上讲,真实世界的数据,或者从现在开始我们称之为RWD,是指所有与患者和医疗保健相关的数据,这些数据不是我们通常所说的临床试验的一部分,它通常被称为RCT或随机临床试验。所以,它可能是宇宙中所有病人的数据,供我们挖掘。
我们经常使用的最流行的被称为电子健康记录,来自我们去医院的大多数访问,或任何医生的文件。然后是索赔,基本上是你向保险公司提交的医疗索赔。未来,我们将包括来自设备、Apple手表、天气应用程序或社交媒体的数据。所以,这是一个非常多样化和不断增长的空间。任何可以帮助我们了解疾病在社区中如何发展或患者如何应对的信息,都有助于我们从中挖掘见解。然后真实世界的证据或RWE本质上是对这些不同的数据进行分析,从而推断出某种洞察力或我们所说的证据。
今天在我们公司,我们有大约130 tb的EHR和索赔,加上我们实现的多个版本和转换,我们在控制的版本和分析平台上管理的数据加起来大约2000 tb。bob体育客户端下载所以,我们要处理的是一个巨大的数据。它也是非结构化的,因为我们挖掘的问题也是一种理论。现实世界的证据分析到底意味着什么?我们说过我们有很多数据。那么,我们应该怎么分析呢?通常有两种分析方法。分析就是我们所说的常规分析,也就是你常规的统计分数,它可以被储存到一个程序中。传统上,他们使用编程语言SAS来管理它。或者它可以是高级分析,这意味着你正在使用人工智能或机器学习来预测事情。
这就是我们的实现最有意义的地方。典型的高级分析方法包括你在屏幕上看到的所有方法,主要是监督学习和无监督学习的例子。我们带来的数据,取决于需求和用例,我们挖掘洞察的目的或我们称之为适合目的的数据。我们通常称之为分析队列。我们如何在莱茵集团中使用它?在哪些不同的价值链中,我们可以使用真实世界的证据?为什么这对制药公司很重要?通常,RWE可以影响很多方面的东西,药物生命周期。它可以从研究到批准药物,甚至帮助商业或[听不清]。例如,它有助于发现新的迹象,我们称之为你没有想到的新疾病领域,仅仅通过观察数据的性质并对其进行一些机器学习,你就能发现你以前无法发现的隐藏趋势或模式。
我们也可以在现实世界或市场上找到这种药物的有效性。记住,临床试验通常是在受控环境下进行的。在某些情况下,患者数量是有限的。然而在现实世界中,当你看到保险索赔或EHR的范围时,我们有更大的患者群体。因此,我们实际上可以通过这些数据中的各种参数来更好地观察一种药物在市场上的表现。它还可以扩展到标签上,这对公司来说非常重要,例如,你已经推出了一种针对特定适应症的药物。如果你能够找到新的适应症,它们也可以帮助扩展你的标签,以满足这些其他未满足的需求。对于像赛诺菲这样的公司或制药公司来说,这实际上是非常重要的用例。
现实生活中的例子是,如果你以辉瑞公司为例,这是几年前的新闻。他们能够将一种名为Ibrance 's标签的药物推广到男性乳腺癌患者身上,而且他们只使用了真实世界的数据,而不必开始另一项临床试验。因为他们能够通过查看已经存在的数据而不启动另一个昂贵的试验来做到这一点,它不仅提供了成本效益,而且在像男性乳腺癌这样的情况下,这是一种非常非常罕见的情况,你不必试图招募很难找到的患者。因为你不会发现很多患有这种疾病的病人。所以,在这种情况下,它也有助于控制这种罕见疾病。当然,实现这一目标的关键因素通常是高质量的数据。
这就是为什么像今天的任何其他行业一样,数据提供商在我们的生态系统中发挥着关键作用,甚至从投资的角度来看也是如此。正如他们所说,数据是新的石油,为了管理如此高质量的数据,让人们在外部合作伙伴和监管机构可以信任的情况下进行计算机操作,我们需要一个具有明确安全性和可追溯性的平台,这就是我们今天在赛诺菲所建立的平台。bob体育客户端下载bob体育外网下载
太好了。那么,让我们来看看一个用例,我们在赛诺菲的现实生活中真正应用了这个,如果我可以再次使用“真实”这个词的话。你所看到的是我们基于机器学习技术寻找用例的指示。我们建立了一个工业化的管道来进行数据工程,并实际分析数据,找到我们所谓的新见解。正如我们所描述的,幻灯片上的数据本身是多种多样的。
这是保险索赔,来自实验室的数据和RX的组合,通常意味着我们的药房信息。然后我们将这些患者分成相似人群的患者组。我们聚在一起的其实就是秘方。所以,这就是为什么它没有被揭示,但本质上,这种模式有助于找到相似的病人。最后,我们能够将其与治疗领域联系起来。在这种情况下,我们本质上的意思是,每个聚类都可以帮助我们确定患者群体可以从中受益的新指标,这在过去的肉眼或传统分析中都不是很明显。要做到这一点,有不同的结构。你可能会问,“难道我们不能在任何机器学习平台上做吗?”bob体育客户端下载我们稍后会讨论这个问题,但这是隐私保护和去身份识别的一个方面。当我们这样做的时候记住他们是在病人群体的水平上做的。
我们不知道病人是谁。这是我们所坚持的一种道德合规,并且以工业化的规模来做所有这些,这就是我们建立这个生态系统的地方。我们还利用Databricks作为组件之一。在右边,您将更详细地看到这个用例,以及我们到底想要实现什么。我们分析了100万名患者,从中挖掘出2700个特征。但非常重要的是,这个特别的提交或结果的终点是去年提交的,以获得高德纳奖。我们最终赢得了比赛,Gartner称我们的生态系统和生态系统中的用例是在生命科学和医疗保健领域对新兴技术的创新使用。
所以,这对我们来说是一个很好的成功故事。我们能够大规模地实现这一点,因为我们现在能够为其他类型的数据和其他类型的指示重现这些资产。它也不是一个独立的管道。因此,这些是建造这个平台的一些元素,以及在过去两年塑造它的历程。bob体育客户端下载
在我们进入细节之前,有一点很重要,因为我们处理的数据来自各种来源,但总是与疾病或病人有关,我们必须小心确保我们不可能在没有他们同意的情况下做这些事情,或者能够识别它或识别个体。因此,我们在以安全和可追踪的方式管理数据方面付出了很多努力,并确保其背后的治理。这张幻灯片和平台的重要主题始终是隐私保护。bob体育客户端下载数据不得用于互联网以外的用途。对这种用法的管理是必须的。为此我们付出了很多努力。这也是我们与Databricks的合作,希望能在其他方bob体育外网下载面引领我们前进的地方。
我们之前讲过很多次的架构和实现是什么?我们设定了什么是用例,为什么它对制药公司很重要,以及我们用它实现了什么。那么,让我们来看看幕后是什么。所以,证据生成生态系统的任何方面都应该有四个支柱,对吗?我们想在这里提到的支柱之一,数据管理。这不仅仅意味着我们对数据进行ELT或ETL,将数据从数据源带入云中。我们需要采用良好的实践来保持管道的敏捷性,我们经常更新数据。因此,我们需要确保版本控制到位。与此同时,我们能够用动态语言编写代码,Python,甚至在某些情况下,Java,所以我们有很多数据工程师,他们可以利用这些原始数据,创建他们自己的工程管道。
我们有一个分析的组成部分,正如你所看到的,有不同的利益相关者。有些人我们更喜欢非常传统的统计,如艺术或SAS,我们需要愿意在[听不清]工作的人。因此,我们需要在我们构建的生态系统中解决这两个用户的问题,保持数据统一的安全性。第三是访问控制。因为很多数据都是授权或回购的,所以有一个非常重要的因素是我们知道谁在访问哪些数据,他们是否在用他们说过会做的数据做正确的事情,并确保在任何时候,我们都可以重现已经完成的分析。因此,我们对平台进行定制的很多实现都是为了确保对数据本身进行严格的访问控制。bob体育客户端下载
最后是审计和监督。仅仅控制数据是不够的,我们还需要控制转换、派生数据集以及从中发布的内容。因此,这是一个完整的端到端谱系,在任何时间点,我们不仅可以看到原始数据,还可以控制数据访问,转换到正确的数据集,最后控制仪表板或任何其他形式的分析组,从这些见解出发。
这到底能带来什么呢?所以,我们已经建立了一个强大的计算机,实际上,正如你所看到的,今天可以处理数十亿行的数据。我们拥有所有数据更新的完整历史。我们可以回到任何版本的数据。我们有良好的可追溯性,我们可以转换和捕获数据集。健壮的安全。然后我们也能够管理元数据,我们正在处理的这个特定群体的参考数据。它完全在云上,我们建立在一个可扩展的数据湖上,今天是基于AWS的。这就是它的结构我马上就把它交给马丁。但本质上,这里的信息是,如你所见,这是一个复杂的生态系统。 We deal with different kinds of platforms and tools because we have different kinds of users that access it.
我们有些人只消费仪表盘。因此,我们有传统的BI和全栈仪表盘。我们有科学家喜欢做传统的研究,我称之为传统统计学。所以,我们有一个平台,可以帮bob体育客户端下载助他们做到这一点,而不必用Python编写代码和转换。然后,我们有一大批高级分析数据科学家,这是Databricks最擅长的地方。在这里,我们实际上会帮助用户做一个好的CICD,带来他们自己的模型,同时带来他们自己的分析,确保我们有我所说的谱系和观点。所有这些都由一个具有权限的中央数据湖支持。然后我们也与其他内部和外部系统集成。我们有很多外部合作伙伴也在这个系统上工作。bob体育外网下载话虽如此,马丁,轮到你来帮助深入研究这项技术,并展示我们用Databricks做了什么。

Martin Longpre:谢谢你,Harini。大家好!我叫马丁·朗普雷。我是领域架构师,管理现实世界生态系统的数据工程师和云专家团队。因此,在接下来的15分钟里,我将详细介绍我们在AWS上托管的真实世界的生态系统基础设施,特别是Databricks的集成,以支持这个真实世界的生态系统。这次真实世界的旅程始于三年多以前,主要的驱动力是尽可能多地关注一条新闻。赛诺菲标准、AWS云评估和利用自动化作为AWS柴油和因素信任代码来解决源问题。
Atellica通过跑步真正展示的是将跑步分为四个不同的区域,以便更好地摄入和秘密过程。我们得到了一个临时的、原始的、可信的和细化的区域,其中数据将根据每种数据类型和使用情况从一个区域转换到另一个区域。采集、检查和清理数据后,我们会将其推送给SAS合作伙伴,或将其提供给我们的内部分析和可视化应用程序。顺便说一下,我们不提供任何直接访问基于AWS S3桶的方向。我们所有的数据,大部分是使用park和CSV的平面文件,都由Hillwood访问治理管理。
访问这些数据的唯一方法是通过分析或可视化工具,使用我们基于任何组的身份验证服务,并假设地址imo。最后,我们所有的数据湖数据都习惯于使用大多数AWS[听不清]服务进行调整,如AWS Glue、AWS Batch和其他服务。但在过去的五六个月里,我们把所有的管道都迁移到了数据库。在深入下一张幻灯片之前,让我们先关注一下数据库集成。今天我们有四个不同的Databricks工作区。我们有两个沙箱,一个在美国,一个在欧洲和非洲,还有两个生产工作区,一个在美国,一个在印度。我们有区域性的Databricks工作空间,两个方面,数据科学方面的东西基于我们与不同数据提供商的合同,或者任何数据都有区域性限制。今天,通过这两个主要地区,我们可以满足所有的需求,并等待在亚太地区部署可靠的用例。
由于我们已经使用Terraform部署了90%到95%的Databricks工作空间,因此现在在任何AWS区域进行部署都非常容易。回到幻灯片上。我们在哪里使用数据库?首先,对于探索性用例,我们不同的数据科学需要运行AI或ML工作流或需要GPU、自定义库等的用例。我们还将Databricks用于跨职能团队项目,在内部和外部利益相关者之间共享。为了提高灵活性,我们让用户管理他们自己的集群,根据他们的需要扩大和缩小规模,并且他们受到工作集群策略的限制。顺便说一下,为了更好的预算管理,我们现在还没有打开其他集群模式类型和驱动程序。最后但并非最不重要的是,对于数据摄取管道,这意味着我的大部分团队都通过从AWS本地服务迁移到Databricks来管理,我们已经评估了使用Databricks在成本和生产力方面至少30%的改进。
因此,从上个月开始,我们也在评估Delta格式的使用情况,因为我们主要使用拼花文件。我们认为这些数据会给我们带来很大的附加价值,但我们仍在用Databricks进行评估,以确保这种格式可以方便地访问我们所有其他的消费系统。我们还在我们的沙盒工作空间中提供了SQL分析功能,由我们的业务团队中的一个评估,他们正在寻找在数据链上快速添加SQL查询。在接下来的两张幻灯片中,我将与你们分享,我们在不同的治理需求上应用的定制。这些Databricks定制正在演变[听不清],遵循新的Databricks功能或用例需求。
第一个是安全问题。传递是我们的主要优先级,以便轻松地自动管理数据访问和项目限制,现在使用AD组进行数据访问,使用Databricks组进行项目,这些组是临时的。我们的项目,在项目结束时有一个开始日期和结束日期,然后我们删除所有不同的Databricks组,这样很容易管理,然后回到Azure AD并请求删除AD组。除了库安装和集群脚本所需的不同路径外,Databricks用户无法使用大多数DBFS路径,也只能用于特定的文件扩展名。我们允许[听不清]我们尽可能地控制DBFS访问系统。上传和下载功能也完全禁用基于我们的数据限制政策。我们在需要时提供内部文件传输工具服务提供商向导。我们还提供自动1.4仅保留数据和项目存储访问。
然后是Gitlab集成。我们的Gitlab企业集成对于我的数据工程师级别的团队来说是强制性的,对于我们的数据科学用户来说,处理他们的CICD管道和代码刷新也是强制性的。对于这个需求,我们通过使用永久的get代理集群实现了Databricks的REPOS特性。我们希望Databricks在下一个版本中为我们提供一个更健壮的特性来更好地满足这个需求,而不是只有24小时的[听不清]。我们还为所有项目和用户使用集群策略。这些策略的主要目标是通过使用集群策略名称的后缀参数为每个项目提供更好的审计和监视kpi,这意味着要使用自定义集群,用户需要在特定的Databricks项目组中,并在该集群名称上应用后缀命名。
这些策略允许我们限制集群模式工作者和驱动程序类型,以便更好地使用服务和预算管理,并强制执行特定的参数,如集群终止、过去的预留等等。最后是数据库定制,为什么不定期使用实例概要文件特性呢?由于我们在两个工作区中都有近500个用户注册,因此为每个项目或每个用户发送实例配置文件将是一项巨大的工作,并且主要依赖于人工操作。我们90%到95%的需求都是自动传递给供应商的。那么,为什么要为特定的需求使用实例概要呢?在这种情况下,通过使用单一模式或标准模式集群模式,由项目所有者或我的团队直接为一个用户设置了集群。
那么,现在我将给你们展示更多的荣誉快速参观,而不是演示Databricks用户访问,向你们展示文件夹访问的不同自动母点,以及其他我在这个幻灯片文档中已经分享过的东西。因此,让我们开始对Databricks工作区进行荣誉快速游览。我用的是DMEA代理。因此,正如你所看到的,我们正在使用单点登录功能。我们也保留管理员登录。所以,如果Azure AD发生了什么事情,至少我们可以通过单点登录进行连接,我们正在连接。您将登录到工作区Databricks登录页面。所有的菜单都在左边。正如我已经说过的,您不会在那里看到SQL分析特性。它只安装在我们的沙盒上。 So, we’ll show you it on sandbox. On sandbox we’re not using the SSO and we are not using our sole [inaudible].
我们有一个大的实例概要,数据也在那里。用户可以测试所有不同的特性,诸如此类。如果你在底部这里,你会看到所有不同的SQL分析菜单。所以,我们有一个业务团队正在测试这个新功能,我想我们会在不久的将来回到这个功能。然后回到位置,将显示您集群设置。因此,正如我已经说过的,我们为每个工作区设置了一个Gitlab集群。因此,这是唯一一个提供访问我们的Gitlab企业系统的程序。那么,我将向你展示如何连接它。我将使用一个虚拟的回购。我可能在过去几周没有换我的代币。
它可能无法工作,但至少在我的工作空间中已经有了一个报告。我们真正地连接在一起,并使用Gitlab报告从我们的Gitlab REPOS中获得所有不同的数据,并使其在Databricks中可用。现在我使用集群策略。如你所见,我们的系统中有很多集群每个项目都是自定义项目每个项目都有一个策略。我们有用户集群策略。这是针对Lambda用户的。因此,我们设置了不同的工作人员,也设置了终止分钟,以及系统上可用的每种不同的记录类型和驱动程序类型。所以,我们没有向所有不同的功能开放平台。bob体育客户端下载我们已经启用了密码、IP表以及不同连接所需的一些AWS卷和元数据。
然后,我们看到自定义Lambda策略之间的主要区别是客户名称模式。因此,用户需要在这个集群名称中使用策略名称,以便能够获得不同的自定义设置和不同的IP表。现在我们确定了不同的用户和副本,以显示数据组和项目组之间的差异。我想这个平台上有500个用户。bob体育客户端下载所以,如果你进入组菜单,你会看到所有的APP组都是Azure AD组。所以,那是我们在只读模式下访问的永久组之一,不同的访问方式在我们的[听不清]。现在另一个,APP组了一个。现在其他组是Databricks组,以custom开头。这些是用来在这些组中有不同的数据段来添加不同的自定义并能够将他们的派生数据放在一种文件或文件类型上他们将需要它来完成不同的项目,大约500个用户,493个。
我们也在使用工作模块,你看,我们在Databricks中已经有了一些数字CRM导入管道。因此,我们正在逐步迁移我们的管道[听不清]服务。我用的是数据科学。我们现在使用数据科学的表菜单,所以我们没有Databricks表创建者。所以,我会用快速演示来展示不同的月份因为所有不同的存储访问都是自动完成的使用斜杠[听不清]当用户进入平台时,你可以列出平台中所有可用的不同月份。bob体育客户端下载我们有数据月,项目月,还有家庭用户月。当用户自动连接时,我们会在S3存储桶上为他创建一个特定的文件夹。所以我们可以通过他的电子邮件,在斜杠家里找到它。
然后它会列出我们得到的所有不同的电子邮件主文件夹。我会在这里找到我的[听不清]。我会列出我的主文件夹。我应该在那边放一个还是两个文件夹?就这些吗?我得到了输出数据和SFTP上传数据。但主要的区别是那些自己的文件夹只能由用户访问,所以只有一个用户可以访问它。与现实世界的数据文件夹相比,他们不能共享该文件夹中的任何内容。现在我可以列出[听不清]文件夹。这只是在远程,所以我可以找到不同的版本,我们将从CGM收到,我将列出一个不同的表,可用于特定的版本。 We have all the different tables over there. And for each path you will find the parquet five under the parquet table with the code lists. And then we see the snippy pocket firearm. It was a quick go to show you how the different way or data centers can access the data and the restriction we’re applying.
谢谢你!最后,就像演讲的技术部分一样,我们与Databricks紧密合作,不断改进我们的Databricks堆栈。首先是我们的工作室。我们有20%到30%的数据科学使用我们的工作室,但由于我们工作室的存储是[听不清],也许EFS可以为特定的请求提供解决方案,我们只需要使用实例配置文件进行项目和数据访问。我们现在主要是拒绝访问,只在特定的用例中打开它,并在我的团队中完全管理它。
我们与Databricks合作的第二个最重要的请求改进是对BI数据和数据沿袭的传播访问权。一个主要目标是对Databricks工作空间存储中的任何地方的数据都有相同的访问权限,而不是使用Passthrough访问或管理,这完全适合Zac远程访问,但一旦数据科学或用户将获得一些大表数据,并将其复制到其他存储位置,如项目月,权限就丢失了,每个人都可以访问存储,可以访问数据。
Databricks表我们认为可以为这个需求迁移一些解决方案,但不是tele和我们的数据科学目前不使用Databricks表。正如您在快速演示中看到的。对于边缘数据,我们正在寻找一种方式,在每个Databrick工作流中都有所有的动作[听不清],这是一种数据中心之旅,在那里我们可以看到数据源的使用、数据准备、转换、版本控制和输出。因此,我们可以以一种可视化的方式更好地管理每个端到端管道。也许在使用越来越多的Databricks的同时,其他方面的改进也会被提出,因为我们使用Databricks的时间只有五六个月,但到今天为止,当我们更多地与Databricks合作时,我们只在我们的部门工作。bob体育外网下载这是很感激的。但对我来说仅此而已。所以由你决定,哈里尼。非常感谢。

Harini Gopalakr:谢谢你,马丁。就像马丁之前说的,总结一下今天的内容。我们和Databrickbob体育外网下载s是合作伙伴。这是一个将继续的旅程。我们对产品有有效的要求而今天我们在产品之外满足了这些要求。对于我们的数据科学家来说,有些事情已经非常有效了。但简单回顾一下,我们三年前就开始了这一旅程,当时它是一个传统的仓库,后来我们把它转移到了一个大数据湖生态系统,由几个不同的云提供商和SAS合作伙伴管理。bob体育外网下载Databricks是一个新进入者,我们希望与他们进行更多的合作。我们帮助从传统的分析转向更高级的分析方法,这充分利用了云和大数据的真正价值。所以,这也是一个巨大的变化管理。
在这段旅程中,由于我们今天所处的位置,我们能够以大规模和工业化的方式产生我们所谓的证据。我们取得的最高成就之一就是我们从高德纳(Gartner)等机构获得的外部认可。到目前为止,这是一段有趣的旅程,我们希望在未来继续这样做。在我们结束时,我希望你们从我们的互动中至少得到了几点启示,我们希望明年再见到你们。作为结束语,所有的观点都是我们个人的观点。这并不代表赛诺菲的立场,但这是我们所学到的,并想与Databricks爱好者们分享的东西。谢谢你!

Harini葛

Harini领导赛诺菲的真实世界证据和洞察-技术产品,并监督赛诺菲RWE战略在云上的端到端大数据分析平台的实施。bob体育客户端下载承宪……
阅读更多

马丁Longpre

Martin Longpre是医疗解决方案架构师,他设计了云上的数据流以及各种组件的集成。他是一名计算机工程师,领导实施了……
阅读更多