RWE和病人分析利用砖——一个用例

2021年5月26日,上午11:30 (PT)

下载幻灯片

从现实世界的健康数据获得的见解和知识(RWD),即外,数据获得的随机临床试验的背景下,一直持续的制药公司组织的机会。

什么是真实的数据和真实的证据,它是如何生成的,一般什么价值驱动器进行生命科学和什么样的分析。

有什么注意事项和挑战与数据安全,隐私,和工业化的大数据平台托管在云里。bob体育客户端下载

我们如何利用砖进行大数据摄入-优势本机AWS批/胶的例子的一些高级分析用例下游杠杆RWE DB。

注意:这种解决方案的一个用例利用创新解决方案赢得了2020年的Gartner眼睛奖。

https://www.gartner.com/en/newsroom/press releases/2020 - 11 - 17 - gartner宣布赢家-的- 2020 gartner -医疗保健和生命科学-眼-创新- awardin这个

在这个会话表:
Harini Gopalakrishnan)导演,赛诺菲
马丁•Longpre建筑师赛诺菲


成绩单

Harini Gopalakr…:大家好。我的名字叫Harini葛。我在赛诺菲和我领导我们所说的证据一代的技术策略和见解分析和砖是我们建造了这个生态系统的重要组成部分。我很高兴今天与你分享。随着马丁Longpre,解决方案架构师是谁帮助建立(听不清)。这个话题本身就是现实世界和病人分析证据。这是一个用例,赛诺菲,我们在执行感到骄傲。所以对我演讲的第一部分主要是围绕解释下我们所说的真实世界的证据和数据。为什么它是重要的生命科学,然后切换到的一些技术元素如何重新砖实现这些目标。
所以,这将是一个快速演示。我们不会过量您的幻灯片。议程,正如你所看到的,这将是相当集中,我们会把很多时间留给问和答:但我希望在会议的结束,当你离开,你理解我们所说的真实世界的证据和数据,为什么隐私和安全很重要,我们必须定制数据砖如何达到这些目标,一起期待旅程的伙伴关系。bob体育外网下载
所以,让我们定义的问题。什么是现实世界中数据和证据,为什么对我们很重要,对吗?基本上真实世界数据,或者RWD我们会叫它从现在开始,意味着病人和医疗相关的所有数据,我们没有收集的一部分,我们通常所说的临床试验,这是通常被称为一个随机对照试验或一个随机临床试验。所以,可能是宇宙中所有关于病人的数据,我们利用。
非常受欢迎的,我们经常使用被称为电子健康记录,来自我们的大多数访问医院、医生或其他文件。然后声称,这是一个医学声称你文件你的保险提供者。在未来,我们从设备包括数据,你的苹果手表、天气应用程序或社交媒体。所以,这是一个非常多样化的和不断增长的空间。任何可以帮助我们通知疾病进展如何在社区或病人怎么处理是我对我们有用的见解。然后现实世界的证据或RWE基本上是在这个多样化的数据做分析推断出一定的洞察力和我们所说的证据。
今天在我们公司,我们有大约130字节的EHR和索赔和我们实现多个版本和转换,这意味着大约2000 tb的数据管理和分析平台的版本控制。bob体育客户端下载所以,这是一个巨大的数据处理。也非结构化因为这种问题我们开采也是一种理论。分析在现实世界的证据真的是什么意思,对吧?所以,我们说我们有很多的数据。所以,我们应该做什么样的分析吗?通常有两种类型的分析。分析就是我们所说的传统,这是常规统计分数,可以罐装为一个程序。传统上,他们使用SAS编程语言来管理它。也可以是高级分析,这意味着你使用人工智能或机器学习预测的事情。
这就是我们的实现,具有很大的意义。典型的先进分析方法包括所有那些你在屏幕上看到,监督和非监督学习的例子。我们带来的数据,根据需要和用例,我们开采洞察力的目的或切我们称之为定制数据。和我们通常所说的分析军团。RWE和我们如何使用这个吗?有哪些不同的价值链中,我们可以使用真实世界的证据?为什么这是重要的药物吗?通常,RWE可以影响很多方面的东西,药品生命周期。它可以从研究批准的药物甚至帮助商业或(听不清)。例如,它可以帮助找到新的迹象,我们称之为新疾病领域,你不认为仅仅通过观察数据和做一些机器学习的本质,你会发现隐藏的趋势或模式之前你不能发现。
我们也可以在现实世界中找到这种药物的有效性或市场。记住,临床试验通常是在受控环境中完成的。在某些情况下病人的数量是有限的。而在现实世界中,当你看保险索赔或EHR的范围,我们有一些大尺寸的患者人群。所以,我们可以看看药物的性能在市场上更好的通过观察各种参数来自这些数据。标签,它还可以扩大,这对公司是非常重要的,例如,你发起了一系列药物一定批准的适应症。如果你能找到新的迹象表明,他们还可以帮助扩大你的标签,这些其他的未满足的需求。所以,等公司赛诺菲安万特制药公司,它实际上是非常重要的用例。
和现实生活的例子是如果你把辉瑞公司在几年前的新闻。他们能够得到一个名为Ibrance的药物标签延长乳腺癌的男性,他们只用真实世界数据而无需启动另一个临床试验。因为他们能够做到通过观察数据已经存在,而不是推出另一个昂贵的试验,它不仅提供了一个成本效益,而且在这样的情况下男性乳腺癌,这是一个非常,非常罕见的情况下,你不是要招募患者很难找到。因为它不是你找到很多患有这种疾病的患者人群。所以,在这种情况下它还帮助管理这个罕见的疾病(听不清)。当然,这通常是高质量数据的关键驱动因素。
这就是为什么今天同其他行业一样,数据提供者扮演重要的角色在我们的生态系统,甚至从投资的角度来看。正如他们所说,数据是新的石油和管理这样的高质量数据,并允许人们做计算机与明确的安全、可追溯性,外部合作伙伴和监管者可以信任,我们需要一个平台,有一定的毕业生和支柱,这就是我们今天在赛诺菲已经建立了。bob体育客户端下载bob体育外网下载
太好了。所以,让我们看一个用例,我们真正应用在现实生活环境中在赛诺菲,如果我可以再次使用这个词真正的。你看到的是一个迹象发现用例,我们基于机器学习技术。我们建立了一个工业管道工程和实际数据分析数据,找到我们所说的新见解。数据本身是不同的幻灯片,我们可以描述它。
结合保险索赔,数据来自实验室和RX通常意味着我们的药店信息。我们然后集群分为病人组类似的人口。我们的集群实际上是秘密武器。所以,这就是为什么它不显示,但基本模式有助于找到一个类似的病人在一起。然后在最后,我们可以链接到一个治疗领域。在这种情况下,我们的意思是,每个集群有助于我们找出新的迹象表明,病人可能受益,这不是很明显的肉眼或在过去传统的分析。要做到这一点,有不同的结构。你可能会问,“我们不能用机器学习平台吗?bob体育客户端下载“我们将稍后进入,但有隐私保护和de-identification的一个方面。当我们这样做时记住他们正在做它在病人人口水平。
我们不知道谁是病人。这是我们遵守道德的遵从性,要做到所有这一切在一个工业化规模就是我们建造了这个生态系统。我们还利用砖作为一个组件。在右边你会看到这个用例详细,我们试图实现什么。百万病人,我们分析和2700年的特点我们可以我。但非常重要的是这个特殊的提交或终点的这个结果是去年提交的Gartner奖。我们最终赢得它,Gartner实际上被称为我们的生态系统和生态系统的用例,作为新兴技术的创新使用在生命科学和医疗保健。
所以,这对我们来说是非常好的成功的故事。我们已经能够达到这个规模,因为我们现在可以复制这些资产为其他类型的数据和其他类型的迹象。它不是一个独立的管道。所以这些元素进入建设这个平台和塑造了它的旅程过去两年。bob体育客户端下载
和一个重要的一点在我们进入细节之前是因为我们处理数据来自多种来源,但总是与疾病或病人,我们必须照顾在确保对我们来说是不可能做到没有他们的同意,或者是能够识别识别个体。所以,我们需要很多的痛苦在一个安全的和可追踪的方式管理数据,并确保它的治理。本课程的重要主题和幻灯片,平台总是隐私保护。bob体育客户端下载之外和数据不应该使用互联网的目的。和治理的使用是必须的。很多努力已经进入实施。砖,这也是我们的伙伴关系是希望将我们前进在其他维度。bob体育外网下载
所以,这是什么架构和实现我们之前谈过很多,对吧?我们设置了阶段的用例是什么,为什么它是重要的医药和我们实现。那么,让我们看看在幕后。所以,任何方面的证据一代生态系统应该有四大支柱,对吧?这里的支柱,我们想要提到是1,数据管理。并不仅仅意味着我们做一个英语教学或ETL数据从数据源到云。我们需要把好的做法保持管道敏捷,我们有频繁的刷新数据。因此,我们需要确保版本控制。同时,我们能够在动态语言代码,Python,甚至在某些情况下,Java,所以我们有很多的数据工程师可以利用这个原始数据和创建自己的工程管道。
我们有分析的一个组成部分,你可以看到,有一个多样化的利益相关者。有些人我们喜欢非常传统的统计数据就像艺术或情景应用程序,我们需要想工作的人(听不清)。所以,我们需要解决这两个用户在我们构建的生态系统,保持周围的安全数据统一。第三个是访问控制。因为很多数据的许可或重复购买,我们知道谁有一个非常重要的元素的访问数据,是否做正确的事,他们说他们会做的数据,并确保在任何时候,我们可以复制的分析完成。所以,很多的定制平台的实现已经成为确保严格的访问控制数据本身。bob体育客户端下载
最后是审计和监控。如果你控制数据是不够的,我们还需要控制转换和派生数据集和它的出版物里出来。所以,这是一个完整的端到端血统,在任何时候,我们不仅可以看到原始数据,但是我们也可以控制数据访问,右边的转换数据集,最后仪表板或任何其他形式的分析小组,从这些见解。
这真的提供什么?因此,我们建立了一个强大的电脑,实际上,你可以看到,今天可以处理数十亿行数据。我们有一个完整的历史数据更新。我们可以回到任何版本的数据。我们有一个良好的可追溯性,我们可以变换和捕获的数据集。健壮的安全。然后我们还能够管理元数据,参考数据为这个特定的人口,我们正在处理。它完全是在云上,我们建立在一个可伸缩的数据湖,今天是基于AWS。这是我将通过它的架构和马丁在第二个。但本质上的消息是,正如您所看到的,这是一个复杂的生态系统。 We deal with different kinds of platforms and tools because we have different kinds of users that access it.
我们人只使用仪表板。我们有传统的BI和完整的仪表板。我们有传统研究中,科学家们想做什么我称之为传统统计数据。所以,我们有一个平台,帮助他bob体育客户端下载们做到这一点,而不必用Python编写代码和转换。然后我们有大的先进分析数据科学家,这是砖最。我们会帮助用户做一个好的蔡先生,把自己的模型,把自己的分析同时,确保我们有血统和我谈到的观点。所有的这些都是由一个中央数据湖与权限。然后我们也与其他内部和外部系统集成。我们有很多的外部合作伙伴也在系统上工作。bob体育外网下载话虽这么说,马丁,交给你,帮助深入探究这一技术并展示我们所做的砖。

马丁Longpre:谢谢你,Harini。大家好!我的名字是马丁Longpre。我管理数据的领域架构师工程师和云专家团队为现实世界的生态系统。所以,在接下来的15分钟我将详细介绍我们的现实世界生态系统基础设施,托管在AWS,更特别是砖的集成来支持这个现实世界的生态系统。这真实世界的旅程开始以来超过三年前,和主要推动力是遵循尽可能多的新闻。赛诺菲安万特标准,AWS云价值和利用自动化AWS柴油信任代码源问题和因素。
和Atellica真正显示通过运行分为四个不同的区域为更好的摄入和秘密的过程。生,我们有一个短暂的信任和精制区域数据将从区域过渡到区根据每个数据类型和用法。数据摄取时,检查和清洗,然后把它我们SAS伴侣或使其可为我们的内部分析和可视化应用程序。顺便说一下,我们不提供任何直接访问基于AWS S3 bucket的方向。我们所有的数据,主要是在平面文件使用CSV是由希尔伍德公园和访问管理。
访问这些数据的唯一方法就是从分析或可视化工具使用身份验证服务基于组织和承担解决国际海事组织。最后,我们所有的湖数据被用来调整使用AWS(听不清)的大部分服务像AWS胶水,AWS批处理和其他服务。但自从去年5、6月,我们现在迁移这些管道砖。在做更深层次的下一张幻灯片之前,让我们专注于我们的数据库集成。今天我们有四个不同的砖工作区。我们有两个沙盒,一个在美国,一个在EMEA和两个生产工作区,还一个在美国,一个在印度。区域数据砖工作区,两个方面,数据科学根据合同我们与我们不同的数据提供者,或如果任何数据有区域限制。今天与两个主要地区,我们覆盖所有需求和等待固体用例也部署到亚太地区。
自90年我们使用起程拓殖主要部署以来,95%的砖工作区,在任何AWS地区部署非常简单。所以,幻灯片。我们在哪里使用砖吗?首先,对于探索用例,我们需要运行不同的数据科学人工智能或ML工作流或用例要求GPU,自定义库,等等。我们也使用砖为跨职能团队的项目,在内部和外部利益相关者之间共享。的灵活性,我们让用户管理自己的集群,大小和尺寸根据他们的需求和他们工作的集群政策限制。顺便说一下,我们没有打开其他集群模式类型和司机现在,更好的预算管理。和最后但并非最不重要,对于数据摄入管道,管理的意义主要是我所有的团队从AWS本地服务迁移到砖,我们评估至少30%的改善成本使用砖和生产力。
自上个月以来,我们也评估三角洲的使用因为我们为什么使用大多镶花文件格式。我们认为数据应该给我们一个伟大的增加价值,但我们仍在评估与砖,以确保这种格式可以方便我们所有其他消费系统。我们也可用SQL解析功能沙箱工作区来评估我们的一个业务团队正在寻找一个快速的加合物的SQL查询数据链路。现在在接下来的两张幻灯片我将与你们分享,定制我们应用不同的管理需求。这些砖定制的进化(听不清),新砖特性或用例需求。
第一个是安全。透传的主要重点是我们轻松地管理自动数据访问和项目限制,现在使用的广告组数据访问和数据砖团体项目,和这些群体是暂时的。我们的项目,有一个开始日期和结束日期在项目的最后,然后删除所有不同的砖组和易于管理,回到Azure广告和请求删除的广告组。大多数砖DBFS路径不可用的用户除了不同路径库安装和集群所需的脚本,也仅为一个特定的文件扩展名。我们允许(听不清)控制尽可能多,DBFS访问系统。上传和下载功能也完全禁用基于我们的数据限制政策。我们提供内部文件传输工具服务提供者向导时必要的。我们还提供自动1.4只保留数据和项目存储访问。
然后Gitlab集成。我们Gitlab企业集成是强制性的数据工程师级别,也为我的团队为我们的数据科学用户处理他们的蔡先生管道和代码淡化。这个需求,我们所做的砖回购的特性实现通过使用一个永久代理集群。我们希望砖将为我们提供一个更健壮的特性在接下来的版本更好地满足这一需求,而不是一百二十四小时(听不清)的事情。同时我们也为所有项目和用户使用集群政策。这些政策的主要目标是提供更好的审计和监控kpi以集群政策,为每个项目名称后缀参数,这意味着使用一个自定义集群,用户需要在一个特定的砖项目的组织和应用后缀命名集群名称。
这些政策让我们限制了集群模式工人更好的服务和驱动程序类型使用情况和预算管理,执行一个特定参数和集群终止一样,过去的预订,越来越多。然后结束与数据库定制,为什么不定期使用实例配置文件特性。因为我们有近500用户注册两个工作区,发送每个项目实例配置文件,每个用户或将是一个巨大的努力,并主要依靠人类的行动。通过供应商近90,95%的需求以自动方式。那么,为什么使用实例配置文件具体要求?在这些情况下,集群设置了只有一个用户使用单一模式或标准模式集群模式和直接由项目负责人或我的团队。
所以,现在,我将向您展示更多的名誉快速旅行,比一个演示砖给你不同的用户访问自动妈妈点文件夹访问加其他东西我已经在这张幻灯片文档共享。所以,让我们开始这个荣誉快速浏览我们的砖工作区。我处使用代理。如你所见,我们使用的是单点登录功能。我们也保持admin登录。所以,如果事情发生在Azure广告至少我们可以联系单点登录和我们联系。你是降落在工作区中砖的着陆页。我们拥有所有的菜单左边。我已经说过了,你不会看到SQL解析功能。只有安装在我们的沙箱。 So, we’ll show you it on sandbox. On sandbox we’re not using the SSO and we are not using our sole [inaudible].
所以,我们有一个大的实例配置文件数据也在那里。因此,用户可以测试所有不同的特性,这样的其他东西。底部如果你走在这里,你会看到所有不同的菜单与SQL解析。所以,我们有一个业务团队是新功能的测试,我们会回到这个特性在不久的将来,我认为。然后回到位置将向您展示一个集群设置。所以,我已经说过了,我们有一个Gitlab集群设置每个工作区。所以,这是唯一一个提供了一个访问Gitlab企业制度。所以,我将向您展示如何连接到它。所以,我将使用一个虚拟的回购协议。我可能没有改变令牌在过去的几周。
它可能无法工作,但至少我已经有一个报告在我的工作区。我们真的连接和使用Gitlab报告所有不同的数据从我们Gitlab回购并使其在砖。现在我与集群政策。正如你看到的,我们有很多聚集在我们的系统和每一个项目作为一个自定义的项目将每个项目的政策。和我们有用户集群政策。这是为λ用户。我们设置不同的工人,终止一分钟,每个不同的系统上可用的类型和驱动程序类型。所以,我们不要打开所有不同的平台功能。bob体育客户端下载我们已经启用了密码和IP表,和一些AWS辊和元数据所需的不同的连接。
然后我们看到自定义λ政策之间的主要区别是客户名称的模式。因此,用户需要使用在这个集群政策名称能够走出不同的自定义设置和不同的IP表。现在我们确定不同的用户和处理数据组之间的差异和项目组织。我认为这是将近500用户的平台。bob体育客户端下载如果你继续组菜单,你会看到,所有的应用程序组是Azure广告组。所以,这是我们的一个永久性的团体访问在只读模式下,不同的访问(听不清)。现在另一个应用程序组。现在其他组数据砖从自定义组。所以,那些使用一个不同的数据段组添加一个不同的定制和能够把他们推出一种数据文件或类型的文件他们为不同的项目会需要它去那里将近500用户,493。
我们也使用的工作模块,你看,我们有一些数字CRM摄入管道已经在砖。所以,我们正在逐步迁移管道(听不清)服务。我用这个数据科学。表菜单,我们使用我们的数据科学到目前为止,我们没有任何砖表的创造者。所以,我将会快速演示显示了不同的几个月,因为所有不同的存储访问自动完成使用斜杠(听不清),当用户的平台,你可以列出所有不同的月可用的平台。bob体育客户端下载所以,我们有数据,我们有项目月,你也家庭用户。也因此,当用户自动连接,我们将创建对他来说,一个特定的文件夹在S3 bucket。所以,我们就能够访问它在削减,与他的邮件。
是这样,那么它将列出所有不同的电子邮件文件夹中得到。我将在这里找到我的(听不清)。所以,我将列出我的家文件夹。我应该有一个或两个文件夹?就这些吗?我得到了输出数据和SFTP上传数据。但是最主要的区别是那些只供用户访问自己的文件夹,所以只有一个用户可以访问它。他们不能分享任何东西,从该文件夹相比,现实世界的数据。所以,现在我可以(听不清)文件夹列表。这只是在偏远,所以我可以找到不同的版本我们会收到CGM我将列出一个不同的表可用于特定版本。 We have all the different tables over there. And for each path you will find the parquet five under the parquet table with the code lists. And then we see the snippy pocket firearm. It was a quick go to show you how the different way or data centers can access the data and the restriction we’re applying.
谢谢你!所以最后,当这种技术演示的一部分,所以我们密切合作与砖砖烟囱的持续改进。第一个是我们的工作室。我们有20到30%的数据科学使用我们的工作室,但由于存储在我们的工作室(听不清),也许EFS可以提供一个解决方案,具体要求,我们只需要使用实例配置文件为项目和数据访问。现在我们大多是拒绝访问和开放它只对特定的用例和管理完全在我的团队中。
第二个最重要的要求改进我们正在与砖上的传播对BI数据的访问和数据血统。一个主要目标是有相同的访问在砖工作区存储任何数据,并说,而访问或管理使用透传,这是完全适合扎克访问的远程,但一旦数据科学或用户将获得一些大表数据,并将其复制在其他存储的地方,如项目月,权限丢失和每个人都可以访问存储可以访问数据。
砖表我们认为迁移这一要求的一些解决方案,而不是电视和数据科学不使用砖表。你看到的快速演示。数据的优势,我们在某种程度上所有行动在每个Databrick工作流(听不清),一种数据中心的历程,我们可以看到使用数据源,数据准备、转换、版本和输出。所以,我们可以更好地管理每一个管道端到端以一种视觉的方式。也许其他改进将提高在使用越来越多的砖,因为我们使用砖,因为只有五、六个月,但从今天开始,工作时更多的一种伙伴关系数据砖,然后我们部门只有放牧。bob体育外网下载这是非常感激的。但这就是我。所以你,Harini。非常感谢。

Harini Gopalakr…:谢谢你,马丁。就像我们今天的结束,正如马丁说。我们在与砖。bob体育外网下载这是一个旅程的继续。我们有有效的需求,我们希望从产品,今天我们满足外的产品。有事情我们的数据科学家的工作已经很好。只是重述,三年前我们开始这段旅程,这是一个传统的仓库和我们搬到一个大数据湖生态系统由几个不同的云供应商和SAS伙伴。bob体育外网下载砖是一种新的进入者,我们希望更多的与他们工作。我们已经帮助摆脱传统的分析更先进的分析方法,它利用云计算和大数据的真正价值。所以,这是一个巨大的变更管理。
在这个旅程,因为我们今天,我们能够产生我们所说的证据在工业化规模和方式。成就的顶峰之一就是我们从外部认可机构Gartner。所以,这是一个有趣的骑到目前为止,我们希望在未来继续。当我们结束的时候,我希望你已经至少两个点从我们的互动,我们希望明年见到你回来。正如结束报告,所有的点表示是我们的个人观点。这并不代表赛诺菲的位置,但它是我们已经学会了和想分享的砖爱好者。谢谢你!

Harini葛

“Harini导致现实世界的证据和见解——技术产品在赛诺菲和监督赛诺菲的莱茵集团战略的实现为一个端到端云大数据分析平台。bob体育客户端下载承宪……
阅读更多

马丁Longpre

马丁Longpre是医疗解决方案架构师设计云上的数据流以及各种组件的集成。他是一个电脑工程师,导致的实现……
阅读更多