工程的博客

用NLP从真实临床数据中提取肿瘤学见解

分享这篇文章

预览本博客中引用的解决方案加速器笔记本在线或者马上开始下载并将笔记本导入你的Databricks帐户。

癌症是主要死因和疾病,这个数字令人震惊200万新的癌症病例预计将于明年在美国确诊。癌症也占美国医疗保健总支出的很大一部分,估计到2020年将超过2000亿美元。因此,生物制药行业主要专注于肿瘤药物的开发。近40种新的抗癌药物获得批准仅在2019年和2020年,以及超过1300种新药疫苗也在临床开发中。

衡量肿瘤干预措施的疗效对于使患者与正确的干预措施相匹配至关重要。肿瘤学数据和相关的现实证据有可能为临床研究、试验设计、监管决策、安全评估、治疗途径等提供信息。不幸的是,鉴于肿瘤护理的高度专业化性质,疾病标准和终点通常无法以结构化格式提供,并且仍然锁定在数据筒仓中,这使得它们难以汇总和分析。

在肿瘤学中,病理报告(通常以PDF格式捕获并存储在EMR系统中)包含关键信息,如肿瘤大小、分级、分期和组织学。一旦使用自然语言处理(NLP)系统提取这些变量,就可以用于定义疾病队列,评估疾病严重程度,并为疾病进展创建基线,然后可以应用于上述用例,从临床试验匹配到治疗途径。但是从非结构化的临床文本数据中提取这些信息通常是数据团队的一个巨大痛点。

医疗NLP领域的领导者John Snow Labs和Databricks正积极应对这些挑战,并与医疗生态系统中的许多客户合作,将非结构化肿瘤数据转化为可操作的证据。

与Databricks和John Snow实验室进行大规模临床自然语言处理

前进的道路始于Databricks湖屋平台bob体育客户端下载这是一个现代数据平台,它将数据仓bob体育客户端下载库的最佳元素(如数据管理和性能)与云数据湖的低成本、灵活性和规模相结合。这个新的,简化的架构使卫生系统得以实现将所有数据结构化(如EHR数据库中的诊断和程序代码)、半结构化(如HL7、FHIR信息)和非结构化(如自由文本笔记和图像)统一为一个传统分析和数据科学的单一高性能平台。bob体育客户端下载

借助Databricks Lakehouse平台和John Snow实验室解锁临床NLP的力量。bob体育客户端下载

Databricks Lakehouse平台的核心是bob体育客户端下载三角洲湖这是一个开源存储层,为数据湖带来了性能(通过Apache Spark™)、可靠性和治理。医疗保健组织可以将其所有数据(包括原始供应商说明、放射学报告和PDF病理报告)输入Delta Lake。在应用任何数据转换之前,这将保留真实的原始来源。相比之下,在传统数据仓库中,转换发生在加载数据之前,这意味着从非结构化文本中提取的所有结构化变量都与本机文本断开了连接。

在此基础上,约翰·斯诺实验室用于医疗保健的Spark NLP,最广泛使用的NLP库在医疗保健和生命科学行业。Spark NLP for Healthcare经过优化,可在Databricks上运行,以最先进的精度无缝提取、分类和构建临床和生物医学文本数据。它是唯一的本地分布式开源文本处理库,适用于Python、Java和Scala,由于每个Spark NLP管道都是一个Spark ML管道,因此特别适合构建统一的NLP和机器学习管道。Spark NLP提供Python、Java和Scala库传统NLP库的全部功能(如spaCy, nltk, Stanford CoreNLP和Open NLP),并添加了额外的功能,如拼写检查,情绪分析和文档分类。你可以在我们之前BOB低频彩的博客中了解更多关于Databricks和John Snow实验室的联合解决方案,自然语言处理在大规模卫生文本中的应用

实际的肿瘤学数据抽象

为了展示Databricks和John Snow实验室的强大功能,我们创建了一个解决方案加速器用于从肿瘤学记录中提取真实数据。该解决方案加速器包含样本数据、预构建代码和逐步说明,用于摄取和准备肿瘤报告,以进行下游分析和生成真实世界的证据。这个解决方案已经在Databricks的笔记本中准备好了,为了帮助您入门,我们在下面提供了一个简单的解决方案演练。

Databricks和John Snow Labs的解决方案加速器提供了端到端的自然语言处理工作流,用于摄取和准备肿瘤报告,以进行下游分析和生成真实世界的证据。

对于这个解,我们使用Mt肿瘤学笔记数据集。它主要以跨医学专业的转录样本医疗报告的形式提供资源,以及在构成医疗报告一部分的特定部分中遇到的常见医疗转录单词/短语-如体检或PE,系统或ROS审查,实验室数据和精神状态检查等部分。

我们从MT oncology notes数据集中选择了50份去识别的肿瘤学报告作为非结构化文本的来源,并将原始文本数据放入Delta Lake bronze层。出于演示目的,我们将样本数量限制在50个,但是这个解决方案加速器中提供的框架可以扩展到容纳数百万个临床记录和文本文件。

我们的加速器的第一步是使用命名实体识别(NER)的各种模型提取变量。为此,我们首先设置NLP管道,其中包含注释器例如documentAssembler, senencedetector和tokenizer,这些都是专门为医疗保健相关NER培训的。在下面的例子中,我们合并了bionlp_ner为临床NER模型jsl_ner,这是一个预训练的深度NER临床术语模型。我们看到间皮瘤患者有咳嗽等症状。

来自Databricks和John Snow Labs加速器的示例,展示如何使用预先训练的命名实体识别(NER)模型来提取患者症状。

从文本中提取命名实体是人工智能辅助ETL的一个很好的例子:预训练的深度学习(DL)模型使我们能够将非结构化数据转换为可用于下游临床分析的结构化格式。

一旦我们提取出症状,我们就可以映射到icd - 10编码,可用于编码自动化和改进层次条件类别(HCC)医疗保险风险调整的编码精度。我们可以进一步使用这些数据来分析治疗模式,并分析症状和肿瘤实体之间的关联。

临床数据集中编码症状的平均风险指示
图1:临床数据集中编码症状的平均风险指示
数据集中最常见的症状丰富的可视化。
图2:数据集中最常见的症状丰富的可视化

我们还可以生成一个图表,以研究这些症状存在、不存在或与其他人(例如,家庭成员)相关的断言状态。

Databricks和John Snow Labs的肿瘤NLP解决方案加速器可视化描述症状的断言状态为存在、不存在或与他人(例如,家庭成员)相关。

继续使用相同的注释集,我们运行描述性和可视化统计,以显示按断言状态分层的最常见肿瘤实体(如下例)。

Databricks和John Snow Labs的肿瘤NLP解决方案加速器可视化示例,描绘了最常见症状的断言状态
图3:大多数常见症状的断言状态。

接下来,我们可以看看治疗,包括药物频率和持续时间,这构成了肿瘤方案的基础。下面是我们的解决方案笔记本中包含的提取药物治疗和持续时间信息的NLP模型的截图。

例如databicks - john Snow Labs肿瘤学NLP溶液加速器的治疗文本分析,包括药物频率和持续时间。

然后,我们可以将症状与治疗相关联,以及疾病状态,如复发,与信心评分相关联。

例如databicks - john Snow实验室肿瘤学NLP溶液加速器分析,将与治疗相关的症状以及疾病状态(如复发)与信心评分联系起来。

这些数据对于确保个体患者护理的质量和人群水平的研究至关重要,有助于确定现实世界中干预措施的有效性和安全性。

使用Databricks Lakehouse平台,我们还可以轻bob体育客户端下载松创建一个关于病情、症状和程序的数据库,以及从非结构化笔记中提取的其他相关信息,然后可用于下游分析、临床决策支持和研究。

使用Databricks Lakehouse平台,您还可以轻松bob体育客户端下载创建从非结构化笔记中提取的条件、症状、过程以及其他相关信息的数据库,然后可用于下游分析和研究。

有了这个解决方案加速器,Databricks和John Snow实验室打开了大规模提取肿瘤数据的大门,并具有生成真实世界证据所需的质量。

开始使用NLP从肿瘤学笔记中提取RWD

要使用此解决方案,请预览笔记本电脑在线或者马上开始下载并导入笔记本电脑进入你的Databricks帐户。笔记本包括安装相关的John Snow Labs NLP库和许可密钥的指导。

您也可以访问我们的行业页面,以了解更多关于我们的BOB低频彩医疗保健而且生命科学解决方案。

免费试用Databricks
看到所有工程的博客的帖子