用NLP从真实临床数据中提取肿瘤学见解

通过阿米尔Kermany，莫里茨斯特勒，大卫Talby而且迈克尔Sanky

2021年9月22日在工程的博客

分享这篇文章

预览本博客中引用的解决方案加速器笔记本在线或者马上开始下载并将笔记本导入你的Databricks帐户。

癌症是主要死因和疾病，这个数字令人震惊200万新的癌症病例预计将于明年在美国确诊。癌症也占美国医疗保健总支出的很大一部分，估计到2020年将超过2000亿美元。因此，生物制药行业主要专注于肿瘤药物的开发。近40种新的抗癌药物获得批准仅在2019年和2020年，以及超过1300种新药疫苗也在临床开发中。

衡量肿瘤干预措施的疗效对于使患者与正确的干预措施相匹配至关重要。肿瘤学数据和相关的现实证据有可能为临床研究、试验设计、监管决策、安全评估、治疗途径等提供信息。不幸的是，鉴于肿瘤护理的高度专业化性质，疾病标准和终点通常无法以结构化格式提供，并且仍然锁定在数据筒仓中，这使得它们难以汇总和分析。

在肿瘤学中，病理报告(通常以PDF格式捕获并存储在EMR系统中)包含关键信息，如肿瘤大小、分级、分期和组织学。一旦使用自然语言处理(NLP)系统提取这些变量，就可以用于定义疾病队列，评估疾病严重程度，并为疾病进展创建基线，然后可以应用于上述用例，从临床试验匹配到治疗途径。但是从非结构化的临床文本数据中提取这些信息通常是数据团队的一个巨大痛点。

医疗NLP领域的领导者John Snow Labs和Databricks正积极应对这些挑战，并与医疗生态系统中的许多客户合作，将非结构化肿瘤数据转化为可操作的证据。

与Databricks和John Snow实验室进行大规模临床自然语言处理

前进的道路始于Databricks湖屋平台bob体育客户端下载这是一个现代数据平台，它将数据仓bob体育客户端下载库的最佳元素(如数据管理和性能)与云数据湖的低成本、灵活性和规模相结合。这个新的,简化的架构使卫生系统得以实现将所有数据结构化(如EHR数据库中的诊断和程序代码)、半结构化(如HL7、FHIR信息)和非结构化(如自由文本笔记和图像)统一为一个传统分析和数据科学的单一高性能平台。bob体育客户端下载

Databricks Lakehouse平台的核心是bob体育客户端下载三角洲湖这是一个开源存储层，为数据湖带来了性能(通过Apache Spark™)、可靠性和治理。医疗保健组织可以将其所有数据(包括原始供应商说明、放射学报告和PDF病理报告)输入Delta Lake。在应用任何数据转换之前，这将保留真实的原始来源。相比之下，在传统数据仓库中，转换发生在加载数据之前，这意味着从非结构化文本中提取的所有结构化变量都与本机文本断开了连接。

在此基础上，约翰·斯诺实验室用于医疗保健的Spark NLP,最广泛使用的NLP库在医疗保健和生命科学行业。Spark NLP for Healthcare经过优化，可在Databricks上运行，以最先进的精度无缝提取、分类和构建临床和生物医学文本数据。它是唯一的本地分布式开源文本处理库，适用于Python、Java和Scala，由于每个Spark NLP管道都是一个Spark ML管道，因此特别适合构建统一的NLP和机器学习管道。Spark NLP提供Python、Java和Scala库传统NLP库的全部功能(如spaCy, nltk, Stanford CoreNLP和Open NLP)，并添加了额外的功能，如拼写检查，情绪分析和文档分类。你可以在我们之前BOB低频彩的博客中了解更多关于Databricks和John Snow实验室的联合解决方案，自然语言处理在大规模卫生文本中的应用．

实际的肿瘤学数据抽象

为了展示Databricks和John Snow实验室的强大功能，我们创建了一个解决方案加速器用于从肿瘤学记录中提取真实数据。该解决方案加速器包含样本数据、预构建代码和逐步说明，用于摄取和准备肿瘤报告，以进行下游分析和生成真实世界的证据。这个解决方案已经在Databricks的笔记本中准备好了，为了帮助您入门，我们在下面提供了一个简单的解决方案演练。

对于这个解，我们使用Mt肿瘤学笔记数据集。它主要以跨医学专业的转录样本医疗报告的形式提供资源，以及在构成医疗报告一部分的特定部分中遇到的常见医疗转录单词/短语-如体检或PE，系统或ROS审查，实验室数据和精神状态检查等部分。

我们从MT oncology notes数据集中选择了50份去识别的肿瘤学报告作为非结构化文本的来源，并将原始文本数据放入Delta Lake bronze层。出于演示目的，我们将样本数量限制在50个，但是这个解决方案加速器中提供的框架可以扩展到容纳数百万个临床记录和文本文件。

我们的加速器的第一步是使用命名实体识别(NER)的各种模型提取变量。为此，我们首先设置NLP管道，其中包含注释器例如documentAssembler, senencedetector和tokenizer，这些都是专门为医疗保健相关NER培训的。在下面的例子中，我们合并了bionlp_ner为临床NER模型jsl_ner，这是一个预训练的深度NER临床术语模型。我们看到间皮瘤患者有咳嗽等症状。