bob体育客户端下载平台的博客

将自然语言处理大规模应用于医疗保健文本

用John Snow Labs和Databricks的解决方案揭开医学文本中隐藏的患者见解
分享这篇文章

本文是我与John Snow实验室的AI布道者Moritz Steller合作撰写的一篇文章。观看我们的点播工作坊,用NLP提取真实世界的数据,以了解更BOB低频彩多关于我们的医疗保健NLP解决方案的信息。

2015年,HIMSS估计美国的医疗保健行业生产了12亿份临床文件.这是非结构化文本数据的巨大数量。从那时起,医疗保健的数字化只增加了每年产生的临床文本数据量。数字表格、在线门户、pdf报告、电子邮件、短信和聊天机器人都为现代医疗保健通信提供了支柱。通过这些渠道产生的文本量太大,无法衡量,也太全面,人类无法消费。由于这些数据集是非结构化的,它们不容易被分析,并且经常保持孤立。

这对所有医疗保健组织都构成了风险。在这些实验报告中,提供者说明和聊天记录是有价值的信息。当与患者的电子健康记录(EHR)相结合时,这些数据点可以更全面地了解患者的健康状况。在人口水平上,这些数据集可以为药物发现、治疗途径和现实世界的安全评估提供信息。

利用自然语言处理发现新颖的健康见解

有个好消息。自然语言处理(NLP)是人工智能的一个分支,它使计算机能够理解书面、口语或图像文本,其进步使从文本中提取见解成为可能。使用NLP方法,可以以结构化格式提取、编码和存储非结构化临床文本,以便进行下游分析,并直接输入机器学习(ML)模型。这些技术正在推动研究和护理方面的重大创新。

在一个用例中Kaiser Permanente是美国最大的非营利医疗计划和医疗保健提供商之一,该公司使用NLP处理了数百万份急诊室分诊记录,以预测医院病床、护士和临床医生的需求,并最终改善患者流量。另一项研究使用NLP分析了来自艾滋病毒阳性青少年移动支持小组的非标准短信。分析发现,参与小组、改善服药依从性和社会支持感之间存在很强的相关性。

是什么阻碍了医疗保健NLP?

有了这些令人难以置信的创新,它引出了一个问题——为什么没有更多的医疗保健组织利用他们的临床文本数据?根据我们与一些最大的支付者、提供者和制药公司合作的经验,我们看到了三个主要挑战:

NLP系统通常不是为医疗保健设计的。临床文本是它自己的语言.由于来源系统的多样性(例如EHR、临床记录、PDF报告),数据不一致,最重要的是,不同临床专业的语言差异很大。传统的自然语言处理技术并不是为了理解医学文本的独特词汇、语法和意图而构建的。例如,在下面的文本字符串中,NLP模型需要理解这一点阿奇霉素是一种毒品,500毫克是剂量,还有那个发出呜咽声“呼吸短促”的临床简称与患者的病情有关吗肺炎.同样重要的是,要推断出病人没有呼吸短促,而且他们还没有服用药物,因为这只是处方。

大多数NLP工具不能正确地对医疗保健文本进行编码。用于医疗保健的Spark NLP是专门使用旨在理解领域特定语言的算法构建的。
大多数NLP工具不能正确地对医疗保健文本进行编码。用于医疗保健的Spark NLP是专门使用旨在理解领域特定语言的算法构建的

不灵活的遗留医疗保健数据体系结构。文本数据包含大量信息,但只能提供了解患者健康状况的一个视角。真正的价值在于将文本数据与其他健康数据结合起来,以创建患者的全面视图。不幸的是,建立在数据仓库上的传统数据架构缺乏对非结构化数据(如扫描报告、生物医学图像、基因组序列和医疗设备流)的支持,这使得不可能协调患者数据。此外,这些架构成本高,扩展起来也很复杂。对大量健康数据进行简单的特别分析可能需要数小时或数天的时间。在实时调整患者需求时,等待时间太长了。

缺乏先进的分析能力。大多数医疗保健组织已经在数据仓库和BI平台上构建了他们的分析。bob体育客户端下载这些都非常适合描述性分析,比如计算上周使用的医院病床数量,但缺乏AI/ML功能来预测未来的医院病床使用情况。投资人工智能的组织通常将这些系统视为孤立的、附加的解决方案。这种方法需要在不同的系统之间复制数据,导致分析不一致和洞察时间较慢。

借助Databricks和John Snow Labs解锁医疗保健NLP的力量

Databricks和John Snow Labs——开源Spark NLP库的创造者,用于医疗保健的Spark NLP而且火花OCR-我们激动地宣布我们新的解决方案套件,专注于帮助医疗保健和生命科学组织将大量文本数据转化为新颖的患者见解。我们的联合解决方案将最佳的医疗保健NLP工具与用于所有数据、分析和AI的可扩展平台结合在一起。bob体育客户端下载

借助Databricks Lakehouse平台和John Snow实验室解锁医疗保健NLP的力量。bob体育客户端下载
借助Databricks Lakehouse平台和John Snow实验室解锁医疗保健NLP的力量。bob体育客户端下载

作为基础Databricks Lakehouse平台bob体育客户端下载这是一种现代数据架构,它将数据仓库的最佳元素与云数据湖的低成本、灵活性和规模相结合。这种简化的、可伸缩的体系结构使医疗保健系统能够将其所有数据(结构化、半结构化和非结构化)整合到一个单一的、高性能的传统分析和数据科学平台中。bob体育客户端下载

Databricks Lakehouse平台的核心是Apache SparkTMbob体育客户端下载和Delta Lake,这是一个开源存储层,为您的数据湖带来性能、可靠性和治理。医疗保健组织可以将其所有数据(包括原始供应商说明和PDF实验室报告)放入Delta Lake的青铜摄食层。这在应用任何数据转换之前保存了真实的来源。相比之下,在传统数据仓库中,转换发生在加载数据之前,这意味着从非结构化文本中提取的所有结构化变量都与本机文本断开了连接。

建立在这个基础上John Snow实验室的Spark NLP用于医疗保健,医疗保健和生命科学行业使用最广泛的NLP库。该软件无缝提取,分类和结构临床和生物医学文本数据的最先进的准确性。这就完成了使用生产级、可扩展和可训练的最新医疗保健专用深度学习和迁移学习技术实现,以及200+预训练和定期更新的模型。

John Snow实验室的软件库的显著功能包括:

  • 开箱即用的命名实体识别超过100个临床和生物医学实体-从症状和药物解剖,社会决定因素,实验室,成像和基因
  • 将实体解析为语义上最接近的术语代码,包括somed - ct、ICD-10-CM、ICD-10-PCS、RxNorm、LOICS、UMLS、MeSH和HPO。
  • 预训练的关系提取模型可检测30多种关系类型:医疗事件之间、治疗和药物之间、基因和表型之间以及其他。
  • 对自由文本、PDF文档、扫描报告和DICOM图像中的敏感信息进行自定义检测、去识别和混淆。
  • 特定于医疗保健的单词、块和句子嵌入,在其他地方无法使用,并定期更新新的术语和内容。
ohn Snow Labs的Spark NLP for Healthcare库为自然语言处理提供了业界最强大的功能和模型集之一。
John Snow Labs的Spark NLP for Healthcare库提供了业界最强大的自然语言处理功能和模型集之一。

我们的联合解决方案将Spark NLP的强大功能与Databricks的协作分析和人工智能功能结合在一起。信息学团队可以将原始数据直接输入Databricks,使用Spark NLP for Healthcare进行大规模处理,并使其可用于下游SQL Analytics和ML,所有这些都在一个平台中。bob体育客户端下载训练和推理过程都直接在Databricks中运行;除了速度和规模的好处之外,这还意味着数据永远不会发送给第三方,这是处理敏感医疗数据时的关键隐私和合规性要求。最重要的是,Databricks构建在Apache SparkTM上,使其成为运行Spark应用程序(如Spark NLP for Healthcare)的最佳场所。

一个端到端的工作流,用于处理,分析和建模您的所有数据,包括Databricks和John Snow实验室的临床文本。
一个端到端的工作流,用于处理,分析和建模您的所有数据,包括Databricks和John Snow实验室的临床文本

开始大规模的医疗保健自然语言处理

免费试用Databricks

相关的帖子

看到所有bob体育客户端下载平台的博客的帖子