用现代数据湖屋释放健康数据的力量
2021年7月19日 在工程的博客
一个病人大约产生80mb的医疗数据每年。将这些数据乘以数千名患者的一生,你看到的是pb级的患者数据,其中包含有价值的见解。解锁这些见解有助于简化临床操作,加速药物研发并改善患者健康结果。但首先,需要为下游分析和人工智能准备数据。不幸的是,大多数医疗保健和生命科学组织花费了大量的时间来收集、清理和构建他们的数据。
数据分析在医疗保健和生命科学中的挑战
对于医疗保健行业的组织来说,数据准备、分析和人工智能是一个挑战有很多原因,其中许多原因与对建立在数据仓库上的遗留数据架构的投资有关。以下是我们在行业中发现的四个常见挑战:
挑战#1(量):针对快速增长的健康数据进行扩展
基因组学可能是医疗保健数据量爆炸式增长的最好例子。第一个基因组测序花费了超过10亿美元。考虑到高昂的成本,早期的努力(现在仍有许多努力)集中在基因分型上,即在一个人基因组的很小一部分(通常在0.1%左右)中寻找特定变异的过程。这演变成了全外显子组测序,覆盖了基因组中蛋白质编码的部分,仍然不到整个基因组的2%。公司现在提供直接面向消费者的全基因组测序(WGS)测试,30倍WGS的价格不到300美元。在人口水平上,英国生物银行今年将发布超过20万个全基因组用于研究。不仅仅是基因组学。成像、健康可穿戴设备和电子病历也在迅速增长。
对于人口健康分析和药物发现等项目来说,规模是游戏的名字。不幸的是,许多遗留架构都是在本地构建的,并且是针对峰值容量设计的。这种方法会在低使用率期间导致未使用的计算能力(并最终浪费美元),而且在需要升级时也不能快速扩展。
挑战#2(多样性):分析不同的健康数据
医疗保健和生命科学组织要处理大量不同的数据,每种数据都有自己的细微差别。人们普遍认为80%以上的医疗数据是非结构化的,但大多数组织仍然将注意力集中在为结构化数据和传统的基于sql的分析而设计的数据仓库上。非结构化数据包括图像数据,这对于诊断和测量肿瘤学、免疫学和神经学(成本增长最快的领域)等领域的疾病进展至关重要,以及临床记录中的叙述性文本,这对于了解完整的患者健康和社会史至关重要。忽略这些数据类型或将它们设置到一边是不可取的。
让问题进一步复杂化的是,医疗保健生态系统之间的联系越来越紧密,这就要求利益相关者应对新的数据类型。例如,提供者需要索赔数据来管理和裁决风险分担协议,支付方需要临床数据来支持事先授权和推动质量措施等流程。这些组织通常缺乏数据架构和平台来支持这些新的数据类型。bob体育客户端下载
一些组织已经投资于数据湖来支持非结构化数据和高级分析,但这也产生了一系列新的问题。在这种环境中,数据团队现在需要管理两个系统——数据仓库和数据湖——其中数据通过竖井工具复制,导致数据质量和管理问题。
挑战#3 (Velocity):处理流数据以实时了解患者情况
在许多情况下,医疗保健是生死攸关的问题。条件可能是动态的,批处理数据(甚至每天都要处理)往往不够好。获得最新、及时的信息对成功的介入治疗至关重要。为了拯救生命,医院和国家卫生系统使用流数据进行各种工作,从预测败血症到实施ICU床位的实时需求预测。
此外,数据速度是医疗保健数字革命的一个主要组成部分。个人比以往任何时候都能获得更多的信息,并能够实时影响他们的护理。比如,可穿戴设备,比如Livongo-将实时数据输入移动应用程序,提供个性化的行为建议。
尽管取得了一些早期的成功,但大多数组织还没有设计出能够适应流数据速度的数据架构。实时数据与历史数据集成的可靠性问题和挑战阻碍了创新。
挑战#4(真实性):建立对医疗保健数据和人工智能的信任
最后,但并非最不重要的是,临床和监管标准要求医疗保健中的数据准确性达到最高水平。医疗保健组织必须满足较高的公共卫生合规要求。组织内部的数据民主化需要治理。
此外,在将人工智能(AI)和机器学习(ML)引入临床环境时,组织需要良好的模型治理。不幸的是,大多数组织都有单独的数据科学工作流平台,这些平台与他们的数据仓库不连接。bob体育客户端下载当试图在人工智能驱动的应用程序中建立信任和可重复性时,这就带来了严重的挑战。
用莱克豪斯解锁健康数据
湖屋建筑通过将云数据湖的低成本、可伸缩性和灵活性与数据仓库的性能和治理相结合的现代数据架构,帮助医疗保健和生命科学组织克服这些挑战。通过湖屋,组织可以在一个开放的环境中存储所有类型的数据,并支持所有类型的分析和ML。
具体而言,湖屋为医疗保健和生命科学组织提供了以下好处:
- 大规模组织所有健康数据。Databricks Lakehouse平台的核心是bob体育客户端下载三角洲湖,一个开源的数据管理层,为您的数据湖提供可靠性和性能。与传统的数据仓库不同,Delta Lake支持所有类型的结构化和非结构化数据,为了使健康数据的摄取变得容易,Databricks为特定领域的数据类型(如电子病历和基因组学)构建了连接器。这些连接器与一组快速启动解决方案加速器中的行业标准数据模型打包在一起。此外,Delta Lake还为数据缓存和索引提供了内置优化,以显著加快数据处理速度。有了这些功能,团队可以将所有原始数据放在一个地方,然后对其进行管理,以创建患者健康的整体视图。
- 为所有患者分析和AI提供动力。所有数据都集中在湖屋中,团队可以直接根据数据建立强大的患者分析和预测模型。在这些功能的基础上,Databricks提供了一套完整的分析和AI工具的协作工作区,并支持广泛的编程语言,如SQL、R、Python和Scala。这使不同的用户群体(如数据科学家、工程师和临床信息学家)能够一起工作,分析、建模和可视化您的所有健康数据。
- 提供实时的病人见解。lakehouse为流数据和批量数据提供了统一的架构。不需要支持两种不同的架构,也不需要解决可靠性问题。此外,通过在Databricks上运行lakehouse架构,组织可以访问基于工作负载自动扩展的云原生平台。bob体育客户端下载这使得它很容易吸收流数据,并与pb级的历史数据混合,以获得人口规模的近实时洞察。
- 交付数据质量和遵从性。为了提高数据的准确性,湖屋包含了传统数据湖所缺少的功能,如模式强制、审计、版本控制和细粒度访问控制。lakehouse的一个重要优点是能够在同一个可信数据源上执行分析和ML。此外,Databricks提供了ML模型跟踪和管理功能,使团队可以轻松地跨环境重现结果,并帮助满足遵从性标准。所有这些功能都在符合hipaa的分析环境中提供。
这个湖屋是管理医疗保健和生命科学数据的最佳架构。通过将这种体系结构与Databricks的功能相结合,组织可以支持从药物发现到慢性疾病管理计划的广泛的高影响力用例。
开始建造您的医疗保健和生命科学湖屋
如上所述,我们很高兴提供一系列解决方案加速器,以帮助医疗保健和生命科学组织开始构建满足其特定需求的Lakehouse。我们的解决方案加速器包括样例数据,预构建的代码和一步一步的指示在一个Databricks笔记本。
- 新的解决方案加速器:真实世界证据的湖屋。真实世界的数据为制药公司提供了在试验之外了解患者健康和药物疗效的新见解。这个加速器可以帮助您在数据库里建立一个真实世界证据的湖屋。我们将向您展示如何摄取患者群体的样本EHR数据,使用OMOP公共数据模型构建数据,然后运行大规模分析,例如调查药物处方模式。
请查看莱克豪斯的真实世界证据笔记本。
- 即将到来:人口健康湖屋。医疗保健支付方和提供者需要实时了解患者情况,以便做出更明智的决策。在这个加速器中,我们将向您展示如何轻松地在Databricks上摄取流HL7数据,并为预测患者疾病风险等用例构建强大的ML模型。