工程的博客

解锁的力量与现代数据Lakehouse健康数据

分享这篇文章

一个病人产生约80字节的医疗数据每年。用它在成千上万的患者在他们的一生中,和你看着pb级的病人数据,其中包含有价值的见解。解锁这些见解可以帮助简化临床操作,加速药物研发和改善病人的健康状况。但首先,数据需要准备下游分析和人工智能。不幸的是,大多数医疗保健和生命科学组织花费大量的时间简单的收集、清洗和结构化数据。

与单个病人健康数据呈指数级增长每年生产超过80字节的数据
与单个病人健康数据呈指数级增长每年生产超过80字节的数据

挑战在卫生保健和生命科学与数据分析

数据准备,有很多原因分析和人工智能是一个组织在医疗保健行业面临的挑战,其中许多都与投资遗留数据架构建立在数据仓库。这里有四个共同挑战行业中我们看到:

挑战# 1(体积):扩展对迅速增长的健康数据

基因组学可能是一个最好的例子数据量爆炸式增长的医疗保健。第一个基因组测序成本超过美元1 b。鉴于高昂成本,早期的努力和很多的努力仍然关注的基因,寻找特定的变异过程在一个很小的一部分人的基因组,通常在0.1%左右。进化到全外显子组测序,包括基因组蛋白质编码的部分,仍然只有不到2%的整个基因组。公司现在提供直接面向消费者测试全基因组测序(WGS) 30 x WGS不到300美元。在人口层面,英国生物库发布超过200000今年整个基因组的研究。不仅仅是基因组学。成像、健康衣物和电子医疗记录越来越巨大。

规模是这场游戏的名字人口健康分析和药物研发等项目。不幸的是,许多遗留的架构构建应急和为峰容量设计的。这种方法导致未使用的计算能力(并最终浪费美元)在使用较低的时期,规模也不需要时迅速升级。

挑战# 2(品种):分析多样化的健康数据

医疗保健和生命科学组织处理大量的数据不同,每个国家都有自己的细微差别。人们普遍认为超过80%的医疗数据是结构化的,然而大多数组织仍将注意力集中在数据仓库为结构化数据和传统的基于sql的分析而设计的。非结构化数据包括图像数据,诊断和衡量疾病进展的关键在肿瘤学、免疫学和神经学(成本)的增长最快的领域和叙事文本在临床所指出的,这是至关重要的理解完整的病人健康和社会历史。忽视这些数据类型,或设置到一边,不是一个选择。

更糟糕的是,医疗生态系统越来越相互联系,要求股东应对新的数据类型。例如,供应商需要索赔的数据管理和裁决风险分担协议,和纳税人需要临床数据来支持流程之前授权和传动质量的措施。这些组织通常缺乏数据架构和平台支持这些新的数据类型。bob体育客户端下载

一些组织投资数据湖泊支持非结构化数据和先进的分析方法,但是这将创建一个新的问题。在这种环境下,数据团队现在需要管理两个系统——数据仓库和数据湖泊——数据复制在孤立的工具导致数据质量和管理问题。

挑战# 3(速度):流媒体数据的实时处理病人的见解

在许多环境中,医疗保健是一个生死攸关的问题。条件可以非常有活力,和批量数据处理——即使每天完成——往往是不够好。访问到最新的即时信息的成功介入治疗是至关重要的。为了拯救生命,流数据由医院和国家卫生系统用于从实现实时预测脓毒症重症护理病床的需求预测。

此外,数据速度是医疗数字革命的一个主要组成部分。个人获得比以前更多的信息和实时能够影响他们的护理。例如,可穿戴设备——像连续葡萄糖监测提供的Livongo——流实时数据到移动应用提供个性化的行为建议。

尽管其中一些早期的成功,大多数组织都不是设计他们的数据架构,以适应流媒体数据的速度。可靠性问题和挑战将实时数据与历史数据是抑制创新。

挑战# 4(真实性):建立信任在医疗数据和人工智能

最后,但并非最不重要,临床和监管标准需求最大的医疗数据的准确性。公共卫生医疗组织有很高的合规要求必须满足。数据在组织需要治理民主化。

此外,组织需要好的模型治理时,将人工智能(AI)和机器学习(ML)临床设置。不幸的是,大多数组织有不同的平台与数据科学工作流数据仓库。bob体育客户端下载这就产生了严峻的挑战,当试图AI-powered应用程序中建立信任和再现性。

解锁Lakehouse健康数据

lakehouse架构帮助卫生保健和生命科学组织克服这些挑战的现代数据架构结合了低成本、可扩展性和灵活性的湖云数据与数据仓库的性能和治理。lakehouse,组织可以存储所有类型的数据和权力的所有类型的分析和毫升在一个开放的环境。

实现你所有的卫生保健和生命科学数据分析用例与现代Lakehouse架构

具体来说,lakehouse为卫生保健和生命科学组织提供了以下好处:

  • 大规模组织所有你的健康数据。砖Lakehouse平台的核心bob体育客户端下载三角洲湖一层开源数据管理,提供可靠性和性能数据。与传统的数据仓库,三角洲湖支持所有类型的结构化和非结构化数据,并使摄取健康数据容易,砖建造了连接器的电子医疗记录和基因组学等领域特定的数据类型。这些连接器封装在行业标准数据模型在一组快速启动解决方案加速器。此外,三角洲湖提供了内置的数据缓存和索引优化大大加快数据处理速度。与这些能力,团队可以土地所有的原始数据在一个地方然后牧师来创建一个病人健康的整体视图。
  • 你所有的病人分析和人工智能。与你所有的数据集中在lakehouse,团队可以建立强大的病人直接对数据分析和预测模型。建立在这些能力上,砖为协作工作空间提供了一整套分析和人工智能工具和支持广泛的编程语言,如SQL, R, Python, Scala。这使一个不同的用户组,像数据科学家,工程师,和临床信息学家,共同分析、模型和可视化你的健康数据。
  • 提供实时的病人的见解。lakehouse提供了一个统一的架构为流和批处理数据。不需要支持两个不同的架构和解决可靠性问题。此外,通过运行lakehouse建筑砖,组织访问原生云平台,auto-scales基于工作负载。bob体育客户端下载这使它容易摄取的历史数据流数据和混合pb在人口规模接近实时的见解。
  • 提供数据质量和遵从性。地址数据真实性,lakehouse包括功能缺失等传统数据湖泊的模式执行,审计、版本控制和细粒度的访问控制。lakehouse的一个重要的好处是能够执行分析和ML相同,可信数据源。此外,砖提供了ML模型跟踪和管理功能方便团队复制结果在环境和帮助满足遵从性标准。所有的这些功能提供了一个与hipaa兼容的分析环境。

这种lakehouse是最好的架构管理卫生保健和生命科学数据。通过与砖的能力结婚这个架构,组织可以支持广泛的高度有效的用例,从药物发现到慢性疾病管理计划。

开始建立你的Lakehouse卫生保健和生命科学

正如上面提到的,我们很高兴提供一系列的解决方案加速器帮助卫生保健和生命科学组织开始建立一个Lakehouse他们的特定需求。我们的解决方案加速器包括样本数据,预先构建的代码和循序渐进的指示在砖笔记本。

  • 新的解决方案加速器:Lakehouse真实的证据。实际数据为制药公司提供了新的见解病人健康和药物疗效之外的审判。这个加速器帮助您构建一个Lakehouse砖真实的证据。我们将向您展示如何摄取EHR患者人群的数据样本,使用OMOP常见数据结构数据模型,然后运行分析大规模调查药物处方模式。

检查Lakehouse笔记本对于现实世界的证据

  • 即将到来:Lakehouse人口健康。医疗保健类股和提供者需要实时了解病人做出更明智的决策。在这个加速器,我们将向您展示如何轻松摄取流HL7数据砖和建立强大的毫升等用例模型预测病人的疾病风险。

BOB低频彩了解更多关于我们所有的医疗保健生命科学解决方案。

免费试着砖
看到所有工程的博客的帖子