客户的故事

用数据和人工智能把病人的健康放在第一位

6 x

改善数据处理

20.

20分钟内摄取了上百万条记录

背景图像

工业:医疗保健

解决方案:临床健康数据湖

bob体育客户端下载平台用例:三角洲湖数据科学机器学习ETL

云:AWS

“为了能够满足医疗保健行业的新需求,Databricks提供了所需的上市时间以及分析和运营提升。”

——Peter James,澳大利亚健康直接公司首席架构师

作为国家卫生服务目录(NHSD)的指导者,Healthdirect专注于利用tb级的数据,这些数据涵盖了时间驱动的基于活动的医疗保健事务,以改善医疗保健服务、产品和支持。由于治理需求、团队竖井和难以扩展的遗留系统,他们转向了Databricks,在提高数据安全性以满足HIPAA要求的同时,促进下游机器学习的数据处理。

数据质量和治理、竖井以及无法扩展

由于监管压力,澳大利亚健康直接公司开始提高整体数据质量,并确保在此基础上的治理水平。但当涉及到数据存储和访问时,他们遇到了挑战。多个数据竖井还可以作为拦截器,有效地为下游分析准备数据。这些脱节的数据源影响了数据读取的一致性,因为数据经常在堆栈中的各个系统之间不同步。低质量的数据也导致了更高的错误率和处理效率低下。这种碎片化的体系结构造成了巨大的操作开销,并限制了他们全面了解患者的能力。

此外,由于客户需求的变化(如预订、预约、定价、电子医疗交易活动等),他们需要吸收超过10亿个数据点——估计超过1TB的数据。

“我们在数据方面遇到了很多挑战。我们的处理效率不够高。我们开始出现批量超支。我们开始发现,24小时窗口并不是我们希望能够提供医疗保健数据和服务的最佳时间,”澳大利亚Health Direct首席架构师Peter James解释道。

最终,Healthdirect意识到他们需要现代化他们的端到端流程和技术堆栈,以适当地支持业务。

与Databricks和Delta Lake现代化分析

Databricks为澳大利亚Healthdirect提供统一的数据分析平台,简化数据工程并加速数据科学创新。bob体育客户端下载笔记本环境使他们能够以可控的方式进行内容更改,而不必每次都运行定制的作业。

“Databricks为我们的团队和数据运营提供了很大的提升,”James说。“分析师们直接与数据运营团队合作。他们能够在同样的时间框架内完成同样的工作,而过去需要花两倍的时间。他们在一起工作,我们看到我们提供服务的速度在大幅加快。”

通过Delta Lake,他们创建了逻辑数据区:着陆区、原始区、分期区和黄金区。在这些区域中,他们以结构化或非结构化的状态将数据“按原样”存储在Delta Lake表中。在此基础上,它们使用元数据驱动模式,并将数据保存在该表的嵌套结构中。这使他们能够一致地处理来自每个源的数据,并简化数据到提取数据的各种应用程序的映射。

同时,通过结构流,他们能够将所有的ETL批处理作业转换为流ETL作业,可以一致地为多个应用程序服务。总的来说,Spark Structured Streaming、Delta Lake和Databricks的统一数据分析平台的出现提供了显著的架构改进,提高了性能,减少了运营开销,并提高了流程效率。bob体育客户端下载

更快的数据管道带来更好的患者驱动医疗保健

由于Databricks提供的性能提升和Delta Lake提高的数据可靠性,澳大利亚Healthdirect实现了其模糊名称匹配算法的准确性从人工验证不足80%提高到无需人工干预的95%。

Delta Lake和Structured Streaming的处理改进使他们每月可以处理超过30,000个自动更新。在Databricks出现之前,他们必须使用不可靠的批处理作业,在6个月内处理相同数量的更新,这在数据处理方面提高了6倍。

他们还能够将数据加载速率提高到每分钟100万条记录,在20分钟内加载整个2000万条记录数据集。在采用Databricks之前,处理同样的100万笔交易需要超过24小时,这阻碍了分析师做出快速决策来推动结果。

最后,由于合规性要求,数据安全性非常重要,因此得到了极大的改善。Databricks提供HIPAA等标准安全认证。Healthdirect能够使用Databricks来满足澳大利亚的安全要求。这大大降低了成本,并通过监视访问权限的更改(如角色的更改、元数据级别的安全更改、数据泄漏等)为他们提供了持续的数据保证。

James说:“Databricks提供了我们所需的上市时间、分析和运营提升,以便能够满足医疗保健行业的新需求。”

展望未来,澳大利亚健康直接公司的前景一片光明。在Databricks的帮助下,他们已经证明了数据和分析的价值,以及它如何影响他们的业务愿景。通过对数据的透明访问,各种业务和分析小组的参与都得到了提高,使团队能够更轻松、更快速地从数据中提取价值,从而改善每个人的医疗保健。