公司博客上

Lakehouse如何民主化数据以帮助安进加快药物开发和交付

2022年3月22日 客户

分享这篇文章

本文由安进公司的产品负责人Jaison Dominic和杰出软件工程师Kerby Johnson共同撰写。

安进公司长期以来,该公司一直是创新的代名词。40年来,我们开创了新的制药工艺,开发了拯救生命的药物,对全球数百万人的生活产生了积极影响。为了继续履行我们的使命,为患者提供最好的服务,我们最近开始了另一次创新之旅:彻底的数字化转型。

在重新思考如何利用我们的数据在整个业务中获得更好的结果的过程中——从提高研发效率到优化供应链和商业化——很快就发现,我们的数据团队正在寻求解决的问题类型在过去几年里发生了巨大的变化。此外,这些问题不再被技能、部门或职能所孤立。相反,最具影响力的问题本质上是跨职能的,需要将具有不同专业知识的人聚集在一起,以一种新颖的方式解决问题。在追求现代化的过程中,我们做出了选择Databricks湖屋平台bob体育客户端下载作为我们数字化转型之旅的基础。因此,我们能够在各个组织中释放数据的潜力,简化运营效率并加速药物发现。

今天,我们分享我们的成功故事,希望其他人可以从我们的历程中学习,并将其应用到自己的商业战略中。

从数据仓库到数据湖——以及其中的问题

在安进的三个核心垂直领域——临床试验、制造和商业化——蕴藏着大量有价值的数据。但是,数据量的增加给有效使用数据带来了挑战。

我们无法真正地将业务的各个方面编织在一起,这影响了运营效率,因为我们在内部和客户数量上都在扩大。关键是不仅要使访问和处理数据变得容易,而且要以一种协作的方式做到这一点,这种方式将对数据有不同观点的不同角色联系在一起——一种能够实现更好的跨职能协作的连接数据结构。如果你只从一两个角度看问题,你就会错过其他方面有价值的关键点。

例如,考虑以下问题:你如何精细地预测需求,以便为有需要的患者生产适量的治疗药物?

如果你从供应链和制造业的角度来看待这个问题,你就会错过商业销售预测数据。另一方面,你不想把商业销售预测作为所需产量的福音,因为如果他们把销售数字搞砸了怎么办,这一直是希望,而你低估了制造业需要生产的东西?

安进如何精确预测需求,为有需要的患者生产适量的治疗药物。

为了解决当今的问题,企业需要关注不同的数据关系和连接,以便他们可以从多个角度看待相同的数据——但他们如何实现这一点呢?在安进,我们将现代数据需求的基础分解如下:

  • 数据需要有组织且易于使用。
  • 以自然的方式共享数据和重用他人的数据是必须的。
  • 分析应该能够基于可信的共享数据视图进行操作。
  • 从描述性(BI)到预测性(ML)的不同形式的分析有助于促进对一个版本的数据的新发现和预测。
  • 数据需要能够随着新类型的引入、从一个系统到另一个系统的变化、新领域的添加等而发展,但它的核心应该保持一致。

大多数组织可能都知道这样做的必要性,但对于具有反直觉流程的企业来说,实现它尤其困难:每个团队拥有、管理和组织数据的方式都不同,如果只是想共享数据,就需要另一个项目。几年来,我们不仅积累了太多的数据,不知道该怎么处理,而且还缺乏流程和基础设施,无法确保每个人都能处理相同的数据。

为了尝试解决我们早期的数据需求,几年前我们从传统技术基础设施过渡到基于hadoop的数据湖。使用Hadoop数据湖,我们能够将结构化和非结构化数据保存在一个地方,但仍然存在重大的数据挑战,无论是在技术方面,还是在流程、成本和组织方面。共享集群造成了“噪声邻居”问题,并且难以扩展且成本高。

作为平台的产品负责人,对于我来说,管理单个共享集群简直就是噩梦。bob体育客户端下载它总是开着,从来没有一个升级版本的好时机,我们有分布式成本,这意味着,例如,弄清楚如何向一个组收取高存储容量和低计算容量的费用,而另一个组收取高计算容量和低存储容量的费用。

这种方法还需要将各种不同的工具拼接在一起,以满足每个单独小组的需求,这带来了重大的协作挑战。和其他许多公司一样,我们有多种终端用户消费数据的方式:Jupyter notebook、R Studio、Spotfire和Tableau,这只会增加数据的复杂性和挑战,让那些需要数据的人随时可以获得数据。

湖屋建筑如何解决我们的问题

采用Databricks Lakehouse平台使各种团队和角色能够bob体育客户端下载使用我们的数据做更多的事情。有了这个统一和协作的平台,我们能够为所有类型的用户和他们首选的工具利用一个bob体育客户端下载单一的环境,使操作得到一致的数据集的支持。

安进与Databricks Lakehouse的统一数据分析架构。

我们正在利用Delta Lake来实现ACID合规、历史回溯,并通过为数据分析师和数据科学家提供一个公共数据层来使用数据优化供应链和改善运营,从而降低开发人员开始编码的门槛。我们还利用AWS Glue将不同的Databricks环境连接在一起,因此无论数据存储在一个AWS帐户中还是10个不同的帐户中,它都是一个数据湖。这些都是有联系的。

这使我们能够在标准化Apache Spark™数据和分析的同时,为各种需求提供足够的灵活性。湖屋内的统一数据层使安进能够可靠地处理任何类型和大小的数据,同时为应用团队提供灵活的业务推进能力。

您想要多大的集群?你想花多少钱?哪一个更重要?是提前一小时完成报告,还是降低成本?像这样的决定现在可以由单个团队做出。总的来说,这种工具和语言的标准化,以及数据科学家、分析师和工程师的单一真相来源,开始实现相互联系的团队。

我们目前的数据架构使用Amazon S3作为所有数据的唯一真实来源,Delta Lake作为公共数据层,Glue数据目录作为Databricks的集中式亚存储,ELK堆栈用于Kibana监控,风流用于编排,消费(无论是分析师还是数据科学家)都在Databricks Lakehouse平台上操作。bob体育客户端下载

这种通用的数据体系结构以及集成这些体系结构模式使我们能够将关注点从平台维护转移到真正深入挖掘业务实际需要什么以及用户关心什么。bob体育客户端下载关键在于我们能够利用湖屋方法在各个数据团队之间统一数据,同时与业务目标保持一致。

有了数据,从工程到数据科学再到分析师的各种数据团队就可以访问数据并进行协作。Databricks的协作笔记本支持他们选择的编程语言,可以轻松地探索并开始利用数据进行下游分析和ML砖的SQL,我们的分析师可以找到和探索最新和新鲜的数据,而不必将其转移到数据仓库。他们可以在不牺牲性能的情况下运行查询,并使用他们选择的工具轻松地可视化结果——通过内置可视化和仪表板或Tableau(主要由整个公司的业务合作伙伴使用)。bob体育外网下载

我们的数据科学家也受益于使用Databricks机器学习由于Databricks ML建立在Delta Lake和MLflow的lakehouse基础上,我们的数据科学家可以准备和处理数据,简化跨团队协作,并标准化从实验到生产的整个生命周期,而不依赖于数据工程支持。这种改进的管理ML的方法对减少临床试验注册所需的时间产生了直接影响。

通过连接数据和团队改善患者的治疗结果

Databricks Lakehouse平台的实施最终帮助我们继续实现在现代世界中为患者服务和bob体育客户端下载改善药物开发生命周期的目标。我们的数据摄取率显著提高,处理时间缩短了75%,从而将洞察交付业务的速度提高了两倍,同时比静态Hadoop集群降低了约25%的计算成本。

有了Databricks,我们可以采用一种现代的方法,通过关注数据、关系和连接,而不仅仅是技术,来交付大量的用例。自2017年与Databricks合作以来,我们在整个公司都看到了巨大的增长。迄今为止,从数据工程师到分析师的2000多个数据用户已经通过Databricks访问了400TB的数据,以支持40多个数据湖项目和240个数据科学项目。

在4年多的时间里,在安进,2000多名数据用户(从数据工程师到分析师)通过Databricks访问了400TB的数据,支持了40多个数据湖项目和240个数据科学项目。

在实践中,这看起来很容易使用,很容易找到数据,使整个公司的许多用例成为可能:

  • 基因组探索和大规模研究:利用基因组数据的力量使我们能够加速药物发现过程,这可以显著增加我们找到治疗严重疾病的新药的机会。
  • 优化的临床试验设计:现在我们可以从购买的数据到真实世界的证据,并利用这些广泛的临床数据中的见解来提高成功的可能性,并可能节省数千万美元。
  • 供应链和库存优化:生产效率和库存管理是每个制造业面临的挑战,药品制造业也不例外。高效的生产和优化的供应链管理可以帮助企业节省数百万美元,并帮助在正确的时间将正确的药物提供给正确的患者。

通过与Databrickbob体育外网下载s的合作,安进能够更好地将其数据与需要的团队连接起来,以改善患者和业务结果。

正如安进的成功所证明的那样,解决老问题的新方案需要刷新企业的平台、工具和创新方法。bob体育客户端下载随着该技术在安进的使用率不断上升,我们将探索新的方法,利用像Delta Sharing这样的工具,利用湖屋方法来促进协作和透明度。另一个可以提供价值的有趣工具是Delta Live Tables,它可以帮助我们进一步简化ETL开发和管理,并使我们的下游数据消费者受益。最终,Databricks帮助我们移动了高级分析的起跑线,因此我们可以花更多的时间来解决问题,使需要治疗的患者受益,而不是花更少的时间来重建基础设施。

下一个步骤

免费试用Databricks

相关的帖子

看到所有客户的帖子