跳到主要内容
公司博客上

与Databricks和埃森哲合作,大规模实施机器学习

2020年4月7日 公司博客上

分享这篇文章
嘉宾博客由埃森哲应用智能总经理Atish Ray和埃森哲经理Nathan Buesgens撰写

虽然许多机器学习试点取得了成功,但扩展和运行完整的应用程序以提供关键业务结果仍然是一个关键挑战。埃森哲应用智能(Accenture Applied Intelligence)董事总经理、专门研究大数据和人工智能的阿提什•雷(Atish Ray)写道,埃森哲和Databricks正在合作克服这一问题。

2019年,机器学习(ML)应用程序和平台平均吸引了bob体育客户端下载全球420亿美元的资金。尽管有这样的前景,扩展和操作成熟的机器学习应用程序仍然是一个关键的挑战,特别是在商业环境中,工业化机器学习的许多长期好处尚未实现。

虽然机器学习因其学习数据模式的能力而受到称赞,随后根据经验提高性能和结果,但扩展它的障碍是多种多样的。例如,在机器学习生命周期中缺乏对端到端的元数据的良好管理可能会导致信任和可追溯性方面的基本问题。所需技能和技术的快速发展,以及传统操作模式和业务流程的潜在不兼容性,特别是在IT领域,都对将ML应用程序从试验阶段转移到生产阶段构成了障碍。

好消息是,最近一些人工智能和机器学习技术的进步和可用性已经产生了必要的工具,使机器学习应用程序的生命周期民主化和工业化。公共云的日益普及和使用使组织能够以比以往更高的效率存储和处理更多数据,这是ML应用程序扩展和最有效运行的先决条件。

由Databricks等公司支持的bob下载地址开源社区的创新产生了最先进的产品,使科学家、工程师和架构师能够共同协作,快速构建和部署ML应用程序。而且,过去需要机器学习博士学位的东西,现在已经被抽象成各种各样的软件工具和服务,这些工具和服务被更多样化的用户使用。

将所有这些与对行业及其数据的深入了解结合起来,很明显,对于组织来说,现在是大规模部署和操作机器学习的最佳时机。

是什么让机器学习生命周期成为一个复杂的协作过程?

为了监控机器学习是否在一段时间内为业务提供持续的结果,深入了解机器学习生命周期每个阶段的人员、流程和技术是至关重要的(图1)。从一开始,关键利益相关者就必须明确他们需要为业务实现什么。

端到端机器学习产品生命周期

图1:端到端的ML产品生命周期

在业务环境中,最佳实践之一是首先确定一个或两个业务挑战的优先级,围绕这些挑战构建由初始基础支持的最小可行产品或MVP。一旦建立了这一点,并准备好了必要的数据,就会进入实验阶段,以确定针对任何给定问题的正确模型。

在选择、测试、调优和最终确定模型之后,ML应用程序就可以进行操作了。传统上,达到这一点所需的工作一直是数据科学家关注的大部分时间。然而,为了大规模地进行操作,模型可能需要部署在特定的平台上,比如云平台,或者集成到面向用户的业务应用程序中。bob体育客户端下载

一旦这一切都完成了,下一步就是监控和调优这些学习模型的性能,因为它们被部署到生产环境中,在生产环境中,它们会提供特定的结果,比如提出建议和预测,或者监控某些类型的操作效率。

例如,在一个案例中,日本的一家在线广告代理商正在使用ML来创建广告投放的目标客户列表。他们成功地创建了精确的模型,但是由于构建模型和评估目标结果的操作成本高,他们遭受了痛苦。迫切需要跨度量规范和自动化流程。

为了解决这个问题,埃森哲实施了一个可重用的脚本工具来构建、训练、测试和验证模型。从GUI前端运行的脚本与ML流集成在一起,使部署更加容易,大大减少了DevOps扩展所需的时间和精力。

在另一个案例中,美国一家大型药品零售商正努力通过其忠诚度计划提供的优惠与8000多万会员建立联系。它需要一种方法来增加提升,但除了手动流程之外,没有适当的系统来构建可靠,统一和可重复的ML管道,以持续评估数百万客户的数十亿组合。

埃森哲通过Databricks平台开发并交付了一款个性化引擎,用于大规模构建、培训、测试、验证和部署模型,涵盖数千万客户、数十亿报价和数万种产品。bob体育客户端下载还部署了自动化的ML模型部署流程和现代化的AI管道。结果大大减少了部署模型的DevOps时间和工作量,并且业务能够在试点零售地点实现估计20%的高利润率。

工业机器学习的技术基石是什么?

通过与已建立的专家合作来利用已建立的构建块(例如上面概述的两个案例),可以加速这些类型的程序的构建和部署,这些程序可以被迭代、增量缩放并应用于交付日益复杂的业务结果。

为了帮助客户构建和运营这些机器学习应用程序,埃森哲与Databricks合作。埃森哲正在利用Databricks的平台建立关键技术基础,以解决工业机器bob体育客户端下载学习的三个核心领域:协作、数据依赖和部署(图2)。

Databricks的统bob体育亚洲版一分析数据平台为这三个基本领域bob体育客户端下载中的每一个提供了关键技术组件,埃森哲还开发了一套额外的技术组件,与Databricks平台共存并集成。它还包括一个可重用组件包,可以加速协作、提高对数据的理解并简化操作部署。

最终,这种伙伴关系的目标是简化已被证明在大规模部署中成功的方法。bob体育外网下载

Databricks和埃森哲的解决方案组件合作架构,突出了协作点、数据依赖、部署和基础设施。bob体育外网下载

图2:协作、数据依赖和部署

基于广泛的实施经验,我们知道正在工业化ML开发和部署的组织正在解决我们在这里解决的三个基本领域:

协作

跨组织边界的分析社区的全面协作,管理和共享特性和模型,是成功的关键。作为一个协作环境,Databricks Workspaces为数据工程师和数据科学家提供了一个共同探索数据集、迭代构建模型、执行实验和数据管道的空间。MLflow是Databricks的一个关键组件和开源项目bob下载地址,用于从实验到部署的整个机器学习生命周期的协作,并允许用户跟踪模型性能、版本和可重复的结果。

埃森哲为许多场景提供了一个模型和特征工程工具包,例如一个推荐引擎,它可以引导整个机器学习应用程序的生命周期。它利用了成功模型的行业知识,并使基线生产反馈能够通知校准工作。

数据依赖

我们再怎么强调访问和理解可用数据集和相关元数据对于推动成功结果的重要性也不为过。我们的数据依赖组件捕获标准和规则来塑造数据,并提供可视化图表来帮助评估数据质量。这提高了数据采集和管理的速度,并进一步加快了对数据的理解,提高了特征工程的效率。

Databricks平台提供了bob体育客户端下载多种功能,可以大规模地提高数据质量和处理性能。作为Databricks的一部分,Delta Lake是一个开源存储层,它支持ACID事务和数据质量特bob下载地址性,并带来了可靠性数据的湖泊在规模。Apache Spark为大数据和机器学习提供了一个高度可扩展的引擎,并从Databricks获得了高性能的额外增强。

部署

虽然实验需要数据科学知识来将正确的解决方案应用于正确的行业问题,但部署需要良好集成的跨职能团队。我们的部署组件使用元数据驱动的方法来构建和部署ML管道,表示从开始到验证的连续工作流。通过启用标准和部署模式,这些组件使操作实验成为可能。

Databricks企业云服务是一个简单,安全和可扩展的托管服务,支持高性能ML管道和应用程序的一致部署。此外,还可以启用用于部署和管理生产模型和漂移的治理结构。这些来自Databricks和埃森哲的组件集成在一起,显著加速了机器学习生命周期在AWS和Azure云上的部署。

大规模部署机器学习之前的关键考虑因素是什么?

对于那些考虑工业化ML方法的人来说,首先要考虑几个关键问题。它们包括:

  1. 业务利益相关者是否对机器学习需要解决的业务问题和对机器学习需要实现的关键结果的期望保持一致?
  2. 是否有合适的角色和技能来扩展和监控机器学习应用程序,以部署成功的实验?
  3. 工业机器学习解决方案是否理解并提供必要的基础设施和自动化需求?
  4. 数据科学团队是否拥有正确的运营模型、标准和支持因素,以避免在实验完成后进行重大的部署重新设计?

当涉及到工业化的机器学习时,它可能会从构建一个非常深入的技术基础开始,以解决生命周期的所有方面。然而,通常情况下,这种方法可能会忽视业务结果,并在采用、支出和证明方法方面遇到挑战。

相反,我们在业务关键型环境中经历了这些基础的成功迭代开发,通过交付增量业务结果的连续周期构建。

关于埃森哲

埃森哲是全球领先的专业服务公司,在战略、咨询、数字、技术和运营方面提供广泛的服务和解决方案。凭借在40多个行业和所有业务职能领域无与伦比的经验和专业技能,并以全球最大的交付网络为基础,埃森哲致力于业务和技术的交叉,帮助客户提高绩效并为其利益相关者创造可持续的价值。埃森哲在120多个国家拥有492,000多名员工,为客户提供服务,推动创新,改善世界的工作和生活方式。访问我们的网址:www.accenture.com

本文件由埃森哲顾问制作,作为一般指导。本文并非针对您的具体情况提供具体建议。如果您需要有关上述任何事项的建议或进一步详细信息,请联系您的埃森哲代表。

本文档对可能由他人拥有的商标作了描述性参考。本协议中对该等商标的使用并不代表埃森哲拥有该等商标的所有权,也不代表或暗示埃森哲与该等商标的合法所有人之间存在关联。

版权所有©2019埃森哲。版权所有。埃森哲,它的标志,和高绩效。交付。均为埃森哲的商标。

免费试用Databricks
看到所有公司博客上的帖子