生产中已部署模型的持续评估

下载幻灯片

许多高科技行业在生产环境中依赖机器学习系统来自动分类和响应大量传入数据。尽管这些系统发挥着关键作用，但它们往往没有得到积极的监控。当一个问题第一次出现时，它可能会被忽视一段时间。一旦它被注意到，调查其潜在原因是一个耗时的手工过程。如果模型的输出是自动监控的，那不是很棒吗?如果它们可以被可视化，按不同的维度切片?系统是否可以自动检测性能下降并触发警报?在这个演示中，我们将描述我们构建这样一个核心机器学习服务的经验:模型评估。

我们的服务提供了自动化的、持续的评估部署模型性能的常用指标，如曲线下面积(AUC)、均方根误差(RMSE)等。此外，还计算了关于模型输出的汇总统计数据及其分布。该服务还提供了一个仪表板来可视化性能指标、汇总统计数据和模型随时间的分布，以及REST api来以编程方式检索这些指标。

这些指标可以通过输入特征(例如地理位置、产品类型)进行切片，以提供对不同部分的模型性能的洞察。演讲将描述构建此类服务所需的各种组件和感兴趣的度量标准。我们的系统有一个在Azure Databricks上用spark构建的后端组件。后端可以扩展以分析tb级的数据，以生成模型评估指标。

我们将讨论如何修改Spark MLLib以计算不同维度的AUC切片，以及Spark中的其他优化以提高计算和性能。我们的前端和中间层由Docker和Azure Webapp构建，提供了视觉效果和REST api来检索上述指标。本次演讲将涵盖构建、部署和使用上述系统的各个方面。

«回来

关于Deepak Pai

Adobe公司。

我是一名拥有14年经验的软件工程师和数据科学家。我在顶级同行评议会议上发表了论文，并获得了专利。作为我目前工作的一部分，我在Adobe管理一个由数据科学家和工程师组成的团队，开发核心ML服务。我们的服务被各种Adobe Sensei服务使用，这些服务是体验云的一部分。我拥有印度一所顶尖大学的计算机科学硕士和学士学位。

关于Vijay Srivastava

Adobe公司。

我在ML核心服务团队担任员工数据科学家。我有13年以上的行业经验，其中11年是在Adobe。作为团队的最初成员之一，我目前负责构建和维护作为体验云智能服务一部分的核心机器学习服务基础设施。