我在ML核心服务团队担任员工数据科学家。我有13年以上的行业经验,其中11年是在Adobe。作为团队的最初成员之一,我目前负责构建和维护作为体验云智能服务一部分的核心机器学习服务基础设施。
许多高科技行业在生产环境中依赖机器学习系统来自动分类和响应大量传入数据。尽管这些系统发挥着关键作用,但它们往往没有得到积极的监控。当一个问题第一次出现时,它可能会被忽视一段时间。一旦它被注意到,调查其潜在原因是一个耗时的手工过程。如果模型的输出是自动监控的,那不是很棒吗?如果它们可以被可视化,按不同的维度切片?系统是否可以自动检测性能下降并触发警报?在这个演示中,我们将描述我们构建这样一个核心机器学习服务的经验:模型评估。
我们的服务提供了自动化的、持续的评估部署模型性能的常用指标,如曲线下面积(AUC)、均方根误差(RMSE)等。此外,还计算了关于模型输出的汇总统计数据及其分布。该服务还提供了一个仪表板来可视化性能指标、汇总统计数据和模型随时间的分布,以及REST api来以编程方式检索这些指标。
这些指标可以通过输入特征(例如地理位置、产品类型)进行切片,以提供对不同部分的模型性能的洞察。演讲将描述构建此类服务所需的各种组件和感兴趣的度量标准。我们的系统有一个在Azure Databricks上用spark构建的后端组件。后端可以扩展以分析tb级的数据,以生成模型评估指标。
我们将讨论如何修改Spark MLLib以计算不同维度的AUC切片,以及Spark中的其他优化以提高计算和性能。我们的前端和中间层由Docker和Azure Webapp构建,提供了视觉效果和REST api来检索上述指标。本次演讲将涵盖构建、部署和使用上述系统的各个方面。
您是否曾经想过ML模型是如何工作的?为什么它只能做出某些预测,而不能做出其他预测?你有没有见过一个模型的行为方式是奇怪的或违反直觉的?你是否因为你的模型是一个黑盒而对它缺乏信任?最近,深度学习神经网络模型的流行——甚至对它们的创造者来说都是不可理解的——强调了数学框架对模型可解释性的重要性。然而,即使是简单的模型,如线性模型,对于那些没有足够的技术专业知识的人来说,也很难解释。
本次演讲将探讨学术界和工业界对模型可解释性的各种方法。我们将展示全局和本地(实例级)洞察,使用一个特定的模型作为示例。全局可解释性在提供对模型行为的总结级理解方面很有价值。然而,模型的复杂性质使得它在实例级上不准确。因此,我们用实例级解释来增强它。
我们将讨论如何在生产环境中构建和部署一个可以在全局和局部级别解释黑盒模型的算法。我们的系统有一个在Azure Databricks上用Spark构建的后端组件。后端可以扩展到分析数百万个数据点以生成解释。我们将讨论位置敏感哈希(LSH)和Spark中的其他优化,以提高计算和性能。与现有的计算密集型方法相比,所提出的方法具有更高的效率。我们的前端和中间层由Docker和Azure Webapp构建,提供了视觉效果和REST api来检索模型解释。本次演讲将涵盖构建、部署和使用上述系统的各个方面。