使用无服务器实时推断的模型服务

预览

此功能已在公共预览

本文描述了Databricks无服务器实时推理的模型服务,包括它与经典MLflow模型服务相比的优点和局限性。

无服务器实时推理将MLflow机器学习模型暴露为可扩展的REST API端点。这个功能使用Serverless计算,这意味着端点和相关的计算资源在Databricks云帐户中管理和运行。看到无服务器实时推断定价页面欲知详情。

经典MLflow服务模型使用在您自己的帐户下运行的单节点集群,即现在所说的经典数据平面。这个数据平面包括虚拟网络及其相关的计算资源,例如用于笔记本和作业的集群、专业和经典SQL仓库,以及服务端点的经典模型。

为什么使用无服务器实时推理?

无服务器实时推理提供:

  • 一键启动端点的能力:Databricks自动为您的模型准备生产就绪环境,并为计算提供无服务器配置选项。

  • 高可用性和可伸缩性:无服务器实时推理用于生产使用,可以支持高达每秒3000个查询(QPS)。无服务器实时推理端点自动伸缩,这意味着端点根据评分请求的数量自动调整。

  • 仪表板:使用内置的无服务器实时推断仪表板,使用QPS、延迟和错误率等指标来监控模型端点的健康状况。

  • 特征存储集成:当您的模型使用Databricks特征存储中的特征进行训练时,模型会被打包成特征元数据。如果你配置在线商店,这些功能会在收到评分请求时实时整合。

限制

当此服务处于预览状态时,将适用以下限制:

  • 负载大小限制为每个请求16mb。

  • 默认限制为每个注册的工作区对请求进行200 QPS的评分。您可以通过与Databricks支持联系人联系,将此限制增加到每个工作区最多3000 QPS。

  • 最大努力支持小于100毫秒的延迟开销和可用性。

无服务器实时推断端点对internet开放入站流量,除非工作区中启用了IP allowlist,在这种情况下,该列表也适用于端点。

地区的可用性

无服务器实时推理在以下AWS区域可用:

  • 一来就

  • eu-central-1

  • us-east-1

  • us-east-2

  • us-west-2

  • ca-central-1

  • ap-southeast-1

  • ap-southeast-2

阶段和生产时间预期

将模型从登台过渡到生产需要时间。部署新注册的模型版本涉及构建模型容器映像和提供模型端点。这个过程大约需要5分钟。

Databricks执行的“零停机”更新/分期而且/生产通过保持现有模型部署,直到新模型部署就绪。这样做可以确保正在使用的模型端点没有中断。

如果模型计算时间超过60秒,请求将超时。如果您认为您的模型计算需要超过60秒,请联系您的Databricks支持联系人。

先决条件

重要的

在公开预览期间,您需要联系Databricks支持联系人,以便在工作空间上启用无服务器实时推断。

在创建无服务器实时推断端点之前,必须在工作空间中启用它们。看到为模型服务启用无服务器实时推断端点

在您的工作空间上启用了无服务器实时推断端点后,您需要以下权限来为模型服务创建端点: