模型服务与砖

本文描述了砖模型服务,包括其优势和局限性。

模型服务公开MLflow机器学习模型作为可伸缩的REST API端点和提供了一个高可用性和低延迟服务部署模型。服务自动上下尺度满足需求在选择并发范围内变化。这个功能使用serverless计算。看到模型服务定价页为更多的细节。

为什么使用模型服务?

模型提供服务:

  • 单击启动一个端点:砖自动为您的模型和针对生产环境准备为计算提供serverless配置选项。

  • 高可用性和可伸缩性:模型是用于生产使用和服务可以支持多达3000 + queries-per-second(每秒)。模型服务端点自动向上和向下扩展,这意味着端点自动调整基于评分的请求的数量。你也可以为多个模型从一个端点。

  • 安全:模型部署在一个安全的网络边界。模型使用的专用计算终止(并没有重用)当模型被删除,或按比例缩小为零。

  • MLflow集成:本地连接到MLflow模型注册表使快速和容易的部署模型。

  • 指示板:使用内置的模型服务端点使用仪表板来监测你的健康模型指标如每秒,延迟和错误率。

  • 功能存储整合:当你的模型训练与砖特性的存储特性,模型包装功能的元数据。如果你配置您的在线商店,这些特性作为得分纳入实时接收的请求。

需求

限制

以下限制:

  • 有效载荷的大小限制,每个请求的16 MB。

  • 默认限制每个工作区得分200每秒的请求。你可以增加这个极限3000每秒或多个工作区,接触你的砖支持接触。

  • 模型服务支持模型与评价延迟到60秒。

  • 尽最大努力支持少于100毫秒延迟开销和可用性。

  • 你的模型的可用内存是默认4 GB。你可以增加这个极限16 GB /模型通过接触你的砖支持接触。

  • 工作区有可能部署在一个受支持的地区,但可以服务控制飞机在不同的地区。这些工作空间不支持模型服务,导致你的工作空间目前支持。消息。解决,创建一个新的工作区在受支持的地区,或使用该功能在不同的工作区中没有这个问题。伸出你的砖代表的更多的信息。

  • 模型服务目前并不符合HIPAA法规。

  • 模型服务不支持init脚本。

  • 模型训练使用AutoML模型由于服务包依赖关系可能会失败。看看如何解决包的依赖关系为AutoML训练有素的服务模型。

模型服务端点受访问控制保护和尊重网络相关导入工作区上配置规则,如IP allowlists和PrivateLink。

地区的可用性

请注意

如果您需要一个端点在一个不受支持的地区,接触到你的砖的代表。

看哪个砖云层和地区模型服务是可用的。

端点创建和更新的期望

部署一个新注册模型版本涉及到包装模型及其模型环境和配置模型端点本身。这个过程可能要花费大约10分钟。

砖执行零宕机更新现有端点的端点配置直到新的就好了。这样做可以减少中断的风险正在使用的端点。

如果模型计算花费的时间超过60秒,请求超时。如果你相信你的模型计算将超过60秒,接触你的砖支持联系。

端点扩大规模和降低期望值

向上和向下扩展基于服务端点的体积流量进入端点和目前提供并发的容量单位。当流量增加时,一个端点几乎立即试图扩大规模,根据交通量的大小增加。当流量减少,砖进行了尝试每五分钟缩减到一个并发的大小,代表了当前的体积流量。

当端点启用规模为零,它规模降至零后30分钟的观察没有交通的端点。当一个端点按比例缩小到零,第一个请求经历所谓的“冷启动”。这意味着延迟高于每个请求的平均延迟第一个请求。如果使用这个特性对延迟敏感的应用程序,数据砖建议要么不扩展到零个或前热身请求发送到端点面向用户的交通到达您的服务。

如果你有其他问题扩大和缩小的行为,请联系你的砖支持联系。