Databricks功能商店

本页解释了什么是特征库,它提供了什么好处,以及Databricks特征库的具体优势。

Databricks Feature Store库仅在Databricks Runtime for Machine Learning上可用,并可通过Databricks笔记本和工作流访问。

请注意

此时,Feature Store不支持写入Unity Catalog亚存储。在支持Unity catalog的工作空间中,你只能将特性表写入默认的Hive metastore中。

什么是功能商店?

特征存储是一个集中的存储库,它使数据科学家能够找到和共享特征,并确保用于计算特征值的相同代码用于模型训练和推断。

机器学习使用现有的数据来建立一个模型来预测未来的结果。在几乎所有情况下,原始数据都需要预处理和转换,然后才能用于构建模型。这个过程被称为特征工程,这个过程的输出被称为特征——模型的构建块。

开发功能是复杂且耗时的。另一个复杂的问题是,对于机器学习来说,需要为模型训练进行特征计算,然后在使用模型进行预测时再次进行特征计算。这些实现可能不是由同一个团队或使用相同的代码环境完成的,这可能会导致延迟和错误。此外,组织中的不同团队通常有类似的特性需求,但可能不知道其他团队已经完成的工作。特性存储就是为解决这些问题而设计的。

为什么使用Databricks Feature Store?

Databricks Feature Store与Databricks的其他组件完全集成。

  • 可发现性。Feature Store UI(可以从Databricks工作区访问)允许您浏览和搜索现有的特性。

  • 血统。当您使用feature Store创建特性表时,用于创建特性表的数据源将被保存并可访问。对于特性表中的每个特性,您还可以访问使用该特性的模型、笔记本、作业和端点。

  • 集成模型评分和服务。当您使用Feature Store中的特性来训练模型时,该模型是用特性元数据打包的。当您使用该模型进行批量评分或在线推理时,它会自动从Feature Store中检索特征。调用者不需要知道它们,也不需要包含逻辑来查找或连接特性来获取新数据。这使得模型部署和更新更加容易。

  • 时间点查找。Feature Store支持需要时间点正确性的时间序列和基于事件的用例。

开始使用功能商店

请参阅以下文章来开始使用Feature Store:

更多的信息

有关使用Feature Store的最佳实践的更多信息,请下载特色商店综合指南