功能存储概念

本节描述概念来帮助你使用砖特性存储和功能表。

请注意

这时,砖特性的商店不支持统一目录metastore写作。团结Catalog-enabled工作空间,您可以编写功能表默认蜂巢metastore。

功能表

功能被组织为功能表。每个表由一个差值表和额外的元数据。

一个功能表必须有一个主键。功能特性表通常是计算和更新使用共同的计算功能。

特性表元数据跟踪表的数据源生成和笔记本工作,创建或写信给桌子上。

你可以发布特性表在线商店实时推理模型。

你可以创建标记,并将它们与特性表,便于分组和发现。

时间序列特征表

数据用于训练模型通常内置的时间依赖关系。构建模型时,您必须考虑只有特性值直到时间的观察目标价值。如果你训练后功能基于数据测量目标的时间戳值,模型的性能会受到影响。

时间序列特征表包含一个时间戳键列,确保训练数据集的每一行表示的最新特性值称为行的时间戳。您应该使用时间序列特征表特征值随时间变化时,例如时间序列数据,基于事件的数据,或time-aggregated数据。

当你创建一个时间序列特征表,指定与时间相关的键使用timestamp_keys论点。当你使用这使时间点查找create_training_setscore_batch。系统执行的时间戳的加入,使用timestamp_lookup_key你指定。

如果你不使用timestamp_keys的论点,而不是指定一个时间戳列主键列不适用,功能存储时间点逻辑在加入时间戳列。相反,它只匹配行匹配,而不是一个确切的时间匹配所有行之前时间戳。

离线存储

离线存储用于特征发现,模型训练和批处理推理。它包含物化特性表三角洲表

在线商店

在线功能商店是一个低延迟数据库用于实时推理模型。对于砖支持的在线商店的列表,看看与在线商店

流媒体

除了批写道,砖特性存储支持流媒体。您可以编写特性值从一个流源特性表,和特性计算代码可以使用结构化流将原始数据流转换为特征。

你也可以从离线存储流特性表在线商店。

训练集

训练集由一组特性和DataFrame包含原始训练数据,标签,和主键查找功能。您创建的训练集通过指定特性提取从特色商店,并提供在模型训练训练集作为输入。

看到创建一个训练数据集例如如何创建和使用一个训练集。

模型的包装

机器学习模型训练使用特性从砖特性存储保留引用这些特性。在推理时,模型可以从功能存储检索特征值。调用者只需要提供主键的功能使用的模型(例如,user_id),检索所需的所有特征值特征存储模型。

在批处理推理,从离线存储和检索特征值与新数据之前得分。在实时推理,从在线商店中检索特征值。

包特性的元数据模型,使用FeatureStoreClient.log_model ()