功能存储概念
本节描述概念来帮助你使用砖特性存储和功能表。
请注意
这时,砖特性的商店不支持统一目录metastore写作。团结Catalog-enabled工作空间,您可以编写功能表默认蜂巢metastore。
功能表
功能被组织为功能表。每个表由一个差值表和额外的元数据。
一个功能表必须有一个主键。功能特性表通常是计算和更新使用共同的计算功能。
特性表元数据跟踪表的数据源生成和笔记本工作,创建或写信给桌子上。
你可以发布特性表在线商店实时推理模型。
你可以创建标记,并将它们与特性表,便于分组和发现。
时间序列特征表
数据用于训练模型通常内置的时间依赖关系。构建模型时,您必须考虑只有特性值直到时间的观察目标价值。如果你训练后功能基于数据测量目标的时间戳值,模型的性能会受到影响。
时间序列特征表包含一个时间戳键列,确保训练数据集的每一行表示的最新特性值称为行的时间戳。您应该使用时间序列特征表特征值随时间变化时,例如时间序列数据,基于事件的数据,或time-aggregated数据。
当你创建一个时间序列特征表,指定与时间相关的键使用timestamp_keys
论点。当你使用这使时间点查找create_training_set
或score_batch
。系统执行的时间戳的加入,使用timestamp_lookup_key
你指定。
如果你不使用timestamp_keys
的论点,而不是指定一个时间戳列主键列不适用,功能存储时间点逻辑在加入时间戳列。相反,它只匹配行匹配,而不是一个确切的时间匹配所有行之前时间戳。
离线存储
离线存储用于特征发现,模型训练和批处理推理。它包含物化特性表三角洲表。
在线商店
在线功能商店是一个低延迟数据库用于实时推理模型。对于砖支持的在线商店的列表,看看与在线商店。
训练集
训练集由一组特性和DataFrame包含原始训练数据,标签,和主键查找功能。您创建的训练集通过指定特性提取从特色商店,并提供在模型训练训练集作为输入。
看到创建一个训练数据集例如如何创建和使用一个训练集。