工程特性

对机器学习功能工程

特性工程,也称数据预处理,是将原始数据转化为的过程特性,可用于开发的机器学习模型。本主题描述特性工程的主要概念和ML生命周期管理中发挥的作用。

特性,在机器学习中,输入数据用于训练模型。他们是一些实体的属性,将学习模型。原始数据通常之前必须处理它可以用作输入为ML模式。好的特性工程使模型开发的过程更有效率并导致模型更简单、更灵活、更准确。

工程特性是什么?

特性工程改造的过程和丰富的数据,提高机器学习算法的性能使用这些数据用于训练模型。

特性工程包括步骤扩展或正常化等数据,编码非数字数据(比如文本或图像),通过时间或聚合数据实体,加入来自不同数据源的数据,甚至从其他模型转移知识。这些转换的目标是提高机器学习算法的能力学习的数据集,从而做出更准确的预测。

操作特性存储

特性的工程为什么重要?

特性工程很重要,因为以下几个原因。首先,正如前面提到的,机器学习模型有时不能操作原始数据,所以数据必须转换成数字形式模型可以理解。这可能涉及到文本或图像数据转换成数字形式,或创建聚合特性,比如客户的平均交易值。

有时相关特性的机器学习问题可能存在跨多个数据源,因此有效的工程特性包括加入这些数据源一起创建一个可用的数据集。这允许您使用所有可用的数据来训练你的模型,可以提高其精度和性能。

另一个常见的场景是其他模型的输出和学习有时会被重用的形式特征的新问题,使用一个过程称为转移学习。这允许您利用获得的知识从先前的模型来提高性能的一种新的模式。转移学习可以特别有用在处理大型、复杂的数据集,它是不切实际的从头训练模型。

有效的工程特性还允许可靠的特征在推理时,当模型被用来预测新数据。这是很重要的,因为在推理时使用的特性必须在培训时使用一样的功能,为了避免“在线/离线倾斜,“预测计算时使用的功能不同于那些用于培训。

工程不同于其他数据转换功能怎么样?

特性工程的目标是创建一个数据集,可以训练来构建一个机器学习模型。许多工具和技术用于数据转换也用于工程的特性。

由于功能的重点工程是开发一个模型,有几个要求,不存在与所有功能转换。例如,您可能想要重用功能跨多个模型或跨团队在你的组织中。这需要一个健壮的方法发现功能。

一旦功能重用,你将需要一种方法来跟踪位置和特性是如何计算的。这就是所谓的血统。可再生的特性为机器学习计算是特别重要的,因为该功能不仅必须计算训练模型,还必须以完全相同的方式重新计算模型用于推理。

有效的特征工程所带来的好处是什么?

拥有一个有效的特征工程管道意味着更健壮的管道建模,并最终更可靠和性能模型。改善的功能使用培训和推理都可以有一个令人难以置信的对模型质量的影响,所以更好的特性意味着更好的模型。

从不同的角度来看,有效的特征工程也鼓励重用,不仅节省从业者时间而且提高模型的质量。这个功能重用是重要的有两个原因:它节省时间,和拥有强劲定义特性有助于防止您的模型训练和推理之间使用不同的特性数据,通常会导致“在线/离线”倾斜。

需要什么工具特性工程?

一般同样的工具,用于数据工程可以用于功能工程,作为两者之间的转换是很常见的。这通常需要一些数据存储和管理系统,进入标准开放转换语言(SQL、Python、火花等),以及获得某种类型的计算运行转换。

然而,有一些额外的工具,可以实现功能工程特定的Python库的形式,可以帮助机器学习具体数据转换,如嵌入文本或图像,或在一个炎热的编码分类变量。也有一些开源项目,帮助跟踪特性,模型使用bob下载地址。

数据版本控制是工程的一个重要工具特性,因为模型通常可以训练数据集,已经被修改。有适当的数据版本控制允许你复制一个给定的数据模型,而自然的发展随着时间的推移。

存储功能是什么?

功能存储是一个工具用来解决工程特点的挑战。存储功能是一个集中的存储库为整个组织的特性。数据科学家可以发现和共享的特性和使用特性存储跟踪特性的血统。存储特性也保证了相同的特征值是用于培训和推理。这种可再生的特性计算机器学习尤为重要,因为功能不仅必须计算训练模型,还必须以完全相同的方式重新计算模型用于推理。

为什么使用砖特性存储?

砖特性存储与其他组件完全集成的砖。您可以使用砖笔记本的开发代码来创建特性和构建模型基于这些特性。当你服务模型与砖,模型自动查找特性值特性存储推理。砖特性的商店还提供特色商店本文中描述的好处:

  • 可发现性。功能存储UI,可以从砖的工作空间,让您浏览和搜索现有的功能。
  • 血统。当您创建一个功能表与砖特性存储,用于创建的数据源特性表保存和访问。对于每个功能特性表,你也可以访问模型,笔记本、就业和端点使用功能。

此外,砖特性存储提供了:

  • 得分和服务集成模型。当你从砖使用功能特性存储训练模型,模型包装功能的元数据。当你使用批处理得分或在线推理模型,它会自动从砖特性存储检索功能。调用者不需要知道或包含逻辑来查找或加入特性来取得新的数据。这使得模型更容易部署和更新。
  • 时间点查找。砖特性存储支持时间序列和基于事件的用例要求时间点的正确性。

额外的资源

回到术语表