ziline - airbnb的声明性功能工程框架

下载幻灯片

Zipline是Airbnb专门为ML用例设计的数据管理平台。bob体育客户端下载在此之前,Airbnb的ML从业者花费了大约60%的时间用于收集和编写机器学习任务的转换。Zipline将这个任务从几个月减少到几天——通过使过程具有声明性。它允许数据科学家用简单的配置语言轻松定义特性。然后,该框架为离线模型训练和在线推理提供了时间点正确特征的访问。在这次演讲中,我们将描述我们的系统的架构和算法,使问题的有效的时间点正确的特征生成,易于处理。

参与者将从中学习

  1. 时间点正确特征对于实现更好的ML模型性能的重要性
  2. 使用变更数据捕获生成特性视图的重要性
  3. 一个算法-有效地生成特征的变化数据。我们使用间隔树来有效地压缩时间序列特征。该算法允许在这种压缩表示上生成特征聚合。
  4. lambda体系结构-允许使用上述算法-用于在线特性生成。
  5. 一个基于范畴理论的框架,用来理解特征聚合是如何分布和独立组合的。

虽然这个讲座相当专业,但我们将通过例子介绍第一性原理中的所有概念。对数据并行分布式计算和机器学习的基本理解可能会有所帮助,但不是必需的。

试着砖
查看更多Spark + AI欧洲峰会2019视频


«回来
Varant Zanoyan
关于瓦兰特·扎诺扬

Airbnb

Varant Zanoyan是Airbnb机器学习基础设施团队的软件工程师,在那里他致力于构建和生产ML模型的工具。此前,他与Airbnb内部的数据科学家和工程师密切合作,构建和部署机器学习模型。在此期间,他认为数据管理和功能工程是Airbnb机器学习从业者面临的主要挑战。看到这些问题,他开始致力于在基础设施层面解决这些问题,这些努力促成了用于机器学习的特征存储和数据管理平台Zipline的诞生。bob体育客户端下载Zipline仍然是他目前的主要关注点。在加入Airbnb之前,他在Palantir Technologies公司解决了数据基础设施问题。

Evgeny夏皮罗
关于Evgeny Shapiro

Airbnb

Evgeny Shapiro是Airbnb数据基础设施团队的软件工程师,他在Airbnb从事下一代数据架构的工作。在此之前,他曾在Trust团队工作,在那里他实现了实时捕获欺诈的基础设施。由于延迟、容量和正确性要求,欺诈中的许多需求对于现有的基础设施来说尤其具有挑战性。为了应对这些挑战,他加入了Zipline项目,在那里他致力于为生产机器学习模型运行大型特征回填所需的核心数据聚合算法和优化,以及在线特征服务基础设施。