Varant Zanoyan

Airbnb软件工程师

    Varant Zanoyan是Airbnb机器学习基础设施团队的软件工程师,在那里他致力于构建和生产ML模型的工具。此前,他与Airbnb内部的数据科学家和工程师密切合作,构建和部署机器学习模型。在此期间,他认为数据管理和功能工程是Airbnb机器学习从业者面临的主要挑战。看到这些问题,他开始致力于在基础设施层面解决这些问题,这些努力促成了用于机器学习的特征存储和数据管理平台Zipline的诞生。bob体育客户端下载Zipline仍然是他目前的主要关注点。在加入Airbnb之前,他在Palantir Technologies公司解决了数据基础设施问题。

    过去的会议

    2019年欧洲峰会 ziline - airbnb的声明性功能工程框架

    2019年10月15日下午05:00 PT

    Zipline是Airbnb专门为ML用例设计的数据管理平台。bob体育客户端下载在此之前,Airbnb的ML从业者花费了大约60%的时间用于收集和编写机器学习任务的转换。Zipline将这个任务从几个月减少到几天——通过使过程具有声明性。它允许数据科学家用简单的配置语言轻松定义特性。然后,该框架为离线模型训练和在线推理提供了时间点正确特征的访问。在这次演讲中,我们将描述我们的系统的架构和算法,使问题的有效的时间点正确的特征生成,易于处理。

    参与者将从中学习

    1. 时间点正确特征对于实现更好的ML模型性能的重要性
    2. 使用变更数据捕获生成特性视图的重要性
    3. 一个算法-有效地生成特征的变化数据。我们使用间隔树来有效地压缩时间序列特征。该算法允许在这种压缩表示上生成特征聚合。
    4. lambda体系结构-允许使用上述算法-用于在线特性生成。
    5. 一个基于范畴理论的框架,用来理解特征聚合是如何分布和独立组合的。

    虽然这个讲座相当专业,但我们将通过例子介绍第一性原理中的所有概念。对数据并行分布式计算和机器学习的基本理解可能会有所帮助,但不是必需的。

    Zipline是Airbnb专门为ML用例设计的数据管理平台。bob体育客户端下载在此之前,Airbnb的ML从业者花费了大约60%的时间用于收集和编写机器学习任务的转换。Zipline将这项任务从几个月减少到几天。它允许用户用一种易于使用的配置语言定义特性,然后提供对以下特性的访问:资源效率和时间点正确的训练集回填和计划更新,特征可视化和自动数据质量监控,在线评分环境中的特性可用性:批处理和流处理批纠正(lambda架构),特性的协作和共享,以及数据所有权和管理。

    Spark支持Zipline的许多功能,特别是用于高效训练集回填和特征计算的离线任务。本次演讲将介绍Ziplines体系结构以及Zipline解决的主要问题。尽管已经广泛使用,但没有开源软件可以解决这些问题。bob下载地址因此,我们打算开源我们的工作。bob下载地址

    会议标签:#ML3SAIS

    Varant Zanoyan