Varant Zanoyan是Airbnb机器学习基础设施团队的软件工程师,在那里他致力于构建和生产ML模型的工具。此前,他与Airbnb内部的数据科学家和工程师密切合作,构建和部署机器学习模型。在此期间,他认为数据管理和功能工程是Airbnb机器学习从业者面临的主要挑战。看到这些问题,他开始致力于在基础设施层面解决这些问题,这些努力促成了用于机器学习的特征存储和数据管理平台Zipline的诞生。bob体育客户端下载Zipline仍然是他目前的主要关注点。在加入Airbnb之前,他在Palantir Technologies公司解决了数据基础设施问题。
Zipline是Airbnb专门为ML用例设计的数据管理平台。bob体育客户端下载在此之前,Airbnb的ML从业者花费了大约60%的时间用于收集和编写机器学习任务的转换。Zipline将这个任务从几个月减少到几天——通过使过程具有声明性。它允许数据科学家用简单的配置语言轻松定义特性。然后,该框架为离线模型训练和在线推理提供了时间点正确特征的访问。在这次演讲中,我们将描述我们的系统的架构和算法,使问题的有效的时间点正确的特征生成,易于处理。
参与者将从中学习
虽然这个讲座相当专业,但我们将通过例子介绍第一性原理中的所有概念。对数据并行分布式计算和机器学习的基本理解可能会有所帮助,但不是必需的。
Zipline是Airbnb专门为ML用例设计的数据管理平台。bob体育客户端下载在此之前,Airbnb的ML从业者花费了大约60%的时间用于收集和编写机器学习任务的转换。Zipline将这项任务从几个月减少到几天。它允许用户用一种易于使用的配置语言定义特性,然后提供对以下特性的访问:资源效率和时间点正确的训练集回填和计划更新,特征可视化和自动数据质量监控,在线评分环境中的特性可用性:批处理和流处理批纠正(lambda架构),特性的协作和共享,以及数据所有权和管理。
Spark支持Zipline的许多功能,特别是用于高效训练集回填和特征计算的离线任务。本次演讲将介绍Ziplines体系结构以及Zipline解决的主要问题。尽管已经广泛使用,但没有开源软件可以解决这些问题。bob下载地址因此,我们打算开源我们的工作。bob下载地址
会议标签:#ML3SAIS