利用PySpark和Pandas udf实现Zynga预测建模自动化

下载幻灯片

在Zynga,建立倾向模型是一项耗时的任务,每个新模型都需要定制数据科学和工程工作。我们已经构建了一个自动化的模型管道,它使用PySpark和特性生成来自动化这个过程。我们面临的挑战是,我们想要用于自动化特征工程工作的Featuretools库只在Pandas数据帧上使用,限制了我们可以处理的数据集的大小。我们解决这个问题的方法是使用Pandas udf将功能工程过程扩展到我们的整个玩家基础。

我们从完整的玩家集开始,将数据划分为可以加载到内存中的更小的卡盘,对这些数据子集应用特征工程步骤,然后将结果组合回一个大数据集。这篇演讲将概述我们如何在Zynga的产品中使用Pandas udf来自动化倾向建模。这种方法的结果是,我们现在在生产中有数百个倾向模型,团队可以使用它们来个性化游戏体验。我们的数据科学家不再花时间在功能工程和模型拟合上,而是花更多时间与游戏团队合作,帮助构建新功能。

试着砖
请参阅2019年旧金山Spark + AI峰会视频


«回来
关于本·韦伯

Ben Weber是Zynga的首席数据科学家,他曾在Twitch、ea、Daybreak Games和微软工作室工作过。他在加州大学圣克鲁兹分校获得计算机科学博士学位。