利用PySpark和Pandas udf实现Zynga预测建模自动化

下载幻灯片

在Zynga，建立倾向模型是一项耗时的任务，每个新模型都需要定制数据科学和工程工作。我们已经构建了一个自动化的模型管道，它使用PySpark和特性生成来自动化这个过程。我们面临的挑战是，我们想要用于自动化特征工程工作的Featuretools库只在Pandas数据帧上使用，限制了我们可以处理的数据集的大小。我们解决这个问题的方法是使用Pandas udf将功能工程过程扩展到我们的整个玩家基础。

我们从完整的玩家集开始，将数据划分为可以加载到内存中的更小的卡盘，对这些数据子集应用特征工程步骤，然后将结果组合回一个大数据集。这篇演讲将概述我们如何在Zynga的产品中使用Pandas udf来自动化倾向建模。这种方法的结果是，我们现在在生产中有数百个倾向模型，团队可以使用它们来个性化游戏体验。我们的数据科学家不再花时间在功能工程和模型拟合上，而是花更多时间与游戏团队合作，帮助构建新功能。

试着砖
请参阅2019年旧金山Spark + AI峰会视频

«回来

关于本·韦伯

Ben Weber是Zynga的首席数据科学家，他曾在Twitch、ea、Daybreak Games和微软工作室工作过。他在加州大学圣克鲁兹分校获得计算机科学博士学位。