基于PySpark的马尔可夫决策问题策略探索

下载幻灯片

为组织找到能带来最佳结果的策略是组织内决策者面临的最困难的挑战之一。其原因在于，政策不是在一个信息完美、市场均衡的世界中制定的。这些是复杂的系统，系统中实体的行为是动态的，通常是不确定的。强化学习(RL)在建模复杂行为以确定最佳策略方面已经得到了广泛的应用。RL将状态或情况映射到行动，以最大化某些结果或奖励。马尔可夫决策过程(MDP)是RL方法的核心组成部分。马尔可夫链是一种概率模型，它使用当前状态预测下一个状态。

本演示讨论了如何使用PySpark扩展一个MDP示例问题。在模拟复杂系统时，扩展到大量的代理可能非常具有挑战性，因为每个代理经过一次排列时需要在内存中执行大量的处理。PySpark允许我们利用Spark进行分布式数据处理，并使用Python定义代理的状态和操作。

试着砖
查看更多Spark + AI欧洲峰会2019视频

«回来

关于贾斯汀·勃兰登堡

砖

Justin Brandenburg是Databricks专业服务公司的常驻机器学习工程师。Justin在从缉毒到网络入侵分析等多个数据领域都有经验。在过去的项目中，他利用机器学习、计量经济学、图形分析和基于代理的建模来满足客户的需求。他拥有弗吉尼亚理工大学经济学学士学位，约翰霍普金斯大学经济学硕士学位和乔治梅森大学计算社会科学硕士学位。