詹姆斯•阮

主要云解决方案架构师,微软

    詹姆斯•阮是微软Azure云解决方案架构师主要客户成功的组织。他有一个数据科学硕士学位从加州大学伯克利分校加州。他主要关注大数据和机器学习。詹姆斯了多个成功的大规模实现先进的微软的战略客户分析。他热衷于扩展数据科学与Apache火花的力量。

    过去的会议

    2020年峰会 利用Apache火花可伸缩的数据准备和推理的深入学习

    2020年6月24日凌晨5点PT

    深度学习培训规模,一个受欢迎的方法是使用分布式深度学习框架跨多个gpu / cpu并行化处理和计算。分布式深度学习框架当输入训练数据元素是独立工作,立即允许并行处理开始。然而预处理和featurization步骤,深度学习发展的关键,可能涉及复杂的业务逻辑与计算跨多个数据元素标准的分布式框架不能处理效率。这些预处理和featurization步骤,火花可以发光,尤其是在即将到来的3.0版本中支持二进制数据格式通常存在于深度学习应用。这个演讲的第一部分将介绍如何熊猫udf和火花的支持二进制数据和Tensorflow TFRecord格式可以用来有效地加快深度学习的预处理和featurization步骤。第二部分,重点将是技术来有效地执行批处理得分与深度学习模型在大数据量实时评分方法不满足的地方。即将到来的火花熊猫udf的3.0的新特性有助于深入学习推理将覆盖。