Xiangrui孟

数据库软件工程师

    Xiangrui孟是Apache Spark PMC成员,也是Databricks的软件工程师。他的主要兴趣集中在为科学应用开发和实现可扩展的算法。自从加入Databricks以来,他一直积极参与Spark MLlib的开发和维护。在Databricks之前,他在LinkedIn担任应用研究工程师,在那里他是Hadoop MapReduce离线机器学习框架的主要开发人员。他在斯坦福大学的博士研究方向是大规模线性回归问题的随机算法。

    过去的会议

    Project Hydrogen是Apache Spark的一个主要项目,旨在将最先进的人工智能和大数据解决方案结合在一起。它包含三个主要项目:1)屏障执行模式2)优化的数据交换和3)加速器感知调度。障碍执行模式的基本实现被合并到Apache Spark 2.4.0中,社区正在研究后两个。在这次演讲中,我们将介绍氢能计划的最新进展,并讨论接下来的步骤。

    首先,我们将回顾Spark 2.4.0中的barrier执行模式实现。它使开发人员能够在Spark集群上适当地嵌入分布式培训作业。我们将演示构建在其之上的分布式AI集成,例如Horovod和分布式TensorFlow。我们还将讨论实现这些集成的技术挑战和未来的工作。其次,我们将概述优化数据交换的正在进行的工作。它的目标场景是分布式模型推理。我们将介绍如何进行性能测试/分析,瓶颈在哪里,以及如何提高Spark的整体吞吐量。如果时间允许,我们可能还会提供加速器感知调度的更新。

    2018欧洲峰会 氢计划:在Apache Spark中统一最先进的人工智能和大数据

    太平洋时间2018年10月2日下午05:00

    数据是构建高质量、生产性人工智能应用程序的关键因素。在训练阶段,更多和更高质量的训练数据可以实现更好的模型,以及在生产阶段,理解模型在生产中的行为和检测预测和输入数据的变化对维护生产应用程序至关重要。然而,到目前为止,大多数数据管理和机器学习工具在很大程度上是分开的。

    在这次演讲中,我们将讨论Databricks在Apache Spark以及其他开源项目中为统一数据和AI所做的一些努力,以使构建生产AI应用程序变得更加简单。bob下载地址

    会话标签:#SAISAI2

    2014年峰会 MLlib中的稀疏数据支持

    2014年6月29日下午05:00 PT

    在v1.0之前,MLlib在回归、分类和聚类中只支持密集数据,而在实践中稀疏数据占主导地位。在这次演讲中,我们将展示我们为支持MLlib中的稀疏数据所做的设计选择,以及我们在k-means、梯度下降、列摘要统计、高瘦SVD和PCA等方面利用稀疏性所做的优化。

    2015年峰会 一种使用MLlib进行推荐的更可伸缩的方法

    2015年6月15日下午05:00 PT

    推荐系统是机器学习最流行的应用之一。MLlib实现了协作过滤的交替最小二乘(ALS),这是一种非常流行的推荐算法。我们利用Spark的内存缓存和特殊的分区策略来提高ALS的效率和可扩展性。MLlib的ALS运行速度比Apache Mahout的实现快10倍,并且可以扩展到数十亿的评级。在这次演讲中,我们将介绍一个更具可伸缩性的ALS实现,其可伸缩性结果达到1000亿级。它是基于我们在旧的实现中遇到的问题。我们将回顾ALS算法,并描述我们在新实现中使用的内部数据存储,以及用于加速计算和提高JVM效率的技术。我们还将讨论MLlib中推荐算法的下一步。

    2016东方峰会 Spark MLlib和SparkR中的广义线性模型

    2016年2月16日下午04:00 PT

    广义线性模型(GLMs)通过对模型族和链接函数的规范,统一了线性回归和逻辑回归等各种统计模型。它们被广泛应用于建模、推理和预测,在许多领域都有应用。在这次演讲中,我们将总结最近社区在Spark MLlib和SparkR中支持glm的努力。我们将回顾支持的模型族、链接函数和正则化类型,以及它们的用例,例如用于分类的逻辑回归和用于生存分析的对数线性模型。然后,我们讨论了求解器的选择及其在不同大小的训练数据集下的优缺点,以及实现细节,以匹配R的模型输出和汇总统计。我们还将演示MLlib和SparkR中的api,包括R模型公式支持,这使得在Spark中构建线性模型成为一项简单的任务。这是与Eric Liang, Yanbo Liang和其他一些Spark贡献者的联合工作。

    更多阅读:

  • SparkR中的广义线性模型和MLlib中的R公式支持
  • 2016年峰会 SparkR高级分析的最新进展

    2016年6月6日下午05:00 PT

    自从SparkR在Spark 1.4中引入以来,它已经得到了Spark社区和R社区的贡献。在这次演讲中,我们将总结最近社区在扩展SparkR以实现可扩展高级分析方面所做的努力。我们从计算分布式数据集上的汇总统计数据开始,包括单次近似算法。然后,我们演示了已经移植到SparkR的MLlib机器学习算法,并将它们与R上现有的解决方案进行比较,例如广义线性模型,分类和聚类算法。我们还展示了如何将现有的R包与SparkR集成起来,以加速现有的R工作流程。

    2017年峰会 使用Apache Spark挑战web规模的图形分析

    2017年6月5日下午05:00 PT

    图分析具有广泛的应用,从信息传播和网络流优化到欺诈和异常检测。社交网络和物联网的兴起给了我们复杂的网络规模的图形,有数十亿个顶点和边。但是,为了从这些图中提取隐藏的宝石,您需要一些工具来轻松有效地分析这些图。在2016年Spark峰会上,Databricks推出了GraphFrames,它在Spark SQL之上实现了图形查询和模式匹配,以简化图形分析。在这次演讲中,您将了解如何使GraphFrames中的图算法更快、更可扩展。例如,基于最近的研究,像连接组件这样的新实现已经得到了算法改进,以及Spark DataFrames的性能改进。发现从将实现从数百万个节点扩展到数十亿个节点的经验教训;将其性能与其他流行的图形库进行比较;并了解实际应用。会话标签:#SFml1