阿里。扎伊迪

微软数据科学家

    阿里是微软人工智能研究院语言理解团队的数据科学家。他每天都在尝试为研究人员和工程师制作工具,以便在云和集群上有效地分析大量语言数据。阿里在多伦多大学和斯坦福大学学习统计学和机器学习。

    过去的会议

    英语短语“说什么?”在日语中对应的是什么?在这次演讲中,我们提供了一种直观的方法,使用自动编码器和生成神经网络以一种新颖的方式从多语言数据中学习短语的分布式表示。语言的分布式表示是编码单词和短语之间关系的一种非常自然的方式。

    这样的表示将离散表示映射到连续向量,并经常编码底层语言语料库的语言单位的有用语义,使它们在NLP任务中无处不在。然而,对于大多数机器翻译任务,需要大量并行语料库来学习成对语言短语之间的语义关系,如果没有对齐的数据,这可能会出现问题。

    本次演讲将介绍使用神经嵌入的分布式表示,特别关注生成模型和自动编码器的使用,以学习跨语言的共享单词和短语表示。我们将展示如何使用Spark加速学习共享潜在表示,并讨论使用主动学习优化短语对齐的技术。

    会话标签:#AISAIS16

    2016年欧洲峰会 可扩展的贝叶斯推理与Spark, SparkR和微软R服务器

    2016年10月25日下午05:00 PT

    R已经成为统计学家事实上的语言。有近10,000个软件包可供选择,用于统计推断、可视化和机器学习。然而,R的基本CRAN实现受到许多可伸缩性挑战的影响:它是单线程的,并且受单个节点内存的限制。在这次演讲中,我将总结Spark R api的一些最新进展,并展示如何将它们与Spark上的Microsoft R Server结合起来,创建一个可扩展的机器学习平台。bob体育客户端下载特别地,我将展示R用户如何为Spark DataFrames和RevoScaleR XDFs(外部数据框架)创建功能管道,以进行大规模的贝叶斯推断,例如在高斯混合模型中使用变分共识蒙特卡罗估计聚类成员,使用随机变分推理进行大规模主题建模,最后,使用随机梯度哈密尔蒙特卡罗对神经网络进行贝叶斯估计。所有示例都将完全用R开发,我将描述性能和可再现性方面的最佳实践。

    2017年峰会 使用CNTK和Apache Spark进行自然语言处理

    2017年6月6日下午05:00 PT

    Apache Spark为开发机器学习管道提供了一个优雅的API,可以在生产中无缝部署。然而,最吸引人的高性能算法之一——深度学习——对于许多团队来说仍然难以部署到生产中,这既是因为需要大量的计算资源,也是因为调优和配置的固有困难。
    在本节课中,您将了解如何在Azure云平台上的Spark集群中部署Microsoft认知工具包(CNTK)。bob体育客户端下载了解管理启用gpu的Spark集群、配置此类工作负载以获得最佳性能以及用于分布式超参数优化的技术的关键注意事项。您还将看到一个用于语音识别和自然语言处理的分布式深度学习学习算法的真实示例。Azure云平台上Spark集群中的Microsoft认知工具包(CNTK)。bob体育客户端下载我们将讨论管理支持gpu的Spark集群、配置此类工作负载以获得最大性能以及用于分布式超参数优化的技术的关键注意事项。我们将演示一个用于语音识别和自然语言处理的分布式深度学习学习算法的真实示例。

    会议标签:#SFds13

    更多阅读:

  • 介绍Apache Spark的自然语言处理库
  • 2017年峰会 使用sparklyr和Microsoft R Server为Spark扩展R API

    2017年6月5日下午05:00 PT

    越来越多的数据科学家使用R作为他们的主要语言。尽管SparkR API自1.6版以来已经取得了巨大的进步,尤其是Apache Spark 2.0和2.1,但传统R程序员很难接受Spark生态系统。
    在这次会议上,扎伊迪将讨论sparklyr它为Spark提供了一个功能丰富、简洁的数据科学接口,并将展示它如何与Microsoft R Server结合,并扩展其底层API,从而成为Spark的一等公民。了解从单线程、内存绑定的R函数到多线程、多节点、内存不足的应用程序是多么容易,这些应用程序可以部署在分布式集群环境中,只需进行最少的代码更改。通过查看完全通过R和Spark进行违约风险分类和预测的真实案例研究,您还将获得再现性和性能方面的最佳实践。

    会议标签:#SFeco1

    2017年欧洲峰会 使用R和Apache Spark进行深度自然语言处理

    太平洋时间2017年10月24日下午05:00

    神经嵌入(Bengio et al. (2003), Olah(2014))旨在将单词、标记和文本的一般组成映射到向量空间,这使得它们易于建模、可视化和推理。在这次演讲中,我们将描述如何使用R和Spark来使用自然语言和编程语言的神经嵌入。特别地,我们将看到Spark中的分布式计算范式与R中的交互式编程和可视化功能的组合如何使自然语言处理模型的探索和推断变得简单而高效。Silge和Robinson(2016)基于Wickham(2014)中正式和有效地制定的整洁数据原则,为使用整洁文本包建模和制作自然语言模型提供了基础。

    在这次演讲中,我们将描述如何在这个框架中构建可伸缩的管道,在R中构建文本挖掘和神经嵌入模型原型,然后使用sparklyr和RevoScaleR包。为了描述这个框架的实用性,我们将提供一个示例,其中我们将训练一个序列来对神经注意力模型进行排序,以总结git提交、拉请求及其相关消息(Zaidi(2017)),然后将它们部署到Spark集群上,在那里我们将能够对神经嵌入进行有效的网络分析,使用sparklyr扩展到GraphFrames。