大规模自然语言处理的现状

下载幻灯片

本文深入探讨了Apache Spark的NLP库中的关键设计选择。该库本机扩展了Spark ML管道API,实现了零复制、分布式、组合NLP、ML和DL管道,利用了Spark的所有内置优化。该库实现了核心的NLP算法,包括词元化、词性标记、依赖项解析、命名实体识别、拼写检查和情感检测。

为了提供最先进的性能和准确性的双重目标,我们将介绍的主要设计挑战是:

  1. 使用高效的缓存、序列化和键值存储来跨多个执行器加载大型模型(特别是非常大的神经网络)
  2. 确保在单机和集群环境中快速执行(使用基准测试)
  3. 提供简单、可序列化、可复制、优化和统一的NLP + ML + DL管道,因为NLP管道几乎总是更大的机器学习或信息检索工作流程的一部分
  4. 用于深度学习训练管道的简单可扩展性API,对于大多数真实的NLP问题都需要特定于领域的模型。

这次演讲对使用Spark NLP库构建产品级应用程序的人,以及扩展Spark ML并希望充分利用它的人都有实际用处。

会话标签:#DD4SAIS



«回来
关于亚历山大·托马斯

Alex Thomas是Wisecube的首席数据科学家。他将自然语言处理和机器学习应用于临床数据、身份数据、雇主和求职者数据,现在是生化数据。Alex也是《Spark NLP的自然语言处理》一书的作者。

David Talby简介

大卫·塔尔比(David Talby)是约翰·斯诺实验室(John Snow Labs)的首席技术官,帮助医疗保健和生命科学公司充分利用人工智能。David是Spark NLP的创建者,这是世界上在企业中使用最广泛的自然语言处理库。他在构建和运营网络规模的软件平台和团队方面拥有丰富的经验,包括创业公司、微软在美国和欧洲的必应,以及亚马逊在西雅图和英国的金融系统。bob体育客户端下载David拥有计算机科学博士学位和计算机科学和工商管理硕士学位。