本文深入探讨了Apache Spark的NLP库中的关键设计选择。该库本机扩展了Spark ML管道API,实现了零复制、分布式、组合NLP、ML和DL管道,利用了Spark的所有内置优化。该库实现了核心的NLP算法,包括词元化、词性标记、依赖项解析、命名实体识别、拼写检查和情感检测。
为了提供最先进的性能和准确性的双重目标,我们将介绍的主要设计挑战是:
这次演讲对使用Spark NLP库构建产品级应用程序的人,以及扩展Spark ML并希望充分利用它的人都有实际用处。
会话标签:#DD4SAIS
Alex Thomas是Wisecube的首席数据科学家。他将自然语言处理和机器学习应用于临床数据、身份数据、雇主和求职者数据,现在是生化数据。Alex也是《Spark NLP的自然语言处理》一书的作者。
大卫·塔尔比(David Talby)是约翰·斯诺实验室(John Snow Labs)的首席技术官,帮助医疗保健和生命科学公司充分利用人工智能。David是Spark NLP的创建者,这是世界上在企业中使用最广泛的自然语言处理库。他在构建和运营网络规模的软件平台和团队方面拥有丰富的经验,包括创业公司、微软在美国和欧洲的必应,以及亚马逊在西雅图和英国的金融系统。bob体育客户端下载David拥有计算机科学博士学位和计算机科学和工商管理硕士学位。