Alex Thomas是Wisecube的首席数据科学家。他将自然语言处理和机器学习应用于临床数据、身份数据、雇主和求职者数据,现在是生化数据。Alex也是《Spark NLP的自然语言处理》一书的作者。
发现新药是一个漫长而昂贵的过程。这意味着发现现有药物的新用途有助于在更短的时间内创造新的治疗方法。困难在于找到这些潜在的新用途。
我们如何发现现有药物的这些未被发现的用途呢?
我们可以将可用的结构化和非结构化数据集统一到一个知识图中。这是通过融合结构化数据集,并对非结构化数据集执行命名实体提取来实现的。一旦完成,我们就可以使用深度学习技术来预测潜在的关系。
在这次演讲中,我们将介绍:
(daisna21-sessions-od)
在这次演讲中,我们将介绍如何使用基于规则和深度学习技术从文本中提取实体。我们还将介绍如何使用基于规则的实体提取来引导命名实体识别模型。我们将介绍的这个项目的另一个重要方面是如何推断实体之间的关系,并将它们与源数据集中发现的显式关系结合起来。虽然本次演讲的重点是CORD-19数据集,但所涵盖的技术适用于各种各样的领域。这个演讲是为那些想要学习如何使用NLP来探索文本中的关系的人准备的。
你将学到什么
如何在没有模型的情况下提取命名实体
-如何从基于规则的技术中引导NLP模型
-如何识别文本中实体之间的关系。
主讲人:Alexander Thomas和Vishnu Vettrivel
NLP是许多必须理解或推理文本的数据科学系统中的关键组件。本教程使用开源Spark NLP库来探索Python中的高级NLP。Spark NLP通过提供应用深度学习中一些最新研究的生产级实现,为语言理解提供了最先进的准确性、速度和可伸缩性。它是当今企业中使用最广泛的NLP库。您将通过实现这些常见的NLP任务来编辑和扩展一组可执行的Python笔记本:命名实体识别、情感分析、拼写检查和更正、文档分类以及多语言和多域支持。对每个NLP任务的讨论包括用于解决它的深度学习的最新进展,包括在Spark NLP中预先构建BERT嵌入,使用调优嵌入,以及“后BERT”研究成果,如XLNet、ALBERT和roBERTa。Spark NLP构建在Apache Spark和TensorFlow生态系统上,因此它是唯一一个可以本机扩展到使用任何Spark集群的开源NLP库,同时还可以利用英特尔和英伟达的最新处理器。您将在您的笔记本电脑上本地运行这些笔记本,但我们将解释并展示一个完整的案例研究和基准测试,说明如何扩展NLP管道进行训练和推理。
在许多必须理解或推理文本的数据科学系统中,自然语言处理是一个关键组件。常见的用例包括问题回答、释义或总结、情感分析、自然语言BI、语言建模和消歧。构建这样的系统通常需要结合三种类型的软件库:NLP注释框架、机器学习框架和深度学习框架。本演讲将介绍Apache Spark的NLP库。
它本机扩展了Spark ML管道API,实现了零复制、分布式、组合的NLP和ML管道,利用了Spark的所有内置优化。将分享在Spark上构建NLP、ML和DL管道的基准测试和设计最佳实践。该库实现了核心的NLP算法,包括词元化、词性标记、依赖项解析、命名实体识别、拼写检查和情感检测。
演讲将演示如何使用这些算法来构建常用的管道,并在演讲结束后将公开的笔记本电脑上使用PySpark。
本文深入探讨了Apache Spark的NLP库中的关键设计选择。该库本机扩展了Spark ML管道API,实现了零复制、分布式、组合NLP、ML和DL管道,利用了Spark的所有内置优化。该库实现了核心的NLP算法,包括词元化、词性标记、依赖项解析、命名实体识别、拼写检查和情感检测。
为了提供最先进的性能和准确性的双重目标,我们将介绍的主要设计挑战是:
这次演讲对使用Spark NLP库构建产品级应用程序的人,以及扩展Spark ML并希望充分利用它的人都有实际用处。
会话标签:#DD4SAIS
本文深入探讨了Apache Spark的NLP库中的关键设计选择。该库本机扩展了Spark ML管道API,实现了零复制、分布式、组合NLP、ML和DL管道,利用了Spark的所有内置优化。该库实现了核心的NLP算法,包括词元化、词性标记、依赖项解析、命名实体识别、拼写检查和情感检测。
为了提供最先进的性能和准确性的双重目标,我们将介绍的主要设计挑战是:
这次演讲对使用Spark NLP库构建产品级应用程序的人,以及扩展Spark ML并希望充分利用它的人都有实际用处。
会话标签:#DD4SAIS
在许多必须理解或推理文本的数据科学系统中,自然语言处理是一个关键组件。常见的用例包括问题回答、释义或总结、情感分析、自然语言BI、语言建模和消歧。构建这样的系统通常需要结合三种类型的软件库:NLP注释框架、机器学习框架和深度学习框架。
本演讲将介绍Apache Spark的NLP库。它本机扩展了Spark ML管道API,实现了零复制、分布式、组合的NLP和ML管道,利用了Spark的所有内置优化。将分享在Spark上构建NLP、ML和DL管道的基准测试和设计最佳实践。该库实现了核心的NLP算法,包括词元化、词性标注、依赖项解析、命名实体识别、拼写检查和情感检测。演讲将演示如何使用这些算法来构建常用的管道,并在演讲结束后将公开的笔记本电脑上使用PySpark。
会话标签:#DS1SAIS
在许多必须理解或推理文本的数据科学系统中,自然语言处理是一个关键组件。常见的用例包括问题回答、释义或总结、情感分析、自然语言BI、语言建模和消歧。构建这样的系统通常需要结合三种类型的软件库:NLP注释框架、机器学习框架和深度学习框架。理想情况下,这三个部分应该能够集成到单个工作流中。这使得开发、实验和部署结果更加容易。Spark的MLlib提供了许多机器学习算法,现在也有项目在MLlib管道中实现深度学习。我们所需要的只是NLP注释框架。SparkNLP将NLP注释添加到MLlib生态系统中。本次演讲将介绍SparkNLP:如何使用它,它目前的功能,以及它未来的发展方向。
会话标签:#EUdd4