大卫Talby

首席技术官约翰·斯诺实验室

大卫Talby是首席技术官约翰·斯诺实验室,帮助医疗保健和生命科学公司好好利用人工智能。大卫是火花NLP的创造者——世界上最广泛使用的自然语言处理库的企业。他有着丰富的经验和运行网络级软件平台和团队——在创业公司,微软的必应在美国和欧洲,和亚马逊的规模的金融系统在西雅图和英国。bob体育客户端下载大卫拥有计算机科学博士学位和硕士学位在计算机科学和商业管理。

过去的会议

2021年峰会先进的自然语言处理与Apache NLP火花

2021年5月26日,下午03:15 PT吗

这个动手做事投入会话使用开源的Apache火花NLP图书馆探索先进的NLP在Python中。Apache火花NLP提供了最先进的精度、速度和语言理解的可伸缩性提供产品级实现的一些最近的研究应用深度学习。Apache火花NLP是唯一开源NLP库,可以按照使用任何Apache火花集群,以及利用最新的从英特尔和英伟达处理器。它是使用最广泛的NLP图书馆今天在企业。

你编辑和运行可执行Python笔记本当我们走过这些常见的NLP任务:文档分类、命名实体识别、情绪分析、拼写检查和校正,语法理解、问题回答,翻译。每个NLP任务的讨论包括深度学习的最新进展和转移学习用于解决它——从数百BERT-based嵌入模型基于T5变压器,MarianNMT,多语言和特定领域模型。

在这个会话表:

首席技术官大卫•Talby约翰·斯诺实验室

(daisna21-sessions-od)

峰会的欧洲2020 火花NLP:先进的自然语言处理规模

2020年11月17日下午内PT

自然语言处理是一个关键的组件在许多数据科学系统,必须理解和思考文本。常见的用例包括问答,总结,情绪分析、自然语言BI,语言建模和消歧。构建这样的系统通常需要结合三种类型的软件图书馆:NLP注释框架,机器学习框架,和深度学习框架。这个演讲介绍了NLP库Apache火花。火花NLP本地扩展了火花毫升管道API使零拷贝,分发,NLP &毫升管道相结合,利用所有的火花的内置优化。基准和设计最佳实践构建NLP毫升火花和DL管道将共享。

图书馆实现核心NLP算法包括词元化,词性标注,依赖解析、命名实体识别、拼写检查和情感探测。火花NLP也是第一个库实现产品级,可训练的和可伸缩的实现使用伯特嵌入的命名实体识别。使用这些功能将在这个演讲,以及支持“post-BERT”嵌入、多语种、多域自然语言理解的挑战。最近精度基准的结果将分享。

演讲将展示使用这些算法构建常用的管道,在笔记本电脑上使用PySpark后将向公众公开谈话。

演讲者:大卫Talby Maziyar帕纳西

峰会的欧洲2020 先进的自然语言处理与Apache NLP火花

2020年11月17日下午内PT

NLP是一个关键的组件在许多数据科学系统,必须理解和思考文本。这个实践教程使用开源火花NLP图书馆探索先进的NLP在Python中。火花NLP提供先进的精度、速度和语言理解的可伸缩性提供产品级实现的一些最近的研究应用深度学习。它是使用最广泛的NLP图书馆今天在企业。

你编辑和扩展的一组可执行Python笔记本通过实现这些常见的NLP任务:命名实体识别、情绪分析、拼写检查和校正,文档分类和多语言和多领域的支持。每个NLP任务的讨论包括深度学习用于解决它的最新进展,包括预制的使用伯特嵌入在火花NLP,使用嵌入的,和“post-BERT”研究结果像XLNet,阿尔伯特,罗伯塔。NLP基于Apache火花,火花TensorFlow生态系统,并且它是唯一开源NLP库,可以按照使用任何火花集群,以及利用最新的从英特尔和英伟达处理器。你运行的笔记本在你的笔记本电脑,但我们将解释并展示一个完整的案例研究和基准规模如何训练和推理的NLP管道。

演讲者:大卫Talby Veysel超常介质

2020年峰会先进的自然语言处理与Apache NLP火花

2020年6月25日凌晨5点PT

NLP是一个关键的组件在许多数据科学系统,必须理解和思考文本。这个实践教程使用开源火花NLP图书馆探索先进的NLP在Python中。火花NLP提供先进的精度、速度和语言理解的可伸缩性提供产品级实现的一些最近的研究应用深度学习。它是使用最广泛的NLP图书馆今天在企业。你编辑和扩展的一组可执行Python笔记本通过实现这些常见的NLP任务:命名实体识别、情绪分析、拼写检查和校正,文档分类和多语言和多领域的支持。每个NLP任务的讨论包括深度学习用于解决它的最新进展,包括预制的使用伯特嵌入在火花NLP,使用调整嵌入的,和“post-BERT”研究成果如XLNet,阿尔伯特,罗伯塔。NLP基于Apache火花,火花TensorFlow生态系统,并且它是唯一开源NLP库,可以按照使用任何火花集群,以及利用最新的从英特尔和英伟达处理器。你运行的笔记本在你的笔记本电脑,但我们将解释并展示一个完整的案例研究和基准规模如何训练和推理的NLP管道。

2020年峰会自动化和可辩解的深度学习在罗氏临床语言理解

2020年6月24日凌晨5点PT

非结构化自由文本医学笔记的唯一来源是许多医疗保健的关键事实。结果,精确的自然语言处理是一个关键组成部分许多医疗AI应用临床决策支持、临床路径建议,群组选择,病人风险或异常检测。最新进展的深度学习NLP启用了一个新的高度的准确性和可伸缩性临床语言理解使一组广泛的应用程序可能的第一次。

这个演讲的第一部分将介绍深度学习技术,解释能力特性,NLP管道架构已被应用。我们将提供一个简短的概述的关键基础技术:火花NLP为医疗、伯特嵌入,healthcare-specific嵌入。然后,我们将描述这些是如何应用于解决医疗环境的挑战:理解临床术语提取specialty-specific感兴趣的事实,和使用学习转移到最小化所需的特定于任务的注释。使用MLflow及其集成火花NLP跟踪实验和繁殖的结果也将覆盖。

的第二部分将涵盖自动化深度学习:列车系统的能力,调整和测量模型一旦临床注释器添加或正确的标记数据。我们将介绍注释过程和指导方针;为什么自动化需要处理各种临床语言提供商,文档类型,和地理位置;,在实践中这是如何工作的。提供可辩解的结果——包括高亮显示的文本证据提取语义的事实——是另一个关键业务需求,我们将展示如何解决。这个演讲的目的是用于数据科学家、软件工程师、建筑师和领导者必须设计真实世界临床人工智能应用程序和感兴趣的经验教训应用最新进展在NLP和深度学习在这个空间。

2019年峰会 Apache火花NLP:延长火花毫升提供快速、可伸缩、统一的自然语言处理

2019年4月23日凌晨5点PT

自然语言处理是一个关键的组件在许多数据科学系统,必须理解和思考文本。常见的用例包括问答、复述或总结,情绪分析、自然语言BI,语言建模和消歧。构建这样的系统通常需要结合三种类型的软件图书馆:NLP注释框架,机器学习框架,和深度学习框架。这个演讲介绍了NLP库Apache火花。

它扩展了火花毫升管道API使零拷贝,分发,NLP &毫升管道相结合,利用所有的火花的内置优化。基准和设计最佳实践构建NLP毫升火花和DL管道将共享。图书馆实现核心NLP算法包括词元化,词性标注,依赖解析、命名实体识别、拼写检查和情感探测。

演讲将展示使用这些算法构建常用的管道,在笔记本电脑上使用PySpark后将向公众公开谈话。

2018年峰会先进的自然语言处理规模,仍在继续

2018年6月4日凌晨5点PT

这是深入了解关键设计选择在NLP库Apache火花。图书馆本地扩展了火花毫升管道API使零拷贝,分发,NLP, ML & DL管道,利用火花的所有内置的优化。图书馆实现核心NLP算法包括词元化,词性标注,依赖解析、命名实体识别、拼写检查和情感探测。

的双重目标,提供最先进的性能和精度,主要设计的挑战,我们将讨论:

使用高效的缓存,序列化&键值存储加载大型模型(尤其是大神经网络)在许多执行人
确保快速执行单独的机器和集群环境(基准)
提供简单的、序列化、可再生的、优化和统一的NLP +毫升+ DL管道,因为NLP管道几乎总是更大机器的一部分学习或信息检索工作流程
简单的扩展API的深度学习培训管道,需要最真实的NLP问题需要特定领域模型。

这个演讲将实际使用的人生产级应用程序,使用火花NLP库构建以及任何延长火花毫升和充分利用它。

会话标签:# DD4SAIS

2018年峰会先进的自然语言处理规模

2018年6月4日凌晨5点PT

的双重目标,提供最先进的性能和精度,主要设计的挑战,我们将讨论:

使用高效的缓存,序列化&键值存储加载大型模型(尤其是大神经网络)在许多执行人
确保快速执行单独的机器和集群环境(基准)
提供简单的、序列化、可再生的、优化和统一的NLP +毫升+ DL管道,因为NLP管道几乎总是更大机器的一部分学习或信息检索工作流程
简单的扩展API的深度学习培训管道,需要最真实的NLP问题需要特定领域模型。

这个演讲将实际使用的人生产级应用程序,使用火花NLP库构建以及任何延长火花毫升和充分利用它。

会话标签:# DD4SAIS

2018年峰会 Apache火花NLP:延长火花毫升提供快速、可伸缩的和统一的自然语言处理

2018年6月4日凌晨5点PT

自然语言处理是一个关键的组件在许多数据科学系统,必须理解和思考文本。常见的用例包括问答、复述或总结,情绪分析、自然语言BI,语言建模和消歧。构建这样的系统通常需要结合三种类型的软件图书馆:NLP注释框架,机器学习框架,和深度学习框架。

这个演讲介绍了NLP库Apache火花。它扩展了火花毫升管道API使零拷贝,分发,NLP &毫升管道相结合,利用所有的火花的内置优化。基准和设计最佳实践构建NLP毫升火花和DL管道将共享。图书馆实现核心NLP算法包括词元化,词性标注,依赖解析,名叫entityrecognition,拼写检查和情感探测。演讲将展示使用这些算法构建常用的管道,在笔记本电脑上使用PySpark后将向公众公开谈话。

会话标签:# DS1SAIS