着爸爸

阿斯利康人工智能工程主管

    Eliseo是医学博士和计算生物学家,他在哈佛/麻省理工学院HST研究所获得了生物医学工程博士学位。在麻省理工学院,他开发了新的单细胞诊断工具,并率先将机器学习算法用于微生物组测序数据。

    他为许多生命科学初创公司(Seres, Enumeral, Finch therapeutics和um.ai)的创立做出了贡献,主要是ML和NLP方面的数据科学家。他曾在Open Targets工作,这是一个公私合作的项目,旨在基于基因组规模的实验和分析,为治疗靶点的有效性提供证据。他目前在阿斯利康领导一个数据科学团队,专注于建立大规模的知识图谱和推荐系统,为阿斯利康药物研发管道识别新的有前途的药物靶点,并影响正在进行的肿瘤试验的设计。

    过去的会议

    2019年欧洲峰会 用Spark和NLP构建知识图谱:我们如何向科学家推荐新药

    2019年10月15日下午05:00 PT

    众所周知,新类型药物的发现、开发和商业化可能需要10-15年的时间,研发投资超过50亿美元,但只有不到5%的药物能够进入市场。

    阿斯利康是一家以创新为驱动的全球性生物制药企业,专注于发现、开发和商业化治疗世界上一些最严重疾病的处方药。在过去的5年里,我们的科学家通过转向数据驱动的方法(“5R”)来帮助更快地开发更好的药物,为患者选择正确的治疗方法,并进行更安全的临床试验,从而提高了我们的成功率。

    然而,我们的科学家仍然无法在掌握所有可用科学信息的情况下做出这些决定。在我们公司和外部公共数据库中,数据是稀疏的,每一项新技术都需要不同的数据处理管道,新数据以越来越快的速度出现。人们经常重复说,每30秒就会出现一篇新的科学论文,这使得任何专家都不可能跟上科学发现的最新步伐。

    为了帮助我们的科学家整合所有这些信息并做出有针对性的决策,我们在Azure Databricks上使用Spark构建了一个生物学见解和事实的知识图谱。该图表为推荐系统提供了动力,使任何阿斯利康的科学家都能利用我们所有的数据,为任何疾病生成新的目标假设。

    在这次演讲中,我将描述我们的知识图谱的应用,并重点介绍我们构建的Spark管道,用于从100多个来源快速组装和创建图谱的投影。我还将描述我们已经构建的NLP管道——利用spacy、bioBERT或snorkel——可靠地提取实体之间有意义的关系,并将它们添加到我们的知识图谱中。

    着爸爸