英国生物库数据,提高治疗发展砖,DNAnexus

大规模基因组数据集的英国生物库对制药公司如何确定治疗目标发展。然而,海量基因组数据转化为可操作的基因型和表型之间的联系的公司使用遗留基因组数据技术。在这个演讲中,生原体将描述他们与DNAnexus和砖将本地数据基础设施到AWS云。结合DNAnexus砖基因组学的运行时平台,生原体可bob体育客户端下载以使用英国生物库数据集包含protein-truncating识别基因变异影响人类长寿和神经状态。

看更多的火花+人工智能会话
或
免费试着砖

视频记录

晚上好,你们中那些加入会话。我的名字叫大卫·塞克斯顿。我的头在生原体基因组技术和信息。

我今天加入了约翰·Ellithorpe DNA Nexus谁是首席产品官和Frank Nothaft是卫生保健和生命科学的技术总监在砖。

今天的议程是,我将谈到英国生物库实际上是什么和为什么没有准备生原体数据规模。约翰将谈到大规模使用DNA Nexus英国生物库数据的分析,以及DNA关系帮助我们扩大这类数据的分析。和Frank Nothaft将谈到结合最佳云架构加速英国生物库分析,和他也会说如何数据砖帮助生原体向外扩展的解决方案。

什么是英国生物库,生原体如何用它来发现新的治疗?

英国生物库是英超数据集关联疾病遗传学现在在世界上。这是一个长期研究的遗传易感性和环境暴露在疾病的发展。这个数据集被收集在40至69岁的参与者。这是30多年的表型数据,这些患者长期被跟踪,测量他们的健康在这30年时间跨度。有22个中心在英国有超过500000名志愿者,这是其中一个最大和最详细的有史以来人口研究。你可以看到有大量的论文,来自英国生物库。基因数据是收集的英国生物库吗?2017年,八个伙伴公司聚集在一起,形成了生命科学遗传学财团。作为联盟的一部分,我们将测序英国生物库的500000的外显的参与者。外显子组是一个基因的蛋白质编码区,作为联盟的一部分,生原体将探索所有的蛋白质编码基因的基因组区域的500000名参与者。 The participants of the UK Biobank Consortia Regeneron, and GSK sequence the first 50,000 samples, and all 500,000 participants are to be sequenced in 2020. Industry partners will have exclusivity until 2021, and we currently We have 300,000 exomes in-house.

因此如何利用英国生物库数据?

我们使用人类基因证据等级药物组合。我们使用的数据发现新基因的目标,我们使用它来理解神经系统疾病生物学。

所以生原体有一些信息的挑战在使用这些数据。

我们的数据基础设施的挑战没有足够的存储容量和数据中心。英国生物库的数据将大约一拍字节的数据,目前我们没有存储在我们的数据中心。我们与我们的网络有问题,没有足够的带宽来传输所有的数据在我们的数据中心。当我来到2018年,我们刚过一周停机的高性能计算集群。

因此我们需要一个新的数据范式,这就是DNA关系和Dataricks帮助我们。我们需要我们的基础设施来处理拍字节数据集规模大小,我们需要存储和可视化基因数据,我们需要分析这个数据规模,我们需要通过生原体在存储和云第一次使用我们的数据。

所以现在我要把它交给约翰谈论扩展英国生物库的数据使用DNA Nexus的泰坦和阿波罗产品。——谢谢你,大卫。所以当我们看看英国生物库和生原体需要做什么如果你不能看的步骤中需要处理大量基因组数据集。

大规模数据洞察力与英国生物库执行分析大规模数据集

我们真的把这个分成两个不同部分。有一块,这是一个上升趋势,你看看准备高质量的数据集,数据从这些原始测序机器或读取,而你不理解什么变异。所以有一个处理步骤,需要发生在整个500000年外显子组数据集能够构建高质量的基因组数据集。还有第二个块相结合,在健康和评估数据,这就像人口数据和其他类型的数据,得到了。然后需要组合成一个大型语料库的数据然后科学家可以通过查询数据,并使用提问的数据做统计分析数据的最终结果。当我们看英国生物库的数据,这些数据集是一个挑战,因为数据的规模和复杂性。所以如果你看右边,你可以看到在基因组方面,我们有500000个参与者的数据集。每个参与者可以有多达数百万的变体,他们跟踪这些,现在给你本质上数以万亿计的数据点,需要能够理解看起来像纯粹的基因组。在所谓的表型方面可能人口信息、健康信息、临床可能来自医疗记录的信息。这是一个广泛的数据集。有很多不同的领域,有超过3500种不同的表型字段。也相当复杂,你可能会有重要的编码值,你可能有层次结构的可能的值。你也有某种程度的发射的数据集,因为人们便多次评估中心测量血压和类似这样的事情。 So there’s a longitudinal aspect to the data. And so once you’ve combined all these together, you have essentially a very large data set that you have to manage to be able to do the things that David mentioned needing to do. Let’s focus now at the different stages of this process, and we could talk a little bit about how DNA Nexus help. In this first stage with 500,000 samples, you end up with about 2 million files as you have the alignment files as well as the outputs, are called GCF files, as well as the index files that go along with it. we computed that, it’s around one and a half petabytes of data that you have to process.

和非常重要的数据是你真的需要在一个高质量的,一致的方式。如果我们看看你可能需要原始的阶段内读取,然后你做一个所谓的校准步骤,调整它到参考基因组真的确定不同的碎片堆积起来。沿着外显子组,然后确定每一个点,到底是这一点的叫剪断,还有各种数据摄入。

Regeneron基因组中心的这个数据集处理,他们得到的样品处理。他们有一个成本优化管道每样品大约需要四个小时运行,所以在500000个样本,我们看着数百万小时的机器。这是一个大规模的问题。如果我们看看他们所使用的技术,他们用泰坦能够处理这些产品。当我们看为什么这是困难的,如果你处理几件样品,事实上这并不是很难做到自己在云中。但是一旦你进入数以千计的水平,数以万计的成千上万的样品,你真的想做这件事持续有效,然后容错到云是非常重要的。只关注异常的能力,在科学和没有处理云优化等也很重要。

移动数据,并确保你有一致性的数据完整性也是非常重要的。研究环境,它也很重要,你实际使用的工具尤为重要和相关的观点。所以这些都是泰坦能做什么。

例如,我们有一个另一个制药公司的财团和他们重复100000样品,处理每小时1000外显。三天半的时间,我们将能够处理100000外显。这种能力是需要在规模你去再加工数据在一个安全的环境。

我将进入下一个阶段的过程。现在我们必须把大语料库的基因组数据和临床数据。虽然有3500个或多个字段,它最终被11000 +列需要存储在系统中,然后结合能够有效地查询数据。作为联盟的一部分,我们提供了一个队列浏览器,允许研究人员直观地通过数据并与之交互的数据查询和问问题,探索数据。我将显示在第二个。很重要的是什么…所以数据的数据量既宽又深。我们以500亿行结束整个基因组数据集的变异水平以及需要数百个表来管理数据的列。和这些实时交互与数据非常困难。

我们所做的是,这是使用阿波罗构建技术,将高质量的数据集,从泰坦正在处理,结合结构化数据,是健康评估数据,并提供你的能力在各种各样的方式与之交互。是很重要的,在这个大型数据集,你不能移动数据研究人员和工具。你需要把研究的工具和数据。这就是核心方面和核心引擎驱动阿波罗,是一个基于火花的引擎。

基于火花的引擎是使用火花SQL能够查询到的数据。但是,为了做到这一点,我们需要做一些事情。一个是我们需要能够分区数据很大程度上基于基因的位置真的能够快速查询这个分裂以及做垂直表,基本上垂直分区能够查询速度不够快,因为有这么多的元数据在11000列。你必须很聪明如何实现查询能秒的响应时间和处理这些数据集,并能够真正探索视觉能够迅速得到。然后以及能够提供科学数据,该功能通过木星笔记书和其他机制能够输入的数据,并做统计分析等工具和Python库或R脚本之类的东西他们做想做的事。另一个重要方面是保持这一切安全在我们的环境中,我们综合了火花蜂巢元存储到我们平台的安全访问控制模型来控制大规模数据集。这非常重要,因为我们一起构建整个系统并提供出来的授权人员是英国生物库的一部分财团。bob体育客户端下载——优秀的,非常感谢你,约翰和大卫通往这一节。

结合最佳云

我是Frank Nothaft。我是技术总监为卫生保健和生命科学数据砖。所以我管理我们的全球技术努力珠在产品开发方面与我们的基因组学运行时,报价在我们的解决方案体系结构团队与客户紧密合作,以及我们的一些功能,使用DNA这样的合作伙伴关系。bob体育外网下载我要讲的是如何砖平台进入,然后我们如何DNA之间的工作协作关系,生原体和砖团队取得成功在分析这bob体育客户端下载大规模的英国生物库数据。

引入统一分析基因组学互动bob体育亚洲版协作平台基因组在大规模数据处理和分析bob体育客户端下载

所以这张幻灯片总结我们的砖平台是什么样子的基因空间。bob体育客户端下载如果您熟悉砖平台,我们有一种云基础设施层,优化机器和你一起工作,然后我们有一个bob体育客户端下载顶层提供笔记本功能,便于在可再生的和共享的方式使用笔记本。但在中间层,我们提供许多不同的运行时为各种不同的任务,提供优化的软件栈的客户工作。像处理大规模流媒体数据集,做机器学习,或者像我们介绍了在2018年和去年提供了一般,我们引入了一个工作流运行时专门针对基因组数据。我们的工作流覆盖整个范围的任务从最初的数据处理,通过大规模的统计分析数据变化。我们已经能够使用所有这些工作流在生原体,但专注于几个不同的点,在前期执行方面,我们已经提前和我们所做的就是采取GTK的最佳实践。对于那些熟悉的基因组学、GTK是一组标准的管道在单一个体,原始DNA测序读和将其转化为生殖系变异或突变的电话如果你看癌症数据。我们采取这些管道,使他们通过一次点击界面易于使用,将他们和运行它们,大约需要五分钟管道设置,使它更容易访问这些。我们也广泛的性能优化,使他们的工作与火花。所以,最终,我们已经能够做诸如降低运行GTK的延迟高覆盖率的生殖管道上全基因组从30个小时40分钟下有两倍的性能提升从CPU效率的角度来看,然后使用火花的力量来麻痹这项工作在许多内核。 We’ve then gone ahead and we take a very big focus at working on population scale data. We actually have extended support for the GTK’s joint genotyping pipeline. So this is the pipeline that takes data from many single samples and blends it together into a single population. We’ve accelerated that and paralyze that out using Spark. And then we’ve worked to package up a couple of open source libraries. Hail, which comes from the Broad Institute and Glow, which is a project we’ve actually developed here at Databricks in conjunction with the Regeneron Genetic Center that allow people to go ahead and merge these datasets together while we control them and ultimately run large scale statistical analyses on top of that data. Our ultimate ambition here is to move people to an architecture where they’re able to use open source technologies like Glow that make it easy to use many different languages, be the Python or SQL on top of genomic data, coupled along with efficient, optimized and open source file formats like our Delta Lake file format, which is a open source. So that they can go ahead and accelerate the process of taking large data sets, wrangling and cleaning them up, joining them with a variety of different data types, be a clinical data, be the images, be the other lab measures, and ultimately produces head of GWAS results or other other statistical results that they can do machine learning on top of to generate scores, and that they can go ahead and serve directly to research and clinical audiences.

在英国生物库GWAS生原体

当我们看的一些工作,我们所做的在生原体英国生物库数据,你现在继续强调的一些工作,我们在与大卫的团队合作一些全基因组协会管道。GWAS管道,这是什么本质上是一种统计内核需要每一个数据集内的基因组变异和我们感兴趣的表型,并继续执行某种形式的统计测试,看看这两个相关联。

如果我看,比方说,一个共同的连续分布变量如身高,这可以是一个线性关系每一个基因变异和每一个表型。或者如果我看着更复杂的东西,我可能会使用更复杂的测试,就像Cox比例风险模型之类的。英国生物库的数据集,这是特别具有挑战性,因为我们处理的数据量是非常大的。英国生物库有2000表型。

外显子组测序数据,有10 s数以百万计的变异有关。所以当你继续做完整的十字架,你可以查看运行数十亿数十亿的回归测试这个数据关联起来。的管道,我们能够构建,首先,我们可以继续使用开源冰雹工具摄取这些数据非常迅速,开始生成我们的第一个结果。bob下载地址这些结果生成时,生原体团队能够把他们的一些传统注释管道。这些工具将这些变异,我们发现,似乎有某种关联的疾病我们感兴趣和添加额外功能的后果,这是一个蛋白质截断的变体?这是我们看到的一个变体在其他疾病吗?这是一个变体,我们知道基因表达改变了吗?他们能够拿一个管道,以往耗时两周的时间来处理700000个变异,大大加速。他们能够注释200万个变异在15分钟内,所以他们有数量级的加速度。最终,这给了他们一个快速可查询数据库基因型和表现型联系加入的后果,让他们真正了解这些变异函数和变异。 This was really exciting. Just earlier this month, the Biogen team released the preprints on some of this work that summarizes the effects that they found in protein truncating variants. So these are a genetic change that causes a gene to be truncated so you don’t get the full copy of the protein, you instead get a scrambled copy that doesn’t produce the correct thing. They’ve been able to find a number of variants in about six different genes that have a significant impact on human lifespan. And they’ve been able to understand the biology of complex diseases a bit better through that.

最终,当我们一起看看这双,大的事情生原体团队已经能够实现他们已经能够实现架构,他们可以使用自己的云环境中,数据来自Regeneron遗传中心从这个英国生物库队列,他们已经能够将DNA一起关系和数据库平台。bob体育客户端下载最终,这给了他们最好的解决方案,他们获得的DNA Nexus平台与许多最佳实践管道和最佳实践可视化工具在阿波罗和泰坦项目。bob体育客户端下载所以他们能够快速旋转,它们能够快速运行所需的管道,最终生成可视化,他们需要为他们的板凳上科学和临床团队。他们已经能够使用砖平台真正深入地了解这些工作流。bob体育客户端下载所以,最终,通过结合这三个团队的能力,专业的数据,他们的专业知识的科学,伟大的工具可用的DNA关系和数据库平台,我们已经能够把一个大的挑战。bob体育客户端下载

改善与生原体疗法,DNAnexus和砖

把大量的原始数据,在一个字节的数据从500000年个人在传统生态系统复杂性,生原体和它需要移动到云上。最终,生原体团队已经能够提供大量的成功。与发现,他们已经从这个超大规模数据库综合与全面的表型变化,他们已经能够继续并确定新的药物靶点。他们还能够构建模型,使他们理解基因组变异如何影响其他药物的功能和可能的成功,他们一直在发展。所以他们已经能够继续,重新定位和区分他们的药物组合。当你看复杂的神经退行性疾病,正在,这样的数据集给他们更多的洞察力,更精确,更审问的复杂生物学神经退行性疾病的能力。随着每个月的流逝,当我们介意这个数据集,我们都是发展中作为一个社区更好地理解复杂的人类疾病,这种结合基因型和表型数据的力量。

我非常兴奋地看到DNA之间的协作关系和砖团队。我们看到大量的重叠,顾客可以受益于这两种技术,是他们是如何使用他们的许多的泰坦项目数据处理需求,砖的ML,他们利用大量的可视化技术,理解,和审问基因和表型数据可用在阿波罗产品。我们看到一个即将到来的紧密集成的火花团队低功率的许多不同的技术。我们期待更多的合作。我们非常感兴趣的领域跟谁一起使用这些产品很感兴趣,并希望这些产品影响我们的未来的路线图如何整合在一起。非常感谢你,大卫和约翰,加入我们冒险。我认为,基因组学社会中的每个人都很兴奋,看看英国生物库的数据给我们大量的巨大的洞察人类疾病的复杂生物学,我真的非常感谢