实用基因组学与Apache Spark

关于技术在基因组学中的作用的讨论总是集中在本世纪初以来DNA测序的巨大增长上,增长速度超过了摩尔定律,并导致了1000美元的基因组。然而,未来的增长预计会更加惊人,而要成为现实,我们需要更强大的基因组分析工具。Apache Spark为这些新工具提供了基础,包括我将在本次演讲中介绍的两个工具:GATK和Hail,它们都是来自Broad Institute的开源项目。bob下载地址GATK和Hail是互补的:GATK提供了将DNA序列数据转化为Hail所需的原材料(变体调用数据)的管道,以便对数千个个体进行遗传分析。GATK最初是一个单一进程程序,但现在已经被移植到Spark上大规模运行。从一开始就编写了Hail,以便在Spark上运行。在这次演讲中,我将介绍这些框架如何利用Spark进行扩展,让现有数据格式与Spark一起工作的一些挑战,以及未来的一些计划。
会议标签:#EUres9



«回来
关于汤姆·怀特

Tom White是Cloudera公司的数据科学家,专门研究大数据和生物信息学。在此之前,Tom是Cloudera的分布式系统工程师,负责Hadoop技术,自2008年Cloudera成立以来,他一直在那里工作。Tom是Apache Hadoop提交者,也是O'Reilly Media出版的畅销书《Hadoop:权威指南》的作者。