研究

用于云计算的基因组学格式和处理模式

作者:Matt Massie, Frank Nothaft, Christopher Hartl, Christos Kozanitis, André舒马赫,Anthony D. Joseph, David A. Patterson

下载论文

摘要

目前的基因组数据格式和处理管道并不能很好地扩展到大型数据集。当前的序列/二进制对齐/映射(SAM/BAM)格式用于单节点处理。已经有人尝试将BAM适应分布式计算环境,但他们认为超过8个节点的可伸缩性有限。此外,由于缺乏显式的数据模式,实现SAM/BAM/Variant Call Format (VCF)数据访问的库之间存在着众所周知的不兼容性。为了解决这些问题,我们引入了ADAM,一组基因组数据的格式、api和处理阶段实现。ADAM在Apache 2许bob下载地址可下是完全开源的,它是在Avro和Parquet的基础上实现的,用于数据存储。我们的参考管道是在Spark上实现的,Spark是一个高性能的内存映射减少系统。这种组合提供了以下优点:1)Avro在C/ c++ / c#、Java/Scala、Python、php和Ruby中提供了显式的数据模式访问;2) Parquet允许像Impala和Shark这样的数据库系统访问;3) Spark通过内存缓存和减少磁盘I/O来提高性能。

相关内容

作者:Daniel Kang, John Emmons, Firas Abuzaid, Peter Bailis, Matei Zaharia

作者:赵章,凯尔·巴巴里,弗兰克·奥斯汀·诺瑟夫特,埃文·r·斯帕克斯,奥利弗·赞恩,迈克尔·j·富兰克林,大卫·a·帕特森,索尔·珀尔马特

作者:Aditya Ganjam,蒋俊辰,刘曦,Vyas Sekar, Faisal Siddiqui, Ion Stoica,詹吉斌,张辉

作者:Anand Padmanabha Iyer, Li Erran Li, Ion Stoica

作者:Frank Austin Nothaft, Matt Massie, Timothy Danford, Zhao Zhang, Uri Laserson, Carl Yeksigian, Jey Kottalam, Arun Ahuja, Jeff Hammerbacher, Michael Linderman, Michael J. Franklin, Anthony D. Joseph, David A. Patterson

作者:Samia N. Naccache, Scot Federman, Narayanan Veeeraraghavan, Matei Zaharia, Deanna Lee, Erik Samayoa, Jerome Bouquet, Alexander L. Greninger, Ka-Cheung Luk, Barryett Enge, Debra A. Wadford, Sharon L. Messenger, Gillian L. Genrich, Kristen Pellegrino, Gilda Grard, Eric Leroy, Bradley S. Schneider, Joseph N. Fair, Miguel A. martal ' nez, Pavel Isa, John A. Crump, Joseph L. DeRisi, Taylor Sittler, John Hackett, Jr. Steve Miller, Charles Y. Chiu