用于云计算的基因组学格式和处理模式
摘要
目前的基因组数据格式和处理管道并不能很好地扩展到大型数据集。当前的序列/二进制对齐/映射(SAM/BAM)格式用于单节点处理。已经有人尝试将BAM适应分布式计算环境,但他们认为超过8个节点的可伸缩性有限。此外,由于缺乏显式的数据模式,实现SAM/BAM/Variant Call Format (VCF)数据访问的库之间存在着众所周知的不兼容性。为了解决这些问题,我们引入了ADAM,一组基因组数据的格式、api和处理阶段实现。ADAM在Apache 2许bob下载地址可下是完全开源的,它是在Avro和Parquet的基础上实现的,用于数据存储。我们的参考管道是在Spark上实现的,Spark是一个高性能的内存映射减少系统。这种组合提供了以下优点:1)Avro在C/ c++ / c#、Java/Scala、Python、php和Ruby中提供了显式的数据模式访问;2) Parquet允许像Impala和Shark这样的数据库系统访问;3) Spark通过内存缓存和减少磁盘I/O来提高性能。