使Biobank-Scale基因组处理引发的SQL

与基因组大小的数据每七个月翻一番,现有工具在基因组规模空间设计为g翻倒时,用于处理数据的字节被当前可用biobank-scale努力。在大规模启用常见的基因组分析,灵活的特别分析,砖和Regeneron遗传学中心合作推出一个开源项目。

项目包括优化DataFrame读者加载基因组数据格式,以及引发SQL函数进行统计检验和质量控制对基因组数据分析。我们讨论各种实际用例处理基因组变异数据,代表一个人的基因组序列不同于普通的人类基因组。我们将讨论两个用例:联合基因分型,多个人的基因组分析作为一个群体来提高识别的准确性真正的变异;和变异影响注释,注释与他们的预测生物变异的影响。使这些工作流火花遵循一个简单的模式:我们摄取DataFrames平面文件,准备处理常见的数据引发SQL原语,每个分区上执行处理或行与现有的基因组分析工具,并将结果保存到三角洲或平面文件。