bob体育客户端下载平台的博客

Glow V1.0.0,下一代全基因组分析

分享这篇文章

近年来,基因组学数据呈爆炸式增长,特别是一些数据集,如英国生物银行,可以免费提供给任何地方的研究人员。基因组学数据被用于高影响力的用例——基因发现、研究和开发优先级,以及进行随机对照试验。这些用例将有助于开发下一代治疗方法。

问题是:从这些数据中获得见解需要数据团队扩展他们的分析。扩大规模需要数据科学家和工程师具备深厚的技术技能。这就是为什么我们激动地宣布发布Glow版本1.0.0,这是一个开源库,解决了在云中将分布式计算应用于基因组数据的关键挑战。bob下载地址

基因关联研究的挑战

随着基因数据的增长,处理、存储和分析它已成为一个主要的瓶颈。挑战包括:

  1. 各种数据。各种各样的数据类型使其管理成为一个真正令人头痛的问题。例如,生物银行数据包含基因组学、电子健康记录、医疗设备和图像。
  2. 数据量和速度。基因数据是巨大的,不断变化的,随着新数据的出现,分析也会不断地重新进行。
  3. 僵化的分析。单节点生物信息学工具不允许用户在大型数据集上交互工作。基因组数据格式可以优化为压缩和存储,但不用于分析。生物信息学科学家筛选来自同一家族或不同种族的样本。硬性过滤限制了新发现的能力。

介绍发光

Glow是一个开源工具包,用于在人口水平上处理基因组数据。该工具包原生构建在Apache Spark™上,Apache Spark™是用于大规模数据处理和机器bob体育亚洲版学习的统一分析引擎。

  1. 连接生物信息学和大数据生态系统。使用Glow,您可以在一个通用的变体模式下摄取变体调用格式(VCF)、bgen、plink和Hail矩阵表。然后可以写入不同的数据三角洲湖创建基因组学数据湖,可以使用分布式机器学习算法链接到各种数据源,例如GraphFrames
  2. 按比例建造。Glow原生构建在Apache Spark™和Delta Lake上,允许用户从1个节点增加到10个节点,再到100个节点。扩展计算机比优化代码或硬件更快。
  3. 原生支持遗传关联研究。辉光与regenie线性和逻辑回归,现在支持多达20个表型同时。该方法允许您在不进行过滤的情况下包含所有数据,并控制用例和控件的不平衡。Glow是使用Python和Pandas用户定义函数编写的,例如,允许计算生物学家将Glow扩展到基因负担或联合变异分析。


图1。Glow库可以运行在Databricks上的任何三个主要云上,初学者笔记本可以在文档

Glow的全基因组回归(GloWGR)比现有方法的可扩展性要高几个数量级。
图2。Glow的全基因组回归(GloWGR)比现有方法的可扩展性要高几个数量级

结论

我们与Regeneron遗传学中心合作,通过Glow项目解决基因组学中的关键规模化挑战。生物信息学、计算生物学家、统计遗传学家和研究科学家可以在任何云上的Databricks分析平台上合作,扩展他们的基因组学数据分析和下游机器学习应用程序。bob体育客户端下载Apache Spark™和Delta Lake在基因组学上的第一个应用案例是群体遗传关联研究。我们现在看到癌症和儿童发育障碍的新用例正在出现。

开始

尝试发光V1.0.0或在BOB低频彩projectglow.io

免费试用Databricks
看到所有解决方案的帖子