bob体育客户端下载平台的博客

Glow V1.0.0，下一代全基因组分析

通过Databricks医疗保健和生命科学团队

2021年3月9日在解决方案

分享这篇文章

近年来，基因组学数据呈爆炸式增长，特别是一些数据集，如英国生物银行，可以免费提供给任何地方的研究人员。基因组学数据被用于高影响力的用例——基因发现、研究和开发优先级，以及进行随机对照试验。这些用例将有助于开发下一代治疗方法。

问题是:从这些数据中获得见解需要数据团队扩展他们的分析。扩大规模需要数据科学家和工程师具备深厚的技术技能。这就是为什么我们激动地宣布发布Glow版本1.0.0，这是一个开源库，解决了在云中将分布式计算应用于基因组数据的关键挑战。bob下载地址

基因关联研究的挑战

随着基因数据的增长，处理、存储和分析它已成为一个主要的瓶颈。挑战包括:

各种数据。各种各样的数据类型使其管理成为一个真正令人头痛的问题。例如，生物银行数据包含基因组学、电子健康记录、医疗设备和图像。
数据量和速度。基因数据是巨大的，不断变化的，随着新数据的出现，分析也会不断地重新进行。
僵化的分析。单节点生物信息学工具不允许用户在大型数据集上交互工作。基因组数据格式可以优化为压缩和存储，但不用于分析。生物信息学科学家筛选来自同一家族或不同种族的样本。硬性过滤限制了新发现的能力。

介绍发光

Glow是一个开源工具包，用于在人口水平上处理基因组数据。该工具包原生构建在Apache Spark™上，Apache Spark™是用于大规模数据处理和机器bob体育亚洲版学习的统一分析引擎。

连接生物信息学和大数据生态系统。使用Glow，您可以在一个通用的变体模式下摄取变体调用格式(VCF)、bgen、plink和Hail矩阵表。然后可以写入不同的数据三角洲湖创建基因组学数据湖，可以使用分布式机器学习算法链接到各种数据源，例如GraphFrames．
按比例建造。Glow原生构建在Apache Spark™和Delta Lake上，允许用户从1个节点增加到10个节点，再到100个节点。扩展计算机比优化代码或硬件更快。
原生支持遗传关联研究。辉光与regenie线性和逻辑回归，现在支持多达20个表型同时。该方法允许您在不进行过滤的情况下包含所有数据，并控制用例和控件的不平衡。Glow是使用Python和Pandas用户定义函数编写的，例如，允许计算生物学家将Glow扩展到基因负担或联合变异分析。

图1。Glow库可以运行在Databricks上的任何三个主要云上，初学者笔记本可以在文档．

图2。Glow的全基因组回归(GloWGR)比现有方法的可扩展性要高几个数量级

结论

我们与Regeneron遗传学中心合作，通过Glow项目解决基因组学中的关键规模化挑战。生物信息学、计算生物学家、统计遗传学家和研究科学家可以在任何云上的Databricks分析平台上合作，扩展他们的基因组学数据分析和下游机器学习应用程序。bob体育客户端下载Apache Spark™和Delta Lake在基因组学上的第一个应用案例是群体遗传关联研究。我们现在看到癌症和儿童发育障碍的新用例正在出现。

开始

尝试发光V1.0.0在砖或在BOB低频彩projectglow.io．

免费试用Databricks

开始

看到所有解决方案的帖子

Dais 2023图像

mit-cio-vision-report-img

统一的形象