Databricks Runtime 7.5 for Genomics(不支持)

Databricks于2020年12月发布了这张图片。

Databricks Runtime 7.5 for Genomics是一个版本Databricks Runtime 7.5(不支持)针对基因组和生物医学数据进行了优化。它是Databricks基因组学统一分析平台的一个组成部分。bob体育亚洲版bob体育客户端下载

重要的

此文档已退役,可能无法更新。本内容中提及的产品、服务或技术已不再受支持。

Databricks Genomics运行时已弃用。有关开放bob下载地址源码的对等物,请参见repos Forgenomics-pipelines而且发光.作为运行时一部分的生物信息学库已经作为Docker容器发布,它可以从ProjectGlow Dockerhub页面。

有关Databricks Runtime弃用策略和计划的详细信息,请参见支持Databricks运行时发布和支持计划

有关更多信息,包括创建Databricks用于基因组学集群的运行时的说明,请参见基因组学导游.有关开发基因组学应用程序的更多信息,请参见基因组学导游

新功能

Databricks Runtime 7.5 for Genomics是在Databricks Runtime 7.5的基础上构建的。有关Databricks Runtime 7.5中的新功能的信息,请参见Databricks Runtime 7.5(不支持)发行说明。

从冰雹矩阵表到火花数据帧的转换

辉光现在有from_matrix_table导入函数冰雹MatrixTables作为Spark DataFrames在Glow。看到_

基于偏移量的熊猫线性回归

Glow现在提供linear_regression函数在Python中测试基因型和一个或多个表型之间的关联(步骤2)GloWGR).这个功能比Glow快得多linear_regression_gwas函数(在25个表型上高达8x),并被设计为通过接受偏移量参数与第1步GloWGR的输出无缝工作。协变量以及是否在拟合中包含截距也可以控制。

改进

默认为快速VCF读取器

在这个版本中,默认的VCF读者设置为快速读取器。要使用基于htsjdk的阅读器,请设置火花配置io.projectglow.vcf.fastReaderEnabled

硬呼叫选项的BGEN阅读器

BGEN读者在辉光中现在接受有新的布尔值emitHardCalls选项在读取BGEN文件时生成样本的硬调用。此选项设置为真正的默认情况下。硬调用的概率阈值由新的hardCallThreshold选项(默认= 0.9)。

联合基因分型管道的改进

联合基因分型管道改进了目标区域文件,现在转换为一个过滤器,可以下推到VCF数据源,在那里可以利用表索引进行过滤。以前,范围连接用于此目的。如果提供了目标区域文件(小于25个区域),并且输入是表索引bgzip压缩的vcf,这将提高摄取时间。此外,管道中使用的默认bin大小减少到5000。这一改变通过减少倾斜来加速变换,从而产生更快的管道。

以下部分列出了Databricks Runtime 7.5 for Genomics中包含的不同于Databricks Runtime 7.5的库。

包装库

图书馆

版本

亚当

0.32.0

GATK

4.1.4.1

冰雹

0.2.58

Hadoop-bam

7.9.2

samtools

1.9

VEP

96