Databricks Runtime 6.4 for Genomics(不支持)

Databricks于2020年2月发布了这张图片。

Databricks Runtime for Genomics (Databricks Runtime Genomics)是一种变体Databricks Runtime 6.4(不支持)针对基因组和生物医学数据进行了优化。它是Databricks基因组学统一分析平台的一个组成部分。bob体育亚洲版bob体育客户端下载

重要的

此文档已退役,可能无法更新。本内容中提及的产品、服务或技术已不再受支持。

Databricks Genomics运行时已弃用。有关开放bob下载地址源码的对等物,请参见repos Forgenomics-pipelines而且发光.作为运行时一部分的生物信息学库已经作为Docker容器发布,它可以从ProjectGlow Dockerhub页面。

有关Databricks Runtime弃用策略和计划的详细信息,请参见支持Databricks运行时发布和支持计划

有关更多信息,包括创建Databricks用于基因组学集群的运行时的说明,请参见基因组学导游.有关开发基因组学应用程序的更多信息,请参见基因组学导游

新功能

Databricks Runtime 6.4 for Genomics是建立在Databricks Runtime 6.4之上的。有关Databricks Runtime 6.4中的新功能的信息,请参见Databricks Runtime 6.4(不支持)发行说明。

DNASeq管道定制

DNASeq在Databricks运行时6.4基因组学现在可以定制。管道用户现在可以选择性地禁用读对齐、变量调用和变量注释阶段的任何合法组合。用户还可以执行单端读对齐。

Python和Scala api

版本发光Databricks Runtime 6.4 for Genomics包含了Python和Scala api,用于以前仅通过SQL表达式公开的函数。这些函数可用于DataFrame操作,提供了改进的编译时安全性。

改进

扁平变体模式

DNASeq而且联合基因分型管道以扁平模式向Delta Lake输出不同的数据。

改进型归一化器

变量归一式发光Databricks Runtime 6.4 for Genomics比Databricks Runtime 6.3 for Genomics快2.5倍。新的规范化器既可以作为转换器调用,也可以作为SQL函数调用,它保留了原始模式,并提供了改进的容错性。

Databricks Runtime 6.4 for Genomics中包含的以下库与Databricks Runtime 6.4中包含的库不同。

图书馆

版本

亚当

0.28.0

Hadoop-bam

7.9.2

冰雹

0.2.26

GATK

4.0.11.0

samtools

1.9

VEP

96