基因组测序的概括

通过黛博拉·西格尔

2016年5月24日在工程的博客

分享这篇文章

这篇文章从黛博拉·西格尔从西北与丹尼基因组中心和华盛顿大学的李从砖在他们合作的基因组变异分析亚当和火花。

这是3个部分的系列的第1部分基因组变异分析使用k - means,亚当,和Apache火花:

1。基因组测序的概括
2。并行基因组变异分析
3所示。预测地理人口使用基因组变异和k - means

介绍

在过去的几年里,我们看到了一个基因组测序的快速减少成本和时间。潜在的理解基因组序列的变化范围从帮助我们识别人倾向于常见疾病,解决罕见疾病,使临床医生能够个性化个人处方和剂量。

在这个分三部分的博客,我们将提供一个基因组测序引物及其潜力。我们将关注基因组变异分析,基因组序列之间的差异,以及如何加速利用Apache火花和亚当(基因组处理一个可扩展的API和CLI)使用砖Community Edition。最后,我们将执行一个k - means聚类算法对基因组变异数据,建立一个模型,将预测个人的地理原产地种群基于这些变体。

这第一篇文章将提供一个在基因组测序引物。你也可以跳到第二个帖子并行基因组变异分析关注并行生物信息学分析或第三个帖子预测地理人口使用基因组变异和k - means。

基因组测序

一个非常简单的语言类比

想象一个长30亿个字符组成的字符串,包含约25000个单词穿插其他字符。甚至有些单词造句子。更改、添加或删除字符或字符组可能会改变单词和句子的结构或意义。

startling_string

每个长字符串非常约10 ~ 30百万这些差异可能发生的地方。这使事情变得有趣。当然,一切都更复杂。但这已经证明自己是一个有用的抽象的基因组数据。

基因组中,我们一直在构建知识单词(基因)位于字符串的字符(基地),我们已经发现他们不同的地方(变异)。但我们不知道一切。我们还学习什么是变异的影响,基因是如何彼此相关的,以及它们如何可能被表达在不同的形式和不同的数量在某些情况下。

biology_or_foreign_language

基因组测序的概括

基因组测序涉及使用化学和录音技术读取的字符代码基因组(a、G、C、T)(按顺序)。

distribute_me

数据是最初读短字符串的形式。30 x的报道一个人的基因组(30 x是一个共同的目标),可能有大约6亿短字符串的150个字符。在数据预处理过程中,字符串将被映射/对齐,通常一个参考序列。有许多不同的对齐方法。最终,这给每一个基础定义的位置。变体对齐序列数据的分析发现代码差异通过比较参考或其他序列对齐序列和赋值给一个人的基因型变异。

基因型

的一些检测到变异将基于噪音,可以筛选和硬阈值等参数范围,质量,特定于域的偏见。而不是硬过滤,一些分析师阈值拟合高斯混合模型的变体。进一步下游,分析师量化和探索数据,试着识别非常重要的变体(少量输入大小),并试图预测其功能效应可能是什么。

为什么序列?

基因组序列(外显子组序列,这是一个子集)有趣的是数据从数据科学的角度。我们可以用我们的知识序列来获得暗示了如何以及为什么代码已经进化在很长一段时间。基因组测序研究的知识变得更加融入医学。现在用于基因组测序非侵入性产前诊断。基因组测序很快就会使用临床筛查和诊断测试扩大,正在进行的工作基因组医学。

在研究和发现方面,大型队列和人口规模的基因组测序研究发现变异方差或模式可能使人容易等常见疾病自闭症,心脏病,具体癌症。测序研究还表明变异的影响药物代谢,使个性化临床医生的处方,并每个剂量。罕见的遗传疾病,测序某些家庭成员经常导致找到因果变异。

(图片来源:弗雷德里克·瑞尼,使用许可)

在过去的五年里,测序实验相关的基因变异,数以百计的罕见疾病:

“单独一种罕见的疾病,可能会影响只有少数家庭。集体,罕见疾病的影响仅在美国20到3000万人。”

由于这些原因,有资源指向序列的阅读和分析。英国的国民医疗服务项目的基因组序列100000家庭成员有2017年罕见疾病或癌症。在美国,国家人类基因组研究所(NHGRI)计划以2.4亿美元基金常见疾病研究和罕见疾病的研究以4000万美元的价格在接下来的4年。也有其他种类的测序将受益于规模生物信息学和降低障碍数据科学应用到大量的序列数据,如RNA-seq、微生物基因组测序,测序和免疫系统和癌症概要文件。

测序技术已经加速增长的一个对象。从1998年到2001年,第一个人类基因组测序。它花费28亿美元的2009美元。今天,基因组测序在3天1000美元左右(有关更多信息,请审查国立卫生研究院:国家人类基因组研究所>DNA测序成本)。约测序实验的第一个25年期间,化学只允许一段DNA测序,使它费力,缓慢,和昂贵的。下一代测序已经成为大规模并行,使测序发生在许多的DNA在相同的实验。与分子索引,也可以将多个个体的DNA测序和数据可以在进行分离分析。并不是难以置信的推测,地球上大多数人选择将他们的基因组测序在不远的将来。关于下一代测序找到更多细节,请参阅成年:十年的下一代测序技术

这取决于应用程序和设置,当前测序仪器每天可以读~ 600 gb。一个中等大型测序中心有几个这样的工具同时运行。稍后我们将看到在细节,生物信息学面临的挑战之一是,下游软件分析变异先前为特定的优化,非扩展性的文件格式,而不是在数据模型本身。结果是,存在管道脆弱性和障碍可伸缩性。现在我们已经大规模并行测序,许多正在向平行的生物信息学分析。