插入缺失在模式生物中的演化研究与非模式生物中检测技术的开发

论文摘要

插入缺失对物种基因组结构和适应性进化起着非常重要的作用。然而,目前对插入缺失的进化研究还很不充分。一方面,我们可以利用具有完整基因组信息的模式生物来研究插入缺失的进化。作为一个例子,我们研究了果蝇中插入缺失的演化。我们研究了黑腹果蝇和拟果蝇中7500基因,选用yakuba果蝇种系作为外群。编码区插入缺失的进化速率很低,只有非同义替换的3%。为了解决这个问题,我们对黑腹果蝇一个同基因品系ZS30进行深度测序（70X）并与参考序列进行比较来考察种内多态性。通过比较多态性和分化,我们发现对1-10bp的插入缺失的固定系数与同义替换相近,这暗示着这部分插入缺失是中性进化的。有趣的是,11-30bp的缺失有一个更高的固定系数,并且估计有44.4%的这部分缺失是适应性进化的。这个模式没有在插入突变中发现。蛋白质中的插入缺失好像是以中性的插入进行扩张,同时由适应性的缺失进行缩减。这些观察对理解新突变的适合度具有重要意义,同时也对果蝇物种的基因组演化提供了重要线索。另一方面,我们可以在非模式物种中进行插入缺失的进化研究。限制性酶切位点相关的DNA标记测序技术（RAD-Seq）方法可以快捷、方便地获得物种的分子标记信息。当所研究物种基因组参考序列信息未知或者不完全时,RAD-Seq的优势尤其显著。它充分利用了第二代测序技术的高通量、低成本、自动化等优势,能够高效地获得全基因组范围的分子标记信息。双端RAD-Seq短序列的一端是整齐的来源于限制性酶切位点的RAD标签序列,另一端是呈阶梯状的在随机打断过程中形成的第二端序列。通过把带有同样RAD标签的双端短序列聚类到一组中,并且利用这些短序列进行局部拼接,我们可以得到简化了的基因组序列信息。这些序列可以作为参考序列来识别分子标记和进行群体遗传学分析。然而,RAD-Seq短序列通常数以百万、千万计,并且这些短序列还存在测序错误,来源于具有不同水平的杂合度的基因组,并且基因组的重复序列程度可能很高。如何快速和准确地聚类成百上千万的RAD-Seq测序短序列并局部拼接得到可靠的参考序列是一个有挑战性的生物信息学问题。为了能够对高通量的RAD-Seq短序列进行快速分组,并且允许分在同一组的短序列存在测序错误,我们采用间隔种子（spaced seed）的方法对RAD标签序列进行初步聚类。但是容错的初步聚类可能会把基因组不同位置的相似序列分在一组,例如重复序列。RAD-Seq数据分析的一个目标是尽可能区分重复序列。为此,我们用一个自顶向下的类似于检测杂合位点的办法,把初步聚类划分成子类,使每一个子类代表一个单倍型。这样的策略可以区分重复序列,但也将杂合位点处序列区分开来。RAD-Seq数据分析的另一个目标是尽可能合并杂合位点序列。为此,在一棵指导树上,如果兄弟叶节点足够相似的话,我们用一个自底向上的方式对它们进行合并。这里的相似度是通过比较RAD片段的第二端短序列来定义的。这样三个逐步精炼的聚类方案试图在区分重复序列的同时能够合并杂合位点序列。最后,我们实现了一个贪婪算法,把最后合并的短序列局部拼接成为序列重叠群（contig）。为了进一步区分基因组不同区域的序列,对每一个局部聚类,我们不仅可以输出最优的拼接结果,也可以输出次优结果。这样,我们提供了一套超快速、有效的RAD-Seq短序列聚类和组装的综合解决方案。基于这样的设计策略,我们开发了RAD-Seq短序列聚类和局部拼接工具——Rainbow。在多个不同杂合度水平的模拟数据集和一个真实的孔雀鱼RAD-Seq数据集上,我们展示了Rainbow比其他程序更加胜任于RAD-Seq的分析工作。Rainobw用C语言开发完成,是在开源GNU通用公共许可证下开发的开源程序,其源代码可在http://sourceforge.net/projects/bio-rainbow/files/免费获取。

论文目录

致谢

摘要

Abstract

专业词汇中英文对照表

图目录

表目录

1 引言

2 小插入缺失在黑腹果蝇编码区的进化研究

2.1 研究背景

2.2 材料和方法

2.2.1 物种间序列比对

2.2.2 种系特异的插入缺失和核苷酸替换

2.2.3 基因组低复杂区域的注释

2.2.4 基因组测序和变异的检测

2.2.5 数据模拟和插入缺失检测评价

2.2.6 MK检验

2.2.7 由于适应性进化固定下来的替换比例

2.2.8 Gene Ontology（GO）注释和功能分析

2.3 结果

2.3.1 种内和种间插入缺失

2.3.2 用MK检验来推断自然选择

2.4 讨论

2.4.1 突变效果,群体大小和适应性进化

2.4.2 在低复杂区域插入缺失的演化

2.4.3 未来研究展望

3 RAD-Seq短序列聚类和组装的高效解决方案

3.1 研究背景

3.1.1 分子遗传标记定义

3.1.2 几种经典分子遗传标记特点

3.1.3 小结

3.1.4 应用第二代测序技术检测分子遗传标记

3.1.5 第二代测序技术的优势

3.1.6 第二代测序技术分子标记简介

3.1.7 小结和讨论

3.1.8 RAD-Seq技术

3.1.9 RAD-Seq技术细节

3.1.10 RAD-Seq应用

3.1.11 RAD-Seq数据生物信息学分析的挑战

3.1.12 本章主要内容

3.1.13 Rainbow

3.1.14 本章结构

3.2 RAD-Seq短序列聚类

3.2.1 短序列聚类算法介绍

3.2.2 Rainbow实现的聚类算法

3.2.3 Rainbow的一般属性

3.2.4 建立索引表

3.2.5 初步聚类

3.2.6 自顶向下划分聚类

3.2.7 自底向上合并聚类

3.2.8 RAD-Seq数据模拟

3.2.9 模拟物种信息

3.2.10 实验过程模拟

3.2.11 测序短序列模拟

3.2.12 RAD-Seq模拟工具ezmsim

3.2.13 Rainbow聚类算法评估

3.2.14 聚类评价

3.2.15 Rainbow聚类评价的测量值

3.2.16 参与比较的工具

3.2.17 比较结果

3.2.18 讨论

3.3 RAD-Seq数据的局部从头拼接（de novo assembly）

3.3.1 拼接算法介绍

3.3.2 贪婪算法

3.3.3 OLC（Overlap-Layout-Consensus）

3.3.4 De Bruijn图

3.3.5 Rainbow实现的拼接算法

3.3.6 拼接算法评估

3.3.7 讨论

3.4 RAD-Seq真实数据分析

3.4.1 研究背景

3.4.2 RAD-Seq数据

3.4.3 孔雀鱼RAD-Seq数据聚类和拼接分析

3.4.4 讨论

3.5 结论

参考文献

作者简历及攻读学位期间发表的学术论文与研究成果

插入缺失在模式生物中的演化研究与非模式生物中检测技术的开发

论文摘要

论文目录

相关论文文献

猜你喜欢