DNA序列二维可视化研究

DNA序列二维可视化研究

论文摘要

随着人类基因组计划的完成和DNA测序技术的革命性发展,生物数据库里的DNA序列数据呈现爆炸性增长。目前,以单分子测序为主要特征的第三代DNA测序技术已经出现,海量的DNA数据可以便捷且低成本地获得。如何从这些海量的数据里挖掘知识,并利用这些知识造福人类成为当今科学研究人员的迫切任务。DNA序列是由A(腺嘌呤),G(鸟嘌呤),C(胞嘧啶),T(胸腺嘧啶)四个基本字符组成的长长的字符串。这种形式能有效地保存在电脑中,然而这不方便人们观察和使用这些数据。能否开发一个工具帮助我们观察和分析这些海量DNA数据,并从中挖掘知识?DNA序列可视化技术正是在这种迫切需求中发展起来。它允许人们用肉眼观察,分析数据;同时也可以将之转化为数学问题,用数学工具与计算机进行分析。自从1983年Hamori和Ruskin提出第一个DNA序列可视化模型以来,DNA序列可视化技术蓬勃发展。在继承前人发展成果的基础上,本文从可视化过程中出现的退化问题、信息丢失问题、可视化空间、可视化效果等角度研究了DNA序列的若干二维可视化模型,并将其应用到相似性分析、基因突变分析、系统发生树构造等领域。主要工作包括:为了解决可视化过程中出现的退化和信息丢失两大基本问题,许多学者采用了高维可视化。本文指出在高维空间中存在两个不可克服的问题,导致在高维空间里可视化效果不如二维空间。第一,在高维空间里,一点后面仍然可以存在另一点。也就是说在高维空间中,理论上能解决退化问题,但实际上从观察的角度,观察者仍然会看到重叠点,看到圈,出现退化问题。第二,观察者很难准确知道高维空间里一个点在各坐标轴上的值。在这基础上,本文以退化和信息丢失两大基本问题为主线,从研究者使用的空间维度把DNA序列可视化的发展历程分为三个阶段。第一阶段:二维可视化。第二阶段:高维可视化。第三阶段:重返二维可视化。Randic等人提出了一个在二维空间里的光谱型可视化模型——Spectral。他们称Spectral避免了信息丢失,但没有进行严格的论证。本文对Spectral进行了更深入系统的探讨。为Spectral建立了两个数学模型,通过这数学模型严格证明了Randic等人的主张是正确的。并且本文还证明了Spectral司时也能避免退化问题。除此之外,对Spectral可视化模型进行了两方面应用。在Spectral可视化模型的基础上提出了新的一个相似性分析方法。把Spectral可视化模型推广应用到蛋白质序列,使得落后的蛋白质序列可视化同时也避免了退化问题和信息丢失问题,而且还能反映蛋白质序列的长度和各氨基酸的含量。在DNA序列可视化的发展历程中,大量学者做出了巨大的努力和贡献,然而在同一模型里同时解决以下五个问题是相当困难的:退化问题,信息丢失问题,在高维空间难以观察问题,长DNA序列在二维空间难以观察问题,需要反映有用信息。本文提出了一个双向量可视化模型——DV-Curve。DV-Curve是利用两个向量表示一个DNA碱基的二维的DNA序列可视化模型。它不但避免了退化和信息丢失,而且能反映DNA序列的长度。同时,无论DNA序列是长还是短,DV-Curve皆能保持良好的可视化效果。进一步,本文给出了基于DV-Curve的这三种应用,并开发了相应软件。针对可视化所需要的平面空间,本文研究了两个基于蠕虫曲线的二维可视化模型:WormBin和WormStep。它们都能在解决退化和信息丢失两大基本问题的前提下,实现稠密可视化——需要较少的平面空间就能可视化较长的DNA序列。WormStep是在WormBin勺基础上发展所得到的,并克服了WormBin的一大缺点:观察者不知道曲线上的DNA碱基成分,除非他从初始点还原整体DNA序列。除此之外,本文还给出基于这两个模型的相似性分析和系统发生树构造方法。与ClustalW等MSA(多序列比对)技术相比,本文的系统发生树构造方法有一个重要的优点:算法是确定的,多项式的。这是MSA技术不可能达到的,除非P=NP。本文提出了一个彩色的DNA序列可视化模型——Color5。Color5不但具有蠕虫曲线可视化的三大特点——没有退化、没有信息丢失、稠密可视化,同时增加了两大优点:彩色的,更便于观察;方的,可以转换为数字矩阵,更方便提炼数字特征。利用人类眼睛对颜色比形状更敏感的事实,以Color5进行基因突变分析,使人能更好更快地观察定位。利用Color5是方的这一特点,将其转换为数字矩阵,并提炼了两种数字特征——矩阵特征值的24维向量和校验码的96k维向量。再利用这两种数字特征进行了两种DNA序列的相似性分析。

论文目录

  • 摘要
  • Abstract
  • 目录
  • 1 绪论
  • 1.1 研究背景及意义
  • 1.2 研究进展与现状
  • 1.3 研究思路及创新点
  • 1.4 本文内容安排
  • 2 Spectral:DNA序列光谱型二维可视化
  • 2.1 Spectral的结构模型,数学模型及优点
  • 2.2 基于Spectral的DNA序列相似性分析
  • 2.3 Spectral在蛋白质序列的推广应用
  • 2.4 本章小结
  • 3 DV-Curve:DNA序列双向量二维可视化
  • 3.1 DV-Curve面临的问题
  • 3.2 DV-Curve的结构模型,数学模型及优点
  • 3.3 DV-Curve的若干应用及软件
  • 3.4 本章小结
  • 4 DNA序列蠕虫曲线二维可视化
  • 4.1 WormBin:DNA序列蠕虫二进制二维可视化
  • 4.2 WormStep:DNA序列蠕虫步二维可视化
  • 4.3 本章小结
  • 5 Color5:DNA序列五色图二维可视化
  • 5.1 Color5的结构模型,算法及优点
  • 5.2 Color5的矩阵表达与数字特征
  • 5.3 基于Color5的基因突变分析与相似性分析
  • 5.4 本章小结
  • 6 总结与展望
  • 6.1 全文总结
  • 6.2 研究展望
  • 致谢
  • 参考文献
  • 附录1 攻读学位期间发表的学术论文
  • 附录2 博士学位论文章节内容与博士期间发表论文的关系
  • 附录3 攻读博士学位论文期间参加的科研课题
  • 相关论文文献

    标签:;  ;  ;  ;  ;  ;  ;  ;  ;  

    DNA序列二维可视化研究
    下载Doc文档

    猜你喜欢