基于变长马尔可夫模型的基因剪接位点识别

基于变长马尔可夫模型的基因剪接位点识别

论文摘要

随着人类基因组计划的完成,人类进入了后基因组时代,基因组研究的重心转向基因组信息分析,而基因剪接是真核基因组信息分析中的一项重要内容。同时,海量生物数据的出现,促使生物信息技术成为后基因组时代的核心技术。20世纪90年代以来,已经有一些模式识别方法被应用于基因识别中,如:支持向量机,隐马尔可夫模型,神经网络等方法,并取得了一些成功的结果。然而,这些模式识别方法在应用于剪接位点识别的过程中还存在着一些问题,例如:特征序列参数需要人为设定,选取的输入特征冗杂,特征序列没有体现位点之间的概率相关性等。针对上述问题,本文对基于变长马尔可夫模型( Variable Length Markov Model, VLMM )的剪接位点识别方法进行了研究,主要完成了以下工作:1.分析并总结了VLMM应用在基因剪接位点识别中的优缺点;2.用KL(Kullback Leibler)距离来改进VLMM的序列扩展方向,以优化模型的特征选取,从而提高模型识别特征序列的能力;3.提出VLMM的概率后缀树( Probabilistic Suffix Tree, PST )训练算法,通过遍历PST来得到VLMM的条件概率,使模型实现不仅变长而且变阶,为模型节省大量的存储空间;4.基于所提出的以上方法构建了基于VLMM的剪接位点识别实验系统,验证了方法的有效性。最后,对所做的工作进行了总结,并对以后将要研究的内容进行了展望。

论文目录

  • 中文摘要
  • Abstract
  • 第一章 绪论
  • 1.1 研究背景及意义
  • 1.2 国内外研究现状
  • 1.3 本文研究工作及内容安排
  • 第二章 基因剪接及其识别
  • 2.1 生物学基础
  • 2.2 基因剪接
  • 2.3 生物分子数据库
  • 2.4 剪接位点识别的意义
  • 2.5 基因剪接位点识别方法
  • 2.5.1 支持向量机
  • 2.5.2 神经网络
  • 2.5.3 隐马尔可夫模型
  • 2.5.4 其它方法
  • 2.6 本章小结
  • 第三章 变长马尔可夫模型
  • 3.1 马尔可夫模型
  • 3.1.1 基本概念和理论
  • 3.1.2 模型应用
  • 3.2 变长马尔可夫模型
  • 3.2.1 模型设计
  • 3.2.2 预测算法
  • 3.3 剪接位点识别中的应用
  • 3.4 本章小结
  • 第四章 KL 距离的变长马尔可夫模型
  • 4.1 KL 距离
  • 4.2 KL-VLMM 模型设计
  • 4.3 数据集N269
  • 4.3.1 数据集的组成
  • 4.3.2 剪接位点的保守性分析
  • 4.4 实验结果与分析
  • 4.4.1 性能评估方法
  • 4.4.2 受试者工作特征
  • 4.4.3 实验结果与分析
  • 4.5 KL-VLMM 应用在剪接位点识别中的优缺点
  • 4.6 本章小结
  • 第五章 变长马尔可夫模型的概率后缀树训练方法
  • 5.1 概率后缀树
  • 5.1.1 基本概念
  • 5.1.2 构建算法
  • 5.2 VLMM 的PST 训练方法
  • 5.2.1 算法设计
  • 5.2.2 PST 层次选择
  • 5.3 实验结果及分析
  • 5.4 本章小结
  • 第六章 总结与展望
  • 6.1 本文研究内容总结
  • 6.2 未来工作展望
  • 参考文献
  • 攻读硕士学位期间发表学术论文情况
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  

    基于变长马尔可夫模型的基因剪接位点识别
    下载Doc文档

    猜你喜欢