基因剪接的信号序列分析和相关特征研究

基因剪接的信号序列分析和相关特征研究

论文摘要

生物信息学是信息科学与生命科学的交叉学科,随着生物技术和计算机技术的迅猛发展,生物信息学已经成为目前最为活跃的新型学科之一。剪接是基因转录过程中的一个重要步骤,其得到的序列直接决定了翻译的产物——蛋白质,而选择性剪接机制的存在,使得同样的基因可以得到不同的蛋白质产物,从而导致生命的多样性。剪接和选择性剪接机制的研究为我们理解基因的表达提供重要帮助,已成为目前生物信息学研究的一个主要方向。本文对剪接和选择性剪接的信号序列以及相关特征进行了深入地分析和研究,其中主要工作和创新之处包括:(1)编码区剪接位点识别的研究。剪接序列分析的一个重要目标就是精确地识别出基因序列中的剪接位点,包括供体位点和受体位点。本文采用隐Markov模型作为剪接位点识别系统的主要模型,根据剪接位点信号序列中碱基之间的相关性,分别构建了供体位点信号和受体位点信号的识别模型。因为仅仅依赖于位点信号的保守信息还不足以精确地识别出剪接位点,所以用2阶隐Markov模型来对剪接位点两侧的外显子序列和内含子序列分别进行建模,结合序列模型和信号模型,最后得到剪接位点识别的总体模型。利用实际的人类基因数据,本文对剪接位点识别模型进行了验证,其识别结果达到了目前国际上同类优秀软件的水平。(2)非翻译区剪接位点识别的研究。基因非翻译区在基因转录的过程中也进行了剪接,其外显子保留在转录物中,但是在翻译的过程中并不被翻译成氨基酸。正是由于非翻译区的内含子和外显子均为非编码序列,剪接位点两侧的序列不存在编码到非编码的状态转换,所以非翻译区剪接位点的识别一直是生物信息学中的一个挑战性问题。为了提高非翻译区剪接位点识别的精度,本文采用支持向量机作为位点识别模型。考虑到剪接位点的选取与位点附近的核酸序列有着重要的关联,特别为支持向量机构造了一个新的核函数——位置权重子序列核函数。位置权重子序列核函数的特征变换综合了剪接位点两侧序列的组成信息和位置信息,能够较好反映实际的剪接机制。以人类5’非翻译区序列数据为实验对象,本文对该模型进行了实验验证,其识别精度与目前国际上非翻译区剪接位点识别软件的水平大体相当,甚至在一些指标上超过了其他的识别软件。(3)信号位点附近寡核苷酸模体发现的研究。生物信号位点附近通常存在一些保守性较高的短序列片断,称之为寡核苷酸模体。这些寡核苷酸模体往往对生物信号起着重要的调控作用。如果能够找出这些保守的模体,不仅有利于识别信号位点,还可以帮助理解生物信号产生作用的生理机制。为此,本文提出一个基于最大熵分布的模体发现算法,根据候选模体在信息增益上的差别,采用逐步筛选的方法,选取信息增益突出的寡核苷酸序列作为信号的模体。但是,在信号序列较长的情况下,该算法将占用大量的空间和时间,在实际中无法实现。为了解决这一问题,本文采用了序列分解的方法,将较长的序列分解为多个短片断。为了保留短片断之间的相关性,并不是简单地分割这些长序列,而是同时考虑了短片断之间分界点两侧的序列,这样既可以降低算法对空间和时间的需求,又尽可能地保留了全局信息。考虑到在众多的候选寡核苷酸序列中,只有少量的序列是真正的模体,本文在选取模体的时候加入了一个预选阈值,如果候选模体的出现频率小于预选阈值,则在进入迭代前,就将这个模体从候选模体集中去除。利用筛选后的寡核苷酸模体,信号序列能够较好地与背景序列区分开来,这说明选取的寡核苷酸模体较好地体现了信号特征。(4)选择性剪接在物种间的保守性研究。选择性剪接作为高等生物中普遍存在的一种生命现象,极大地丰富了基因的表达产物——蛋白质。通过选择不同的位点进行剪接,可以得到不同的蛋白质,它们可能会导致物种的变异,疾病的产生,生物功能的转变等等。通过分析不同物种之间选择性剪接的保守性,既可以得到物种在进化中保留下来的选择性剪接模式,还可以发现进化中单个物种产生的特异选择性剪接模式。为了详细分析选择性剪接与物种进化之间的关系,本文采用多个特征指标,从不同方面对常见选择性剪接方式中的外显子跳跃剪接进行了人类和小鼠这两个物种之间的保守性分析。结果表明,大部分的特征在两个物种之间具有很强的相似性,这说明人类和小鼠从共同的祖先处遗传得到相似的选择性剪接方式,具有很强的亲缘关系,这与近年来的研究结果相吻合。但同时也存在一些单个物种特有的特征,它们应该是物种在进化过程中独立发展出的特性。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 引言
  • 1.2 研究背景
  • 1.2.1 生物信号识别的相关研究
  • 1.2.2 模体发现的相关研究
  • 1.2.3 选择性剪接的相关研究
  • 1.3 论文的主要工作与创新
  • 1.4 论文的结构
  • 第二章 基因的剪接和选择性剪接
  • 2.1 引言
  • 2.2 基因简介
  • 2.3 基因的结构和表达
  • 2.3.1 基因的结构
  • 2.3.2 基因的表达
  • 2.4 剪接和选择性剪接
  • 2.4.1 RNA 剪接
  • 2.4.2 选择性剪接
  • 2.5 小结
  • 第三章 基因编码区剪接位点识别
  • 3.1 概述
  • 3.2 隐Markov 模型的基本理论
  • 3.2.1 隐Markov 模型的定义
  • 3.2.2 隐Markov 模型的基本算法
  • 3.2.3 隐Markov 模型算法的标定
  • 3.3 隐Markov 模型在基因编码区剪接位点识别中的应用
  • 3.3.1 数据准备
  • 3.3.2 识别的评价指标
  • 3.3.3 模型
  • 3.3.4 测试与讨论
  • 3.4 小结
  • 第四章 基于SVM 的非翻译区剪接位点识别
  • 4.1 概述
  • 4.2 支持向量机理论
  • 4.2.1 最优分类面
  • 4.2.2 广义最优分类面
  • 4.2.3 核函数
  • 4.3 剪接位点识别的核函数
  • 4.3.1 序列核函数
  • 4.3.2 位置权重子序列核函数
  • 4.4 实验结果
  • 4.4.1 数据准备
  • 4.4.2 参数选择
  • 4.4.3 实验结果与讨论
  • 4.5 小结
  • 第五章 信号序列中的寡核苷酸模体发现
  • 5.1 概述
  • 5.2 最大熵模体选取方法
  • 5.2.1 最大熵原理
  • 5.2.2 最大熵分布的计算
  • 5.2.3 模体的评价标准
  • 5.2.4 模体的选取策略
  • 5.2.5 最大熵模型
  • 5.3 剪接信号序列中的模体选取
  • 5.3.1 数据准备
  • 5.3.2 模体选取
  • 5.4 小结
  • 第六章 外显子跳跃剪接在物种间的保守性分析
  • 6.1 概述
  • 6.2 跳跃外显子的保守性分析
  • 6.2.1 数据收集
  • 6.2.2 特征分析
  • 6.3 小结
  • 结束语
  • 致谢
  • 参考文献
  • 作者在攻读博士期间撰写的论文
  • 相关论文文献

    • [1].基于卷积神经网络的基因剪接位点预测[J]. 盐城工学院学报(自然科学版) 2020(02)
    • [2].果蝇非经典剪接位点的生物信息学预测[J]. 生物技术通讯 2010(06)
    • [3].基于模糊支持向量机的剪接位点识别[J]. 计算机应用 2011(04)
    • [4].改进的基于支持向量机模型剪接位点的预测[J]. 宜宾学院学报 2014(12)
    • [5].一种新的真核基因剪接位点识别方法[J]. 电子学报 2011(05)
    • [6].基于统计差表与加权投票的高精度剪接位点预测[J]. 生物化学与生物物理进展 2019(05)
    • [7].利用多样性增量位置得分函数预测人类5'非翻译区剪接位点[J]. 内蒙古工业大学学报(自然科学版) 2009(04)
    • [8].基于深度卷积神经网络识别可变剪接位点[J]. 基因组学与应用生物学 2019(11)
    • [9].预测竞争性和非竞争性剪接位点对(英文)[J]. 内蒙古大学学报(自然科学版) 2008(03)
    • [10].使用估计的反应自由能预测组成性和可变剪接位点[J]. 生物物理学报 2009(01)
    • [11].Alu中剪接位点的研究[J]. 生物信息学 2008(01)
    • [12].基于神经网络预测的SNP信息的剪接点识别算法研究[J]. 计算机工程与科学 2016(05)
    • [13].一种基于概率统计特征的剪接位点识别方法[J]. 计算机工程与应用 2011(31)
    • [14].KL距离的变长马尔可夫模型识别人类剪接位点[J]. 生物物理学报 2011(08)
    • [15].人类基因组中可变和组成性剪接位点的预测[J]. 生物化学与生物物理进展 2008(10)
    • [16].基于剪接信号和调节元件序列特征的剪接位点预测方法[J]. 科学通报 2008(19)
    • [17].一种基于综合信息的剪接位点识别方法[J]. 华中科技大学学报(自然科学版) 2011(03)
    • [18].老鼠基因组盒式外显子和内含子保留型可变剪接位点预测[J]. 内蒙古大学学报(自然科学版) 2009(05)
    • [19].基于快速傅里叶变换的剪接特征提取[J]. 北京理工大学学报 2014(02)
    • [20].CD45分子选择性剪接亚型的功能和调节[J]. 解剖学研究 2014(05)
    • [21].一种新的非翻译区剪接位点识别方法[J]. 生命科学研究 2012(01)
    • [22].Kartagener综合征DNAI1、DNAH5基因研究[J]. 中国实用儿科杂志 2008(12)
    • [23].甘油磷酸二酯酶家族蛋白的分子进化[J]. 基因组学与应用生物学 2015(01)
    • [24].多尺度组分特征和位点关联特征相融合的剪接位点识别[J]. 计算机工程与应用 2014(10)
    • [25].牙本质生长不全Ⅱ型家系DSPP基因内含子2的mRNA剪接位点新的缺失突变[J]. 临床检验杂志 2009(02)

    标签:;  ;  ;  ;  ;  ;  ;  

    基因剪接的信号序列分析和相关特征研究
    下载Doc文档

    猜你喜欢