真核生物中翻译起始位点与剪接位点的识别

真核生物中翻译起始位点与剪接位点的识别

论文摘要

本文以数理算法为基础,通过机器学习的方法来识别基因的功能位点。对序列统计分析的结果表明:尽管蛋白质的翻译起始和内含子的剪切过程有着复杂的蛋白质相互作用的参与,并且受着高级结构等诸多因素的影响,但在其中仍然存在基本的规律,这就是在一级序列中这些功能位点有着相对比较保守的特征。首先研究了脊椎动物基因的翻译起始位点(translation initiation site,TIS)。在真核生物中,翻译并不都是起始于第一个AUG密码子,还取决于AUG前后序列的信息。有文献报道接近40%的脊椎动物都包含有上游AUG,这就使翻译起始位点的预测变得很重要。本文结合位点倾向矩阵(position propensity matrix,PPM)和开放阅读框架(open reading frame,ORF)的长度分布特征建立了一个线性分类器,此分类器能很好地把翻译起始位点和存在于5’UTR里的所谓上游AUG区分开来,同时也被用于从全长mRNA中识别出翻译起始位点。对于脊椎动物的全长mRNA序列,运用核糖体扫描模型结合我们的分类器识别其翻译起始位点得到了很高的精度,总体预测率为97.8%。在人类全长mRNA上实验也得到了令人满意的结果。另外,为了寻找优秀的算法识别人类基因的剪接位点(splice junction site),利用离散增量和位点倾向矩阵构成的六维向量来表示序列,用支持向量机(support vector machine,SVM)在向量空间中寻找最优超平面将真实的剪接位点和虚假的剪接位点进行分类。计算结果表明,利用此算法预测人类的剪接位点有较高的预测能力。与其他的一些算法相比,表现出参数少、精度高等优点。在数据集N269中检验,对于供体位点,真实位点识别率为96.7%,虚假位点的识别率为93.4%;对于受体位点,真实位点识别率为94.3%,虚假位点的识别率为92.9%。

论文目录

  • 摘要
  • ABSTRACT
  • 一 引言
  • (一) 翻译起始位点研究背景
  • (二) 真核基因转录后处理—剪接
  • 二 数据库描述
  • (一) 翻译起始位点数据库
  • (二) 剪接位点数据库
  • 三 算法原理与评价
  • (一) 位点倾向矩阵
  • (二) 离散量与离散增量
  • (三) 支持向量机
  • (四) 算法评价指标
  • 四 核糖体扫描模型识别翻译起始位点
  • (一) 核糖体扫描模型
  • (二) 结果和讨论
  • 1 对脊椎动物数据库的预测结果及比较
  • 2 在人类mRNA数据库上的预测结果
  • 3 讨论
  • 五 低维输入空间的支持向量机识别剪接位点
  • (一) 基于离散量和位点倾向矩阵的支持向量机识别方法
  • (二) 结果和讨论
  • 1 结果
  • 2 讨论
  • 参考文献
  • 致谢
  • 攻读硕士学位期间发表的学术论文
  • 相关论文文献

    • [1].利用蛋白质同源性搜索检验细菌预测基因的起始位点[J]. 食品与生物技术学报 2012(08)
    • [2].我国科学家揭示全新DNA复制起始位点调控机制[J]. 石河子科技 2020(02)
    • [3].DNA复制起始位点的识别机制研究[J]. 生命的化学 2020(05)
    • [4].原核基因翻译起始位点预测的新方法(英文)[J]. 生物化学与生物物理进展 2008(11)
    • [5].小麦储藏过程中温度对劣变起始位点及生理酶活性的影响[J]. 食品与机械 2015(02)
    • [6].猪繁殖与呼吸综合征病毒核衣壳蛋白翻译起始位点的研究[J]. 畜牧兽医学报 2010(07)
    • [7].目标起始密码子多态性(SCoT):一种基于翻译起始位点的目的基因标记新技术[J]. 分子植物育种 2009(03)
    • [8].外刊[J]. 华东科技 2015(05)
    • [9].人乳头状瘤病毒复制机制的研究进展[J]. 生命科学 2010(08)

    标签:;  ;  ;  ;  ;  ;  

    真核生物中翻译起始位点与剪接位点的识别
    下载Doc文档

    猜你喜欢