基于伪氨基酸成分的蛋白质序列分类研究

基于伪氨基酸成分的蛋白质序列分类研究

论文摘要

理解大量生物学数据所包含的生物学意义已成为后基因组时代极其重要的课题,生物信息学的作用将日益重要。面对海量的蛋白质序列数据,引入智能算法对其进行处理,这对研究蛋白质结构和功能具有重要意义。由于蛋白质结构和功能具有高度的复杂性。采用常用实验的方法对有些蛋白质(如很难结晶或巨分子蛋白)很难得到其三维结构,且实验方法成本高,耗时间。通过计算机进行模拟,采用智能算法对蛋白质结构和功能进行预测,近年来受到研究者们越来越多的关注。本文提出了一种新的蛋白质序列可视化方法,并在标准数据集上与其他方法进行了比较并验证了其有效性。本文的创新之处概括如下:(1)本文提出一种蛋白质序列新的可视化方法——距离矩阵图。蛋白质序列的氨基酸的疏水性(hydrophobicity)值、亲水性(hydrophilicity)值、侧链分子量(side-chain mass)值作为此氨基酸的空间坐标,通过空间坐标计算序列中各个氨基酸之间的距离,将距离矩阵视作一种纹理图像,即将每一个矩阵元素对应为一个图像像素,每个元素值被映像为对应像素的灰度值,得到蛋白质距离矩阵图,此图能反映蛋白质序列的总体特征。(2)构造出一种新的伪氨基酸成分。将距离矩阵图的几何矩作为伪氨基酸成分,此伪氨基酸成分能很好的反映蛋白质序列特征。(3)基于所提出的蛋白质距离矩阵图设计了多个蛋白质序列分类预测器(HPVs(人类乳头瘤病毒)风险类型、蛋白质二级结构类型预测、GPCR类型预测),这些预测器与现有预测器相比,预测成功率都有提高。(4)基于氨基酸数字编码模型,针对氨基酸成分法的不足,构造出一种十进制数字编码模型,通过对核受体(Nuclear receptor)分类显示,其结果高于氨基酸成分法。

论文目录

  • 摘要
  • Abstract
  • 1 绪论
  • 1.1 引言
  • 1.2 研究背景
  • 1.3 基于蛋白质序列分类的国内外研究进展
  • 1.4 论文的工作内容及创新点
  • 2 蛋白质序列的特征提取和分类算法
  • 2.1 引言
  • 2.2 蛋白质序列特征提取算法
  • 2.2.1 基于氨基酸序列的特征提取算法
  • 2.2.2 基于氨基酸物理化学性质的特征提取算法
  • 2.2.3 基于数据库信息的特征提取算法
  • 2.2.4 基于元胞自动机图的特征提取
  • 2.2.5 蛋白质序列特征提取算法中存在的问题
  • 2.3 蛋白质分类算法
  • 2.3.1 基于统计的分类方法
  • 2.3.2 基于机器学习的分类算法
  • 2.4 本章小结
  • 3 基于距离矩阵灰度图的蛋白质二级结构类型预测
  • 3.1 引言
  • 3.2 可视化方法
  • 3.3 几何矩及其特征值
  • 3.4 预测方法及结果
  • 3.5 变形的距离矩阵可视化方法
  • 3.6 几何矩及分类器设计
  • 3.7 本章小结
  • 4 基于新的距离矩阵图的HPV 风险类型预测
  • 4.1 引言
  • 4.2 分类器设计与预测结果
  • 4.3 本章小结
  • 5 基于新距离矩阵的GPCR 功能类型预测
  • 5.1 引言
  • 5.2 数据与可视化方法
  • 5.2.1 数据
  • 5.3 几何矩及分类器设计
  • 5.4 预测结果与讨论
  • 5.5 本章小结
  • 6 基于十进制百分比的核受体子家族分类预测
  • 6.1 引言
  • 6.2 基于氨基酸二进制数字编码模型的核受体预测方法与结果
  • 6.3 本章小结
  • 7 结论与展望
  • 7.1 结论
  • 7.2 展望
  • 致谢
  • 参考文献
  • 攻读硕士学位期间参加的项目和所发表的论文
  • 相关论文文献

    标签:;  ;  ;  ;  ;  ;  

    基于伪氨基酸成分的蛋白质序列分类研究
    下载Doc文档

    猜你喜欢