基于蛋白质序列和生物医学文献的蛋白质功能挖掘

基于蛋白质序列和生物医学文献的蛋白质功能挖掘

论文摘要

运用计算手段对蛋白质功能进行分类预测是当前生物信息学的研究热点之一,本文针对包含蛋白质功能信息的两大载体:蛋白质序列和生物医学文献,运用机器学习和自然语言处理技术进行挖掘分析。在蛋白质序列分析方面,采用了经典氨基酸组成、基于氨基酸组成的氨基酸序列物理化学组成与分布法和蛋白质功能域组成法三种不同的蛋白质序列描述方法。应用最近邻算法、支持向量机、极大似然估计以及期望最大化算法等机器学习算法,我们分别尝试研究蛋白质四级结构分类、DNA/RNA结合蛋白质预测以及蛋白质功能分类问题,获得了较满意的分类预测准确率。蛋白质序列分析的结果显示蛋白质功能域组成是蛋白质序列信息非常高效的描述符,表明功能域在蛋白质功能行使中发挥着重要作用。据此,我们在MEDLINE的摘要数据库中运用自然语言处理技术挖掘关于蛋白质功能域相互作用的信息,加上从其它实验室得到的数据,一共搜集到175条功能域与功能域相互作用的信息和355条功能域与其它生物分子相互作用的信息。在此基础上,我们整合了Pfam、Swiss-Prot、InterPro、GO、DIP、KEGG等其它数据库与功能域相关的信息,构建了蛋白质功能域相互作用数据库(Database of Domain Interactions and Bindings,DDIB)。用户可以通过地址http://www.ddib.org访问查询。

论文目录

  • 摘要
  • Abstract
  • 第一章 引言
  • 第二章 从序列分析出发研究蛋白质功能概况
  • 2.1 预测蛋白质功能的序列特征表述方法
  • 2.1.1 基于氨基酸组成及其相关信息的方法
  • 2.1.2 蛋白质功能域组成法
  • 2.1.3 基于基因组上下文的方法
  • 2.2 蛋白质序列分析中常用的机器学习算法
  • 2.2.1 支持向量机
  • 2.2.2 最近邻算法
  • 2.2.3 极大似然估计与期望最大化算法
  • 2.2.4 其它
  • 第三章 生物医学文献挖掘概况
  • 3.1 生物医学文献数据库MEDLINE
  • 3.2 自然语言处理
  • 3.3 生物自然语言处理
  • 第四章 从蛋白质功能域组成对蛋白质四级结构的分类预测
  • 4.1 引言
  • 4.2 材料与方法
  • 4.2.1 数据集合
  • 4.2.2 功能域组成特征向量
  • 4.2.3 最近邻算法
  • 4.3 结果与讨论
  • 4.4 结论
  • 第五章 运用支持向量机从蛋白质序列预测 rRNA、RNA和 DNA 结合蛋白质
  • 5.1 引言
  • 5.2 材料与方法
  • 5.2.1 数据集合
  • 5.2.2 支持向量机
  • 5.2.3 特征向量
  • 5.2.4 准确率评估
  • 5.3 结果
  • 5.4 讨论
  • 第六章 基于功能域组成的蛋白质功能分类预测
  • 6.1 引言
  • 6.2 材料与方法
  • 6.2.1 数据集合与功能分类
  • 6.2.2 “简单”方法
  • 6.2.3 极大似然估计方法
  • 6.3 结果
  • 6.4 讨论
  • 第七章 蛋白质功能域相互作用信息的文献挖掘及相关数据库构建
  • 7.1 引言
  • 7.2 材料与方法
  • 7.2.1 功能域相互作用的文本挖掘
  • 7.2.2 预测功能域-功能域相互作用
  • 7.2.3 DDIB数据库的构建
  • 7.3 DDIB数据库描述
  • 7.4 DDIB数据库的应用
  • 第八章 SARS 冠状病毒spike 蛋白质中hAPN 受体结合位点的预测
  • 8.1 引言
  • 8.2 材料与方法
  • 8.2.1 蛋白质-蛋白质相互作用
  • 8.2.2 分子建模
  • 8.2.3 CD13三维模型的生成
  • 8.2.4 S蛋白质(D757-R761)对CD13(D438-P814)的相互作用模拟
  • 8.3 结果与讨论
  • CoV蛋白质与CD13 可能的相互作用区域'>8.3.1 SARSCoV蛋白质与CD13 可能的相互作用区域
  • CoV 的S 蛋白质(D757-R761)结合的三维模拟'>8.3.2 CD13(D438-P814)与SARSCoV 的S 蛋白质(D757-R761)结合的三维模拟
  • 8.4 结论
  • 第九章 结论与展望
  • 9.1 本文研究结论
  • 9.2 课题研究展望
  • 参考文献
  • 附录
  • 附录1. 四级结构预测蛋白质集合
  • 1.1 非冗余训练集合中包含的蛋白质
  • 1.2 独立测试集合中包含的蛋白质
  • 附录2. 核酸结合蛋白质集合
  • 2.1 rRNA结合蛋白质
  • 2.2 RNA结合蛋白质
  • 2.3 DNA结合蛋白质
  • 攻读博士学位期间发表及完成的论文目录
  • 致谢
  • 相关论文文献

    • [1].北京大学报道单氨基酸精度绘制蛋白质功能图谱新方法[J]. 食品与生物技术学报 2020(03)
    • [2].加权优先级网络在蛋白质功能预测中的应用研究[J]. 小型微型计算机系统 2017(09)
    • [3].蛋白质功能预测方法研究进展[J]. 智能计算机与应用 2016(04)
    • [4].基于多示例多标记迁移学习的蛋白质功能预测[J]. 中国科学:信息科学 2017(11)
    • [5].评价蛋白质功能性质的指标及应用进展[J]. 黑龙江畜牧兽医 2015(23)
    • [6].面向蛋白质功能位点识别的机器学习平台构建[J]. 生物信息学 2010(01)
    • [7].茶多酚与蛋白质的相互作用对蛋白质功能特性的影响研究进展[J]. 食品工业科技 2008(06)
    • [8].蛋白质功能预测方法概述[J]. 生物信息学 2013(01)
    • [9].基于新型机器学习方法的蛋白质功能预测与分析[J]. 信息通信 2012(05)
    • [10].基于K近邻的蛋白质功能的预测方法[J]. 生物医学工程研究 2009(02)
    • [11].基于多网络数据协同矩阵分解预测蛋白质功能[J]. 计算机研究与发展 2017(12)
    • [12].基于图聚类的蛋白质功能预测方法[J]. 福建师范大学学报(自然科学版) 2015(03)
    • [13].蛋白质功能预测的蚁群优化算法[J]. 广西师范大学学报(自然科学版) 2011(03)
    • [14].不同改性方法对蛋白质功能性质的影响研究[J]. 食品工业 2015(12)
    • [15].基于双重索引矩阵的蛋白质功能预测[J]. 计算机应用 2015(06)
    • [16].基于双加权投票的蛋白质功能预测[J]. 计算机科学 2019(04)
    • [17].基于0-1矩阵分解的蛋白质功能预测[J]. 中国科学:信息科学 2019(09)
    • [18].结合蛋白质互作与功能类的可分性预测蛋白质功能[J]. 中国生物医学工程学报 2009(02)
    • [19].基于正负样例的蛋白质功能预测[J]. 计算机研究与发展 2016(08)
    • [20].基于随机游走的蛋白质功能预测算法设计与实现[J]. 黑龙江大学工程学报 2015(03)
    • [21].基于布尔矩阵分解的蛋白质功能预测框架[J]. 计算机研究与发展 2019(05)
    • [22].基于贝叶斯网络和相互作用可信度的蛋白质功能预测方法[J]. 激光生物学报 2009(03)
    • [23].通过构建蛋白质结构域功能模版库做基于氨基酸序列的蛋白质功能位点预测(英文)[J]. 复旦学报(自然科学版) 2013(06)
    • [24].我国科学家开发了蛋白质瞬时原位激活新技术[J]. 石河子科技 2019(03)
    • [25].基于关键功能模块挖掘的蛋白质功能预测[J]. 自动化学报 2018(01)
    • [26].基于模糊积分多源数据融合的蛋白质功能预测[J]. 南京大学学报(自然科学版) 2012(01)
    • [27].冷榨双低菜子粕中蛋白质功能性质的研究[J]. 湖北农业科学 2016(08)
    • [28].食品中蛋白质的功能(七) 食品蛋白质功能特性的影响因素[J]. 肉类研究 2009(10)
    • [29].基于MIMLNN的玉米蛋白质功能预测[J]. 现代计算机(专业版) 2018(25)
    • [30].改进LPU用于蛋白质功能预测[J]. 计算机工程与科学 2011(12)

    标签:;  ;  ;  ;  ;  ;  

    基于蛋白质序列和生物医学文献的蛋白质功能挖掘
    下载Doc文档

    猜你喜欢