多肽结构表征及其在抗菌肽定量序效关系中的应用

多肽结构表征及其在抗菌肽定量序效关系中的应用

论文摘要

抗菌肽(antimicrobial peptide, AMP)是由20-50多个氨基酸残基组成的、具抗微生物活性的肽类的总称,现已在细菌、真菌、昆虫等中分离、纯化到上千种抗菌肽。抗菌肽具分子质量小、热稳定性好、抗菌谱广甚至抗病毒及抗肿瘤的特点,作用机理迥异于传统抗生素不易产生耐药性。因其在农业(抗病转基因植物)和药用(克服日益严重的抗生素耐药问题、开发新型抗病毒及抗肿瘤药物)等领域的广泛应用前景,抗菌肽受到国内外的极大关注。但与传统抗生素相比,多数抗菌肽的抗菌活性还不够理想因而用量较大成本较高。多肽和蛋白质的空间结构与功能由其一级结构(氨基酸序列)决定,高级结构甚难测定而一级结构简便易得。因此,用定量序效模型(Quantitative Sequence-Activity Model,QSAM)取代定量构效关系(Quantitative Structure-Activity Relationship,QSAR),有目的地改造已有抗菌肽、设计新抗菌肽分子意义重大。假定欲设计的抗菌肽长为30个氨基酸残基,则理论上共有2030种可能(不含非天然氨基酸),显然不可能全部合成再生物测定验证。抗菌肽QSAM的最终目的就是从已有的少量实验数据出发,建模预测出少量高活性(仅仅是预测)的多肽,合成后生测验证;因此QSAM模型独立预测准确性决定成败。多肽QSAM涉及三个关键环节:描述符的获取,描述符的选择,回归模型的选择。由于描述子与多肽活性间的复杂非线性关系,传统的多元线性回归、偏最小二乘回归等线性模型解析能力有限;基于结构风险最小的支持向量机(Support Vector Machine, SVM)以统计学习理论为基础,较好地解决了局部最小、过学习、非线性等问题,泛化能力优异。因此,本文采用SVM为基本建模工具。无关、冗余描述符会影响模型预测精度,描述符选择与回归模型选择常常藕联,在QSAM中逐步线性回归模型线性筛选描述符效果不佳。本实验室前期基于支持向量回归(Support Vector Regression, SVR)发展了一种非线性变量精细筛选方法-多轮末尾淘汰法,每轮依均方误差(Mean Squared Error, MSE)最小原则非线性地筛去一个最差的描述符。但当描述符个数很大时,多轮末尾淘汰法极为耗时。进一步,本实验室前期基于SVR发展了高维变量快速非线性筛选法,较好地解决了这一问题。因此,本文的重点是描述符的获取,即多肽结构的表征。本文针对传统氨基酸描述子Z-scales、ISA-ECI、MS-WHIM scores等不能表征肽序列的上下文关联(而上下文关联对肽的活性影响很大)、稳定性欠佳等缺陷,将多肽中的各氨基酸残基整体考虑,构建了两种新的多肽结构描述子GS-AA531和GS-AA531-MSCC。氨基酸残基指数数据库中每一残基有531种理化性质值(AA531),对等长(假定为n)的肽体系,每条肽用AA531串联表征可得n×531个描述子。GS-AA531是基于地统计学(Geostatistics, GS)半变异函数得到的反映序列关联特征的描述子,一个长为n的多肽,每种性质可用(n-1)个半方差表征,共有(n-1)×531个描述子。多尺度组分与关联(Multi-scale Component and Correlation, MSCC)反映序列在多个尺度上的残基组成、在多个尺度上的残基关联特征,GS-AA531-MSCC是GS-AA531与MSCC的综合。对肥大细胞脱粒抗菌肽类似物数据集(25条抗菌肽、每肽14个残基),依次采用AA531、GS-AA531和GS-AA531-MSCC表征多肽结构,每条抗菌肽获得7434、6903、7372个描述子,高维特征非线性快速筛选后获得45、15、16个描述子,多轮末尾淘汰精细筛选后最终获得20、12、11个保留描述子用于建模,SVR模型拟合(内部)决定系数R2分别为0.959、0.997、0.995,独立预测(外部)Qext2,分别为0.357、0.693、0.620。GS-AA531和GS-AA531-MSCC表征明显优于AA531表征。对CameL-s抗菌肽数据集(101条抗菌肽、每肽15个残基),依次采用GS-AA531和GS-AA531-MSCC表征多肽结构,每条抗菌肽获得7434、7910个描述子,高维特征非线性快速筛选后获得22、18个描述子,多轮末尾淘汰精细筛选后最终获得17、13个保留描述子用于建模,SVR模型拟合R2分别为0.717、0.726,独立预测Qext2,分别为0.716、0.708。GS-AA531和GS-AA531-MSCC表征的SVR模型明显优于参比文献报道模型。两个抗菌肽数据体系QSAM研究表明,GS-AA531和GS-AA531-MSCC是两种新的有效的多肽结构表征方法,且GS-AA531表征更为稳健。GS-AA531表征结合高维特征非线性快速筛选、多轮末尾淘汰精细筛选在多肽QSAM中有较大应用前景。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1 抗菌肽
  • 1.1 抗菌肽简介
  • 1.2 抗菌肽在农作物抗病基因工程中的应用及存在的问题
  • 2 定量构效关系
  • 2.1 定量构效关系研究进展
  • 2.1.1 二维定量构效关系
  • 2.1.2 三维定量构效关系
  • 2.2 肽的定量构效关系
  • 3 研究内容与创新点
  • 3.1 主要研究内容
  • 3.2 本文的主要创新点
  • 第二章 统计建模方法与模型评价
  • 1 统计建模方法
  • 1.1 偏最小二乘法
  • 1.2 遗传算法
  • 1.3 人工神经网络
  • 1.4 支持向量机回归
  • 2 模型评价
  • 2.1 模型评价统计量
  • 2.2 模型的验证
  • 2.2.1 模型内部验证
  • 2.2.2 模型外部验证
  • 第三章 肽结构的表征
  • 1 肽结构表征方法
  • 2 氨基酸理化性质的地统计学关联特征描述子
  • 3 联合特征描述子(GS-AA531-MSCC)
  • 3.1 多尺度组分
  • 3.2 多尺度关联
  • 第四章 肥大细胞脱粒抗菌肽类似物的QSAM研究
  • 1 原理与方法
  • 1.1 数据集
  • 1.2 抗菌肽的结构表征
  • 1.2.1 基于氨基酸性质531种的肽结构表征
  • 1.2.2 GS-AA531的结构表征描述子
  • 1.2.3 多特征联合的GS-AA531-MSCC的结构表征描述子
  • 1.3 特征变量的筛选
  • 1.3.1 基于SVR的高维特征非线性快速筛选
  • 1.3.2 基于SVR的非线性变量精细筛选
  • 2 研究结果
  • 2.1 高维特征非线性快速筛选结果
  • 2.2 多轮末尾淘汰精细筛选后的结果
  • 3 小结
  • 第五章 CAMEL-s抗菌肽的QSAM研究
  • 1 数据集
  • 2 基于AA-531与GS-AA531表征的QSAM研究
  • 3 基于GS-AA531-MSCC表征的QSAM研究
  • 4 小结
  • 第六章 总结与展望
  • 1 研究结论
  • 2 前景展望
  • 参考文献
  • 致谢
  • 作者简历
  • 发表论文
  • 相关论文文献

    • [1].基于深度学习的局部描述符[J]. 电子制作 2019(02)
    • [2].可组合的描述符泄露类型检查[J]. 计算机科学 2015(10)
    • [3].局部图像描述符最新研究进展[J]. 中国图象图形学报 2015(09)
    • [4].噪声不敏感的柱状图特征描述符及其在图像检索中的应用[J]. 计算机科学 2016(01)
    • [5].基于方向描述符的物体检测[J]. 光电工程 2014(03)
    • [6].不同局部邻域划分加速鲁棒特征描述符的性能分析[J]. 光学精密工程 2013(09)
    • [7].一种旋转不变特征描述符[J]. 光电子.激光 2010(06)
    • [8].定量构效关系研究中分子描述符的相关性[J]. 计算机与应用化学 2009(11)
    • [9].基于卷积神经网络的局部图像特征描述符算法[J]. 上海航天(中英文) 2020(01)
    • [10].基于形状描述符和孪生神经网络的纹理分割算法[J]. 微电子学与计算机 2020(04)
    • [11].芳烃分子描述符的修正和沸点预测建模[J]. 化工学报 2019(11)
    • [12].基于梯度信息描述符的图像匹配算法[J]. 激光与光电子学进展 2020(14)
    • [13].利用密度描述符对应的视觉跟踪算法[J]. 西安交通大学学报 2014(09)
    • [14].1553B总线远程终端描述符栈的研究与应用[J]. 空间电子技术 2014(02)
    • [15].血管性痴呆患者脑电信号的多通道线性描述符特征研究[J]. 西安交通大学学报 2011(04)
    • [16].结构上下文:一种新的物体类别描述符[J]. 计算机科学与探索 2010(04)
    • [17].颜色描述符提取算法在图像检索算法中的应用[J]. 科技资讯 2015(08)
    • [18].城镇绿地树种识别的数学描述符[J]. 遥感学报 2011(03)
    • [19].均值描述符:一种紧的三维模型多特征表示[J]. 计算机辅助设计与图形学学报 2011(10)
    • [20].三维模型匹配的谱图小波描述符[J]. 浙江大学学报(工学版) 2019(04)
    • [21].我国胡椒种质资源描述符研究与应用[J]. 中国热带农业 2017(05)
    • [22].多描述符和多尺度城镇建筑分类[J]. 遥感信息 2014(02)
    • [23].一种基于环间面积比的旋转、平移和缩放不变性描述符[J]. 模式识别与人工智能 2012(01)
    • [24].一种用于图像检索的多层语义二值描述符[J]. 计算机学报 2020(09)
    • [25].树描述符匹配算法在地形匹配中的应用[J]. 电脑与电信 2012(06)
    • [26].空间主颜色描述符的图像特征提取算法[J]. 沈阳理工大学学报 2011(04)
    • [27].一种新的局部仿射不变特征描述符[J]. 光电子.激光 2009(11)
    • [28].三元组描述符的特征匹配算法[J]. 计算机应用与软件 2019(02)
    • [29].基于颜色描述符的图像检索系统[J]. 信息系统工程 2017(03)
    • [30].基于马尔可夫过程的边缘描述符提取算法[J]. 科技视界 2015(14)

    标签:;  ;  ;  ;  ;  

    多肽结构表征及其在抗菌肽定量序效关系中的应用
    下载Doc文档

    猜你喜欢