基于偏最小二乘和支持向量机的生物分子的定量结构—活性/性质关系研究

基于偏最小二乘和支持向量机的生物分子的定量结构—活性/性质关系研究

论文摘要

定量结构-性质/活性关系(定量构效关系, Quantitative Structure-Property/Activity Relationship, QSPR/QSAR)是化学信息学研究中的一个重要应用分支。该方法将理论计算方法与各种统计分析工具结合起来,研究化合物的结构与其生物活性和各种物理化学性质之间的定量函数关系。此方法不仅可以建立预测化合物的各种理化性质以及生物活性的理论模型,而且可以发现和确定对化合物的各种性质起决定作用的结构因素,即用一个数学模型,从分子水平上了解物质微观结构同宏观性质/活性之间的关系,该研究方法的研究领域涉及药物设计、分析化学、环境化学、食品科学和材料科学等诸多学科。化合物结构与其性质/活质之间存在着很复杂的关系,不仅有线性关系,而且还存在非线性关系。不同的问题需要用不同的方法来解决。偏最小二乘回归分析(Partial least squares regression, PLS)常用来建立QSPR/QSAR研究的线性模型,此方法可以解决因建模时使用大量的分子描述符而带来的变量间多重共线性问题。对于简单的非线性问题,通常用支持向量机(Support Vector Machine, SVM)方法建立高效、稳定的非线性模型。因此,本论文的研究重点就是基于PLS和SVM两种算法分别建立QSPR/QSAR研究的线性模型和非线性模型。本论文共包括四章节内容,每一个章节的具体内容如下所示:第一章:简述了定量结构性质/活性关系的基本原理和研究现状,详细描述了QSPR/QSAR的研究步骤,并且总结和展望了这一研究领域的最新进展及应用。最后,概括介绍了SVM和PLS算法的基本原理。第二章:卟啉类端粒酶抑制剂的QSAR研究。以通过卟啉类衍生物对端粒酶的抑制百分率计算得出的活性因子(D)为研究对象,使用PLS和SVM方法分别建立了QSAR模型用以评价32个卟啉类衍生物的活性因子。在建模时分别采用主成分分析和逐步回归算法对计算所得分子结构参数进行选择,根据选择所得参数作为输入变量,分别建立不同输入参数的预测模型。其中以逐步回归法挑选的参数为输入变量建立的SVM模型的预测性能最好。模型的相关系数R2和均方根误差RMSE分别为0.9170和0.1663。对所得最佳模型的考察发现:影响卟啉类端粒酶抑制剂活性因子(D)的主要参数是静电描述符(MATS6e, Mor08e,Mor21e, R1e),从而可以得出影响卟啉类端粒酶抑制剂与G4-DNA相互作用的主要因素是静电作用。第三章:卟啉化合物的最大吸收波长的QSPR研究。采用逐步回归方法筛选出包含6个分子描述符(ZM2V, BELe2, BELe8, BELp3, JGI10, P2m)的最优参数组合,然后用这些描述符作为输入变量,基于两种机器算法:PLS和SVM对34种卟啉化合物的最大吸收波长建立预测模型。预测结果表明,SVM模型的结果优于PLS模型的结果,两种方法的相关系数R2分别为0. 9293和0.8932。对两种模型的考察发现:影响卟啉化合物的最大吸收波长的因素主要有:电子效应、分子的组成,空间因素,极性等。第四章:金属配合物与DNA相互作用的QSAR研究。分别用偏最小二乘法(PLS)和支持向量机(SVM)方法建立了60种金属配合物与其结构特征之间的定量结构活质相关模型,对其与DNA相互作用的键合常数K作了预测。采用主成分分析方法来筛选最佳描述符组合,初次量化的分子结构参数有20种,经过筛选以其中的前三个主成分(PCs累计贡献率为90.79%)作为输入描述符,分别建立了线性PLS模型和非线性SVM模型,对两个模型的预测能力作了比较。结果表明,SVM模型的预测能力较PLS模型更为准确,模型的相关系数和绝对平均相对偏差(AARD)分别为0.8926和3.24%。

论文目录

  • 中文摘要
  • Abstract
  • 缩略词对照表
  • 第一章 定量结构- 性质/活性关系基本原理及研究进展
  • 1.1 定量结构-性质/活性关系的概述
  • 1.2 QSPR/QSAR的研究进展
  • 1.3 QSPR/QSAR研究方法的基本步骤
  • 1.3.2 QSAR/QSPR研究中结构描述符的计算
  • 1.3.3 描述符的选择
  • 1.3.4 预测模型的建立
  • 1.3.5 QSAR/QSPR研究中模型的评价
  • 1.4 QSAR/QSPR研究方法的主要应用
  • 1.5 支持向量机和偏最小二乘方法的原理
  • 1.5.1 支持向量机(SVM) 方法
  • 1.5.2 偏最小二乘(PLS) 方法
  • 参考文献
  • 第二部分 卟啉类端粒酶抑制剂的QSAR 研究
  • 2.1 研究背景
  • 2.2 数据和方法
  • 2.2.1 数据
  • 2.2.2 描述符的产生
  • 2.2.3 描述符的选择
  • 2.2.4 模型的建立
  • 2.2.5 模型的检验
  • 2.3 结果和讨论
  • 2.3.1 主成分分析(PCA)
  • 2.3.2 PLS 方法的结果
  • 2.3.3 SVM 方法的结果
  • 2.3.4 不同方法结果的讨论
  • 2.3.4 描述符的讨论
  • 2.4 结论
  • 参考文献
  • 第三部分 卟啉化合物最大吸收波长的QSPR 研究
  • 3.1 研究背景
  • 3.2 数据和方法
  • 3.2.1 数据
  • 3.2.2 分子描述符的产生
  • 3.2.3 描述符的选择
  • 3.2.4 模型的建立
  • 3.2.5 模型的检验
  • 3.3 结果和讨论
  • 3.3.1 主成分分析(PCA)
  • 3.3.2 PLS方法的结果
  • 3.3.4 不同方法结果的讨论
  • 3.3.5 描述符的讨论
  • 3.4 结论
  • 参考文献
  • 第四部分 金属配合物与DNA 相互作用的QSAR 研究
  • 4.1 研究背景
  • 4.2 数据和方法
  • 4.2.1 数据
  • 4.2.2 分子结构描述符
  • 4.2.3 模型的建立
  • 4.2.4 模型的检验
  • 4.3 结果和讨论
  • 4.3.1 主成分分析(PCA)
  • 4.3.2 PLS 方法的结果
  • 4.3.3 SVM 方法的结果
  • 4.3.4 不同方法结果的讨论
  • 4.4 结论
  • 参考文献
  • 硕士期间已发表或待发表的论文
  • 致谢
  • 相关论文文献

    • [1].环境内分泌干扰物的定量结构-活性相关研究[J]. 化学进展 2009(Z1)
    • [2].定量结构活性预测技术在化学品安全管理中的应用[J]. 检验检疫学刊 2009(06)
    • [3].汾酒香味成分分析及定量结构-色谱保留相关研究[J]. 食品工业科技 2012(06)
    • [4].定量结构-活性/性质相关研究及其在食品领域的应用[J]. 中国食品添加剂 2011(04)
    • [5].基于神经网络的玫瑰花挥发性有机物的定量结构色谱保留相关[J]. 许昌学院学报 2016(05)
    • [6].酯类液体粘度的定量结构—性质相关性研究[J]. 计算机与应用化学 2013(02)
    • [7].定量结构―活性相关性在药物空间结构研究中的应用[J]. 广州化学 2012(03)
    • [8].分子电性距离矢量用于酯的定量结构-色谱保留相关研究[J]. 化学分析计量 2008(01)
    • [9].罗望子挥发性组分的定量结构——色谱保留值关系研究[J]. 食品工业科技 2008(04)
    • [10].人工神经网络用于有机磷酸酯类化合物的定量结构色谱保留相关研究[J]. 分析科学学报 2013(04)
    • [11].定量结构-色谱保留关系在分析化学中的研究进展[J]. 化学世界 2011(11)
    • [12].定量结构-性质/活性关系在分析和环境化学中的进展及应用[J]. 分析科学学报 2011(02)
    • [13].全缘叶绿绒蒿挥发性组分定量结构-色谱保留关系研究[J]. 天然产物研究与开发 2011(06)
    • [14].启发式方法研究有机化合物在全二维气相色谱中的定量结构-保留关系[J]. 色谱 2010(09)
    • [15].基于神经网络的定量结构-性质相关性研究预测有机物燃烧特性[J]. 化工进展 2008(03)
    • [16].定量结构-色谱保留相关联方法分析食用植物油中脂肪酸组成[J]. 食品科学 2014(04)
    • [17].离子液体的定量结构-性质/活性研究[J]. 化学进展 2012(07)
    • [18].有机污染物在碳纳米管吸附的定量结构-性质关系[J]. 物理化学学报 2014(09)
    • [19].多氯代二苯并呋喃定量结构性质关系的研究[J]. 计算机与应用化学 2010(02)
    • [20].有机磷酸酯类化合物定量结构-色谱保留关系及稳健性分析[J]. 华中农业大学学报 2010(02)
    • [21].有机磷酸酯类化合物定量结构活性相关性的研究[J]. 计算机与应用化学 2009(11)
    • [22].香水百合头香成分的定量结构-色谱保留关系研究[J]. 分析测试学报 2008(11)
    • [23].多氯联苯定量结构-性质的关系[J]. 计算机与应用化学 2010(04)
    • [24].鱼腥草挥发性成分的定量结构与保留指数相关性研究[J]. 食品科学 2010(22)
    • [25].单烯烃分子结构有限元方法及定量结构-沸点相关性研究[J]. 化学学报 2008(20)
    • [26].基因表达式编程在含氧有机化合物定量结构-保留关系中的应用[J]. 辽宁化工 2016(04)
    • [27].人工神经网络在含氧有机化合物定量结构-保留关系中的应用[J]. 辽宁化工 2011(03)
    • [28].预测氯代芳烃对戈卑鱼毒性的理论研究[J]. 分子科学学报 2017(02)
    • [29].基于定量结构-性质相关性的烃类物质爆炸下限预测[J]. 爆炸与冲击 2010(03)
    • [30].基于分子电性距离矢量预测有机磷杀虫剂的小鼠毒性[J]. 桂林理工大学学报 2017(02)

    标签:;  ;  ;  ;  ;  ;  

    基于偏最小二乘和支持向量机的生物分子的定量结构—活性/性质关系研究
    下载Doc文档

    猜你喜欢