支持向量回归机的改进及其在植物保护中的应用

支持向量回归机的改进及其在植物保护中的应用

论文摘要

植物保护研究中存在大量回归建模问题。这些问题多属非线性范畴,传统方法如多元线性回归、逐步线性回归等线性方法的应用受到限制;基于经验风险最小的非线性方法如人工神经网络,虽具有较好的非线性逼近能力,但难以克服维数灾难和局部极小问题,且小样本情况下过拟合严重,预测误报风险大。统计学习理论(Statistical Learning Theory,SLT)是在研究小样本统计估计问题过程中发展起来的新兴理论,该理论的最大贡献是提出了结构风险最小化准则并基于该准则建立了支持向量机(support vector machine,SVM)方法。支持向量机包括分类(support vector classification,SVC)和回归(support vector regression,SVR)两类,它较好地解决了非线性、小样本、过拟合以及维数灾难等问题,具全局最优、泛化推广能力强等优点,已在多个领域得到广泛应用,但用于植物保护的报道较少。本文对支持向量回归机(SVR)存在的缺陷进行改进,发展了若干新的算法,在此基础上,将其应用于植物保护中纵向数据回归(以多维时间序列分析为例)和非纵向数据回归(以农药定量构效关系建模和饲料配方优化为例)研究,主要研究内容及成果如下:(1)改进了SVR的若干缺陷。SVR的核函数选择依赖经验而缺乏理论指导;本文依均方误差(mean squared error,MSE)最小原则发展了从4种常用核函数中自动选择最优核函数的方法。在非线性体系中,以逐步线性回归等线性方法筛选自变量存在弊端;本文基于SVR发展了“多轮末尾淘汰法”,从包含全部输入描述符的SVR模型中以留一法基于MSE最小原则非线性逐次剔除对提高预测精度不利的自变量,剩下的为保留自变量。SVR的另一缺陷是不存在一个显性的表达式,可解释性差;本文基于SVR发展了“多轮末尾强制淘汰法”,可给出各保留自变量对预测精度影响程度的重要性顺序,使SVR具备了部分的解释能力。结合多因子多水平复杂配方优化问题,本文给出了SVR模型回归与偏回归显著性测验的F测验方法,进一步提升了SVR的可解释性。为在小样本前提下评估SVR模型预测可信度,本文发展了“双重留一法”,从最优函数及其保留自变量出发,规格化后再次以留一法搜索寻找最优SVR参数,并基于最优参数对样本训练后实施预测,“双重留一法”近似于独立测试。在上述改进的基础上,建立了SVR在回归分析中的应用框架。(2)基于SVR发展组合预测方法用于农药定量构效关系建模。组合模型预测精度较单一模型更高,本文构建了两个组合预测模型。第一个模型针对样本集存在的异质性,基于SVR结合K-近邻法构建组合模型,核函数寻优和描述符筛选后再依不同近邻的子模型以双重留一法实施组合预测,从行方向(样本)和列方向(描述符)进行优化,提高了预测精度。第二个模型考虑到小样本建模困难,基于学习能力强的局部核函数和推广能力强的全局核函数构建模型,即以径向基核函数与多项式核函数为子模型构成组合样本,基于SVR实施核函数寻优与描述符筛选后以双重留一法实施预测,该方法较线性组合方法精度更高。上述两种方法分别用于不同农药的定量构效关系建模,预测精度均优于文献报道结果。(3)基于SVR优化多因子多水平复杂配方。实施少量试验,优化配方并解释各因子效应意义重大。本文首先以文献报道的小菜蛾饲料配方优化数据为例,建立基于SVR优化配方、分析因子效应的方法学:从原始配方样本集出发,以SVR进行核函数寻优和自变量筛选后实施双重留一法预测,预测精度优于多元线性回归模型,表明非线性的SVR更适合用于优化配方。全组合预测后进行频次寻优,依各因子最优频次决定是否外推因子水平实施下一轮试验,以保证优化效果。此前对SVR模型的评价需以参比模型为参照,以MSE为指标进行比较;本文从F测验定义出发,构建了SVR回归的显著性测验方法。传统的二次多项式回归方程在依系数正负、大小解释各因子效应时,常出现一次项与二次项结果相互矛盾的情形,而一般的SVR模型又不具解释性;本文从偏回归分析定义出发,建立了基于SVR以F测验解释、评价各因子相对重要性的方法。基于SVR的单因子效应分析、双因子互作效应分析方法也一并给出。上例是依文献报道数据进行的方法学研究,本文进一步用一个研究实例来验证新方法的有效性:结合SVR和均匀设计,对12因子5水平井冈霉素发酵培养基配方的实际优化设计表明,仅通过20个处理,表征井冈霉素含量的OD560即由初始配方(生产厂家已优化配方)的1.72提高到2.22,且最终配方只保留了6个因子,对各因子效应分析合理,优化效果极为显著。(4)基于地统计学和SVR的多维时间序列分析。多维时间序列模型既要体现环境因子的影响,又要反映样本集的动态特征,其中相空间重构等(即定阶)是一个难点。本文将地统计学和SVR相结合,构建了多维时间序列分析的GS-SVR模型:以半变异函数分析因变量的结构性,依变程来确定因变量的拓展阶数,避免拓阶陷入局部最优;考虑到历史环境因子对当前预测因变量的效应大部分已在历史因变量中体现,故历史环境因子仅拓展1阶;定阶后以SVR实施核函数寻优与非线性自变量筛选,以主成分分析减少信息冗余并降低样本维数,最后基于SVR实施一步法独立预测。小麦赤霉病发病率和二代玉米螟危害程度两个多维时间序列实例验证表明,GS-SVR预测精度明显优于参比模型。

论文目录

  • 摘要
  • Abstract
  • 第一章 综述
  • 1 研究背景
  • 2 统计学习理论基础
  • 2.1 学习问题的表述
  • 2.2 VC维理论
  • 2.3 推广性的界
  • 2.4 结构风险最小准则
  • 3 支持向量机介绍
  • 3.1 核函数
  • 3.2 支持向量机分类
  • 3.3 支持向量机回归
  • 4 LIBSVM简介
  • 4.1 LIBSVM操作方法
  • 4.2 LIBSVM使用的数据集格式
  • 4.3 使用方法简介
  • 5 支持向量机研究进展
  • 6 本文研究内容及组织
  • 第二章 支持向量回归机的改进及其应用框架的构建
  • 1 支持向量回归机在应用中的若干问题
  • 2 支持向量回归机在回归分析中的应用框架
  • 2.1 核函数寻优
  • 2.2 多轮末尾淘汰法
  • 2.3 多轮末尾强制淘汰法
  • 2.4 双重留一法
  • 2.5 模型预测性能评价
  • 3 框架流程图
  • 第三章 基于支持向量回归机的农药定量构效关系建模
  • 1 基于SVR与K-最近邻法的组合预测用于除草剂QSAR建模
  • 1.1 原理与方法
  • 1.1.1 支持向量回归机
  • 1.1.2 核函数寻优及描述符筛选
  • 1.1.3 K-近邻法
  • 1.1.4 组合预测
  • 1.2 模型构建
  • 1.3 结果与分析
  • 1.3.1 样本数据说明
  • 1.3.2 基于SVR的核函数寻优与描述符筛选
  • 1.3.3 子模型构建与组合预测
  • 1.3.4 组合预测模型与其他模型预测性能比较
  • 1.3.5 利用预测结果对除草剂毒性作用机制的推测
  • 1.4 结论
  • 2 基于SVR局部核函数与全局核函数优化小样本QSAR建模
  • 2.1 原理与方法
  • 2.1.1 支持向量回归机
  • 2.1.2 局部核函数与全局核函数
  • 2.1.3 混合核函数和组合预测
  • 2.2 模型构建
  • 2.2.1 局部核函数与全局核函数的选择
  • 2.2.2 核函数寻优与描述符筛选
  • 2.2.3 组合预测
  • 2.3 结果与分析
  • 2.3.1 黄烷酮类化合物的定量构效关系建模
  • 2.3.2 2-(4-取代-苯基)-3-异噻唑啉酮类化合物的定量构效关系建模
  • 2.4 结论
  • 第四章 基于支持向量回归机的配方优化
  • 1 基于支持向量回归机的小菜蛾饲料配方优化
  • 1.1 原理与方法
  • 1.1.1 核函数寻优与描述符筛选
  • 1.1.2 模型构建
  • 1.1.3 模型预测性能评价
  • 1.1.4 配方因子效应分析
  • 1.1.5 小菜蛾饲料配方数据集
  • 1.2 结果与分析
  • 1.2.1 核函数寻优与描述符筛选
  • 1.2.2 预测模型评估
  • 1.2.3 影响小菜蛾化蛹率的单因子效应分析
  • 1.2.4 频次分析和统计寻优
  • 1.2.5 双因子效应对小菜蛾化蛹率的影响
  • 1.3 小结
  • 1.4 结论
  • 2 基于支持向量回归机与均匀设计优化井岗霉素发酵配方
  • 2.1 试验材料
  • 2.1.1 供试菌株
  • 2.1.2 培养基及培养条件
  • 2.2 原理与方法
  • 2.2.1 核函数寻优与描述符筛选
  • 2.2.2 双重留一法预测
  • 2.2.3 均匀设计
  • 2.2.4 模型评估
  • 2.2.5 基于均匀设计与支持向量机(UD-SVR)的配方优化流程
  • 2.3 结果与分析
  • 2.3.1 基准方案的确定
  • 2.3.2 第一轮均匀设计
  • 2.3.3 第一轮预测与频次统计寻优
  • 2.3.4 第二轮均匀设计
  • 2.3.5 单因子效应分析
  • 2.3.6 双因子效应分析
  • 2.4 小结
  • 2.5 结论
  • 第五章 基于支持向量回归机与地统计学的多维时间序列分析
  • 1 原理与方法
  • 1.1 原理简介
  • 1.1.1 地统计学
  • 1.1.2 支持向量回归机
  • 1.1.3 核函数寻优与描述符筛选
  • 1.2 基于GS-SVR的多维时间序列分析模型构建
  • 1.2.1 数据平稳化处理
  • 1.2.2 基于地统计学的定阶过程
  • 1.2.3 非线性变量筛选
  • 1.2.4 基于主成分分析(PCA)的保留变量处理
  • 1.2.5 核函数选取
  • 1.2.6 预测评价指标
  • 1.2.7 GS-SVR多维时间序列分析预测模型流程图
  • 2 基于GS-SVR的小麦赤霉病病穗率预测
  • 2.1 小麦赤霉病发生预测数据集
  • 2.2 小麦赤霉病发病率预测模型构建
  • 2.2.1 数据平稳化处理
  • 2.2.2 模型定阶和训练集构成
  • 2.2.3 核函数寻优与非线性描述符筛选
  • 2.2.4 保留描述符主成分分析
  • 2.3 结果和分析
  • 3 基于GS-SVR的二代玉米螟危害程度预测
  • 3.1 二代玉米螟发生预测数据集
  • 3.2 二代玉米二化螟为害程度预测模型构建
  • 3.2.1 数据平稳化处理
  • 3.2.2 模型定阶和训练集构成
  • 3.2.3 核函数寻优与非线性描述符筛选
  • 3.2.4 保留描述符主成分分析
  • 3.3 结果和分析
  • 4 结论
  • 第六章 主要结论与创新点
  • 1 主要结论
  • 2 创新点
  • 3 今后研究方向
  • 参考文献
  • 致谢
  • 个人简历
  • 相关论文文献

    • [1].基于组合核函数的高校经济困难生分类[J]. 安徽工业大学学报(自然科学版) 2020(01)
    • [2].核函数在不规则人脸识别中的应用[J]. 计算机与数字工程 2019(06)
    • [3].图核函数研究现状与进展[J]. 安徽大学学报(自然科学版) 2017(01)
    • [4].浅海环境下的声学灵敏度核函数研究[J]. 南京大学学报(自然科学) 2017(01)
    • [5].组合核函数优化的稀疏最小二乘支持向量机[J]. 太赫兹科学与电子信息学报 2017(03)
    • [6].增量支持向量机核函数的优化[J]. 计算机系统应用 2017(08)
    • [7].对支持向量机混合核函数方法的再评估[J]. 统计研究 2015(02)
    • [8].混合核函数研究及其在数据建模领域应用进展[J]. 计算机仿真 2015(07)
    • [9].基于混合核函数支持向量机的风电机组发电机温度预警方法[J]. 华电技术 2020(05)
    • [10].装备费用预测中的混合核函数支持向量机[J]. 数学的实践与认识 2014(16)
    • [11].基于混合核函数支持向量机的回归模型[J]. 合肥学院学报(自然科学版) 2013(02)
    • [12].基于组合核函数支持向量机的人脸识别[J]. 重庆理工大学学报(自然科学) 2013(06)
    • [13].基于混合核函数的支持向量机在人脸识别中的应用研究[J]. 电子设计工程 2013(11)
    • [14].基于分段核函数的支持向量机及其应用[J]. 现代电子技术 2013(16)
    • [15].基于最优核函数支持向量机的费用预测[J]. 控制工程 2012(S1)
    • [16].基于混合核函数的支持向量机[J]. 重庆理工大学学报(自然科学) 2011(10)
    • [17].一种新的自适应组合核函数[J]. 武汉理工大学学报 2009(03)
    • [18].一种混合核函数的支持向量机[J]. 微型机与应用 2017(11)
    • [19].组合核函数支持向量机在个人信用评估中的应用[J]. 黑龙江科技信息 2013(26)
    • [20].基于正交多项式核函数方法[J]. 计算机技术与发展 2012(05)
    • [21].复高斯小波核函数的支持向量机研究[J]. 计算机应用研究 2012(09)
    • [22].基于多核函数的模糊支持向量机学习算法[J]. 重庆师范大学学报(自然科学版) 2012(06)
    • [23].基于混合核函数支持向量机和遗传算法的人脸识别[J]. 计算机应用与软件 2011(04)
    • [24].基于混合核函数支持向量机的齿轮诊断方法研究[J]. 机械传动 2011(09)
    • [25].混合核函数支持向量机在系统建模中的应用[J]. 华东交通大学学报 2010(02)
    • [26].基于极分解下的混合核函数及改进[J]. 模式识别与人工智能 2009(03)
    • [27].基于图像核函数的图像目标识别技术研究[J]. 信号处理 2009(12)
    • [28].超核函数支持向量机[J]. 计算机科学 2008(12)
    • [29].基于加权核函数的雷达目标一维距离像识别[J]. 仪器仪表学报 2008(11)
    • [30].不同核函数对光滑粒子流体动力学计算结果的影响分析[J]. 数学的实践与认识 2020(11)

    标签:;  ;  ;  ;  ;  

    支持向量回归机的改进及其在植物保护中的应用
    下载Doc文档

    猜你喜欢