近红外光谱分析模型优化和模型转移算法研究

近红外光谱分析模型优化和模型转移算法研究

论文摘要

近红外(NIR)光谱由于信号强度低、谱峰重叠严重等特点,故需要用化学计量学手段建立数学模型来提取有化学意义的信息。为了提高模型的预测效果,NIR光谱模型需要优化;为了提高NIR光谱模型的通用性,必须实现模型转移。NIR光谱模型的优化包括光谱预处理以及变量选择等手段。在光谱预处理方面,本文研究了基于分数阶Savitzky-Golay求导的光谱预处理方法。分数阶Savitzky-Golay求导的光谱预处理方法是对整数阶Savitzky-Golay求导的推广,而整数阶Savitzky-Golay求导则是分数阶Savitzky-Golay求导在阶次为整数条件下的特例。和整数阶Savitzky-Golay求导类似,分数阶Savitzky-Golay求导通过构造奇数点的窗口,先拟合出待求导的多项式的系数。然后,根据Riemann-Liouville对分数阶导数的定义,以及之前拟合的多项式系数,通过对原光谱线性组合,得出分数阶求导的结果。分数阶Savitzky-Golay求导不需要使用繁琐的数学公式,只需构造出对角带状矩阵,将其右乘光谱矩阵即可实现求导计算。我们通过柴油数据,小麦数据、玉米数据对该方法实行验证。结果发现,在固定窗口以及多项式次数的情况下,分数阶导数能获得比整数阶导数更详细的信息,且其计结果的交互检验均方根误差(RMSECV)以及预测均方根误差(RMSEP)均小于整数阶求导。当预测结果为样品粘度、密度、硬度等非组分含量信息时,其计算结果明显优于整数阶求导。在变量选择方面,本文研究了基于变量稳定性的竞争性自适应加权抽样法(SCARS)。该方法通过构造若干个变量集合。对每个集合中的变量,该方法通过Monte Carlo方法计算变量的稳定性,以此作为变量重要性的指标。之后,用基于指数函数的强制删除法以及竞争性自适应加权抽样法(ARS)对变量进行删除。对剩下的变量集合重复上述过程进行变量选择(重新计算稳定性,强制删除,ARS)。最后对每个集合的结果进行交互检验,选择RMSECV最小的集合作为最优集合。我们用烟草数据、玉米数据以及小麦数据对这个方法进行验证。结果发现,基于SCARS选择的变量集,其计算结果的RMSECV值以及RMSEP值均小于移动窗口法(MWPLS), Monte Carlo无信息变量消除法(MCUVE)以及竞争性自适应加权抽样法(CARS)。我们还考察了变量选择导致过拟合问题。我们通过随机数产生的无分类意义的数据,用SCARS法,CARS法以及MCUVE法进行变量选择,结果发现对于这些无分类意义的数据,变量选择方法居然能够选择一些“较好的”变量组合,使其校正集的计算误差极大地减小,且原数据变量数越大,分类的结果“越好”。除了分类数据之外,我们对随机产生的回归数据也做了研究,也发现了同样的现象。这种异常的结果揭示了变量选择也会导致过拟合,从无信息数据中找到一些“好的”变量组合,使变量选择的结果偏向于校正集。为了研究这种现象的产生原因以及预防策略,我们用烟草尼古丁数据作为有信息组分,然后添加和有信息数据成不同比例的无信息数据构造模拟数据。然后将这模拟数据,分为校正集以及独立测试集两部分。其中校正集用SCARS方法进行变量选择,对每一个变脸选择的集合,我们不仅计算其校正集的RMSECV值,同时用校正集建模计算其独立测试集的RMSEP数值。考察随着变量集合的收缩,RMSECV以及RMSEP的变化情况。结果发现,对于以噪声作为无信息数据,当噪声的标准差小于等于有信息光谱标准差均值0.02倍时;对于以重排光谱作为无信息组分的数据,无信息组分的强度小于等于有信息光谱强度的0.1倍时,RMSECV的的变化趋势和RMSEP乎一致。但是随着无信息组分的增加,其变化趋势的相似性变小。对于以噪声作为无信息组分的数据,当噪声的标准差大于有信息光谱标准差均值0.02倍时;对于以重排光谱作为无信息组分的数据,无信息组分的强度大于有信息光谱标准差均值0.1倍时,RMSECV以及RMSEP变化趋势有显著差异。比较变量选择中RMSECV以及RMSEP变化趋势图可用于检验变量选择算法的有效性:当二者变化较小时候,可以认为变量选择是有效的;而当二者差异较大时,则变量选择算法是无效的。在模型转移方面,本文研究了基于光谱中有信息成分的模型转移方法。通过预测向量的偏最小二乘法(PLS)分别从主光谱和从光谱中提取与预测值建模相关的信息。之后,用基于光谱校正的模型转移法(典型相关分析法(CCA)、直接校正法(DS)以及预测矩阵的偏最小二乘法(PLS2))将从光谱的有信息成分转移成主光谱的有信息组分。最后将转移后的有信息组分代入主光谱的模型进行预测。我们用玉米数据、三组分体系数据以及人工配置的牛奶中富马酸二甲酯数据,对这种模型转移方法进行了验证。结果显示,对于基于光谱转移的模型转移法,基于光谱中有信息组分的转移的结果要好于基于全光谱的模型转移。

论文目录

  • 摘要
  • Abstract
  • 常用缩略词表
  • 第1章 绪论
  • 1.1 近红外光谱分析技术
  • 1.2 近红外光谱分析中的化学计量学方法
  • 1.2.1 近红外光谱分析中的建模方法
  • 1.2.2 近红外光谱的常见预处理方法
  • 1.2.3 近红外光谱的常见变量选择方法
  • 1.2.4 近红外光谱的常见模型转移方法
  • 1.3 本文的研究内容
  • 第2章 基于分数阶导数的光谱预处理方法
  • 2.1 分数阶Savitzky-Golay求导方法
  • 2.1.1 分数阶导数的定义
  • 2.1.2 幂函数的分数阶导数
  • 2.1.3 光谱的分数阶Savitzky-Golay导数
  • 2.2 数据集
  • 2.2.1 柴油数据
  • 2.2.2 小麦数据
  • 2.2.3 玉米数据
  • 2.3 结果与讨论
  • 2.3.1 柴油数据的计算结果
  • 2.3.2 小麦数据的计算结果
  • 2.3.3 玉米数据的计算结果
  • 2.4 本章小结
  • 第3章 基于变量稳定性的竞争性自适应加权抽样法的变量选择方法
  • 3.1 基于变量稳定性的竞争性自适应加权抽样法
  • 3.2 数据集
  • 3.2.1 烟草数据
  • 3.2.2 玉米数据
  • 3.2.3 小麦数据
  • 3.3 结果与讨论
  • 3.3.1 变量稳定性对变量选择的重要性
  • 3.3.2 烟草数据的计算结果
  • 3.3.3 玉米数据的计算结果
  • 3.3.4 小麦数据的计算结果
  • 3.4 本章小结
  • 第4章 变量选择中的过拟合现象及其原因初探
  • 4.1 变量选择中的过拟合现象
  • 4.1.1 变量选择导致分类出现过拟合
  • 4.1.2 变量选择导致回归出现过拟合
  • 4.2 变量选择导致过拟合的原因初探
  • 4.2.1 添加噪声作为无信息光谱
  • 4.2.2 添加非组分信息作为无信息光谱
  • 4.3 数据集变量选择可靠性诊断
  • 4.4 本章小结
  • 第5章 基于光谱有信息成分的模型转移方法
  • 5.1 基于光谱中有信息成分的模型转移方法
  • 5.1.1 光谱中有信息成分的提取
  • 5.1.2 基于有信息成分的模型转移方法
  • 5.2 数据集
  • 5.2.1 玉米数据
  • 5.2.2 三组分混合溶剂体系数据
  • 5.2.3 牛奶中富马酸二甲酯近红外光谱数据
  • 5.3 结果与讨论
  • 5.3.1 基于CCA模型转移法的计算结果
  • 5.3.2 基于DS模型转移法的计算结果
  • 5.3.3 基于PLS2模型转移法的计算结果
  • 5.4 本章小结
  • 第6章 总结与展望
  • 6.1 全文总结
  • 6.2 工作展望
  • 参考文献
  • 致谢
  • 攻读博士学位期间取得的学术成果
  • 相关论文文献

    标签:;  ;  ;  

    近红外光谱分析模型优化和模型转移算法研究
    下载Doc文档

    猜你喜欢