近红外光谱分析模型优化和模型转移算法研究

论文摘要

近红外（NIR）光谱由于信号强度低、谱峰重叠严重等特点,故需要用化学计量学手段建立数学模型来提取有化学意义的信息。为了提高模型的预测效果,NIR光谱模型需要优化；为了提高NIR光谱模型的通用性,必须实现模型转移。NIR光谱模型的优化包括光谱预处理以及变量选择等手段。在光谱预处理方面,本文研究了基于分数阶Savitzky-Golay求导的光谱预处理方法。分数阶Savitzky-Golay求导的光谱预处理方法是对整数阶Savitzky-Golay求导的推广,而整数阶Savitzky-Golay求导则是分数阶Savitzky-Golay求导在阶次为整数条件下的特例。和整数阶Savitzky-Golay求导类似,分数阶Savitzky-Golay求导通过构造奇数点的窗口,先拟合出待求导的多项式的系数。然后,根据Riemann-Liouville对分数阶导数的定义,以及之前拟合的多项式系数,通过对原光谱线性组合,得出分数阶求导的结果。分数阶Savitzky-Golay求导不需要使用繁琐的数学公式,只需构造出对角带状矩阵,将其右乘光谱矩阵即可实现求导计算。我们通过柴油数据,小麦数据、玉米数据对该方法实行验证。结果发现,在固定窗口以及多项式次数的情况下,分数阶导数能获得比整数阶导数更详细的信息,且其计结果的交互检验均方根误差（RMSECV）以及预测均方根误差（RMSEP）均小于整数阶求导。当预测结果为样品粘度、密度、硬度等非组分含量信息时,其计算结果明显优于整数阶求导。在变量选择方面,本文研究了基于变量稳定性的竞争性自适应加权抽样法（SCARS）。该方法通过构造若干个变量集合。对每个集合中的变量,该方法通过Monte Carlo方法计算变量的稳定性,以此作为变量重要性的指标。之后,用基于指数函数的强制删除法以及竞争性自适应加权抽样法（ARS）对变量进行删除。对剩下的变量集合重复上述过程进行变量选择（重新计算稳定性,强制删除,ARS）。最后对每个集合的结果进行交互检验,选择RMSECV最小的集合作为最优集合。我们用烟草数据、玉米数据以及小麦数据对这个方法进行验证。结果发现,基于SCARS选择的变量集,其计算结果的RMSECV值以及RMSEP值均小于移动窗口法（MWPLS）, Monte Carlo无信息变量消除法（MCUVE）以及竞争性自适应加权抽样法（CARS）。我们还考察了变量选择导致过拟合问题。我们通过随机数产生的无分类意义的数据,用SCARS法,CARS法以及MCUVE法进行变量选择,结果发现对于这些无分类意义的数据,变量选择方法居然能够选择一些“较好的”变量组合,使其校正集的计算误差极大地减小,且原数据变量数越大,分类的结果“越好”。除了分类数据之外,我们对随机产生的回归数据也做了研究,也发现了同样的现象。这种异常的结果揭示了变量选择也会导致过拟合,从无信息数据中找到一些“好的”变量组合,使变量选择的结果偏向于校正集。为了研究这种现象的产生原因以及预防策略,我们用烟草尼古丁数据作为有信息组分,然后添加和有信息数据成不同比例的无信息数据构造模拟数据。然后将这模拟数据,分为校正集以及独立测试集两部分。其中校正集用SCARS方法进行变量选择,对每一个变脸选择的集合,我们不仅计算其校正集的RMSECV值,同时用校正集建模计算其独立测试集的RMSEP数值。考察随着变量集合的收缩,RMSECV以及RMSEP的变化情况。结果发现,对于以噪声作为无信息数据,当噪声的标准差小于等于有信息光谱标准差均值0.02倍时；对于以重排光谱作为无信息组分的数据,无信息组分的强度小于等于有信息光谱强度的0.1倍时,RMSECV的的变化趋势和RMSEP乎一致。但是随着无信息组分的增加,其变化趋势的相似性变小。对于以噪声作为无信息组分的数据,当噪声的标准差大于有信息光谱标准差均值0.02倍时；对于以重排光谱作为无信息组分的数据,无信息组分的强度大于有信息光谱标准差均值0.1倍时,RMSECV以及RMSEP变化趋势有显著差异。比较变量选择中RMSECV以及RMSEP变化趋势图可用于检验变量选择算法的有效性：当二者变化较小时候,可以认为变量选择是有效的；而当二者差异较大时,则变量选择算法是无效的。在模型转移方面,本文研究了基于光谱中有信息成分的模型转移方法。通过预测向量的偏最小二乘法（PLS）分别从主光谱和从光谱中提取与预测值建模相关的信息。之后,用基于光谱校正的模型转移法（典型相关分析法（CCA）、直接校正法（DS）以及预测矩阵的偏最小二乘法（PLS2））将从光谱的有信息成分转移成主光谱的有信息组分。最后将转移后的有信息组分代入主光谱的模型进行预测。我们用玉米数据、三组分体系数据以及人工配置的牛奶中富马酸二甲酯数据,对这种模型转移方法进行了验证。结果显示,对于基于光谱转移的模型转移法,基于光谱中有信息组分的转移的结果要好于基于全光谱的模型转移。

论文目录

摘要

Abstract

常用缩略词表

第1章绪论

1.1 近红外光谱分析技术

1.2 近红外光谱分析中的化学计量学方法

1.2.1 近红外光谱分析中的建模方法

1.2.2 近红外光谱的常见预处理方法

1.2.3 近红外光谱的常见变量选择方法

1.2.4 近红外光谱的常见模型转移方法

1.3 本文的研究内容

第2章基于分数阶导数的光谱预处理方法

2.1 分数阶Savitzky-Golay求导方法

2.1.1 分数阶导数的定义

2.1.2 幂函数的分数阶导数

2.1.3 光谱的分数阶Savitzky-Golay导数

2.2 数据集

2.2.1 柴油数据

2.2.2 小麦数据

2.2.3 玉米数据

2.3 结果与讨论

2.3.1 柴油数据的计算结果

2.3.2 小麦数据的计算结果

2.3.3 玉米数据的计算结果

2.4 本章小结

第3章基于变量稳定性的竞争性自适应加权抽样法的变量选择方法

3.1 基于变量稳定性的竞争性自适应加权抽样法

3.2 数据集

3.2.1 烟草数据

3.2.2 玉米数据

3.2.3 小麦数据

3.3 结果与讨论

3.3.1 变量稳定性对变量选择的重要性

3.3.2 烟草数据的计算结果

3.3.3 玉米数据的计算结果

3.3.4 小麦数据的计算结果

3.4 本章小结

第4章变量选择中的过拟合现象及其原因初探

4.1 变量选择中的过拟合现象

4.1.1 变量选择导致分类出现过拟合

4.1.2 变量选择导致回归出现过拟合

4.2 变量选择导致过拟合的原因初探

4.2.1 添加噪声作为无信息光谱

4.2.2 添加非组分信息作为无信息光谱

4.3 数据集变量选择可靠性诊断

4.4 本章小结

第5章基于光谱有信息成分的模型转移方法

5.1 基于光谱中有信息成分的模型转移方法

5.1.1 光谱中有信息成分的提取

5.1.2 基于有信息成分的模型转移方法

5.2 数据集

5.2.1 玉米数据

5.2.2 三组分混合溶剂体系数据

5.2.3 牛奶中富马酸二甲酯近红外光谱数据

5.3 结果与讨论

5.3.1 基于CCA模型转移法的计算结果

5.3.2 基于DS模型转移法的计算结果

5.3.3 基于PLS2模型转移法的计算结果

5.4 本章小结

第6章总结与展望

6.1 全文总结

6.2 工作展望

参考文献

致谢

攻读博士学位期间取得的学术成果

近红外光谱分析模型优化和模型转移算法研究

论文摘要

论文目录

相关论文文献

猜你喜欢