高维的强相关数据的模型选择

高维的强相关数据的模型选择

论文摘要

本论文从模型选择的角度研究如何处理高维的,强相关的,多维共线性又带有噪音的数据。主要包括三章:第二章,我们提出了一种用于多主成份的光谱数据分析的波长区域选择算法,即弹性网结合偏最小二乘的组变量选择方法(EN-PLSR)。EN-PLSR算法通过两步能够自动地选择连续的,强相关的预测变量波长区域。首先,一些与响应变量相关的预测变量被选择出来并根据弹性网估计子的组效应分成一些子变量组。每个子变量组中的变量都是强相关的。然后我们在交互验证的均方根误差(RMSECV)的标准下,提出了留一组的策略用来进一步的收缩变量,降低模型复杂度。现实的近红外数据实验结果表明,EN-PLSR算法比全谱的最小二乘方法和移动窗最小二乘方法效果要好,特别是当数据集呈现强相关的时候。第三章,我们同样从组变量选择的角度考虑强相关的多维共线性的数据的变量选择和模型估计问题,提出了一种新颖的组变量选择方法:权融合弹性网(WFEN)。WFEN结合了分别由弹性网和权融合LASSO惩罚诱导出的两种组变量选择机制,能很好地统一在LASSO的框架上并能用有效地解出。我们利用模拟的和真实的数据检验WFEN模型,结果表明我们的算法与其他的LASSO类型的方法相比在处理多维共线性性数据时有较大的优势。第四章,我们提出了一种用于用于研究化合物的生物活性与描述子之间的所谓的结构-活性关系(SAR)的非线性分类方法。该方法主要由核主成份分析和线性支持向量机组成(KPCA+LSVM),我们用KPCA去除数据中的噪音之类的冗余信息,然后用核定义特征空间上的一些主成份来发掘训练数据集中潜在的数据结构。线性支持向量机利用最大间隔超平面得到了KPCA转换空间上的最大推广性能。与单纯的初始空间上的线性支持向量机和另外两种非线性支持向量机相比,KPCA+LSVM能够有效的提高预测精度。三个SAR数据集上的外部验证和内部验证结果表明,KPCA+LSVM算法具有很强的竞争力。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 第二章 用于光谱数据分析的弹性网结合偏最小二乘的组变量选择方法
  • 2.1 引言
  • 2.2 理论
  • 2.2.1 变量选择和LASSO
  • 2.2.2 弹性网及其组效应
  • 2.2.3 偏最小二乘回归
  • 2.3 EN-PLSR算法
  • 2.3.1 动机和目的
  • 2.3.2 算法描述
  • 2.3.3 参数调试
  • 2.4 实验数据集
  • 2.4.1 数据集A
  • 2.4.2 数据集B(corn数据集)
  • 2.4.3 数据集C(gasoline数据集)
  • 2.5 实验结果和讨论
  • 2.5.1 数据集A
  • 2.5.2 数据集B(corn数据集)
  • 2.5.3 数据集C(gasoline数据集)
  • 第三章 基于权融合弹性网的组变量选择
  • 3.1 引言
  • 3.2 理论
  • 3.2.1 权融合LASSO及其组效应
  • 3.3 权融合弹性网(WFEN)
  • 3.3.1 定义
  • 3.3.2 权融合弹性网的参数及其性质
  • 3.3.3 计算
  • 3.4 实验及结果
  • 3.4.1 实验1
  • 3.4.2 实验2
  • 3.4.3 实验3
  • 3.4.4 实验4
  • 第四章 核主成份联合线性支持向量机的用于生物活性与分子描述子的非线性分类
  • 4.1 引言
  • 4.2 核方法
  • 4.3 主成分分析,核主成分分析,核主成分回归
  • 4.3.1 主成分分析(PCA)
  • 4.3.2 核主成分分析(KPCA)
  • 4.3.3 核主成分回归(KPCR)
  • 4.4 线性支持向量机(LSVM)
  • 4.5 两步的非线性分类算法
  • 4.5.1 实验数据集
  • 4.5.2 数据预处理和性能评估
  • 4.5.3 模型参数
  • 4.5.4 实验结果及讨论
  • 第五章 总结
  • 参考文献
  • 附录一 EN-PLSR算法伪码
  • 致谢
  • 攻读学位期间所完成的学术论文目录
  • 相关论文文献

    • [1].分类中模型选择方法的改进[J]. 统计与决策 2020(11)
    • [2].模型本无过 思想来引路[J]. 中学数学杂志 2017(06)
    • [3].模型选择准则在洪水频率分析中的应用[J]. 水利学报 2010(01)
    • [4].方差正则化的分类模型选择准则[J]. 计算机科学与探索 2019(03)
    • [5].生态风险评价方法学研究进展与评价模型选择[J]. 城市环境与城市生态 2015(01)
    • [6].一种软件可靠性增长模型选择与综合方法[J]. 计算机科学 2009(09)
    • [7].RS为工程师改进其3D CAD模型选择工具[J]. 微型机与应用 2013(02)
    • [8].基于均衡7×2交叉验证的模型选择方法[J]. 太原师范学院学报(自然科学版) 2013(01)
    • [9].零膨胀计数资料模型选择与比较[J]. 中国卫生统计 2011(04)
    • [10].基于交叉验证的模型选择中投票和平均方法的对照[J]. 数学的实践与认识 2019(09)
    • [11].SAS软件在6种溶出模型选择中的应用[J]. 中医研究 2012(04)
    • [12].二元非结构肥效模型构建及其田间试验验证[J]. 土壤学报 2019(04)
    • [13].基于最优权重联合模型的滑坡位移预测研究[J]. 灾害学 2018(01)
    • [14].不同模拟穿刺模型在超声引导穿刺技术教学中的比较研究[J]. 临床超声医学杂志 2019(07)
    • [15].带有有序变量的结构方程模型中的模型选择[J]. 统计与决策 2011(14)
    • [16].科技创新企业估值模型选择研究——以工业富联为例[J]. 现代金融导刊 2020(03)
    • [17].交叉验证在数据建模模型选择中的应用[J]. 商业经济 2011(10)
    • [18].基于贝叶斯理论的土水特征曲线模型选择与参数识别方法[J]. 应用基础与工程科学学报 2019(06)
    • [19].浅析金融证券市场的最优投资及模型选择[J]. 产业创新研究 2019(11)
    • [20].基于磨损公式的磨损模型适用性研究[J]. 中国农村水利水电 2019(04)
    • [21].基于跨项目缺陷预测的模型选择研究[J]. 计算机产品与流通 2018(10)
    • [22].基于决策支持的交通分析模型选择与应用[J]. 公路交通技术 2014(02)
    • [23].有限变形下橡胶材料非线性高弹-粘弹性本构模型[J]. 橡胶工业 2017(11)
    • [24].基于CMA-ES算法的支持向量机模型选择[J]. 计算机仿真 2010(04)
    • [25].基于多段落排序的机器阅读理解研究[J]. 北京化工大学学报(自然科学版) 2019(03)
    • [26].降脂模型研究进展[J]. 中国比较医学杂志 2020(04)
    • [27].非酒精性脂肪性肝病实验模型[J]. 中国药学杂志 2019(18)
    • [28].非线性GARCH族的模型平均估计方法[J]. 统计研究 2018(05)
    • [29].模型选择和假设导致的臭氧相关性气候变化健康效应的变异[J]. 环境与职业医学 2013(02)
    • [30].网络结构数据空间回归模型的平均估计[J]. 系统科学与数学 2018(06)

    标签:;  ;  ;  ;  ;  ;  ;  

    高维的强相关数据的模型选择
    下载Doc文档

    猜你喜欢