面向高维数据的特征选择算法研究

面向高维数据的特征选择算法研究

论文摘要

互联网时代,网络已成为最大的信息聚集地。特别是因特网的快速发展,信息及电子文本数目迅速增加。据统计,互联网中80%的数据是以非结构化的形式存在的,如Web页面、电子邮件、基因数据、图像等。由于这些数据的半结构化甚至于无结构化的特点,使得表示这些数据的特征向量高达几万维甚至于几十万维。特征维数的庞大引起了维度灾难(curse of dimensionality),这对文本分类,信息检索,基因工程,计算机视觉等问题造成了极大的障碍。所以我们引入特征选择,通过它来移除不相关的特征,检测出冗余的特征,得到一个较小、较优的特征子集,最终达到维数约简的目的。与此同时提高学习算法的泛化性能和运行效率,得到更加简单和容易理解的学习模型。本文关注的焦点是高维数据的特征选择以及基于特征选择的集成聚类。研究重点主要包括以下两个方面:一、我们提出了一种基于稀疏表示的组合式特征选择方法。首先我们利用相关性特征选择方法(如IG、EVSC等)去除不相关的特征,然后引入用稀疏表示的方法来探测冗余特征,结合这两个方式得到最优特征子集。在多个高维数据集上的实验结果表明,从分类/聚类准确率,特征子集大小等多角度考察该算法具有良好的综合性能。二、从聚类成员质量和个体差异度两方面出发,提出了一种适于高维数据的基于特征分层抽样的集成聚类算法。实验表明,在高维数据集上,我们实现的基于特征分层抽样的集成聚类算法优于基于随机特征选择和随机特征投影的集成聚类算法。

论文目录

  • 致谢
  • 中文摘要
  • ABSTRACT
  • 1 引言
  • 1.1 高维数据挖掘
  • 1.2 国内外研究现状
  • 1.3 研究目的和意义
  • 1.4 论文结构及章节安排
  • 1.5 本章小结
  • 2 特征选择概述
  • 2.1 特征选择的一般过程
  • 2.1.1 产生过程
  • 2.1.2 评价函数
  • 2.1.3 停止准则
  • 2.1.4 子集验证
  • 2.2 特征选择算法的选用
  • 2.3 本章小结
  • 3 基于稀疏表示的组合式特征选择算法
  • 3.1 经典特征选择算法
  • 3.1.1 信息增益(IG)
  • 2统计(CHI)'>3.1.2 χ2统计(CHI)
  • 3.1.3 SPEC
  • 3.1.4 SAM
  • 3.1.5 EVSC
  • 3.2 基于稀疏表示的组合式特征选择算法
  • 3.3 实验结果及分析
  • 3.3.1 有监督特征选择算法中的实验结果及分析
  • 3.3.2 无监督特征选择算法中的实验结果及分析
  • 3.4 本章小结
  • 4 基于特征分层抽样的集成聚类算法
  • 4.1 集成聚类概述
  • 4.1.1 集成聚类的一般过程
  • 4.1.2 集成聚类的有效性条件
  • 4.2 基于特征分层抽样的数据子空间的生成
  • 4.2.1 相关工作
  • 4.2.2 算法描述
  • 4.3 基于分层抽样的集成聚类
  • 4.4 实验结果及分析
  • 4.4.1 实验数据及其描述
  • 4.4.2 对比实验
  • 4.4.3 实验性能指标
  • 4.4.4 实验结果及分析
  • 4.5 本章小结
  • 5 结论
  • 5.1 论文总结
  • 5.2 作展望
  • 参考文献
  • 作者简历
  • 学位论文数据集
  • 相关论文文献

    • [1].基于分层索引的高维数据对象检索[J]. 指挥信息系统与技术 2019(06)
    • [2].高维数据流异常节点动态跟踪仿真研究[J]. 计算机仿真 2020(10)
    • [3].高维数据的交互式沉浸可视化——以城市生活质量数据为例[J]. 装饰 2019(06)
    • [4].基于大数据的高维数据挖掘探究[J]. 通讯世界 2018(03)
    • [5].智能电网中高维数据聚类方法研究[J]. 智能计算机与应用 2016(01)
    • [6].浅谈高维数据变量选择现状与方法[J]. 数码世界 2016(07)
    • [7].基于高维数据流的异常检测算法[J]. 计算机工程 2018(01)
    • [8].大数据环境下的高维数据挖掘在入侵检测中的有效应用[J]. 电脑编程技巧与维护 2016(22)
    • [9].一种高维数据流的稳健监控方法[J]. 天津职业技术师范大学学报 2016(02)
    • [10].基于大数据的高维数据挖掘研究[J]. 信息与电脑(理论版) 2015(15)
    • [11].浅谈高维数据挖掘的现状与方法[J]. 福建电脑 2014(07)
    • [12].高维数据空间的一种网格划分方法[J]. 计算机工程与应用 2011(05)
    • [13].面向精细农业的高维数据本征维数估计方法研究进展[J]. 中国科学:信息科学 2010(S1)
    • [14].数学建模中的高维数据挖掘技术优化研究[J]. 计算机测量与控制 2017(09)
    • [15].采用高维数据聚类的目标跟踪(英文)[J]. 红外与激光工程 2016(04)
    • [16].非规则流中高维数据流典型相关性分析并行计算方法[J]. 软件学报 2012(05)
    • [17].基于控制过度遗漏发现概率的高维数据流异常诊断[J]. 数理统计与管理 2020(03)
    • [18].相关高维数据流在线监控方法研究[J]. 天津职业技术师范大学学报 2016(03)
    • [19].高维数据挖掘技术在教学质量监控与评价的应用研究[J]. 全国商情(理论研究) 2010(11)
    • [20].一种高维数据聚类遗传算法[J]. 计算机工程与科学 2010(08)
    • [21].基于联合树的隐私高维数据发布方法[J]. 计算机研究与发展 2018(12)
    • [22].基于正则化回归的变量选择方法在高维数据中的应用[J]. 实用预防医学 2018(06)
    • [23].一种支持高维数据查询的并行索引机制[J]. 华中科技大学学报(自然科学版) 2011(S1)
    • [24].矩阵奇异值分解及其在高维数据处理中的应用[J]. 数学的实践与认识 2011(15)
    • [25].高维数据变量选择方法综述[J]. 数理统计与管理 2017(04)
    • [26].高维数据空间索引方法的研究[J]. 电脑知识与技术 2009(16)
    • [27].基于聚类融合算法的高维数据聚类的研究[J]. 电子测量技术 2008(04)
    • [28].高维数据固有维数的自适应极大似然估计[J]. 计算机应用 2008(08)
    • [29].基于超网络和投影降维的高维数据流在线分类算法[J]. 计算机应用与软件 2020(10)
    • [30].面向高维数据的安全半监督分类算法[J]. 计算机系统应用 2019(05)

    标签:;  ;  ;  ;  ;  

    面向高维数据的特征选择算法研究
    下载Doc文档

    猜你喜欢