基于RLS-MARS特征选择的文本分类方法研究

基于RLS-MARS特征选择的文本分类方法研究

论文摘要

随着来自于互联网和企业内部网的信息不断增多,需要一种工具来帮助人们对这些信息资源进行组织、存储和访问。自动文本分类是主要工具之一。文本分类(Text Classification, TC)就是将文档自动指派到预先设定类别的过程。自动文本分类作为处理和组织大量文本数据的关键技术,可以在较大程度上解决信息杂乱现象的问题,方便用户准确地得到所需的信息。文本分类的一个主要的问题就是高维的特征空间。这些特征空间是由文档中的词或词组构成的,对于一个中等程度的文档集可能就会形成成百上千万的特征项。对于许多的学习算法来说这么高维的特征项是无法处理的,过大的特征空间会导致“维数灾难”,从而降低分类器的泛化能力,出现“过学习”的现象。因而在不影响特征准确度的情况下减少原来的文本描述空间是很有必要的。特征选择与特征抽取有助于在文本数据集中移除噪音特征,降低维数。特征抽取是将原始特征空间投影到一个低维空间从而创造出新的特征,通常是原始特征的线性或非线性组合。特征抽取有助于解决多义词、同义词问题,但是不能给出新特征的语义解释。特征选择是利用某种评价函数独立地对每个原始特征项打分,按分值从高到低排序,从中选取若干分值最高的特征项。特征选择方法的主要目的是在原始的特征空间中选择一个特征子集,组成一个低维空间来表示原始特征空间。我们将Efron的Least angle regression(最小角度回归)方法和Regularized Least Squares(规则最小二乘)方法相结合,提出了规则最小二乘多角度回归(RLS-MARS)算法。该方法试图在特征空间中,寻找一组方向,使得特征梯度矩阵能沿着这一方向变化,且特征梯度矩阵的模值越来越小,在这一过程中,生成了一系列有序特征。新模型中特征选择方法主要考虑了潜在变量之间(文本词之间)的关系,试图从原始特征集合中选取有效显著特征。这些被选出来的特征之间的相关性很小,且与原始特征同分布。通过RLS-MARS特征选择技术,来提取核心特征是在多维空间中按照特征的特性,设计算法在多角度中计算出相对最小角度,选出梯度下降方向,重新设置梯度向量,从而提取到核心特征。RLS-MARS特征选择技术,主要是研究在低维数情况下特征选择的情况,在多个向量夹角中选出当前情况下的最小角度,从而得到当前梯度向量的梯度下降方向,更新梯度向量值,选出函数拟合变量,从而筛选出合理的特征。我们的模型分别考察了类别不均衡与类别均衡情况下,参数二范数规范和参数二范数忽略,各个数据集中各类的F1评估值情况。在Reuter-21578语料库上的试验表明,RLS-MARS特征选择方法在考虑参数二范数规范的结果要比参数二范数忽略情况下的要好很多。随着维数的增加,RLS-MARS的分类效果在某些类别上要优于卡方统计。

论文目录

  • 摘要
  • ABSTRACT
  • 1 引言
  • 1.1 研究背景
  • 1.2 本文工作
  • 1.3 论文组织
  • 2 文本分类概述
  • 2.1 文本分类的定义
  • 2.2 文本分类的任务
  • 2.3 文本分类系统的流程
  • 2.4 文本预处理
  • 2.4.1 去除语料库的格式标记
  • 2.4.2 去除停用词和词干化
  • 2.4.3 中文分词
  • 2.5 文本表示方法
  • 2.5.1 布尔权重
  • 2.5.2 词频权重
  • 2.5.3 tf-idf 权重
  • 2.5.4 tfc 权重
  • 2.5.5 ltc 权重
  • 2.5.6 熵权重
  • 2.6 文本分类算法
  • 2.6.1 Rocchio 算法
  • 2.6.2 Na(?)ve Bayes 算法
  • 2.6.3 KNN 算法
  • 2.6.4 决策树
  • 2.6.5 神经网络
  • 2.6.6 支持向量机
  • 2.6.7 回归模型
  • 2.7 文本分类器的测试和评价
  • 2.7.1 文本分类器的测试
  • 2.7.2 文本分类器的评价
  • 3 维数约减
  • 3.1 维数约减技术
  • 3.2 特征选择
  • 3.2.1 文档频数(Document Frequency, DF)
  • 3.2.2 互信息(Mutual Information, MI)
  • 2 统计量(CHI-Squared)'>3.2.3 χ2统计量(CHI-Squared)
  • 3.2.4 信息增益(Information Gain, IG)
  • 3.2.5 期望交叉熵(Expected Cross Entropy, ECE)
  • 3.2.6 文本证据权(The Weight Of Evidence for Text)
  • 3.2.7 几率比(Odds Ratio, OR)
  • 3.3 特征提取
  • 3.3.1 潜在语义索引(Latent Semantic Index, LSI)
  • 3.3.2 非负矩阵分解(Non-negative Matrix Factorization, NMF)
  • 3.3.3 主成分分析(Principal Component Analysis, PCA)
  • 4 基于RLS-MARS 的特征选择
  • 4.1 基本符号表示
  • 4.2 线性回归模型
  • 4.3 最小二乘参数估计(LEAST SQUARES ESTIMATE)
  • 4.4 逻辑斯特回归分析(LOGISTIC)
  • 4.5 规则最小二乘分类算法(RLS)
  • 4.6 最小角度回归收缩(LARS)
  • 4.7 规则最小二乘多角度回归收缩
  • 4.8 算法复杂度分析
  • 5 实验
  • 5.1 Reuters-21578 语料库
  • 5.2 预处理
  • 5.3 在类别不均衡下的实验结果
  • 5.3.1 实验设计
  • 5.3.2 实验结果及分析
  • 5.3.2.1 特征维数对性能的影响
  • 2 = 0)与二范数规范(λ2 = 100)实验结果比较及分析'>5.3.2.2 二范数忽略(λ2 = 0)与二范数规范(λ2 = 100)实验结果比较及分析
  • 2 特征选择实验结果比较及分析'>5.3.2.3 RLS-MARS 算法与χ2特征选择实验结果比较及分析
  • 5.4 在类别均衡下的实验结果
  • 5.4.1 实验设计
  • 5.4.2 实验结果及分析
  • 5.4.2.1 特征维数对性能的影响
  • 2 = 0)与二范数规范(λ2 = 100)实验结果比较及分析'>5.4.2.2 二范数忽略(λ2 = 0)与二范数规范(λ2 = 100)实验结果比较及分析
  • 2 特征选择实验结果比较及分析'>5.4.2.3 RLS-MARS 算法与χ2特征选择实验结果比较及分析
  • 5.5 实验小结
  • 6 总结与展望
  • 6.1 总结
  • 6.2 展望
  • 参考文献
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    基于RLS-MARS特征选择的文本分类方法研究
    下载Doc文档

    猜你喜欢