中文文本分类特征选择方法研究

中文文本分类特征选择方法研究

论文摘要

随着科技的发展和网络的普及,人们可获得的数据量越来越多,这些数据多数是以文本形式存在的。而这些文本数据大多是比较繁杂的,这就导致了数据量大但信息却比较匮乏的状况。如何从这些繁杂的文本数据中获得有用的信息越来越受到人们的关注。“在文本文档中发现有意义或有用的模式的过程”[1]的文本挖掘技术为解决这一问题提供了一个有效的途径。而文本分类技术是文本挖掘技术的一个重要分支,是有效处理和组织错综复杂的文本数据的关键技术,能够有效的帮助人们组织和分流信息。文本分类的两个重要的研究方向是:特征选择与文本分类算法。特征选择是指从高维的文本特征空间中选择出最能代表文本内容的特征,好的特征选择方法一方面能够降低文本特征空间的维数,以利于提高文本分类的效率,另一方面好的特征选择方法通过去除对文本分类无效的特征也有利于提高文本分类的分类精度。而好的文本分类方法则能够直接有效地提高文本分类的效果。文本分类的一个重要环节就是对高维的特征空间进行压缩,以选择出最能代表文本内容的特征词。特征选择方法的好坏直接影响文本分类的效果。本文通过对目前常用的特征选择方法进行分析比较发现,目前大多数常用的特征选择方法都是通过对特征词条重要程度的某个方面进行度量来决定是否选择该特征词条,缺乏对特征词条重要程度的综合度量。鉴于上述缺陷,本文提出了一种新的特征选择方法,从特征词条在文档中出现的次数、特征词条的文档频数、类别区分能力、类内分散偏差、位置重要性等几个方面来综合度量特征词条的重要性,作为特征选择的依据。为了为本文实验搭建实验平台,本文的另一个工作是构造一个中文文本分类系统,该系统由分词模块、特征选择模块、文本分类模块组成。三个模块之间相互独立且具有统一的接口,对其中任何一个模块的更改对其他模块都不会产生影响,同时由于具有统一的接口,所以模块之间的调用也十分的方便。为了验证本文所提特征选择方法的有效性和可行性,本文在中文文本分类系统上将本文所提的特征选择方法与文档频特征选择方法以及X2统计量特征选择方法进行了对比实验。通过对文本分类混淆矩阵、类别查全率、查准率、F1值以及总体查全率、查准率、F1值的对比分析,本文得到如下结论:即无论是混淆矩阵中正确分类的文档总数,还是类别查全率、查准率、F1值还是总体查全率、查准率、F1值,本文所提特征选择方法相对于文档频特征选择方法以及X2统计量特征选择方法都有所提高,而实验过程中除了特征选择方法的不同外其它条件包括实验语料库、分词方法、分类算法、各种参数等都相同,从而证明了本文所提特征选择方法的有效性和可行性。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 研究背景及意义
  • 1.2 国内外研究现状
  • 1.2.1 文本分类技术介绍
  • 1.2.2 特征选择技术介绍
  • 1.2.3 国内外研究现状
  • 1.3 研究内容及组织结构
  • 1.3.1 研究内容
  • 1.3.2 组织结构
  • 第2章 中文文本分类技术
  • 2.1 文本分类定义
  • 2.2 文本分类流程
  • 2.3 文本预处理技术
  • 2.4 文本表示模型
  • 2.4.1 向量空间模型
  • 2.4.2 布尔模型
  • 2.4.3 概率模型
  • 2.5 特征选择技术
  • 2.6 文本分类方法
  • 2.6.1 Navie Bayes方法
  • 2.6.2 KNN方法
  • 2.6.3 类中心向量方法
  • 2.6.4 神经网络方法
  • 2.6.5 支持向量机方法
  • 2.6.6 决策树方法
  • 2.7 实验评估方法
  • 2.7.1 查全率与查准率
  • 2.7.2 宏平均与微平均
  • β测量值'>2.7.3 Fβ测量值
  • 2.7.4 BEP(Break-even point)
  • 2.8 本章小结
  • 第3章 特征选择方法研究
  • 3.1 特征选择方法概述
  • 3.2 常用的特征选择方法
  • 3.2.1 文档频率(DF)
  • 3.2.2 信息增益(IG)
  • 3.2.3 互信息(MI)
  • 2统计(CHI)'>3.2.4 x2统计(CHI)
  • 3.3 特征选择方法比较
  • 3.4 本章小结
  • 第4章 本文特征选择方法
  • 4.1 限定文档频的词频
  • 4.2 类别区分度
  • 4.2.1 信息熵定义
  • 4.2.2 特征词条信息熵的定义
  • 4.3 类内分散偏差
  • 4.4 位置重要性度量
  • 4.5 综合度量指标
  • 4.6 算法描述
  • 4.7 本章小结
  • 第5章 实验及结果分析
  • 5.1 中文文本分类系统
  • 5.1.1 中文文本分类系统框架
  • 5.1.2 分词模块
  • 5.1.3 特征选择模块
  • 5.1.4 分类模块
  • 5.2 实验设置
  • 5.2.1 开发环境
  • 5.2.2 实验数据
  • 5.2.3 参数设置
  • 5.2.4 算法实现
  • 5.3 实验结果分析
  • 5.3.1 混淆矩阵
  • 5.3.2 总体查全率、查准率、F1值
  • 5.3.3 类别查全率、查准率、F1值
  • 5.3.4 分类情况对比图
  • 5.4 本章小结
  • 第6章 总结与展望
  • 6.1 总结
  • 6.2 展望
  • 参考文献
  • 附录1
  • 附录2
  • 附录3
  • 致谢
  • 攻读硕士学位期间发表的论文
  • 相关论文文献

    • [1].基于进化计算的特征选择方法研究概述[J]. 郑州大学学报(工学版) 2020(01)
    • [2].基于众包学习的交互式特征选择方法[J]. 中国科学:信息科学 2020(06)
    • [3].信用评级模型的特征选择方法研究[J]. 数学的实践与认识 2020(13)
    • [4].一种融合蚁群算法和随机森林的特征选择方法[J]. 计算机科学 2019(S2)
    • [5].采用机器学习的聚类模型特征选择方法比较[J]. 华侨大学学报(自然科学版) 2017(01)
    • [6].基于局部判别约束的半监督特征选择方法[J]. 模式识别与人工智能 2017(01)
    • [7].基于联合表示值的特征选择方法[J]. 南京邮电大学学报(自然科学版) 2017(01)
    • [8].面向跨领域情感分类的特征选择方法[J]. 模式识别与人工智能 2013(11)
    • [9].面向二类区分能力的干扰熵特征选择方法[J]. 计算机应用 2020(03)
    • [10].基于最大信息系数与冗余分摊的特征选择方法[J]. 计算机工程 2020(08)
    • [11].网络异常流量特征选择方法研究[J]. 新乡学院学报 2020(09)
    • [12].面向多类不均衡网络流量的特征选择方法[J]. 计算机应用研究 2017(02)
    • [13].混合自适应引力搜索优化的特征选择方法[J]. 计算机工程与应用 2017(12)
    • [14].一种新的有监督特征选择方法[J]. 陕西理工大学学报(自然科学版) 2017(04)
    • [15].基于概率分布的硬件木马检测特征选择方法[J]. 火力与指挥控制 2017(09)
    • [16].基于稀疏图表示的特征选择方法研究[J]. 计算机工程与科学 2015(12)
    • [17].网页分类中特征选择方法的研究[J]. 电子设计工程 2016(05)
    • [18].基于加权式特征选择方法的分子筛定向合成预测[J]. 化工管理 2013(24)
    • [19].面向排序学习的锦标赛排序特征选择方法[J]. 计算机技术与发展 2014(02)
    • [20].特征选择方法综述[J]. 控制与决策 2012(02)
    • [21].一种面向非平衡数据的邻居词特征选择方法[J]. 小型微型计算机系统 2008(12)
    • [22].文本聚类中的特征选择方法[J]. 吉首大学学报(自然科学版) 2008(02)
    • [23].段落及类别分布的特征选择方法[J]. 小型微型计算机系统 2018(01)
    • [24].基于多种相关性度量的特征选择方法研究[J]. 小型微型计算机系统 2017(04)
    • [25].面向函数型数据的快速特征选择方法[J]. 模式识别与人工智能 2017(09)
    • [26].基于二进制烟花算法的特征选择方法[J]. 情报学报 2017(03)
    • [27].基于分布偏斜训练集的特征选择方法研究[J]. 情报理论与实践 2015(04)
    • [28].联合多流形结构和自表示的特征选择方法[J]. 计算机科学 2020(S2)
    • [29].一种基于权重的文本特征选择方法[J]. 计算机科学 2012(07)
    • [30].基于特征贡献度的特征选择方法在文本分类中应用[J]. 大连理工大学学报 2011(04)

    标签:;  ;  ;  

    中文文本分类特征选择方法研究
    下载Doc文档

    猜你喜欢