中文文本分类特征选择方法研究

论文摘要

随着科技的发展和网络的普及,人们可获得的数据量越来越多,这些数据多数是以文本形式存在的。而这些文本数据大多是比较繁杂的,这就导致了数据量大但信息却比较匮乏的状况。如何从这些繁杂的文本数据中获得有用的信息越来越受到人们的关注。“在文本文档中发现有意义或有用的模式的过程”[1]的文本挖掘技术为解决这一问题提供了一个有效的途径。而文本分类技术是文本挖掘技术的一个重要分支,是有效处理和组织错综复杂的文本数据的关键技术,能够有效的帮助人们组织和分流信息。文本分类的两个重要的研究方向是：特征选择与文本分类算法。特征选择是指从高维的文本特征空间中选择出最能代表文本内容的特征,好的特征选择方法一方面能够降低文本特征空间的维数,以利于提高文本分类的效率,另一方面好的特征选择方法通过去除对文本分类无效的特征也有利于提高文本分类的分类精度。而好的文本分类方法则能够直接有效地提高文本分类的效果。文本分类的一个重要环节就是对高维的特征空间进行压缩,以选择出最能代表文本内容的特征词。特征选择方法的好坏直接影响文本分类的效果。本文通过对目前常用的特征选择方法进行分析比较发现,目前大多数常用的特征选择方法都是通过对特征词条重要程度的某个方面进行度量来决定是否选择该特征词条,缺乏对特征词条重要程度的综合度量。鉴于上述缺陷,本文提出了一种新的特征选择方法,从特征词条在文档中出现的次数、特征词条的文档频数、类别区分能力、类内分散偏差、位置重要性等几个方面来综合度量特征词条的重要性,作为特征选择的依据。为了为本文实验搭建实验平台,本文的另一个工作是构造一个中文文本分类系统,该系统由分词模块、特征选择模块、文本分类模块组成。三个模块之间相互独立且具有统一的接口,对其中任何一个模块的更改对其他模块都不会产生影响,同时由于具有统一的接口,所以模块之间的调用也十分的方便。为了验证本文所提特征选择方法的有效性和可行性,本文在中文文本分类系统上将本文所提的特征选择方法与文档频特征选择方法以及X2统计量特征选择方法进行了对比实验。通过对文本分类混淆矩阵、类别查全率、查准率、F1值以及总体查全率、查准率、F1值的对比分析,本文得到如下结论：即无论是混淆矩阵中正确分类的文档总数,还是类别查全率、查准率、F1值还是总体查全率、查准率、F1值,本文所提特征选择方法相对于文档频特征选择方法以及X2统计量特征选择方法都有所提高,而实验过程中除了特征选择方法的不同外其它条件包括实验语料库、分词方法、分类算法、各种参数等都相同,从而证明了本文所提特征选择方法的有效性和可行性。

论文目录

摘要

Abstract

第1章绪论

1.1 研究背景及意义

1.2 国内外研究现状

1.2.1 文本分类技术介绍

1.2.2 特征选择技术介绍

1.2.3 国内外研究现状

1.3 研究内容及组织结构

1.3.1 研究内容

1.3.2 组织结构

第2章中文文本分类技术

2.1 文本分类定义

2.2 文本分类流程

2.3 文本预处理技术

2.4 文本表示模型

2.4.1 向量空间模型

2.4.2 布尔模型

2.4.3 概率模型

2.5 特征选择技术

2.6 文本分类方法

2.6.1 Navie Bayes方法

2.6.2 KNN方法

2.6.3 类中心向量方法

2.6.4 神经网络方法

2.6.5 支持向量机方法

2.6.6 决策树方法

2.7 实验评估方法

2.7.1 查全率与查准率

2.7.2 宏平均与微平均

β测量值'>2.7.3 F_β测量值

2.7.4 BEP（Break-even point）

2.8 本章小结

第3章特征选择方法研究

3.1 特征选择方法概述

3.2 常用的特征选择方法

3.2.1 文档频率（DF）

3.2.2 信息增益（IG）

3.2.3 互信息（MI）

2统计（CHI）'>3.2.4 x²统计（CHI）

3.3 特征选择方法比较

3.4 本章小结

第4章本文特征选择方法

4.1 限定文档频的词频

4.2 类别区分度

4.2.1 信息熵定义

4.2.2 特征词条信息熵的定义

4.3 类内分散偏差

4.4 位置重要性度量

4.5 综合度量指标

4.6 算法描述

4.7 本章小结

第5章实验及结果分析

5.1 中文文本分类系统

5.1.1 中文文本分类系统框架

5.1.2 分词模块

5.1.3 特征选择模块

5.1.4 分类模块

5.2 实验设置

5.2.1 开发环境

5.2.2 实验数据

5.2.3 参数设置

5.2.4 算法实现

5.3 实验结果分析

5.3.1 混淆矩阵

5.3.2 总体查全率、查准率、F1值

5.3.3 类别查全率、查准率、F1值

5.3.4 分类情况对比图

5.4 本章小结

第6章总结与展望

6.1 总结

6.2 展望

参考文献

附录1

附录2

附录3

致谢

攻读硕士学位期间发表的论文

中文文本分类特征选择方法研究

论文摘要

论文目录

相关论文文献

猜你喜欢