基于语义的中文文本自动分类系统的研究与实现

论文摘要

互联网的飞速发展导致了网络中的文本数据也随之迅速增长,因此如何高效处理这些文本信息成为一个重要的研究课题。而文本自动分类技术作为文本信息处理中的一个重要环节引起了人们的广泛关注。文本分类能够处理大量的文本,可以在较大程度上解决信息紊乱的现状,方便用户准确地定位所需要的信息。文本分类作为信息检索、信息过滤、搜索引擎、文本数据库、数字化图书馆等领域的技术基础,有着广泛的应用前景。文本分类的首要问题是文本数据的数学表示模型。目前多数文本分类方法都是以向量空间模型为基础的。这种文本表示方法比较简单,但却引发了向量空间的高维性和稀疏性问题,这使得文本分类具有相当高的时间复杂度;同时向量空间模型忽略了特征项之间的语义相关性,这就导致大量语义信息的丢失,使得到的特征向量不能很好地代表文本内容;最后,基于向量空间模型的文本分类方法都没有很好地解决文本数据所特有的两个自然语言问题:同义词和相关词。所有这些问题都极大地干扰了文本分类的效率和准确性,使文本分类的性能下降。为了解决上述问题,本文将语义词典引入到文本分类领域。使用《哈工大信息检索研究室同义词词林扩展版》(简称《同义词词林》)将向量空间模型中基于词的特征项进行语义分析,使用同义词或相关词集合概念代替单个词条,将传统向量空间模型中的特征项由词映射为代表深层次语义的概念,从而将原始的基于词的向量空间模型映射为基于语义概念的向量空间模型。对基于上述语义概念向量空间模型的中文文本分类进行了深入研究,然后运用软件工程的一般理论,设计并实现了基于语义概念向量空间模型的中文文本分类原型系统。最后通过实验对训练过程中产生的基于词的向量空间模型和经过《同义词词林》进行语义映射之后产生的语义概念向量空间模型进行了维度比较;并且对语义映射前后产生的特征项集合进行了比较研究。实验证明,基于语义概念的向量空间模型能够有效地解决向量空间的高维稀疏性和同义词、相关词问题。

论文目录

摘要

ABSTRACT

1 绪论

1.1 研究背景及意义

1.2 国内外研究现状

1.3 文本分类面临的问题

1.4 本文工作

2 文本分类相关技术研究

2.1 文本分类的概念

2.2 文本表示模型

2.3 文本预处理

2.4 特征选择和权重计算

2.5 数据集

3 基于语义的中文文本自动分类研究

3.1 语义词典研究

3.2 同义词词林

3.3 基于语义的中文文本分类模型

3.4 语义概念向量空间模型的生成

3.5 基于语义概念向量空间模型的文本分类

4 系统的设计与实现

4.1 系统需求

4.2 系统功能模块

4.3 系统总体设计

4.4 系统实现

5 实验结果及分析

5.1 实验目标

5.2 实验案例设计

5.3 实验结果及分析

6 结语

6.1 本文工作总结

6.2 未来工作展望

致谢

参考文献

附录

作者在攻读硕士学位期间发表的论文目录

基于语义的中文文本自动分类系统的研究与实现

论文摘要

论文目录

相关论文文献

猜你喜欢