文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术,但是在实际应用中,经常会出现文本实例中一些类中的文本很多,而另一些类中文本较少的情况,而这些应用往往就是为了预测其中很少出现却很重要的文本,这就是所谓的文本分类不平衡问题。传统方法对少数类的识别率较低,如何有效的提高少数类的分类性能成为机器学习和模式识别领域亟待解决的问题。因此,本课题的研究具有重要的理论意义和良好的应用前景。本文针对提高不均衡数据集中的少数类文本的分类性能这一问题,从数据层面处理的角度对数据进行重抽样。使用随机抽样的方法以提高分类器在非平衡数据集上的泛化性能,即先对文本的训练集进行预处理,再用处理过的数据集训练分类器。提出一种改进的过抽样方法,在少数类中提取该类若干文本中的任意段落,再将提取出的段落添加至此类原始文本末尾,产生新的合成少数类样本。其主要思想是通过增加一些文本使各类中所含文本数量达到平衡。通过实验表明,该系统有效地提高了小类别文本分类的正确率。
本文来源: https://www.lw50.cn/article/999ec4c45da526ec778f559d.html