基于机器学习的文本分类研究

基于机器学习的文本分类研究

论文摘要

随着信息技术尤其是因特网相关技术的发展与成熟,人们可获得的信息越来越多。面对海量信息,一方面是人们对快速、准确且全面获取信息的渴望,而另一方面却是信息的杂乱无序。如何尽可能有效地组织和管理信息,是信息处理研究的重要问题之一。因此,文本分类得到了广泛关注,成为自然语言处理领域最重要的研究方向之一。本论文研究了文本分类中特征提取,大规模文本分类和跨语言文本分类等问题。我们主要解决下面三个问题,如何高效准确的进行分类、如何利用大规模的文本分类数据以及如何在多语言环境下利用某种语言的训练集,去分类另外一种语言的文本的问题。本文的主要研究工作及创新点体现在以下五个方面:(1)将一个基于概率解释的多类特征选择算法应用在文本分类中。与将每个特征作为一个单一的个体的信息增益和χ2统计量等传统方法相比,这种多类特征选择的优势在于它通过线性支持向量机所特有的结构风险最小化原则来选择一个好的特征集。实验中使用了三种常见的多类分类器测试了该特征提取方法。实验结果均显示了该方法的有效性。(2)将最近邻算法的不同投票策略应用于文本分类中,并结合最小最大模块化网络来处理大规模数据的文本分类。一般情况下,最近邻算法在文本中采用相似性累加投票法,类似于机器学习中的反距离投票策略。本文将机器学习研究领域中最近邻算法的不同投票策略引入到文本分类中进行研究,而且进一步将它们引入到最小最大模块化网络中来处理大规模的数据。实验结果显示,高斯投票能在文本分类中表现出较好的综合性能。(3)将最小最大模块化支持向量机中的超平面数据划分方法应用在大规模文本分类中。最小最大模块化网络在处理大规模数据时,通常有三个问题,一个是集成什么样的分类器,第二个是模块冗余消除问题,第三个是数据划分问题。这里研究了第三个问题,即使用超平面划分方法到文本分类领域进行研究。传统的数据划分方法,一般使用随机划分和聚类方法划分。然而,随机划分方法可能会破坏数据本身分布的空间属性,聚类方法划分又过于消耗计算资源。超平面划分方法一定程度上克服了这两种方法的缺点。实验结果验证了该方法的有效性。(4)首次提出使用双语词典解决跨语言文本分类问题。在进行多语言分析的时候,通常需要一些额外的双语资源来沟通两种语言的差异,像双语电子词典,大规模的平行语料库和自动机器翻译等等。但是,跨语言文本分类,至今没有使用双语电子词典方面的研究。本文提出了一种跨语言朴素贝叶斯算法。该算法借助双语电子词典,第一次将单语言的朴素贝叶斯算法扩展到了双语言上。初步的实验结果验证了该方法的有效性。(5)提出了一种跨语言文本分类的精细框架。考虑到使用双语电子词典的词汇覆盖率可能会影响到最终分类的性能,本文提出了在目标语言中利用其语料之间的结构属性更新初始自动标注信息的思想。初步的实验结果显示了该框架的有效性。

论文目录

  • 摘要
  • ABSTRACT(英文摘要)
  • 主要符号对照表
  • 第一章 绪论
  • 1.1 研究的目的、意义及背景
  • 1.2 文本分类的发展过程
  • 1.3 国内外研究现状
  • 1.3.1 文本标引
  • 1.3.2 特征降维
  • 1.3.2.1 特征选择
  • 1.3.2.2 特征抽取
  • 1.3.3 分类器
  • 1.3.4 评估方法
  • 1.4 主要研究内容和创新点
  • 1.5 论文内容安排
  • 第二章 多类特征选择算法
  • 2.1 引言
  • 2.2 多类分类器
  • 2.2.1 朴素贝叶斯算法
  • 2.2.2 K最近邻算法
  • 2.2.3 Rocchio算法
  • 2.3 特征选择方法
  • 2.3.1 信息增益(IG)
  • 2统计(CHI)'>2.3.2 χ2统计(CHI)
  • 2.4 基于概率解释的特征选择算法
  • 2.4.1 线性支持向量机
  • 2.4.2 二类情况下的特征选择算法
  • 2.4.3 多类情况下的特征选择算法
  • 2.5 实验结果与分析
  • 2.6 本章小结
  • 第三章 最小最大模块化算法
  • 3.1 引言
  • 3.2 任务分解
  • 3.3 子模块组合
  • 3.4 最小最大模块化网络的相关研究
  • 3.5 本章小结
  • 第四章 最小最大K-NN算法中投票算法的研究
  • 4.1 引言
  • 4.2 算法描述
  • 4.3 K-NN的投票方法
  • 4.3.1 K-NN算法
  • 4.3.2 不同的投票方法
  • 4.4 实验结果与分析
  • 4.4.1 实验设置
  • 4.4.2 性能评价方法
  • 4.4.3 实验结果与分析
  • 4.4.4 时间复杂度分析
  • 4.5 本章小结
  • 第五章 最小最大模块化支持向量机算法
  • 5.1 引言
  • 5.2 最小最大支持向量机算法
  • 5.3 任务分解策略
  • 5.3.1 随机任务分解策略
  • 5.3.2 超平面分解策略
  • 5.4 实验结果与分析
  • 5.5 本章小结
  • 第六章 跨语言朴素贝叶斯分类器
  • 6.1 引言
  • 6.2 相关工作
  • 6.3 方法介绍
  • 6.3.1 概率词典的构造
  • 6.3.2 基于EM的朴素贝叶斯跨语言分类算法
  • 6.4 实验数据
  • 6.5 实验与分析
  • 6.5.1 一些基线算法
  • 6.5.2 实验结果与分析
  • 6.6 本章小结
  • 第七章 一个跨语言文本分类的精细框架
  • 7.1 引言
  • 7.2 相关工作
  • 7.3 精细框架
  • 7.3.1 第一阶段
  • 7.3.2 第二阶段
  • 7.3.3 实验与讨论
  • 7.4 本章小结
  • 第八章 结束语
  • 参考文献
  • 致谢
  • 个人简历、在学期间的研究成果及发表的论文
  • 相关论文文献

    标签:;  ;  ;  ;  ;  ;  ;  

    基于机器学习的文本分类研究
    下载Doc文档

    猜你喜欢