文本情感分类的研究

文本情感分类的研究

论文摘要

文本情感分类是指通过挖掘和分析文本中的立场、观点、情绪等主观信息,对文本的情感倾向做出类别判断。随着人们在web中表达自己观点越来越普遍,针对文本情感分类的研究也变得越来越重要。本文提出了一种文本情感分类算法,分为主观性分类和极性分类两个部分。主观性分类部分分为训练和分类两个过程,训练过程接受已标记的训练文本集,经过文本预处理、文本表示和特征选择得到语句特征表示;利用主观性分类模型训练算法对这些语句特征表示进行处理,得到文本主观性分类模型。分类过程接受语句集,经过文本预处理、文本表示和特征选择以后得到各输入语句的特征表示,接下来利用文本主观性分类算法结合分类模型进行主客观初分类,最后利用动态规划对分类结果进行修正,得到主观性文本子集。极性分类的训练过程接受源领域标记文本集合和目标领域未标记文本集合,经过文本预处理、文本表示、特征选择和基于支点SCL的特征选择得到各文本的训练语句特征表示,利用极性分类模型训练算法对语句特征表示进行处理,得到文本极性分类模型。分类过程接受文本主观句集,经过文本预处理、文本表示、特征选择和基于支点SCL的特征选择得到各输入语句的特征表示,文本极性分类算法利用这些特征表示和极性分类模型得出肯定句子集和否定句子集。实验表明:主观性初步分类准确率为94.7%;基于动态规划修正的贝叶斯分类器的准确率为95.8%;基于支点特征选择的SCL算法的极性分类逻辑平均误分率为0.16,低于普通的SCL算法。

论文目录

  • 致谢
  • 中文摘要
  • ABSTRACT
  • 1 引言
  • 1.1 研究背景
  • 1.2 文本情感分类的相关问题
  • 1.3 国内外研究现状
  • 1.4 本文主要研究内容及创新点
  • 1.5 论文的组织和安排
  • 2 文本情感分类关键技术
  • 2.1 文本情感分类流程
  • 2.2 文本情感分类常用分类器
  • 2.2.1 贝叶斯分类器
  • 2.2.2 支持向量机
  • 2.2.3 KNN
  • 2.2.4 神经网络
  • 2.2.5 几种分类器优缺点的比较
  • 2.3 文本情感分类的特征选择方法
  • 2.3.1 信息(Mutual Information,MI)
  • 2.3.2 条件熵(Conditional Entropy,CE)
  • 2统计(CHI Square Statistics)'>2.3.3 χ2统计(CHI Square Statistics)
  • 2.3.4 几种特征选择方法优缺点的比较
  • 3 文本情感分类算法结构
  • 4 文本情感主观性分类
  • 4.1 预处理和文本表示
  • 4.1.1 从XML格式文档中提取评论信息
  • 4.1.2 词性标注和依赖性解析
  • 4.2 文本情感主观性分类模型特征选择
  • 4.3 文本情感主观性分类模型训练算法
  • 4.4 文本情感主观性分类模型分类算法
  • 4.4.1 Bayes
  • 4.4.2 Bayes+DP
  • 4.5 实验数据及分析
  • 5 文本情感极性分类
  • 5.1 文本情感极性分类模型特征选择
  • 5.2 SCL算法介绍
  • 5.3 基于支点特征选择的SCL算法
  • 5.4 文本情感极性分类模型训练算法和分类算法
  • 5.5 实验结果分析与比较
  • 5.5.1 领域内实验结果分析与比较
  • 5.5.2 跨领域实验结果分析与比较
  • 6 结论和展望
  • 参考文献
  • 作者简历
  • 学位论文数据集
  • 相关论文文献

    标签:;  ;  ;  ;  

    文本情感分类的研究
    下载Doc文档

    猜你喜欢