面向互联网中文舆情信息的情感倾向分析

面向互联网中文舆情信息的情感倾向分析

论文摘要

随着互联网技术的迅猛发展以及互联网应用的不断普及,Internet上的信息与日俱增,互联网已经成为越来越多的人们获取信息的重要来源,同时也成为人们表达自己观点的平台。网络舆情是大多数互联网用户关于社会中各种现象和问题所表达的信念、态度、意见和情绪等表现的总和,互联网被人们使用的越来越频繁,随之也产生了大量带有情感色彩的评论文本。对用户主动发布的评论进行挖掘和分析,识别出其情感倾向及演化规律,可以及时地通过理解互联网用户的行为来理解社会个体的行为,从而分析出时下的热点舆情,为政府和企业等社会管理者在决策时提供了重要的依据。本文首先介绍了舆情以及互联网舆情的相关概念,以及对其进行情感分析的研究背景和应用前景;然后以网络爬虫抓取的评论网页为研究对象,对其概念、特点依次进行了介绍;接着按照评论的情感倾向分析流程,分别从互联网舆情评论的获取及预处理和评论的情感倾向分析两方面进行了深入研究。在互联网舆情评论的获取及预处理过程中,本文提出了一种基于聚类的垃圾评论检测方法;对于互联网舆情评论的情感倾向分析,提出了一种基于非负矩阵分解的文本特征选择方法。互联网上关于舆情信息的评论量之大,同时这些评论中不可避免地存在一些与情感倾向分析这个任务不相关的垃圾评论,对分析其情感倾向产生了干扰,影响了情感倾向分析的准确性。针对这一问题,本文设计了一种无监督的检测方法——基于聚类的垃圾评论检测方法,检测并过滤垃圾评论后为情感倾向分析提供了可靠有用的评论数据。最后,以互联网上公开的中英文评论数据集作为实验数据,对文中提出的垃圾评论检测方法进行了实验验证,验证了该方法的有效性。大量的评论文本在用向量空间模型表示时,产生的过大特征空间会导致此后的情感倾向分析过程耗费更多的时间和空间资源,因此进行文本特征选择十分必要。本文在文本预处理的基础上,根据评论文本数据的特点并对比其它几种特征选择方法,提出了一种文本特征选择方法——基于非负矩阵分解的文本特征选择方法,并利用现有的文本分类器对几种文本特征选择方法进行了对比,实验结果表明该文本特征选择方法在对舆情评论情感倾向分析时具有较高的的准确性。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 研究背景
  • 1.2 国内外研究现状
  • 1.2.1 情感倾向分析方法研究方面
  • 1.2.2 情感词典构建方面
  • 1.2.3 情感倾向分析的语料
  • 1.2.4 情感倾向分析系统
  • 1.3 相关工作中存在的主要问题
  • 1.4 本文的工作和论文结构
  • 1.4.1 本文的主要工作
  • 1.4.2 本文的组织结构
  • 第二章 情感倾向分析的技术基础
  • 2.1 概述
  • 2.2 文本预处理
  • 2.2.1 信息提取
  • 2.2.2 中文分词
  • 2.2.3 信息过滤
  • 2.3 文本表示模型
  • 2.3.1 布尔模型
  • 2.3.2 向量空间模型
  • 2.3.3 概率模型
  • 2.4 文本特征选择
  • 2.4.1 文本特征选择
  • 2.4.2 文本特征权重计算
  • 2.5 文本分类器
  • 2.5.1 基于朴素贝叶斯分类器
  • 2.5.2 基于支持向量机的分类器
  • 2.5.3 基于KNN 分类器
  • 2.5.4 基于最大熵的分类器
  • 2.6 分类评价标准
  • 2.6.1 准确率、召回率和F 值
  • 2.6.2 微平均和宏平均
  • 2.6.3 BEP(Break-Even Point)
  • 2.7 本章小结
  • 第三章 基于聚类的垃圾评论检测
  • 3.1 信息获取
  • 3.1.1 网络爬虫
  • 3.1.2 网页信息提取
  • 3.2 文本预处理
  • 3.2.1 中文分词
  • 3.2.2 停用词过滤
  • 3.3 信息过滤
  • 3.3.1 评论数据表示
  • 3.3.2 聚类算法
  • 3.3.3 垃圾评论检测
  • 3.4 实验及结果分析
  • 3.4.1 实验数据
  • 3.4.2 实验环境
  • 3.4.3 性能评估
  • 3.4.4 实验结果分析
  • 3.5 本章小结
  • 第四章 基于特征分类的情感倾向分析
  • 4.1 相关工作
  • 4.1.1 特征选择
  • 4.1.2 非负矩阵分解
  • 4.2 基于非负矩阵分解的特征选择
  • 4.2.1 目标函数
  • 4.2.2 迭代规则
  • 4.2.3 特征选择
  • 4.3 基于特征分类的情感倾向分析
  • 4.3.1 建立概念语义空间
  • 4.3.2 在语义空间的投影
  • 4.3.3 情感倾向分析
  • 4.3.4 关于基的个数r 的讨论
  • 4.4 实验结果及分析
  • 4.4.1 实验数据集
  • 4.4.2 实验结果
  • 4.4.3 实验分析
  • 4.5 本章小结
  • 第五章 结论
  • 5.1 主要工作与创新点
  • 5.2 进一步的研究工作
  • 致谢
  • 参考文献
  • 作者在学期间取得的学术成果
  • 附录 A 引理证明
  • 附录 B 实验结果
  • 相关论文文献

    • [1].基于弱监督的情感倾向分析在互联网金融产品中的应用研究[J]. 中外企业家 2017(21)
    • [2].结合话题相关性的热点话题情感倾向研究[J]. 数据分析与知识发现 2017(03)
    • [3].“合·实”语文,有效课堂[J]. 小学教学参考 2017(04)
    • [4].心动思凝一瞥间——作文的拟题策略[J]. 作文成功之路(中) 2017(02)
    • [5].网络舆情意见挖掘:用户评论情感倾向分析研究[J]. 图书情报知识 2013(06)
    • [6].分析面向用户在线评论的情感倾向[J]. 现代经济信息 2019(18)
    • [7].情感倾向分析在舆情监控方面的研究[J]. 微型机与应用 2017(05)
    • [8].微博新词发现及情感倾向判断分析[J]. 山东大学学报(理学版) 2015(01)
    • [9].基于情感倾向的在线评论对购买决策的影响[J]. 商业研究 2015(06)
    • [10].眷恋乡村里的“人性” 鄙弃都市中的“人生”——浅论沈从文作品的基本情感倾向[J]. 学周刊 2012(13)
    • [11].注意新闻表述中的情感倾向[J]. 新闻实践 2011(06)
    • [12].不同情感倾向对医院在线评论有用性的影响分析[J]. 阜阳师范学院学报(自然科学版) 2018(02)
    • [13].学生参与式课堂评价应有情感倾向[J]. 思想政治课教学 2013(01)
    • [14].基于深层结构模型的新词发现与情感倾向判定[J]. 计算机科学 2015(09)
    • [15].“让”字句情感倾向及其情感构式的构成[J]. 现代语文(语言研究版) 2017(10)
    • [16].汉语情感倾向自动分类方法的研究[J]. 软件 2013(11)
    • [17].微博情感倾向算法的改进与实现[J]. 知识管理论坛 2013(09)
    • [18].政府辟谣信息的用户评论及其情感倾向的影响因素研究[J]. 情报科学 2017(12)
    • [19].基于微博文本的情感倾向分析[J]. 软件工程 2016(12)
    • [20].藏文句子的情感倾向研究[J]. 电脑知识与技术 2016(06)
    • [21].一种策略融合的跨语言文本情感倾向判别方法[J]. 中文信息学报 2016(02)
    • [22].探寻文字风格之美[J]. 同学少年 2008(12)
    • [23].基于弱监督迭代法的情感倾向分析[J]. 无线互联科技 2014(03)
    • [24].感情色彩在报道中的分量[J]. 记者摇篮 2009(04)
    • [25].乐活元素1 需要是交际的前提[J]. 中国科学美容 2008(11)
    • [26].文本情感倾向分析[J]. 中文信息学报 2011(06)
    • [27].基于语义特征的文本情感倾向识别研究[J]. 计算机应用研究 2010(03)
    • [28].基于情感倾向的个性化信息推荐算法研究[J]. 计算机光盘软件与应用 2015(02)
    • [29].基于辟谣微博的互动及热门评论情感倾向的辟谣效果研究——以新冠疫情相关辟谣微博为例[J]. 情报杂志 2020(11)
    • [30].网络舆论事件中微博评论情感倾向及程度研究——以“于欢案”为例[J]. 传媒观察 2018(11)

    标签:;  ;  ;  ;  ;  ;  

    面向互联网中文舆情信息的情感倾向分析
    下载Doc文档

    猜你喜欢