基于确定话题和情感极性的博客文本聚类研究

基于确定话题和情感极性的博客文本聚类研究

论文摘要

随着互联网的发展,人们获取信息的需求不断增加,而面对庞大的网络信息量,同时也给人们获得需要的信息带来极大的困难。网络信息中极为典型的是博客文本,或简称博客。博客中常包含大量评论,包含了博客作者对人,事物,事件等的情感和态度(统称为观点)。这些情感和态度包含着大量有价值的信息。了解这些“观点”、“情感极性”或“态度”可以帮助人们获得更有价值的信息,从而进行有效的抉择,如告诉人们应当购买何种商品,帮助商家制定市场策略,帮助政府掌握网络舆情。分析和挖掘博客中蕴含的博客作者的观点成为当前数据挖掘领域研究热点之一。观点挖掘是一种从论坛、讨论组等内容中挖掘所表达的观点的技术。一般观点挖掘有四个子任务:(1)话题抽取(Topic Extraction)(2)观点持有者识别(Holder Identification)(3)陈述的选择(Claim Selection)(4)情感分析(Sentiment Analysis)。观点挖掘的研究国外起步早,主要针对英文文本;国内针对中文文本的观点挖掘研究起步晚,很多基础性工作尚在进行中。目前,绝大部分的研究把情感极性(或者称为情感倾向,即人对客观事物的好、恶,褒、贬,支持、反对等态度)分为2类(正向和负向)或3类(正向、中立和负向)。众所周之,人的情感是丰富的,仅仅使用这2、3种,不足以表达蕴含在博客文本中的作者的情感,需要用更多类的情感极性来表达。目前,基于作者,日期和话题等对博客文本进行聚类研究已有先例,而基于情感极性对中文博客文本聚类研究仍鲜见报道。本文主要根据博客文本中的作者的情感极性,采用聚类技术,将中文博客文本进行分组处理,使组内文本的情感极性相近,组间文本具有不同情感极性,并达到细分情感极性的目的。经研究发现,尽管博客文本中包含了丰富的情感,不过这些情感可能很分散,而博客搜索引擎搜索到的博客搜索结果项(指标题和摘要部分)虽然包含的情感比较少,但是这些情感倾向性相对集中。所以,本次研究使用博客搜索结果来作为博客文本的精练表达,从而以此为研究对象。本文首先设计一个“爬虫”,用它来获取Google博客由此得到确定话题(本文实验部分选用了两个话题“建国大业”与“刘翔”)相关的结果。然后,使用人工标注的方法根据情感极性把采集到的数据集标注成3类(正向,中立和负向)。接着,使用中科院ICTCLA分词工具对搜索结果数据集进行分词预处理,并使用基于词典的方法提取情感词(文中采用了Hownet和NTUSD两部中文情感词词典)。紧接着,使用Adam Schenker, Horst Bunke等提出的“标准的基于图的文本表示模型”(简称为GBR模型)和本文作者设计的“整合图文本表示模型”(简称为SoB-graph模型)分别表示数据集文本;在此基础上使用Adam Schenker, Horst Bunke等使用的基于图文本表示模型的K-Medoids算法,进行情感聚类分析。最后,使用簇中心方法表示了聚类情感簇,所谓簇中心即同类情感词的折衷情感词,并使用"Ground Truth"方法的三个常用度量:精度(Precision),熵(Entropy)和边缘索引(Rand Index)对聚类结果进行评介。实验结果表明:使用作者提出的SoB-graph模型进行的聚类分析性能较好。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 课题的研究背景
  • 1.2 课题的研究意义
  • 1.2.1 理论意义
  • 1.2.2 现实意义
  • 1.3 国内外发展现状
  • 1.3.1 Blog挖掘
  • 1.3.2 情感分析
  • 1.4 本文的主要工作
  • 1.5 论文组织结构
  • 第2章 相关理论与技术
  • 2.1 网络爬虫技术
  • 2.2 中文分词技术
  • 2.2.1 最大匹配方法
  • 2.2.2 最大概率方法
  • 2.2.3 基于矩阵约束法的中文分词方法
  • 2.2.4 基于EM算法的中文自动分词方法
  • 2.2.5 基于改进BP网络的中文分词方法
  • 2.3 情感极性的计算
  • 2.3.1 词或短语层次的情感计算
  • 2.3.2 句子层次的情感计算
  • 2.3.3 文档层次的情感计算
  • 2.4 文本的表示方法
  • 2.4.1 布尔模型
  • 2.4.2 向量空间模型
  • 2.4.3 基于图的文本表示法
  • 2.4.4 潜在语义检索
  • 2.5 文本相似性度量方法
  • 2.5.1 基于向量表示的文本相似性度量
  • 2.5.2 基于图模型的文本相似性度量
  • 2.6 聚类技术
  • 2.6.1 划分方法
  • 2.6.2 层次方法
  • 2.6.3 基于密度的方法
  • 2.6.4 基于网格的方法
  • 2.6.5 基于模型的方法
  • 2.7 本章小结
  • 第3章 相关聚类分析模型的建立
  • 3.1 数据的获取
  • 3.1.1 Google Blog Search简介
  • 3.1.2 Google Blog Search Crawler
  • 3.2 手工标注
  • 3.3 数据预处理
  • 3.3.1 分词
  • 3.3.2 提取情感词
  • 3.4 文本表示
  • 3.5 基于情感极性的文本聚类
  • 3.6 聚类结果的表示与评价
  • 3.6.1 聚类结果的表示
  • 3.6.2 聚类结果的评价
  • 3.7 本章小结
  • 第4章 整合的基于图的文本表示模型
  • 4.1 博客情感图(SOB-GRAPH)的文本表示模型
  • 4.2 基于博客情感图(SOB-GRAPH)的聚类算法
  • 4.3 情感极性的细分
  • 4.4 词语语义相似度计算
  • 4.4.1 词语的相似度定义
  • 4.4.2 词语相似度计算方法
  • 4.4.3 基于知网的相似度计算方法
  • 4.5 本章小结
  • 第5章 实验
  • 5.1 实验设置
  • 5.2 实验步骤
  • 5.3 实验数据
  • 5.4 聚类结果的表示
  • 5.4.1 "建国大业"聚类结果的表示
  • 5.4.2 "刘翔"聚类结果的表示
  • 5.5 性能比较和实验结果的分析
  • 5.6 本章小结
  • 第6章 总结与展望
  • 6.1 总结
  • 6.2 展望
  • 致谢
  • 参考文献
  • 攻读硕士学位期间发表的论文和参研项目情况
  • 相关论文文献

    • [1].机器学习方法在文本聚类中的应用[J]. 电子世界 2018(22)
    • [2].基于特征空间的文本聚类[J]. 计算机技术与发展 2017(09)
    • [3].基于深度特征语义学习模型的垃圾短信文本聚类研究[J]. 现代计算机(专业版) 2018(07)
    • [4].基于语义相似度的文本聚类研究[J]. 现代图书情报技术 2016(12)
    • [5].基于社交网络中非平衡文本聚类方法的研究[J]. 科技创新导报 2016(13)
    • [6].结合语义与统计的特征降维短文本聚类[J]. 计算机工程 2012(22)
    • [7].文本聚类研究[J]. 电脑知识与技术 2009(20)
    • [8].一种结合主题模型与段落向量的短文本聚类方法[J]. 华东理工大学学报(自然科学版) 2020(03)
    • [9].基于文本聚类与情感分析的群租房微博舆情量化研究[J]. 图书情报研究 2019(01)
    • [10].一种基于t-分布随机近邻嵌入的文本聚类方法[J]. 南京大学学报(自然科学) 2019(02)
    • [11].多特征融合文本聚类的新闻话题发现模型[J]. 国防科技大学学报 2017(03)
    • [12].基于频繁项集的海量短文本聚类与主题抽取[J]. 计算机研究与发展 2015(09)
    • [13].面向路线图编制的模糊均值文本聚类挖掘方法研究[J]. 河北工业大学学报 2011(03)
    • [14].基于文本聚类的煤矿安全隐患类型挖掘研究[J]. 中国安全科学学报 2019(03)
    • [15].基于竞争学习的大规模微博文本聚类[J]. 江苏科技大学学报(自然科学版) 2017(06)
    • [16].基于特征翻译和潜在语义标引的跨语言文本聚类实验分析[J]. 现代图书情报技术 2014(01)
    • [17].一种改进的文本聚类方法[J]. 自动化技术与应用 2008(09)
    • [18].动态索引树文本聚类方法中节点阀值的优化[J]. 电脑开发与应用 2010(09)
    • [19].基于卫星装配工艺的短文本聚类研究[J]. 软件工程 2020(04)
    • [20].可增量的用户短文本聚类方法研究[J]. 计算机技术与发展 2017(11)
    • [21].基于信息损失度的文本聚类研究[J]. 内蒙古师范大学学报(自然科学汉文版) 2017(05)
    • [22].基于余弦距离选取初始簇中心的文本聚类研究[J]. 计算机工程与应用 2018(10)
    • [23].具有词判别力学习能力的短文本聚类概率模型研究[J]. 计算机应用研究 2018(12)
    • [24].面向在线社交网络用户生成内容的饮食话题发现研究[J]. 现代图书情报技术 2016(10)
    • [25].基于信息融合的网页文本聚类距离选择方法[J]. 广州大学学报(自然科学版) 2016(01)
    • [26].深度词汇网络学习的文本聚类研究[J]. 北京化工大学学报(自然科学版) 2015(02)
    • [27].一种基于本体的文本聚类方法[J]. 吉林大学学报(理学版) 2010(02)
    • [28].有标记的文本聚类方法研究[J]. 舰船电子工程 2009(04)
    • [29].基于关键词的学术文本聚类集成研究[J]. 情报学报 2019(08)
    • [30].敏感话题发现中的增量型文本聚类模型[J]. 信息网络安全 2015(09)

    标签:;  ;  ;  ;  ;  

    基于确定话题和情感极性的博客文本聚类研究
    下载Doc文档

    猜你喜欢