基于增强语义和随机游走的分类算法研究

基于增强语义和随机游走的分类算法研究

论文摘要

随着互联网的快速发展,每时每刻都产生着大量有价值的数据,数据的自动分类已经成为研究热点之一。针对不同的数据和不同的需求,往往需要不同的处理方法。本文针对评论数据提出了基于增强语义的分类算法SeMep,针对多标签数据提出了基于随机游走的分类算法MLRW,主要工作包括以下三点:1.提出了基于增强语义的分类算法SeMep。以乐评数据为例,除了评论自身携带的文本信息,SeMep还通过分析与被评论音乐对象相关的语义音乐信息来增强乐评分类的预测精度。对于类别未知的评论,我们提出一种启发式算法,用于给出该评论属于不同类别的概率。同时,我们给出了一种通过度量分类器类别散度来有效合并多分类器输出结果的方法。此外,SeMep还包括了一个可选的基于规则的语义后处理过程,用于调整某些类别的预测概率。2.提出了基于随机游走的分类算法MLRW。MLRW将多标签数据映射成随机游走图,并在图上应用随机游走过程,其输出结果表征了标签未知数据与每个标签的相似性。MLRW同时提供了多标签分类和多标签排序问题的解决方案。作为多标签排序问题的解,MLRW在预测类别未知数据时,通过结合条件概率模型,给出该数据具有每个标签的概率分布;作为多标签分类问题的解,MLRW将原始的多标签问题转换为若干的二值分类问题,进而应用传统的单标签算法得到预测结果。3.基于Weka平台,本文设计并实现了SeMep和MLRW的原型系统并进行了详细的实验。针对SeMep的实验结果表明SeMep能够有效且高效的预测乐评属于每个类别的概率,基于分类散度的分类器组合方法能够达到比子分类器单独使用时更好的分类结果。我们在公开的文本、图像、视频和生物化学数据集上将MLRW和许多最新提出的多标签算法进行了细致的对比。实验结果表明,MLRW能够有效并且高效的解决多标签排序和分类问题,综合来看,MLRW的输出结果优于已有的多标签方法。

论文目录

  • 摘要
  • Abstract
  • 第1章 引言
  • 1.1 研究背景与课题意义
  • 1.1.1 基于增强语义的分类算法
  • 1.1.2 基于随机游走的分类算法
  • 1.2 研究内容与主要贡献
  • 1.2.1 本文研究内容
  • 1.2.2 本文主要贡献
  • 1.3 本文组织结构
  • 第2章 相关工作
  • 2.1 音乐评论分类
  • 2.1.1 评论挖掘
  • 2.1.2 乐评挖掘
  • 2.1.3 文本分类
  • 2.2 多标签分类
  • 2.2.1 基于问题转化的方法
  • 2.2.2 基于算法转化的方法
  • 2.2.3 随机游走
  • 2.3 本章小结
  • 第3章 基于增强语义的乐评分类算法SeMep
  • 3.1 预备知识
  • 3.1.1 音乐内容分类
  • 3.1.2 语义音乐字典
  • 3.2 乐评内容分类模型SeMep的建立
  • 3.2.1 语义预处理
  • 3.2.2 面向分类的短语选择
  • 3.2.2.1 问题描述
  • 3.2.2.2 向量构造模型
  • 3.2.2.3 Na¨ ve SVM COPS算法
  • 3.2.2.4 启发式COPS算法
  • 3.2.3 混淆矩阵的计算
  • 3.3 乐评内容分类模型SeMep的应用
  • 3.3.1 预测流程概述
  • 3.3.2 基于散度的分类结果合并
  • 3.3.3 基于规则的语义后处理
  • 3.4 本章小结
  • 第4章 基于随机游走的多标签分类算法MLRW
  • 4.1 预备知识
  • 4.2 MLRWR:多标签排序问题解决方案
  • 4.2.1 概要介绍
  • 4.2.2 多标签随机游走图
  • 4.2.3 多标签随机游走模型
  • 4.2.3.1 多标签随机游走图系列
  • 4.2.3.2 随机游走
  • 4.2.3.3 初始参数的确定
  • 4.2.3.4 多标签随机游走模型示例
  • 4.2.4 条件概率模型
  • 4.3 MLRWC:多标签分类问题解决方案
  • 4.3.1 概述
  • 4.3.2 将多标签问题转化为单标签问题
  • 4.4 讨论
  • 4.4.1 MLRW算法中随机游走的收敛性
  • 4.4.2 复杂度分析
  • 4.4.3 图剪枝
  • 4.5 本章小结
  • 第5章 基于Weka平台的原型系统与实验
  • 5.1 SeMep原型系统与相关实验
  • 5.1.1 原型系统与实验数据集
  • 5.1.2 对比方法
  • 5.1.2.1 基线方法
  • 5.1.2.2 Na¨ ve SeMep方法
  • 5.1.2.3 启发式SeMep方法
  • 5.1.3 语义预处理
  • 5.1.4 基线方法与Na¨ ve SeMep方法的对比试验
  • 5.1.5 Na¨ ve SeMep方法和启发式SeMep方法的对比试验
  • 5.1.6 基于规则的语义后处理
  • 5.2 MLRW原型系统与相关实验
  • 5.2.1 MLRW原型系统和实验数据集
  • 5.2.2 多标签度量指标
  • 5.2.3 多标签排序方法MLRWR的预测精度
  • 5.2.4 多标签分类方法MLRWC的准确性
  • 5.2.5 二值分类器对MLRWC预测精度的影响
  • 5.2.6 验证集大小对MLRWC预测精度的影响
  • 5.2.7 k-剪枝对MLRWC的影响
  • 5.2.8 MLRWC与其它算法的性能对比
  • 5.3 本章小结
  • 第6章 总结与展望
  • 6.1 总结
  • 6.2 工作展望
  • 参考文献
  • 致谢
  • 个人简历、在学期间发表的学术论文与研究成果
  • 相关论文文献

    标签:;  ;  ;  ;  

    基于增强语义和随机游走的分类算法研究
    下载Doc文档

    猜你喜欢