基于半监督学习的时间序列分类研究与实现

基于半监督学习的时间序列分类研究与实现

论文摘要

时间序列广泛存在于现实生活的各个领域,包括语音识别、金融管理等。而实现时间序列的分类也是数据挖掘领域的重要内容。传统的时间序列序列方法主要有两类,即基于相似度与基于模型的方法。这些分类方法属于监督的学习算法,需要大量的标记时间序列去训练以得到可靠的分类器;但是大量的标记序列却很难获得,而如果只使用初始标记序列训练分类器,则得到的分类器的准确率会非常低;而相反,现实中未标记时间序列却很容易获得,因此,结合标记序列和大量未标记序列的信息来训练分类器的半监督学习方法成为研究的热点。实现基于半监督学习的时间序列分类为本文探讨的重点,针对基于隐马尔可夫模型(HMM)在标记时间序列缺少的情况下所出现训练得到的模型分类准确率低的问题,研究使用自训练算法的迭代学习过程来扩大标记序列数据集,并在扩大的标记集上训练HMM使训练得到的模型更加准确和可靠。此外,还研究采用协同训练算法的迭代过程来扩大标记集,其中在协同训练中采用HMM和最近邻分类这两个基分类器,在每次的迭代中,这两个基分类器将分别选择数据进行标记。由于标记集中会产生误标记的情况,故研究使用基于粗糙集上下近似的方法来对扩大的标记集进行编辑。另一方面,对线性邻居标签传递这种半监督学习算法在构造各个数据点之间的近邻图时存在的缺点进行改进,利用粗糙K均值聚类对数据集的聚类结果信息来对K最近邻邻居选择方式进行修改和调整,以使构造的近邻图更加合理。通过在UCR时间序列数据集上进行了大量的对比实验,实验结果表明,使用Self-Training及Co-Training过程扩大标记集后训练得到的HMM的分类准确率更高。以Synthetic Control为例,在每类标记个数为4时,使用Self-Training过程提高了8.11%,而使用Co-Training则提高了15.19%;同时,改进后的基于粗糙K均值聚类(K取4)的LNP方法比原LNP方法提高了7.24%。

论文目录

  • 摘要
  • Abstract
  • 1 绪论
  • 1.1 研究背景与意义
  • 1.2 国内外研究现状
  • 1.3 本文的工作
  • 2 时间序列相关技术
  • 2.1 时间序列概述
  • 2.2 时间序列符号化
  • 2.3 常用时间序列分类方法
  • 2.3.1 基于相似度的方法
  • 2.3.2 基于模型的方法
  • 3 基于半监督学习的时间序列分类
  • 3.1 自训练及其协同训练算法
  • 3.2 基于半监督学习的HMM分类方法
  • 3.3 实验结果及分析
  • 4 利用Co-Training扩大标记时间序列
  • 4.1 粗糙集编辑方法
  • 4.2 运用Co-Training进行HMM分类
  • 4.3 实验结果及分析
  • 4.3.1 使用Co-Training的实验结果
  • 4.3.2 使用编辑方法前后的实验结果
  • 5 改进的线性邻居标签传递算法
  • 5.1 线性邻居标签传递算法
  • 5.2 聚类方法和粗糙K均值聚类
  • 5.2.1 聚类方法
  • 5.2.2 粗糙K均值聚类
  • 5.3 粗糙聚类的LNP方法
  • 5.4 实验结果及分析
  • 结论
  • 参考文献
  • 攻读硕士学位期间发表学术论文情况
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    基于半监督学习的时间序列分类研究与实现
    下载Doc文档

    猜你喜欢