基于分类器集成技术的数据流分类研究

基于分类器集成技术的数据流分类研究

论文摘要

随着通信和计算机信息技术的发展,许多应用领域,如金融市场、网络监控、传感器网络产生了大量连续到达的数据流。针对数据流的挖掘引起了学者们的广泛关注。但目前大多数数据流挖掘算法都假设数据是以精确的信息出现的,而在实际生活中,由于测量误差、传输延迟、数据缺失等原因,所收集到的数据往往带有大量的不确定性信息。同时,大多数数据流分类算法假定数据流上的数据是完全标记的,而在实际应用中,完全标记数据流需要消耗大量的人力资源。因此,研究处理含有不确定信息的数据流算法以及只需要部分训练样本的数据流算法具有重大意义。本文针对训练数据中类别属性带有不确定性的数据流进行研究,同时对只含正例样本和大量未标记样本的数据流(PU数据流)分类进行探讨,主要研究成果与创新点如下:(1)针对不确定决策树分类器NS-PDT仅能处理离散属性问题,采取遍历连续属性中所有可能分裂点查找最大非确定信息增益的方法对NS-PDT进行扩展,使之能够处理连续属性。(2)针对不确定数据流,提出使用静态分类器集成(Static Classifier Ensemble)算法进行分类。静态分类器集成算法以扩展后的NS-PDT为基分类器,采取加权投票的方式对数据流上的未标记样本进行预测,有着较好的分类能力。(3)在静态分类器集成算法的基础上,提出一种动态分类器集成算法(Dynamic Classifier Ensemble)。动态分类器集成算法根据不同的测试样本决定分类器集合中基分类器的权重,从而提高静态分类器集成的分类能力。(4)针对PU数据流中训练样本仅含有正例样本的问题,提出一种新的动态分类器集成算法DCEPU,DCEPU算法构造了适合于PU学习的验证集,同时设计了新的权重更新方式。能有效处理PU场景下的概念漂移问题。在人工数据集SEA以及Hyperplane,真实数据集RCV1-v2上对不确定数据流的静态分类器集成算法和动态分类器集成算法进行了验证和比较,实验结果表明,两种算法均能有效处理不确定数据流上的概念漂移,其中动态分类器集成算法比静态分类器集成算法能提高2%左右的PCCdist准确率。在RCV1-v2数据集上设计了多个场景模拟概念漂移,检验DCEPU的分类性能,结果表明在PU数据流场合,DCEPU算法比Stacking最大能提高3.4%的F1准确率。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 研究背景和意义
  • 1.1.1 不确定数据流分类
  • 1.1.2 PU 数据流分类
  • 1.2 研究现状
  • 1.2.1 概念漂移
  • 1.2.2 传统数据流分类
  • 1.2.3 不确定数据分类
  • 1.2.4 不确定数据流
  • 1.2.5 PU 数据流分类
  • 1.3 研究内容
  • 1.3.1 不确定数据流的分类
  • 1.3.2 PU 数据流的动态分类器集成方法
  • 1.4 论文组织结构
  • 第二章 不确定数据流的分类器集成算法
  • 2.1 非确定可能性决策树NS-PDT
  • 2.1.1 可能性
  • 2.1.2 非确定性
  • 2.1.3 构建非确定可能性决策树NS-PDT
  • 2.2 扩展NS-PDT 决策树处理连续属性
  • 2.3 不确定数据流分类器集成算法
  • 2.3.1 静态分类器集成算法
  • 2.3.2 动态分类器集成算法
  • 2.4 实验设计与分析
  • 2.4.1 SEA 数据集
  • 2.4.2 Hyperplane 数据集
  • 2.4.3 不确定程度漂移
  • 2.4.4 RCV1-v2 数据集
  • 2.4.5 参数分析
  • 2.4.6 时间与空间分析
  • 2.5 本章小结
  • 第三章 PU 数据流的分类器动态集成
  • 3.1 PU 数据流的分类器集成框架
  • 3.2 PU 数据流的分类器动态集成
  • 3.2.1 文本相似度的度量
  • 3.2.2 验证集的构建
  • 3.2.3 分类器权重的决定
  • 3.3 实验设计与分析
  • 3.3.1 静态概念和概念逐渐漂移
  • 3.3.2 概念突变漂移
  • 3.4 本章小结
  • 第四章 总结与展望
  • 4.1 总结
  • 4.2 展望
  • 参考文献
  • 致谢
  • 作者简介
  • 相关论文文献

    • [1].基于动态分类器集成系统的卷烟感官质量预测方法[J]. 计算机应用与软件 2020(01)
    • [2].基于标准数据集的分类器融合学习模型[J]. 微型电脑应用 2020(04)
    • [3].一种自适应子融合集成多分类器方法[J]. 计算机测量与控制 2019(04)
    • [4].基于多分类器融合的近红外光谱技术鉴别蜂蜜品种[J]. 化学分析计量 2019(03)
    • [5].基于分类器的身份证号码识别研究[J]. 贵州科学 2018(01)
    • [6].一种基于多分类器融合的人体运动行为识别模型[J]. 计算机科学 2016(12)
    • [7].一种基于混淆矩阵的分类器选择方法[J]. 河南理工大学学报(自然科学版) 2017(02)
    • [8].一种代价敏感的三类分类器评估方法的研究与应用[J]. 通化师范学院学报 2017(08)
    • [9].基于多分类器组合的遥感土地利用分类研究[J]. 安徽农业科学 2015(32)
    • [10].多分类器融合与单分类器影像分类比较研究[J]. 矿山测量 2016(04)
    • [11].《未来垃圾分类器》[J]. 幼儿教育 2020(14)
    • [12].基于多分类器组合的城市不透水面提取研究[J]. 城市地理 2017(04)
    • [13].《垃圾分类器》[J]. 辅导员 2016(11)
    • [14].多分类器融合的遥感影像分类方法实验研究[J]. 全球定位系统 2020(05)
    • [15].一种基于核聚类的多分类器选择算法[J]. 电子技术与软件工程 2020(13)
    • [16].基于一种新的级联分类器的目标检测系统[J]. 现代电子技术 2020(01)
    • [17].最佳的分类器链局部检测与挖掘算法[J]. 计算机工程与设计 2017(11)
    • [18].基于多分类器融合与模糊综合评判的滚动轴承故障诊断[J]. 中国科技论文 2016(04)
    • [19].近红外光谱和多分类器融合的葡萄酒品种判别研究[J]. 光谱学与光谱分析 2016(11)
    • [20].基于多分类器集成的语音情感识别[J]. 微电子学与计算机 2015(07)
    • [21].基于集成分类器的流量识别技术研究[J]. 科技视界 2015(33)
    • [22].二叉树型多分类器融合的轴承故障诊断方法[J]. 计算机工程与应用 2015(21)
    • [23].智能垃圾分类器[J]. 科学启蒙 2013(12)
    • [24].一种新的多分类器融合方法[J]. 西南师范大学学报(自然科学版) 2014(01)
    • [25].动态加权投票的多分类器聚合[J]. 现代计算机(专业版) 2014(05)
    • [26].面向用户观点分析的多分类器集成和优化技术[J]. 计算机学报 2013(08)
    • [27].基于证据理论的优化集成分类器融合算法及应用[J]. 化工学报 2012(09)
    • [28].多类不平衡数据上的分类器性能比较研究[J]. 计算机工程 2011(10)
    • [29].基于多分类器融合的语音识别方法研究[J]. 重庆邮电大学学报(自然科学版) 2011(04)
    • [30].基于粗糙集约简的多分类器系统构造方法[J]. 计算机工程与应用 2010(03)

    标签:;  ;  ;  ;  ;  

    基于分类器集成技术的数据流分类研究
    下载Doc文档

    猜你喜欢