主动式半监督学习算法的研究

主动式半监督学习算法的研究

论文摘要

半监督学习是目前机器学习与数据挖掘的研究热点,通过较少的监督信息(如标注样本点或成对约束信息)和大量的未标注数据提供的数据分布信息,能对数据集内的点进行正确归类。大量研究表示,高质量的监督信息有助于聚类,而监督信息的选择不当可能会造成聚类结果的下降,因此监督信息的选择得到人们的关注。本文将半监督学习与主动式学习相结合,通过主动获取高质量的监督信息来改善聚类的效果。主动式学习策略一方面通过获取具有最高信息量的点的类别,来加快学习过程;另一方面,通过确认一些不确定性较高的成对约束信息,也能快速提高归类效果。本文的工作大体分为三个部分:首先,提出了一种混合约束的半监督最近邻学习算法,标注点和成对约束信息以不同方式同时发挥作用,取得了较好的效果。在该算法中,标注点用于计算未标注点与各类别已知数据集之间的距离,而成对约束信息控制未标注点的类别分配过程。其次,提出了基于邻域不一致性的主动式学习策略,包括数据点的学习和成对约束的学习两个方面。在数据点的学习中,提出了两种学习策略,即基于Citation-KNN的打分策略和基于桥点的学习策略并与另外两种算法进行了对比;在成对约束的学习中,提出了纠错式学习算法ALEC。通过实际数据集上的实验验证了以上学习策略的有效性。最后,对大数据集给出了预处理方法,通过提取骨架的方式得到数据集的代表点集合,在代表点集合上进行聚类后,对原数据集进行标注。初步实验表明,通过对原始数据集的压缩,可以在保持CRI稳定的同时大幅降低聚类所需的时间。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 研究背景
  • 1.2 国内外研究现状
  • 1.3 本文研究内容和组织结构
  • 第二章 准备知识
  • 2.1 监督信息的结构与检验
  • 2.2 约束与图的着色
  • 2.3 密度敏感距离
  • 2.4 谱聚类的相关知识
  • 2.5 实验数据集
  • 2.6 评价指标
  • 2.7 小结
  • 第三章 混合约束的半监督最近邻学习算法
  • 3.1 RATIO 排序算法
  • 3.2 混合约束的半监督最近邻学习算法
  • 3.3 算法举例
  • 3.4 小结
  • 第四章 基于邻域不一致性的主动学习策略
  • 4.1 关于数据点的学习
  • 4.1.1 基于 Citation‐KNN 的打分策略
  • 4.1.2 基于桥点的学习策略
  • 4.1.3 相关工作
  • 4.1.3.1 基于奇异点的策略
  • 4.1.3.2 基于依赖 Gain 模型方法
  • 4.1.4 实验及结果分析
  • 4.2 关于成对约束的学习
  • 4.2.1 纠错式主动学习算法 ALEC
  • 4.2.2 实验及结果分析
  • 4.2.2.1 实验方案 1
  • 4.2.2.2 实验方案 2
  • 4.3 针对大数据集的处理
  • 4.4 小结
  • 第五章 总结与展望
  • 参考文献
  • 致谢
  • 攻读学位期间发表的学术论文目录
  • 附录一 图目录
  • 相关论文文献

    • [1].六个全球历史土地覆盖数据集数据来源的对比分析[J]. 北京师范大学学报(自然科学版) 2019(06)
    • [2].基于多数据集动态潜变量的在线性能分级评估方法[J]. 控制理论与应用 2020(03)
    • [3].代表性人口空间分布数据集的精度评价——以2010年广东省为例[J]. 热带地理 2020(02)
    • [4].高速公路场景下基于深度学习的数据集建立[J]. 数字技术与应用 2020(02)
    • [5].构建图形图像数据集的方法概述[J]. 计算机产品与流通 2020(08)
    • [6].多国议会数据集及平台建设研究[J]. 情报工程 2020(02)
    • [7].国际主要科学数据集检索平台对比研究[J]. 情报工程 2020(01)
    • [8].实验室化学品纯化方法数据集[J]. 中国科学数据(中英文网络版) 2020(02)
    • [9].化学药物数据集[J]. 中国科学数据(中英文网络版) 2019(01)
    • [10].中亚地区陆表物候逐年数据集(1982–2015)[J]. 全球变化数据学报(中英文) 2020(01)
    • [11].南京百年人物数据集[J]. 中国科学数据(中英文网络版) 2020(03)
    • [12].替代计量学视角下科学数据集价值的定量测度研究[J]. 情报理论与实践 2020(09)
    • [13].数据集采器在临床护理工作中的应用价值探讨[J]. 基层医学论坛 2017(12)
    • [14].医院感染监测基本数据集的建立及作用[J]. 中华医院感染学杂志 2016(11)
    • [15].TextGen:用于新型存储系统基准测试的真实文本数据集生成方法(英文)[J]. Frontiers of Information Technology & Electronic Engineering 2016(10)
    • [16].卫星气候数据集的应用研究与发展分析[J]. 地球信息科学学报 2015(11)
    • [17].用于生命之树重建的数据集[J]. 中国科学数据(中英文网络版) 2017(03)
    • [18].中国有毒动物数据集[J]. 中国科学数据(中英文网络版) 2017(04)
    • [19].基于次序依赖的电力数据集修复[J]. 电测与仪表 2019(24)
    • [20].粤港澳湾区1:50000斗门镇幅工程地质调查及岩土样品试验数据集[J]. 中国地质 2019(S2)
    • [21].全集水网数据集更新方法研究[J]. 经纬天地 2020(01)
    • [22].智能城市产业资讯汇总[J]. 智能城市 2020(11)
    • [23].基于神经网络的机器阅读理解综述[J]. 软件学报 2020(07)
    • [24].2002–2010年中国典型生态系统辐射及光能利用效率数据集[J]. 中国科学数据(中英文网络版) 2019(01)
    • [25].基于镶嵌数据集的海量数据存储管理——以青海湖流域为例[J]. 地球环境学报 2013(04)
    • [26].基于数据集相似性的分类算法推荐[J]. 计算机应用与软件 2016(08)
    • [27].数字数据集揭示文化遗产促进城市可持续发展[J]. 世界遗产 2016(05)
    • [28].洞庭湖区堤垸1949—2013空间分布数据集[J]. 全球变化数据学报(中英文) 2017(01)
    • [29].云南省标准化降水蒸散指数数据集(1998-2012)[J]. 全球变化数据学报(中英文) 2017(04)
    • [30].1979~1998年工业腐蚀失效分析数据集[J]. 中国科学数据(中英文网络版) 2017(01)

    标签:;  ;  ;  

    主动式半监督学习算法的研究
    下载Doc文档

    猜你喜欢