不完整数据分类知识发现算法研究

不完整数据分类知识发现算法研究

论文摘要

分类知识发现是数据挖掘的基本任务,也是知识发现中最重要的目标之一。据统计,在机器学习和数据挖掘应用过程中不完整数据的理解需要花费大量的时间和精力,因此不完整数据处理是现实世界中分类知识挖掘必须认真对待的重要问题。本文以提高不完整数据的分类知识发现算法性能为切入点,探索充分利用不完整数据集中隐含信息和提高数据挖掘效率的途径。本文具体的研究工作如下:(1)出于提高算法分类正确率的目的,针对朴素信念分类算法忽略属性变量的投票权重,提出了基于相关系数的加权保守推理规则。此规则尝试用权重量化不完整数据中属性变量与类别之间的相关程度,基于此思路改进了朴素信念分类算法,并在国际公开的数据集上与现有的主要分类算法进行了分类对比实验。实验结果表明在不需要对不完整数据进行填充处理,并由此避免因不合理填充方法引起数据倾斜的情况下,该算法能够充分学习不完整数据中蕴含的隐藏信息,学习性能优于朴素信念分类和朴素贝叶斯分类算法,在某些数据集上与支持向量机不相上下。尤其是在朴素贝叶斯分类准确率表现不佳的样本上,不完整数据条件下的加权朴素信念分类算法得到了较好的分类结果。(2)针对目前半监督分类算法中未考虑缺失属性数据项隐含信息和算法复杂度高的情况,本文提出两阶段半监督加权朴素信念分类模型。此模型将半监督分类过程分为两个阶段的加权朴素信念分类,与直推支持向量机和在国际公开标准数据集上的对比实验表明两阶段半监督加权朴素信念分类模型有效地减少了分类时间,而在其能够明确分类样本上的正确率与直推支持向量机相当。(3)为了增强朴素信念分类算法的鲁棒性,提高其明确分类样本比例低的情况,本文提出基于放松区间优势的不完整数据分类模型。此模型在放松区间优势定义的基础上改进了朴素信念分类,在国际公开标准数据集上的对比实验表明此模型在大多数的数据集上起到了改善朴素信念分类和加权朴素信念分类算法明确分类样本比例的作用,有利于做出确切的分类判断,同时保证了较高的分类正确率,总体分类性能优于朴素信念分类、加权朴素信念分类、朴素贝叶斯算法和最近邻法,但是否优于支持向量机要观察其在不同数据集上的表现。最后,本文将加权朴素信念分类、两阶段加权朴素信念半监督分类算法和放松区间优势朴素信念分类算法分别应用于文体风格识别不完整数据集,取得了较理想的实验结果,验证了算法的有效性。

论文目录

  • 摘要
  • Abstract
  • 1 绪论
  • 1.1 研究背景与意义
  • 1.1.1 知识发现的概念和过程
  • 1.1.2 数据挖掘中的知识表示模式
  • 1.1.3 不完整数据分类知识发现的概念及意义
  • 1.2 国内外研究现状
  • 1.2.1 不完整数据的类型
  • 1.2.2 不完整数据的处理
  • 1.2.3 分类模型构造方法研究现状
  • 1.2.4 不完整数据分类知识发现研究现状
  • 1.2.5 半监督分类知识发现研究现状
  • 1.3 目前研究的不足
  • 1.4 本论文的主要研究内容
  • 1.4.1 研究内容
  • 1.4.2 论文的主要创新点
  • 2 不完整数据加权朴素信念分类算法研究
  • 2.1 不完整数据分类算法
  • 2.1.1 健壮贝叶斯分类
  • 2.1.2 朴素信念分类
  • 2.2 不完整数据加权朴素信念分类算法
  • 2.2.1 相关分析及相关系数
  • 2.2.2 有缺失数据项样本的加权保守推理规则
  • 2.2.3 加权朴素信念算法分类过程
  • 2.3 标准数据集UCI上的对比实验
  • 2.3.1 实验数据集及实验设计
  • 2.3.2 实验结果分析
  • 2.4 文体风格识别数据集上的实证研究
  • 2.4.1 文体风格识别问题分析
  • 2.4.2 文体特征提取及数据准备
  • 2.4.3 文体风格识别特征选择
  • 2.4.4 特征数据项缺失文体识别实验
  • 2.4.5 类别不平衡文体识别实验
  • 2.5 本章小结
  • 3 两阶段半监督加权朴素信念分类算法研究
  • 3.1 问题分析
  • 3.1.1 未标记样本在分类学习中的作用
  • 3.1.2 现有半监督分类方法分析
  • 3.2 两阶段分类方法相关思路
  • 3.2.1 基于规则模型的两阶段分类
  • 3.2.2 两阶段半监督文本分类
  • 3.3 两阶段半监督加权朴素信念分类
  • 3.3.1 TSS-WNC分类主要过程
  • 3.3.2 时间复杂度分析
  • 3.4 在标准数据集UCI上的实验
  • 3.4.1 分类对比实验
  • 3.4.2 实验结果及分析
  • 3.5 文体风格识别两阶段半监督分类实验
  • multiclass分类对比实验'>3.5.1 TSS-WNC与SVMmulticlass分类对比实验
  • 3.5.2 TSS-WNC与TSVM对比实验
  • 3.6 本章小结
  • 4 放松区间优势的朴素信念分类算法研究
  • 4.1 问题分析
  • 4.2 区间优势比较
  • 4.3 基于放松区间优势推理规则的不完整数据分类
  • 4.3.1 放松的区间优势
  • 4.3.2 放松的区间优势推理规则
  • 4.3.3 基于放松区间优势推理规则的分类过程
  • 4.4 在标准数据集UCI上的实验
  • 4.4.1 RCIR-NCC分类对比实验
  • 4.4.2 实验结果分析
  • 4.5 在文体风格识别数据集上的实验
  • 4.6 本章小结
  • 5 结论与研究展望
  • 5.1 论文主要研究工作及结论
  • 5.2 研究展望
  • 参考文献
  • 攻读博士学位期间发表学术论文情况
  • 攻读博士学位期间参与课题情况
  • 致谢
  • 相关论文文献

    • [1].中小银行数据挖掘思路浅析[J]. 金融电子化 2020(05)
    • [2].浅析大数据挖掘中抽样估计法的应用[J]. 现代信息科技 2019(21)
    • [3].基于大数据挖掘的广播电视客户价值分析[J]. 科技视界 2019(34)
    • [4].基于深度学习的工业领域数据挖掘方法及应用[J]. 数字技术与应用 2019(11)
    • [5].基于大数据思维的财务数据挖掘及应用研究[J]. 国际商务财会 2019(11)
    • [6].第16届高级数据挖掘和应用国际会议[J]. 软件工程 2020(04)
    • [7].基于云计算的大数据挖掘体系构建分析[J]. 中外企业家 2020(11)
    • [8].测绘地理信息专业背景下的《时空数据挖掘》课程设计[J]. 南宁师范大学学报(自然科学版) 2020(01)
    • [9].智慧医疗下云数据挖掘在精细化医疗管理中的应用[J]. 中医药管理杂志 2020(03)
    • [10].高校管理人员教育数据挖掘能力培养的实践价值与实施路径[J]. 中国教育信息化 2020(07)
    • [11].大数据环境下的数据挖掘课程教学探索[J]. 中国新通信 2020(06)
    • [12].第16届高级数据挖掘和应用国际会议[J]. 软件工程 2020(05)
    • [13].基于云计算的大数据挖掘内涵及解决方案研究[J]. 数字通信世界 2020(03)
    • [14].基于可拓数据挖掘的建筑立面设计方法研究[J]. 科技传播 2020(08)
    • [15].数据挖掘实践教学环节探索[J]. 科技经济导刊 2020(11)
    • [16].大数据挖掘与云服务模式的构建[J]. 江西电力职业技术学院学报 2020(01)
    • [17].医疗云存储下医院信息数据挖掘及实现技术的探索[J]. 信息与电脑(理论版) 2020(05)
    • [18].高校治理视阈下教育数据挖掘的应用与挑战[J]. 高教论坛 2020(04)
    • [19].大数据挖掘与分析的关键技术研究[J]. 中国新通信 2020(08)
    • [20].浅析数据挖掘[J]. 内江科技 2020(06)
    • [21].教育数据挖掘关键技术应用研究[J]. 轻纺工业与技术 2020(06)
    • [22].物联网海上舰船航行数据挖掘方法[J]. 舰船科学技术 2020(12)
    • [23].云环境中大数据挖掘的有效花费研究[J]. 上海理工大学学报 2020(03)
    • [24].对《零售数据挖掘与应用》课程教学的思考[J]. 知识经济 2020(18)
    • [25].教育数据挖掘和学习分析研究进展[J]. 牡丹江师范学院学报(自然科学版) 2020(03)
    • [26].第16届高级数据挖掘和应用国际会议[J]. 软件工程 2020(08)
    • [27].电商市场中大数据挖掘的分析以及决策探究[J]. 中国新通信 2020(12)
    • [28].关于大数据挖掘中的数据分类算法技术的研究[J]. 电脑知识与技术 2020(20)
    • [29].长输油气管道大数据挖掘与应用[J]. 物联网学报 2020(03)
    • [30].数据挖掘实践课程教学模式的探索[J]. 教育教学论坛 2020(36)

    标签:;  ;  ;  ;  

    不完整数据分类知识发现算法研究
    下载Doc文档

    猜你喜欢