不完整数据分类知识发现算法研究

论文摘要

分类知识发现是数据挖掘的基本任务,也是知识发现中最重要的目标之一。据统计,在机器学习和数据挖掘应用过程中不完整数据的理解需要花费大量的时间和精力,因此不完整数据处理是现实世界中分类知识挖掘必须认真对待的重要问题。本文以提高不完整数据的分类知识发现算法性能为切入点,探索充分利用不完整数据集中隐含信息和提高数据挖掘效率的途径。本文具体的研究工作如下：(1)出于提高算法分类正确率的目的,针对朴素信念分类算法忽略属性变量的投票权重,提出了基于相关系数的加权保守推理规则。此规则尝试用权重量化不完整数据中属性变量与类别之间的相关程度,基于此思路改进了朴素信念分类算法,并在国际公开的数据集上与现有的主要分类算法进行了分类对比实验。实验结果表明在不需要对不完整数据进行填充处理,并由此避免因不合理填充方法引起数据倾斜的情况下,该算法能够充分学习不完整数据中蕴含的隐藏信息,学习性能优于朴素信念分类和朴素贝叶斯分类算法,在某些数据集上与支持向量机不相上下。尤其是在朴素贝叶斯分类准确率表现不佳的样本上,不完整数据条件下的加权朴素信念分类算法得到了较好的分类结果。(2)针对目前半监督分类算法中未考虑缺失属性数据项隐含信息和算法复杂度高的情况,本文提出两阶段半监督加权朴素信念分类模型。此模型将半监督分类过程分为两个阶段的加权朴素信念分类,与直推支持向量机和在国际公开标准数据集上的对比实验表明两阶段半监督加权朴素信念分类模型有效地减少了分类时间,而在其能够明确分类样本上的正确率与直推支持向量机相当。(3)为了增强朴素信念分类算法的鲁棒性,提高其明确分类样本比例低的情况,本文提出基于放松区间优势的不完整数据分类模型。此模型在放松区间优势定义的基础上改进了朴素信念分类,在国际公开标准数据集上的对比实验表明此模型在大多数的数据集上起到了改善朴素信念分类和加权朴素信念分类算法明确分类样本比例的作用,有利于做出确切的分类判断,同时保证了较高的分类正确率,总体分类性能优于朴素信念分类、加权朴素信念分类、朴素贝叶斯算法和最近邻法,但是否优于支持向量机要观察其在不同数据集上的表现。最后,本文将加权朴素信念分类、两阶段加权朴素信念半监督分类算法和放松区间优势朴素信念分类算法分别应用于文体风格识别不完整数据集,取得了较理想的实验结果,验证了算法的有效性。

论文目录

摘要

Abstract

1 绪论

1.1 研究背景与意义

1.1.1 知识发现的概念和过程

1.1.2 数据挖掘中的知识表示模式

1.1.3 不完整数据分类知识发现的概念及意义

1.2 国内外研究现状

1.2.1 不完整数据的类型

1.2.2 不完整数据的处理

1.2.3 分类模型构造方法研究现状

1.2.4 不完整数据分类知识发现研究现状

1.2.5 半监督分类知识发现研究现状

1.3 目前研究的不足

1.4 本论文的主要研究内容

1.4.1 研究内容

1.4.2 论文的主要创新点

2 不完整数据加权朴素信念分类算法研究

2.1 不完整数据分类算法

2.1.1 健壮贝叶斯分类

2.1.2 朴素信念分类

2.2 不完整数据加权朴素信念分类算法

2.2.1 相关分析及相关系数

2.2.2 有缺失数据项样本的加权保守推理规则

2.2.3 加权朴素信念算法分类过程

2.3 标准数据集UCI上的对比实验

2.3.1 实验数据集及实验设计

2.3.2 实验结果分析

2.4 文体风格识别数据集上的实证研究

2.4.1 文体风格识别问题分析

2.4.2 文体特征提取及数据准备

2.4.3 文体风格识别特征选择

2.4.4 特征数据项缺失文体识别实验

2.4.5 类别不平衡文体识别实验

2.5 本章小结

3 两阶段半监督加权朴素信念分类算法研究

3.1 问题分析

3.1.1 未标记样本在分类学习中的作用

3.1.2 现有半监督分类方法分析

3.2 两阶段分类方法相关思路

3.2.1 基于规则模型的两阶段分类

3.2.2 两阶段半监督文本分类

3.3 两阶段半监督加权朴素信念分类

3.3.1 TSS-WNC分类主要过程

3.3.2 时间复杂度分析

3.4 在标准数据集UCI上的实验

3.4.1 分类对比实验

3.4.2 实验结果及分析

3.5 文体风格识别两阶段半监督分类实验

multiclass分类对比实验'>3.5.1 TSS-WNC与SVM_multiclass分类对比实验

3.5.2 TSS-WNC与TSVM对比实验

3.6 本章小结

4 放松区间优势的朴素信念分类算法研究

4.1 问题分析

4.2 区间优势比较

4.3 基于放松区间优势推理规则的不完整数据分类

4.3.1 放松的区间优势

4.3.2 放松的区间优势推理规则

4.3.3 基于放松区间优势推理规则的分类过程

4.4 在标准数据集UCI上的实验

4.4.1 RCIR-NCC分类对比实验

4.4.2 实验结果分析

4.5 在文体风格识别数据集上的实验

4.6 本章小结

5 结论与研究展望

5.1 论文主要研究工作及结论

5.2 研究展望

参考文献

攻读博士学位期间发表学术论文情况

攻读博士学位期间参与课题情况

致谢

不完整数据分类知识发现算法研究

论文摘要

论文目录

相关论文文献

猜你喜欢