基于决策树的海量时序不均衡数据下预测系统的研究

基于决策树的海量时序不均衡数据下预测系统的研究

论文题目: 基于决策树的海量时序不均衡数据下预测系统的研究

论文类型: 博士论文

论文专业: 计算机应用技术

作者: 邵华

导师: 赵宏

关键词: 数据挖掘,知识发现,决策树,欺诈识别,属性构造,计数算子,海量,时序不均衡预测系统

文献来源: 东北大学

发表年度: 2005

论文摘要: 从上世纪末开始,随着数据挖掘技术的逐渐成熟,在欺诈识别中应用数据挖掘技术的研究成为一个重要研究领域。其中海量、时序和不均衡是这类应用的基本特点。对此本文从数据预处理中的属性构造技术、决策树分支测度理论、分支测度的试验方法、数据挖掘预测模型的应用方法论等四个方面对基于决策树的海量时序不均衡预测问题进行了系统和深入的研究工作,提出了一个海量时序不均衡的预测系统。其中,本文作者的创造性工作主要体现在如下几个方面: 数据预处理中的属性构造技术 (1) 提出了属性构造中的属性关系一致等原则。由于无限制属性构造会产生属性关系不一致问题,产生具有欺骗性的数据。属性构造中的属性关系一致等原则规范了数据挖掘应用中属性构造的使用条件,避免了产生的预测模型在实际应用中失效。 (2) 提出了时序计数算子及其增量算法。时序计数算子可以避免时序数据下的属性关系不一致问题。针对该算法过大的计算代价,作者又提出了时序计数算子的增量算法。对于可以提供增量数据的应用系统,由于其源数据的处理周期通常可以满足增量算法的要求,增量算法只需处理少量的增量数据,因此该算法具有很高的应用价值。 决策树分支测度理论 (3) 提出了分支测度的线性距离准则和广义距离准则。首先提出了研究决策树算法和分支测度的应用目的。然后定义了决策树的等价关系并指出了分支测度的可转化性,指出了分支测度的主要参数形式:简化参数矩阵以及不纯度理论在

论文目录:

独创性声明

摘要

ABSTRACT

第一章 绪论

1.1 问题的提出及课题的意义

1.2 研究现状及存在的问题

1.2.1 研究目标的确认

1.2.2 数据预处理中的属性构造技术

1.2.3 决策树分支测度理论

1.2.4 决策树分支测度的试验方法

1.2.5 数据挖掘预测系统的应用方法论

1.3 研究方法、路线和设计目标

1.4 本文组织结构

第二章 基于决策树的数据挖掘预测模型的基本理论

2.1 数据挖掘的应用类型:预测和描述

2.2 数据挖掘过程

2.2.1 定义问题

2.2.2 创建、清理数据和数据预处理

2.2.3 产生数据挖掘模型

2.2.4 模型确认

2.2.5 模式解释

2.2.6 规则监护

2.3 决策树算法

2.3.1 基本概念、术语和记法

2.3.2 归纳算法

2.3.3 属性选择和分支选择

2.3.4 终止条件

2.3.5 噪声与剪枝

2.4 分支测度及其研究方法、理论

2.4.1 简介

2.4.2 熵理论

2.4.3 不纯度测度理论

2.4.4 指数散度测度族和排它偏爱特性

2.4.5 类分割测度族

2.4.6 21种分支测度

2.5 本章小结

第三章 基于时序计数算子的属性构造技术

3.1 研究意义

3.2 属性构造原则

3.3 计数算子

3.4 时序计数算子

3.5 时序计数算子的增量算法

3.6 试验及结果

3.7 本章小结

第四章 分支测度的距离理论

4.1 分支测度与决策树的理论联系

4.2 分支测度的距离准则

4.2.1 分支测度的等价关系

4.2.2 分支测度的参数

4.2.3 三类距离函数

4.2.4 分支测度的线性距离准则

4.2.5 分支测度的兴趣倾向与分支测度的广义距离准则

4.3 广义距离准则与其他分支测度理论的关系

4.3.1 概率密度测度与凹距离函数

4.3.2 不纯度测度理论

4.3.3 指数散度测度族

4.3.4 类分割测度族

4.4 对“针对连续数据”属性选择测度的研究

4.4.1 单峰测度

4.4.2 RELIEF家族

4.4.3 上下文价值测度

4.4.4 可分类性测度

4.5 本章小结

第五章 分支测度的遍历式试验方法

5.1 分支测度的遍历式试验方法

5.2 重新定义的14种分支测度

5.3 观测测度曲面的试验

5.3.1 试验设计

5.3.2 基于简化参数矩阵的数据构造算法

5.3.3 试验1的结果

5.3.4 试验2和3的结果

5.4 测试测度最值和计算复杂度的试验

5.4.1 试验设计

5.4.2 基于列联表的试验数据构造算法

5.4.3 测试最值的试验结果

5.4.4 验证Fisher、GD和MDL符合广义距离最小值子准则试验

5.4.5 测试计算复杂度的试验结果

5.5 测试测度的多分支偏和凹函数性的试验

5.5.1 试验设计

5.5.2 测试多分支偏的试验结果

5.5.3 测试凹函数性的试验结果

5.6 测试测度优势类偏的试验

5.6.1 试验设计

5.6.2 试验结果

5.7 测试总结

5.8 本章小结

第六章 海量时序不均衡预测系统的多策略应用框架

6.1 模型的主要策略

6.2 与神经元网络杂交的决策树算法

6.3 全面支持两段式的数据挖掘过程

6.4 面向不同层次的用户

6.5 支持过程可视化的多种可视技术

6.6 在线欺诈识别和计划审计相结合的欺诈识别策略

6.7 审计收益代价平衡策略

6.8 “委任专家”的多分类器预测模型

6.9 分布式多任务处理模式

6.10 本章小结

第七章 基于决策树的海量时序不均衡预测系统的应用实践

7.1 应用背景及设计目标

7.2 数据处理流程

7.3 系统功能及实现

7.4 模拟测试

7.4.1 测试设计

7.4.2 测试结果

7.4.3 测试结论

7.5 本章小结

第八章 结束语

附录A:4.5节试验1的测度曲面

附录B:4.5节试验2的测度曲面

附录C:4.5节试验3的测度曲面

参考文献

攻读博士期间的主要成果

致谢

作者简介

发布时间: 2005-09-07

参考文献

  • [1].结合可视化与数据挖掘的数据分析方法探究[D]. 马昱欣.浙江大学2017
  • [2].正则化方法在数据挖掘中的应用与研究[D]. 姜彦.湖南大学2015
  • [3].时间序列数据挖掘研究与应用[D]. 王达.浙江大学2004
  • [4].粗糙集理论在数据挖掘领域中的应用[D]. 马昕.浙江大学2003
  • [5].序列数据挖掘的模型和算法研究[D]. 杨虎.重庆大学2003
  • [6].数据挖掘相关算法的研究与平台实现[D]. 李秋丹.大连理工大学2004
  • [7].数据挖掘方法研究及其在中药复方配伍分析中的应用[D]. 李力.西南交通大学2003
  • [8].Rough Set理论及其在数据挖掘中的应用研究[D]. 于洪.重庆大学2003
  • [9].KDD中的几个关键问题研究[D]. 陈莉.西安电子科技大学2003
  • [10].数据挖掘中聚类方法的研究[D]. 王莉.天津大学2004

相关论文

  • [1].海量数据挖掘技术研究[D]. 刘君强.浙江大学2003
  • [2].遥感土地利用/土地覆盖变化信息提取的决策树方法[D]. 王萍.山东科技大学2004
  • [3].数据库中数据挖掘理论方法及应用研究[D]. 罗可.湖南大学2005
  • [4].时序数据挖掘技术及其在水质预测中的应用研究[D]. 王勇.广东工业大学2005
  • [5].关联规则挖掘方法的研究及应用[D]. 刘亚波.吉林大学2005
  • [6].文本挖掘若干关键技术研究[D]. 陈晓云.复旦大学2005
  • [7].结构数据挖掘与处理的若干问题的研究[D]. 王晨.复旦大学2005
  • [8].频繁模式挖掘相关技术研究[D]. 马海兵.复旦大学2005

标签:;  ;  ;  ;  ;  ;  ;  ;  

基于决策树的海量时序不均衡数据下预测系统的研究
下载Doc文档

猜你喜欢