基于Hadoop的并行贝叶斯分类算法及工具研究

基于Hadoop的并行贝叶斯分类算法及工具研究

论文摘要

朴素贝叶斯算法(Naive Bayes)是一种基于统计理论的分类算法,其在各种分类任务中有着广泛的应用。针对当前需要对海量的数据进行分类和用于训练的带标记的样本数据非常匮乏等问题,本文选取了文本分类任务作为应用场景,然后对朴素贝叶斯分类算法、半监督学习算法与MapReduce分布式计算模型展开研究,论文的主要工作有:首先,本文介绍了云计算技术的背景和现状。其中本文详细讨论了开源的Hadoop分布式计算系统和MapReduce分布式计算模型,特别是对其分布式原理进行了的解释,同时介绍了基于Hadoop系统的两个分布式数据库系统——Hive项目和HBase项目;其次,本文分析了当前基于朴素贝叶斯算法的几种分类方法,并根据各个方法的特点选择了一种比较适合与MapReduce分布式计算模型相结合从而应用于海量数据的半监督的朴素贝叶斯算法,本文将该算法与MapReduce分布式计算模型相结合提出了一种并行化的半监督的朴素贝叶斯分类算法。然后本文将该算法应用于真实的文本数据,并对实验结果进行了分析,从实验结果可以看出该算法可以有效地应对海量的文本数据,同时利用无标记的文本提高分类器的分类性能;最后,本文介绍了一个基于Hadoop分布式平台的面向海量数据的挖掘工具——Dodo工具箱的设计,本文将会介绍如何使用该工具箱的各项功能、该工具箱的设计开发过程及其技术细节与创新点。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 引言
  • 1.2 云计算及并行计算技术
  • 1.3 朴素贝叶斯算法应用于文本分类任务
  • 1.4 数据挖掘工具
  • 1.5 本文的主要内容及意义
  • 1.6 本文组织
  • 第二章 云计算技术
  • 2.1 Hadoop的起源及其发展过程
  • 2.2 HDFS分布式文件系统
  • 2.2.1 HDFS的愿景和目标
  • 2.2.2 HDFS的系统架构
  • 2.2.3 HDFS系统的高容错性
  • 2.3 MapReduce分布式编程模型
  • 2.3.1 MapReduce编程模型概述
  • 2.3.2 编程模型的架构
  • 2.3.3 Hadoop的MapReduce编程模型的特点
  • 2.4 两个基于Hadoop的分布式应用
  • 2.4.1 HBase简介
  • 2.4.2 Hive项目
  • 2.5 本章小结
  • 第三章 一种并行化的半监督朴素贝叶斯分类算法
  • 3.1 贝叶斯学习与朴素贝叶斯分类器
  • 3.2 两种基于半监督学习的朴素贝叶斯算法
  • 3.2.1 基于EM的半监督朴素贝叶斯文档分类算法
  • 3.2.2 一种不基于EM的半监督朴素贝叶斯分类算法
  • 3.3 并行化的半监督朴素贝叶斯算法——PSNB
  • 3.3.1 PSNB-算法总体框架
  • 3.3.2 PSNB-MR训练阶段算法描述
  • 3.3.3 PSNB-构造分类器及预测阶段描述
  • 3.4 实验设计与运行过程
  • 3.4.1 实验环境
  • 3.4.2 选用的数据集及其格式
  • 3.4.3 实验运行过程
  • 3.5 算法运行结果及其分析
  • 3.5.1 准确度比较
  • 3.5.2 训练时间分析
  • 3.6 本章小结
  • 第四章 面向海量数据的数据挖掘工具的设计与开发
  • 4.1 Dodo工具箱的需求分析与目标
  • 4.1.1 从传统数据挖掘工具到Dodo工具箱
  • 4.1.2 Dodo工具箱的需求分析
  • 4.1.3 Dodo工具箱的目标
  • 4.2 在Dodo工具箱中应用PSNB算法
  • 4.2.1 启动/置Hadoop
  • 4.2.2 上传数据集
  • 4.2.3 选择PSNB算法/置参数
  • 4.2.4 提交任务/取结果
  • 4.3 Dodo工具箱的总体架构与设计细节
  • 4.3.1 Dodo工具箱的总体架构
  • 4.3.2 集群控制模块
  • 4.3.3 数据集管理模块
  • 4.3.4 算法管理模块
  • 4.3.5 任务管理及可视化模块
  • 4.4 Dodo工具箱所应用的关键技术及创新点
  • 4.4.1 为Hadoop系统提供图形化界面
  • 4.4.2 为大数据建立元数据管理系统
  • 4.4.3 将常用的数据挖掘算法并行化
  • 4.4.4 应用MVC编程架构来开发软件
  • 4.5 本章小结
  • 第五章 总结与展望
  • 5.1 总结
  • 5.2 展望
  • 参考文献
  • 攻读硕士学位期间完成的学术成果
  • 攻读硕士学位期间参与的科研课题
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  

    基于Hadoop的并行贝叶斯分类算法及工具研究
    下载Doc文档

    猜你喜欢