基于Hadoop平台的日志分析系统

基于Hadoop平台的日志分析系统

论文摘要

随着互联网的迅速发展和广泛普及,web的信息量以惊人的速度增长。目前,World Wide Web己深入到人类社会的每一个角落,成为拥有近亿个工作站,数十亿页面,蕴含着巨大潜在价值知识的分布式信息空间。电子商务网站创造了前所未有的访问量,各种大型网络游戏不断刷新着在线用户数峰值,于此同时这些大型系统都记录下了海量的用户日志。就电子商务网站而言,处理网站访问日志有助于为网站的管理者提供决策支持进而指导网站运营,如改善网站结构提升用户体验;进行关键词营销提升流量、促进转化、提升效益;分析用户行为进行个性化的推荐和营销来提高网站的核心竞争力,在激烈的市场竞争中保持优势。Hadoop是Apache下的一个开源分布式计算平台,它提供简单的编程模型,对大量数据进行分布式处理。Hadoop一般运行在由大量普通计算机组成的集群上。Hadoop框架的核心是分布式文件系统HDFS和分布式计算框架Map/Reduce,为用户提供了系统底层细节透明的分布式基础架构。对电子商务网站日志进行预处理和分析,可以利用集群优势并行处理与分析日志,快速及时的为网站运营团队提供决策数据。某大型网站的分析引擎项目就是为了向企业提供基于流量、来源通路、访客、内容、商品和订单六大对象的数据分析,通过图形报表形式向企业管理者展示网站的核心数据,如动销、转化率、流量和销售集中度等,同时满足企业对于Web Analysis和Business Analysis的需求。本文在分析现有分布式储存和计算等关键技术的基础上,结合对Hadoop平台的分析与研究,设计实现了一种基于分布式计算平台的日志分析系统,并使用本系统进行了网站流量、网站来源、网站访客及订单等分析工作。本文对该系统的各个功能模块进行了详细的阐述并对本文给出的分布式平台的高效性进行了实验比较分析。实验表明,采用该分析系统,通过多个资源完成原先由一个节点承担的工作,无论是在数据处理还是任务执行上,其效率都高于基于单机集中式环境的Web日志分析,另外还可以得出任务的执行时间不仅与集群节点数量有关,还有处理的任务的逻辑复杂度有关。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 选题背景及意义
  • 1.2 与选题有关的研究状况
  • 1.2.1 分布式计算研究现状
  • 1.2.2 云计算平台现状
  • 1.3 本文的研究内容和章节安排
  • 第二章 HADOOP技术介绍
  • 2.1 HADOOP整体架构
  • 2.1.1 HDFS
  • 2.1.2 MAPREDUCE
  • 2.2 HADOOP MAPREDUCE模型调度和容错分析
  • 2.2.1 HADOOP MAPREDUCE的调度机制
  • 2.2.2 HADOOP MAPREDUCE的容错机制
  • 2.3 HADOOP应用
  • 2.3.1 HBASE
  • 2.3.2 HIVE
  • 2.3.3 MAHOUT
  • 2.4 本章总结
  • 第三章 HADOOP平台架构的深入分析
  • 3.1 HDFS架构分析
  • 3.1.1 HDFS的目标
  • 3.1.2 NAMENODE与DATANODE
  • 3.1.3 块的概念与数据复制
  • 3.1.4 文件系统的命名空间
  • 3.1.5 元数据的持久化
  • 3.2 MAPREDUCE架构的深入分析
  • 3.2.1 MAPREDUCE的总体执行流程分析
  • 3.2.2 MAP过程介绍
  • 3.2.3 SHUFFLE过程介绍
  • 3.2.3.1 MAP端
  • 3.2.3.2 REDUCE端
  • 3.2.4 REDUCE过程介绍
  • 3.3 本章小结
  • 第四章 基于日志处理系统设计与实现
  • 4.1 海量日志处理系统
  • 4.1.1 日志收集方式简介
  • 4.1.2 日志功能需求简介
  • 4.1.3 日志处理流程分析
  • 4.1.4 作业的详细设计
  • 4.2 海量日志处理系统的实现流程
  • 4.2.1 日志数据预处理
  • 4.2.2 日志处理流程设计
  • 4.3 MAPREDUCE作业的性能优化
  • 4.3.1 I/O属性类的优化措施
  • 4.3.2 MAPREDUCE属性类的优化措施
  • 4.3.3 引入混合函数
  • 4.3.4 引入混合函数
  • 4.4 本章小节
  • 第五章 日志处理系统平台部署
  • 5.1 方案部署
  • 5.1.1 硬件部署
  • 5.1.2 软件部署
  • 5.1.2.1 操作系统版本
  • 5.1.2.2 核心应用软件版本
  • 5.2 目录结构
  • 5.3 运行实例配置
  • 5.3.1 SSH配置
  • 5.3.2 Slaves和Master配置
  • 5.3.3 Namenode和Datanode配置
  • 5.3.4 Hadoop环境变量
  • 5.3.5 Hadoop的配置项
  • 5.4 结果分析
  • 5.5 本章小节
  • 第六章 结论与展望
  • 6.1 总结
  • 6.2 展望
  • 参考文献
  • 致谢
  • 参与的科研项目
  • 相关论文文献

    标签:;  ;  

    基于Hadoop平台的日志分析系统
    下载Doc文档

    猜你喜欢