应用于海量数据处理分析的云计算平台搭建研究

应用于海量数据处理分析的云计算平台搭建研究

论文摘要

在因特网高速发展、上网人群急剧增长的今天,对于那些提供网络服务的互联网公司来说,每天都会有海量的信息需要处理,用以分析出用户的需求、各种产品的效果等,往往某些数据分析都会有时间上的要求。对于现实中存储空间和处理时间的需求,传统的数据库系统已很难满足。本文的主要目的是构建一个成本较低的分布式海量数据处理系统来存储和处理这些数据。以这个问题作为出发点,本文在分析现有分布式计算和存储等关键技术基础上,结合对Hadoop云计算技术的研究和校园网实际软硬件条件,为满足自身的业务需求,提出了一种基于云计算技术的数据处理模型,并从数据结构设计、系统模块化、程序流程化和编程技术平台等方面研究该模型的开发方法,最后将该模型应用于分布式海量数据搜索引擎。经过以上研究得知,Hadoop云计算平台的可靠性、高效性、可伸缩性满足了分布式搜索引擎的技术需求,因此本文选用Hadoop系统作为该应用系统的分布式计算平台。本文对传统搜索引擎中爬行、索引、搜索过程中的每一步骤进行详细分析,并改进了其功能模块,将非顺序执行的步骤分解为两个子任务:数据计算任务及数据合并任务。同时,应用MapReduce编程思想,把所有数据计算任务都封装到Map函数中,把所有数据合并任务都封装到Reduce函数中。研究工作主要在于将改进的搜索引擎系统部署在廉价计算机构成的Hadoop云计算环境中,使之具有较快的响应速度、较高的可靠性及扩展性。本文的主要特点是将经研究提出的模型与实际应用业务相结合,利用前沿的分布式框架技术较好地满足了项目需求,并将该模型部署到实际分布式环境当中,用实验结果来检验系统的实用价值,比如高效率、低成本、可拓展性和易维护性等。

论文目录

  • 摘要
  • ABSTRACT
  • 1 绪论
  • 1.1 论文研究背景
  • 1.2 主要研究内容
  • 1.3 论文研究目标
  • 2 云计算系统关键技术
  • 2.1 计算系统模型简介
  • 2.1.1 Google文件系统GFS
  • 2.1.2 IBM的蓝云
  • 2.1.3 Apache的Hadoop
  • 2.2 分布式系统基本算法
  • 2.2.1 存储算法Bigtable
  • 2.2.2 MapReduce算法
  • 3 Hadoop的整体架构
  • 3.1 Hadoop分布式文件系统(HDFS)
  • 3.1.1 NameNode和DataNode
  • 3.1.2 命名空间
  • 3.1.3 数据复制
  • 3.1.4 通信协议
  • 3.1.5 空间回收
  • 3.2 MapReduce并行编程模型
  • 3.2.1 映射
  • 3.2.2 混合
  • 3.2.3 归约
  • 3.2.4 MapReduce执行流程
  • 4 海量数据搜索模型设计
  • 4.1 模型总体结构
  • 4.2 子系统设计
  • 4.2.1 分布式爬行子系统的设计
  • 4.2.2 分布式索引子系统的设计
  • 4.2.3 分布式查询子系统的设计
  • 4.3 模型执行流程
  • 4.3.1 爬行流程
  • 4.3.2 索引流程
  • 4.3.3 查询流程
  • 5 海量数据搜索模型实现
  • 5.1 分布式爬行子系统的实现
  • 5.1.1 主要模块
  • 5.1.2 URL选择与分割模块
  • 5.1.3 网页获取模块
  • 5.1.4 网页解析模块
  • 5.1.5 链接过滤模块
  • 5.1.6 数据存储模块
  • 5.2 分布式索引子系统的实现
  • 5.2.1 多格式文档统一处理模块
  • 5.2.2 中文分词模块
  • 5.2.3 分布式索引生成模块
  • 5.3 分布式查询子系统的实现
  • 5.3.1 分布式查询器模块
  • 6 海量数据搜索模型测试与分析
  • 6.1 模型部署
  • 6.1.1 硬件配置
  • 6.1.2 软件环境
  • 6.1.3 软件部署
  • 6.1.4 启动Hadoop
  • 6.2 系统性能测试与分析
  • 6.2.1 文件读写测试
  • 6.2.2 检索功能测试
  • 6.2.3 系统分析
  • 7 结论
  • 8 展望
  • 9 参考文献
  • 10 攻读硕士学位期间发表的论文
  • 11 致谢
  • 相关论文文献

    • [1].云计算平台下企业信息化深度融合及优化资源方案[J]. 江西科学 2019(06)
    • [2].面向企业私有云计算平台的安全框架研究[J]. 无线互联科技 2019(21)
    • [3].高性能计算平台在高校中的应用与建议[J]. 现代信息科技 2020(08)
    • [4].基于云计算平台的会计信息化建设研究[J]. 中国市场 2020(18)
    • [5].云计算平台在高职现代学徒制教学中的应用研究[J]. 科技资讯 2020(27)
    • [6].云计算平台安全能力评估体系和评估指标研究[J]. 信息安全研究 2020(11)
    • [7].服务于智慧校园的云计算平台研究与设计[J]. 电子世界 2019(17)
    • [8].试论大数据及云计算平台的应用[J]. 电脑编程技巧与维护 2018(07)
    • [9].大数据和云计算平台应用研究[J]. 价值工程 2018(34)
    • [10].浅析云计算平台的安全设计[J]. 信息通信 2016(11)
    • [11].云计算平台数字证书的研究[J]. 南京广播电视大学学报 2016(04)
    • [12].关于虚拟化云计算平台的能耗管理[J]. 电子测试 2016(24)
    • [13].虚拟化技术在云计算平台中的实际应用[J]. 信息与电脑(理论版) 2016(22)
    • [14].企业私有云计算平台的安全构架[J]. 一重技术 2017(01)
    • [15].基于虚拟化技术的云计算平台安全机制解析[J]. 信息与电脑(理论版) 2016(24)
    • [16].云计算平台安全体系及安全应对措施[J]. 科技创新导报 2017(03)
    • [17].高校公共计算平台建设模式的探索[J]. 中小企业管理与科技(中旬刊) 2017(02)
    • [18].云计算平台上的数据管理技术与应用[J]. 电脑知识与技术 2017(08)
    • [19].虚拟化云计算平台的能耗管理的探讨[J]. 中国战略新兴产业 2017(20)
    • [20].虚拟化云计算平台的能耗管理研究[J]. 科技风 2017(10)
    • [21].随机任务在云计算平台中能耗的优化管理方法[J]. 中国战略新兴产业 2017(28)
    • [22].多媒体云计算平台的关键技术[J]. 电子技术与软件工程 2017(17)
    • [23].石油企业大数据的云计算平台研究[J]. 通讯世界 2017(21)
    • [24].基于云计算平台下电子商务创新模式研究[J]. 贵阳学院学报(自然科学版) 2015(04)
    • [25].虚拟化云计算平台的能耗管理探讨[J]. 无线互联科技 2016(01)
    • [26].虚拟化云计算平台的能耗管理分析[J]. 信息化建设 2016(04)
    • [27].云计算平台安全测试与评估系统及关键技术研究[J]. 信息通信 2016(06)
    • [28].浅析云计算平台下微课程的实践运用[J]. 科技展望 2016(23)
    • [29].关于虚拟云计算平台的能耗管理刍议[J]. 电子制作 2015(11)
    • [30].基于云计算平台的高职院校数据中心建设初探[J]. 科技创新导报 2015(21)

    标签:;  ;  

    应用于海量数据处理分析的云计算平台搭建研究
    下载Doc文档

    猜你喜欢