基于云平台的分布式索引与检索系统的设计与实现

基于云平台的分布式索引与检索系统的设计与实现

论文摘要

随着计算机技术的发展和互联网时代的到来,互联网上的信息呈爆炸式增长。面对这些海量数据,随着数据文件的增多,索引时间呈线性增长;当承载高访问量或者索引数据规模很大时,检索服务器无法在有限的时间内处理请求。如何快速的建立索引以及如何高效的检索成为极其关键的问题。另一方面,现在的搜索引擎(如Google和百度),检索结果只包含网页数据,而没有结构化数据,用户必须选择某个网页寻找所需要的结构化信息,检索结果不能直观的展现事物的详细信息,用户体验效果不理想。解决这两方面的问题对从互联网上获取信息具有极其重要的意义。为了解决上述问题,本文设计并实现了一种分层的基于云计算平台的分布式索引与检索系统。首先,针对数据量大和单机索引慢的问题,提出了一种使用Lucene并行建立倒排索引的方法,该方法运行在Hadoop集群的多个节点上,使多台机器同时建立索引,大大加快了索引建立的速度。其次,提出了一种基于Katta的分布式检索方法,成功解决了高访问量和索引数据规模大导致的检索慢问题。检索时一方面分级缓存检索结果,如果缓存命中则直接返回缓存结果,未命中时才检索索引;另一方面将索引分布到Katta集群的多个节点上并备份索引文件,检索时多个节点同时搜索,提高了检索速度以及系统的可靠性可扩展性。再次,提出了一种以树形结构展示结构化数据,以类百度和谷歌的形式展示网页数据的数据展示方法,改善了用户查询体验。最后通过对网页数据进行分析,选择包含手机和公司信息的网页数据对系统进行了全面的测试。通过实验及实际应用证明,本文所设计的系统可以很快地对海量数据建立索引,并能够快速地响应查询,查询结果中直观的展示结构化数据,同时具有良好的可扩展性及容错性。

论文目录

  • 摘要
  • Abstract
  • 目录
  • 第1章 绪论
  • 1.1 研究背景及问题提出
  • 1.2 国内外研究现状
  • 1.3 本文主要工作
  • 1.4 本文组织结构
  • 第2章 相关技术概述
  • 2.1 全文检索技术
  • 2.1.1 全文检索的核心技术
  • 2.1.2 全文检索系统
  • 2.1.3 Lucene介绍
  • 2.2 MapReduce编程模型
  • 2.2.1 MapReduce的编程模型
  • 2.2.2 MapReduce的典型应用
  • 2.2.3 MapReduce模型的实现方法
  • 2.3 Hadoop平台架构
  • 2.3.1 Hadoop平台简介
  • 2.3.2 Hadoop分布式文件系统HDFS
  • 2.3.3 Hadoop分布式计算模型MapReduce
  • 2.4 分布式检索技术
  • 2.4.1 分布式计算
  • 2.4.2 分布式检索
  • 2.4.3 Katta原理分析
  • 2.5 本章小结
  • 第3章 分布式索引与检索系统的设计
  • 3.1 系统功能说明
  • 3.1.1 系统功能
  • 3.1.2 与其他系统的关系
  • 3.2 分布式索引与检索系统的体系结构
  • 3.3 并行索引模块设计
  • 3.3.1 并行索引模块的输入和输出
  • 3.3.2 并行索引模块的流程
  • 3.4 分布式检索模块设计
  • 3.4.1 结构化数据检索
  • 3.4.2 非结构化数据检索
  • 3.5 前台展示模块设计
  • 3.5.1 界面设计
  • 3.5.2 结构化数据展示设计
  • 3.5.3 非结构化数据展示设计
  • 3.6 本章小结
  • 第4章 分布式索引与检索系统的实现
  • 4.1 索引的并行创建及发布
  • 4.1.1 使用Lucene建立索引的一般步骤
  • 4.1.2 MapReduce建立索引
  • 4.1.3 索引更新
  • 4.2 分布式检索模块实现
  • 4.2.1 结构化数据检索模块实现
  • 4.2.2 网页数据检索模块的实现
  • 4.3 前台展示实现
  • 4.3.1 结构化数据展示
  • 4.3.2 网页数据展示
  • 4.4 本章小结
  • 第5章 分布式索引与检索系统的部署与测试
  • 5.1 系统部署
  • 5.1.1 软硬件环境
  • 5.1.2 系统部署方案
  • 5.2 系统测试
  • 5.2.1 并行索引模块测试
  • 5.2.2 分布式检索模块测试及对比
  • 5.2.3 测试总结
  • 5.3 本章小结
  • 第6章 结束语
  • 6.1 工作总结
  • 6.2 展望
  • 参考文献
  • 致谢
  • 攻硕期间发表的论文及参加的项目
  • 相关论文文献

    • [1].广告索引[J]. 中国医药工业杂志 2019(11)
    • [2].广告索引[J]. 涂料工业 2019(12)
    • [3].本期广告索引[J]. 岩土工程学报 2019(12)
    • [4].广告索引[J]. 制造业自动化 2019(12)
    • [5].广告索引[J]. 中国医药工业杂志 2019(12)
    • [6].广告索引[J]. 油气田地面工程 2020(02)
    • [7].产品名称索引[J]. 中国公共安全 2019(12)
    • [8].本期广告索引[J]. 岩土工程学报 2020(01)
    • [9].栏目索引[J]. 农业装备与车辆工程 2019(12)
    • [10].第三十一卷(2019)索引[J]. 中外法学 2019(06)
    • [11].本期广告索引[J]. 广东通信技术 2019(11)
    • [12].公司索引[J]. 互联网周刊 2020(01)
    • [13].本期新种索引[J]. 菌物学报 2020(02)
    • [14].广告索引[J]. 香料香精化妆品 2020(01)
    • [15].广告索引[J]. 油气田地面工程 2020(03)
    • [16].广告索引[J]. 山东化工 2020(01)
    • [17].广告索引[J]. 造纸科学与技术 2019(06)
    • [18].本期广告索引[J]. 岩土工程学报 2020(02)
    • [19].信息索引[J]. 中国检验检测 2020(01)
    • [20].广告索引[J]. 铁道技术监督 2020(01)
    • [21].栏目索引[J]. 农业装备与车辆工程 2020(01)
    • [22].广告索引[J]. 水利信息化 2020(01)
    • [23].广告索引[J]. 储能科学与技术 2020(02)
    • [24].公司索引[J]. 电气时代 2020(02)
    • [25].广告、信息索引[J]. 广西蚕业 2019(04)
    • [26].广告索引[J]. 世界临床药物 2020(02)
    • [27].广告索引[J]. 中国医药工业杂志 2020(01)
    • [28].广告索引[J]. 油气田地面工程 2020(04)
    • [29].本期广告索引[J]. 广东化工 2020(06)
    • [30].广告索引[J]. 合成橡胶工业 2020(02)

    标签:;  ;  ;  ;  

    基于云平台的分布式索引与检索系统的设计与实现
    下载Doc文档

    猜你喜欢