基于MPI的分布式搜索引擎系统研究

基于MPI的分布式搜索引擎系统研究

论文摘要

伴随着互联网的普及和网络信息的爆炸式增长,人们查阅资料己不是依靠有限范围内的网站来寻找,而是依靠搜索引擎对信息海洋中的海量数据进行访问了。搜索引擎技术已经成为互联网发展必不可少的核心技术,它的作用越来越重要。然而现有的搜索引擎大多是集中式的,已经不能很好地适应网络的进一步发展,分布式技术是下一代搜索引擎的发展趋势。本文在分析传统搜索引擎技术不足的基础上,提出一种基于MPI(Message Passing Interface)的分布式搜索引擎系统。该系统主要由并行网页抓取和分布式建立索引两部分组成。首先,详细介绍了网页并行抓取的设计和实现,包括它的系统框架、主要模块、运行流程和URL调度算法。URL调度算法采用散列计算,不仅实现了负载平衡,而且在一定程度上避免了冲突。然后,通过分析索引数据库在搜索引擎时效性及有效性方面的重要作用,提出一种多进程并行分词建立索引的方法。该方法以中文网页数据库为基本语料库,采用正向最大匹配法进行中文分词,并用一种高效的倒排索引方式存储索引表。这种方法能够加快索引建立与更新的速度,并且在空间效率上也有较大的提高。分布式中文搜索引擎架设在基于MPI的分布式网络结构之上,利用MPI良好的分布式特性,使搜索引擎从集中式走向分布式。采用静态和动态相结合的任务分配策略,提高了时间和空间效率并使系统易于扩展,实现了网页快速抓取和索引的建立与更新。该搜索引擎能更深度、更广度地搜索互联网上用户可用的信息,更准确、更迅速的返回用户查询结果。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 论文选题的目的和意义
  • 1.2 本文主要内容和工作
  • 第二章 MPI 并行程序设计
  • 2.1 集群系统
  • 2.1.1 集群概述
  • 2.1.2 集群系统优点
  • 2.2 MPI 简介
  • 2.2.1 MPI 的定义
  • 2.2.2 MPI 的产生
  • 2.2.3 MPI 的基本组成函数
  • 2.2.4 MPI 通信分析
  • 2.3 MPI 并行程序设计模式
  • 2.3.1 主从模式
  • 2.3.2 对等模式
  • 2.4 MPI 的优点
  • 2.5 并行计算环境性能评判标准
  • 2.6 MPCH2 环境配置与测试
  • 2.6.1 MPICH2 安装与配置
  • 2.6.2 MPICH2 测试与分析
  • 2.7 小结
  • 第三章 分布式搜索引擎
  • 3.1 搜索引擎简介
  • 3.2 搜索引擎工作原理
  • 3.2.1 搜索器
  • 3.2.2 索引器
  • 3.2.3 检索器
  • 3.2.4 查询接口
  • 3.3 搜索引擎的性能指标
  • 3.3.1 索引建立的方法
  • 3.3.2 检索的功能
  • 3.3.3 检索的效果
  • 3.3.4 受欢迎程度
  • 3.4 现有搜索引擎的缺陷
  • 3.5 搜索引擎的发展方向
  • 3.6 分布式搜索引擎
  • 3.6.1 分布式搜索引擎研究现状
  • 3.6.2 分布式搜索引擎框架设计
  • 3.6.3 分布式搜索引擎优势
  • 3.7 小结
  • 第四章 网页并行抓取
  • 4.1 网页抓取器结构
  • 4.1.1 控制模块
  • 4.1.2 抓取模块
  • 4.2 网页并行爬行的引入
  • 4.2.1 并行爬行的优点
  • 4.2.2 并行爬行的问题
  • 4.2.3 并行爬行模式
  • 4.3 网页并行爬行系统框架
  • 4.4 分布式任务分配
  • 4.4.1 URL 分配规则
  • 4.4.2 一种基于散列的URL 分配方法
  • 4.5 单节点爬行器组件
  • 4.5.1 URL 分析模块
  • 4.5.2 下载模块
  • 4.5.3 链接提取
  • 4.5.4 URL 去重过滤
  • 4.6 实验结果及分析
  • 4.7 小结
  • 第五章 分布式索引的构建
  • 5.1 中文分词算法
  • 5.1.1 基于词典的正向最大匹配中文分词法
  • 5.1.2 词库组织
  • 5.1.3 切分方法
  • 5.2 分布式切词算法
  • 5.3 关键词索引建立
  • 5.3.1 索引数据库结构设计
  • 5.3.2 建立索引
  • 5.3.3 索引检索
  • 5.4 并行切词负载平衡
  • 5.4.1 负载平衡的基本概念
  • 5.4.2 负载平衡算法
  • 5.4.3 动态负载平衡模型
  • 5.4.4 实现过程
  • 5.5 实验结果及分析
  • 5.6 小结
  • 第六章 工作总结与展望
  • 6.1 总结
  • 6.2 展望
  • 致谢
  • 参考文献
  • 附录:作者在攻读硕士学位期间发表的论文
  • 相关论文文献

    • [1].并行计算与MPI研究[J]. 无线互联科技 2017(12)
    • [2].MPI并行计算应用[J]. 信息通信 2015(08)
    • [3].三值光学计算机MPI编程技术在超算集群中的使用[J]. 上海大学学报(自然科学版) 2014(02)
    • [4].基于ActiveX和MPI优化注射成型保压压力[J]. 模具工业 2009(05)
    • [5].基于MPI的分布式水循环模型并行计算性能研究[J]. 水文 2020(05)
    • [6].基于MPI的注塑模浇口位置优化设计[J]. 模具技术 2011(03)
    • [7].Mpi-空间与偏序集[J]. 数学学报 2011(06)
    • [8].面向MPI集合操作的定制化片上网络[J]. 计算机工程 2017(06)
    • [9].基于MPI的分水岭与区域合并结合算法的并行化研究[J]. 电脑编程技巧与维护 2017(13)
    • [10].基于MPI的注塑模具计算机辅助技术研究[J]. 塑料工业 2015(11)
    • [11].MPI并行的节点大地电磁三维有限元正演[J]. 物探化探计算技术 2016(03)
    • [12].基于天河互连MPI聚合通信归约操作卸载优化[J]. 计算机工程与科学 2020(11)
    • [13].MPI技术在胶州湾水质预报系统的应用研究[J]. 计算机工程与设计 2013(06)
    • [14].基于MPI的地下水数值模拟并行算法研究[J]. 安徽农业科学 2012(12)
    • [15].基于MPI的并行程序设计[J]. 中国新技术新产品 2011(20)
    • [16].基于MPI的注塑成型熔接痕分析及优化[J]. 机械设计与制造 2008(06)
    • [17].基于可控源音频大地电磁二维反演的MPI并行算法研究[J]. 科学技术与工程 2016(31)
    • [18].一种基于MPI的河流生态修复模拟并行算法[J]. 地学前缘 2014(04)
    • [19].基于MPI二次开发及正交试验的注塑制品熔接痕性能的优化设计[J]. 模具技术 2012(01)
    • [20].基于MPI的静态并行算法库[J]. 中国西部科技 2011(14)
    • [21].基于MPI的海量数据线性拟合并行算法研究[J]. 南京师大学报(自然科学版) 2010(04)
    • [22].MPI并行计算性能的研究[J]. 四川大学学报(自然科学版) 2009(06)
    • [23].基于MPI和正交试验的翘曲变形研究[J]. 塑料科技 2017(11)
    • [24].分布式存储系统中基于MPI的并行计算编程模型[J]. 价值工程 2012(36)
    • [25].基于MPI的并行医学图像处理[J]. 计算机工程与科学 2009(03)
    • [26].基于MPI的典型西南山区耕地空间分布影响因素研究——以重庆石柱县为例[J]. 水土保持研究 2014(02)
    • [27].基于MPI的三维波动方程有限元法并行正演模拟[J]. 石油物探 2009(03)
    • [28].一种MPI并行编程教学实验环境系统的架构[J]. 实验技术与管理 2008(04)
    • [29].基于MPI百万级家庭网关模拟的设计与实现[J]. 计算机工程与设计 2017(09)
    • [30].基于MPI的时间域激发极化法2.5维正则化并行反演[J]. 地球物理学进展 2015(06)

    标签:;  ;  ;  ;  ;  ;  

    基于MPI的分布式搜索引擎系统研究
    下载Doc文档

    猜你喜欢