基于互关联后继树搜索引擎的分布式改进

基于互关联后继树搜索引擎的分布式改进

论文摘要

随着互联网应用的发展,越来越多的软件系统以网络应用和服务的形式出现。各种形式的网络环境以及运行于其中的各式应用和服务,组成了形式各异的分布式系统。如何使各种网络应用和服务彼此互通,以及如何让客户系统可以使用一个统一的标准来发现和调用各种网络应用和服务,就成为了一个非常具有现实意义的重要课题。Web服务(Web Services)就是为了解决这一问题由国际标准组织所提出的一系列相关的网络标准协议。搜索引擎作为最为重要的一种网络应用服务,必然要提供分布式调用的机制,使得各种其他网络应用程序可以方便的调用。基于互关联后继树的搜索引擎的原始实现是单机版的,只能在一台机器上安装使用,不具备被分布式调用的能力。本文针对这一问题,利用Web服务技术,对原有实现做出了改进,使其可以用于分布式系统,被其他客户程序以Web服务的方式调用。随着CPU制造业的发展,其制造工艺已经将要达到物理极限,传统的摩尔定律已经失效,人们已经很难获得主频不断提高的CPU。CPU制造商转而将设计重点转向了多核工艺。想单靠CPU主频的提升而获得更好的程序运行性能的方式已经不再可行,取而代之的是一种新型的计算方式:分布式(并行)计算。这种计算方式的主要特点是应用程序在由多个单机节点(每个节点可以是单核或多核CPU)所组成的集群之上,并行的进行分布式计算。这种计算方式可以大大的提高大规模数据处理任务(如搜索引擎索引的建立)的执行速度。本文利用MapReduce这一分布式计算框架,对基于互关联后继树的搜索引擎的原始索引建立方式进行了初步的改进,使得索引的建立可以在分布式集群上以分布式计算的方式并行处理完成,这样就可以有效地缩短索引的建立时间。

论文目录

  • 摘要
  • Abstract
  • 第1章 引言
  • 1.1 研究背景
  • 1.2 本文工作
  • 1.2.1 研究要点
  • 1.2.2 本文结构
  • 第2章 分布式系统及分布式计算综述
  • 2.1 引言
  • 2.2 分布式系统简介
  • 2.2.1 分布式系统概念及其特点
  • 2.2.2 分布式系统实例
  • 2.2.2.1 国际互联网
  • 2.2.2.2 企业内部网
  • 2.2.2.3 移动计算网络
  • 2.2.3 分布式系统编程模型
  • 2.3 分布式计算简介
  • 2.3.1 分布式计算定义
  • 2.3.2 分布式计算模型
  • 2.3.2.1 消息传递
  • 2.3.2.2 客户—服务器范型
  • 2.3.2.3 peer-to-peer范型
  • 2.3.2.4 消息系统范型
  • 2.3.2.5 远程过程调用范型
  • 2.3.2.6 分布式对象范型
  • 2.3.2.7 网络服务范型
  • 2.4 本章总结
  • 第3章 基于互关联后继树搜索引擎的分布式调用方式的改进
  • 3.1 引言
  • 3.2 Web服务简介
  • 3.2.1 Web服务的概念
  • 3.2.2 Web服务模型
  • 3.2.2.1 Web服务体系结构中的角色
  • 3.2.2.2 Web服务体系结构中的操作
  • 3.2.3 Web服务协议栈
  • 3.2.4 SOAP的通信机制
  • 3.3 对基于互关联后继树搜索引擎调用接口的封装
  • 3.3.1 改进后的黄页搜索引擎系统架构
  • 3.3.2 Web服务接口封装的实现
  • 3.3.2.1 Dlls文件的调用
  • 3.3.2.2 一个实际的Web Services对外服务接口
  • 3.3.3 Java客户端调用的实现
  • 3.3.3.1 Axis简介
  • 3.3.3.2 Java调用实例
  • 3.4 分布式调度程序的实现
  • 3.4.1 主要功能
  • 3.4.1.1 与主控服务器的通信
  • 3.4.1.2 与Web应用服务器的通信
  • 3.4.2 实现方法
  • 3.5 本章总结
  • 第4章 基于互关联后继树搜索引擎的分布式并行建索引方式的改进
  • 4.1 引言
  • 4.2 互关联后继树模型简介
  • 4.2.1 互关联后继树的定义
  • 4.2.2 相关算法介绍
  • 4.2.2.1 创建算法
  • 4.2.2.2 原文生成算法
  • 4.3 MapReduce分布式计算框架介绍
  • 4.3.1 MapReduce的产生
  • 4.3.2 MapReduce的编程模式
  • 4.3.3 MapReduce的执行概览
  • 4.3.4 MapReduce的容错措施
  • 4.3.4.1 工作机器(Worker)失效的考虑
  • 4.3.4.2 主控机器(Master)失效的考虑
  • 4.4 Hadoop简介
  • 4.4.1 HDFS简介
  • 4.5 分布式计算方式建索引改进方式的实现
  • 4.5.1 基于互关联后继树词表索引的建立
  • 4.5.2 对待建索引文本内容进行切词(基于词表索引文件)
  • 4.5.3 利用Hadoop对多文本建立索引
  • 4.6 本章总结
  • 第5章 实验
  • 5.1 引言
  • 5.2 Web服务接口封装结果展现
  • 5.2.1 简单调用界面和返回结果展现
  • 5.2.2 实际应用展现
  • 5.3 Web服务并发访问的测试结果
  • 5.4 索引的分布式计算方式的创建
  • 5.4.1 实验环境的搭建
  • 5.4.2 实验所用数据
  • 5.4.3 实验结果分析
  • 5.5 本章总结
  • 第6章 总结与展望
  • 6.1 总结
  • 6.2 展望
  • 参考文献
  • 附录
  • 硕士研究生期间发表的论文和参与的项目
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    基于互关联后继树搜索引擎的分布式改进
    下载Doc文档

    猜你喜欢