基于P2P的被动式网络爬虫系统

基于P2P的被动式网络爬虫系统

论文摘要

随着互联网的快速发展,网上的信息也成几何级数爆炸增长,同时用户对信息的需求也越来越高,他们希望搜索引擎提供最新的数据,最符合要求的信息。传统网络爬虫作为提供搜索引擎原始信息的最基本途径,其性能已经几乎达到瓶颈,逐渐无法适应新型的网络应用需要。本文研究了现有的网络爬虫模型及其目前的研究方向,介绍了各种对传统网络爬虫的改进方法,并对各种方法的优缺点进行了详尽的分析,总结了爬虫面临的主要挑战,如网页更新收录慢,网站访问压力大,无法处理多媒体文件等。为解决这些问题,本文提出一种基于P2P的被动式爬虫系统,从根本上摒弃了传统爬虫的工作模式,它通过客户端-服务器模式由网站推送数据,搜索引擎只负责接收,并且借助于智能体技术和P2P传输,提高了搜索引擎原始网页获取能力。该被动式爬虫分为爬虫客户端和爬虫服务器两部分,其主要功能有:客户端和服务器相互发现及注册,客户端监视网站目录更新,客户端预处理数据并安排传输时间,客户端与服务器数据传输。本文在全能体技术平台的层次架构、通信方式等相关技术基础上,设计并实现了整个P2P被动式爬虫系统。该系统运用XML定义设备及文件的描述,通过单播技术实现了站点发现及注册方法,采用分块的方法实现了文件的传输,在现有的BitTorrent协议基础上提出一种适用于本系统的改进的片段选择算法。通过对实验结果的分析,系统很好的完成了设计目的。本系统采用的P2P被动式爬虫结构占用系统资源少,网站更新收录快,网站访问压力小,数据传输效率高。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 课题背景
  • 1.2 课题研究的目的及意义
  • 1.3 国内外相关研究现状
  • 1.3.1 网络爬虫发展现状
  • 1.3.2 点对点传输技术发展现状
  • 1.3.3 智能体技术发展现状
  • 1.4 本文主要研究内容及论文结构
  • 第2章 网络爬虫技术
  • 2.1 引言
  • 2.2 传统网络爬虫的基本原理
  • 2.2.1 爬虫的基本结构
  • 2.2.2 爬虫的收集策略
  • 2.2.3 爬虫的页面分析搜索策略
  • 2.2.4 爬虫的更新策略
  • 2.3 传统网络爬虫的改进模型
  • 2.3.1 页面更新策略改进
  • 2.3.2 对等网络搜索爬虫
  • 2.4 本章小结
  • 第3章 基于P2P的被动式爬虫系统
  • 3.1 引言
  • 3.2 被动式爬虫的系统结构
  • 3.3 被动式爬虫关键技术研究
  • 3.3.1 信息的描述
  • 3.3.2 新站点的发现
  • 3.3.3 爬虫客户端和服务器的注册
  • 3.3.4 网站内容更新的监控
  • 3.3.5 文件传输时间调度与优化
  • 3.3.6 基于P2P的更新内容下载方法
  • 3.3.7 文件块的选择算法
  • 3.4 本章小结
  • 第4章 基于全能体的P2P爬虫实现
  • 4.1 引言
  • 4.2 全能体的基本概念
  • 4.2.1 全能体思想
  • 4.2.2 全能体与智能体的关系
  • 4.3 全能体技术平台介绍
  • 4.3.1 概况
  • 4.3.2 层次结构
  • 4.3.3 平台中的智能体
  • 4.3.4 虚拟网络连接
  • 4.3.5 通信方式
  • 4.3.6 开发平台的选择
  • 4.3.7 开发平台的改进
  • 4.4 智能体设计
  • 4.4.1 支持系统运行的智能体
  • 4.4.2 实现系统功能的智能体
  • 4.5 本章小结
  • 第5章 系统测试及结果分析
  • 5.1 引言
  • 5.2 实验环境
  • 5.3 爬虫客户端系统资源占用测试
  • 5.4 网站服务器数据传输效率测试
  • 5.5 改进的片段选择算法传输性能测试及分析
  • 5.6 本章小结
  • 结论
  • 参考文献
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  

    基于P2P的被动式网络爬虫系统
    下载Doc文档

    猜你喜欢