论文摘要
随着互联网的快速发展,网上的信息也成几何级数爆炸增长,同时用户对信息的需求也越来越高,他们希望搜索引擎提供最新的数据,最符合要求的信息。传统网络爬虫作为提供搜索引擎原始信息的最基本途径,其性能已经几乎达到瓶颈,逐渐无法适应新型的网络应用需要。本文研究了现有的网络爬虫模型及其目前的研究方向,介绍了各种对传统网络爬虫的改进方法,并对各种方法的优缺点进行了详尽的分析,总结了爬虫面临的主要挑战,如网页更新收录慢,网站访问压力大,无法处理多媒体文件等。为解决这些问题,本文提出一种基于P2P的被动式爬虫系统,从根本上摒弃了传统爬虫的工作模式,它通过客户端-服务器模式由网站推送数据,搜索引擎只负责接收,并且借助于智能体技术和P2P传输,提高了搜索引擎原始网页获取能力。该被动式爬虫分为爬虫客户端和爬虫服务器两部分,其主要功能有:客户端和服务器相互发现及注册,客户端监视网站目录更新,客户端预处理数据并安排传输时间,客户端与服务器数据传输。本文在全能体技术平台的层次架构、通信方式等相关技术基础上,设计并实现了整个P2P被动式爬虫系统。该系统运用XML定义设备及文件的描述,通过单播技术实现了站点发现及注册方法,采用分块的方法实现了文件的传输,在现有的BitTorrent协议基础上提出一种适用于本系统的改进的片段选择算法。通过对实验结果的分析,系统很好的完成了设计目的。本系统采用的P2P被动式爬虫结构占用系统资源少,网站更新收录快,网站访问压力小,数据传输效率高。
论文目录
摘要Abstract第1章 绪论1.1 课题背景1.2 课题研究的目的及意义1.3 国内外相关研究现状1.3.1 网络爬虫发展现状1.3.2 点对点传输技术发展现状1.3.3 智能体技术发展现状1.4 本文主要研究内容及论文结构第2章 网络爬虫技术2.1 引言2.2 传统网络爬虫的基本原理2.2.1 爬虫的基本结构2.2.2 爬虫的收集策略2.2.3 爬虫的页面分析搜索策略2.2.4 爬虫的更新策略2.3 传统网络爬虫的改进模型2.3.1 页面更新策略改进2.3.2 对等网络搜索爬虫2.4 本章小结第3章 基于P2P的被动式爬虫系统3.1 引言3.2 被动式爬虫的系统结构3.3 被动式爬虫关键技术研究3.3.1 信息的描述3.3.2 新站点的发现3.3.3 爬虫客户端和服务器的注册3.3.4 网站内容更新的监控3.3.5 文件传输时间调度与优化3.3.6 基于P2P的更新内容下载方法3.3.7 文件块的选择算法3.4 本章小结第4章 基于全能体的P2P爬虫实现4.1 引言4.2 全能体的基本概念4.2.1 全能体思想4.2.2 全能体与智能体的关系4.3 全能体技术平台介绍4.3.1 概况4.3.2 层次结构4.3.3 平台中的智能体4.3.4 虚拟网络连接4.3.5 通信方式4.3.6 开发平台的选择4.3.7 开发平台的改进4.4 智能体设计4.4.1 支持系统运行的智能体4.4.2 实现系统功能的智能体4.5 本章小结第5章 系统测试及结果分析5.1 引言5.2 实验环境5.3 爬虫客户端系统资源占用测试5.4 网站服务器数据传输效率测试5.5 改进的片段选择算法传输性能测试及分析5.6 本章小结结论参考文献致谢
相关论文文献
标签:被动式论文; 客户端服务器论文; 更新策略论文; 网络爬虫论文;