基于P2P的被动式网络爬虫系统

论文摘要

随着互联网的快速发展,网上的信息也成几何级数爆炸增长,同时用户对信息的需求也越来越高,他们希望搜索引擎提供最新的数据,最符合要求的信息。传统网络爬虫作为提供搜索引擎原始信息的最基本途径,其性能已经几乎达到瓶颈,逐渐无法适应新型的网络应用需要。本文研究了现有的网络爬虫模型及其目前的研究方向,介绍了各种对传统网络爬虫的改进方法,并对各种方法的优缺点进行了详尽的分析,总结了爬虫面临的主要挑战,如网页更新收录慢,网站访问压力大,无法处理多媒体文件等。为解决这些问题,本文提出一种基于P2P的被动式爬虫系统,从根本上摒弃了传统爬虫的工作模式,它通过客户端-服务器模式由网站推送数据,搜索引擎只负责接收,并且借助于智能体技术和P2P传输,提高了搜索引擎原始网页获取能力。该被动式爬虫分为爬虫客户端和爬虫服务器两部分,其主要功能有:客户端和服务器相互发现及注册,客户端监视网站目录更新,客户端预处理数据并安排传输时间,客户端与服务器数据传输。本文在全能体技术平台的层次架构、通信方式等相关技术基础上,设计并实现了整个P2P被动式爬虫系统。该系统运用XML定义设备及文件的描述,通过单播技术实现了站点发现及注册方法,采用分块的方法实现了文件的传输,在现有的BitTorrent协议基础上提出一种适用于本系统的改进的片段选择算法。通过对实验结果的分析,系统很好的完成了设计目的。本系统采用的P2P被动式爬虫结构占用系统资源少,网站更新收录快,网站访问压力小,数据传输效率高。

论文目录

摘要

Abstract

第1章绪论

1.1 课题背景

1.2 课题研究的目的及意义

1.3 国内外相关研究现状

1.3.1 网络爬虫发展现状

1.3.2 点对点传输技术发展现状

1.3.3 智能体技术发展现状

1.4 本文主要研究内容及论文结构

第2章网络爬虫技术

2.1 引言

2.2 传统网络爬虫的基本原理

2.2.1 爬虫的基本结构

2.2.2 爬虫的收集策略

2.2.3 爬虫的页面分析搜索策略

2.2.4 爬虫的更新策略

2.3 传统网络爬虫的改进模型

2.3.1 页面更新策略改进

2.3.2 对等网络搜索爬虫

2.4 本章小结

第3章基于P2P的被动式爬虫系统

3.1 引言

3.2 被动式爬虫的系统结构

3.3 被动式爬虫关键技术研究

3.3.1 信息的描述

3.3.2 新站点的发现

3.3.3 爬虫客户端和服务器的注册

3.3.4 网站内容更新的监控

3.3.5 文件传输时间调度与优化

3.3.6 基于P2P的更新内容下载方法

3.3.7 文件块的选择算法

3.4 本章小结

第4章基于全能体的P2P爬虫实现

4.1 引言

4.2 全能体的基本概念

4.2.1 全能体思想

4.2.2 全能体与智能体的关系

4.3 全能体技术平台介绍

4.3.1 概况

4.3.2 层次结构

4.3.3 平台中的智能体

4.3.4 虚拟网络连接

4.3.5 通信方式

4.3.6 开发平台的选择

4.3.7 开发平台的改进

4.4 智能体设计

4.4.1 支持系统运行的智能体

4.4.2 实现系统功能的智能体

4.5 本章小结

第5章系统测试及结果分析

5.1 引言

5.2 实验环境

5.3 爬虫客户端系统资源占用测试

5.4 网站服务器数据传输效率测试

5.5 改进的片段选择算法传输性能测试及分析

5.6 本章小结

结论

参考文献

致谢

基于P2P的被动式网络爬虫系统

论文摘要

论文目录

相关论文文献

猜你喜欢