主题爬虫URL分析模型与调度技术研究

主题爬虫URL分析模型与调度技术研究

论文摘要

随着互联网的飞速发展,网络上的信息数量激增。面对着数量庞大、纷繁复杂的互联网信息,用户如何可以快速、准确并且全面地查找到自己所需要的信息已经成为一个非常重要的问题。传统的通用搜索引擎面对这一问题已经越来越力不从心,因为一味追求高覆盖率而造成了资源浪费,并且返回给用户的查询结果中经常包含用户不关心的网页。针对这些问题,垂直搜索引擎应运而生,它只收集与用户关心的主题相关的网页。主题爬虫是垂直搜索引擎的重要组成部分,它负责分析网页是否与主题相关和具体的抓取过程。主题爬虫有两个重要问题:如何判断一个待爬取网页是否与主题相关以及如何调度URL。针对这两个问题,本文在国内外相关研究的基础上,分别提出了一种解决方案:传统的基于内容评价的URL分析模型虽然准确率较高,但是效率较低,而且可能给予质量不高的网页较高的得分,而基于链接评价的URL分析模型却完全忽略了网页内容,容易造成“主题漂移”问题。本文将两者有机地结合在一起,并引入用户查询来修正主题描述,设计了一种内容评价与链接评价相结合的URL分析模型,通过实验证明了该模型在准确率等性能上的提高。现有的爬虫URL调度技术都存在着一定的问题,如易形成控制节点瓶颈、URL分配不均衡等。本文针对这些问题设计了一种面向多节点并行爬取的URL调度方案。该方案采用扩展bloom filter模型进行URL去重,采用一致性哈希进行URL分配,采用UDT协议进行URL批量传输。最后将这种方案应用于主题爬虫中,通过实验证明了该方案负载比较均衡,并且可以有效过滤重复的URL。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 课题研究背景
  • 1.2 课题研究意义
  • 1.3 论文研究内容
  • 1.4 论文组织结构
  • 第2章 主题爬虫URL分析模型及调度技术研究现状
  • 2.1 引言
  • 2.2 URL分析模型研究现状
  • 2.2.1 基于内容评价的模型
  • 2.2.2 基于链接评价的模型
  • 2.2.3 基于分类器预测的模型
  • 2.2.4 其它分析模型
  • 2.3 URL调度技术研究现状
  • 2.3.1 Larbin爬虫
  • 2.3.2 北大天网爬虫
  • 2.3.3 基于双哈希算法的调度
  • 2.3.4 基于GNP算法的调度
  • 2.4 本章小结
  • 第3章 内容评价与链接评价相结合的URL分析模型
  • 3.1 引言
  • 3.2 文档预处理过程
  • 3.2.1 中文分词
  • 3.2.2 特征提取
  • 3.2.3 权重计算
  • 3.3 内容评价与链接评价相结合的URL分析模型
  • 3.3.1 QM模型
  • 3.3.2 内容评价与链接评价相结合的URL分析模型
  • 3.4 实验结果与分析
  • 3.4.1 实验步骤
  • 3.4.2 实验结果
  • 3.4.3 实验分析
  • 3.5 本章小结
  • 第4章 面向多节点并行爬取的URL调度方案
  • 4.1 引言
  • 4.2 节点间URL调度方案
  • 4.2.1 URL去重
  • 4.2.2 URL主题相关性计算
  • 4.2.3 URL分配
  • 4.2.4 URL传输
  • 4.3 节点内URL调度方案
  • 4.3.1 DNS查询
  • 4.3.2 队列设置
  • 4.4 实验结果与分析
  • 4.4.1 实验步骤
  • 4.4.2 实验结果
  • 4.4.3 实验分析
  • 4.5 本章小结
  • 结论
  • 参考文献
  • 攻读硕士学位期间发表的论文和取得的科研成果
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  

    主题爬虫URL分析模型与调度技术研究
    下载Doc文档

    猜你喜欢