面向垂直搜索的网络爬虫设计与实现

面向垂直搜索的网络爬虫设计与实现

论文摘要

随着互联网的高速发展,互联网上的数据也在超乎人想象的急剧增长,人们对数据和信息的需求也在持续的增长。搜索引擎可以帮助人们从海量的数据中检索出需要的信息和数据,所以搜索引擎已经成为人们日常生活中必不可少的工具之一,它也影响了人们日常的记忆习惯。通过分析当今全球主流的搜索引擎包括Google、百度、Yahool、Bing、搜狗等,我们发现这些主流的搜索引擎都包含了三个主要的部分:网络爬虫、索引、前端搜索,这三部分也是在工业界认可的三个主要部分。但是随着人们对信息的要求程度越来越高,目前搜索引擎的通用搜索已经不能满足人们的专门的需求,因为通用搜索引擎搜索结果信息量大,深度不够。基于此,垂直搜索大力发展起来。由于垂直搜索的专业性,以及对专属领域的深度,深受广大网民的青睐。强大的搜索引擎离不开数据的支持,而搜索引擎数据来源主要通过网络爬虫来获取,所以网络爬虫对于搜索引擎至关重要。本文面向垂直搜索引擎,搭建畅邮系统,提供通用搜索、图书搜索和视频搜索三种服务。首先,根据校园网络状况设计畅邮系统的架构,聚合三种服务于同一入口,并使畅邮系统能够实现不同网段的无缝访问。其次,调研当前主流开源网络爬虫,根据畅邮系统的需求选定Heritrix为网络爬虫原型,并分析其源码。在此基础上,对Heritrix进行高度定制,并解决异步加载抓取的问题。然后,根据Heritrix的运行状态和特点,设计并实现了适合垂直搜索引擎增量抓取的ChangyouSpider,它轻便、高效,以弥补Heritrix的不足,由此本文结合Heritrix和ChangyouSpider使用作为垂直搜索引擎抓取的网络爬虫。最后,对抓取的数据从全面性、杂质率、异步加载抓取、页面有效性的测试验证了爬虫的功能和性能。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 背景与意义
  • 1.2 本文研究内容及贡献
  • 1.2.1 面临挑战
  • 1.2.2 提出问题
  • 1.2.3 解决方案
  • 1.3 论文组织结构
  • 第二章 相关技术研究
  • 2.1 搜索引擎相关技术
  • 2.1.1 网络爬虫
  • 2.1.2 索引技术
  • 2.1.3 排序技术
  • 2.2 本文用到的开源软件
  • 2.2.1 Jsoup
  • 2.2.2 Gson
  • 2.2.3 Nginx
  • 2.2.4 Varnish
  • 2.2.5 Lighttpd
  • 2.2.6 Tomcat
  • 2.3 爬虫选型
  • 2.3.1 Nutch
  • 2.3.2 Heritrix
  • 2.3.3 ChangyouSpider
  • 2.4 本章小结
  • 第三章 畅邮系统架构设计
  • 3.1 畅邮系统架构设计
  • 3.2 服务器选型
  • 3.2.1 负载均衡服务器
  • 3.2.2 缓存服务器
  • 3.2.3 web服务器
  • 3.2.4 图片服务器
  • 3.3 本章小结
  • 第四章 Heritrix源码分析
  • 4.1 Heritrix系统概况
  • 4.2 Heritrix系统源码分析
  • 4.2.1 Heritrix中央控制器
  • 4.2.2 Heritrix调度器
  • 4.2.3 Heritrix处理器链
  • 4.2.4 Heritrix多线程
  • 4.3 本章小结
  • 第五章 基于Heritrix爬虫系统的设计和实现
  • 5.1 基于Heritrix的爬虫系统设计
  • 5.1.1 图书搜索
  • 5.1.2 视频搜索
  • 5.2 基于Heritrix爬虫系统的实现
  • 5.2.1 基于图书抓取的Heritrix的定制
  • 5.2.2 基于视频抓取Heritrix的定制
  • 5.2.3 异步加载网页的处理和抓取
  • 5.3 抓取的更新策略
  • 5.3.1 图书抓取更新策略
  • 5.3.2 视频抓取更新策略
  • 5.4 自动化抓取
  • 5.5 爬虫报警机制
  • 5.6 本章小结
  • 第六章 ChangyouSpider系统的设计和实现
  • 6.1 ChangyouSpider系统架构
  • 6.2 ChangyouSpider工作流程
  • 6.2.1 数据的抓取
  • 6.2.2 数据的解析
  • 6.2.3 数据的处理
  • 6.3 ChangyouSpider自动化抓取
  • 6.4 本章小结
  • 第七章 抓取数据的验证
  • 7.1 测试环境
  • 7.1.1 测试环境平台
  • 7.1.2 测试指标和参数
  • 7.2 爬虫系统功能和性能验证
  • 7.2.1 抓取的全面性
  • 7.2.2 抓取的杂质率
  • 7.2.3 异步加载抓取的测试
  • 7.2.4 链接有效性
  • 7.3 本章小结
  • 第八章 总结与展望
  • 8.1 本文工作总结
  • 8.2 今后工作展望
  • 参考文献
  • 致谢
  • 攻读学位期间发表的学术论文和科研情况
  • 相关论文文献

    标签:;  ;  ;  

    面向垂直搜索的网络爬虫设计与实现
    下载Doc文档

    猜你喜欢