一种面向主题的分布式爬虫系统的研究与实现

一种面向主题的分布式爬虫系统的研究与实现

论文摘要

Internet技术的发展使网络中蕴含的信息资源和网络用户迅速激增,庞大的用户群催生了互联网的各种搜索应用。快速、高效、准确地检索信息,只靠单台计算机,无论是处理能力还是存储容量都无法胜任。若采用大型机,则效费比相对变低。因此,研究和开发廉价的搜索技术的需求越来越大,而近几年新兴的云计算技术无疑提供了一种契机。鉴于云计算的重要性,学术界和企业界均在开展相关技术的研究和应用,基于云计算的搜索引擎是其中重要的应用之一。基于此,本文在云计算开放平台hadoop的基础上开展了面向主题的分布式爬虫技术的研究,利用服务器搭建起hadoop应用环境,并在其上成功地实现了面向主题的爬虫系统。本文首先从云计算技术架构出发,探讨了云计算领域里最为著名的两个分布式文件系统;第二,对云计算领域常用的key/value数据库之一的Berkeley DB做了深入的研究;第三,对网络爬虫Heritrix做了详细的源代码分析,为以后改造Heritrix从而生成本系统的主题爬虫做好准备。在上述工作的基础上,本文提出了基于字典、文本分析和网页结构三个主题模型,基于这些主题模型,提出了面向主题的分布式爬虫系统的整体架构,确定了分布式爬虫系统的主控节点和爬虫子节点的内部架构,深入研究并应用了其中的关键技术,最终实现了该爬虫系统。在实验室提供的环境下,对整个系统所做的大量测试表明,该系统达到了设计目标,具有良好的可用性和可扩展性。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 课题研究背景
  • 1.2 本文的研究工作
  • 1.3 本文的组织结构
  • 第2章 相关理论与技术
  • 2.1 云计算技术架构
  • 2.1.1 Google分布式文件系统GFS
  • 2.1.2 hadoop分布式文件系统HDFS
  • 2.2 key/value数据库——Berkeley DB
  • 2.3 Heritrix分析
  • 2.4 数据的判重
  • 2.5 hadoop的使用
  • 2.5.1 配置ssh无密码访问
  • 2.5.2 安装hadoop
  • 2.6 本章小结
  • 第3章 面向分布式爬虫的主题模型关键技术研究
  • 3.1 基于字典的主题模型关键技术研究
  • 3.1.1 基于字典的主题模型的研究方案
  • 3.1.2 基于字典的主题模型的优缺点
  • 3.2 基于文本分析的主题模型关键技术研究
  • 3.2.1 基于文本分析的主题模型的整体结构
  • 3.2.2 文本相关度检查器的研究方案
  • 3.2.3 链接相关度检查的研究方案
  • 3.3 基于网页结构的主题模型关键技术研究
  • 3.3.1 主题模型的总体架构
  • 3.3.2 主题模型抽取器的研究方案
  • 3.3.3 主题相关度判别器的方案
  • 3.3.4 链接相关性判别器的研究方案
  • 3.4 本章小结
  • 第4章 分布式爬虫系统关键技术研究
  • 4.1 面向主题的分布式爬虫系统整体架构
  • 4.2 主控节点
  • 4.2.1 主控节点的整体架构
  • 4.2.2 URL判重
  • 4.2.3 主控节点的数据管理
  • 4.2.4 任务的分发
  • 4.3 爬虫子节点
  • 4.3.1 爬虫子节点的整体架构
  • 4.3.2 抓取数据格式信息
  • 4.4 本章小结
  • 第5章 面向主题的分布式爬虫系统设计与实现
  • 5.1 数据管理
  • 5.1.1 主控节点数据管理
  • 5.1.2 爬虫端数据管理
  • 5.1.3 HDFS中的数据管理
  • 5.2 主控节点功能设计与实现
  • 5.2.1 主控节点启动功能设计与实现
  • 5.2.2 主控节点启动爬虫的设计与实现
  • 5.2.3 主控节点管理模块设计与实现
  • 5.2.4 BloomFilter的设计与实现
  • 5.3 爬虫端的设计与实现
  • 5.3.1 配置管理
  • 5.3.2 爬虫的启动
  • 5.3.3 爬取线程设计
  • 5.3.4 处理器的设计与实现
  • 5.4 主题算法的实现
  • 5.4.1 基于字典的主题模型算法实现
  • 5.4.2 基于文本分析的主题模型算法实现
  • 5.4.3 基于网页结构的主题模型算法实现
  • 5.5 本章小结
  • 第6章 系统测试和分析
  • 6.1 系统测试环境
  • 6.1.1 硬件/软件环境
  • 6.1.2 软件环境安装
  • 6.2 系统评价机制
  • 6.3 系统性能测试及结果分析
  • 6.3.1 基于字典的主题模型算法的抓取结果及分析
  • 6.3.2 基于文本分析的主题模型算法的抓取结果及分析
  • 6.3.3 基于网页结构的主题模型算法的爬行结果及其分析
  • 6.3.4 主题爬虫系统与Heritrix爬虫的对比实验及其分析
  • 6.4 HDFS的抓取结果
  • 6.5 本章小结
  • 第7章 总结与展望
  • 7.1 工作总结
  • 7.2 下一步工作
  • 参考文献
  • 致谢
  • 研究生期间参与的项目及获奖情况
  • 相关论文文献

    标签:;  ;  ;  ;  

    一种面向主题的分布式爬虫系统的研究与实现
    下载Doc文档

    猜你喜欢