主题爬虫系统的研究

主题爬虫系统的研究

论文摘要

互联网飞速发展,网络上的资源越来越多,获取所需信息的能力变得非常重要。由于通用搜索引擎的诸多缺点,面向特定主题的垂直搜索引擎成为了研究热点。主题爬虫作为垂直搜索引擎的数据来源,起着关键性的作用。本文通过分析汽车主题网页,实现了面向汽车的主题爬虫系统——CarSpider。在CarSpider系统中,采用主题关键词组成的特征向量进行主题描述,并利用ODP目录和搜索引擎选取与汽车有关的并且具有权威性的链接作为爬虫的种子URL。由于html代码的不规范,采用html Tidy对网页源码进行整理,并利用网页的结构采用DOM树模型对网页进行预处理。对网页类型进行区分,针对不同类型的网页采用不同的方法提取网页内容。采用URL分析法、爬行历史记录法和统计法判断网页类型。在提取网页内容块中的主题相关信息时,采用向量空间模型来计算内容块与主题的相关度。为了提高爬虫的网页抓取效率,采用基于网页内容和基于网络结构的URL主题相关度预测方法,并提出自适应的主题爬行方法。其中基于网页内容的URL主题相关度预测算法通过站点级别、网页块级别、链接级别三个级别来计算待爬行URL的优先级;基于网络结构的URL相关度预测算法充分利用互联网的图结构,针对PageRank算法发现的重要网页时不区分主题的,无法适应主题爬行这个缺点,对其进行改进,将主题相关度与PageRank算法相结合,从而使与主题相关的网页获得较高的PageRank值。在网页消重方面,选择Bloom Filter进行URL消重,利用网页特征向量进行内容消重,最大程度的消除重复网页。最后,对CarSpider进行测试,主要从网页抓取速度和抓取准确度两个方面来进行实验,通过对测试数据的分析,得到了较好的结果。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 论文的研究背景
  • 1.2 主题爬虫的研究现状
  • 1.3 论文的研究意义
  • 1.4 论文的相关工作
  • 1.5 论文的安排
  • 第2章 主题爬虫技术
  • 2.1 搜索引擎技术
  • 2.2 通用网络爬虫
  • 2.3 主题爬虫
  • 2.3.1 主题爬虫与通用爬虫的区别
  • 2.3.2 主题爬虫的工作原理
  • 2.3.3 主题爬虫的结构
  • 2.4 本章小结
  • 第3章 主题爬虫系统CarSpider的设计
  • 3.1 CarSpider总体设计
  • 3.2 主题描述
  • 3.3 种子链接的选择
  • 3.4 网页预处理
  • 3.4.1 中文分词
  • 3.4.2 HTML文件简介
  • 3.4.3 网页文件解析
  • 3.5 主题相关度判定
  • 3.6 网页消重
  • 3.6.1 URL消重
  • 3.6.2 内容消重
  • 3.7 本章小结
  • 第4章 汽车主题相关度判定
  • 4.1 主题网页类型分析
  • 4.1.1 网页块类型判定
  • 4.1.2 网页类型判定
  • 4.2 网页主题信息抽取
  • 4.2.1 主题相关性算法研究
  • 4.2.2 网页量化表示
  • 4.2.3 网页主题信息抽取
  • 4.3 URL与主题相关性预测
  • 4.3.1 基于网页内容的URL主题相关度预测
  • 4.3.2 基于网络结构的URL主题相关度预测
  • 4.3.3 自适应主题爬行策略
  • 4.4 本章小结
  • 第5章 主题爬虫系统CarSpider的实现
  • 5.1 主题爬虫的实现
  • 5.1.1 相关类实现
  • 5.1.2 实验环境
  • 5.1.3 系统运行
  • 5.2 实验研究
  • 5.3 本章小结
  • 第6章 总结与展望
  • 6.1 本文总结
  • 6.2 下一步工作
  • 致谢
  • 参考文献
  • 攻读学位期间发表论文
  • 相关论文文献

    • [1].打造网页设计创新创业示范课程[J]. 河南教育(职成教) 2019(12)
    • [2].网页设计中计算机图像处理技术的应用[J]. 无线互联科技 2019(21)
    • [3].高职院校网页设计与制作课程教学改革研究[J]. 教育现代化 2019(95)
    • [4].浅谈网页设计与制作课程[J]. 电脑知识与技术 2020(01)
    • [5].浅析水墨元素融入网页设计的架构技巧[J]. 辽宁经济职业技术学院.辽宁经济管理干部学院学报 2019(06)
    • [6].分析计算机图像处理技术在网页设计中的应用价值[J]. 计算机产品与流通 2020(01)
    • [7].网页设计中计算机图像处理技术的应用[J]. 电子技术与软件工程 2019(24)
    • [8].“环球佳”医疗设备企业网页设计[J]. 出版发行研究 2019(12)
    • [9].网页设计在视觉传达设计中表现的形式[J]. 西部皮革 2020(03)
    • [10].论网页设计中计算机图像处理技术的应用[J]. 计算机产品与流通 2020(02)
    • [11].色彩节奏在网页设计中的应用研究[J]. 计算机产品与流通 2020(02)
    • [12].计算机图像处理技术在网页设计中的应用分析[J]. 电子世界 2020(04)
    • [13].网页设计中计算机图像处理技术的应用[J]. 科技风 2020(11)
    • [14].网页设计作品[J]. 上海纺织科技 2020(01)
    • [15].浅析网页设计中的色彩搭配[J]. 农家参谋 2020(01)
    • [16].党政网页电子文件采集与管理研究[J]. 办公室业务 2020(04)
    • [17].基于翻转课堂的《商务网页设计与制作》课程设计研究[J]. 中国多媒体与网络教学学报(中旬刊) 2020(03)
    • [18].水墨动画在网页设计中的应用思考[J]. 中外企业家 2020(12)
    • [19].网页设计中的色彩搭配探讨[J]. 信息与电脑(理论版) 2020(02)
    • [20].浏览器的神奇玩法[J]. 计算机与网络 2020(04)
    • [21].网页欣赏精品分析教学平台的设计[J]. 黑龙江科学 2020(07)
    • [22].关于网页设计与制作方法与应用的探讨[J]. 河北农机 2020(03)
    • [23].基于修辞资源与受众的高校网页简介英译失误分析——以东南地区部分985高校为例[J]. 黑龙江教师发展学院学报 2020(04)
    • [24].关于“网页设计与制作”教学的中高职衔接问题初探[J]. 电脑知识与技术 2020(09)
    • [25].网页设计中计算机图像处理技术的应用[J]. 中外企业家 2020(16)
    • [26].网页档案信息长期保存策略研究[J]. 档案时空 2019(12)
    • [27].中职《网页设计与制作》课程教学综述[J]. 信息记录材料 2020(03)
    • [28].基于眼动跟踪的教育网页“优势区域”论证研究[J]. 现代计算机 2020(13)
    • [29].基于校企合作的《网页设计》课程教学改革研究[J]. 科技创新导报 2019(31)
    • [30].计算机网页设计中的布局与排版[J]. 信息与电脑(理论版) 2020(09)

    标签:;  ;  ;  

    主题爬虫系统的研究
    下载Doc文档

    猜你喜欢