基于网页分块技术的主题爬行

基于网页分块技术的主题爬行

论文摘要

面向主题爬行的目的是有效,快速的找到和预定义主题相关的网页。它不是收集和索引所有可以爬行到的网页,而是仅仅分析和主题最相关的网页。这样就可以避免像通用搜索引擎那样爬行所有遇到的网页,索引所有网页。主题爬行器是专业搜索引擎的主要部件,主题爬行器可以定期地抓取新的网页信息,并以此来更新搜索引擎的后台数据库,为搜索引擎提供新鲜的数据。一个网页中往往有多个主题,但是目前的主题爬行器处理网页时都是以整个网页为单位,这样的话就不能识别那些只有部分主要内容和主题相关的网页,容易造成主题漂移现象。如果我们在处理网页的时候以网页中的内容块为单位,这样就可以识别网页中的不同主题,在一定程度上可以穿越”tunnel”。本文的主要工作是提出了一个网页分块算法来识别网页中的主题相关块,该算法充分利用了网页中的视觉信息,标签信息,和链接信息。通过该算法我们得到了一些和主题相关的内容块,我们只分析主题块中的信息,这样在网页预测的时候能更好的指导爬行器只爬行和主题相关的网页。研究表明,在主题爬行中应用网页分块技术能够解决多主题问题,很大程度上可以避免主题漂移现象。

论文目录

  • 内容提要
  • 第一章 绪论
  • 1.1 面向主题的爬行技术
  • 1.2 网页分块的提出
  • 1.3 本文的主要工作及结构安排
  • 第二章 主题爬行与网页分块技术
  • 2.1 主题爬行的原理
  • 2.1.1 离线初试化阶段
  • 2.1.2 在线初试化阶段
  • 2.2 网页分块技术
  • 2.2.1 网页分块技术相关算法的介绍
  • 2.2.2 网页分块技术的应用
  • 2.3 网页分块在主题爬行中的主要作用
  • 2.3.1 多主题和tunnel问题
  • 2.3.2 网页去重
  • 2.3.3 网页内容预测
  • 第三章 网页分块算法
  • 3.1 网页的预处理
  • 3.1.1 网页的净化
  • 3.1.2 构建DOM树
  • 3.2 分块算法
  • 3.2.1 视觉信息
  • 3.2.2 标签信息
  • 3.2.3 链接信息
  • 3.2.4 算法描述
  • 3.3 内容块的识别和合并
  • 3.3.1 内容块的特征标识
  • 3.3.2 内容块的合并
  • 3.3.3 内容块重要性的判断
  • 第四章 系统实现和实验结果分析
  • 4.1 系统实现
  • 4.2 实验结果分析
  • 4.3 算法的可能改进
  • 第五章 工作总结和未来的工作
  • 5.1 工作总结
  • 5.2 未来的工作
  • 参考文献
  • 摘要
  • Abstract
  • 致谢
  • 导师与作者简介
  • 相关论文文献

    • [1].打造网页设计创新创业示范课程[J]. 河南教育(职成教) 2019(12)
    • [2].网页设计中计算机图像处理技术的应用[J]. 无线互联科技 2019(21)
    • [3].高职院校网页设计与制作课程教学改革研究[J]. 教育现代化 2019(95)
    • [4].浅谈网页设计与制作课程[J]. 电脑知识与技术 2020(01)
    • [5].浅析水墨元素融入网页设计的架构技巧[J]. 辽宁经济职业技术学院.辽宁经济管理干部学院学报 2019(06)
    • [6].分析计算机图像处理技术在网页设计中的应用价值[J]. 计算机产品与流通 2020(01)
    • [7].网页设计中计算机图像处理技术的应用[J]. 电子技术与软件工程 2019(24)
    • [8].“环球佳”医疗设备企业网页设计[J]. 出版发行研究 2019(12)
    • [9].网页设计在视觉传达设计中表现的形式[J]. 西部皮革 2020(03)
    • [10].论网页设计中计算机图像处理技术的应用[J]. 计算机产品与流通 2020(02)
    • [11].色彩节奏在网页设计中的应用研究[J]. 计算机产品与流通 2020(02)
    • [12].计算机图像处理技术在网页设计中的应用分析[J]. 电子世界 2020(04)
    • [13].网页设计中计算机图像处理技术的应用[J]. 科技风 2020(11)
    • [14].网页设计作品[J]. 上海纺织科技 2020(01)
    • [15].浅析网页设计中的色彩搭配[J]. 农家参谋 2020(01)
    • [16].党政网页电子文件采集与管理研究[J]. 办公室业务 2020(04)
    • [17].基于翻转课堂的《商务网页设计与制作》课程设计研究[J]. 中国多媒体与网络教学学报(中旬刊) 2020(03)
    • [18].水墨动画在网页设计中的应用思考[J]. 中外企业家 2020(12)
    • [19].网页设计中的色彩搭配探讨[J]. 信息与电脑(理论版) 2020(02)
    • [20].浏览器的神奇玩法[J]. 计算机与网络 2020(04)
    • [21].网页欣赏精品分析教学平台的设计[J]. 黑龙江科学 2020(07)
    • [22].关于网页设计与制作方法与应用的探讨[J]. 河北农机 2020(03)
    • [23].基于修辞资源与受众的高校网页简介英译失误分析——以东南地区部分985高校为例[J]. 黑龙江教师发展学院学报 2020(04)
    • [24].关于“网页设计与制作”教学的中高职衔接问题初探[J]. 电脑知识与技术 2020(09)
    • [25].网页设计中计算机图像处理技术的应用[J]. 中外企业家 2020(16)
    • [26].网页档案信息长期保存策略研究[J]. 档案时空 2019(12)
    • [27].中职《网页设计与制作》课程教学综述[J]. 信息记录材料 2020(03)
    • [28].基于眼动跟踪的教育网页“优势区域”论证研究[J]. 现代计算机 2020(13)
    • [29].基于校企合作的《网页设计》课程教学改革研究[J]. 科技创新导报 2019(31)
    • [30].计算机网页设计中的布局与排版[J]. 信息与电脑(理论版) 2020(09)

    标签:;  ;  ;  ;  

    基于网页分块技术的主题爬行
    下载Doc文档

    猜你喜欢