基于链接上下文的网页预测

基于链接上下文的网页预测

论文摘要

面向主题的爬行技术目前已经成为网络信息检索领域新的研究热点之一。它和传统的网页爬行器不同,不再不加区分的收集网页,而是只从网络上收集与某一特定主题相关的网页。要达到这个目的,怎样对爬行器中未访问的链接进行排序,确定它们的访问顺序是个非常关键的工作。本文提出使用基于链接上下文的网页预测技术来增强主题爬行。链接上下文的一个重要来源是锚标签邻近的文本,它的提取是研究方面的重点和难点所在。本文探索了若干种方法,并提出了一种改进的链接上下文提取算法A-GPant。它从链接上下文中得到足够的启发信息,帮助爬行器在网络中专注于某一主题,以改进基于单一网页预测机制精度低的不足,也符合目前网络网页主题多元化的发展趋势。我们又在此基础上开发了适应链接上下文本身短小精悍特点的主题描述获取方法,用来增强各个链接预测值间的区分度。它使用Seed URLs的反向链接网页来获得主题描述,可以根据要求快速更新,形成的字典和特征值用来度量爬行过程中遇到的各个URL的链接上下文与特定主题间的相似度。最后我们对整个算法进行了系统实现和比较实验。实验结果显示,多数情况下这种机制指导下的爬行器在收获比和效率方面能优于传统的宽度优先和最优优先方法。同时我们也提出了许多新的挑战和技术可能性。

论文目录

  • 第一章 绪论
  • 1.1 面向主题的搜索引擎技术
  • 1.2 选题的意义
  • 1.2.1 网页预测在主题爬行中的重要作用
  • 1.2.2 网页预测方面所面临的技术挑战
  • 1.2.3 提取链接上下文的作用和意义
  • 1.3 本文的主要研究内容和结构安排
  • 第二章 网页预测的相关技术
  • 2.1 网页主题的表示和判断方法
  • 2.2 基于链接的网页预测技术
  • 2.2.1 基于链接结构的网页预测技术
  • 2.2.2 基于链接锚文本内容的网页预测技术
  • 2.3 比较实验使用的爬行器介绍
  • 2.4 总结
  • 第三章 链接上下文的提取算法及实现
  • 3.1 链接上下文的提取工具
  • 3.1.1 规范网页工具JTidy
  • 3.1.2 解析网页工具DOM
  • 3.2 链接上下文的提取方法
  • 3.2.1 DOM 偏置方法
  • 3.2.2 聚合节点方法
  • 3.3 A-GPANT 算法
  • 3.3.1 分析现有的方法
  • 3.3.2 改进算法的描述
  • 3.4 实验与分析
  • 3.4.1 性能参数
  • 3.4.2 实验分析
  • 第四章 网页主题描述技术及实现
  • 4.1 传统的主题描述获取方法
  • 4.2 利用反向链接的主题描述获取方法
  • 4.2.1 传统方法的不足
  • 4.2.2 反向链接锚文本的特点
  • 4.2.3 利用反向链接的主题特征生成方法
  • 4.3 实验与分析
  • 第五章 算法的系统实现和比较实验
  • 5.1 系统实现
  • 5.1.1 系统组件
  • 5.1.2 算法描述
  • 5.1.3 Seed URLs 的选择
  • 5.1.4 性能度量值
  • 5.2 实验与分析
  • 5.3 算法可能的技术改进
  • 第六章 结论和工作展望
  • 参考文献
  • 摘要
  • ABSTRACT
  • 致谢
  • 导师及作者简介
  • 相关论文文献

    • [1].打造网页设计创新创业示范课程[J]. 河南教育(职成教) 2019(12)
    • [2].网页设计中计算机图像处理技术的应用[J]. 无线互联科技 2019(21)
    • [3].高职院校网页设计与制作课程教学改革研究[J]. 教育现代化 2019(95)
    • [4].浅谈网页设计与制作课程[J]. 电脑知识与技术 2020(01)
    • [5].浅析水墨元素融入网页设计的架构技巧[J]. 辽宁经济职业技术学院.辽宁经济管理干部学院学报 2019(06)
    • [6].分析计算机图像处理技术在网页设计中的应用价值[J]. 计算机产品与流通 2020(01)
    • [7].网页设计中计算机图像处理技术的应用[J]. 电子技术与软件工程 2019(24)
    • [8].“环球佳”医疗设备企业网页设计[J]. 出版发行研究 2019(12)
    • [9].网页设计在视觉传达设计中表现的形式[J]. 西部皮革 2020(03)
    • [10].论网页设计中计算机图像处理技术的应用[J]. 计算机产品与流通 2020(02)
    • [11].色彩节奏在网页设计中的应用研究[J]. 计算机产品与流通 2020(02)
    • [12].计算机图像处理技术在网页设计中的应用分析[J]. 电子世界 2020(04)
    • [13].网页设计中计算机图像处理技术的应用[J]. 科技风 2020(11)
    • [14].网页设计作品[J]. 上海纺织科技 2020(01)
    • [15].浅析网页设计中的色彩搭配[J]. 农家参谋 2020(01)
    • [16].党政网页电子文件采集与管理研究[J]. 办公室业务 2020(04)
    • [17].基于翻转课堂的《商务网页设计与制作》课程设计研究[J]. 中国多媒体与网络教学学报(中旬刊) 2020(03)
    • [18].水墨动画在网页设计中的应用思考[J]. 中外企业家 2020(12)
    • [19].网页设计中的色彩搭配探讨[J]. 信息与电脑(理论版) 2020(02)
    • [20].浏览器的神奇玩法[J]. 计算机与网络 2020(04)
    • [21].网页欣赏精品分析教学平台的设计[J]. 黑龙江科学 2020(07)
    • [22].关于网页设计与制作方法与应用的探讨[J]. 河北农机 2020(03)
    • [23].基于修辞资源与受众的高校网页简介英译失误分析——以东南地区部分985高校为例[J]. 黑龙江教师发展学院学报 2020(04)
    • [24].关于“网页设计与制作”教学的中高职衔接问题初探[J]. 电脑知识与技术 2020(09)
    • [25].网页设计中计算机图像处理技术的应用[J]. 中外企业家 2020(16)
    • [26].网页档案信息长期保存策略研究[J]. 档案时空 2019(12)
    • [27].中职《网页设计与制作》课程教学综述[J]. 信息记录材料 2020(03)
    • [28].基于眼动跟踪的教育网页“优势区域”论证研究[J]. 现代计算机 2020(13)
    • [29].基于校企合作的《网页设计》课程教学改革研究[J]. 科技创新导报 2019(31)
    • [30].计算机网页设计中的布局与排版[J]. 信息与电脑(理论版) 2020(09)

    标签:;  ;  ;  

    基于链接上下文的网页预测
    下载Doc文档

    猜你喜欢