基于领域本体的聚焦爬虫技术研究

基于领域本体的聚焦爬虫技术研究

论文摘要

Web信息量的急剧猛增以及广大互联网搜索用户信息检索需求的不断提升,使得搜索引擎技术由原来的面向全体互联网用户,提供公用信息服务的通用搜索引擎发展到面向特定领域,为用户提供专业信息服务的垂直搜索引擎。相应地,在通用爬虫技术研究的基础上,也需要进一步对聚焦爬虫技术进行研究。论文首先对搜索引擎和垂直搜索引擎、通用爬虫和聚焦爬虫的相关概念、体系结构及工作原理做出了介绍和讨论。然后,从抓取目标的描述、网页分析算法和网页搜索算法三个角度对传统的聚焦爬虫关键技术进行了分析,为进一步的研究打下了铺垫。论文重点对基于领域本体的聚焦爬虫技术进行了深入研究。主要的工作与论点如下:(1)论文讨论了被用作聚焦爬虫主题模型的领域本体的设计、构建和更新方法。从路径距离、语义重合度、语义深度、语义密度和概念属性几个角度,研究并改进了领域本体概念语义相似度的计算方法。(2)论文提出一种基于领域本体概念语义相似性的主题相关度计算方法,通过对向量空间模型中的网页文档向量进行语义扩展,使聚焦爬虫对网页的分析具备了一定程度的概念语义特性,提高了聚焦爬虫的查全率和查准率。(3)论文提出一种面向主题的改进的Hits算法,它从URL字符串、锚文本、扩展锚文本及父页面主题相关度几个方面来分析链接基于内容的主题相关性。然后,将基于内容的分析加入到传统的基于网络链接结构的Hits算法中,使其在综合考虑网页内容和网络链接结构的前提下得到了很大程度的优化,削弱了主题漂移现象。(4)针对Web Community和隧道现象所造成的最佳优先算法只能做到“局部最优”的现象,论文提出一种基于隧道技术的最佳优先算法。算法引入URL优先队列和多个URL候选队列的概念,通过暂不放弃主题无关URL以发现更多主题相关URL的策略,使得最佳优先算法在某种程度上跨越了网络隧道,初步具备了“全局最优”的特点。

论文目录

  • 摘要
  • ABSTRACT
  • 1 绪论
  • 1.1 课题研究背景
  • 1.2 课题研究状况及发展趋势
  • 1.3 论文研究内容
  • 1.4 论文组织结构
  • 2 搜索引擎技术概述
  • 2.1 搜索引擎的概念及性能指标
  • 2.2 搜索引擎的分类及发展趋势
  • 2.3 搜索引擎体系结构及工作原理
  • 2.4 从通用搜索到垂直搜索
  • 2.5 本章小结
  • 3 聚焦爬虫技术概述
  • 3.1 通用爬虫与聚焦爬虫
  • 3.2 聚焦爬虫体系结构及工作原理
  • 3.3 聚焦爬虫关键技术
  • 3.4 本章小结
  • 4 领域本体在聚焦爬虫中的应用
  • 4.1 本体相关理论
  • 4.2 聚焦爬虫领域本体的设计、构建与更新
  • 4.3 领域本体概念语义相似度计算方法的改进与应用
  • 4.4 本章小结
  • 5 基于领域本体的聚焦爬虫技术研究
  • 5.1 基于领域本体概念语义相似性的主题相关度计算方法
  • 5.2 基于改进的Hits算法的主题相关性预测方法
  • 5.3 基于隧道技术的最佳优先算法
  • 5.4 本章小结
  • 6 总结与展望
  • 6.1 总结
  • 6.2 展望
  • 参考文献
  • 致谢
  • 攻读硕士期间主要成果
  • 相关论文文献

    • [1].打造网页设计创新创业示范课程[J]. 河南教育(职成教) 2019(12)
    • [2].网页设计中计算机图像处理技术的应用[J]. 无线互联科技 2019(21)
    • [3].高职院校网页设计与制作课程教学改革研究[J]. 教育现代化 2019(95)
    • [4].浅谈网页设计与制作课程[J]. 电脑知识与技术 2020(01)
    • [5].浅析水墨元素融入网页设计的架构技巧[J]. 辽宁经济职业技术学院.辽宁经济管理干部学院学报 2019(06)
    • [6].分析计算机图像处理技术在网页设计中的应用价值[J]. 计算机产品与流通 2020(01)
    • [7].网页设计中计算机图像处理技术的应用[J]. 电子技术与软件工程 2019(24)
    • [8].“环球佳”医疗设备企业网页设计[J]. 出版发行研究 2019(12)
    • [9].网页设计在视觉传达设计中表现的形式[J]. 西部皮革 2020(03)
    • [10].论网页设计中计算机图像处理技术的应用[J]. 计算机产品与流通 2020(02)
    • [11].色彩节奏在网页设计中的应用研究[J]. 计算机产品与流通 2020(02)
    • [12].计算机图像处理技术在网页设计中的应用分析[J]. 电子世界 2020(04)
    • [13].网页设计中计算机图像处理技术的应用[J]. 科技风 2020(11)
    • [14].网页设计作品[J]. 上海纺织科技 2020(01)
    • [15].浅析网页设计中的色彩搭配[J]. 农家参谋 2020(01)
    • [16].党政网页电子文件采集与管理研究[J]. 办公室业务 2020(04)
    • [17].基于翻转课堂的《商务网页设计与制作》课程设计研究[J]. 中国多媒体与网络教学学报(中旬刊) 2020(03)
    • [18].水墨动画在网页设计中的应用思考[J]. 中外企业家 2020(12)
    • [19].网页设计中的色彩搭配探讨[J]. 信息与电脑(理论版) 2020(02)
    • [20].浏览器的神奇玩法[J]. 计算机与网络 2020(04)
    • [21].网页欣赏精品分析教学平台的设计[J]. 黑龙江科学 2020(07)
    • [22].关于网页设计与制作方法与应用的探讨[J]. 河北农机 2020(03)
    • [23].基于修辞资源与受众的高校网页简介英译失误分析——以东南地区部分985高校为例[J]. 黑龙江教师发展学院学报 2020(04)
    • [24].关于“网页设计与制作”教学的中高职衔接问题初探[J]. 电脑知识与技术 2020(09)
    • [25].网页设计中计算机图像处理技术的应用[J]. 中外企业家 2020(16)
    • [26].网页档案信息长期保存策略研究[J]. 档案时空 2019(12)
    • [27].中职《网页设计与制作》课程教学综述[J]. 信息记录材料 2020(03)
    • [28].基于眼动跟踪的教育网页“优势区域”论证研究[J]. 现代计算机 2020(13)
    • [29].基于校企合作的《网页设计》课程教学改革研究[J]. 科技创新导报 2019(31)
    • [30].计算机网页设计中的布局与排版[J]. 信息与电脑(理论版) 2020(09)

    标签:;  ;  ;  ;  ;  

    基于领域本体的聚焦爬虫技术研究
    下载Doc文档

    猜你喜欢