实时垂直搜索引擎的爬虫技术研究

实时垂直搜索引擎的爬虫技术研究

论文摘要

随着互联网的迅猛发展,特别是Web 2.0时代的到来,网站在格式和内容上都发生了比较大的变化,越来越多的网站开始采用动态网页。这类网页摆脱了传统的只能由服务器发布网站内容的束缚,允许普通的用户创建,修改和发布网站内容。为了创建动态网页,Ajax技术应运而生。Ajax技术大大的改善了用户的使用体验和网页的交互响应速度。除此之外,Web 2.0网站的网页内容信息来源更加的多样化,信息在时效性的要求上也比传统的方式更加严格。为了解决这些问题,传统的爬虫技术必须在抓取动态内容和时效性两个方面进行改进。在抓取动态内容方面,由于在动态网页中,页面的内容需要执行动态脚本才能得到,页面的跳转不再仅仅通过标签来实现,URL也不再是页面的唯一标识。本文提出了一种支持Ajax的爬虫模型,该模型使用嵌入式浏览器实现对动态脚本的解析以及提出了一种高效的获取动态脚本网站有效页面的方法,首先通过训练得到触发哪些页面元素的哪些事件能跳转至有效页面,总结出这些页面元素的XPath特征以及相应的事件类型,在应用阶段只触发这些页面元素上特定的事件。最后通过实验证明了本文方法的效率和性能。在时效性方面,本文着重研究了实时搜索中数据抓取的基本问题,并提出了一种通过分析数据对象的历史变化过程对对象的变化频率进行预测的方法。针对实时垂直搜索领域中,对象的热门程度的变化与传统搜索相比更加敏感的问题,提出了一种基于对象属性关联的热门预测模型,对对象的热门程度进行预测。在综合考虑对象权重和变化频率的基础上,提出了一种基于泊松过程的抓取策略,实现了针对对象变化的抓取策略,提高了抓取资源的利用率和和数据的新鲜度。

论文目录

  • 摘要
  • Abstract
  • 1 绪论
  • 1.1 课题背景及意义
  • 1.2 国内外研究现状
  • 1.3 论文主要研究内容
  • 1.4 论文组织结构
  • 2 相关技术的研究现状
  • 2.1 传统网络爬虫的相关研究
  • 2.1.1 基本原理
  • 2.1.2 工作流程
  • 2.1.3 网页抓取策略
  • 2.1.4 传统网络爬虫的不足
  • 2.2 Ajax爬虫的相关研究
  • 2.2.1 Ajax技术相关介绍
  • 2.2.2 动态脚本解析
  • 2.2.3 状态转换图
  • 2.3 实时搜索调度的相关研究
  • 2.3.1 网页和对象排序
  • 2.3.2 页面变化规律
  • 2.3.3 数据新鲜程度
  • 2.4 本章小结
  • 3 基于动态转换图的网页抓取
  • 3.1 动态脚本解析
  • 3.2 动态状态转换图模型
  • 3.2.1 动态状态转换图定义
  • 3.2.2 页面相似性判定
  • 3.2.3 基于动态状态转换图的爬行算法
  • 3.2.4 爬行算法的主要问题
  • 3.3 算法改进
  • 3.3.1 Web页面区域划分
  • 3.3.2 基于Xpath特征的有效元素的检测
  • 3.4 本章小结
  • 4 基于时间敏感的实时调度策略
  • 4.1 数据抓取更新策略
  • 4.1.1 数据抓取策略
  • 4.1.2 数据更新策略
  • 4.1.3 数据重抓频率
  • 4.1.4 数据抓取顺序
  • 4.2 基于查询驱动的抓取技术
  • 4.3 对象变化频率的估算方法
  • 4.3.1 对象变化的采样方法
  • 4.3.2 预测对象变化规律
  • 4.4 对象热门程度预测
  • 4.5 基于泊松过程的抓取调度策略
  • 4.6 本章小结
  • 5 测试和实验
  • 5.1 网页抓取结果比较
  • 5.2 对象热门程度预测模型的验证
  • 5.3 基于泊松过程的抓取调度策略的验证
  • 5.4 本章小结
  • 结论
  • 参考文献
  • 攻读硕士学位期间发表学术论文情况
  • 致谢
  • 相关论文文献

    • [1].一种改进的垂直搜索引擎研究与设计[J]. 现代计算机(专业版) 2018(34)
    • [2].油气行业垂直搜索引擎关键问题解决方案[J]. 计算机系统应用 2018(12)
    • [3].新闻类垂直搜索引擎系统研究与设计[J]. 黑龙江工程学院学报 2016(06)
    • [4].面向网络股评观点的垂直搜索引擎设计与实现[J]. 电子技术应用 2017(06)
    • [5].手机产品垂直搜索引擎的研究与实现[J]. 计算机科学 2014(S2)
    • [6].江苏:中国首个智库索引完成数据采集[J]. 科学家 2016(18)
    • [7].面向农业科研办公的垂直搜索引擎研究与设计[J]. 西南师范大学学报(自然科学版) 2020(09)
    • [8].面向医疗的垂直搜索引擎的研究与开发[J]. 科技与创新 2018(13)
    • [9].垂直搜索引擎在节能减排领域中的设计与实现[J]. 重庆科技学院学报(自然科学版) 2017(01)
    • [10].垂直搜索在教育领域中的应用研究[J]. 现代企业教育 2009(22)
    • [11].基于企业深度挖掘型垂直搜索引擎的应用研究[J]. 电脑编程技巧与维护 2014(12)
    • [12].基于聚类算法的垂直搜索引擎技术研究[J]. 北京信息科技大学学报(自然科学版) 2013(01)
    • [13].移动垂直搜索引擎在移动医疗中的应用研究[J]. 计算机应用与软件 2013(05)
    • [14].面向高校信息的垂直搜索引擎的研究与实现[J]. 沈阳建筑大学学报(自然科学版) 2012(03)
    • [15].改进的数据消重方法在垂直搜索引擎中的应用[J]. 邵阳学院学报(自然科学版) 2012(02)
    • [16].垂直搜索引擎关键技术研究综述[J]. 情报探索 2012(10)
    • [17].垂直搜索引擎应用研究[J]. 赤峰学院学报(自然科学版) 2011(02)
    • [18].垂直搜索引擎的信息服务特点——以一淘网为例[J]. 新闻爱好者 2011(10)
    • [19].垂直搜索引擎及其个性化推荐研究[J]. 潍坊学院学报 2011(04)
    • [20].基于垂直搜索引擎的学校网站的研究与建设[J]. 中国教育技术装备 2011(21)
    • [21].垂直搜索引擎应用研究[J]. 现代商贸工业 2010(04)
    • [22].垂直搜索引擎的研究与设计[J]. 计算机应用与软件 2010(07)
    • [23].垂直搜索引擎应用研究[J]. 计算机系统应用 2009(07)
    • [24].对垂直搜索引擎X公司投资可行性的评估[J]. 科技成果纵横 2009(03)
    • [25].垂直搜索引擎浅析[J]. 广西警官高等专科学校学报 2009(04)
    • [26].垂直搜索引擎与旅游行业探讨[J]. 农业网络信息 2009(11)
    • [27].结合本体筛选和文本挖掘的垂直搜索引擎研究[J]. 计算机科学 2008(02)
    • [28].垂直搜索引擎赢利模式探讨[J]. 大连大学学报 2008(03)
    • [29].垂直搜索引擎在企业内部的应用探索[J]. 信息与电脑(理论版) 2018(20)
    • [30].面向中文搜索的垂直搜索引擎的研究[J]. 科技广场 2017(05)

    标签:;  ;  ;  ;  ;  

    实时垂直搜索引擎的爬虫技术研究
    下载Doc文档

    猜你喜欢