基于Nutch的面向特定主题的爬虫研究

基于Nutch的面向特定主题的爬虫研究

论文摘要

通用搜索引擎返回的信息很难满足用户对专业领域的信息需求,网络信息的海量性和动态性,也使通用搜索引擎不可能对所有信息进行索引,因此,主题式搜索技术成为搜索引擎领域一个新的热点。网页跟预定主题进行相关性判断是主题式搜索技术的一个重要环节,在研究了文本表示,特征选择、权重分配的基础上,改进了TF-IDF词条权重计算公式,用以反映网页文本特征,同时对相关性判断阈值的确定也进行了探索。针对预定主题的网页特征,在爬虫爬行策略上提出了一个利用HTML标签对网页进行分块的算法。对于不相关的网页分块采取一种探索式的策略,增加了搜索深度,提高了主题爬虫穿越“隧道”的能力。另外综合考虑分块主题相关度和锚文本相关度,并以此预测URL的相关度。最后是基于Nutch的系统设计与实现,介绍了系统的设计思想、体系结构和具体实现,并在实验中获得了较好的性能。

论文目录

  • 摘要
  • Abstract
  • 1 绪论
  • 1.1 研究背景与研究意义
  • 1.2 国内外研究现状
  • 1.3 搜索引擎的工作原理
  • 1.3.1 通用搜索引擎的工作原理
  • 1.3.2 主题式搜索引擎的工作原理
  • 1.4 本文的主要研究内容和组织结构
  • 2 网页与预定义主题相关度的计算
  • 2.1 引言
  • 2.2 网页文本的表示模型
  • 2.2.1 常用的文本特征表示模型
  • 2.2.2 向量空间模型
  • 2.3 文本分类的关键技术
  • 2.3.1 训练文本集
  • 2.3.2 特征选择
  • 2.3.3 词条权重的分配
  • 2.4 分类模型
  • 2.4.1 Naive 贝叶斯分类器
  • 2.4.2 KNN 最近邻分类器
  • 2.5 相关性判断阈值探索
  • 2.6 本章小结
  • 3 网页分块技术
  • 3.1 引言
  • 3.2 网页分块算法介绍
  • 3.2.1 基于视觉特征的网页分割算法
  • 3.2.2 基于位置的分块
  • 3.2.3 基于style tree 的分块
  • 3.2.4 基于 Dom 树的分块
  • 3.3 基于 DOM 树的页面划分
  • 3.3.1 DOM 树
  • 3.3.2 算法思想
  • 3.3.3 基于 DOM 树的分块算法
  • 3.4 URL 相关度预测及排序
  • 3.4.1 几种相关度预测方法介绍
  • 3.4.2 以分块为基础的相关度预测算法
  • 3.5 基于网页分块的主题爬行过程
  • 3.5.1 隧道问题
  • 3.5.2 爬行过程及算法描述
  • 3.6 本章小结
  • 4 主题爬虫的系统实现
  • 4.1 引言
  • 4.2 Nutch 介绍
  • 4.2.1 Nutch 各命令脚本的作用
  • 4.2.2 Crawler 数据文件的格式及含义
  • 4.2.3 Nutch 的插件机制
  • 4.3 系统的总体架构
  • 4.4 主题网页特征分析
  • 4.5 系统运行所作的准备工作
  • 4.6 系统运行及性能分析
  • 4.6.1 爬虫性能评价指标
  • 4.6.2 系统运行
  • 4.6.3 性能分析
  • 4.7 本章小结
  • 5 结论与展望
  • 参考文献
  • 攻读学位期间发表的学术论文及科研成果
  • 致谢
  • 相关论文文献

    • [1].打造网页设计创新创业示范课程[J]. 河南教育(职成教) 2019(12)
    • [2].网页设计中计算机图像处理技术的应用[J]. 无线互联科技 2019(21)
    • [3].高职院校网页设计与制作课程教学改革研究[J]. 教育现代化 2019(95)
    • [4].浅谈网页设计与制作课程[J]. 电脑知识与技术 2020(01)
    • [5].浅析水墨元素融入网页设计的架构技巧[J]. 辽宁经济职业技术学院.辽宁经济管理干部学院学报 2019(06)
    • [6].分析计算机图像处理技术在网页设计中的应用价值[J]. 计算机产品与流通 2020(01)
    • [7].网页设计中计算机图像处理技术的应用[J]. 电子技术与软件工程 2019(24)
    • [8].“环球佳”医疗设备企业网页设计[J]. 出版发行研究 2019(12)
    • [9].网页设计在视觉传达设计中表现的形式[J]. 西部皮革 2020(03)
    • [10].论网页设计中计算机图像处理技术的应用[J]. 计算机产品与流通 2020(02)
    • [11].色彩节奏在网页设计中的应用研究[J]. 计算机产品与流通 2020(02)
    • [12].计算机图像处理技术在网页设计中的应用分析[J]. 电子世界 2020(04)
    • [13].网页设计中计算机图像处理技术的应用[J]. 科技风 2020(11)
    • [14].网页设计作品[J]. 上海纺织科技 2020(01)
    • [15].浅析网页设计中的色彩搭配[J]. 农家参谋 2020(01)
    • [16].党政网页电子文件采集与管理研究[J]. 办公室业务 2020(04)
    • [17].基于翻转课堂的《商务网页设计与制作》课程设计研究[J]. 中国多媒体与网络教学学报(中旬刊) 2020(03)
    • [18].水墨动画在网页设计中的应用思考[J]. 中外企业家 2020(12)
    • [19].网页设计中的色彩搭配探讨[J]. 信息与电脑(理论版) 2020(02)
    • [20].浏览器的神奇玩法[J]. 计算机与网络 2020(04)
    • [21].网页欣赏精品分析教学平台的设计[J]. 黑龙江科学 2020(07)
    • [22].关于网页设计与制作方法与应用的探讨[J]. 河北农机 2020(03)
    • [23].基于修辞资源与受众的高校网页简介英译失误分析——以东南地区部分985高校为例[J]. 黑龙江教师发展学院学报 2020(04)
    • [24].关于“网页设计与制作”教学的中高职衔接问题初探[J]. 电脑知识与技术 2020(09)
    • [25].网页设计中计算机图像处理技术的应用[J]. 中外企业家 2020(16)
    • [26].网页档案信息长期保存策略研究[J]. 档案时空 2019(12)
    • [27].中职《网页设计与制作》课程教学综述[J]. 信息记录材料 2020(03)
    • [28].基于眼动跟踪的教育网页“优势区域”论证研究[J]. 现代计算机 2020(13)
    • [29].基于校企合作的《网页设计》课程教学改革研究[J]. 科技创新导报 2019(31)
    • [30].计算机网页设计中的布局与排版[J]. 信息与电脑(理论版) 2020(09)

    标签:;  ;  ;  ;  

    基于Nutch的面向特定主题的爬虫研究
    下载Doc文档

    猜你喜欢