垃圾页面检测及其在垂直搜索引擎中的应用

垃圾页面检测及其在垂直搜索引擎中的应用

论文摘要

搜索引擎是互联网检索技术的核心,随着互联网的迅速发展,目前综合搜索引擎已无法满足用户的需求,这就成就了垂直搜索引擎的蓬勃发展,但处于发展初期的垂直搜索引擎还有许多不足之处,虽然它是更有针对性的搜索引擎,而且只搜索特定主题的信息,但并不排除一些垃圾页面对它的影响,本课题针对能够抗击垃圾页面的垂直搜索引擎进行研究。首先,为了提高搜索引擎的搜索精度,必须清除垃圾页面对其结果的影响。目前页面隐藏技术广泛应用于各类网页,使搜索精度大大降低,而互联网上HTML文本格式的网页占全部网页的绝大部分。通过研究页面隐藏技术的种种形式,分析页面的HTML源代码,设计一种算法检测这种类型的垃圾页面。其次,研究搜索引擎的页面排序算法PageRank。PageRank是用来计算网页重要性的一种排序算法,是用来衡量一个网站好坏的标准。由于该算法在计算过程中没有考虑垃圾页面对网页排序结果的影响,从而导致最终网页的排序不公平。为了使排序公正,修改了PageRank算法,通过给垃圾页面加不同的权值,使其在计算过程中为垃圾页面及其链接页面传递较低的Pr值。最后,利用Heritrix,Lucene和Nutch等开源工具构造能够抗击垃圾页面的垂直搜索引擎,先从互联网抓取页面,然后进行垃圾页面检测,清除部分垃圾页面再建立索引文件,在页面排序过程中使用改进的PageRank算法,使得排序结果更加公正,然后应用该搜索引擎进行实验,通过对比观察,检验搜索效果。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 课题背景及意义
  • 1.2 国内外的研究状况
  • 1.2.1 垃圾页面的检测
  • 1.2.2 搜索引擎页面排序算法的研究
  • 1.2.3 搜索引擎的研究现状及发展趋势
  • 1.2.4 垃圾页面检测及排序算法研究存在的问题
  • 1.3 本文的主要研究内容
  • 1.4 本文的组织结构
  • 第2章 相关技术介绍
  • 2.1 垃圾页面的相关介绍
  • 2.1.1 垃圾页面的目的
  • 2.1.2 垃圾页面的类型
  • 2.1.3 垃圾页面对搜索引擎的影响
  • 2.2 页面排序算法的相关介绍
  • 2.2.1 PageRank 算法原理
  • 2.2.2 HITS 算法原理
  • 2.3 垂直搜索引擎的相关介绍
  • 2.3.1 垂直搜索引擎的产生背景
  • 2.3.2 垂直搜索引擎的概念
  • 2.3.3 垂直搜索引擎的技术特点
  • 2.3.4 垂直搜索引擎结构
  • 2.4 本章小结
  • 第3章 基于页面隐藏技术的垃圾页面检测算法
  • 3.1 页面隐藏技术
  • 3.2 HTML 标签树的构造
  • 3.2.1 HTML 文件预处理
  • 3.2.2 HTML 文件存放的数据结构
  • 3.3 页面隐藏垃圾页面的检测算法
  • 3.4 实验与结果分析
  • 3.4.1 实验数据集
  • 3.4.2 评价标准
  • 3.4.3 实验结果
  • 3.5 本章小结
  • 第4章 抗击链接垃圾页面的PageRank 改进算法
  • 4.1 PageRank 算法
  • 4.1.1 PageRank 算法原理
  • 4.1.2 PageRank 算法的实现
  • 4.2 垃圾页面检测与PageRank 算法改进
  • 4.2.1 抗击链接农场的Truncated PageRank 算法
  • 4.2.2 链接垃圾页面的检测方法
  • 4.2.3 抗击链接垃圾页面的PageRank 算法
  • 4.3 实验与结果分析
  • 4.3.1 模拟数据集
  • 4.3.2 实验结果分析
  • 4.4 本章小结
  • 第5章 抗击垃圾页面的垂直搜索引擎设计
  • 5.1 搜索引擎相关技术
  • 5.1.1 搜索引擎的主要技术
  • 5.1.2 搜索引擎的评价标准
  • 5.2 构造垂直搜索引擎的开源工具介绍
  • 5.2.1 全文检索引擎Lucene
  • 5.2.2 开源搜索引擎Nutch
  • 5.2.3 网络爬虫Heritrix
  • 5.3 抗击垃圾页面的垂直搜索引擎设计
  • 5.3.1 抗击垃圾页面的垂直搜索引擎体系结构
  • 5.3.2 系统设计分析
  • 5.4 抗击垃圾页面的垂直搜索引擎性能分析
  • 5.4.1 页面集
  • 5.4.2 实验环境及实验步骤
  • 5.4.3 实验结果分析
  • 5.5 本章小结
  • 结论
  • 参考文献
  • 攻读硕士学位期间承担的科研任务与主要成果
  • 致谢
  • 作者简介
  • 相关论文文献

    标签:;  ;  ;  

    垃圾页面检测及其在垂直搜索引擎中的应用
    下载Doc文档

    猜你喜欢