基于结构和主题的Web信息检索研究

基于结构和主题的Web信息检索研究

论文摘要

随着Internet技术的突飞猛进,Web信息量爆炸性增长,人们越来越习惯使用搜索引擎查找所关心的信息了。但浩瀚的信息资源却给搜索引擎的发展提出了新的挑战。如何有效、快捷、准确地将查询结果返回给用户,提高Web信息检索效果,已变成一项迫切而有意义的研究课题和热点。本文主要是围绕HTML和XML两种文档的结构特征和主题内容两方面的因素考虑,对当前的Web信息检索技术进行研究,包括技术较为成熟的HTML文档检索与刚刚起步的XML文档检索。首先,本文对Web信息检索进行了概述,并简单介绍了搜索引擎的工作原理、检索模型、研究热点、组成结构、分类及评价标准。在HTML文档检索研究中,由于当前检索方法的精度不高,本文利用网页间链接关系和锚文本,综合考虑文档结构和内容,对现有网页排序算法进行合理改进。实验结果表明,该算法可以在一定程度上提高文档检索的准确率和召回率。其次,检索结果以列表形式返回给用户,给用户的浏览造成很大困难。为了方便用户浏览和节省查阅时间,本文使用一种基于链接扩展的方法实现检索结果的自动分类,使其以类别目录方式加以显示。实验结果表明,该方法可在一定程度上提高网页自动分类精度,并在SEWM2007中文网页分类中获得较好结果。此外,本文还在传统HTML检索理论的基础上,对XML文档检索进行研究,根据XML文档结构特征,提出了一种基于融合策略和主题分类的XML检索再次排序的改进方法。实验结果证明,该方法能够提高检索系统的综合评价指标,并在INEX2007任务评测中获得较好结果。Web信息检索不仅具有较高的研究价值,也有广阔的应用前景。本文针对当前Web信息检索技术做了进一步的研究与探讨,并解决了一些现存的问题,但后期还需要完善与深入研究。

论文目录

  • 摘要
  • Abstract
  • 1 绪论
  • 1.1 研究背景
  • 1.2 研究现状
  • 1.3 课题的研究内容来源
  • 1.4 本文组织结构
  • 2 搜索引擎概述
  • 2.1 搜索引擎工作原理
  • 2.2 经典检索模型
  • 2.2.1 布尔模型
  • 2.2.2 向量空间模型
  • 2.2.3 概率模型
  • 2.3 搜索引擎研究热点
  • 2.4 搜索引擎分类
  • 2.4.1 目录式搜索引擎
  • 2.4.2 机器搜索引擎
  • 2.4.3 元搜索引擎
  • 2.5 搜索引擎评价指标
  • 3 信息检索链接分析算法研究
  • 3.1 研究意义
  • 3.2 基于结构的链接分析经典技术
  • 3.2.1 PageRank
  • 3.2.2 HITS
  • 3.2.3 PageRank与HITS算法比较
  • 3.3 锚文本
  • 3.4 基于PageRank和锚文本的排序算法研究
  • 3.4.1 算法思想
  • 3.4.2 实验过程及评价指标
  • 3.4.3 实验结果与分析
  • 3.5 本章小结
  • 4 搜索结果表现技术
  • 4.1 搜索结果分类意义
  • 4.2 实现中文网页分类一般过程
  • 4.3 中文网页分类算法研究
  • 4.3.1 基于结构的网页分类研究动态
  • 4.3.2 基于链接扩展的中文网页分类算法改进
  • 4.3.3 实验过程及结果分析
  • 4.4 本章小结
  • 5 XML检索技术研究
  • 5.1 研究意义
  • 5.1.1 HTML不足
  • 5.1.2 XML优势
  • 5.2 XML检索研究现状
  • 5.2.1 研究动态
  • 5.2.2 研究主要内容
  • 5.2.3 INEX介绍
  • 5.3 XML及其相关技术
  • 5.3.1 XML产生及包含元素
  • 5.3.2 XML数据存储
  • 5.3.3 XML文档解析技术
  • 5.4 基于结构和查询主题的XML检索研究
  • 5.4.1 基于融合策略的排序思想
  • 5.4.2 查询主题分类在排序中的应用
  • 5.5 实验介绍
  • 5.5.1 实验过程及评价指标
  • 5.5.2 实验结果与分析
  • 5.6 本章小结
  • 结论
  • 参考文献
  • 攻读硕士学位期间发表学术论文情况
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    基于结构和主题的Web信息检索研究
    下载Doc文档

    猜你喜欢