基于结构和主题的Web信息检索研究

论文摘要

随着Internet技术的突飞猛进，Web信息量爆炸性增长，人们越来越习惯使用搜索引擎查找所关心的信息了。但浩瀚的信息资源却给搜索引擎的发展提出了新的挑战。如何有效、快捷、准确地将查询结果返回给用户，提高Web信息检索效果，已变成一项迫切而有意义的研究课题和热点。本文主要是围绕HTML和XML两种文档的结构特征和主题内容两方面的因素考虑，对当前的Web信息检索技术进行研究，包括技术较为成熟的HTML文档检索与刚刚起步的XML文档检索。首先，本文对Web信息检索进行了概述，并简单介绍了搜索引擎的工作原理、检索模型、研究热点、组成结构、分类及评价标准。在HTML文档检索研究中，由于当前检索方法的精度不高，本文利用网页间链接关系和锚文本，综合考虑文档结构和内容，对现有网页排序算法进行合理改进。实验结果表明，该算法可以在一定程度上提高文档检索的准确率和召回率。其次，检索结果以列表形式返回给用户，给用户的浏览造成很大困难。为了方便用户浏览和节省查阅时间，本文使用一种基于链接扩展的方法实现检索结果的自动分类，使其以类别目录方式加以显示。实验结果表明，该方法可在一定程度上提高网页自动分类精度，并在SEWM2007中文网页分类中获得较好结果。此外，本文还在传统HTML检索理论的基础上，对XML文档检索进行研究，根据XML文档结构特征，提出了一种基于融合策略和主题分类的XML检索再次排序的改进方法。实验结果证明，该方法能够提高检索系统的综合评价指标，并在INEX2007任务评测中获得较好结果。Web信息检索不仅具有较高的研究价值，也有广阔的应用前景。本文针对当前Web信息检索技术做了进一步的研究与探讨，并解决了一些现存的问题，但后期还需要完善与深入研究。

论文目录

摘要

Abstract

1 绪论

1.1 研究背景

1.2 研究现状

1.3 课题的研究内容来源

1.4 本文组织结构

2 搜索引擎概述

2.1 搜索引擎工作原理

2.2 经典检索模型

2.2.1 布尔模型

2.2.2 向量空间模型

2.2.3 概率模型

2.3 搜索引擎研究热点

2.4 搜索引擎分类

2.4.1 目录式搜索引擎

2.4.2 机器搜索引擎

2.4.3 元搜索引擎

2.5 搜索引擎评价指标

3 信息检索链接分析算法研究

3.1 研究意义

3.2 基于结构的链接分析经典技术

3.2.1 PageRank

3.2.2 HITS

3.2.3 PageRank与HITS算法比较

3.3 锚文本

3.4 基于PageRank和锚文本的排序算法研究

3.4.1 算法思想

3.4.2 实验过程及评价指标

3.4.3 实验结果与分析

3.5 本章小结

4 搜索结果表现技术

4.1 搜索结果分类意义

4.2 实现中文网页分类一般过程

4.3 中文网页分类算法研究

4.3.1 基于结构的网页分类研究动态

4.3.2 基于链接扩展的中文网页分类算法改进

4.3.3 实验过程及结果分析

4.4 本章小结

5 XML检索技术研究

5.1 研究意义

5.1.1 HTML不足

5.1.2 XML优势

5.2 XML检索研究现状

5.2.1 研究动态

5.2.2 研究主要内容

5.2.3 INEX介绍

5.3 XML及其相关技术

5.3.1 XML产生及包含元素

5.3.2 XML数据存储

5.3.3 XML文档解析技术

5.4 基于结构和查询主题的XML检索研究

5.4.1 基于融合策略的排序思想

5.4.2 查询主题分类在排序中的应用

5.5 实验介绍

5.5.1 实验过程及评价指标

5.5.2 实验结果与分析

5.6 本章小结

结论

参考文献

攻读硕士学位期间发表学术论文情况

致谢

基于结构和主题的Web信息检索研究

论文摘要

论文目录

相关论文文献

猜你喜欢