基于文本分类的WEB信息检索技术的研究

基于文本分类的WEB信息检索技术的研究

论文摘要

随着Internet的迅猛发展,搜索引擎已经成为人们处理Web信息、获取信息资源的必备工具。传统的搜索引擎,即通用搜索引擎不能满足人们对个性化信息检索服务日益增长的需要。近年来,基于文本分类技术的面向专题的搜索引擎应运而生,以提供分类更细致精确的Web信息检索服务。文本自动分类是指在给定的分类体系下,根据文本的内容自动判别文本类别的过程。近年来,文本分类技术已经逐渐与搜索引擎、信息推送、信息过滤等信息处理技术相结合,有效地提高了信息服务的质量。文本自动分类技术能够有效地将文本信息组织管理起来,帮助人们准确高效的定位文本信息,为用户获取所需信息提供有力的支持。文本分类的关键技术主要包括向文本表示模型、特征项赋权、特征选取、分类器构建等,本文对这些技术作了详细介绍和深入分析。本文在向量空间模型基础上,通过针对常用的特征权重计算方法TF-IDF的分析,提出了一种新的权值计算方法。该权值计算方法将特征评估函数包含到特征权值计算中,按照特征对文本分类的辨别能力调整其在权重计算中的贡献。网页是一种超文本文档,其中含有文本信息和许多超文本标记等结构信息。本文通过分析HTML标记对特征值权重的影响,在特征赋权方面,提出了结合TF-IDF与HTML标记分布信息的权重计算法。实验结果表明改进的权重计算法对分类精度有所提高。本文介绍了Lucene搜索架构以及Lucene各个模块的组成和使用,利用开源的Lucene引擎架构设计一个搜索测试系统。

论文目录

  • 摘要
  • Abstract
  • 绪论
  • 一. 课题研究背景
  • 二. 本文的意义及主要工作
  • 第一章 搜索引擎概述
  • 1.1 信息检索技术
  • 1.1.1 信息检索的概念
  • 1.1.2 信息检索系统模型
  • 1.1.3 信息检索系统的处理过程
  • 1.2 搜索引擎简介
  • 1.2.1 Web 信息资源的特点
  • 1.2.2 搜索引擎的发展历史
  • 1.2.3 搜索引擎的分类
  • 本章小结
  • 第二章 搜索引擎相关技术
  • 2.1 搜索引擎的体系结构
  • 2.2 Spider 概述
  • 2.2.1 网页的基本结构
  • 2.2.2 网络爬虫Spider 的结构及处理流程
  • 2.3 Indexer 分析
  • 2.4 Searcher 中的关键问题
  • 2.5 中文自动分词
  • 本章小结
  • 第三章 文本分类技术
  • 3.1 文本分类的概念与特点
  • 3.2 文本分类的过程
  • 3.3 文本的表示模型
  • 3.3.1 布尔模型(Boolean Model)
  • 3.3.2 概率模型(Probabilistic Model )
  • 3.3.3 向量空间模型(Vector Space Model,VSM)
  • 3.4 基于向量空间模型的文本分类算法分析
  • 3.4.1 TF-IDF 权重
  • 3.4.2 主要文本分类算法
  • 3.4.3 关于阈值的确定
  • 3.5 文本分类的评估
  • 3.5.1 准确率(Precision)与召回率(Recall)
  • 3.5.2 F 值(F-measure)
  • 3.6 改进的权值计算方法
  • 3.7 网页中HTML 标记对词条权重的影响
  • 3.7.1 HTML 标记与关键词权重的联系
  • 3.7.2 改进权重算法实验分析
  • 本章小结
  • 第四章 全文检索引擎Lucene
  • 4.1 Lucene 全文检索
  • 4.1.1 Lucene 的特点及优势
  • 4.1.2 Lucene 系统结构分析
  • 4.2 Lucene 索引文件的结构
  • 4.3 索引模块
  • 4.4 检索过程和结果显示
  • 本章小结
  • 第五章 基于Lucene 的主题分类搜索系统
  • 5.1 简述
  • 5.2 系统结构
  • 5.2.1 基于Lucene 的索引与检索
  • 5.2.2 索引建立过程
  • 5.3 系统部署
  • 本章小结
  • 结论
  • 1.全文总结
  • 2.后续工作展望
  • 参考文献
  • 攻读硕士学位期间发表的学术论文
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  

    基于文本分类的WEB信息检索技术的研究
    下载Doc文档

    猜你喜欢