论文摘要
随着Internet的迅猛发展,搜索引擎已经成为人们处理Web信息、获取信息资源的必备工具。传统的搜索引擎,即通用搜索引擎不能满足人们对个性化信息检索服务日益增长的需要。近年来,基于文本分类技术的面向专题的搜索引擎应运而生,以提供分类更细致精确的Web信息检索服务。文本自动分类是指在给定的分类体系下,根据文本的内容自动判别文本类别的过程。近年来,文本分类技术已经逐渐与搜索引擎、信息推送、信息过滤等信息处理技术相结合,有效地提高了信息服务的质量。文本自动分类技术能够有效地将文本信息组织管理起来,帮助人们准确高效的定位文本信息,为用户获取所需信息提供有力的支持。文本分类的关键技术主要包括向文本表示模型、特征项赋权、特征选取、分类器构建等,本文对这些技术作了详细介绍和深入分析。本文在向量空间模型基础上,通过针对常用的特征权重计算方法TF-IDF的分析,提出了一种新的权值计算方法。该权值计算方法将特征评估函数包含到特征权值计算中,按照特征对文本分类的辨别能力调整其在权重计算中的贡献。网页是一种超文本文档,其中含有文本信息和许多超文本标记等结构信息。本文通过分析HTML标记对特征值权重的影响,在特征赋权方面,提出了结合TF-IDF与HTML标记分布信息的权重计算法。实验结果表明改进的权重计算法对分类精度有所提高。本文介绍了Lucene搜索架构以及Lucene各个模块的组成和使用,利用开源的Lucene引擎架构设计一个搜索测试系统。
论文目录
摘要Abstract绪论一. 课题研究背景二. 本文的意义及主要工作第一章 搜索引擎概述1.1 信息检索技术1.1.1 信息检索的概念1.1.2 信息检索系统模型1.1.3 信息检索系统的处理过程1.2 搜索引擎简介1.2.1 Web 信息资源的特点1.2.2 搜索引擎的发展历史1.2.3 搜索引擎的分类本章小结第二章 搜索引擎相关技术2.1 搜索引擎的体系结构2.2 Spider 概述2.2.1 网页的基本结构2.2.2 网络爬虫Spider 的结构及处理流程2.3 Indexer 分析2.4 Searcher 中的关键问题2.5 中文自动分词本章小结第三章 文本分类技术3.1 文本分类的概念与特点3.2 文本分类的过程3.3 文本的表示模型3.3.1 布尔模型(Boolean Model)3.3.2 概率模型(Probabilistic Model )3.3.3 向量空间模型(Vector Space Model,VSM)3.4 基于向量空间模型的文本分类算法分析3.4.1 TF-IDF 权重3.4.2 主要文本分类算法3.4.3 关于阈值的确定3.5 文本分类的评估3.5.1 准确率(Precision)与召回率(Recall)3.5.2 F 值(F-measure)3.6 改进的权值计算方法3.7 网页中HTML 标记对词条权重的影响3.7.1 HTML 标记与关键词权重的联系3.7.2 改进权重算法实验分析本章小结第四章 全文检索引擎Lucene4.1 Lucene 全文检索4.1.1 Lucene 的特点及优势4.1.2 Lucene 系统结构分析4.2 Lucene 索引文件的结构4.3 索引模块4.4 检索过程和结果显示本章小结第五章 基于Lucene 的主题分类搜索系统5.1 简述5.2 系统结构5.2.1 基于Lucene 的索引与检索5.2.2 索引建立过程5.3 系统部署本章小结结论1.全文总结2.后续工作展望参考文献攻读硕士学位期间发表的学术论文致谢
相关论文文献
标签:搜索引擎论文; 文本分类论文; 网络爬虫论文;