面向主题型的网页分类技术的研究与实现

面向主题型的网页分类技术的研究与实现

论文摘要

搜索引擎是目前使用的最普遍的网络信息检索工具,人们对它有很强的依赖性,搜索引擎大多数采取的是基于关键词匹配检索的策略,但是随着互联网上的信息量与日俱增,这种检索策略的执行效果受到了很大的影响。为使搜索引擎在检索互联网信息时能够准确定位,并且提高检索到的信息与目标之间的关联度,网页自动分类技术被用来辅助搜索引擎检索网络信息,以优化搜索引擎的检索效果。网页自动分类技术,是在文本自动分类技术的基础上发展起来的,网页自动分类系统本质上是由自然语言处理技术和机器学习原理相结合实现的系统,而分类器是网页自动分类系统的核心部分。本文介绍了几种当前较为成熟且流行的分类算法,通过对比其各自的优缺点,考虑到实际网络中的取样情况,从中选定K-最近邻算法构造分类器,并用此分类器判定指定映射的未知文本的类别。本文在研究了中文网页的结构和特点的基础上,设计完成此分类系统,并在本文中逐一说明了构建此系统的流程步骤,本文重点研究了构成此分类系统的几个重要部分即文本预处理、主题特征抽取、建立特征库、类别测度,并在真实的网络环境下进行了实验。在系统的具体实现上采用了与搜索引擎相结合的方式,从搜索引擎抓取的页面内容中抽取特征,并建立特征库,进行类别测度。最后根据当下普遍采用的检测指标衡量此系统的分类器分类准确率。本文最后有针对性的对一些网站做了实验,并提供一系列的实验数据、评估参数来证明这个系统的有效性、可行性,阐明了该自动分类技术可以用于优化搜索引擎检索网络信息的准确度和相关性。

论文目录

  • 摘要
  • Abstract
  • 1 绪论
  • 1.1 课题背景
  • 1.2 网页分类技术研究现状
  • 1.3 论文结构安排
  • 2 相关技术介绍
  • 2.1 网页分类技术
  • 2.2 分类技术主要难点
  • 2.3 分类效果测评技术
  • 2.4 本章小结
  • 3 系统设计方案
  • 3.1 系统设计思路
  • 3.2 系统功能需求分析
  • 3.3 系统总体结构
  • 3.4 系统设计方案
  • 3.5 本章小结
  • 4 系统详细实现
  • 4.1 网页预处理模块实现
  • 4.2 网页特征抽取模块实现
  • 4.3 特征数据处理模块实现
  • 4.4 建立特征库模块实现
  • 4.5 类别测度模块实现
  • 4.6 性能评测模块实现
  • 4.7 本章小结
  • 5 实验结果及分析
  • 5.1 系统测试环境
  • 5.2 实验结果
  • 5.3 结果分析
  • 5.4 本章小结
  • 6 总结与展望
  • 6.1 论文工作总结
  • 6.2 后续工作展望
  • 致谢
  • 参考文献
  • 相关论文文献

    标签:;  ;  ;  ;  

    面向主题型的网页分类技术的研究与实现
    下载Doc文档

    猜你喜欢