基于KNN及相关链接的中文网页分类研究

基于KNN及相关链接的中文网页分类研究

论文摘要

随着Internet的飞速发展,网上信息正在呈指数级增长。面对杂乱的网页信息资源,人们需要对海量的网页信息进行分类整理,从而可以快速检索到期望的目标及其关联信息。网页自动分类提供了处理和组织大规模网页的关键技术,是使信息资源得以合理有效组织的重要方法。如何提高网页分类的准确率和召回率,是研究人员不懈追求的目标。本文通过中文网页正文提取方法,较好地提取出中文网页中的正文文本,将网页标记的处理、噪音信息过滤和网页正文提取三个方面结合起来。网页中的链接主要分为两类,与本页主题相关的链接称为相关链接,与本页主题无关的链接称为无关链接,例如导航条和广告链接等等。本文提出的相关链接提取算法,能够较好地抽取出中文网页中的相关链接,该算法时间复杂性低,准确率和召回率都令人满意。本文基于向量空间模型,采用词频法选择网页中的特征词,采用机器学习算法KNN对中文网页进行分类,设计实现了一个中文网页分类器。比较了基于网页标题分类、基于网页正文分类、基于网页相关链接分类,以及将正文与相关链接结合分类、将标题与相关链接结合分类的分类效果,印证了中文网页中相关链接对网页分类具有积极影响的设想,同时也提出了一种分类方法。通过开放测试,实验数据表明,本文提出的网页正文和相关链接结合分类的方法所需的训练集较小,各个类别的分类F1值均在92%以上,比传统的网页分类效果有了一定的提高。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 研究的背景及意义
  • 1.2 网页分类和超链接分析方面的国内外研究现状
  • 1.2.1 网页分类的发展与研究现状
  • 1.2.2 超链接的研究现状
  • 1.3 本论文的工作及论文结构
  • 第2章 网页分类技术研究
  • 2.1 互联网信息描述语言
  • 2.1.1 SGML标记语言
  • 2.1.2 HTML标记语言
  • 2.1.3 XML标记语言
  • 2.2 文本分类的基本概念及特点
  • 2.2.1 文本分类的基本概念
  • 2.2.2 文本分类的特点
  • 2.3 文本表示模型
  • 2.3.1 布尔模型
  • 2.3.2 概率模型
  • 2.3.3 向量空间模型
  • 2.4 汉语分词
  • 2.5 文本特征选择及权值计算
  • 2.5.1 文档频率
  • 2.5.2 TF-IDF算法
  • 2.6 文本分类算法
  • 2.6.1 朴素贝叶斯分类
  • 2.6.2 支持向量机分类
  • 2.6.3 KNN分类
  • 2.6.4 神经网络分类
  • 2.6.5 决策树分类
  • 2.7 文本分类的评价体系
  • 2.7.1 准确率与召回率
  • 2.7.2 F值
  • 2.8 本章小结
  • 第3章 中文网页内容的提取算法研究
  • 3.1 网页标题的提取
  • 3.2 网页正文的提取
  • 3.3 网页相关链接的提取
  • 3.3.1 网页相关链接的提取算法
  • 3.3.2 相关链接提取算法的测试
  • 3.4 本章小结
  • 第4章 基于KNN的组合分类算法研究
  • 4.1 基于KNN的组合分类算法
  • 4.2 中文网页分类器的设计与实现
  • 4.2.1 中文网页预处理
  • 4.2.2 基于词频的特征选择
  • 4.2.3 系统流程设计
  • 4.3 本章小结
  • 第5章 中文网页分类实验设置与结果分析
  • 5.1 语料库简介
  • 5.2 实验方案及实验步骤
  • 5.2.1 实验方案
  • 5.2.2 实验步骤
  • 5.3 实验结果与分析
  • 5.3.1 未引入相关链接的网页分类实验结果与分析
  • 5.3.2 引入相关链接的网页分类实验结果与分析
  • 5.3.3 基于相关链接进行网页分类实验结果与分析
  • 5.4 本章小结
  • 结论
  • 参考文献
  • 攻读硕士学位期间发表的论文和取得的科研成果
  • 致谢
  • 个人简历
  • 相关论文文献

    标签:;  ;  ;  ;  

    基于KNN及相关链接的中文网页分类研究
    下载Doc文档

    猜你喜欢