基于KNN及相关链接的中文网页分类研究

论文摘要

随着Internet的飞速发展,网上信息正在呈指数级增长。面对杂乱的网页信息资源,人们需要对海量的网页信息进行分类整理,从而可以快速检索到期望的目标及其关联信息。网页自动分类提供了处理和组织大规模网页的关键技术,是使信息资源得以合理有效组织的重要方法。如何提高网页分类的准确率和召回率,是研究人员不懈追求的目标。本文通过中文网页正文提取方法,较好地提取出中文网页中的正文文本,将网页标记的处理、噪音信息过滤和网页正文提取三个方面结合起来。网页中的链接主要分为两类,与本页主题相关的链接称为相关链接,与本页主题无关的链接称为无关链接,例如导航条和广告链接等等。本文提出的相关链接提取算法,能够较好地抽取出中文网页中的相关链接,该算法时间复杂性低,准确率和召回率都令人满意。本文基于向量空间模型,采用词频法选择网页中的特征词,采用机器学习算法KNN对中文网页进行分类,设计实现了一个中文网页分类器。比较了基于网页标题分类、基于网页正文分类、基于网页相关链接分类,以及将正文与相关链接结合分类、将标题与相关链接结合分类的分类效果,印证了中文网页中相关链接对网页分类具有积极影响的设想,同时也提出了一种分类方法。通过开放测试,实验数据表明,本文提出的网页正文和相关链接结合分类的方法所需的训练集较小,各个类别的分类F1值均在92%以上,比传统的网页分类效果有了一定的提高。

论文目录

摘要

Abstract

第1章绪论

1.1 研究的背景及意义

1.2 网页分类和超链接分析方面的国内外研究现状

1.2.1 网页分类的发展与研究现状

1.2.2 超链接的研究现状

1.3 本论文的工作及论文结构

第2章网页分类技术研究

2.1 互联网信息描述语言

2.1.1 SGML标记语言

2.1.2 HTML标记语言

2.1.3 XML标记语言

2.2 文本分类的基本概念及特点

2.2.1 文本分类的基本概念

2.2.2 文本分类的特点

2.3 文本表示模型

2.3.1 布尔模型

2.3.2 概率模型

2.3.3 向量空间模型

2.4 汉语分词

2.5 文本特征选择及权值计算

2.5.1 文档频率

2.5.2 TF-IDF算法

2.6 文本分类算法

2.6.1 朴素贝叶斯分类

2.6.2 支持向量机分类

2.6.3 KNN分类

2.6.4 神经网络分类

2.6.5 决策树分类

2.7 文本分类的评价体系

2.7.1 准确率与召回率

2.7.2 F值

2.8 本章小结

第3章中文网页内容的提取算法研究

3.1 网页标题的提取

3.2 网页正文的提取

3.3 网页相关链接的提取

3.3.1 网页相关链接的提取算法

3.3.2 相关链接提取算法的测试

3.4 本章小结

第4章基于KNN的组合分类算法研究

4.1 基于KNN的组合分类算法

4.2 中文网页分类器的设计与实现

4.2.1 中文网页预处理

4.2.2 基于词频的特征选择

4.2.3 系统流程设计

4.3 本章小结

第5章中文网页分类实验设置与结果分析

5.1 语料库简介

5.2 实验方案及实验步骤

5.2.1 实验方案

5.2.2 实验步骤

5.3 实验结果与分析

5.3.1 未引入相关链接的网页分类实验结果与分析

5.3.2 引入相关链接的网页分类实验结果与分析

5.3.3 基于相关链接进行网页分类实验结果与分析

5.4 本章小结

结论

参考文献

攻读硕士学位期间发表的论文和取得的科研成果

致谢

个人简历

基于KNN及相关链接的中文网页分类研究

论文摘要

论文目录

相关论文文献

猜你喜欢