
论文摘要
随着Internet的飞速发展,网上信息正在呈指数级增长。面对杂乱的网页信息资源,人们需要对海量的网页信息进行分类整理,从而可以快速检索到期望的目标及其关联信息。网页自动分类提供了处理和组织大规模网页的关键技术,是使信息资源得以合理有效组织的重要方法。如何提高网页分类的准确率和召回率,是研究人员不懈追求的目标。本文通过中文网页正文提取方法,较好地提取出中文网页中的正文文本,将网页标记的处理、噪音信息过滤和网页正文提取三个方面结合起来。网页中的链接主要分为两类,与本页主题相关的链接称为相关链接,与本页主题无关的链接称为无关链接,例如导航条和广告链接等等。本文提出的相关链接提取算法,能够较好地抽取出中文网页中的相关链接,该算法时间复杂性低,准确率和召回率都令人满意。本文基于向量空间模型,采用词频法选择网页中的特征词,采用机器学习算法KNN对中文网页进行分类,设计实现了一个中文网页分类器。比较了基于网页标题分类、基于网页正文分类、基于网页相关链接分类,以及将正文与相关链接结合分类、将标题与相关链接结合分类的分类效果,印证了中文网页中相关链接对网页分类具有积极影响的设想,同时也提出了一种分类方法。通过开放测试,实验数据表明,本文提出的网页正文和相关链接结合分类的方法所需的训练集较小,各个类别的分类F1值均在92%以上,比传统的网页分类效果有了一定的提高。
论文目录
摘要Abstract第1章 绪论1.1 研究的背景及意义1.2 网页分类和超链接分析方面的国内外研究现状1.2.1 网页分类的发展与研究现状1.2.2 超链接的研究现状1.3 本论文的工作及论文结构第2章 网页分类技术研究2.1 互联网信息描述语言2.1.1 SGML标记语言2.1.2 HTML标记语言2.1.3 XML标记语言2.2 文本分类的基本概念及特点2.2.1 文本分类的基本概念2.2.2 文本分类的特点2.3 文本表示模型2.3.1 布尔模型2.3.2 概率模型2.3.3 向量空间模型2.4 汉语分词2.5 文本特征选择及权值计算2.5.1 文档频率2.5.2 TF-IDF算法2.6 文本分类算法2.6.1 朴素贝叶斯分类2.6.2 支持向量机分类2.6.3 KNN分类2.6.4 神经网络分类2.6.5 决策树分类2.7 文本分类的评价体系2.7.1 准确率与召回率2.7.2 F值2.8 本章小结第3章 中文网页内容的提取算法研究3.1 网页标题的提取3.2 网页正文的提取3.3 网页相关链接的提取3.3.1 网页相关链接的提取算法3.3.2 相关链接提取算法的测试3.4 本章小结第4章 基于KNN的组合分类算法研究4.1 基于KNN的组合分类算法4.2 中文网页分类器的设计与实现4.2.1 中文网页预处理4.2.2 基于词频的特征选择4.2.3 系统流程设计4.3 本章小结第5章 中文网页分类实验设置与结果分析5.1 语料库简介5.2 实验方案及实验步骤5.2.1 实验方案5.2.2 实验步骤5.3 实验结果与分析5.3.1 未引入相关链接的网页分类实验结果与分析5.3.2 引入相关链接的网页分类实验结果与分析5.3.3 基于相关链接进行网页分类实验结果与分析5.4 本章小结结论参考文献攻读硕士学位期间发表的论文和取得的科研成果致谢个人简历
相关论文文献
标签:中文网页分类论文; 网页提取论文; 相关链接论文; 向量空间模型论文;