基于半监督聚类的爬虫在线样本生成算法

基于半监督聚类的爬虫在线样本生成算法

论文摘要

近年来,随着互联网的普及以及快速增长,多样化的信息资源充斥着互联网。虽然现在有了搜索引擎帮助,可以简化网络资料获取的过程,但很多情况下,用户为了查找某个特定领域的信息还是要耗费大量的时间与精力。为了解决这个问题,主题爬虫应运而生,它可以根据用户自定义的目标主题,以智能化的方式从Web上收集主题相关的页面集,然后采用机器学习或信息检索的方法对结果进行分析处理,将用户最需要的答案提取出来。可以说,不论是要获取网络上的一个特定领域的主题信息,或者是构建个性化的搜索引擎,主题爬虫都已经成为一个首选的方法。而主题爬虫有许多个重要的组成部分,样本生成系统就是其中重要的一个。本文首先介绍了针对主题爬虫的样本生成系统的一些基本概念和主要研究内容。由于主题爬行的核心问题就是对候选URL进行权重判断,所以样本对于主题爬虫是极其重要的。在分析了现有的主题爬虫系统后,发现它们的样本生成算法都存在一定的问题。在对样本页面的特点进行深入研究后,发现它的锚文本内容包含了大量的特征信息。为了在大量的页面中提取出新的样本页面,我们基于页面的锚文本内容设计了计算模型,该模型是以锚文本的主题为基础建立的。然后采用一个半监督的聚类算法,该算法通过计算待测页面与种子样本页面集合之间的相似度来估计前者成为新样本页面的可能性。再通过阈值筛选后,对新得到的样本页面与原样本集合进行合并,完成一个样本增量生成的过程。在进行大量的实验后,发现算法在针对“窄主题”的样本发现过程中,存在准确率下降的问题,针对以上问题产生的原因,提出了一个改进的算法,在改进算法中,我们对于种子样本的模型建立进行了词数量的限制,同时将页面标题及页面正文加入特征模型中,使得样本生成系统可以更加准确的选择新样本页面。基于以上的研究成果,本文设计并实现了一个增量样本生成的实验原型系统,包括了种子样本模型建立,爬行解析、样本增量生成等模块,为进行相关的算法实验和研究提供了一个基础平台。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 研究背景和意义
  • 1.2 国内外相关技术研究现状
  • 1.2.1 主题爬虫技术现状
  • 1.2.2 样本生成研究现状
  • 1.3 本文的主要研究内容与章节组织
  • 第2章 基于分类的样本生成算法
  • 2.1 引言
  • 2.2 基于分类的样本生成算法
  • 2.2.1 静态样本生成算法的缺陷
  • 2.2.2 基于分类的增量样本生成算法研究
  • 2.2.3 基于分类的样本生成算法存在的问题
  • 2.3 实验结果及分析
  • 2.4 本章小结
  • 第3章 基于半监督聚类的增量样本生成算法
  • 3.1 基于增量学习的样本生成模型
  • 3.1.1 增量学习模型的定义
  • 3.1.2 基于增量学习的样本生成器体系结构
  • 3.2 半监督聚类算法CONSTRAINED-KMEANS
  • 3.2.1 聚类算法
  • 3.2.2 constrained-kmeans 算法
  • 3.2.3 基于锚文本的页面模型
  • 3.2.4 hubs 页面的特征描述
  • 3.2.5 基于锚文本的页面模型
  • 3.2.6 样本向量空间中距离的定义
  • 3.2.7 全样本向量
  • 3.3 增量样本生成算法
  • 3.3.1 基于constrain-kmeans 的样本生成算法
  • 3.3.2 样本增量策略
  • 3.3.3 ISG 算法及其分析
  • 3.4 实验与分析
  • 3.4.1 数据描述
  • 3.4.2 结果分析
  • 3.5 本章小结
  • 第4章 采用多页面特征的改进样本生成算法
  • 4.1 问题的定义
  • 4.1.1 窄主题样本生成问题
  • 4.1.2 样本生成准确率降低的原因
  • 4.2 样本页面特征表示模型
  • 4.2.1 超文本的多特征特性
  • 4.2.2 基于多特征的页面表示模型
  • 4.3 基于多特征的样本生成算法
  • 4.3.1 种子向量模型建立的问题
  • 4.3.2 基于多特征的样本生成算法
  • 4.4 实验与分析
  • 4.4.1 数据描述
  • 4.4.2 实验结果分析
  • 4.5 本章小结
  • 第5章 增量样本生成系统与应用
  • 5.1 系统设计与实现
  • 5.1.1 系统的功能目标
  • 5.1.2 开发平台及工具
  • 5.2 系统总体设计
  • 5.3 系统详细设计
  • 5.3.1 爬行解析模块
  • 5.3.2 页面特征提取/数据预处理模块
  • 5.3.3 样本模型建立模块
  • 5.3.4 样本生成模块
  • 5.3.5 样本增量筛选模块
  • 5.4 系统应用
  • 5.5 本章小结
  • 结论
  • 参考文献
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  

    基于半监督聚类的爬虫在线样本生成算法
    下载Doc文档

    猜你喜欢