垂直搜索引擎数据采集技术的研究与实现

垂直搜索引擎数据采集技术的研究与实现

论文摘要

垂直搜索引擎是针对通用搜索引擎的信息量大、查询不准确、深度不够等问题提出来的新的搜索引擎服务模式。本文在查阅了大量的国内外文献的基础上,对垂直搜索引擎的系统结构、工作原理、搜索策略、链接去重和网页更新等关键技术和主要算法进行了深入的学习和研究。重点讨论了垂直搜索引擎数据采集系统的搜索策略和主题相关性算法,并对链接去重和网页更新等算法进行了改进,在此基础上对垂直搜索引擎进行了总体设计,设计实现了一个电子商务垂直搜索引擎的信息采集系统。实验结果表明,该系统具有较高的采集效率,采集的页面具有较好的主题相关度,达到了预期的设计目标。该系统具有较好的实用价值和应用前景。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 引言
  • 1.1 选题背景及意义
  • 1.2 国内外研究现状
  • 1.3 本文的工作与创新
  • 第二章 搜索引擎概述
  • 2.1 搜索引擎的分类
  • 2.1.1 通用搜索引擎
  • 2.1.2 目录搜索引擎
  • 2.1.3 元搜索引擎
  • 2.2 垂直搜索引擎
  • 2.2.1 垂直搜索引擎的出现
  • 2.2.2 垂直搜索引擎的特点
  • 2.2.3 面向主题的数据采集
  • 2.3 搜索引擎的工作原理
  • 第三章 系统的总体设计
  • 3.1 搜索引擎的系统结构
  • 3.2 数据采集系统的系统结构
  • 3.2.1 信息获取器
  • 3.2.2 网页去重器
  • 3.2.3 URL 抽取器
  • 3.2.4 数据存储模块
  • 3.3 面临的主要问题及对策
  • 3.4 系统设计目标
  • 第四章 系统搜索策略的研究
  • 4.1 基于内容评价的搜索策略
  • 4.1.1 Fish Search 算法
  • 4.1.2 Shark Search 算法
  • 4.2 基于链结构特征的搜索策略
  • 4.2.1 主题页面的分布特征
  • 4.2.2 PageRank 算法
  • 4.2.3 HITS 算法
  • 4.2.4 PageRank 与HITS 算法的比较
  • 第五章 系统的设计与实现
  • 5.1 robot 协议处理
  • 5.2 链接处理模块
  • 5.2.1 超链接的抽取
  • 5.2.2 无效链接的过滤
  • 5.2.3 链接的评价与选择
  • 5.2.4 基于散列技术的去重策略
  • 5.3 页面处理模块
  • 5.3.1 页面的评价与过滤
  • 5.3.2 页面的去重策略
  • 5.3.3 页面的存储方式
  • 5.3.4 基于“链接比”概念的更新策略
  • 5.4 多线程技术的应用
  • 5.5 使用网络代理
  • 第六章 实验结果与评价
  • 6.1 性能评价指标
  • 6.2 测试环境
  • 6.3 测试结果与评价
  • 第七章 总结与展望
  • 参考文献
  • 致谢
  • 在学期间发表的学术论文和参加科研情况
  • 相关论文文献

    标签:;  ;  ;  

    垂直搜索引擎数据采集技术的研究与实现
    下载Doc文档

    猜你喜欢