垂直搜索引擎的研究与设计

垂直搜索引擎的研究与设计

论文摘要

随着Internet的飞速发展,Web上的信息量越来越大,通用搜索引擎在信息采集、存储等方面都将面临更加严峻的挑战。此外,通用搜索引擎面向Web上所有的检索用户检索不同类别的各种信息,但是,包罗万象的检索结果显然不能满足特定领域用户的精确搜索的需求。因此,面向主题的垂直搜索引擎系统应运而生。垂直搜索引擎系统包括网络机器人程序、索引程序和检索程序。与通用搜索引擎不同,垂直搜索引擎的网络机器人只采集Web中与主题相关的网页信息。网络机器人在爬行时要不断地计算当前网页的主题相关度数值,并根据数值评价网页的主题相关度,因此,它可以有效地避开大量无关主题区域,搜索出特定主题领域内的相关网页。所以,垂直搜索引擎的准确率、召回率和效率都远胜于通用搜索引擎。此外,由于网页数量的减少,垂直搜索引擎系统的数据维护的代价也远远低于通用搜索引擎,使用普通的硬件设备即可建立一个高质、高效的垂直搜索引擎系统的硬件环境。本文首先分析了通用搜索引擎与垂直搜索引擎在系统架构、工作原理、关键技术等方面的异同,介绍了垂直搜索引擎技术的研究现状和发展方向,然后深入分析了主题页面在Web上的分布特征,并重点研究了垂直搜索引擎的主题搜索策略和主题相关度判别算法。在此基础上,围绕垂直搜索引擎系统的体系结构,运用UML技术抽取出网络机器人程序和索引程序的对象模型。最后,应用Java+Lucene技术分别实现了网络机器人程序和索引程序,构建了一个可以在Tomcat服务器上运行的垂直搜索引擎系统软件原型。本文创新点:(1)采用改进和扩展Apache Lucene的思想来指导系统的开发,有效地重用了Lucene中的核心代码;(2)在Lucene的基础上独立开发了中文分词模块,具有新颖性(3)对主题搜索策略进行了优化,采用一种同时结合网页文字内容和Web图的启发式搜索算法作为本系统的搜索策略,实验证明此算法能提高搜索准确率,并有效地避免了主题漂移现象。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 研究的背景与意义
  • 1.2 课题来源及设计目标
  • 1.3 本文的主要工作及组织结构
  • 第二章 垂直搜索引擎及关键技术
  • 2.1 搜索引擎概述
  • 2.1.1 搜索引擎发展历史
  • 2.1.2 搜索引擎的分类
  • 2.1.3 搜索引擎的工作原理和体系结构
  • 2.1.4 搜索引擎面临的挑战及发展趋势
  • 2.1.5 评价搜索引擎性能的指标
  • 2.2 垂直搜索引擎简介
  • 2.3 垂直搜索引擎与通用搜索引擎的比较
  • 2.4 垂直搜索引擎的关键技术研究
  • 2.4.1 主题页面在Web 上的分布特征
  • 2.4.2 主题搜索策略
  • 2.4.3 页面与主题相关度的判定
  • 2.4.4 网页信息的结构化抽取方式
  • 第三章 垂直搜索引擎体系结构设计及功能分析
  • 3.1 垂直搜索引擎体系结构
  • 3.2 系统主要功能模块
  • 3.2.1 主题初始化模块
  • 3.2.2 网络机器人模块
  • 3.2.3 信息过滤模块
  • 3.2.4 中文分词与索引模块
  • 3.2.5 用户接口模块
  • 3.3 系统开发环境
  • 3.4 本章小结
  • 第四章 主题初始化模块的设计与实现
  • 4.1 主题 URL 种子库的设计
  • 4.2 主题词库的设计
  • 4.3 主题初始化模块的实现
  • 4.3.1 主题URL 种子库的实现
  • 4.3.2 主题词库的实现
  • 4.4 小结
  • 第五章 网络机器人的设计及实现
  • 5.1 网络机器人的爬行流程
  • 5.2 网络机器人内的协作关系
  • 5.3 多线程下载模块的设计与实现
  • 5.4 URL 队列管理
  • 5.5 网络机器人主要类图设计
  • 5.5.1 ParseUrl 类
  • 5.5.2 ProcessUrl 类
  • 5.5.3 Spider 类
  • 5.5.4 SpiderController 类
  • 5.5.5 HashQueue 类
  • 5.5.6 HTMLDocument 类
  • 5.5.7 各个类之间的关系
  • 5.6 网络机器人搜索策略设计
  • 5.7 主题相关度判定算法设计
  • 5.7.1 页面主题相关性判断算法
  • 5.7.2 URL 与主题的相关性判断算法
  • 5.8 本章小结
  • 第六章 页面解析与中文分词
  • 6.1 页面解析
  • 6.2 中文分词
  • 6.2.1 中文分词介绍
  • 6.2.2 基于Lucene 的中文分词的实现
  • 6.2.3 正向最大匹配分词算法描述与示例
  • 6.2.4 主题词库描述
  • 6.2.5 分词模块的设计
  • 6.3 基于Lucene 的索引模块的设计与实现
  • 6.3.1 设计索引结构
  • 6.3.2 建立并优化索引
  • 6.4 本章小结
  • 第七章 实验验证与性能分析
  • 7.1 实验环境
  • 7.2 垂直搜索引擎的性能测试
  • 7.2.1 多线程爬行性能测试
  • 7.2.2 主题网页采集准确率测试
  • 7.3 搜索算法性能对比
  • 7.4 本章小结
  • 总结与展望
  • 参考文献
  • 致谢
  • 个人简历 在读期间发表的学术论文
  • 相关论文文献

    • [1].一种改进的垂直搜索引擎研究与设计[J]. 现代计算机(专业版) 2018(34)
    • [2].油气行业垂直搜索引擎关键问题解决方案[J]. 计算机系统应用 2018(12)
    • [3].新闻类垂直搜索引擎系统研究与设计[J]. 黑龙江工程学院学报 2016(06)
    • [4].面向网络股评观点的垂直搜索引擎设计与实现[J]. 电子技术应用 2017(06)
    • [5].手机产品垂直搜索引擎的研究与实现[J]. 计算机科学 2014(S2)
    • [6].江苏:中国首个智库索引完成数据采集[J]. 科学家 2016(18)
    • [7].面向农业科研办公的垂直搜索引擎研究与设计[J]. 西南师范大学学报(自然科学版) 2020(09)
    • [8].面向医疗的垂直搜索引擎的研究与开发[J]. 科技与创新 2018(13)
    • [9].垂直搜索引擎在节能减排领域中的设计与实现[J]. 重庆科技学院学报(自然科学版) 2017(01)
    • [10].垂直搜索在教育领域中的应用研究[J]. 现代企业教育 2009(22)
    • [11].基于企业深度挖掘型垂直搜索引擎的应用研究[J]. 电脑编程技巧与维护 2014(12)
    • [12].基于聚类算法的垂直搜索引擎技术研究[J]. 北京信息科技大学学报(自然科学版) 2013(01)
    • [13].移动垂直搜索引擎在移动医疗中的应用研究[J]. 计算机应用与软件 2013(05)
    • [14].面向高校信息的垂直搜索引擎的研究与实现[J]. 沈阳建筑大学学报(自然科学版) 2012(03)
    • [15].改进的数据消重方法在垂直搜索引擎中的应用[J]. 邵阳学院学报(自然科学版) 2012(02)
    • [16].垂直搜索引擎关键技术研究综述[J]. 情报探索 2012(10)
    • [17].垂直搜索引擎应用研究[J]. 赤峰学院学报(自然科学版) 2011(02)
    • [18].垂直搜索引擎的信息服务特点——以一淘网为例[J]. 新闻爱好者 2011(10)
    • [19].垂直搜索引擎及其个性化推荐研究[J]. 潍坊学院学报 2011(04)
    • [20].基于垂直搜索引擎的学校网站的研究与建设[J]. 中国教育技术装备 2011(21)
    • [21].垂直搜索引擎应用研究[J]. 现代商贸工业 2010(04)
    • [22].垂直搜索引擎的研究与设计[J]. 计算机应用与软件 2010(07)
    • [23].垂直搜索引擎应用研究[J]. 计算机系统应用 2009(07)
    • [24].对垂直搜索引擎X公司投资可行性的评估[J]. 科技成果纵横 2009(03)
    • [25].垂直搜索引擎浅析[J]. 广西警官高等专科学校学报 2009(04)
    • [26].垂直搜索引擎与旅游行业探讨[J]. 农业网络信息 2009(11)
    • [27].结合本体筛选和文本挖掘的垂直搜索引擎研究[J]. 计算机科学 2008(02)
    • [28].垂直搜索引擎赢利模式探讨[J]. 大连大学学报 2008(03)
    • [29].垂直搜索引擎在企业内部的应用探索[J]. 信息与电脑(理论版) 2018(20)
    • [30].面向中文搜索的垂直搜索引擎的研究[J]. 科技广场 2017(05)

    标签:;  ;  ;  ;  

    垂直搜索引擎的研究与设计
    下载Doc文档

    猜你喜欢