基于Lucene/HttpClient的垂直搜索引擎研究与实现

基于Lucene/HttpClient的垂直搜索引擎研究与实现

论文摘要

在Internet发展的初始阶段,网络资源比较稀少,信息资源的查找比较容易。随着互联网的迅猛发展,Web中所容纳的信息量呈现指数级增长。面对海量的网络信息资源,如何快速高效地完成用户的搜索需求已成为通用搜索引擎瓶颈问题之一。同时,由于通用搜索引擎庞大的数据量和宽泛的主题,使其越来越无法满足用户对某一专题领域信息进行精确查找的需求。因此,面向专业领域的搜索引擎即垂直搜索引擎便应运而生。本文首先阐述垂直搜索引擎的概念、发展前景及特点,然后介绍了垂直搜索引擎的相关理论技术。本文所构建系统的数据源来自专利信息较全面的中国知网专利数据库。通过分析开源工具包HttpClient、开源框架Lucene的索引和检索机制,逐步完成计算机应用领域内专利信息网页数据的抓取、专利详细信息的抽取、并基于TFIDF进行关键词的提取、完成数据索引的建立和信息保存。最后,构建了一个针对计算机应用领域专利信息进行垂直搜索的搜索引擎原型系统。通过对垂直搜索引擎实验测试,证明了它基本可以满足用户对计算机应用领域专利信息的查询需求。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 课题研究背景
  • 1.2 搜索引擎发展历史
  • 1.3 垂直搜索引擎
  • 1.3.1 垂直搜索引擎的概念
  • 1.3.2 垂直搜索引擎国内外发展现状
  • 1.3.3 垂直搜索引擎的特点
  • 1.4 本文工作与组织结构
  • 1.4.1 本文主要工作
  • 1.4.2 论文组织结构
  • 第二章 垂直搜索引擎的相关理论
  • 2.1 网络爬虫
  • 2.1.1 网络爬虫工作原理
  • 2.1.2 网络爬虫的策略
  • 2.2 页面解析与中文分词
  • 2.2.1 页面解析
  • 2.2.2 中文分词
  • 2.3 垂直搜索引擎的工作原理
  • 2.4 小结
  • 第三章 索引检索框架LUCENE的分析研究
  • 3.1 LUCENE的用途
  • 3.2 LUCENE的发展现状与优点
  • 3.2.1 Lucene的历史
  • 3.2.2 Lucene的现状
  • 3.2.3 Lucene的优点
  • 3.3 LUCENE的索引机制
  • 3.3.1 创建索引的动机
  • 3.3.2 Lucene采用的索引机制——倒排索引
  • 3.3.3 Lucene建立索引
  • 3.3.4 索引合并与优化
  • 3.4 LUCENE的搜索机制
  • 3.4.1 基于IndexSearcher的搜索
  • 3.4.2 Lucene对搜索结果的评分、排序
  • 3.5 小结
  • 第四章 垂直搜索引擎的设计与实现
  • 4.1 系统总体设计思路
  • 4.1.1 系统构建环境
  • 4.1.2 系统总体结构
  • 4.2 信息采集子系统的实现
  • 4.2.1 信息采集主网站的选择
  • 4.2.2 基于DeepWeb/HttpClient的数据抓取
  • 4.2.3 页面解析
  • 4.3 关键字提取
  • 4.3.1 文本预处理
  • 4.3.2 中文分词
  • 4.3.3 基于TFIDF的关键字提取
  • 4.3.4 关键词提取整体流程
  • 4.4 基于LUCENE的索引子系统的实现
  • 4.4.1 中文分词分析器
  • 4.4.2 基于Lucene的索引构建
  • 4.5 检索子系统的设计与实现
  • 4.5.1 系统后台部分实现
  • 4.5.2 系统前台部分实现
  • 4.5.3 系统测试
  • 4.6 小结
  • 第五章 总结与展望
  • 5.1 论文总结
  • 5.2 下一步工作展望
  • 致谢
  • 参考文献
  • 攻读硕士学位期间研究成果
  • 相关论文文献

    • [1].一种改进的垂直搜索引擎研究与设计[J]. 现代计算机(专业版) 2018(34)
    • [2].油气行业垂直搜索引擎关键问题解决方案[J]. 计算机系统应用 2018(12)
    • [3].新闻类垂直搜索引擎系统研究与设计[J]. 黑龙江工程学院学报 2016(06)
    • [4].面向网络股评观点的垂直搜索引擎设计与实现[J]. 电子技术应用 2017(06)
    • [5].手机产品垂直搜索引擎的研究与实现[J]. 计算机科学 2014(S2)
    • [6].江苏:中国首个智库索引完成数据采集[J]. 科学家 2016(18)
    • [7].面向农业科研办公的垂直搜索引擎研究与设计[J]. 西南师范大学学报(自然科学版) 2020(09)
    • [8].面向医疗的垂直搜索引擎的研究与开发[J]. 科技与创新 2018(13)
    • [9].垂直搜索引擎在节能减排领域中的设计与实现[J]. 重庆科技学院学报(自然科学版) 2017(01)
    • [10].垂直搜索在教育领域中的应用研究[J]. 现代企业教育 2009(22)
    • [11].基于企业深度挖掘型垂直搜索引擎的应用研究[J]. 电脑编程技巧与维护 2014(12)
    • [12].基于聚类算法的垂直搜索引擎技术研究[J]. 北京信息科技大学学报(自然科学版) 2013(01)
    • [13].移动垂直搜索引擎在移动医疗中的应用研究[J]. 计算机应用与软件 2013(05)
    • [14].面向高校信息的垂直搜索引擎的研究与实现[J]. 沈阳建筑大学学报(自然科学版) 2012(03)
    • [15].改进的数据消重方法在垂直搜索引擎中的应用[J]. 邵阳学院学报(自然科学版) 2012(02)
    • [16].垂直搜索引擎关键技术研究综述[J]. 情报探索 2012(10)
    • [17].垂直搜索引擎应用研究[J]. 赤峰学院学报(自然科学版) 2011(02)
    • [18].垂直搜索引擎的信息服务特点——以一淘网为例[J]. 新闻爱好者 2011(10)
    • [19].垂直搜索引擎及其个性化推荐研究[J]. 潍坊学院学报 2011(04)
    • [20].基于垂直搜索引擎的学校网站的研究与建设[J]. 中国教育技术装备 2011(21)
    • [21].垂直搜索引擎应用研究[J]. 现代商贸工业 2010(04)
    • [22].垂直搜索引擎的研究与设计[J]. 计算机应用与软件 2010(07)
    • [23].垂直搜索引擎应用研究[J]. 计算机系统应用 2009(07)
    • [24].对垂直搜索引擎X公司投资可行性的评估[J]. 科技成果纵横 2009(03)
    • [25].垂直搜索引擎浅析[J]. 广西警官高等专科学校学报 2009(04)
    • [26].垂直搜索引擎与旅游行业探讨[J]. 农业网络信息 2009(11)
    • [27].结合本体筛选和文本挖掘的垂直搜索引擎研究[J]. 计算机科学 2008(02)
    • [28].垂直搜索引擎赢利模式探讨[J]. 大连大学学报 2008(03)
    • [29].垂直搜索引擎在企业内部的应用探索[J]. 信息与电脑(理论版) 2018(20)
    • [30].面向中文搜索的垂直搜索引擎的研究[J]. 科技广场 2017(05)

    标签:;  ;  ;  

    基于Lucene/HttpClient的垂直搜索引擎研究与实现
    下载Doc文档

    猜你喜欢