基于Lucene和Heritrix的职位垂直搜索引擎的设计与实现

基于Lucene和Heritrix的职位垂直搜索引擎的设计与实现

论文摘要

随着信息急剧膨胀以及信息的多元化,使得传统搜索引擎需要采集、索引、查询的内容不断扩大。因此,即使面对搜索出来的信息我们也需要在大量的无关信息中费力寻找所需信息的情况。而垂直搜索引擎是面向某一特定的专业领域,因此不会像通用搜索引擎那样检索出大量无关信息,提高了查询效率,使用户能够更迅速地查询到自己所需的信息。即垂直搜索引擎在针对性、精确性和时效性等方面都比传统搜索引擎表现的更优。随着网络的发展,越来越多的人依托于网络的便捷和巨大的信息量开始在网上求职,这样人们就需要在各大招聘网站或者工作网站留意相关的招聘信息,为了方便人们更好的进行网络求职,本文提出设计和构建一个基于Lucene和Heritrix的求职垂直搜索引擎。本文讨论和研究一个面向求职的垂直搜索引擎的相关原理、技术和基本实现过程。针对于国内多个招聘网站利用定制的Heritrix进行数据抓取,对抓取的网页信息进行结构化处理,然后在Lucene的基础上对结构化信息进行索引的建立和存储,从而构建一个面向求职信息的垂直搜索引擎。该系统在需求分析和设计阶段采用MDA即模型驱动架构来指导程序的开发,使用开源工具包Heritrix和Lucene来实现程序的开发。整个系统大体分为四部分:信息抽取模块、爬虫模块、索引模块以及用户搜索模块。在爬虫模块,基于对Heritrix的理解基础上建立符合系统需求的自定义爬虫程序;在信息抽取模块中,利用HtmlParser对网页信息进行分析,在本文中通过位置节点这一概念来对信息正确的结构化抽取;在索引模块中结合数据库存储和索引存储来提高系统性能;在用户搜索模块采用三层架构思想来设计实现,将符合用户检索的信息显示给用户。

论文目录

  • 摘要
  • Abstract
  • 第一章 引言
  • 1.1 课题背景
  • 1.2 课题意义
  • 1.3 通用搜索引擎
  • 1.3.1 搜索引擎的工作原理
  • 1.3.2 搜索引擎发展史
  • 1.3.3 搜索引擎发展趋势
  • 1.3.4 搜索引擎分类
  • 1.4 垂直搜索引擎
  • 1.4.1 什么是垂直搜索引擎
  • 1.4.2 传统搜索引擎和垂直搜索引擎的区别
  • 1.4.3 垂直搜索引擎国内外现状
  • 第二章 垂直搜索引擎理论与技术
  • 2.1 信息采集技术
  • 2.1.1 基本工作原理
  • 2.1.2 抓取策略
  • 2.1.3 垂直搜索中的信息采集
  • 2.2 信息提取技术
  • 2.2.1 信息提取介绍
  • 2.2.2 信息提取方法
  • 2.2.3 信息提取相关技术
  • 2.3 中文分词技术
  • 2.3.1 中文分词介绍
  • 2.3.2 中文分词相关技术
  • 第三章 本系统用到的相关技术
  • 3.1 MDA 简介
  • 3.1.1 MDA 开发程序
  • 3.1.2 MDA 整体框架
  • 3.2 LUCENE 简介
  • 3.2.1 Lucene 组织结构
  • 3.2.2 Lucene 索引文件结构
  • 3.2.3 核心的索引类
  • 3.2.4 核心的搜索类
  • 3.2.5 Lucene 的全文检索
  • 3.3 HERITRIX 简介
  • 3.3.1 Heritrix 工作原理
  • 3.3.2 Heritrix 组织结构
  • 3.4 HTMLPARSER 简介
  • 3.4.1 HTMLParser 的主要作用
  • 3.4.2 HTMLParser 中数据结构
  • 3.4.3 HTMLParser 访问内容
  • 第四章 垂直搜索引擎设计与实现
  • 4.1 系统总体需求分析和设计
  • 4.2 爬虫模块的设计实现
  • 4.3 信息抽取模块的设计实现
  • 4.4 索引模块的设计实现
  • 4.5 搜索模块的设计实现
  • 第五章 总结和展望
  • 致谢
  • 参考文献
  • 相关论文文献

    • [1].一种改进的垂直搜索引擎研究与设计[J]. 现代计算机(专业版) 2018(34)
    • [2].油气行业垂直搜索引擎关键问题解决方案[J]. 计算机系统应用 2018(12)
    • [3].新闻类垂直搜索引擎系统研究与设计[J]. 黑龙江工程学院学报 2016(06)
    • [4].面向网络股评观点的垂直搜索引擎设计与实现[J]. 电子技术应用 2017(06)
    • [5].手机产品垂直搜索引擎的研究与实现[J]. 计算机科学 2014(S2)
    • [6].江苏:中国首个智库索引完成数据采集[J]. 科学家 2016(18)
    • [7].面向农业科研办公的垂直搜索引擎研究与设计[J]. 西南师范大学学报(自然科学版) 2020(09)
    • [8].面向医疗的垂直搜索引擎的研究与开发[J]. 科技与创新 2018(13)
    • [9].垂直搜索引擎在节能减排领域中的设计与实现[J]. 重庆科技学院学报(自然科学版) 2017(01)
    • [10].垂直搜索在教育领域中的应用研究[J]. 现代企业教育 2009(22)
    • [11].基于企业深度挖掘型垂直搜索引擎的应用研究[J]. 电脑编程技巧与维护 2014(12)
    • [12].基于聚类算法的垂直搜索引擎技术研究[J]. 北京信息科技大学学报(自然科学版) 2013(01)
    • [13].移动垂直搜索引擎在移动医疗中的应用研究[J]. 计算机应用与软件 2013(05)
    • [14].面向高校信息的垂直搜索引擎的研究与实现[J]. 沈阳建筑大学学报(自然科学版) 2012(03)
    • [15].改进的数据消重方法在垂直搜索引擎中的应用[J]. 邵阳学院学报(自然科学版) 2012(02)
    • [16].垂直搜索引擎关键技术研究综述[J]. 情报探索 2012(10)
    • [17].垂直搜索引擎应用研究[J]. 赤峰学院学报(自然科学版) 2011(02)
    • [18].垂直搜索引擎的信息服务特点——以一淘网为例[J]. 新闻爱好者 2011(10)
    • [19].垂直搜索引擎及其个性化推荐研究[J]. 潍坊学院学报 2011(04)
    • [20].基于垂直搜索引擎的学校网站的研究与建设[J]. 中国教育技术装备 2011(21)
    • [21].垂直搜索引擎应用研究[J]. 现代商贸工业 2010(04)
    • [22].垂直搜索引擎的研究与设计[J]. 计算机应用与软件 2010(07)
    • [23].垂直搜索引擎应用研究[J]. 计算机系统应用 2009(07)
    • [24].对垂直搜索引擎X公司投资可行性的评估[J]. 科技成果纵横 2009(03)
    • [25].垂直搜索引擎浅析[J]. 广西警官高等专科学校学报 2009(04)
    • [26].垂直搜索引擎与旅游行业探讨[J]. 农业网络信息 2009(11)
    • [27].结合本体筛选和文本挖掘的垂直搜索引擎研究[J]. 计算机科学 2008(02)
    • [28].垂直搜索引擎赢利模式探讨[J]. 大连大学学报 2008(03)
    • [29].垂直搜索引擎在企业内部的应用探索[J]. 信息与电脑(理论版) 2018(20)
    • [30].面向中文搜索的垂直搜索引擎的研究[J]. 科技广场 2017(05)

    标签:;  

    基于Lucene和Heritrix的职位垂直搜索引擎的设计与实现
    下载Doc文档

    猜你喜欢