基于Lucene的主题搜索引擎研究

基于Lucene的主题搜索引擎研究

论文摘要

搜索引擎(Search Engine)以一定的搜索策略在互联网中搜集信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。而主题搜索引擎只覆盖与特定主题相关的Web区域,这样它搜索的可以更深,搜索的周期可以更短,因此能满足用户对获取信息资源快速、准确的性能要求。目前,对主题搜索引擎的研究正处于十分活跃的阶段。许多机器学习领域里的知识被应用到主题搜索引擎的设计和实现中。本文提出了一种基于综合价值的网络蜘蛛搜索策略,将基于立即价值和基于未来价值的两种价值评价方法结合起来,共同对链接的重要性进行预测,使得网络蜘蛛能够根据搜索的实际情况动态地调整搜索策略,从而提高了主题搜索引擎搜索的效率。本文还提出了检索器的一种总体架构设计,并完成了检索器、摘要生成器和摘要内容着色器模块的详细设计。最后对Lucene原有页面排序算法根据具体需求做了改进。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 课题背景
  • 1.1.1 搜索引擎简介
  • 1.1.2 主题搜索引擎产生的背景
  • 1.1.3 主题搜索引擎与通用搜索引擎的不同
  • 1.1.4 主题搜索引擎的发展现状
  • 1.1.5 主题搜索引擎的优势
  • 1.1.6 主题搜索引擎的实现
  • 1.2 本课题的主要研究内容和意义
  • 1.2.1 问题的提出
  • 1.2.2 主要研究内容
  • 1.2.3 主要意义
  • 1.3 论文的基本结构介绍
  • 第二章 搜索引擎技术
  • 2.1 搜索引擎的基本组成及原理
  • 2.1.1 搜索引擎的基本组成
  • 2.1.2 搜索引擎的基本原理
  • 2.1.3 搜索引擎的详细工作流程
  • 2.2 搜索引擎的体系结构
  • 2.2.1 网络蜘蛛
  • 2.2.2 索引器
  • 2.2.3 检索器
  • 2.3 相关技术
  • 2.3.1 分布式技术
  • 2.3.2 中文分词
  • 2.3.3 网页排序
  • 2.3.4 压缩技术
  • 2.4 Lucene理论知识
  • 2.4.1 Lucene工具包
  • 2.4.2 Ajax技术
  • 第三章 网络蜘蛛的搜索策略研究
  • 3.1 引言
  • 3.2 链接的立即价值和综合价值
  • 3.3 基于综合价值的网络蜘蛛搜索策略
  • 3.3.1 Web资源分布与链接价值关系的分析
  • 3.3.2 基于综合价值的网络蜘蛛搜索策略
  • 第四章 检索器的设计与实现
  • 4.1 检索器的设计与实现
  • 4.1.1 简介
  • 4.1.2 检索器的构建
  • 4.1.3 程序逻辑
  • 4.2 摘要生成器(SummaryGenerator)
  • 4.2.1 简介
  • 4.2.2 摘要生成器的功能
  • 4.2.3 算法描述
  • 4.3 着色器(Render)
  • 4.3.1 着色器的功能
  • 4.3.2 算法描述
  • 4.4 对Lucene页面排序算法的改进
  • 4.4.1 原有基础排序算法
  • 4.4.2 改进后的页面优先算法
  • 4.4.3 改进页面优先算法的实现
  • 4.4.4 权重系数平衡
  • 第五章 结束语
  • 5.1 已完成工作总结
  • 5.2 当前搜索引擎研发的主要动向
  • 致谢
  • 参考文献
  • 攻读硕士期间发表的论文或研究成果
  • 相关论文文献

    • [1].基于Lucene的电网主厂站遥信信号自动对比验收技术研究与应用[J]. 电气传动自动化 2020(02)
    • [2].基于Lucene的生产管理系统一站式检索中心的研究与设计[J]. 现代计算机(专业版) 2016(36)
    • [3].基于Lucene的垂直搜索引擎的设计与实现[J]. 福建电脑 2015(12)
    • [4].一个基于Lucene的维文搜索引擎的设计与实现[J]. 福建电脑 2015(05)
    • [5].基于Lucene的试卷查重系统设计与实现[J]. 信息技术与信息化 2016(05)
    • [6].基于Lucene的垂直搜索引擎研究与实现[J]. 桂林电子科技大学学报 2014(03)
    • [7].基于Lucene语义检索优化数字图书馆信息服务研究[J]. 科技情报开发与经济 2014(15)
    • [8].基于Lucene的合理化建议搜索引擎研究与实现[J]. 网络安全技术与应用 2014(08)
    • [9].Lucene框架下构建高校校园网搜索引擎[J]. 电脑知识与技术 2013(11)
    • [10].实现Lucene接口的中文分词器的比较研究[J]. 科技信息 2012(12)
    • [11].基于Lucene全文检索在网络舆情的研究[J]. 信息安全与通信保密 2012(09)
    • [12].基于Lucene的高校图书垂直搜索引擎的研究与实现[J]. 太原师范学院学报(自然科学版) 2011(04)
    • [13].基于Lucene的全文检索构件的研究与实现[J]. 计算机应用与软件 2010(02)
    • [14].基于LUCENE的站内搜索的研究与实现[J]. 河北软件职业技术学院学报 2009(01)
    • [15].基于LUCENE的藏文全文检索的研究[J]. 西藏大学学报(自然科学版) 2009(01)
    • [16].基于本体和Lucene的语义检索模型设计与实现[J]. 现代电子技术 2009(12)
    • [17].基于Lucene的全文搜索引擎[J]. 现代计算机(专业版) 2009(11)
    • [18].基于Lucene技术的垂直搜索引擎的研究[J]. 软件导刊 2008(03)
    • [19].Lucene架构下布尔查询的执行计划研究[J]. 云南民族大学学报(自然科学版) 2019(06)
    • [20].基于银行关键字的Lucene测试用例检索系统[J]. 信息与电脑(理论版) 2017(08)
    • [21].基于Lucene引擎构建在线地址匹配服务[J]. 测绘与空间地理信息 2016(02)
    • [22].基于Lucene的中文分词系统设计与实现[J]. 自动化与仪器仪表 2016(05)
    • [23].基于Lucene的图像检索实验设计[J]. 实验室研究与探索 2013(10)
    • [24].基于Lucene的全文搜索排序算法的研究与改进[J]. 武汉纺织大学学报 2013(06)
    • [25].基于Lucene的倒排索引性能的研究[J]. 无线互联科技 2014(08)
    • [26].基于Lucene的校园网智能搜索引擎的设计与实现[J]. 现代电子技术 2013(06)
    • [27].基于本体和Lucene的网络教育资源管理检索系统[J]. 计算机应用与软件 2012(07)
    • [28].Lucene排序算法的研究和改进[J]. 中国新技术新产品 2011(04)
    • [29].Lucene的全文检索的研究与应用[J]. 计算机技术与发展 2010(02)
    • [30].构建基于Lucene的网站站内搜索[J]. 信息与电脑(理论版) 2010(04)

    标签:;  ;  ;  

    基于Lucene的主题搜索引擎研究
    下载Doc文档

    猜你喜欢