基于P2PKM的桌面搜索优化的研究

基于P2PKM的桌面搜索优化的研究

论文摘要

随着计算机技术的日益发展和网络的迅速普及,电子文档数目急剧膨胀,从大量的信息里面快速、全面、准确地查找所需要的资料信息已经成了人们关注的焦点,也成了研究领域内的一个热门课题。目前,信息检索技术的最新应用是国内外公司相继推出的桌面搜索引擎。桌面搜索的特点在于不需要通过浏览器来进行搜索,并且将搜索方位延伸到自己电脑硬盘中所存储的各种文档,能够让用户快速搜索他们的硬盘并且在不到一秒的时间里得到相关的搜索结果。桌面搜索引擎是集成信息检索技术的典型代表,信息检索的核心技术是全文检索技术。在基于P2PKM的学习支持平台系统下,我们需要一个更加完善的桌面搜索引擎,本文通过对全文检索技术、Lucene全文检索引擎工具包和近似镜像文本检测算法的分析和研究,对学习支持平台系统的桌面搜索引擎进行了扩展和完善:改进了Lucene的中文分词技术,支持多种文档格式文件的搜索,并提出应用MD5指纹的近似镜像文本检测算法对本学习支持平台中索引前的文档进行消重处理的方法。经过本文的扩展,使得学习支持平台的桌面搜索引擎能满足用户更多的需求。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 研究基础
  • 1.2 研究内容
  • 1.3 本文组织
  • 第二章 相关技术研究现状
  • 2.1 桌面搜索引擎研究现状
  • 2.1.1 概述
  • 2.1.2 Lucene搜索引擎
  • 2.2 近似镜像网页检测算法的研究现状
  • 2.2.1 基于全文分段签名的近似镜像网页检测算法
  • 2.2.2 基于关键词匹配的近似镜像算法
  • 2.3 本章小结
  • 第三章 基于P2PKM的桌面搜索引擎
  • 3.1 引言
  • 3.2 基于P2PKM的桌面搜索引擎
  • 3.2.1 本地知识库的组织结构
  • 3.2.1.1 知识库的两级分类结构设计
  • 3.2.1.2 知识库两级分类之间映射关系的存储
  • 3.2.2 索引模块结构
  • 3.2.2.1 索引创建的算法
  • 3.2.2.2 单个知识包索引创建算法
  • 3.2.3 搜索模块结构
  • 3.2.3.1 搜索的算法
  • 3.2.3.2 知识库搜索算法
  • 3.3 Lucene搜索引擎开源包分析
  • 3.3.1 Lucene搜索引擎系统结构
  • 3.3.2 Lucene索引和搜索设计
  • 3.3.3 Lucene检索关键类的UML类图分析
  • 3.3.3.1 索引管理包
  • 3.3.3.2 查询分析包和检索包
  • 3.4 本章小结
  • 第四章 中文分词技术的优化
  • 4.1 Lucene对中文的支持
  • 4.2 中文分词技术及其分类
  • 4.3 正向最大匹配算法描述
  • 4.4 词表描述
  • 4.5 正向最大匹配算法的应用
  • 4.6 本章小结
  • 第五章 PDF、WORD和EXCEL文档检索扩展
  • 5.1 Lucene搜索引擎索引文件概念组成
  • 5.1.1 段(Segment)
  • 5.1.2 文档(Document)
  • 5.1.3 域(Field)
  • 5.1.4 项fTerm)
  • 5.1.5 文档结构包org.apache.lucene.document的UML类图分析
  • 5.1.6 小结
  • 5.2 使用PDFBox处理PDF文档
  • 5.3 使用POI处理WORD文档和EXCEL文档
  • 5.4 本章小结
  • 第六章 近似镜像检测算法的应用
  • 6.1 信息提取和元数据提取
  • 6.1.1 信息提取
  • 6.1.2 元数据提取
  • 6.2 对重复文本的定义
  • 6.3 近似镜像文本检测算法
  • 6.3.1 算法描述
  • 6.3.2 性能分析
  • 6.4 为本系统定制一个消重方法
  • 6.5 本章小结
  • 第七章 总结与展望
  • 7.1 本文工作总结
  • 7.2 下一步的工作及展望
  • 参考文献
  • 致谢
  • 在读期间参加的科研项目
  • 在读期间发表录用的学术论文
  • 相关论文文献

    标签:;  ;  ;  ;  

    基于P2PKM的桌面搜索优化的研究
    下载Doc文档

    猜你喜欢