基于Lucene和文本图像的全文检索系统的研究与应用

基于Lucene和文本图像的全文检索系统的研究与应用

论文摘要

随着互联网的普及以及数字信息的爆炸式增长,人们已经可以足不出户地接触到海量信息。用户需要在浩如烟海的数据中找到自己需要的信息,而不仅仅局限于文本文档。随着多媒体技术的发展,音频文件,图像文件,甚至于视频文件也成为了用户越来越频繁的查询对象。其中随着电子图书馆和办公无纸化的兴起,由于传统的图书和媒介多是纸质的书本或文档,因此对文本图像的处理和检索也成为信息检索系统的一大挑战。全文检索系统是一种对索引写入和读取比较密集的应用,传统的全文检索系统检索对象单一,不能满足用户对多样化的对象的检索需求,而且在倒排索引的构建和查询阶段也有优化的空间。本文以文本图像的全文检索模型为研究对象,并对倒排索引模型的构建和查询优化以及文本图像的预处理和分类进行了研究,设计并实现了一个基于文本图像的全文检索系统。具体工作如下:(1)倒排索引模型的构建介绍和优化本文介绍了几种常见的用于全文检索索引模型,并在第三章着重介绍倒排索引模型的索引构建优化,以及检索过程中的优化方案,提供减小存储空间和优化运行时间的检索性能的改进方案。(2)文本图像的分类研究本文在对文本化处理后的文本图像的残缺文本进行预分类和特征恢复后,通过SVM进行了文本分类,相较于传统分类方法,增加了特征恢复和反馈过程,提高了分类的F1测度。(3)基于Lucene的文本图像全文检索系统的设计与实现本文在上述改进和研究方法的基础上,设计并实现了一个文本图像的全文检索系统。实验结果表明,对文本图像的分类和用户查询预加权可以得到用户更希望的检索结果。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 课题的背景和意义
  • 1.2 研究现状
  • 1.3 研究内容
  • 1.4 论文的组织结构
  • 1.5 本章小结
  • 第二章 全文检索和文本图像相关技术概述
  • 2.1 全文检索技术概述
  • 2.1.1 信息检索模型
  • 2.1.2 全文检索技术
  • 2.1.3 全文检索技术的基本原理
  • 2.1.4 Lucene全文检索工具包
  • 2.2 全文检索模型介绍
  • 2.2.1 位图模型
  • 2.2.2 签名文件模型
  • 2.2.3 倒排索引模型
  • 2.3 文本图像检索技术
  • 2.3.1 文本图像
  • 2.3.2 文本图像的检索
  • 2.4 文本图像的全文检索研究
  • 2.4.1 向量空间模型研究
  • 2.4.2 倒排索引模型研究
  • 2.4.3 文本图像的检索研究
  • 2.5 本章小结
  • 第三章 倒排索引模型检索效率优化
  • 3.1 倒排索引
  • 3.1.1 构建倒排索引
  • 3.1.2 倒排索引的压缩
  • 3.1.3 索引剪枝
  • 3.1.4 构建索引前的文档排序
  • 3.2 查询优化
  • 3.2.1 倒排索引的修订
  • 3.2.2 部分结果集检索
  • 3.2.3 简化向量空间
  • 3.3 本章小结
  • 第四章 文本图像的分类研究
  • 4.1 文本图像的分类
  • 4.2 基于特征恢复的文本分类模型
  • 4.2.1 残缺文档的生成
  • 4.2.2 残缺文档的特征恢复
  • 4.3 实验结果
  • 4.3.1 实验数据集
  • 4.3.2 实验结果分析
  • 4.4 本章小结
  • 第五章 基于Lucene的全文检索系统的设计与实现
  • 5.1 项目简介
  • 5.2 开发环境和工具集
  • 5.3 系统设计
  • 5.3.1 文本图像预处理模块
  • 5.3.2 中文分词模块
  • 5.3.3 索引模块
  • 5.3.4 检索模块
  • 5.3.5 Web服务器模块
  • 5.4 本章小结
  • 第六章 全文检索系统的运行及分析
  • 6.1 客户端和服务器端的设计
  • 6.1.1 客户端的设计
  • 6.1.2 服务器端的设计
  • 6.2 系统性能评价
  • 第七章 结论与展望
  • 7.1 总结
  • 7.2 进一步展望
  • 参考文献
  • 致谢
  • 攻读硕士期间发表的学术论文目录
  • 相关论文文献

    • [1].纸质文档数据防泄与追溯中文本图像倾斜校正方法[J]. 电子技术与软件工程 2017(04)
    • [2].一种基于双向投影的文本图像字符分割方法[J]. 数字技术与应用 2017(05)
    • [3].透视文本图像的灭点探测[J]. 上海工程技术大学学报 2009(03)
    • [4].射影文本图像的校正[J]. 电气自动化 2008(01)
    • [5].一种面向文本图像的颜色迁移算法[J]. 西北大学学报(自然科学版) 2017(06)
    • [6].基于投影直方图法的偏微分方程文本图像版面检测算法研究[J]. 佳木斯职业学院学报 2018(02)
    • [7].文本图像信息的提取与识别[J]. 计算机与数字工程 2013(12)
    • [8].“文本图像化”在中职语文诗歌教学中的运用研究[J]. 考试周刊 2018(59)
    • [9].基于投影轮廓分析的文本图像版面分割算法研究[J]. 数字技术与应用 2017(03)
    • [10].局部高亮干扰文本图像的二值化方法研究[J]. 光电工程 2012(11)
    • [11].基于文本图像的自适应补偿二值化处理算法[J]. 计算机仿真 2011(10)
    • [12].脱机手写维吾尔文本图像单词切分[J]. 计算机工程与应用 2018(09)
    • [13].文本识别技术在电视内容监管中的应用[J]. 广播电视信息 2018(06)
    • [14].回归——聚类联合框架下的手写文本行提取[J]. 中国图象图形学报 2018(08)
    • [15].文本图像认证的关键技术研究[J]. 科技风 2010(22)
    • [16].基于关键点检测的文档文本定位算法研究[J]. 电子科技 2017(12)
    • [17].多语种文本图像中的文字语种辨识方法的研究[J]. 中文信息学报 2017(02)
    • [18].基于投影轮廓的文本图像倾斜检测[J]. 中国图象图形学报 2015(01)
    • [19].数字图书馆文本图像二值化方法研究[J]. 电脑知识与技术 2012(14)
    • [20].基于文字笔画结构的文本图像校正处理[J]. 无线互联科技 2014(02)
    • [21].基于边缘和颜色的视频文本图像分割方法[J]. 系统仿真学报 2008(23)
    • [22].一种混合的文本图像细化方法[J]. 科技信息 2010(02)
    • [23].一种高精度文本图像倾斜检测方法[J]. 大连交通大学学报 2014(03)
    • [24].基于交叉熵的倾斜文本图像细节特征提取仿真[J]. 计算机仿真 2020(07)
    • [25].基于多颜色空间贝叶斯决策的文本图像分割[J]. 科学技术与工程 2009(16)
    • [26].一种基于自注意力机制的文本图像生成对抗网络[J]. 重庆大学学报 2020(03)
    • [27].基于Mojette变换的倾斜文本图像方向校正[J]. 计算机技术与发展 2012(07)
    • [28].文本图像的倾斜角检测在教学方法改革中的应用[J]. 计算机教育 2017(01)
    • [29].二值文本图像信息隐藏分析[J]. 计算机工程 2009(15)
    • [30].一种倾斜文本图像的旋转校正技术[J]. 邯郸职业技术学院学报 2018(03)

    标签:;  ;  ;  

    基于Lucene和文本图像的全文检索系统的研究与应用
    下载Doc文档

    猜你喜欢