CMS中检索子系统的设计与实现

CMS中检索子系统的设计与实现

论文摘要

内容管理的主要目的是把大量的信息资本演化为生产力,而高质量的内容管理系统就需要高质量的内容检索系统为它服务。本课题源于院自立项目“海量信息处理的理论与方法研究”,目的在于设计和实现一个灵活的、可扩展的内容检索子系统,方便多种检索技术的集成和扩展。同时针对结构化、半结构化和无结构化文本,实现一个全文检索子系统。本课题选择向量空间模型作为检索子系统的理论模型,同时因为Lucene是优秀的实现向量空间模型的开源全文检索软件包,我们选择Lucene作为检索子系统的实现基础。向量空间模型将查询和文档切分为代表文档含义的语义单元——标引项,并通过标引项组织和检索索引。Lucene便是通过段、文档、域和项实现了高效的倒排索引结构。针对基于内容的海量数据管理系统的要求,我们在Lucene的倒排索引数据结构之上,引入了散列结构,设计实现了基于散列表的Barrel_hash倒排索引。并利用散列表的一次定位技术,优化了原Lucene基于“比较”操作的词库查找方式。利用向量空间模型中权重和相似度计算算法,计算和排序查询结果。通过实验表明,基于散列表的倒排索引结构在倒排索引更新和查询优化方面均有好的表现。

论文目录

  • 表目录
  • 图目录
  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 课题背景
  • 1.2 国内外研究历史与现状
  • 1.3 课题主要研究工作及论文结构
  • 1.3.1 论文的主要工作
  • 1.3.2 论文的结构
  • 第二章 信息检索技术分析
  • 2.1 信息检索的定义与信息检索模型
  • 2.1.1 信息检索的定义
  • 2.1.2 信息检索模型
  • 2.1.3 信息检索模型的选择
  • 2.2 信息检索系统评价
  • 2.3 文本检索与Web搜索引擎
  • 2.3.1 文本检索
  • 2.3.2 Web搜索引擎
  • 第三章 全文检索软件包Lucene
  • 3.1 索引的结构概念
  • 3.2 索引文件的格式描述
  • 3.3 Lucene结构的组织
  • 第四章 基于内容的海量数据管理系统检索子系统的分析与设计
  • 4.1 基于内容的海量数据管理系统整体框架
  • 4.2 海量数据管理对全文检索子系统的需求
  • 4.3 检索子系统的分层模型
  • 4.4 检索子系统框架设计
  • hash倒排索引数据结构设计'>4.5 Barrelhash倒排索引数据结构设计
  • hash的设计'>4.6 wordIDhash的设计
  • 第五章 检索子系统的实现
  • 5.1 实现技术
  • Hash的实现'>5.2 桶式散列表倒排索引数据结构BarrelHash的实现
  • 5.3 倒排索引的创建
  • 5.4 倒排索引列表的插入
  • 5.5 倒排索引的更新
  • 5.6 倒排索引性能调优
  • 5.6.1 调整索引性能
  • 5.6.2 在内存中建立索引
  • 5.6.3 索引优化
  • 5.7 查询优化
  • 5.7.1 检索的实现流程
  • 5.7.2 词库及查找方法
  • 5.7.3 散列法查找
  • 5.8 相关度计算
  • 5.8.1 查询结果与查询条件之间在关键字频率分布上的相关度的计算
  • 5.8.2 CMS检索子系统用户界面及相关度排序
  • 第六章 实验测试与结果分析
  • 6.1 索引更新性能及实验结果分析
  • 6.1.1 查询时间开销
  • 6.1.2 空间开销
  • 6.1.3 更新时间开销
  • 6.1.4 实验结果及分析
  • 6.2 查询优化实验结果及分析
  • 结束语
  • 参考文献
  • 作者简历 攻读硕士学位期间完成的主要工作
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  

    CMS中检索子系统的设计与实现
    下载Doc文档

    猜你喜欢