基于统计语言建模的信息检索及相关研究

基于统计语言建模的信息检索及相关研究

论文摘要

本文对基于统计语言建模(SLM, Statistical Language Modeling)的信息检索方法进行了较为详细的论述,着重阐述了查询似然检索模型的基本思想和原理,并介绍了一些改进的模型,如KL距离检索模型等。在这一基础上,针对SLM检索方法中文档建模和查询建模这两个关键问题,本文就文档语言模型的平滑估计、启发式查询扩展及其在查询似然检索模型中的整合以及查询语言模型的估计和联想式扩展等几个方面作了较为深入的研究。针对查询似然检索模型中文档一元语言模型的平滑估计问题,本文详细地分析了几种常用的平滑方法对检索性能的影响模式和平滑参数的最优取值规律,探讨了平滑在查询似然检索模型中所扮演的功能角色,提出了一种改进的线性插值平滑方法GJM-2,利用文档中不同词项的个数这一统计信息来改善平滑的效果。考虑到传统的平滑方法在进行平滑处理时对不同词项的差异性有所忽视,本文还提出了基于词项风险的平滑模型,将词项风险引入传统的平滑方法。实验结果表明,与传统的平滑方法相比,GJM-2平滑方法和基于词项风险的平滑模型均能有效地提高检索性能。在信息检索中,启发式查询扩展是改善检索性能的重要技术手段。我们研究了在查询似然检索模型中如何进行启发式查询扩展的问题。针对查询似然检索模型在实现查询扩展上存在的先天不足,我们通过引入查询词的权重信息对查询似然检索模型进行了改进,提出了WQL检索模型,从而可以将传统的各种启发式查询扩展方法很自然地整合进来,实验结果验证了整合的有效性。此外,通过对传统扩展方法的分析,本文还提出了一种基于局部共现的查询扩展方法LOCOOC,利用候选词与初始查询在局部文档集合中的共现程度来评估候选词的质量,并整合了候选词在文档集中的全局统计信息,使得选取的扩展词与初始查询所表征的主题或概念具有更好的相关性。实验结果表明:基于WQL检索模型,采用LOCOOC扩展方法可以使检索性能(平均准确率)提高40%以上;与传统的几种典型的扩展方法相比,该扩展方法具有更为优越的扩展性能。启发式的查询扩展方法采用的是启发式的扩展词选取策略和权重修正策略,缺乏严格的数学推导和理论依据。本文研究了KL距离检索模型架构内如何利用统计语言模型实现查询扩展的问题,从查询语言模型反推的角度探讨了查询扩展的实现途径,为查询扩展的理论研究提供了一条可行的思路。考虑到词项之间具有一定的主题内部依赖关系,本文提出了基于词项联想式扩展的反推策略,将词项之间的统计依赖关系整合到查询语言模型的反推过程中。在这种反推策略中,我们提出了“词项联想网络”(WAN, Word Association Network)的概念用以描述词项之间的统计依赖关系,阐述了利用WAN对查询语言模型进行反推的基本思路和方法,并给出了两种度量词项依赖概率的有效方法。

论文目录

  • 摘要
  • 英文摘要
  • 图目录
  • 表目录
  • 第一章 引言
  • 第二章 信息检索模型与评测概述
  • 2.1 信息检索概述
  • 2.1.1 TREC简介
  • 2.1.2 术语定义
  • 2.1.3 信息检索模型概述
  • 2.2 布尔模型
  • 2.2.1 经典的布尔模型
  • 2.2.2 扩展布尔模型
  • 2.3 向量空间模型
  • 2.3.1 基本的形式化
  • 2.3.2 词项权重的tf*idf计算方法
  • 2.3.3 词项权重的规格化处理
  • 2.3.4 小结与讨论
  • 2.4 概率检索模型
  • 2.5 实验评测方法
  • 2.5.1 未插值平均准确率(MAP)
  • 2.5.2 Precision@ X
  • 2.6 本章总结
  • 第三章 基于统计语言建模的信息检索方法
  • 3.1 引言
  • 3.2 统计语言建模技术
  • 3.2.1 n-gram语言模型
  • 3.3 查询似然检索模型
  • 3.3.1 投掷骰子的问题
  • 3.3.2 基于查询似然的检索模型
  • 3.3.3 文档语言模型的估计
  • 3.3.4 与tf*idf权重的关系
  • 3.4 对查询似然检索模型的改进与拓展
  • 3.4.1 统计翻译检索模型
  • 3.4.2 基于完全贝叶斯的查询似然
  • 3.4.3 KL距离检索模型
  • 3.5 实验评测
  • 3.6 SLMIR在跨语言检索与分布式检索中的应用
  • 3.6.1 分布式信息检索
  • 3.6.2 跨语言信息检索
  • 3.7 本章总结
  • 第四章 文档语言模型的估计与平滑研究
  • 4.1 概述
  • 4.2 平滑的一般形式及几种常用的平滑方法
  • 4.2.1 几种常用的平滑方法
  • 4.3 平滑对检索性能的影响
  • 4.3.1 实验设计
  • 4.3.2 平滑的行为特点分析
  • 4.3.3 平滑方法之间的性能对比
  • 4.3.4 平滑的双重角色
  • 4.4 GJM-2: 一种改进的线性插值平滑方法
  • 4.4.1 GJM与GJM-1
  • 4.4.2 改进的GJM-2 平滑方法
  • 4.4.3 实验结果
  • 4.5 基于词项风险的平滑模型
  • 4.5.1 平滑模型描述
  • 4.5.2 词项风险的度量
  • 4.5.3 实验和结果分析
  • 4.6 本章总结
  • 第五章 WQL检索模型及其启发式查询扩展
  • 5.1 引言
  • 5.2 相关研究现状
  • 5.3 WQL检索模型及其启发式查询扩展
  • 5.3.1 WQL检索模型
  • 5.3.2 WQL中的启发式查询扩展
  • 5.3.3 几种典型的扩展方法
  • 5.4 LOCOOC:一种基于局部共现的查询扩展方法
  • 5.4.1 共现信息的度量
  • 5.4.2 整合全局统计信息
  • 5.4.3 一个例子
  • 5.5 实验设计
  • 5.6 实验结果
  • 5.6.1 查询扩展的有效性
  • 5.6.2 扩展规模对扩展效果的影响
  • 5.7 本章总结
  • 第六章 查询语言模型的估计与联想式扩展
  • 6.1 引言
  • 6.2 从语言模型“反推”的角度看查询扩展
  • 6.3 基于语言模型估计的反推方法
  • 6.3.1 基于混合生成模型的极大似然估计方法
  • 6.4 基于联想式扩展的反推方法
  • 6.4.1 词项之间的依赖关系
  • 6.4.2 词项联想网络(WAN, Word Association Network)
  • 6.4.3 利用WAN反推查询语言模型
  • 6.4.4 词项依赖概率的计算
  • 6.5 实验评测和结果分析
  • 6.5.1 实验方法
  • 6.5.2 数据集和评价指标
  • 6.5.3 反推的有效性分析
  • 6.5.4 插值系数α对反推的影响
  • 6.6 本章总结
  • 第七章 结束语
  • 7.1 本文工作总结和主要创新
  • 7.1.1 文档语言模型的平滑估计
  • 7.1.2 查询似然检索模型中的启发式查询扩展
  • 7.1.3 查询语言模型的估计与联想式扩展
  • 7.2 下一步工作展望
  • 附录
  • 1.T REC Ad Hoc检索任务的文档示例
  • 2.T REC Ad Hoc检索任务为的topic示例
  • 参考文献
  • 致谢
  • 作者简历
  • 相关论文文献

    • [1].数字图书馆的图像检索模型研究[J]. 图书馆理论与实践 2015(06)
    • [2].基于本体的语义信息检索模型研究[J]. 软件工程师 2015(08)
    • [3].基于加权策略的最优公交车路径检索模型[J]. 电脑知识与技术 2014(05)
    • [4].基于语义的数字图书馆检索模型研究[J]. 信息系统工程 2013(02)
    • [5].结构化文档检索模型的改进研究[J]. 情报科学 2010(11)
    • [6].基于描述逻辑的概念检索模型[J]. 辽宁工程技术大学学报(自然科学版) 2009(03)
    • [7].基于本体论的数字档案馆知识检索模型的研究[J]. 大众科技 2012(05)
    • [8].基于构件的协同检索模型[J]. 武汉大学学报(工学版) 2009(04)
    • [9].认知建构视角下交互式信息检索模型研究[J]. 图书情报知识 2020(02)
    • [10].基于语义分析的文本相似检索模型研究[J]. 电子技术与软件工程 2020(17)
    • [11].基于领域本体的贝叶斯网络检索模型研究[J]. 计算机与现代化 2012(03)
    • [12].一种基于领域本体的资源反馈检索模型研究[J]. 电脑与电信 2015(03)
    • [13].基于反馈日志的工程图纸检索模型研究[J]. 计算机应用研究 2011(06)
    • [14].基于本体和多代理的知识检索模型研究[J]. 计算机工程与设计 2009(09)
    • [15].面向审查任务的中文专利检索模型与实验[J]. 计算机应用研究 2008(05)
    • [16].基于语义的数字图书馆检索模型研究[J]. 现代电子技术 2016(09)
    • [17].贝叶斯网络检索模型的性能评估[J]. 计算机工程与应用 2011(31)
    • [18].基于推理的语义网检索模型及关键技术研究[J]. 计算机工程与设计 2013(07)
    • [19].基于示例语义的音乐检索模型[J]. 山东大学学报(理学版) 2017(06)
    • [20].初探基于特征的触发式专利检索模型[J]. 电子制作 2013(15)
    • [21].基于结构挖掘的论坛检索模型[J]. 中文信息学报 2011(01)
    • [22].基于内容的民族音乐检索模型构建与实现[J]. 电子设计工程 2016(19)
    • [23].基于互信息和本体的协同检索模型的研究[J]. 计算机科学 2008(04)
    • [24].信念网络检索模型扩展研究[J]. 计算机工程与应用 2009(10)
    • [25].我国法律本体检索模型的研究[J]. 法律方法 2015(02)
    • [26].基于大规模问答对数据的问题检索模型[J]. 计算机工程 2011(21)
    • [27].本体向量文献检索模型研究[J]. 情报探索 2010(11)
    • [28].图书馆数字资源一站式检索模型研究[J]. 河南图书馆学刊 2017(08)
    • [29].个性化语义Web服务检索模型[J]. 齐齐哈尔大学学报(自然科学版) 2013(05)
    • [30].基于垂直搜索引擎的特色数据库检索模型[J]. 内蒙古科技与经济 2010(24)

    标签:;  ;  ;  ;  ;  ;  ;  ;  

    基于统计语言建模的信息检索及相关研究
    下载Doc文档

    猜你喜欢