基于潜在中间语义的多语言信息检索研究

基于潜在中间语义的多语言信息检索研究

论文摘要

随着因特网的发展,由于网络资源语种的多样性和网络用户所掌握语言的差异性,不可避免地给人们利用网络检索信息带来了语言障碍。例如,一个中国用户可能希望找到英语信息,而他的英语水平又不足以使他能用英语准确地表达自己的需求。多语言信息检索(Multilingual Information Retrieval,MLIR)正是为了满足这种需要而产生的,它是指用户用母语提交查询,搜索引擎在多种语言的数据库中进行信息检索,返回能够回答用户问题的所有语言的文档。其主要的困难在于语言之间在表达方式和语义对应上的不确定性。基于辞典的模式和机器系统翻译的技术一度成为人们进行多语言信息检索的热点研究技术。然而仅用翻译模型进行多语言信息检索,难以处理词汇翻译的多对多问题和未登录词问题。通过使用平行语料库,从语义(概念)层面上来构建多语言信息检索模型,是当今多语言信息检索研究的新趋势。利用语言之间的潜在中间语义对应关系,把词空间映射到一个抽象的概念空间,可避免直接翻译到目标语言而导致的语义偏离,能部分解决词汇歧义和未登录词问题。据此,本文应用扩展的偏最小二乘理论提出了一种基于潜在中间语义的多语言信息检索模型:在统一框架下对双语语料库的平行文档进行分析建模,提取语言之间的潜在中间语义对应关系,在潜在中间语义空间中进行检索,从而实现多语言信息检索。本文主要工作:1、分析并深入研究了基于辞典翻译进行多语言信息检索存在的翻译歧义问题,针对该问题,应用扩展的偏最小二乘理论,提出了一种同时考虑双语平行文档的语义对应模型;2、在自建的中英平行语料库和蒙特利尔大学提供的英法平行语料库基础上,对平行文档进行分析建模,建立了中英、英法跨语言信息检索模型,并利用英语作为过渡语言,建立了中法跨语言信息检索模型;3、在TREC5&9和TREC3的AP&SDA数据集上进行了中、英、法三种语言的跨语言信息检索实验,且与单语言的信息检索模型进行了比较,实验结果显示本文提出的模型表现了较好的性能。

论文目录

  • 摘要
  • Abstract
  • 第一章 引言
  • 1.1 研究背景
  • 1.2 多语言信息检索的研究现状
  • 1.3 本文的研究方法
  • 1.4 本文的组织结构
  • 第二章 多语言信息检索理论与技术
  • 2.1 信息检索
  • 2.1.1 信息检索的基本流程
  • 2.1.2 信息检索评价
  • 2.1.3 测试文档集
  • 2.1.4 信息检索模型
  • 2.2 多语言信息检索
  • 2.2.1 多语言信息检索的基本构架
  • 2.2.2 多语言信息检索的相关技术
  • 2.2.3 多语言信息检索模型
  • 第三章 偏最小二乘理论
  • 3.1 偏最小二乘回归
  • 3.2 模型工作目标
  • 3.3 计算方法推导
  • 3.4 成分数确定方法
  • 第四章 基于潜在中间语义的多语言信息检索
  • 4.1 基于潜在中间语义的多语言信息检索模型设计
  • 4.1.1 模型原理
  • 4.1.2 数学推导及算法实现
  • 4.2 基于潜在中间语义的多语言信息检索
  • 第五章 实验设计和分析
  • 5.1 实验设计
  • 5.2 数据集
  • 5.3 实验过程及结果分析
  • 5.3.1 有平行语料库的跨语言信息检索
  • 5.3.2 有间接平行语料库的跨语言信息检索
  • 第六章 总结
  • 6.1 论文总结
  • 6.2 未来工作展望
  • 参考文献
  • 致谢
  • 简历
  • 相关论文文献

    • [1].2000年以来我国信息检索模型研究综述[J]. 图书情报导刊 2019(04)
    • [2].基于数据前端分析的图书管理信息检索模型[J]. 科技信息 2013(14)
    • [3].几种常见信息检索模型的分析与评价[J]. 情报杂志 2008(03)
    • [4].大数据分析技术的数字图书馆信息检索模型设计[J]. 现代电子技术 2020(17)
    • [5].信息检索模型的比较研究[J]. 电脑知识与技术 2009(08)
    • [6].信息检索模型及其在跨语言信息检索中的应用进展[J]. 现代情报 2009(07)
    • [7].一种基于领域本体的混合信息检索模型[J]. 计算机工程 2008(21)
    • [8].信息检索模型研究概述[J]. 成功(教育) 2012(12)
    • [9].基于语法的信息检索模型研究——信息检索方法的一个新分支[J]. 情报理论与实践 2011(04)
    • [10].基于多相关本体的模糊信息检索模型[J]. 计算机工程 2010(20)
    • [11].近几年来国外信息检索模型研究进展[J]. 图书馆建设 2008(03)
    • [12].传统信息检索模型及其优化策略研究[J]. 情报探索 2013(02)
    • [13].基于本体自构的网格信息检索模型构建[J]. 情报科学 2012(02)
    • [14].一种基于相关反馈的信息检索模型[J]. 计算机科学 2012(07)
    • [15].基于中文科技期刊数据库信息检索模型的研究[J]. 科教文汇(中旬刊) 2012(10)
    • [16].基于本体的面向概念信息检索模型研究[J]. 微计算机信息 2009(06)
    • [17].一种有效的信息检索模型[J]. 计算机应用研究 2008(08)
    • [18].一种基于分布式Agent的信息检索模型[J]. 科技信息(学术研究) 2008(09)
    • [19].基于数据前端分析的煤炭物流管理系统信息检索模型设计[J]. 硅谷 2014(18)
    • [20].一种基于句子的信息检索模型研究[J]. 计算机应用与软件 2010(03)
    • [21].基于向量空间的信息检索模型的改进[J]. 计算机工程与设计 2008(23)
    • [22].基于多语言本体的中英跨语言信息检索模型及实现[J]. 图书情报工作 2017(01)
    • [23].面向数字图书馆的汉英跨语言信息检索模型[J]. 广西教育学院学报 2016(03)
    • [24].信息熵在粗糙集信息检索模型中的应用[J]. 模糊系统与数学 2010(03)
    • [25].基于本体的信息检索模型研究[J]. 航空计算技术 2009(06)
    • [26].一种基于加权网络和句子窗口方案的信息检索模型[J]. 情报学报 2013(08)
    • [27].同步协作信息检索模型及其机制研究[J]. 图书情报工作 2009(21)
    • [28].基于Xapian站内检索的设计与实现[J]. 山东理工大学学报(自然科学版) 2008(06)
    • [29].新型信息检索模型发展研究[J]. 情报探索 2013(05)
    • [30].利用领域本体概念关系的混合信息检索方法[J]. 计算机应用研究 2011(07)

    标签:;  ;  ;  ;  ;  

    基于潜在中间语义的多语言信息检索研究
    下载Doc文档

    猜你喜欢