跨语言信息检索中双语主题模型及算法研究

跨语言信息检索中双语主题模型及算法研究

论文摘要

随着因特网的快速发展和全球化进程的加快,因特网所提供的信息资源不再集中于英语等少数几种语言上,人们使用母语去查询不同语言表示的信息的需求不断增加。跨语言信息检索(Cross-language Information Retrieval, CLIR)是一种表示、存储、组织和存取多语言信息资源的快速有效手段,是信息检索中一个富有挑战性和前沿的研究领域。跨语言信息检索重点解决如何使用一种语言表示的查询去搜索另外一种语言表示的信息的问题,其关键问题之一是采取不同方法建立双语语义对应关系。近年在机器学习、信息检索和自然语言处理等领域备受关注的主题模型已成为一种有效的CLIR方法。本文选题来源于国家自然科学基金项目《基于潜在语义对偶空间的跨语言信息检索理论和算法研究》(项目编号:60963014)和江西省教育厅青年科学基金项目《面向检索的平行语料库构建及跨语言检索模型研究》(项目编号:GJJ101168),系统地深入研究了基于双语主题空间的跨语言检索模型、跨语言文本分类方法和跨语言文本聚类方法,在不借助于机器翻译和双语词典等跨语言资源的情况下,可以有效地解决CLIR中词汇翻译的多对多问题,部分解决未登录词问题。本文的主要工作包括如下几点:(1)基于双语主题空间的跨语言信息检索总体框架研究从自然语言理解的角度来看,多语言文字是语言描述对象赋予有意义的不同语言符号系统的多视图表示。本质上,这些视图是语义等价的。本文假设双语平行文档享有相同的语义信息,运用偏最小二乘(Partial Least Square,PLS)数据统计分析理论,从双语平行语料库中提取平行文档的共有语义信息,构建具有双语对应关系的主题空间,由此建立一种基于双语主题空间的跨语言信息检索总体框架。在统一的框架下,从双语平行语料库抽取出一系列的主题构成每种语言的主题空间。每种语言的主题空间独立存在,且通过双语语义对应关系建立双语主题空间。双语主题空间反映了文档与文档、文档与词、词与词的语义对应关系,揭示了语言之间、语言内部的固有结构和内在联系,是抽象的概念空间,是各语言原始文档的中间表示。表示方式可以是线性或者非线性。从数学原理上来说,两个主题空间是近似等价的。我们将查询和文档投影到双语主题空间上,不需要直接翻译,可以实现跨语言的检索、分类和聚类。(2)建设面向跨语言信息检索的中英平行语料库语料库是一种十分重要的跨语言信息检索基础数据资源。CLIR可以使用语料库进行性能评测、翻译、建立双语词典和词义消歧等工作。本文从华尔街日报、金融时报和香港政府新闻网等网站搜集中英新闻网页,按照确定平行网页、文件预处理、段落对齐、文档类别标注、建立检索查询集和文档相关性判断等流程,自行建立了中英平行语料库、CLIR评测语料库、跨语言文本分类评测语料库。通过应用Google API1.0接口程序翻译TREC-9文档集建立了TREC-9中英双语平行语料库。(3)基于主题对偶空间的跨语言检索模型研究跨语言的潜在语义索引模型(Cross-Language Latent Semantic Indexing,CL-LSI)将每对双语文档串接成一个文档,利用双语词汇的共现特征获取双语之间的语义联系,而没有充分考虑各语言的固有特性和双语语义相关性。本文假设在双语平行语料库中,两种语言文档集隐含的主题内容相同,使用线性语义对偶空间表示双语主题,由此提出一种基于主题对偶空间的跨语言检索模型(TopicDual Space model,TDS)。TDS模型能够通过获取双语词项在平行文档中的共现信息,建立它们的统计依赖关系,构建它们的翻译关系、相关性等。在本文建立的CLIR评测语料库上进行的实验结果显示,TDS模型能够进行有效的词语翻译,提取具有主题特征、双语语义关联的双语主题,其文档配对搜索、跨语言检索性能优于CL-LSI模型。在TREC-5&6、TREC-9上的跨语言和单语言的实验结果显示,TDS模型总体性能优于CL-LSI。(4)跨语言中的双语主题相关性检索模型研究如何通过双语平行语料库提取语言之间的语义对信息,对改善跨语言信息检索的性能有着十分重要的意义。在TDS模型中,两种语言的文档矩阵是一种预测分析关系,是一种非对称的方法,没有平等对待两种语言;其时间和空间复杂度与双语文档数量成正比,不能有效处理大规模文档集。本文假设双语平行文档拥有相同的主题,这些双语主题在具体模型上可体现为语义相关。我们将双语平行文档看作同一语义内容的两种语言表示,从双语平行语料库构造每种语言的潜在语义空间,从而提出双语主题相关性模型(Bilingual Topic Correlation,BiTC)。在中英双语新闻语料集上进行的实验结果显示,新模型的文档配对搜索和伪查询跨语言信息检索性能显著优于跨语言潜在语义索引模型;在使用Google翻译得到的TREC-9双语平行语料库上,新模型也获得了较好的检索性能。(5)基于双语语义对应分析的跨语言文本分类/聚类方法研究双语文本对应分析在处理多语言文本数据、克服语言障碍等方面有着重要的作用,跨语言潜在语义索引方法没有充分考虑双语的语义相关性和文档类别结构信息。本文将双语平行文档看作同一语义内容的两种语言表达,运用偏最小二乘方法构建双语文本的语义相关性,为每种语言建立单独的潜在语义空间,并在这两个空间上实现跨语言的分类和聚类任务。在本文建立的跨语言文本分类评测语料库上进行的实验结果显示,在本文方法构造的双语主题空间上完成的跨语言和单语言的文本分类性能接近或优于原始特征空间的单语言分类,跨语言文本聚类性能也接近或优于单语言文档聚类,并具有良好的稳健性。本文的主要创新点如下:(1)提出一种基于主题对偶空间跨语言检索模型(TDS)。针对跨语言的潜在语义索引模型简单串接双语平行文档带来的双语语义“混合”问题,提出了一种线性的语义对偶空间表示双语主题空间的方法。TDS模型能够获取平行文档中双语词项的共现信息来建立双语语义信息的统计依赖关系,由此实现了翻译和查询扩展等功能。(2)提出一种跨语言中的双语主题相关性检索模型(BiTC)。模型假设双语平行文档拥有语义相关的主题,从双语平行语料库构造每种语言的潜在语义空间,从而建立双语语义关联。新模型克服了CL-LSI模型没有充分考虑双语语义联系的不足和TDS模型不能有效处理大规模数据的问题。(3)提出一种基于双语语义对应分析的跨语言文本分类/聚类方法。针对跨语言潜在语义索引方法没有充分考虑双语的语义多重相关性和文档结构信息问题,本文为每种语言建立单独的低维主题空间,建立双语语义对应关系,其跨语言文本分类/聚类性能接近或优于单语言分类/聚类。

论文目录

  • 目录
  • Contents
  • 摘要
  • Abstract
  • 1 引言
  • 1.1 研究背景和意义
  • 1.1.1 研究背景
  • 1.1.2 研究意义
  • 1.2 国内外研究现状
  • 1.2.1 跨语言信息检索的概念
  • 1.2.2 跨语言检索方法研究
  • 1.2.3 跨语言文本分类方法研究
  • 1.2.4 跨语言文本聚类方法研究
  • 1.2.5 研究现状述评
  • 1.3 主要研究内容
  • 1.4 论文的基本结构
  • 1.5 本章小结
  • 2 基于双语主题空间的跨语言信息检索总体框架
  • 2.1 相关理论概述
  • 2.1.1 常用信息检索模型
  • 2.1.2 偏最小二乘统计理论
  • 2.2 跨语言检索问题的提出
  • 2.3 基于双语主题空间的 CLIR 总体框架
  • 2.3.1 基本思路
  • 2.3.2 总体框架
  • 2.3.3 跨语言检索过程
  • 2.3.4 跨语言文本分类过程
  • 2.3.5 跨语言文本聚类过程
  • 2.4 本章小结
  • 3 面向跨语言信息检索的中英平行语料库构建
  • 3.1 相关工作
  • 3.2 构建中英语料库的基本流程
  • 3.3 中英平行语料库构建
  • 3.3.1 中英平行语料库
  • 3.3.2 跨语言信息检索评测语料库
  • 3.3.3 跨语言文本分类评测语料库
  • 3.3.4 构建 TREC-9 中英平行语料库
  • 3.4 本章小结
  • 4 基于主题对偶空间的跨语言检索模型
  • 4.1 相关工作和问题的提出
  • 4.2 主题对偶空间的构建
  • 4.3 主题对偶空间模型的推导和算法实现
  • 4.3.1 模型推导
  • 4.3.2 算法设计
  • 4.3.3 算法复杂度分析
  • 4.4 实验结果和分析
  • 4.4.1 实验设计方案
  • 4.4.2 中英文词的翻译结果分析
  • 4.4.3 TDS 模型抽取双语主题结果分析
  • 4.4.4 文档配对搜索性能对比分析
  • 4.4.5 跨语言检索性能对比分析
  • 4.4.6 模型参数敏感性分析
  • 4.5 本章小结
  • 5 跨语言中的双语主题相关性检索模型
  • 5.1 问题的提出
  • 5.2 双语主题空间的构建
  • 5.3 BITC 模型的推导和算法分析
  • 5.3.1 模型推导
  • 5.3.2 BiTC 模型的跨语言信息检索过程
  • 5.3.3 算法复杂度分析
  • 5.4 实验结果和分析
  • 5.4.1 实验设计方案
  • 5.4.2 BiTC 模型抽取双语相关主题结果分析
  • 5.4.3 文档配对搜索性能对比分析
  • 5.4.4 伪查询跨语言检索性能对比分析
  • 5.4.5 TREC-9 中英平行文档集上的性能分析
  • 5.5 本章小结
  • 6 基于双语语义对应分析的跨语言文本分类/聚类方法
  • 6.1 相关工作和问题的提出
  • 6.2 方法推导和算法实现
  • 6.2.1 方法推导
  • 6.2.2 跨语言文本分类/聚类过程
  • 6.2.3 算法复杂度分析
  • 6.3 实验结果和分析
  • 6.3.1 实验设计方案
  • 6.3.2 小数据集举例分析
  • 6.3.3 BiSCAN 抽取的双语主题数对分类性能的影响
  • 6.3.4 各方法的跨语言文本分类性能对比分析
  • 6.3.5 跨语言文本聚类性能对比分析
  • 6.4 本章小结
  • 7 总结与展望
  • 7.1 本文总结
  • 7.2 研究展望
  • 参考文献
  • 攻读博士学位期间的研究成果
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  

    跨语言信息检索中双语主题模型及算法研究
    下载Doc文档

    猜你喜欢