形态非对称汉蒙统计机器翻译模型构造方法研究

论文摘要

主流的统计机器翻译(Statistical Machine Translation:SMT)方法本质上是词汇化的,将词当成独立实体进行翻译,这种词汇化的方法缺点是无法充分利用形态丰富的语言的形态信息。在形态非对称的汉蒙统计机器翻译模型中,由于蒙古语具有丰富的形态变化,而产生严重的选择歧义问题,从而产生译文词形变化上的错误(比如,数、格、人称、性别的不一致以及动词时态、语态不符合上下文等),加深了译文在语法、语义、语用等多个层面的错误。与此同时,蒙古语形态变化的多样性,导致汉蒙平行双语语料规模较小的汉蒙机器翻译系统的数据稀疏问题更加严重。本文将从汉蒙SMT具有形态非对称的特点入手,从蒙古语的形态信息的分析和融合两个角度克服形态非对称汉蒙SMT模型构造问题。首先,结合机器翻译模型和最小上下文构成代价模型对蒙古语进行了形态学切分。然后,提出了因子化翻译模型、链式机器翻译模型以及PageRank重排序的方法以解决非对称汉蒙SMT模型构造问题。因子化翻译模型在训练过程中将词干、词缀视为因子进行翻译,通过多个翻译模型和生成模型,完成目标语言词形的生成。链式机器翻译系统将词干、词缀作为中间语言进行处理。即汉语先翻译成词素,然后根据蒙古语的构词特点,分别采用正则表达式和机器翻译的方法恢复蒙古语。PageRank重排序的方法融合了同一机器翻译系统不同语料的翻译结果,在后处理层面上融合词素信息进行重排序。实验证实,相对标准的短语机器翻译模型,融入形态学信息的统计机器翻译模型构造方法,显著地提高了机器翻译系统翻译质量。

论文目录

摘要

ABSTRACT

第一章绪论

1.1 汉蒙机器翻译的挑战

1.1.1 汉蒙语序差异大

1.1.2 数据稀疏问题严重

1.1.3 语言非对称研究难度大

1.2 研究意义

1.3 研究方法

1.3.1 蒙古文形态切分

1.3.2 因子化模型

1.3.3 链式机器翻译

1.3.4 PageRank重排序

第二章机器翻译概况

2.1 基于规则的机器翻译

2.2 基于统计的机器翻译

2.2.1 基于词的翻译模型

2.2.2 基于短语的翻译模型

2.2.3 基于句法的机器翻译模型

2.3 机器翻译评测

第三章蒙古文形态分析

3.1 蒙古文形态切分引言

3.2 短语统计机器形态切分模型

3.3 最小上下文构成代价模型

3.3.1 特征选取

3.3.2 代价模型

3.3.3 切分解码算法

3.4 语料预处理及统计分析

3.4.1 语料预处理

3.4.2 语料统计

3.5 切分实验及分析

3.5.1 PSMTMS形态切分

3.5.2 最小切分代价

3.5.3 实验设计及结果分析

3.5.4 结论和讨论

第四章因子化翻译模型

4.1 短语机器翻译

4.2 因子化模型

4.3 因子化翻译模型实验

4.3.1 语料处理

4.3.2 实验

4.3.3 结果和分析

第五章链式机器翻译系统

5.1 研究概况

5.2 理论概述

5.2.1 系统概况

5.2.2 正则表达式恢复词边界

5.2.3 机器翻译恢复词边界

5.2.4 短语翻译表合并

5.3 实验及结果分析

5.3.1 正则表达式

5.3.2 机器翻译

5.3.3 短语翻译表合并

5.3.4 结果分析

第六章 PageRank重排序

6.1 PageRank概述

6.2 混淆网络与PageRank模型

6.2.1 单一系统

6.2.2 构建混淆网络

6.3 Nbest 重排序

6.3.1 PageRank和随机游走

6.3.2 翻译结果排序

6.4 实验及结果分析

第七章总结与展望

7.1 总结

7.2 研究展望

参考文献

致谢

在读期间发表的学术论文与取得的研究成果

形态非对称汉蒙统计机器翻译模型构造方法研究

论文摘要

论文目录

相关论文文献

猜你喜欢