基于音节统计语言模型蒙古文词汇分析校正器的设计与实现

论文摘要

随着社会的信息化不断深入发展，电子杂志、报刊、文档等各种电子出版物不断涌现。如何保证这些文本的正确性，已经成为自然语言处理研究人员关注的热点。目前，在蒙古文信息处理研究中，校对领域的工作一直以来是一个空白。长期以来，研究人员采用基于字典的校对方法。该方法在词典信息量小的情况下，其效率还能被用户接受。但随着信息量的不断增大，校对的效率将会下降。本文的目标是提出一个能够很好解决目前蒙古文校对领域问题的新方法。主要工作如下：首先，介绍了蒙古文词法和语法方面的相关知识。结合蒙古文的词法特点，从蒙古文单词包含的字符数量、音节数量和音节位置三个角度对蒙古文词汇特性进行了初步分析。其次，重点研究了在自然语言处理领域常用的计算模型和文本相似度计算领域的相关技术。结合对蒙古文词汇特性的分析和各计算模型的比较，本文提出了基于音节的2-gram蒙古文校对模型；同时从校对模型设计、校对模型学习算法设计和校对算法设计三个方面进行详细论述。另外，结合蒙古文的实际特点，论文提出了基于有向图的文本错误分析方法，并对各类型错误进行了分析。

论文目录

摘要

ABSTRACT

图表目录

第一章引言

1.1 自然语言信息处理研究的本质及意义

1.2 本文主要开展的研究工作

1.3 论文结构

第二章自然语言词汇信息处理研究现状

2.1 自然语言词汇信息处理研究的目的和意义

2.2 国内外自然语言词汇信息处理研究现状

2.2.1 英文词汇信息处理研究

2.2.2 汉文词汇信息处理研究

2.2.3 少数民族语言词汇信息处理研究

第三章蒙古文词汇特性分析

3.1 概述

3.2 语言知识概述

3.3 蒙古文词汇信息分析

3.3.1 蒙古文词长性质分析

3.3.2 音节特性分析

第四章蒙古文词汇校对模型

4.1 语言模型

4.1.1 短语结构语法

4.1.2 统计语言模型

4.1.2.1 基于概率分布的语言模型

4.1.2.2 基于上下文信息的语言建模

4.2 蒙古文词汇校对模型设计

4.3 模型学习算法设计

4.4 蒙古文校对算法

第五章蒙古文音节相似性度量

5.1 文本相似度

5.1.1 相似度

5.1.2 相似度计算的主要方法

5.2 蒙古文音节相似性度量

第六章错误类型分析

1、错误类型一—多余字母

2、错误类型二—遗漏字母

3、错误类型三—错录字母

第七章校对系统设计与实现

7.1 系统总体模块划分及调用关系设计

7.2 系统实现

7.2.1 预处理模块实现

7.2.2 音节切分模块

7.2.3 蒙古文校对系统

第八章结论与展望

8.1 主要结论

8.2 本文的创新之处

8.3 后续的研究工作

参考文献

致谢

基于音节统计语言模型蒙古文词汇分析校正器的设计与实现

论文摘要

论文目录

相关论文文献

猜你喜欢