汉蒙词法分析及其在统计机器翻译中的应用

汉蒙词法分析及其在统计机器翻译中的应用

论文摘要

词法分析是自然语言处理的一个基础性研究,词法分析的正确率将直接影响到后续自然语言处理(如:机器翻译)的性能。本文构建了统计模型,对汉语和蒙古语进行了切词和词性标注处理。在此基础上,将汉蒙词法形态信息融入到了汉蒙统计机器翻译系统,并在双语对齐的平行语料库上进行了实验,改善了译文的质量,验证了词法分析对于汉蒙机器翻译的重要性。本文系统地介绍了条件随机场模型的定义、图结构、势函数、模型训练及解码算法;并简化了条件随机场模型的图结构、设计了特征函数、改进了解码算法;将改进后的模型应用到了汉语和蒙古语的词法分析工作中。本文提出了一种局部歧义词网格与条件随机场相结合的汉语分词模型。首先,在低层使用局部歧义词网格对文本粗切分,并将切分结果作为一项特征提供给高层的CRFs模型;然后,在高层使用条件随机场对文本进行字标注。在SIGHAN2005提供的PKU和MSRA分词语料上进行了测试,取得了较高的切分结果。我们还构建了能够融合更多上下文信息的汉语词性标注模型。本文针对蒙古语通过词干后缀接不同词尾来实现形态变化的语言特点,首先构建了基于最小描述距离的统计模型,用于蒙古语词形切分;并在此基础上建立了一个双层的蒙古语词性标注模型,该模型把低层的切分结果作为一项特征提供给高层的条件随机场模型去学习。在内蒙古大学提供的语料上进行了训练和测试,取得了较高的标注结果。本文将汉语和蒙古语的词法信息作为因子融合到统计机器翻译系统中,建立了源语言因子到目标语言因子的多个翻译路径;使用了多个基于词法因子的语言模型评价翻译结果;建立了从目标语言翻译因子到表面词形的生成模型。弥补了统计模型对汉语、蒙古语词法信息利用与表达能力不足的问题;提高了统计机器翻译的译文质量。

论文目录

  • 摘要
  • ABSTRACT
  • 目录
  • 第一章 绪论
  • 1.1 本文研究背景及意义
  • 1.2 词法分析概述
  • 1.2.1 词法分析的主要研究内容
  • 1.2.2 词形切分
  • 1.2.3 词性标注
  • 1.3 本文的研究工作
  • 1.4 论文结构框架
  • 第二章 基于条件随机场的词法分析模型
  • 2.1 条件随机场
  • 2.1.1 条件随机场的图结构
  • 2.1.2 条件随机场势函数
  • 2.1.3 模型训练
  • 2.2 词法分析下的条件随机场改进
  • 2.2.1 条件随机场结构的改进
  • 2.2.2 条件随机场特征选择
  • 2.2.3 解码算法的改进
  • 第三章 汉语词法分析
  • 3.1 局部歧义词网格分词算法
  • 3.1.1 局部歧义词网格
  • 3.1.2 算法描述
  • 3.2 基于条件随机场的双层分词模型
  • 3.2.1 系统实现
  • 3.2.2 标注集
  • 3.3 分词实验与分析
  • 3.3.1 评测标准与语料
  • 3.3.2 实验设计
  • 3.3.3 实验分析
  • 3.4 基于条件随机场的汉语词性标注方法
  • 3.4.1 词性标注集的选择
  • 3.4.2 实验语料
  • 3.4.3 实验设计与结果分析
  • 第四章 蒙古语词法分析
  • 4.1 蒙古语词形分析
  • 4.1.1 词形分析常见算法
  • 4.1.2 基于最小描述长度的词形切分
  • 4.1.3 算法描述
  • 4.1.4 实验设计与结果分析
  • 4.2 蒙古语词性标注
  • 4.2.1 形态标注具体流程
  • 4.2.2 标注集合
  • 4.2.3 实验与分析
  • 第五章 融入词法信息的汉蒙统计机器翻译
  • 5.1 机器翻译概述
  • 5.1.1 基于规则的机器翻译
  • 5.1.2 基于实例的机器翻译
  • 5.1.3 基于统计的机器翻译
  • 5.2 汉蒙机器翻译
  • 5.3 融合词法信息的Factored模型
  • 5.3.1 Factored翻译模型定义
  • 5.3.2 Factored语言模型
  • 5.3.3 Factored模型训练与解码
  • 5.4 对比实验与分析
  • 5.4.1 实验语料与评测标准
  • 5.4.2 实验设计与分析
  • 第六章 总结与展望
  • 6.1 总结
  • 6.2 研究展望
  • 参考文献
  • 致谢
  • 在读期间发表的学术论文与取得的研究成果
  • 相关论文文献

    • [1].论蒙古语标准音语音库的建立[J]. 满语研究 2019(02)
    • [2].蒙古语授课教师课程素养的发展研究[J]. 呼伦贝尔学院学报 2020(03)
    • [3].背景转换下的蒙古语苏尼特土语演变[J]. 满语研究 2020(01)
    • [4].三螺旋视角下内蒙古自治区蒙古语授课大学生就业能力提升策略研究与实践——以内蒙古农业大学职业技术学院为例[J]. 中国大学生就业 2020(17)
    • [5].多语接触中的青海汉话与蒙古语[J]. 西部蒙古论坛 2018(04)
    • [6].高校蒙古语授课大学生就业现状分析[J]. 才智 2017(31)
    • [7].“一带一路”背景下的蒙古语媒体传播——以内蒙古地区蒙古语媒体为例[J]. 新闻论坛 2018(02)
    • [8].提升蒙古语授课学生“双创”能力的实践探索——以内蒙古民族大学为例[J]. 民族高等教育研究 2018(02)
    • [9].浅析蒙古语网络媒体存在的问题[J]. 新闻论坛 2018(03)
    • [10].科尔沁土语中的中古蒙古语词语考释[J]. 民族语文 2018(01)
    • [11].浅谈美声唱法在蒙古语歌曲演唱中的运用[J]. 北方音乐 2017(15)
    • [12].内蒙古高校蒙古语标准音培训测试现状及策略[J]. 赤峰学院学报(汉文哲学社会科学版) 2016(11)
    • [13].关于蒙古语复合词的再认识问题[J]. 内蒙古师范大学学报(哲学社会科学版) 2016(04)
    • [14].内蒙古师范大学蒙古语授课历史专业的满语文教学[J]. 内蒙古师范大学学报(教育科学版) 2017(03)
    • [15].明代戏曲《流星马》中的蒙古语词考[J]. 阴山学刊 2017(03)
    • [16].青海蒙古语地名文化表征解析[J]. 青海社会科学 2017(03)
    • [17].高校转型发展视阈下关注蒙古语授课学生的成长与成才评《蒙古语授课大学生培养模式与就业竞争力探究》[J]. 内蒙古师范大学学报(哲学社会科学版) 2015(05)
    • [18].青海蒙古语中的藏语借词研究[J]. 西北民族大学学报(哲学社会科学版) 2016(01)
    • [19].蒙古语授课本科生学习适应能力的比较研究[J]. 人力资源管理 2016(08)
    • [20].高职院校大学生开设《现代蒙古语》课程的必要性研究[J]. 高教学刊 2016(23)
    • [21].蒙古语授课大学生就业的SWOT分析及策略[J]. 内蒙古师范大学学报(哲学社会科学版) 2015(03)
    • [22].蒙古语电视频道定位与观众差异化研究[J]. 新闻论坛 2014(01)
    • [23].高校转型发展视阈下关注蒙古语授课学生的成长与成才评《蒙古语授课大学生培养模式与就业竞争力探究》[J]. 内蒙古师范大学学报(哲学社会科学版) 2015(04)
    • [24].新时期蒙古语诗歌语言艺术特征的研究[J]. 散文百家(理论) 2020(08)
    • [25].“一带一路”背景下,蒙古语翻译产业发展存在的问题分析[J]. 商业故事 2018(15)
    • [26].提高翻译水平对年轻一代蒙古语广播工作者的重要性[J]. 记者观察 2019(14)
    • [27].内蒙古政策支持蒙古语授课学生辅修二学位[J]. 中小学电教 2015(12)
    • [28].蒙古语授课大学生班主任工作面临的挑战与效率提升路径——以内蒙古财经大学为例[J]. 内蒙古教育 2017(22)
    • [29].蒙古语城镇小说中描写的文化转型[J]. 语文学刊 2014(17)
    • [30].蒙古族大学生阅读蒙汉语说明文的眼动研究[J]. 智富时代 2017(04)

    标签:;  ;  ;  ;  ;  

    汉蒙词法分析及其在统计机器翻译中的应用
    下载Doc文档

    猜你喜欢