基于模板方法的汉语语句自动改写研究

基于模板方法的汉语语句自动改写研究

论文摘要

改写是自然语言中比较普遍的一个现象,它集中反映了语言的多样性。改写研究的对象主要是短语或者句子的同义现象。自然语言处理各种底层技术的不断发展和成熟,为改写研究提高了可能,使之受到越来越多的关注。在英文和日文方面,改写技术已经被成功的应用到信息检索、自动问答、信息抽取、自动文摘以及机器翻译等多个领域,有效地提高了这些系统的性能。在口语自动翻译系统中,当翻译引擎无法对输入语句(utterance)进行正确理解和翻译时,如果系统能够自动提供输入语句其它可能的表达方式,无疑将提高系统翻译的正确率。本文介绍了汉语语句自动改写的方法,在方法中,利用多种方法将输入的语句分解成短语结构,依存语块等。然后提取输入语句的主要特征,包括语句类型,时态,句法成分等并将提取的结果用框架表示,最后根据解析结果利用语言生成技术实现输入语句的自动改写。模板的抽取与匹配算法是基于模板的改写方法的核心问题。本文首先在模板抽取过程中对改写实例进行浅层句法分析,根据分析结果得到介词短语模板、实例主架模板以及组块模板。接下来为每类模板确定一个中心词,利用索引中心词方式进行各类别模板的独立存储、索引关联,并进一步构建系统模板库。模板匹配过程中首先对大量输入句抽取模板,然后从系统模板库中检索匹配模板。检索过程中综合模板的语义信息和结构信息,不但要保证模板主架结构相似,还要进行语义信息的匹配。匹配时以模板中心词作为静态阈值,相似度得分和模板距离作为动态阈值分别判断模板是否相似,该方法取得了较好的实验结果。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 引言
  • 1.2 研究目的和意义
  • 1.3 国内外相关领域研究现状
  • 1.4 研究内容
  • 1.5 本文的组织结构
  • 第2章 语句改写方法综述
  • 2.1 基于规则的改写方法
  • 2.2 基于实例的方法
  • 2.3 语言生成模型
  • 2.3.1 基于中间语言的生成方法
  • 2.3.2 基于排列优先生成方法
  • 2.4 完全分析方法和浅层分析方法
  • 2.5 本文基于模板的改写方法
  • 第3章 汉语语句改写技术基础
  • 3.1 自然语言处理
  • 3.1.1 自然语言处理技术简介
  • 3.1.2 自然语言处理技术的主要应用
  • 3.2 汉语自动分词基本算法
  • 3.2.1 基于规则的分词算法
  • 3.2.2 基于统计的分词算法
  • 3.2.3 统计和规则相结合的分词算法
  • 3.3 句子相似度的概念及传统计算方法
  • 3.3.1 句子相似度的概念
  • 3.3.2 基于向量空间模型的TF-IDF 方法
  • 3.3.3 基于汉明距离的文本相似度计算方法
  • 3.4 本文的相似度计算模型
  • 3.4.1 阈值选择
  • 3.4.2 主架结构的相似度计算
  • 3.5 模式匹配技术
  • 3.5.1 模式匹配的概念
  • 3.5.2 模式匹配的分类
  • 3.5.3 模式匹配的方法
  • 第4章 改写系统模板库的构筑学习与检索
  • 4.1 系统模板库的构筑
  • 4.1.1 系统模板库的框架设计
  • 4.1.2 系统模板库的组织
  • 4.2 改写模板的抽取
  • 4.2.1 改写语句对的抽取
  • 4.2.2 改写语句对的模板化
  • 4.2.3 改写模板的半自动化
  • 4.3 系统模板库的自动学习
  • 4.4 系统模板库的检索
  • 4.5 改写模板的抽取与匹配实验结果分析
  • 4.5.1 实验语料
  • 4.5.2 模板匹配实验结果
  • 4.5.3 错误分析
  • 第5章 汉语语句改写系统的具体实现
  • 5.1 系统整体结构
  • 5.2 改写系统的模块定义
  • 5.3 系统部分模块的实现
  • 5.3.1 预处理模块
  • 5.3.2 模板处理模块
  • 5.3.3 语料库处理模块
  • 5.4 基于模板的改写系统的工作流程
  • 5.5 改写过程的具体实现
  • 5.5.1 倒装句的改写
  • 5.5.2 疑问句的改写
  • 5.5.3 同义词短语的改写
  • 5.5.4 利用框架主属性值改写语句
  • 5.6 改写实验与实验结果考察
  • 5.6.1 句法成分分析器测试情况
  • 5.6.2 系统改写生成情况
  • 第6章 结论
  • 参考文献
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  

    基于模板方法的汉语语句自动改写研究
    下载Doc文档

    猜你喜欢