基于中文的句法分析系统的研究与实现

基于中文的句法分析系统的研究与实现

论文摘要

句法分析是自然语言处理中的关键性问题之一,其主要任务是自动识别句子的句法结构。同时句法分析也是中文信息处理领域内的一个重要课题,它的发展能带动其它相关语言学应用的发展。本文介绍了自然语言处理中句法分析的相关理论和相关技术,对现有的句法分析算法和模型进行了研究比较。在总结前人研究成果的基础上,对传统的基于Chart的句法分析算法加以改进,采用了自底向上与自顶向下相结合的线图分析方法,同时在规则的选取上采用了动态的排序方法,使得分析效率和分析结果的准确率有一定的提高。根据实际应用,确定了一套词性标记集和短语标记集,并根据常用的句型,设计了一套基于上下文无关的语法规则库。在此基础上,分析、设计了基于最大词长匹配算法的分词模块、基于隐马尔科夫的词性标注模块和基于改进的线图分析算法的句法分析模块,进而实现了一个完整的汉语句法分析原型系统。最后,针对复杂长句句法分析的困难,通过分析标点符号在长句构成上的作用和规律,给出了一种规则分层的句法分析方法。该方法把标点符号作为划分标志,根据这些划分标志将复杂长句分割为句子单元序列独立进行第一级分析,然后把第一级分析得到的结果作为第二级分析的输入,利用二次规则匹配,最终输出结果为完整的句法分析树。根据本文确定的词性标记集和规则库,分别使用北大计算语言研究所制作的PFR人民日报标注语料库和TCT973树库作为训练样本,从中抽取了若干文本进行小规模中文文本试验测试,验证了基于Chart的改进算法和长句规则分层句法分析可行有效。

论文目录

  • 摘要
  • ABSTRACT
  • 1 绪论
  • 1.1 问题的提出
  • 1.2 国内外研究的现状
  • 1.2.1 基于规则的方法
  • 1.2.2 基于统计的方法
  • 1.3 汉语句法分析面临的困难
  • 1.4 本文的主要研究工作
  • 1.5 论文框架
  • 2 句法分析概述
  • 2.1 形式语法体系
  • 2.1.1 乔姆斯基层次体系
  • 2.1.2 乔姆斯基的形式句法理论
  • 2.1.3 中心词驱动的短语结构语法和词汇功能语法
  • 2.1.4 依存语法
  • 2.1.5 链语法
  • 2.1.6 范畴语法
  • 2.2 句法分析算法
  • 2.2.1 常见的分析算法
  • 2.2.2 LR 算法
  • 2.2.3 Chart 算法
  • 2.2.4 其他的句法分析算法
  • 2.3 句法分析算法的比较
  • 3 Chart 算法的改进
  • 3.1 规则的改进
  • 3.2 算法的改进
  • 3.2.1 自顶向下和自底向上分析算法
  • 3.2.2 自底向上与自顶向下相结合的分析算法
  • 3.2.3 改进算法的基本流程
  • 4 句法分析系统的分析、设计与实现
  • 4.1 系统的目标和功能
  • 4.1.1 系统的目标
  • 4.1.2 系统的功能
  • 4.2 系统设计
  • 4.2.1 数据库设计
  • 4.2.2 系统的总体结构设计
  • 4.3 句法分析系统的实现
  • 4.3.1 分词模块
  • 4.3.2 词性标注模块
  • 4.3.3 句法分析模块
  • 4.4 试验测试与分析
  • 4.4.1 实验环境
  • 4.4.2 实验数据
  • 4.4.3 测试结果与分析
  • 5 汉语长句句法分析
  • 5.1 引言
  • 5.2 研究现状
  • 5.3 规则分层方法的提出
  • 5.3.1 中英文标点符号的异同分析
  • 5.3.2 长句分析的特殊困难
  • 5.3.3 标点符号在长句分析中的应用
  • 5.4 规则分层方法
  • 5.4.1 规则分层方法中“划分”标志的确定
  • 5.4.2 规则分层方法的语法规则
  • 5.4.3 规则分层方法算法描述
  • 5.4.4 规则分层方法的实现
  • 5.5 实验结果与分析
  • 5.5.1 测试用句
  • 5.5.2 实验结果
  • 6 结论
  • 6.1 总结
  • 6.2 展望
  • 致谢
  • 参考文献
  • 附录
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    基于中文的句法分析系统的研究与实现
    下载Doc文档

    猜你喜欢