中文分词交集型歧义处理研究

中文分词交集型歧义处理研究

论文摘要

词是最小的能独立表示语义的语言单位,因而是处理各种自然语言文本的基础。汉语书写显得很特别,因为它没有明确的标志将词与词分开,而是一段连续的汉字串。如何把汉字串正确地切分成词串,即对词边界的自动识别,是中文信息处理中迫切需要解决的问题。对中文分词的研究很有意义,本文研究的是中文分词中词典机制和交集型歧义的发现和消除。主要研究工作包括以下几个方面:(1)系统地阐述了中文分词研究背景、意义以及发展现状,并对一些有特色的分词系统进行简单的介绍。(2)对中文分词中常用的算法进行详细的介绍并举实例阐述其算法思想及运行过程。对在中文分词过程中所遇到的困难进行了概括并给出了评价中文分词的标准。(3)分词速度和精度是衡量分词系统的核心指标。通过对几种常见的词典结构的研究,发现各自词典结构的优缺点,在此基础上处于提高分词速度、提高建构词典的空间效率、查找过程的时间效率以及汉语词组的统计规律的考虑,本文选择双字Hash索引的词典机制,将前两字逐个建立Hash索引,并将剩余字串有序排列组成词典的正文。(4)本文主要对交集型歧义进行处理。首先介绍歧义产生的根源以及歧义的分类。详细介绍了交集型歧义的发现算法和消解算法。本文发现了一种能识别交集型歧义的方法,即在二元切分词图中,如果位于对称轴上的原子与它相连的右边和上面位置上同时不为空,表明这里出现了交集型歧义。本文采用基于统计的方法来对交集型歧义进行消解,先详细的介绍了几种基于统计的常见方法,并分析它们的优缺点,最后采用双字耦合度和t-测试差的线性叠加,再对各个歧义位置进行计算CDT(Couple and Difference of T- test)并对是否进行切分做出选择。实验结果表明,基于词典和统计相结合的分词算法对应于传统的分词算法在分词速度和分词精度上都有显著的提高。然而该算法不能处理组合型歧义和未登录词,有待进一步研究。

论文目录

  • 摘要
  • Abstract
  • 目录
  • 第一章 绪论
  • 1.1 中文分词的研究背景
  • 1.2 中文分词的研究意义
  • 1.3 中文分词的研究现状
  • 1.3.1 国际研究动态
  • 1.3.2 国内研究动态
  • 1.4 论文的研究内容及结构安排
  • 1.4.1 论文的研究内容
  • 1.4.2 论文的研究结构
  • 第二章 中文分词算法介绍
  • 2.1 中文分词算法概述
  • 2.1.1 基于词典的分词算法
  • 2.1.2 基于统计的分词算法
  • 2.1.3 基于规则的分词算法
  • 2.2 中文分词所面临的困难
  • 2.2.1 分词标准规范化问题
  • 2.2.2 歧义词的处理问题
  • 2.2.3 命名实体的识别问题
  • 2.2.4 分词与理解的关系
  • 2.3 中文分词的评价标准
  • 2.3.1 分词精度
  • 2.3.2 分词速度
  • 2.3.3 召回率
  • 2.3.4 功能完备性
  • 2.3.5 可移植性
  • 2.4 本章小结
  • 第三章 双字Hash索引的分词词典
  • 3.1 常用词典机制介绍
  • 3.1.1 索引介绍
  • 3.1.2 词典结构的演变
  • 3.2 双字Hash索引分词词典
  • 3.2.1 词典原理
  • 3.2.2 实验结果
  • 3.3 本章小结
  • 第四章 歧义消解
  • 4.1 歧义知识简介
  • 4.1.1 为什么会产生歧义
  • 4.1.2 歧义字段的分类
  • 4.2 如何发现交集型歧义
  • 4.3 如何消解交集型歧义消除
  • 4.3.1 常见的方法
  • 4.3.2 算法流程
  • 4.3.3 实验与分析
  • 4.4 本章小结
  • 第五章 实验与结论
  • 5.1 实验前准备
  • 5.1.1 原子切分
  • 5.1.2 候选词条
  • 5.1.3 中文分词有向无环图
  • 5.1.4 有向图的邻接矩阵
  • 5.1.5 算法流程
  • 5.2 实验和分析
  • 5.2.1 分词精度比较
  • 5.2.2 分词速度比较
  • 5.3 本章小结
  • 第六章 总结与展望
  • 6.1 本文总结
  • 6.2 未来工作
  • 参考文献
  • 致谢
  • 攻读研究学位期间发表学术论文目录
  • 相关论文文献

    标签:;  ;  ;  

    中文分词交集型歧义处理研究
    下载Doc文档

    猜你喜欢