基于字词联合解码的中文分词研究

基于字词联合解码的中文分词研究

论文摘要

中文分词在中文信息处理中起着举足轻重的作用,分词的精度直接影响到后而一系列自然语言处理任务的正确性。近年来,中文分词的发展虽然已取得了骄人的成绩,但由于汉语语言自身的特点,仍存在一系列的难题,很多分词系统往往在个别领域切分的较为理想,而在另外一个领域却表现出不尽人意,因此,跨领域分词也被引入到了SIGHAN Bakeoff 2010评测任务中。本文在已有的研究基础上,提出了一种新的基于字和词的条件随机场(CRFs)的联合解码模型,把二者结合在一个统一的中文分词框架下,基于字标注的条件随机场CRFs分词,选择的是一条全局最优的路径做分词结果:在全局最优的路径里,某个局部却不一定是最优的,因此,我们把局部最优结果放到统一的模型框架下,再进行二次选择组合最优的结果,通过利用词图能够充分融合词层面的信息、的特点,使两种方法有效地结合起来。针对跨领域未登录词的特点,提出了一种称为上下文变量(Context Variables)的数据来衡量某个候选词在篇章内的上下文信息;同时,使用语义资源,利用同义词的上下文语境相似的特点,用其同义词的节点代价作为自己的代价,提高了未登录词的召回率。该方法在SIGHAN Bakeoff 2010的中文简体语料上进行了测试,在四个不同领域中,除了文学领域外,F-值均高于相应相应测试的最好成绩,并且,OOV的召回率分别达到了70.7%、84.3%、79.0%和86.2%。实验结果证明,这种方法不仅结合了基于字标注和基于词标注两种方法的优势,而且能将二者的优势影响扩大,进一步地提高了未登录的识别效果。

论文目录

  • 摘要
  • Abstract
  • 1 绪论
  • 1.1 研究背景与意义
  • 1.2 中文分词技术的难点
  • 1.2.1 分词规范的不确定性
  • 1.2.2 未登录词识别问题
  • 1.2.3 歧义切分问题
  • 1.2.4 跨领域的中文分词
  • 1.3 中文分词主要研究方法
  • 1.4 研究现状
  • 1.5 本文主要的工作
  • 2 理论基础及统计语言模型
  • 2.1 统计自然语言处理
  • 2.2 隐马尔科夫模型(HMM)
  • 2.2.1 隐马尔科夫原理
  • 2.2.2 隐马尔科夫模型在中文分词中的应用
  • 2.2.3 隐马尔科夫模型的局限性
  • 2.3 最大熵
  • 2.3.1 最大熵理论
  • 2.3.2 最大熵原理
  • 2.4 条件随机场模型
  • 2.4.1 无向图模型
  • 2.4.2 条件随机场的无向图结构及其势函数表示
  • 2.4.3 CRFs的最大似然估计
  • 3 基于CRFs的中文分词
  • 3.1 基于字标注的CRFs中文分词
  • 3.1.1 标注方法
  • 3.1.2 特征抽取
  • 3.2 基于词图的CRFs中文分词
  • 3.2.1 词图在中文分词中的应用
  • 3.2.2 特征的选择
  • 3.2.3 解码方法
  • 3.3 使用CRFs进行中文分词的流程
  • 4 联合字词解码的中文跨领域分词
  • 4.1 联合字词解码的分词算法
  • 4.2 长度偏置
  • 4.3 上下文变量
  • 4.4 利用语义相似信息提高未登录词的识别率
  • 4.5 基于字词联合解码的中文跨领域分词流程
  • 5 实验结果与分析
  • 5.1 实验数据说明和评价标准
  • 5.2 跨领域分词实验结果
  • 5.2.1 长度偏置对分词结果的影响
  • 5.2.2 实验结果
  • 5.2.3 与Sighan Bakeoff 2010成果对比
  • 5.2.4 实验结果分析
  • 5.3 基于字的CRFs与字词联合解码的结果的比较
  • 5.4 方法讨论
  • 结论
  • 参考文献
  • 攻读硕士学位期间发表学术论文情况
  • 致谢
  • 相关论文文献

    • [1].中文分词关键技术研究[J]. 湖北农机化 2017(06)
    • [2].基于粗分和词性标注的中文分词方法[J]. 计算机工程与应用 2015(06)
    • [3].中文分词[J]. 中国文艺家 2019(02)
    • [4].双向循环网络中文分词模型[J]. 小型微型计算机系统 2017(03)
    • [5].IK Analyzer 2012发布中文分词库[J]. 硅谷 2012(06)
    • [6].中文分词在大数据时代医学领域的应用[J]. 电子技术与软件工程 2018(17)
    • [7].基于深度学习算法的中文分词的研究[J]. 计算机产品与流通 2019(05)
    • [8].中文分词相关算法研究[J]. 科技经济导刊 2018(02)
    • [9].基于语义信息的中文分词研究[J]. 电脑知识与技术 2018(22)
    • [10].一种基于词频统计的中文分词方法[J]. 科技展望 2016(10)
    • [11].中文分词中歧义字段处理的研究[J]. 电子世界 2019(12)
    • [12].基于词的关联特征的中文分词方法[J]. 通信技术 2018(10)
    • [13].一种改进的单向扫描中文分词方法[J]. 科学技术创新 2017(33)
    • [14].一种中文分词的动态规划模型[J]. 数学建模及其应用 2015(01)
    • [15].中文分词和词性标注模型[J]. 计算机工程 2010(04)
    • [16].常用中文分词软件在中医文本文献研究领域的适用性研究[J]. 世界科学技术-中医药现代化 2017(03)
    • [17].基于循环神经网络序列标注的中文分词研究[J]. 计算机技术与发展 2017(10)
    • [18].中文分词和词向量[J]. 中国新通信 2018(23)
    • [19].基于异构数据联合训练的中文分词法[J]. 电子科技 2019(04)
    • [20].基于受限领域的中文分词系统[J]. 信息系统工程 2011(11)
    • [21].基于深度神经网络模型的中文分词方案[J]. 哈尔滨工程大学学报 2019(09)
    • [22].基于在线比较评论情感分析的方法探索[J]. 中国市场 2019(25)
    • [23].基于中文分词的电子病历数据挖掘技术[J]. 湖南科技学院学报 2016(10)
    • [24].一种面向中文分词的搜索算法[J]. 计算机应用与软件 2018(10)
    • [25].基于Lucene的中文分词器的设计与实现[J]. 微型机与应用 2011(18)
    • [26].基于隐马尔可夫模型的中文分词[J]. 现代计算机(专业版) 2018(33)
    • [27].基于联合学习的跨领域法律文书中文分词方法[J]. 中文信息学报 2019(09)
    • [28].中英命名实体识别及对齐中的中文分词优化[J]. 电子学报 2015(08)
    • [29].一种基于层叠模型的中文分词系统[J]. 太原师范学院学报(自然科学版) 2013(04)
    • [30].基于膨胀卷积神经网络模型的中文分词方法[J]. 中文信息学报 2019(09)

    标签:;  ;  ;  ;  ;  

    基于字词联合解码的中文分词研究
    下载Doc文档

    猜你喜欢