基于语素的汉语词法分析方法研究

基于语素的汉语词法分析方法研究

论文摘要

作为中文信息处理的关键问题之一,汉语词法分析主要包括分词、词性标注和词义消歧三个子任务。虽然近年来汉语词法分析取得很大进展,但处理大规模开放文本时依然面临巨大的挑战,尤其是未登录词问题。因此,如何有效发掘和表示词法特征并解决未登录词识别和预测问题是目前汉语词法分析研究所面临的一个主要困难,同时也是一个研究热点。本文以大规模语料库为基础,在机器学习框架下,融合词语内部和上下文特征,研究基于语素的汉语词法分析方法,重点解决汉语未登录词识别及其词性和词义预测问题。具体地,本文从以下三个方面展开研究:首先,本文以语素为基本构词单位,利用条件随机场模型进行汉语分词研究,重点探索了不同标记集和不同窗口大小对基于语素的汉语分词模型分词性能的影响。在SIGHAN Bakeoff 2005数据上的实验结果表明,语素的引入有利于未登录词识别性能的提高。其次,针对汉语词性标注中存在的未登录词词性预测问题,本文以语素为基础,发掘并融合词语内部的词法特征,实现了一个基于最大熵模型的汉语词性标注系统,并重点分析了影响汉语未登录词词性预测性能的各种因素。在SIGHAN Bakeoff 2007词性标注数据上的实验表明,基于语素的汉语词性标注方法在未登录词词性预测方面具有较大优势。最后,本文提出一种基于中心语素的朴素贝叶斯模型,并在该模型下进行汉语未登录词的词义预测研究。初步的实验证明,基于中心语素的朴素贝叶斯模型可以在一定程度上解决汉语未登录词的词义预测问题。

论文目录

  • 中文摘要
  • Abstract
  • 第1章 绪论
  • 1.1 研究的目的和意义
  • 1.2 汉语词法分析方法综述
  • 1.3 汉语词法分析存在的主要问题
  • 1.4 本文研究的主要内容
  • 1.5 本文的组织安排
  • 第2章 基于语素的汉语分词
  • 2.1 引言
  • 2.2 汉语分词问题描述
  • 2.2.1 分词的语块标记
  • 2.3 基于语素的汉语分词方法
  • 2.3.1 语素的抽取
  • 2.3.2 条件随机场模型
  • 2.4 特征模板
  • 2.5 实验结果与分析
  • 2.5.1 实验数据与评测指标
  • 2.5.2 不同的标记集对汉语分词性能的影响
  • 2.5.3 不同类型的构词单位对汉语分词性能的影响
  • 2.6 本章小结
  • 第3章 基于语素的汉语词性标注
  • 3.1 引言
  • 3.2 汉语词性标注问题描述
  • 3.3 基于语素的汉语词性标注方法
  • 3.4 特征选择与表示
  • 3.4.1 特征的表示形式
  • 3.4.2 外部特征选择
  • 3.4.3 内部特征选择
  • 3.5 实验结果与分析
  • 3.5.1 实验数据与评测指标
  • 3.5.2 内部特征和外部特征汉语词性标注性能的对比实验
  • 3.5.3 不同内部特征复合对汉语词性标注性能的影响
  • 3.5.4 内部特征和外部特征复合对汉语词性标注性能的影响
  • 3.6 本章小结
  • 第4章 基于语素的汉语词义标注
  • 4.1 引言
  • 4.2 汉语词义标注问题描述
  • 4.3 基于语素的汉语词义标注方法
  • 4.3.1 朴素贝叶斯模型
  • 4.3.2 基于语素的朴素贝叶斯模型
  • 4.4 词义标注特征
  • 4.4.1 汉语未登录词的分布特点
  • 4.4.2 词法特征
  • 4.4.3 中心语素
  • 4.5 实验结果与分析
  • 4.5.1 实验数据与评测指标
  • 4.5.2 基于词法特征的汉语词义标注性能实验
  • 4.5.3 基于中心语素的汉语词义标注性能实验
  • 4.5.4 不同特征对未登录词词义预测性能的影响
  • 4.6 本章小结
  • 第5章 结论
  • 参考文献
  • 致谢
  • 攻读学位期间发表的学术论文
  • 相关论文文献

    • [1].浅析语素识别法中的几点异议[J]. 河北广播电视大学学报 2020(05)
    • [2].再论语素融合说问题[J]. 宁波大学学报(人文科学版) 2015(02)
    • [3].对外汉语词汇教学中语素法的应用[J]. 读与写(教育教学刊) 2016(02)
    • [4].含男/女语素的新词语研究[J]. 语文学刊 2015(13)
    • [5].谈对外汉语“语素教学法”[J]. 国际汉学集刊 2008(00)
    • [6].试论偏义复词中陪衬语素的作用[J]. 山西青年 2016(13)
    • [7].语素与词的“一辨三看”法[J]. 中学语文 2015(01)
    • [8].助词“得”与语素“得”辨析[J]. 语文天地 2009(04)
    • [9].汉语“盘”的框架卫星语素类型探析[J]. 中国多媒体与网络教学学报(中旬刊) 2019(12)
    • [10].黎语否定语素研究[J]. 贵州民族研究 2020(09)
    • [11].汉语反义复合词的语素排序探析[J]. 开封教育学院学报 2019(10)
    • [12].试论“阶”的语素化[J]. 岳阳职业技术学院学报 2017(02)
    • [13].基于语素分析的原常用汉字字频下降探因[J]. 上饶师范学院学报 2014(05)
    • [14].日语字音语素的词性与构词[J]. 外语学界 2019(00)
    • [15].《康熙朝汉文朱批奏折汇编》中重复语素的使用情况[J]. 读与写(教育教学刊) 2013(07)
    • [16].对“好hǎo”语素意义虚化的探讨[J]. 语文学刊 2010(17)
    • [17].外来词音节语素化问题分析[J]. 现代语文(语言研究版) 2008(11)
    • [18].从英语外来词看汉英语素的变异性[J]. 青春岁月 2013(23)
    • [19].汉语传承复合词语素意义的变化[J]. 北京师范大学学报(社会科学版) 2014(01)
    • [20].传承语素与语素义的传承[J]. 江淮论坛 2014(01)
    • [21].关于“永远成词语素”[J]. 汉字文化 2014(03)
    • [22].现代维吾尔语外来语素研究初探[J]. 湖北科技学院学报 2013(08)
    • [23].新时期汉语新语素考察与分析[J]. 语言文字应用 2012(04)
    • [24].立足于对外汉语词汇教学的语素法[J]. 湖北大学成人教育学院学报 2011(01)
    • [25].对反义语素同位对举成语的考察[J]. 宜宾学院学报 2011(08)
    • [26].现代汉语高频语素的统计及形成原因分析[J]. 西华大学学报(哲学社会科学版) 2010(01)
    • [27].谚语中关键性语素的类型及解释[J]. 辞书研究 2010(03)
    • [28].汉语语素“儿”的性质[J]. 云南师范大学学报(对外汉语教学与研究版) 2010(01)
    • [29].音节语素化[J]. 社科纵横(新理论版) 2009(02)
    • [30].现代汉语音节语素化的主要类型[J]. 湘南学院学报 2009(06)

    标签:;  ;  ;  ;  ;  

    基于语素的汉语词法分析方法研究
    下载Doc文档

    猜你喜欢