汉语新词语发现及其词性标注方法研究

汉语新词语发现及其词性标注方法研究

论文摘要

随着经济社会的飞速发展,汉语也得到了丰富与发展,大量汉语新词不断出现在人们生活中。新词语的出现给汉语分词带来更大的挑战。新词的存在使得汉语分词结果中出现过多的“散串”,在很大程度上影响了分词的准确率。因此,新词发现已经成为汉语自动分词中的一个难点与瓶颈问题。如何识别寻找汉语新词成了一个重要的研究课题。词性作为词汇最重要的属性,也是连接词汇到句法的主要桥梁。因此,词性标注是必须为后续自然语言处理过程提供高质量的中间结果,但新词的出现同样在一定程度上降低了词性标注的性能。目前,许多研究者已提出多种新词发现的方法。但其寻找新词语都是限于领域或限于新词语的词频。本文在分析前人的研究成果基础上,提出一种基于支持向量机的新词发现混合模式,试图综合基于统计的方法和基于规则方法的优点,以吸收了统计方法的快速,保留专家系统的质量。在基于统计的模块中,新词发现过程被看作是一个二类分类问题,已有的新词特征主要考虑新词内部特征信息,文中综合考虑这些特征,并加入上下文特征信息。在统计处理之后,加入了规则过滤,以提高新词发现的准确率。并在此基础之上,进一步对新词语词性标注。根据本文提出的方法,整个系统分为两个部分,实现了新词语的识别及其词性的标注。1.在新词发现的算法方面,支持向量机(Support Vector Machine,SVM)被用来处理分类问题。支持向量机已经成功广泛应用于模式识别和分类问题,在高维数据空间中,其可以找到足以区分各类数据点的最优分割超平面。在SVM的框架下,少量人工规则的引入以弥补统计模型的固有不足,提高处理性能。文章详细介绍了用于汉语新词语识别的基于支持向量机的混合算法,及其主要的工作流程。2.在汉语新词语词性标注方面,文中把这个问题作为一个分类问题,同样采用支持向量机来处理这个问题,综合考虑了候选词的内部构词信息与外部连结信息,最后通过对问题的转换,将一个多类分类问题转换为两类分类问题。最后,对于1998年人民日报一个月的语料的实验表明,新词发现的准确率达到60.81%,召回率为68.94,F值为64.62%。词性标注的准确率达到90%。

论文目录

  • 目录
  • 摘要
  • Abstract
  • 第一章 引言
  • 1.1 本文研究背景与意义
  • 1.2 新词识别研究现状
  • 1.2.1 基于规则的方法
  • 1.2.2 基于统计的方法
  • 1.2.3 统计和规则相结合的混合方法
  • 1.3 词性标注研究现状
  • 1.3.1 基于规则的方法
  • 1.3.2 基于统计的方法
  • 1.3.3 基于转换的方法
  • 1.4 本文研究工作概述
  • 1.5 本文的组织结构
  • 第二章 支持向量机理论
  • 2.1 支持向量机模型简介
  • 2.2 自然语言处理中的分类问题
  • 2.3 线性可分的支持向量机的求解
  • 2.4 不可分模式的支持向量机的求解
  • 2.5 本章小结
  • 第三章 基于支持向量机的新词发现算法
  • 3.1 特征表示
  • 3.2 两个约束条件
  • 3.3 平滑处理
  • 3.4 约束条件与支持向量机的结合
  • 3.5 规则过滤
  • 3.6 本章小结
  • 第四章 基于支持向量机的新词词性标注算法
  • 4.1 词性标注
  • 4.2 特征描述
  • 4.3 问题描述
  • 4.4 问题转化
  • 4.5 可信度评估选择
  • 4.6 本章小结
  • 第五章 新词发现及词性标注系统的设计与实现
  • 5.1 系统的处理对象
  • 5.2 系统的总体结构
  • 5.3 系统的工作流程
  • 5.3.1 新词发现模块
  • 5.3.2 词性标注模块
  • 5.4 系统的具体实现
  • 5.4.1 新词发现模块
  • 5.4.2 词性标注模块
  • 5.5 系统性能评测
  • 5.5.1 系统使用资源
  • 5.5.2 评测方法与标准
  • 5.5.3 实验结果及讨论
  • 5.6 例示
  • 5.7 本章小结
  • 第六章 总结和展望
  • 6.1 总结
  • 6.2 未来的方向
  • 参考文献
  • 攻读学位期间参加的科研项目与发表的论文
  • 致谢
  • 相关论文文献

    • [1].2014年~2016年汉语新词语来源及特征分析[J]. 品位经典 2019(02)
    • [2].汉语新词语研究的梳理与评析——基于期刊论文的可视化分析[J]. 语言文字应用 2017(01)
    • [3].浅论现代汉语新词语[J]. 佳木斯职业学院学报 2017(01)
    • [4].现代汉语新词语刍议[J]. 黑龙江科学 2017(01)
    • [5].基于社会语言学的现代汉语新词语发展研究[J]. 语文建设 2016(18)
    • [6].当代汉语新词语的构词理据[J]. 文化学刊 2016(10)
    • [7].近10年间汉语新词语中的“外语模因”现象[J]. 语文建设 2014(33)
    • [8].汉语新词语外译词典出版的必要性与可行性分析——以《新时期新词语英译参考》为例[J]. 记者观察 2020(18)
    • [9].略谈汉语新词语的维吾尔语翻译[J]. 记者观察 2020(26)
    • [10].汉语新词语英译法浅析[J]. 文教资料 2010(33)
    • [11].浅议汉语新词语的规范问题[J]. 语文学刊 2014(02)
    • [12].浅析汉语新词语的类型特质[J]. 语文学刊 2008(18)
    • [13].汉语新词语本体研究概述[J]. 文教资料 2011(19)
    • [14].试论现代汉语新词语[J]. 语文学刊 2012(18)
    • [15].基于社会语言学的现代汉语新词语研究[J]. 散文百家(新语文活页) 2017(06)
    • [16].汉语新词语教学实践与思考[J]. 课程教材教学研究(中教研究) 2017(Z3)
    • [17].现代汉语新词语产生途径分析[J]. 中华少年 2016(20)
    • [18].现代汉语新词语造词法阐述[J]. 青年文学家 2015(27)
    • [19].近年来汉语新词语研究[J]. 青年文学家 2013(27)
    • [20].汉语新词语的现状和发展趋势[J]. 魅力中国 2009(13)
    • [21].试论汉语新词语的隐退现象[J]. 安徽水利水电职业技术学院学报 2016(03)
    • [22].汉语新词语对汉语言发展的意义和影响[J]. 东北师大学报(哲学社会科学版) 2016(01)
    • [23].现代汉语新词语的色彩意义研究[J]. 湖北函授大学学报 2016(15)
    • [24].汉语新词语产生的方式[J]. 黑龙江教育(理论与实践) 2014(12)
    • [25].近十年汉语新词语使用情况分析[J]. 赤子(上中旬) 2015(16)
    • [26].论对外汉语教学中汉语新词语的教学目标及教学策略[J]. 现代语文(语言研究版) 2014(07)
    • [27].原型范畴理论和现代汉语新词语[J]. 现代语文(学术综合版) 2015(08)
    • [28].试论中国当代汉语新词语的流行及其特征[J]. 山西青年 2018(10)
    • [29].汉语新词语文化内涵分析[J]. 考试周刊 2010(48)
    • [30].近十年汉语新词语的构词、语义、语用特点分析[J]. 语言文字应用 2014(04)

    标签:;  ;  ;  ;  

    汉语新词语发现及其词性标注方法研究
    下载Doc文档

    猜你喜欢