基于条件随机场模型的新词发现系统研究与实现

基于条件随机场模型的新词发现系统研究与实现

论文摘要

新词发现是自然语言处理领域一个非常重要的课题。它对词典构造及分词系统的性能有着很大的影响。但由于汉语自身的复杂性,新词发现问题一直是中文自然语言处理的难题。条件随机场是一种无向图模型,它具有产生式模型和最大熵马尔可夫模型的优点。既可以利用任意上下文特征,并对这些特征进行训练;又可以通过折衷不同位置的不同特征值的方法获得全局最优的标记结果。本文使用了条件随机场模型进行中文新词发现,并提出了两项改进:汉字粗标记和非法状态识别。加入这两项改进,能够将未登录词的召回率提高15%。这也是新词发现系统最重要的评价指标。而反馈库的加入,也将系统的准确率提高了30%。本文的研究内容主要包括以下几个方面:1)使用条件随机场模型进行新词发现工作,并对原始的条件随机场模型进行了改进,使用了汉字粗标记和非法状态识别的技术。2)为了保证词典的准确,系统加入了搜索引擎辅助筛选和人工筛选功能。3)加入反馈系统,能够将经过筛选的错误加入规则库,提高系统的效率。4)在处理网页信息时,使用了网页净化技术来处理网页。本文使用Sighan Bakeoff 2005封闭测试提供的北京大学人民日报语料作为实验语料,取得了0.933的F值,以及0.803的未登录词召回率和0.973的已登录词召回率。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 课题背景
  • 1.2 本课题研究意义
  • 1.3 国内外相关技术发展现状
  • 1.4 本文主要研究内容
  • 1.5 本章小结
  • 第2章 新词发现方法概述
  • 2.1 基于语言学的新词发现
  • 2.2 基于统计的新词发现
  • 2.3 两种方法的混合
  • 2.4 本章小结
  • 第3章 条件随机场模型描述
  • 3.1 简介
  • 3.2 标记偏见问题
  • 3.3 条件随机场模型
  • 3.3.1 条件随机场定义
  • 3.3.2 条件随机场的参数估计
  • 3.4 条件随机场与以往模型的比较
  • 3.4.1 隐马尔可夫模型的缺点
  • 3.4.2 最大熵马尔可夫模型的缺点
  • 3.4.3 条件随机场的优点及不足
  • 3.5 本章小结
  • 第4章 基于条件随机场的新词发现系统
  • 4.1 训练集和测试集的准备
  • 4.2 基于条件随机场的新词发现方法
  • 4.3 网页净化技术
  • 4.3.1 HTML Parser
  • 4.3.2 页面净化模块
  • 4.4 新词筛选和反馈系统
  • 4.5 本章小结
  • 第5章 实验结果及分析
  • 5.1 实验环境
  • 5.2 测试结果与分析
  • 5.2.1 测试结果及分析
  • 5.2.2 错误结果分析
  • 5.3 反馈规则效率讨论
  • 5.4 本章小结
  • 结论
  • 参考文献
  • 攻读学位期间发表的学术论文
  • 致谢
  • 简历
  • 相关论文文献

    • [1].基于层叠跳跃链条件随机场模型的因果关系标注[J]. 郑州大学学报(理学版) 2016(04)
    • [2].基于贝叶斯分类器和条件随机场模型的词义消歧对比研究[J]. 文教资料 2011(36)
    • [3].基于条件随机场模型的“评价特征-评价词”对抽取研究[J]. 情报学报 2017(04)
    • [4].一种张量扩展的条件随机场模型及其在自然语言处理任务中的应用[J]. 计算机应用研究 2016(05)
    • [5].一种基于语义关系与条件随机场模型的电子商务情感评价单元识别方法[J]. 系统科学与数学 2020(01)
    • [6].基于条件随机场模型的复杂时间信息抽取研究[J]. 现代图书情报技术 2011(10)
    • [7].基于多条件随机场模型的图像3D空间布局理解[J]. 电子学报 2017(02)
    • [8].中国电子商务平台产品评论意见挖掘——基于条件随机场模型的实证研究[J]. 系统科学与数学 2015(11)
    • [9].基于多条件随机场模型的异常行为检测[J]. 通信技术 2014(06)
    • [10].条件随机场模型的场景描述[J]. 中国图象图形学报 2013(03)
    • [11].一种基于判别随机场模型的联机行为识别方法[J]. 计算机学报 2009(02)
    • [12].利用三层条件随机场模型进行情感极性分类及强度分析[J]. 计算机应用研究 2017(04)
    • [13].遥感影像像斑综合相邻势能分析的随机场模型[J]. 武汉大学学报(信息科学版) 2013(12)
    • [14].西安黄土土性参数随机场模型的适用性探讨[J]. 工程地质学报 2013(03)
    • [15].土体参数随机场模型下边坡稳定可靠性分析[J]. 三峡大学学报(自然科学版) 2009(05)
    • [16].面向自然语言处理的条件随机场模型研究综述[J]. 信息资源管理学报 2020(05)
    • [17].边坡稳定随机场模型效应研究[J]. 兰州石化职业技术学院学报 2014(03)
    • [18].简述图像纹理分析的几种方法[J]. 福建电脑 2012(10)
    • [19].条件随机场模型的应用研究及改进[J]. 计算机与现代化 2011(11)
    • [20].基于条件随机场模型的数据异常检测算法[J]. 计算机工程与科学 2015(09)
    • [21].机器人自然语言导航的层叠式条件随机场模型[J]. 计算机工程与科学 2017(08)
    • [22].条件随机场模型在中文人名识别中的研究与实现[J]. 现代计算机(专业版) 2012(21)
    • [23].土质边坡可靠性分析的分层非平稳随机场模型[J]. 岩土工程学报 2020(07)
    • [24].一种基于Markov随机场模型的核磁共振图像分割方法[J]. 世界科技研究与发展 2010(06)
    • [25].结合Tetrolet与主动随机场模型的高斯噪声抑制[J]. 应用科学学报 2012(03)
    • [26].随机场模型下相关距离及参数变异系数对边坡稳定可靠度的影响[J]. 金属矿山 2018(12)
    • [27].海量食品安全事件下的命名实体识别研究[J]. 科研管理 2018(07)
    • [28].基于马尔科夫随机场模型的图像融合[J]. 电脑知识与技术 2017(06)
    • [29].国家社科基金学科类别自动判定模型构建研究[J]. 湖南大学学报(自然科学版) 2020(04)
    • [30].基于条件随机场模型和文本纠错的微博新词词性识别研究[J]. 南京大学学报(自然科学) 2016(02)

    标签:;  ;  ;  

    基于条件随机场模型的新词发现系统研究与实现
    下载Doc文档

    猜你喜欢