基于隐马尔科夫模型的中文命名实体识别研究

基于隐马尔科夫模型的中文命名实体识别研究

论文摘要

随着信息时代的到来和Internet的发展,用自然语言作为人机交互已是必然趋势,这对自然语言处理的深度和广度提出了越来越高的要求。自命名实体识别技术在1995年的MUC-6(Message Understanding Conference)会议上提出以来,越来越受到自然语言处理研究者的关注,并成为很多应用中的关键技术。本文对命名实体识别的方法进行了研究,分析了基于规则的方法和基于统计的方法的优缺点。由于获取上下文信息的多少和数据平滑的程度是评价识别性能的两个重要参数,而以前的统计模型获取上下文信息有限,本文提出了一种基于三阶隐马尔科夫模型的命名实体识别方法,该方法使用语言知识进行约束,兼顾了准确率和召回率,取得了较好的识别效果。自动分词和词性标注直接影响命名实体的识别,本文采用了海量智能分词系统对文本进行分词和标注。在统计词频方面,本文使用了改进的K均值方法对参数进行估计,并采用线性差值法对参数结果进行平滑处理。在命名实体识别方面,本文采用改进的Viterbi算法对初始观察序列重新标注,并求出最佳的状态序列。本文识别的主要内容为实体词,即人名、地名和机构名。目前,中文命名实体识别实验仍处于初期阶段,还有不少工作有待进一步完善。今后的工作将进一步研究规则的制定和数据平滑技术,以期进一步提高命名实体的识别率。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 研究背景及意义
  • 1.2 国内外研究现状
  • 1.3 本文的研究内容
  • 第二章 命名实体识别相关基础知识
  • 2.1 命名实体识别的概念
  • 2.2 命名实体识别的过程
  • 2.3 命名实体识别存在的问题
  • 2.4 命名实体识别的评测标准
  • 2.5 命名实体识别相关模型及算法
  • 2.5.1 人工组织规则的方法
  • 2.5.2 基于统计的方法
  • 2.5.3 基于混合的方法
  • 2.5.4 数据平滑算法
  • 第三章 基于改进HMM的中文命名实体识别
  • 3.1 改进HMM模型的原理
  • 3.2 一种特殊的参数训练算法
  • 3.2.1 K均值算法
  • 3.2.2 匹配系统实现原理
  • 3.3 参数平滑方法
  • 3.3.1 平滑评价方法
  • 3.3.2 参数结果平滑方法
  • 3.4 改进HMM模型中的VITERBI算法
  • 3.4.1 VITERBI算法参量的描述
  • 3.4.2 改进VITERBI算法的实现
  • 3.4.3 VITERBI算法的复杂度
  • 3.5 实体词识别
  • 3.5.1 VITERBI算法框架中的语言知识
  • 3.5.2 状态空间和最佳路径搜索
  • 第四章 实验和结果分析
  • 4.1 中文命名实体识别系统设计
  • 4.1.1 开发及运行环境
  • 4.1.2 系统框架
  • 4.2 实验结果及分析
  • 第五章 总结与展望
  • 5.1 总结
  • 5.2 展望
  • 致谢
  • 参考文献
  • 附录A
  • 附录B
  • 研究成果
  • 相关论文文献

    • [1].西中文作品[J]. 中国书法 2011(09)
    • [2].《国际中文教育学报》征稿启事[J]. 世界汉语教学 2020(02)
    • [3].2019年国际中文教育大会闭幕[J]. 孔子学院 2020(01)
    • [4].基于文化产业振兴背景的高职院校中文教育研究[J]. 科学咨询(教育科研) 2020(04)
    • [5].紡織月刊[J]. 纺织服装周刊 2018(21)
    • [6].紡織月刊[J]. 纺织服装周刊 2017(44)
    • [7].中文塑造了我的人生[J]. 孔子学院 2018(02)
    • [8].中文版音乐剧的价值和意义[J]. 上海艺术评论 2018(05)
    • [9].基于中英文可比较语料的中文零指代消解[J]. 北京大学学报(自然科学版) 2017(02)
    • [10].增强中文自信 助推中华文化复兴——周善甫的中文观述评[J]. 云南师范大学学报(对外汉语教学与研究版) 2017(02)
    • [11].在邕高校泰国留学生阅读中文书籍现状调查研究与分析[J]. 才智 2017(28)
    • [12].西中文作品欣赏[J]. 美与时代(中) 2014(12)
    • [13].论在外语院系中加强中文课教育的意义[J]. 戏剧之家 2015(10)
    • [14].全家都来学中文[J]. 廉政瞭望(上半月) 2015(10)
    • [15].《高校应用数学学报》第三十卷A辑(中文版)总目次[J]. 高校应用数学学报A辑 2015(04)
    • [16].香港中文大学宾馆[J]. 金山 2019(08)
    • [17].香港中文大學[J]. 英语画刊(高级版) 2019(25)
    • [18].中文、悟性和悟性享受[J]. 基础教育论坛 2013(20)
    • [19].中文教育之痛[J]. 教师博览 2010(04)
    • [20].该死的中文秘书台[J]. 教师博览 2011(02)
    • [21].探析文化产业振兴与高校中文教育改革[J]. 长江丛刊 2018(02)
    • [22].唐中文作品[J]. 文化月刊 2015(35)
    • [23].好惨的中文课[J]. 课外阅读 2016(05)
    • [24].一不留神,我要读中文系的博士了[J]. 大学生 2016(17)
    • [25].重建中文之美[J]. 百花洲 2016(01)
    • [26].学中文的骄傲[J]. 快乐作文 2015(Z3)
    • [27].孙中山(银奖)[J]. 上海集邮 2015(S1)
    • [28].我和中文做朋友[J]. 快乐作文 2014(Z5)
    • [29].推广中文的曲折[J]. 新民周刊 2014(29)
    • [30].香港中文大学深圳开分校或3月招生[J]. 留学 2014(Z1)

    标签:;  ;  ;  ;  

    基于隐马尔科夫模型的中文命名实体识别研究
    下载Doc文档

    猜你喜欢