基于最大熵模型的中文实体关系自动抽取研究

基于最大熵模型的中文实体关系自动抽取研究

论文摘要

实体关系抽取就是从特定领域的文本中发现实体对间的各种语义关系,并以结构化的形式存储。它在信息检索、自动问答系统中有广泛的应用,且作为信息抽取领域中的一项关键技术越来越受到关注。与实体主要用于描述自然界中的一个物体或物体的集合不同,实体关系则是发掘实体间的显式或隐式语义联系。实体关系抽取系统的性能取决于多个方面,包括实体的正确探测,实体类型的正确判断,以及实体间关系类型的正确判断等。通常一个较完整的关系抽取系统应该包括依次相连的五个模块:NLP处理、命名实体识别、模式匹配或分类、共指消解、以及新关系的处理和规范化输出。为了实现一个比较完整的关系抽取系统,本文提出了使用最大熵模型的方法来实现实体关系的抽取,并将系统分为依次相连的三个模块:命名实体识别、共指消解、实体关系抽取。其成果和贡献主要体现在以下几个方面:1)命名实体识别:作为关系抽取的一个前续工作,实体识别是本系统的一个重要组成部分。本文采用条件随机场的机器学习算法,综合考虑实体前后一定窗口大小的词、词性等特征,来实现对人物、组织、GEP、位置、交通工具、设施、武器七大类实体的识别,取得了较好的效果。2)共指消解:由于一个命名实体在文本中的同一个句子中可能出现多次、其表现形式也可能多种多样,因此实体间的关系经常会被重复探测。针对在关系抽取中存在的上述问题,提出了通过规则的方法提取向量特征,并利用SVM机器学习算法训练分类器模型的方法实现实体间共指关系的消解。3)基于最大熵模型的实体关系抽取:这部分是本文的主要工作和研究的重点。本文综合考虑词、词性、实体、以及相应的组合特征构建关系抽取的特征集,并在特征构建过程中采用了停用词去除技术,并将共指消解技术用于命名实体的去重处理,避免了实体间关系的重复探测。在利用最大熵模型实现对实体关系自动抽取问题时,通过实验表明由于相对于最大熵算法其它的监督机器学习算法对最终的结果改进不大;在此基础上验证了实体的词和词性特征、停用词、及组合特征是对分类效果极其有用的特征,最终取得了较好的效果。4) DEMO:本系统集成了命名实体识别、共指消解、实体关系抽取三个依次相连的模块,实现对实体及其关系的自动抽取,最后设计了三组实验分别对它们予以测试。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 选题背景及意义
  • 1.2 国内外研究现状
  • 1.3 本课题的研究内容
  • 1.4 论文的组织
  • 第二章 实体关系抽取中的关键技术研究
  • 2.1 实体关系抽取系统的框架
  • 2.2 实体关系抽取中的关键任务
  • 2.2.1 命名实体识别
  • 2.2.2 共指消解
  • 2.2.3 实体关系抽取
  • 2.3 实体关系抽取的技术路线
  • 2.3.1 基于模式匹配的方法
  • 2.3.2 基于词典驱动的方法
  • 2.3.3 基于机器学习的方法
  • 2.3.4 基于本体的方法
  • 2.3.5 混合抽取的方法
  • 2.4 本章小结
  • 第三章 基于CRFS的命名实体识别
  • 3.1 命名实体识别研究对象
  • 3.2 命名实体识别技术研究
  • 3.2.1 基于统计的机器学习方法概述
  • 3.2.2 机器学习的思想
  • 3.2.3 条件随机场模型(CRFs)
  • 3.3 命名实体识别模型的构建
  • 3.3.1 语料的选择
  • 3.3.2 语料的预处理与标注
  • 3.3.3 特征的选取
  • 3.3.4 特征模板的制定
  • 3.3.5 模型训练与实体预测
  • 3.4 本章小结
  • 第四章 基于SVM的共指消解
  • 4.1 关系抽取中引入共指消解的必要性
  • 4.2 共指消解技术研究
  • 4.2.1 共指消解研究的基本思想
  • 4.2.2 支持向量机(SvM)简述
  • 4.3 共指消解模型的构建
  • 4.3.1 模型结构与特征选取
  • 4.3.2 训练数据的处理
  • 4.3.3 共指消解模型的训练
  • 4.4 本章小结
  • 第五章 基于最大熵的实体关系抽取
  • 5.1 实体关系的研究对象
  • 5.1.1 关系抽取的任务
  • 5.1.2 实体关系的说明
  • 5.1.3 实体关系的研究方法现状
  • 5.2 实体关系抽取研究
  • 5.2.1 关系抽取的基本思想及框架
  • 5.2.2 最大熵模型(ME)
  • 5.3 实体关系抽取模型构建
  • 5.3.1 特征的选取
  • 5.3.2 语料的处理与标注
  • 5.3.3 模型训练和关系预测
  • 5.4 小结
  • 第六章 实验设计与分析
  • 6.1 实验数据及评测指标
  • 6.2 命名实体识别实验
  • 6.3 共指消解实验
  • 6.4 实体关系抽取实验的设计与结果分析
  • 6.4.1 不同机器学习算法对实验性能的影响
  • 6.4.2 停用词去除处理对实验性能的影响
  • 6.4.3 组合特征对实验性能的影响
  • 6.5 部分识别结果展示
  • 6.5.1 基于SVM的共指消解展示
  • 6.5.2 基于ME模型的实体关系抽取展示
  • 6.6 本章小结
  • 第七章 总结与展望
  • 7.1 总结
  • 7.2 展望
  • 致谢
  • 参考文献
  • 附录A 攻读硕士学位期间发表的学术论文
  • 附录B 攻读硕士学位期间参与的项目
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    基于最大熵模型的中文实体关系自动抽取研究
    下载Doc文档

    猜你喜欢