中文文本中事件时空与属性信息解析方法研究

中文文本中事件时空与属性信息解析方法研究

论文摘要

本文依托国家“863”课题“泛在空间信息关联更新与面向主题时空信息挖掘研究”,较为系统地探索中文文本中事件时空与属性信息解析方法,为泛在空间信息动态关联更新,全球统一时空框架下的空间信息与知识服务提供数据和技术支持,同时为事件时空模式挖掘奠定数据基础,进而为事件风险评估、公共安全等重大问题提供决策服务。本文针对中文文本中事件时空与属性信息描述的非结构化、定性化和不确定性等特点,围绕“文本描述-规范化表达-结构化抽取-可视化重构”的技术主线,重点研究事件时空与属性信息解析方法。主要研究内容与结论包括以下几个方面:(1)事件时空与属性信息的结构化表达:通过归纳总结中文文本中事件时空与属性信息描述的语言特征和语义结构,设计了事件时空与属性信息的知识表达框架和标注体系;以突发公共事件为例,以网络文本为数据源,基于GATE平台构建了中文文本中事件时空与属性信息标注语料库,为事件时空与属性信息抽取研究提供了标准化训练和测试数据。(2)事件时空与属性信息抽取:分析中文文本中时间信息描述的规律性,实现了基于触发词和规则模型结合的时间信息抽取、推理和规范化解析,准确率、召回率和F值分别达到75.00%、88.24%和40.54%;利用条件随机场模型和规则模型,实现了事件名称识别和空间位置(包括地名和空间关系)信息抽取,其中事件名称识别准确率、召回率和F值分别为82.08%、80.18%和81.12%;设计了基于Bootstrapping的事件属性信息抽取算法,量词性的属性信息抽取准确率和召回率达到80.80%和85.16%。(3)时空驱动的事件分类方法:通过分析事件时空认知和表达特性,提出一种融合时间、空间、属性、事件名称、触发词汇等多种上下文语义和语境信息的事件分类方法。按照句子、段落、篇章三个语言单元等级,探讨了事件替代性名称的推理方法。实验结果表明,事件分类准确率在封闭和开放测试中分别达到92.30%和80.60%。(4)事件时空信息匹配与可视化:以地名数据库为空间数据源,提出了定性时空信息(地名、空间关系和时间信息)的匹配和可视化表达方法,探索了基于“时间-空间-概念类型”多重一致性约束的主题事件判断和时空过程重构方法,实现了事件信息在时空信息系统中有机的、直观的可视化表达,并对事件时空信息分布模式进行了聚类分析。研究结果表明,采用规则模型和统计模型结合的方式可以有效实现中文文本中事件时空与属性信息抽取,但是特征项的设置在统计模型的学习过程中起到举足轻重的作用;不同类型事件的时间、地名、空间关系、事件名称和类型等信息抽取模型具有通用性和可移植性,而属性信息存在较大差异,需要针对具体类型事件构建相应知识库和学习模型;事件类型判断存在灵活、复杂、语义模糊、不确定性特点,且属于多标记分类,融合词性、触发词汇、时间、空间、属性和事件名称等多种上下文语义和语境信息,可以有效提高事件分类效果;空间数据的覆盖范围和数据质量,以及空间关系解析模型,对事件时空与属性信息匹配、时空过程重构性能具有较大的影响。

论文目录

  • 摘要
  • Abstract
  • 目录
  • 图目录
  • 表目录
  • 第1章 绪论
  • 1.1 选题背景与研究意义
  • 1.2 国内外研究现状
  • 1.2.1 面向自然语言的时空信息结构化表达方法
  • 1.2.2 文本中时空与属性信息解析方法
  • 1.2.3 文本中事件信息抽取方法
  • 1.2.4 事件时空信息可视化
  • 1.2.5 存在问题分析
  • 1.3 研究目标与研究内容
  • 1.3.1 研究目标
  • 1.3.2 研究内容
  • 1.3.3 拟解决的关键问题
  • 1.4 研究方法与技术路线
  • 1.5 论文组织
  • 1.6 相关概念界定
  • 第2章 中文文本中事件时空与属性信息的结构化表达
  • 2.1 事件时空与属性信息的描述特点
  • 2.1.1 事件单元描述特点
  • 2.1.2 时间信息描述特点
  • 2.1.3 空间信息描述特点
  • 2.1.4 属性信息描述特点
  • 2.1.5 事件名称描述特点
  • 2.1.6 文本和GIS中事件时空与属性信息表达方式对比分析
  • 2.2 事件时空与属性信息表达模型
  • 2.3 事件时空与属性信息标注体系
  • 2.3.1 事件名称标注
  • 2.3.2 时间信息标注
  • 2.3.3 空间信息标注
  • 2.3.4 属性信息标注
  • 2.3.5 原子事件标注
  • 2.3.6 事件时序关系标注
  • 2.4 实验数据构建
  • 2.4.1 实验数据源
  • 2.4.2 实验数据标注
  • 2.5 本章小结
  • 第3章 中文文本中事件时空与属性信息抽取方法
  • 3.1 时间信息抽取
  • 3.1.1 时间知识库构建
  • 3.1.2 时间信息抽取
  • 3.1.3 时间规范化与推理
  • 3.1.4 实验评估与分析
  • 3.2 空间信息抽取
  • 3.3 属性信息抽取
  • 3.3.1 属性触发词汇获取
  • 3.3.2 属性表达模式获取
  • 3.3.3 属性信息抽取
  • 3.4 事件名称识别
  • 3.5 时空驱动的事件分类方法
  • 3.5.1 事件分类任务描述
  • 3.5.2 基于支持向量机的事件分类模型
  • 3.5.3 实验评估与分析
  • 3.6 事件时空与属性信息组织
  • 3.7 本章小结
  • 第4章 事件时空信息匹配与过程重构
  • 4.1 方法的提出
  • 4.2 事件时空信息匹配
  • 4.3 事件信息时空过程重构
  • 4.4 案例分析----以地震事件为例
  • 4.4.1 地震事件特点分析
  • 4.4.2 地震事件的数据源获取与时空信息抽取
  • 4.4.3 事件时空信息匹配与可视化
  • 4.4.4 事件时空分布模式分析
  • 4.5 本章小结
  • 第5章 结论与展望
  • 5.1 研究结论
  • 5.2 论文创新之处
  • 5.3 不足与展望
  • 参考文献
  • 附录A 事件时空与属性信息标记语言
  • 附录B 突发公共事件分类(国发[2005]11号)
  • 附录C 事件信息数据库的表结构
  • 在读期间发表的学术论文及研究成果
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  ;  ;  

    中文文本中事件时空与属性信息解析方法研究
    下载Doc文档

    猜你喜欢