基于GHMM的Web文本信息抽取技术研究与系统设计

基于GHMM的Web文本信息抽取技术研究与系统设计

论文摘要

随着互联网的高速发展,Web已经成为这个世界上最大的信息来源。如何获取有用的Web信息则是大家面临的共同问题,Web信息抽取就是针对这一问题而提出的。目前大部分信息抽取仅停留在对纯文本的信息抽取上,还并未考虑网页文本的特殊性。另外,信息抽取也很少涉及语义的理解。目前,信息抽取常用的模型是隐马尔可夫模型,它因易于建立、适应性强、抽取精度高等优点而日益受到研究者的关注,但该模型仅适用于普通文本,对含有更多其他信息的网页来说也并不合适。通过对网页的分析,Web文本信息通常包含更多输出属性比如:词条,版面以及格式属性。考虑到传统隐马尔可夫模型的状态转移过程中仅将单一词条属性作为观测输出特征,我们将多重属性(包括词条,版面以及格式属性)作为隐马尔可夫模型观测输出特征,从而引入广义隐马尔可夫模型。对于纯文本,传统的HMM是以单一语句为信息抽取的基本单位,其假设的状态转移序列(从左到右,然后从上到下)对含有多媒体的二维空间的网页来说也并不合适。通过对网页的分析,我们发现网页的视觉版面结构由不同的块组成,而且这些块之间还有一定的逻辑关系。本文利用基于可视化的网页分割算法(VIPS)对网页进行分块,得到一种更适用于网页的基于版面结构的状态转移序列。由于任一时刻出现的观测输出矢量概率不仅依赖于系统当前状态,而且依赖于系统在前一时刻所处的状态,所以本文提出了基于二阶Markov链的改进的广义隐马尔可夫模型。另外,针对网页的语意分析,本文采用了一种基于角色标注的命名实体识别方法,其基本思想是:针对网页文本,结合角色表的规则,采用改进广义隐马尔可夫模型进行角色标注,在角色序列的基础上,进行字符串识别,最终实现命名实体的识别,进而实现了从Web网页的结构及语义两方面对信息的抽取。本文通过对当前招聘网站上海量的招聘信息进行定题Web信息挖掘和信息抽取,开发了基于GHMM的Web文本的抽取系统WebIE。本文首先介绍了Web文本信息抽取技术的基本概念,然后通过对Web页面的分析,根据Web页面的特点并结合角色标注的实体识别技术,从Web页面结构和语义两方面,应用改进的GHMM模型对Web信息进行抽取。最后,通过实验说明改进的广义隐马尔可夫对于网页信息抽取有很好的效果,同时也提出了系统的不足和未来的发展研究方向。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 课题背景
  • 1.2 Web 信息抽取技术的发展与现状
  • 1.3 论文的研究内容
  • 1.4 论文的组织结构
  • 第二章 Web 信息抽取技术
  • 2.1 信息抽取技术综述
  • 2.1.1 信息抽取技术概念
  • 2.1.2 信息抽取的分类
  • 2.2 信息抽取的常用方法
  • 2.2.1 基于自然语言处理方式的信息抽取
  • 2.2.2 包装器归纳方式的信息抽取
  • 2.2.3 基于ontology 方式的信息抽取
  • 2.2.4 基于HTML 结构的信息抽取
  • 2.2.5 基于Web 查询的信息抽取
  • 2.3 Web 信息抽取存在的问题
  • 2.4 Web 信息抽取体系结构
  • 2.5 小结
  • 第三章Web 页面分析
  • 3.1 HTML 格式分析
  • 3.2 Web 页面的特点
  • 3.2.1 网页的内容块分析
  • 3.2.2 Web 页面多重属性的分析
  • 3.2.3 Web 版面结构的发现算法
  • 3.3 网页的去重处理
  • 3.3.1 网页的特征表示
  • 3.3.2 一种改进的权重计算方法
  • 3.3.3 网页的特征提取
  • 3.3.4 相似距离计算
  • 3.4 小结
  • 第四章 改进的广义隐马尔可夫模型
  • 4.1 HMM 模型描述
  • 4.1.1 模型的定义
  • 4.2 三个基本问题的提出
  • 4.2.1 解码问题
  • 4.2.2 学习问题
  • 4.3 HMM 命名实体中的应用
  • 4.4 广义隐马尔可夫模型
  • 4.4.1 GHMM 的定义
  • 4.4.2 GHMM 模型的改进算法
  • 4.5 小结
  • 第五章 基于改进的 GHMM 的信息抽取
  • 5.1 介绍
  • 5.1.1 命名实体识别的定义
  • 5.1.2 命名实体识别的难点
  • 5.2 命名实体识别的流程
  • 5.3 预处理阶段
  • 5.4 角色的标注
  • 5.4.1 角色表的建立
  • 5.4.2 角色的标注算法
  • 5.4.3 改进的角色自动抽取
  • 5.5 基于 GHMM 信息提取的步骤
  • 5.6 小结
  • 第六章 系统的设计与实现
  • 6.1 Web 信息抽取系统
  • 6.1.1 系统设计目标
  • 6.1.2 WebIE 系统的框架
  • 6.1.3 系统的功能模块
  • 6.2 主要模块的实现
  • 6.3 网页预处理流程
  • 6.3.1 检索与查询的实现
  • 6.3.2 获取招聘网页信息
  • 6.3.3 Web 招聘信息网页进行清理、过滤
  • 6.3.4 分词和过滤
  • 6.4 GHMM 的实体识别代码实现
  • 6.4.1 机构名称识别训练算法
  • 6.4.2 机构名称识别算法
  • 6.5 系统的数据库设计
  • 6.5.1 数据库的系统结构
  • 6.5.2 数据库的实现
  • 6.6 Web 信息抽取系统的实现
  • 6.6.1 Web 页面的概述
  • 6.6.2 系统运行效果图
  • 6.7 信息抽取系统的评估标准
  • 6.8 实验结果
  • 6.9 小结
  • 第七章 系统的总结与展望
  • 7.1 论文的特色之处
  • 7.2 系统存在的问题与改进
  • 7.3 未来技术发展趋势
  • 致谢
  • 参考文献
  • 在读期间发表的学术论文
  • 相关论文文献

    标签:;  ;  ;  ;  

    基于GHMM的Web文本信息抽取技术研究与系统设计
    下载Doc文档

    猜你喜欢