基于XML的WEB信息抽取系统研究与实现

基于XML的WEB信息抽取系统研究与实现

论文摘要

随着计算机科学技术与互联网的不断发展,在我们的工作和生活中web已变得必不可少。web上信息资源呈几何级数量增长,web已经成为一个巨大的信息资源库,要想准确有效地获取一条想要的信息变得越来越难,如何从web信息资源库中抽取出有用的信息已经成为众多科研工作者研究的课题,web信息抽取技术应运而生。本文在研究现有的web信息抽取技术基础上,结合标准的XML技术,提出了基于XML的web信息抽取技术。本文主要工作有以下几点:1.在研究前人技术成果基础之上,对现有信息抽取技术加以整合和扩展,设计了基于XML的Web信息抽取系统框架模型。2.研究了信息抽取关键技术,阐述了信息抽取工作流程,设计了抽取规则和抽取配置文件的生成方法。最终,实现了Web信息抽取系统的主要功能。3.本文对抽取结果进行分类,采用了朴素贝叶斯理论,设计了一个中文Web文本分类系统模型,该模型隶属于整个信息抽取系统框架模型。4.系统抽取结果是XML数据文档类型,在分析当前数据库存储技术基础上,探讨了将抽取结果经分类后存储到数据库的不同方法。本文设计的基于XML的Web信息抽取系统能够较好的解决web信息抽取问题,实验结果表明,该系统具有较高的召回率和准确率。

论文目录

  • 摘要
  • ABSTRACT
  • 目录
  • 图表目录
  • 第一章 绪论
  • 1.1 论文选题背景与研究意义
  • 1.1.1 论文选题背景
  • 1.1.2 论文研究意义
  • 1.2 国内外WEB信息抽取研究现状综述
  • 1.2.1 国外Web信息抽取研究现状
  • 1.2.2 国内Web信息抽取研究现状
  • 1.3 论文的内容和组织结构
  • 第二章 WEB信息抽取基本知识与相关技术标准
  • 2.1 WEB信息抽取基本知识
  • 2.1.1 Web信息抽取概念
  • 2.1.2 Web信息抽取的方法和存在问题
  • 2.2 WEB信息抽取相关技术标准
  • 2.2.1 XML的技术标准
  • 2.2.2 HTML、XHTML与XML
  • 2.2.3 XPath查询语言
  • 2.2.4 XSLT基础
  • 2.2.5 DOM和SAX比较
  • 第三章 基于XML的WEB信息抽取系统框架体系的设计与研究
  • 3.1 提出问题
  • 3.1.1 Web信息抽取的困难
  • 3.1.2 Web信息抽取的目标
  • 3.2 分析问题
  • 3.2.1 基于XML的Web信息抽取系统框架模型
  • 3.2.2 系统框架模型结构
  • 3.3 解决问题
  • 3.3.1 Web信息抽取系统工作流程
  • 3.3.2 抽取规则的研究
  • 3.3.3 Web信息抽取过程
  • 3.3.4 Web中文文本分类
  • 3.3.5 XML数据文档的存储
  • 第四章 基于XML的WEB信息抽取系统的测试与分析
  • 4.1 WEB信息抽取和文本分类评价指标
  • 4.1.1 Web信息抽取评价指标
  • 4.1.2 Web文本分类评价指标
  • 4.2 实验测试环境与方法
  • 4.3 WEB信息抽取结果及分析
  • 4.4 抽取结果分类存储及分析
  • 第五章 总结和展望
  • 5.1 论文总结
  • 5.2 论文展望
  • 参考文献
  • 致谢
  • 攻读硕士学位期间发表的论文和参加的项目
  • 相关论文文献

    标签:;  ;  ;  ;  

    基于XML的WEB信息抽取系统研究与实现
    下载Doc文档

    猜你喜欢