基于主题和结构的XML网页的数据抽取

基于主题和结构的XML网页的数据抽取

论文摘要

近年来互联网正强有力的改变着世界。信息革命不仅极大地改变了人们的生活方式,而且带来了巨大的社会变革。互联网成了一个巨大的信息源,如何在庞杂的数据中准确地抽取出用户想要的信息成为一个非常重要的课题。 随着Web的应用越来越广泛和深入,人们渐渐觉得HTML始终无法满足不断增长的需求,所以制订出了一种新的Web标记语言:XML。随着XML技术的不断发展,Web上出现了一些XML网页。本文针对XML网页,提出了一种基于树结构的Web数据抽取方法。 本文重点研究如何从同一主题的XML网页中抽取出该类主题网页的一般模式,核心技术是通过解析XML文档,按用户主题对解析后的样本XML文档进行模式抽取以及按照模式信息对目标XML文档进行数据抽取。在这里,模式信息实际上就是根据样本文档中符合用户主题的语义块,得到样本页包含相关信息的结构模式,样本页中的所有用户兴趣区域构成一组语义块,通过对语义块的比较和归纳学习,得到我们所需的该类主题的模式信息。然后根据得到的规则,从目标XML文档中寻找与之匹配的信息,抽取出来提交给用户。

论文目录

  • 摘要
  • Abstract
  • 第一章 引言
  • 1.1 问题的提出
  • 1.2 本文的主要工作
  • 第二章 XML技术的发展和前景
  • 2.1 XML简介
  • 2.2 支持XML的公司和它们的开发工具
  • 2.3 XML文档组成
  • 2.3.1 标记和字符数据
  • 2.3.2 独立文档中结构完整的XML
  • 2.4 XML作为数据交换格式的主要特点
  • 2.5 XML用于WEB的发展前景
  • 第三章 WEB数据挖掘综述
  • 3.1 数据挖掘的概念
  • 3.1.1 数据挖掘的定义
  • 3.1.2 数据挖掘的分类
  • 3.1.3 数据挖掘的方法和技术
  • 3.2 WEB数据挖掘
  • 3.2.1 Web挖掘的对象
  • 3.2.2 Web挖掘的分类
  • 3.2.3 Web数据挖掘的特点
  • 3.2.4 XML在Web数据挖掘中的应用
  • 3.3 WEB信息抽取技术现状
  • 3.3.1 XWrap
  • 3.3.2 利用网站查询表格进行信息抽取
  • 3.3.3 抽取多媒体文档模式
  • 第四章 基于主题和结构的XML数据抽取系统的设计与实现
  • 4.1 系统功能结构
  • 4.2 构建主题关系
  • 4.3 解析XML文档
  • 4.3.1 文档对象模型(DOM)
  • 4.3.2 XML简单API(SAX)
  • 4.3.3 本系统采用的技术
  • 4.4 模式抽取
  • 4.4.1 问题描述
  • 4.4.2 发现包含关系信息的语义块
  • 4.4.3 区分实体
  • 4.4.4 模式推导
  • 4.5 信息抽取示例
  • 第五章 总结与展望
  • 5.1 工作总结
  • 5.2 进一步的工作
  • 参考文献
  • 致谢
  • 相关论文文献

    • [1].数字化校园建设中数据抽取技术研究[J]. 河南财政税务高等专科学校学报 2015(06)
    • [2].船舶监控系统运行数据抽取与分析方案设计[J]. 船海工程 2020(03)
    • [3].数据抽取在征信系统中的应用[J]. 科技创新导报 2009(01)
    • [4].数据抽取在征信系统中的应用[J]. 科技创新导报 2009(02)
    • [5].基于可变时间窗口的增量数据抽取模型[J]. 计算机科学 2018(11)
    • [6].数据抽取及交换工具的设计与实现[J]. 软件 2015(08)
    • [7].一种新型增量数据抽取方法的研究[J]. 黑龙江科技信息 2016(36)
    • [8].一种大数据时代海量数据抽取的开发模型研究[J]. 计算机应用研究 2013(11)
    • [9].数据挖掘技术在数据抽取中的研究与应用[J]. 内蒙古师范大学学报(自然科学汉文版) 2008(04)
    • [10].决策支持系统的数据抽取方法的研究[J]. 无线互联科技 2011(03)
    • [11].论工商行业数据中心建设中数据抽取的技术实现方式[J]. 计算机与现代化 2009(08)
    • [12].临床科研数据抽取研究[J]. 医学信息学杂志 2020(07)
    • [13].人力资源管理系统中数据抽取模块的实现[J]. 电脑知识与技术 2008(05)
    • [14].数据抽取中数据预处理[J]. 电子技术与软件工程 2014(07)
    • [15].基于数据抽取的决策支持系统研究与实现[J]. 数字技术与应用 2018(03)
    • [16].基于服务专业化的数据抽取方法研究[J]. 河南大学学报(自然科学版) 2012(06)
    • [17].ETL数据抽取研究综述[J]. 软件导刊 2010(10)
    • [18].供电管线到综合管线的数据抽取语义映射机制[J]. 江苏城市规划 2015(11)
    • [19].保险数据仓库数据抽取的设计与实现[J]. 中国金融电脑 2011(04)
    • [20].基于KPS的HTML数据抽取[J]. 网络安全技术与应用 2009(03)
    • [21].地震叠后数据抽取中关键问题探讨[J]. 胜利油田职工大学学报 2008(06)
    • [22].Web数据抽取技术的研究和探讨[J]. 电子世界 2015(13)
    • [23].基于XML的无监督数据抽取研究[J]. 黑龙江科技信息 2013(17)
    • [24].Deep Web数据抽取的分析与研究[J]. 南开大学学报(自然科学版) 2012(03)
    • [25].基于WEB的数据抽取及应用实例[J]. 中国新技术新产品 2009(19)
    • [26].银行CRM系统数据抽取的研究[J]. 计算机应用与软件 2008(03)
    • [27].面向领域的Web数据抽取与集成[J]. 计算机科学 2013(S1)
    • [28].基于关键属性比对的增量数据抽取方法[J]. 计算机工程与应用 2012(04)
    • [29].基于语义支持的Deep Web数据抽取[J]. 计算机科学 2010(03)
    • [30].Web数据抽取技术研究初探[J]. 电脑知识与技术 2009(35)

    标签:;  ;  ;  

    基于主题和结构的XML网页的数据抽取
    下载Doc文档

    猜你喜欢