基于XML和XSLT的Web信息抽取研究与设计

基于XML和XSLT的Web信息抽取研究与设计

论文摘要

随着互联网的迅猛发展,“信息过载”已经成为一个亟待解决的问题。为了使用户准确获取他想要的信息,信息抽取成为必要。从网页中抽取信息的程序称为Wrapper,关键的任务是:Wrapper的构造要尽可能快速,不需要过多人为地参与,并且,构造出的Wrapper要尽可能健壮,能适应网页的变化,同时,还要尽可能通用,与具体网站无关。针对Wrapper生成问题,人们提出了各种各样的方法。这些方法的抽取模式语言基本上都是自己定制的,往往很简单、难以描述精确或者复杂的信息抽取模式。尽管通过人为标记的样本可以自动归纳出抽取规则,但这些抽取规则很难达到很高的精度、健壮性和通用性。本文使用标准的XML技术来解决网页信息抽取问题,基于标准的XSLT,可以利用它强大而且灵活的特性编写简单、健壮和通用的抽取规则。为了快速的构造抽取规则,我们开发了一个信息抽取平台。除了手工编写抽取规则外,本文提出了新颖的方法自动归纳网页模板和记录模板,以及相应的抽取规则。网页模板可以用来抽取网页的主要内容,这对很多基于网页内容的工作很重要,比如网页信息检索,网页聚类与分类等等。记录模板可以用来抽取网页中的列表数据。另外,由于使用的是XSLT,抽取模式可以很容易理解和修改。最后,我们还开发了多网页信息抽取框架。实际的应用经常需要对多个网页进行抽取,基于本文所设计开发的Web信息抽取平台,可以很快的构建出健壮和通用的网页信息抽取Wrapper。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 概述
  • 1.1 引言
  • 1.1.1 背景
  • 1.1.2 Web信息抽取
  • 1.1.3 XML
  • 1.2 本文的工作
  • 1.3 本文的组织
  • 第二章 相关研究
  • 2.1 基于自然语言理解的方法
  • 2.2 基于机器学习的方法
  • 2.3 基于Ontology的方法
  • 2.4 上面三种方法的讨论
  • 2.5 基于HTML结构的方法
  • 2.5.1 W4F
  • 2.5.2 XWrap
  • 2.5.3 ANDES
  • 2.5.4 小结
  • 2.6 完全自动化的方法
  • 2.6.1 IEPAD
  • 2.6.2 RoadRunner
  • 2.6.3 小结
  • 2.7 方法总结和本文的工作
  • 第三章 相关标准
  • 3.1 HTML(Hyper Text Markup Language)
  • 3.2 XML
  • 3.2.1 XML的产生
  • 3.2.2 XML语法
  • 3.2.3 元素(Element)与标记(Tag)
  • 3.2.4 属性(Attribute)
  • 3.2.5 XML验证(Validation)
  • 3.2.6 样式单
  • 3.2.7 XML带来的好处
  • 3.3 XHTML
  • 3.4 DOM(Document Object Model)
  • 3.5 XPath
  • 3.5.1 查询
  • 3.5.2 定位路径(Location Path)
  • 3.5.3 表达式
  • 3.6 XSLT
  • 3.6.1 模板
  • 3.6.2 取得节点值
  • 3.6.3 应用模板
  • 3.6.4 默认模板规则
  • 3.6.5 循环
  • 3.6.6 选择
  • 3.6.7 变量
  • 3.6.8 按名称调用模板
  • 3.6.9 用Java扩展XSLT
  • 3.6.10 EXSLT(Extensions to XSLT)
  • 第四章 网页信息抽取平台
  • 4.1 网页信息抽取的难点
  • 4.2 网页信息抽取平台的目标
  • 4.3 基于XSLT的抽取模式
  • 4.4 示例:利用GUI编写XSLT
  • 4.4.1 抽取天气信息
  • 第五章 抽取规则健壮性研究
  • 5.1 数据定位健壮性研究
  • 5.1.1 完全基于文本的定位
  • 5.1.2 使用属性模式定位
  • 5.1.3 不同定位模式的讨论
  • 5.2 基于缩略路径的数据抽取
  • 5.3 构造通用的链接组抽取模式
  • 第六章 自动归纳网页模板
  • 6.1 引言
  • 6.2 相关工作
  • 6.3 模型和假定
  • 6.4 归纳树模板
  • 6.5 进一步的过滤与转换
  • 6.6 实验结果
  • 6.7 小结
  • 第七章 自动归纳网页记录模板
  • 7.1 引言
  • 7.2 相关工作
  • 7.3 模型和假定
  • 7.3.1 数据类型
  • 7.3.2 模板
  • 7.3.3 抽取模型
  • 7.3.4 简化后的模型
  • 7.4 归纳记录模板
  • 7.4.1 列表数据的路径模式
  • 7.4.2 树路径聚类与归纳
  • 7.5 实验结果
  • 7.6 小结
  • 第八章 多网页信息抽取
  • 8.1 引言
  • 8.2 模型和框架
  • 8.2.1 问题描述
  • 8.2.2 抽取框架
  • 8.3 小结
  • 第九章 总结和未来的工作
  • 9.1 总结
  • 9.2 未来的工作
  • 致谢
  • 参考文献
  • 相关论文文献

    • [1].基于框架的WEB前端设计[J]. 数码世界 2020(01)
    • [2].基于web前端的校内信息发布系统的设计与实现[J]. 数码世界 2020(02)
    • [3].基于Web的多媒体课件的优势及应注意的问题[J]. 中国校外教育(理论) 2008(07)
    • [4].基于Web的教学管理信息系统的开发与实践研究[J]. 求知导刊 2016(08)
    • [5].浅谈基于Web的教学管理信息系统的研究与设计[J]. 电脑迷 2016(07)
    • [6].基于Web的教学管理信息系统的开发与应用[J]. 电脑迷 2017(08)
    • [7].基于Web的计算机辅助教学系统的设计与实现探讨[J]. 明日风尚 2018(19)
    • [8].HTML5离线应用开发技术研究[J]. 数码世界 2017(05)
    • [9].Web前端开发技术以及优化研究[J]. 知音励志 2017(05)
    • [10].浅谈Web前端网页开发的应用和前景——以web 1.0到web 2.0为例[J]. 青春岁月 2017(07)
    • [11].基于ARM的车辆速度监控系统设计研究[J]. 数码世界 2017(06)
    • [12].基于Web的中小型企业ERP信息集成系统研究[J]. 科学中国人 2017(21)
    • [13].基于Web的在线网络教学平台的设计分析[J]. 科学中国人 2017(21)
    • [14].基于Web技术在嵌入式应用系统设计中的应用[J]. 科技致富向导 2014(15)
    • [15].一种基于协同过滤的Web挖掘推荐方法[J]. 北京信息科技大学学报(自然科学版) 2013(06)
    • [16].基于Web的企业信息管理系统安全方案[J]. 信息与电脑(理论版) 2013(22)
    • [17].分布式对象技术及其在Web上的应用探究[J]. 哈尔滨职业技术学院学报 2013(06)
    • [18].一类基于嵌入式动态Web的网络化监控系统(英文)[J]. 机床与液压 2013(24)
    • [19].基于Web标准的校园活动预约平台的设计与实现[J]. 长沙民政职业技术学院学报 2013(04)
    • [20].基于Web浏览的虚拟校园的研究与实践[J]. 网友世界 2012(01)
    • [21].基于Web的智能教学系统的研究[J]. 中国科教创新导刊 2009(16)
    • [22].基于Web的虚拟实验室的研究和应用[J]. 考试周刊 2010(20)
    • [23].基于Web技术的网上考试系统的设计[J]. 考试周刊 2011(77)
    • [24].基于Web的人力资源管理系统设计与实现[J]. 电脑编程技巧与维护 2020(10)
    • [25].基于Web技术的船舶物流成本估算系统[J]. 舰船科学技术 2020(20)
    • [26].移动WEB开发技术在商务网站建设中应用浅析[J]. 营销界 2020(30)
    • [27].浅析应急广播适配器中嵌入式Web服务器的架构和搭建方法[J]. 西部广播电视 2020(21)
    • [28].Web前端开发技术及其优化策略[J]. 信息通信 2020(10)
    • [29].基于网站制作的Web前端开发技术与优化[J]. 数码世界 2020(04)
    • [30].Web技术在综合信息管理系统的设计策略探究[J]. 商业故事 2018(13)

    标签:;  ;  

    基于XML和XSLT的Web信息抽取研究与设计
    下载Doc文档

    猜你喜欢