基于XML和XSLT的Web信息抽取研究与设计

论文摘要

随着互联网的迅猛发展,“信息过载”已经成为一个亟待解决的问题。为了使用户准确获取他想要的信息,信息抽取成为必要。从网页中抽取信息的程序称为Wrapper,关键的任务是:Wrapper的构造要尽可能快速,不需要过多人为地参与,并且,构造出的Wrapper要尽可能健壮,能适应网页的变化,同时,还要尽可能通用,与具体网站无关。针对Wrapper生成问题,人们提出了各种各样的方法。这些方法的抽取模式语言基本上都是自己定制的,往往很简单、难以描述精确或者复杂的信息抽取模式。尽管通过人为标记的样本可以自动归纳出抽取规则,但这些抽取规则很难达到很高的精度、健壮性和通用性。本文使用标准的XML技术来解决网页信息抽取问题,基于标准的XSLT,可以利用它强大而且灵活的特性编写简单、健壮和通用的抽取规则。为了快速的构造抽取规则,我们开发了一个信息抽取平台。除了手工编写抽取规则外,本文提出了新颖的方法自动归纳网页模板和记录模板,以及相应的抽取规则。网页模板可以用来抽取网页的主要内容,这对很多基于网页内容的工作很重要,比如网页信息检索,网页聚类与分类等等。记录模板可以用来抽取网页中的列表数据。另外,由于使用的是XSLT,抽取模式可以很容易理解和修改。最后,我们还开发了多网页信息抽取框架。实际的应用经常需要对多个网页进行抽取,基于本文所设计开发的Web信息抽取平台,可以很快的构建出健壮和通用的网页信息抽取Wrapper。

论文目录

摘要

ABSTRACT

第一章概述

1.1 引言

1.1.1 背景

1.1.2 Web信息抽取

1.1.3 XML

1.2 本文的工作

1.3 本文的组织

第二章相关研究

2.1 基于自然语言理解的方法

2.2 基于机器学习的方法

2.3 基于Ontology的方法

2.4 上面三种方法的讨论

2.5 基于HTML结构的方法

2.5.1 W4F

2.5.2 XWrap

2.5.3 ANDES

2.5.4 小结

2.6 完全自动化的方法

2.6.1 IEPAD

2.6.2 RoadRunner

2.6.3 小结

2.7 方法总结和本文的工作

第三章相关标准

3.1 HTML（Hyper Text Markup Language）

3.2 XML

3.2.1 XML的产生

3.2.2 XML语法

3.2.3 元素（Element）与标记（Tag）

3.2.4 属性（Attribute）

3.2.5 XML验证（Validation）

3.2.6 样式单

3.2.7 XML带来的好处

3.3 XHTML

3.4 DOM（Document Object Model）

3.5 XPath

3.5.1 查询

3.5.2 定位路径（Location Path）

3.5.3 表达式

3.6 XSLT

3.6.1 模板

3.6.2 取得节点值

3.6.3 应用模板

3.6.4 默认模板规则

3.6.5 循环

3.6.6 选择

3.6.7 变量

3.6.8 按名称调用模板

3.6.9 用Java扩展XSLT

3.6.10 EXSLT（Extensions to XSLT）

第四章网页信息抽取平台

4.1 网页信息抽取的难点

4.2 网页信息抽取平台的目标

4.3 基于XSLT的抽取模式

4.4 示例:利用GUI编写XSLT

4.4.1 抽取天气信息

第五章抽取规则健壮性研究

5.1 数据定位健壮性研究

5.1.1 完全基于文本的定位

5.1.2 使用属性模式定位

5.1.3 不同定位模式的讨论

5.2 基于缩略路径的数据抽取

5.3 构造通用的链接组抽取模式

第六章自动归纳网页模板

6.1 引言

6.2 相关工作

6.3 模型和假定

6.4 归纳树模板

6.5 进一步的过滤与转换

6.6 实验结果

6.7 小结

第七章自动归纳网页记录模板

7.1 引言

7.2 相关工作

7.3 模型和假定

7.3.1 数据类型

7.3.2 模板

7.3.3 抽取模型

7.3.4 简化后的模型

7.4 归纳记录模板

7.4.1 列表数据的路径模式

7.4.2 树路径聚类与归纳

7.5 实验结果

7.6 小结

第八章多网页信息抽取

8.1 引言

8.2 模型和框架

8.2.1 问题描述

8.2.2 抽取框架

8.3 小结

第九章总结和未来的工作

9.1 总结

9.2 未来的工作

致谢

参考文献

基于XML和XSLT的Web信息抽取研究与设计

论文摘要

论文目录

相关论文文献

猜你喜欢