Deep Web信息集成若干关键技术研究

Deep Web信息集成若干关键技术研究

论文摘要

随着Internet信息的迅速增长,整个Web信息已经被各种各样的可搜索的在线数据库所深化,那些信息被隐藏在Web查询接口下面,即Deep Web信息。传统的搜索引擎爬虫程序由于技术原因不能索引Deep Web信息。为了方便用户快捷高效的使用Deep Web信息,Deep Web信息集成的研究已成为一个非常迫切的问题,具有广泛的应用前景和实用价值,已成为近年来的研究热点。本文对Deep Web信息集成的研究现状和发展趋势进行了深入的分析。在课题组前期工作的基础上,就Deep Web信息集成中若干关键技术进行了研究,这些研究包括了Deep Web数据源发现、Deep Web数据源分类聚类、Deep Web数据增量抓取策略以及Deep Web模式和数据抽取技术等内容。所做的工作和取得的创新成果主要体现在下面五个方面:(1)针对Deep Web数据源的动态性和稀疏分布的特征,提出了一种基于查询接口聚焦爬虫的Deep Web数据源发现方法,聚焦访问那些可能链接到Deep Web入口页面的链接,避免访问下载不必要的页面。除了考虑Deep Web入口页面和链接本身的特征以外,还考虑了通向目标页面路径上的特征。实验结果表明,该方法可以有效的提高Deep Web数据源发现的效率。(2)把Deep Web数据源按其所属领域进行组织,方便用户浏览这些有价值的资源,这是Deep Web信息集成的一个关键步骤。本文提出了一种基于查询接口特征的Deep Web分类方法和基于查询接口连接图的Deep Web聚类方法,从而可以对Deep Web数据源按其所属领域进行自动组织和管理。该方法不需提交查询采样Deep Web内部数据,同时由于Deep Web的接口页面获取容易,因此其具有较强的可扩展性。(3)由于Deep Web是自治的,独立更新的,因此对于一些应用需要周期性的抓取Deep Web内容以检查其更新。由于不同的Deep Web数据源或同一个Deep Web数据源内部数据记录的变化频率不一,按统一频率更新所有数据是非常浪费资源的。针对该问题本文提出了基于不同粒度的Deep Web数据增量抓取策略,其粒度可分为数据源和数据记录,根据不同的应用需求可选取不同的粒度。实验结果表明,该方法在相同资源约束前提下,可有效提高本地数据的时新性。(4) Deep Web查询接口和结果页面主要是通过HTML语言编写的,使得Deep Web上的数据是半结构化的甚至是无结构的,给Deep Web信息集成带来了很大的困难。网页主要是为了方便人们浏览从中获取有用的信息,而不是被计算机自动处理,因而获取页面的视觉信息可以从某种程度上模拟人类的行为对页面进行识别。本文提出了一种基于视觉特征的Deep Web模式和数据自动抽取方法,该方法使用Deep Web页面的视觉特征,避免了传统基于DOM树的方法依赖于HTML的定义,并且页面可以是HTML语言或任何其它语言描述的,包括非规范HTML语言描述,因此该方法具有较强的适应性。(5)根据所研究的关键技术和实际应用需求,提出了一个面向Deep Web的信息集成体系结构,并开发了一个Deep Web信息集成原型系统,该原型系统具有数据源发现、数据源管理、模式与数据抽取等功能,实际应用表明,该系统具有一定的实用价值。本项研究工作受到国家自然科学基金项目“面向Deep Web的不完备知识处理的逻辑模型研究”(编号:60673092)、江苏省高技术研究计划项目“面向Deep Web的搜索和挖掘关键技术研究”(编号:BG2005019)以及江苏省高校研究生科技创新计划项目“Deep Web信息集成关键技术研究”(编号:CX07B-122Z)的资助。

论文目录

  • 中文摘要
  • Abstract
  • 第1章 绪论
  • 1.1 研究背景
  • 1.2 国内外研究动态
  • 1.2.1 Deep Web 信息集成
  • 1.2.2 Deep Web 数据源发现技术
  • 1.2.3 Deep Web 数据源管理
  • 1.2.4 Deep Web 数据增量抓取
  • 1.2.5 Deep Web 模式与数据抽取
  • 1.3 本文的研究内容及贡献
  • 1.4 本文的组织安排
  • 第2章 Deep Web 数据源发现
  • 2.1 引言
  • 2.2 中国Deep Web 资源调查
  • 2.2.1 实验设置
  • 2.2.2 实验结果分析
  • 2.2.3 讨论与启示
  • 2.3 Deep Web 数据源发现
  • 2.3.1 Deep Web 聚焦爬虫系统框架
  • 2.3.2 链接与页面的分类
  • 2.3.3 查询接口的判定
  • 2.3.4 Deep Web 聚焦爬虫核心算法
  • 2.3.5 实验结果
  • 2.4 本章小结
  • 第3章 Deep Web 数据源管理
  • 3.1 引言
  • 3.2 Deep Web 数据源分类
  • 3.2.1 表单特征自动抽取
  • 3.2.2 标准化
  • 3.2.3 自动分类
  • 3.2.4 实验结果
  • 3.3 Deep Web 数据源聚类
  • 3.3.1 基于查询接口连接图的Deep Web 聚类方法概述
  • 3.3.2 查询接口特征抽取
  • 3.3.3 查询接口连接图定义
  • 3.3.4 查询接口连接图构建
  • 3.3.5 查询接口连接图聚类
  • 3.3.6 实验分析
  • 3.4 本章小结
  • 第4章 Deep Web 数据增量抓取
  • 4.1 引言
  • 4.2 相关研究工作
  • 4.3 Deep Web 数据变化模型
  • 4.3.1 数据记录变化频率
  • 4.3.2 数据记录变化模型
  • 4.4 评估指标
  • 4.5 Deep Web 数据增量抓取问题定义
  • 4.5.1 代价模型
  • 4.5.2 增量抓取问题定义
  • 4.6 Deep Web 数据增量抓取更新策略
  • 4.6.1 一种朴素的数据增量抓取策略
  • 4.6.2 基于数据源级的数据增量抓取策略
  • 4.6.3 基于数据记录级的资源分配策略
  • 4.7 实验分析
  • 4.7.1 实验设置
  • 4.7.2 实验结果
  • 4.8 本章小结
  • 第5章 Deep Web 模式与数据抽取
  • 5.1 引言
  • 5.2 VIPS 算法介绍
  • 5.2.1 VIPS 算法提出背景
  • 5.2.2 基于视觉特征的网页结构描述
  • 5.2.3 VIPS 算法描述
  • 5.3 Deep Web 接口模式抽取
  • 5.3.1 Deep Web 接口模式定义
  • 5.3.2 Deep Web 接口视觉特征
  • 5.3.3 Deep Web 接口模式自动抽取
  • 5.4 Deep Web 结果模式抽取
  • 5.4.1 Deep Web 结果模式定义
  • 5.4.2 Deep Web 结果页面视觉特征
  • 5.4.3 Deep Web 结果模式自动抽取
  • 5.4.4 异常情况分析
  • 5.5 基于模式的Deep Web 数据抽取
  • 5.5.1 目标DTD 模式的形成
  • 5.5.2 抽取规则的生成
  • 5.5.3 抽取规则的优化
  • 5.6 实验结果
  • 5.7 本章小结
  • 第6章 Deep Web 信息集成原型系统
  • 6.1 项目背景
  • 6.2 Deep Web 信息集成体系结构
  • 6.2.1 系统的工作流程
  • 6.2.2 系统组件
  • 6.3 原型系统实现
  • 6.3.1 聚焦爬虫子系统
  • 6.3.2 数据抽取子系统
  • 6.3.3 索引与集成子系统
  • 6.4 系统主要功能演示界面
  • 6.5 本章小结
  • 第7章 总结与展望
  • 7.1 本文总结
  • 7.2 下一步的工作
  • 参考文献
  • 攻读博士学位期间相关的科研情况
  • 攻读博士学位期间发表的相关论文
  • 致谢
  • 详细摘要
  • 相关论文文献

    标签:;  ;  ;  ;  ;  ;  

    Deep Web信息集成若干关键技术研究
    下载Doc文档

    猜你喜欢