Deep Web信息集成关键技术的研究

Deep Web信息集成关键技术的研究

论文摘要

随着万维网的迅速发展,Web中蕴藏着海量信息。研究表明,Deep Web蕴藏的信息量是Surface Web的500多倍。因此,对Deep Web中的信息进行处理并加以整合为用户所用已经成为Web信息检索领域的一个新兴研究热点。本文介绍了Deep Web信息集成领域的研究背景、研究现状,对Deep Web信息集成的几项关键技术进行了研究。首先对聚焦爬虫进行改进,设计一个基于主题的查询接口发现聚焦爬虫对Deep Web中的查询接口进行发现;然后采用基于权重值计算的方法对Deep Web中查询接口进行集成,分别讨论了1:1和n:m两种匹配情况,对匹配过程中的权重值计算方法进行了改进,采用《知网》概念模型中的词语相似度计算方法对匹配过程中遇到的标签及属性名进行相似度计算,解决了一般方法无法考虑词语概念相似度的问题;最后将移动Agent技术引入到Deep Web查询处理中来,设计了一个基于移动Agent的查询处理框架,采用移动Agent技术降低了查询处理模块对带宽和网络延时的要求,同时为Deep Web分布式查询处理提供了新思路。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 课题研究背景
  • 1.2 国内外研究现状
  • 1.3 论文研究内容
  • 1.4 论文结构
  • 第二章 Deep Web信息集成概述
  • 2.1 Deep Web信息集成特点
  • 2.1.1 查询接口的模式集成
  • 2.1.2 Deep Web数据库选择
  • 2.2 Deep Web数据集成框架
  • 2.3 Deep Web数据集成关键技术
  • 2.3.1 查询接口发现
  • 2.3.2 查询接口集成
  • 2.3.3 查询处理
  • 2.4 本章小结
  • 第三章 Deep Web查询接口发现
  • 3.1 查询接口发现技术研究现状
  • 3.2 基于主题的查询接口发现聚焦爬虫设计
  • 3.3.1 聚焦爬虫原理简述
  • 3.3.2 聚焦爬虫设计
  • 3.3.3 主题分类目录(Topic Taxonomy)
  • 3.3.4 网页解析器(Page Analyzer)
  • 3.3.5 链接解析器(Link Analyzer)
  • 3.3.6 表单解析器(Form Analyzer)
  • 3.4 Deep Web主题爬虫爬行策略
  • 3.5 实验分析
  • 3.6 本章小结
  • 第四章 Deep Web查询接口集成
  • 4.1 查询接口集成技术研究现状
  • 4.2 查询接口模式抽取
  • 4.2.1 查询接口包含的控件
  • 4.2.2 查询接口模型化
  • 4.3 查询接口集成
  • 4.3.1 初步聚类(Initial Clustering)
  • 4.3.2 全局匹配(Global Matching)
  • 4.3.3 全局查询接口的布局及更新
  • 4.4 匹配中权重值的计算
  • 4.4.1 基于《知网》的1∶1语义匹配
  • 4.4.2 1∶1值域匹配计算
  • 4.4.3 n∶m匹配定义
  • 4.4.4 n∶m匹配计算
  • 4.5 实验分析
  • 4.6 本章小结
  • 第五章 Deep Web查询处理
  • 5.1 查询处理技术研究现状
  • 5.2 移动Agent技术
  • 5.2.1 移动Agent技术简介
  • 5.2.2 移动Agent平台Aglet
  • 5.3 基于移动Agent的查询处理框架设计
  • 5.4 基于Aglet的设计实现
  • 5.4.1 将数据库记录转换成XML文件
  • 5.4.2 基于Aglet的移动Agent实现
  • 5.5 本章小结
  • 第六章 总结与展望
  • 参考文献
  • 致谢
  • 攻读学位期间的主要研究成果
  • 相关论文文献

    标签:;  ;  ;  

    Deep Web信息集成关键技术的研究
    下载Doc文档

    猜你喜欢