Deep Web数据源的发现与聚类研究

Deep Web数据源的发现与聚类研究

论文摘要

互联网上的资源可以划分为Surface Web和Deep Web两部分。其中,Surface Web指能够被传统搜索引擎检索到的那部分资源,Deep Web指传统搜索引擎检索不到的那部分资源,通常指Web数据库包含的信息。调查表明,Deep Web蕴含的信息量是Surface Web的400至500倍。然而,由于Web数据库覆盖各个领域,并且分布在世界的各个角落,因此必须对其进行集成后才能有效地加以利用。因为Deep Web集成的是同一领域的Web数据库,所以在集成前需要发现Web数据库并将其按照所属领域分类。查询接口是Web数据库的唯一入口,因此可以通过查询接口来发现Web数据库。查询接口位于网页的表单之中,但并非所有的表单都是查询接口,因此需要从表单中识别出查询接口。基于前人的研究成果和对大量表单的观察,本文提出了7条启发式规则用以识别查询接口。实验结果表明,查询接口识别的F-measure值能达到0.98以上。Deep Web集成需要建立集成查询接口到各本地查询接口的映射关系。在集成前,需要从查询接口中抽取其模式信息。对于抽取过程中存在的6大难点,文中给出了相应的解决方法。实验结果表明,文中给出的方法抽取查询接口模式信息的准确度可达94%以上。同一领域的Web数据库所在网页的标题和关键词通常会共享一定的关键词。基于这个思想,本文提出了基于频繁项集的Web数据库聚类算法。该算法将共享一定关键词的网页所包含的Web数据库聚为一类,聚类结果的簇数等于频繁项集的个数,并且用频繁项集对应的关键词作为簇标签。实验结果表明,该聚类算法的F-measure值能达到0.91以上。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 课题研究背景
  • 1.1.1 Deep Web的概念
  • 1.1.2 Deep Web的资源
  • 1.2 国内外研究现状
  • 1.3 课题研究内容
  • 1.4 论文组织结构
  • 第二章 背景知识
  • 2.1 HTTP协议简介
  • 2.1.1 HTTP请求
  • 2.1.2 HTTP响应
  • 2.2 HTML简介
  • 2.2.1 HTML标签
  • 2.2.2 HTML表单
  • 2.3 本章小结
  • 第三章 Web数据库的发现
  • 3.1 网络爬虫技术
  • 3.1.1 网络爬虫的原理
  • 3.1.2 网络爬虫的搜索策略
  • 3.2 Deep Web爬虫
  • 3.2.1 爬虫的流程
  • 3.2.2 HTTP响应的字符集
  • 3.2.3 超链接的抽取
  • 3.3 查询接口的识别
  • 3.4 本章小结
  • 第四章 查询接口模式的抽取与存储
  • 4.1 查询接口模式的定义
  • 4.2 查询接口模式的表示
  • 4.3 查询接口模式的抽取
  • 4.3.1 文档对象模型
  • 4.3.2 查询接口模式抽取的难点
  • 4.3.3 基于坐标的查询接口模式抽取
  • 4.4 查询接口模式的存储
  • 4.4.1 数据库的设计
  • 4.4.2 存储的实现
  • 4.5 本章小结
  • 第五章 Web数据库的聚类
  • 5.1 文本聚类算法
  • 5.1.1 基于划分的聚类
  • 5.1.2 基于层次的聚类
  • 5.1.3 基于后缀树的聚类
  • 5.1.4 基于频繁项集的聚类
  • 5.2 基于频繁项集的Web数据库聚类
  • 5.2.1 算法的基本思想
  • 5.2.2 文本的表示
  • 5.2.3 特征项的加权
  • 5.2.4 频繁项集的挖掘
  • 5.2.5 基于频繁项的聚类
  • 5.3 算法的优点
  • 5.4 本章小结
  • 第六章 实验结果与分析
  • 6.1 实验数据
  • 6.2 查询接口识别实验
  • 6.3 查询接口模式抽取实验
  • 6.4 Web数据库聚类实验
  • 第七章 总结与展望
  • 7.1 工作总结
  • 7.2 工作展望
  • 参考文献
  • 致谢
  • 研究成果及发表的学术论文
  • 作者和导师简介
  • 北京化工大学硕士研究生学位论文答辩委员会决议书
  • 相关论文文献

    • [1].建筑部品与构配件典型接口尺寸研究[J]. 施工技术 2020(11)
    • [2].从模拟到数字的变迁 解读主流显示接口[J]. 电脑迷 2008(03)
    • [3].告诉你主板背后的故事——电脑接口的连接方法全揭示[J]. 电脑爱好者(普及版) 2008(09)
    • [4].英雄折戟[J]. 航空世界 2013(05)
    • [5].我科学家构建新型光学脑-脑接口[J]. 电子产品可靠性与环境试验 2020(02)
    • [6].城市轨道交通工程关键接口识别方法研究[J]. 铁道科学与工程学报 2020(10)
    • [7].基于FPGA的RS232接口设计与实现[J]. 中国新通信 2017(05)
    • [8].USB接口的“另类用法”[J]. 小读者 2009(12)
    • [9].海外铁路项目接口管理的方法[J]. 铁道建筑 2014(08)
    • [10].软件构架中接口设计方法[J]. 电脑知识与技术 2011(10)
    • [11].扩音喇叭:精致又实用[J]. 现代商业 2009(25)
    • [12].AV接口的四国演义[J]. 电子与电脑 2009(09)
    • [13].项目总承包接口管理探究[J]. 住宅与房地产 2018(27)
    • [14].Exynos4412 MIPI摄像头接口研究[J]. 电子技术与软件工程 2015(12)
    • [15].铁路建设站后专业接口管理探讨[J]. 铁道运营技术 2015(03)
    • [16].迎接雷电! 蓄势待发的Thunderbolt接口阵营[J]. 电脑迷 2012(14)
    • [17].理正勘察接口文件的编制方法[J]. 山西建筑 2014(04)
    • [18].鼠标接口变换实战[J]. 电子制作 2011(10)
    • [19].武广铁路客运专线四电接口工程管理[J]. 铁道建筑 2010(01)
    • [20].笔记本电脑接口你知道多少?[J]. 计算机与网络 2008(17)
    • [21].基于智慧气象的数据接口的实现[J]. 气象与环境科学 2018(04)
    • [22].线损管理系统数据接口监控研究[J]. 通讯世界 2016(24)
    • [23].计算机软件数据接口的运用探讨[J]. 科技传播 2016(14)
    • [24].基于.NET Web Service的动态接口设计与实现[J]. 软件导刊 2016(09)
    • [25].CPU升级接口更替 用户请勿埋单[J]. 电脑爱好者 2010(17)
    • [26].广深港客运专线项目工程接口管理的思考[J]. 铁道运输与经济 2014(11)
    • [27].石武铁路客运专线接口管理的实践探索[J]. 长沙铁道学院学报(社会科学版) 2013(02)
    • [28].基于嵌入式系统的按键接口设计技术研究[J]. 软件 2013(07)
    • [29].城市轨道交通建设项目接口的沟通管理[J]. 城市轨道交通研究 2009(01)
    • [30].Google发布图书搜索的API接口[J]. 现代图书情报技术 2008(05)

    标签:;  ;  ;  ;  

    Deep Web数据源的发现与聚类研究
    下载Doc文档

    猜你喜欢