基于领域本体的主题爬虫研究及实现

基于领域本体的主题爬虫研究及实现

论文摘要

随着Web上的信息猛速增长,基于关键词全文匹配的传统搜索引擎,已不能满足用户在查全率、查准率方面的需求。同时随着科技的发展,人们对于智能化、专业化的需求也一直在提高,如何让搜索引擎更加智能化、专业化是一个挑战。垂直搜索引擎正是在用户对专业化需求的环境下产生的,它通过主题爬虫对Web上特定领域的网页进行抓取,保存成网页库,然后被垂直搜索所使用。针对人们对于智能化的需求,人们发现了哲学的本体论可以被应用于信息检索中。本体技术是语义网中的一种先进的知识表示技术。本体具有良好的概念层次结构和对逻辑推理的支持能力,概念间关系概括语义的能力,能很好地为语义检索提供知识基础的能力。所以研究将本体论技术应用于主题爬虫成为了当今学术界热点。本论文分析了主题爬虫的国内外研究现状,结合了本体论技术,进行主题爬虫的研究与实现。本文的具体工作如下:(1)给出基于领域本体的主题爬虫的框架及相关模块介绍。(2)提出了根据本体层次树进行上下文主题描述,用于指导主题爬虫的爬行;(3)改进了本体层次树各概念的语义相似度及相关度计算方法,并给出了本体层次树各概念的向量表示综合方法;(4)根据本文的上下文主题描述,提出了网页内容与链接相关度的算法;(5)根据领域本体的构建方法及Protege本体构建工具,构建了教育技术领域的本体;(6)基于开源Bot.jar进行了扩展、实现基于领域本体的教育技术领域主题爬虫。实验表明,通过改进了本体层次树的概念相似度、相关度计算方法后,它们的综合方法能更好地区分概念间关系;本文所提出的基于领域本体的上下文主题描述,能有效指导爬虫,体现语义性;提出的基于领域本体的网页内容相关度和链接相关度算法能较大幅度地提高爬行的查准率。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 课题研究背景和意义
  • 1.2 主题网络爬虫国内外研究现状分析
  • 1.3 论文内容安排
  • 第2章 相关理论知识
  • 2.1 语义网
  • 2.1.1 语义网的概念
  • 2.1.2 语义网体系结构
  • 2.2 本体(Ontology)
  • 2.2.1 本体的定义
  • 2.2.2 本体的构成
  • 2.2.3 本体的分类法
  • 2.2.4 本体描述语言
  • 2.3 本体的构建
  • 2.3.1 本体构建的原则
  • 2.3.2 领域本体的构建方法
  • 2.3.3 本体开发工具
  • 2.4 主题爬虫的相关理论与技术
  • 2.4.1 网络爬虫的概念
  • 2.4.2 网络爬虫的模型
  • 2.4.3 通用网络爬虫与主题爬虫的工作流程对比
  • 2.5 主题相关性算法-向量空间模型(VSM)
  • 2.6 本章小结
  • 第3章 基于领域本体的主题爬虫总体设计
  • 3.1 关于主题爬虫
  • 3.2 主题爬虫性能评价指标
  • 3.3 基于领域本体的主题爬虫系统设计
  • 3.3.1 系统设计的目标
  • 3.3.2 系统框架结构
  • 3.3.3 系统功能模块
  • 3.4 本章小结
  • 第4章 基于领域本体的上下文主题描述及网页相关度计算
  • 4.1 基于领域本体的上下文主题描述
  • 4.1.1 主题描述方法
  • 4.1.2 主题描述方法的研究应用与问题
  • 4.1.3 基于领域本体的上下文主题描述
  • 4.2 基于领域本体的主题集合向量表示
  • 4.2.1 领域本体内的概念语义相似度计算
  • 4.2.2 领域本体内的概念语义相关度计算
  • 4.2.3 结合领域本体的概念相似度与相关度综合量化方法
  • 4.2.4 领域本体内概念相似度与相关度综合量化实验
  • 4.2.5 主题关键词集合及主题描述的向量表示
  • 4.3 基于领域本体的网页相关度分析
  • 4.3.1 基于本体的网页内容相关度分析
  • 4.3.2 基于领域本体的链接相关度分析
  • 4.4 本章小结
  • 第5章 基于领域本体的主题爬虫系统实现
  • 5.1 教育技术领域本体的构建
  • 5.2 基于领域本体的主题爬虫的流程图
  • 5.3 主要功能模块及关键技术实现
  • 5.3.1 多线程技术
  • 5.3.2 协议分析处理与页面采集
  • 5.3.3 URL优先级队列模块
  • 5.3.4 页面预处理模块
  • 5.3.5 页面分词模块及相关度分析模块
  • 5.3.6 链接分析模块
  • 5.3.7 领域本体层次树
  • 5.4 实验结果及分析
  • 5.4.1 系统开发运行环境
  • 5.4.2 考查的性能指标
  • 5.4.3 实验及结果评价
  • 5.5 本章小结
  • 总结与展望
  • 致谢
  • 参考文献
  • 在学期间发表的学术论文和参加科研情况
  • 相关论文文献

    • [1].网络主题爬虫技术初探[J]. 电子制作 2013(23)
    • [2].面向地震宏观异常的主题爬虫研究[J]. 震灾防御技术 2013(04)
    • [3].以主题爬虫视角进行数字资源的建设探析[J]. 电子技术与软件工程 2014(16)
    • [4].基于动态主题库的主题爬虫[J]. 计算机应用 2009(S2)
    • [5].一种面向农业信息主题网络爬虫的设计[J]. 安徽农业科学 2009(20)
    • [6].基于关键词的生物主题爬虫设计[J]. 图书情报工作 2009(09)
    • [7].主题爬虫的搜索策略研究[J]. 计算机工程与设计 2008(12)
    • [8].基于VSM主题爬虫爬行策略的研究[J]. 信息通信 2014(02)
    • [9].分布式主题爬虫的设计与实现[J]. 计算机应用与软件 2010(12)
    • [10].基于概率模型的主题爬虫的研究和实现[J]. 计算机工程与科学 2013(01)
    • [11].基于遗传算法的主题爬行技术研究[J]. 计算机与数字工程 2008(10)
    • [12].主题爬虫在网络地震谣言信息获取识别中的应用研究初探[J]. 黑龙江科技信息 2016(30)
    • [13].基于本体的主题网络爬虫设计[J]. 武汉理工大学学报 2009(03)
    • [14].基于本体的主题爬虫技术研究[J]. 计算机仿真 2009(10)
    • [15].用户定制主题爬虫的设计与实现[J]. 山西科技 2016(02)
    • [16].爬虫技术综述[J]. 电脑知识与技术 2017(27)
    • [17].基于本体的食品安全新闻爬虫的设计与实现[J]. 农业网络信息 2015(05)
    • [18].基于本体的主题爬虫的研究[J]. 电脑知识与技术 2011(03)
    • [19].Web文本分类中的反作弊研究[J]. 网友世界 2013(Z3)
    • [20].一种基于语义分析的主题爬虫算法[J]. 计算机工程与科学 2010(09)
    • [21].分布式主题爬虫的研究与设计[J]. 计算机光盘软件与应用 2015(01)
    • [22].网络爬虫软件的研究与开发[J]. 软件导刊 2011(05)
    • [23].基于语义爬虫的商品信息主题采集研究[J]. 现代图书情报技术 2010(01)
    • [24].基于贝叶斯分类的主题爬虫[J]. 上海师范大学学报(自然科学版) 2013(06)
    • [25].基于SVM预测的金融主题爬虫[J]. 四川大学学报(自然科学版) 2010(03)
    • [26].主题爬虫设计与实现[J]. 软件 2013(12)
    • [27].基于网络日志分析的混合策略主题爬虫[J]. 微计算机信息 2009(03)
    • [28].基于本体的主题爬虫的设计与实现[J]. 科技情报开发与经济 2008(02)
    • [29].主题爬虫搜索策略的研究[J]. 科技信息 2011(12)
    • [30].基于遗传算法的主题爬虫策略改进[J]. 计算机仿真 2010(10)

    标签:;  ;  ;  ;  

    基于领域本体的主题爬虫研究及实现
    下载Doc文档

    猜你喜欢