基于RSS和本体语义适配的自治主题页面采集

基于RSS和本体语义适配的自治主题页面采集

论文摘要

搜索引擎是伴随着互联网信息扩展营运而生的,其任务是帮助网民在海量信息中去粗存精,快速找到自己所需的信息。调查表明,2006年搜索引擎已成为仅次于电子邮件,位居第二的互联网业务。通用搜索引擎在满足海量搜索信息的同时却难以兼顾搜索准确度与相关度质量,很难满足追求精准的个性化、专业化搜索需求。垂直搜索(Vertical Search)是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。垂直搜索引擎是面向特定领域和主题信息检索的工具,面向主题的页面采集是其基础工作。本文针对其核心和基础性工作—主题页面采集进行了分析和研究,主要的工作有并重点从以下几方面进行:1、在DOM解析的基础上,提出了改进型的HPath页面抽取技术;针对DOM解析器异构现象,运用HPath基础解决不同解析器的集成应用难题,为商用化的主题页面采集与垂直搜索引擎研究奠定了理论和技术基础。2、面向新兴的Web2.0网络,提出基于Web2.0基础的高精度主题页面采集方案,并通过XPath解决RSS标准不统一问题。3、在主题页面采集的后期处理上,提出用本体语义适配来解决来自各种不同系统的主题语义异构问题,采用语义距离算法对页面主题进行归纳和分类。4、为了提高采集系统的实用性和可维护性,本文尝试采用IBM自治计算框架,结合改进主动数据仓库ECA规则,提出了具有一定自治能力的主题页面采集系统设计。

论文目录

  • 摘要
  • Abstract
  • 1 引言
  • 1.1 本文研究背景及意义
  • 1.2 国内外研究现状
  • 1.3 研究内容与系统框架
  • 1.3.1 研究内容
  • 1.3.2 系统框架
  • 1.4 论文章节安排
  • 2 面向特定主题的页面采集
  • 2.1 应用背景
  • 2.2 DOM解析器
  • 2.2.1 研究现状
  • 2.2.2 存在的主要问题
  • 2.2.3 发展趋势
  • 2.2.4 DOM解析
  • 2.3 基于HPath的HTML抽取技术
  • 2.3.1 HPath抽取技术简介
  • 2.3.2 数据块与HPath的对应关系
  • 2.3.3 HPath生成和定位算法
  • 2.4 异构DOM集成
  • 2.4.1 异构DOM现象
  • 2.4.2 基于HPath的集成方法
  • 2.5 基于异构DOM集成的页面采集
  • 2.6 RSS技术研究
  • 2.6.1 Web2.0网络简介
  • 2.6.2 RSS简介
  • 2.6.3 RSS研究现状
  • 2.6.4 存在的问题
  • 2.6.5 发展趋势
  • 2.7 RSS应用
  • 2.7.1 RSS的联合(Syndication)
  • 2.7.2 RSS的聚合(Aggregation)
  • 2.7.3 RSS的未来发展
  • 2.8 RSS资源的收集
  • 2.8.1 手工收集
  • 2.8.2 爬虫收集
  • 2.8.3 OPML收集
  • 2.9 RSS的解析
  • 2.9.1 XML简介
  • 2.9.2 XML解析
  • 2.9.3 XPath查询
  • 3 基于本体的语义适配
  • 3.1 主题页面采集的语义失配问题
  • 3.2 基于本体的语义适配解决方案
  • 3.2.1 本体理论简介
  • 3.2.2 本体研究的对象及组成
  • 3.2.3 本体的分类
  • 3.2.4 构建本体的语言
  • 3.2.5 构建本体的规则
  • 3.2.6 构建本体的工具
  • 3.2.7 构建本体的主要方法
  • 3.2.8 本体的优势
  • 3.3 基于语义适配的主题页面分类框架
  • 3.4 语义距离的计算
  • 3.4.1 语义距离的概念
  • 3.4.2 弹性匹配
  • 3.4.3 概率匹配
  • 3.4.4 长度距离
  • 3.4.5 深度距离
  • 3.5 相似度的计算
  • 3.5.1 相似度的概念
  • 3.5.2 计算相似度
  • 3.6 小结
  • 4 基于ECA的自治系统框架设计
  • 4.1 采集系统的自治需求
  • 4.2 自治计算研究
  • 4.3 ECA与知识表达
  • 4.3.1 ECA语法
  • 4.3.2 ECA语义
  • 4.3.3 ECA的使用
  • 4.4 监视事件
  • 4.5 事件分析
  • 4.6 计划制定与执行
  • 4.7 自治页面采集系统框架
  • 4.8 实验数据
  • 5 总结和展望
  • 5.1 论文的创新点及主要工作
  • 5.2 进一步的研究工作
  • 参考文献
  • 致谢
  • 相关论文文献

    • [1].Rss椎弓根螺钉内固定治疗胸腰段脊柱骨折的效果观察[J]. 临床医学研究与实践 2016(27)
    • [2].基于RSS源的搜索引擎概述与实现方法[J]. 科技风 2017(05)
    • [3].RSS技术在图书馆的应用现状比较[J]. 内蒙古科技与经济 2016(04)
    • [4].基于RSS的图书馆推送服务系统的研究[J]. 信息技术与信息化 2016(Z1)
    • [5].RSS技术在图书馆中应用研究的文献计量分析[J]. 河南图书馆学刊 2013(10)
    • [6].基于RSS技术的云南大学图书馆推送服务体系研究[J]. 情报探索 2014(10)
    • [7].基于RSS的大学生协作学习模式建构与应用研究[J]. 广东青年职业学院学报 2013(01)
    • [8].基于RSS技术的图书馆网络信息资源整合模式探究[J]. 情报探索 2012(09)
    • [9].RSS技术在数字图书馆个性化信息服务中的应用研究[J]. 厦门城市职业学院学报 2012(04)
    • [10].基于RSS技术的图书馆定题服务系统研究——以图书馆个性化电子期刊订阅为例[J]. 情报杂志 2011(06)
    • [11].基于RSS的企业竞争情报推送服务研究[J]. 情报探索 2010(01)
    • [12].基于RSS的新闻采集系统的研究[J]. 西安航空技术高等专科学校学报 2010(03)
    • [13].RSS在图书馆网络营销中的应用研究[J]. 图书馆研究与工作 2010(02)
    • [14].基于RSS技术的图书馆虚拟参考咨询系统的设计与实现[J]. 江西图书馆学刊 2009(02)
    • [15].RSS技术及其在数字图书馆中的应用探讨[J]. 图书情报研究 2009(01)
    • [16].RSS在图书馆个性化服务中的应用[J]. 科技情报开发与经济 2009(18)
    • [17].数字图书馆中基于RSS的定题服务[J]. 科技情报开发与经济 2009(17)
    • [18].RSS在图书馆个性化营销中的运用[J]. 科技情报开发与经济 2009(21)
    • [19].关于RSS技术在数字图书馆的应用探讨[J]. 科技资讯 2009(20)
    • [20].RSS在我国图书馆的应用及其问题分析[J]. 图书馆 2009(05)
    • [21].利用RSS技术提升图书馆数字参考咨询服务[J]. 情报探索 2009(09)
    • [22].手机RSS新闻的赢利模式[J]. 青年记者 2009(30)
    • [23].基于RSS的图书馆图书预约服务[J]. 中小学图书情报世界 2008(11)
    • [24].RSS技术在数字档案馆中的应用研究[J]. 情报科学 2008(03)
    • [25].RSS在图书馆领域的应用及其问题分析[J]. 内蒙古科技与经济 2008(15)
    • [26].基于RSS技术的图书情报领域应用[J]. 佳木斯大学社会科学学报 2008(04)
    • [27].RSS与语义网研究[J]. 计算机工程与设计 2008(17)
    • [28].“985工程”高校馆RSS推送服务调查[J]. 图书馆学研究 2008(10)
    • [29].RSS技术及其在数字图书馆的实际应用[J]. 医学信息学杂志 2008(09)
    • [30].改进的RSS信息推送技术在农地流转中的应用[J]. 遥感信息 2015(01)

    标签:;  ;  ;  

    基于RSS和本体语义适配的自治主题页面采集
    下载Doc文档

    猜你喜欢