基于多特征的HTML网页内容提取的研究

基于多特征的HTML网页内容提取的研究

论文摘要

网页内往往包含丰富而不同的内容,可以分为主题相关内容和主题不相关内容,识别出主题相关内容应用于网页检索,分类等,可以很大程度上节约空间以及提高这些应用的性能。此方面的研究已经有很多,也取得了很大的成果,其中研究较多和应用较广的是利用分块思想:首先将网页看作是由多个分离的聚集块组成,然后识别并取得需要的主题相关内容,即主题信息块。识别并提取网页主题相关内容的这一过程称为网页内容提取。网页内容提取对Web中的Hub型网页和主题型网页有不同的含义,对前者是找到该网页中非噪音内容的主要链接;对后者是发现描述网页主题内容的文本以及相关链接。本文的研究主要着眼于以下几个方面:首先,本文研究介绍了网页的类型划分以及分析了几种较为有效的划分网页类型的算法,并在此基础上提出了一种改进的网页类型划分的方法。这种改进的算法分为两个阶段。首先利用VIPS算法将网页划分为一个个的信息块,然后分别判断每一块的类型,并根据这些信息块中是否存在一个满足要求的主题型信息块来判断网页的类型。实验结果表明该方法能准确的划分出网页的类型,正确率达到98.6%。其次,本文总结了以往网页内容提取的各种方法,在此基础上,提出了一种新的网页内容提取算法,该算法在网页分块的基础上,分析每一块的特征,得到了主题信息块的多个特征。并利用概率论对这些特征进行量化,得到每个特征与信息块为主题内容的一个对应的概率关系,最后综合信息块的所有特征计算得到这个信息块是主题内容的总的概率,通过将这个概率与阈值的比较来判断信息块的性质。通过实验可以明显地看到新算法有效地提取了网页的主题内容,并优于其它同类算法。最后,本文给出了两个具体的网页内容提取的应用:Hidden Web分类和Web检索。在Hidden Web分类中,通过应用本文提出的新的网页内容提取算法得到Hidden Web的文本描述信息,并将其作为一个分类影响因素,从而明显的提高了分类的效果。在Web检索中,本文用新的网页内容提取算法提取网页主题内容,对实验集建立索引,进行检索,并与同类方法进行比较,实验结果证明新方法很大程度的提高了检索的准确率,查全率等指标,而且明显优于同类算法。由于网页分块的应用和推广,本文详细介绍了两种有效的网页分块方法,并在实验中进行了比较,本文提出的新算法依赖于网页分块的效果,因此进一步提高网页分块的准确性,合理性,以及分块后得到信息块的更多属性,都是提高算法性能的有效途径。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 研究背景
  • 1.2 国内外研究现状
  • 1.3 本文工作及组织
  • 1.4 本章小结
  • 第二章 HTML网页内容提取
  • 2.1 引言
  • 2.2 什么是HTML
  • 2.3 HTML语法简介
  • 2.4 半结构化的HTML网页
  • 2.5 网页的内容组成
  • 2.6 本章小结
  • 第三章 网页分块在网页内容提取中的应用
  • 3.1 引言
  • 3.2 基于DOM树的网页分块
  • 3.3 基于视觉的网页分块算法
  • 3.3.1 背景介绍
  • 3.3.2 基本模型介绍
  • 3.3.3 基于视觉特征的网页分割算法
  • 3.3.4 分块抽取
  • 3.3.5 探知分割符
  • 3.3.5.1 分割符探知算法
  • 3.3.5.2 分割符的权重设置
  • 3.3.6 网页结构的构建
  • 3.4 本章小结
  • 第四章 网页类型的判定
  • 4.1 引言
  • 4.2 整体判断方法
  • 4.3 基于局部的方法
  • 4.4 基于分块的方法
  • 4.5 本章小结
  • 第五章 基于多特征的网页内容的提取
  • 5.1 引言
  • 5.2 主题块的多特征
  • 5.3 概率论的应用
  • 5.4 基于多特征提取网页内容
  • 5.5 实验结果及分析
  • 5.6 本章小结
  • 第六章 网页内容提取的应用
  • 6.1 引言
  • 6.2 网页内容提取在Hidden Web分类中的应用
  • 6.2.1 什么是Hidden Web
  • 6.2.2 Hidden Web的分类
  • 6.3 网页内容提取在Web检索中的应用
  • 6.3.1 什么是Web检索
  • 6.3.2 Web检索
  • 6.4 本章小结
  • 第七章 总结
  • 参考文献
  • 致谢
  • 攻读学位期间发表的学术论文目录
  • 学位论文评阅及答辩情况表
  • 相关论文文献

    • [1].技术传播的用户画像分析理论对网页内容设计的启示[J]. 海外英语 2019(03)
    • [2].浏览器快速处理网页内容[J]. 电脑爱好者 2017(13)
    • [3].iOS 9应用小技巧[J]. 电脑迷 2015(11)
    • [4].网页内容提取工具的设计与实现[J]. 电脑知识与技术 2011(32)
    • [5].解决网页内容不可复制问题[J]. 黑龙江科技信息 2011(35)
    • [6].时空穿梭 快速找回以前看过的网页内容[J]. 电脑迷 2010(16)
    • [7].移动元搜索引擎中网页内容提取算法研究[J]. 现代图书情报技术 2010(10)
    • [8].基于向量空间的网页内容相似度计算方法研究[J]. 计算机与现代化 2010(09)
    • [9].网页内容快速保存 快拖云收藏[J]. 电脑知识与技术(经验技巧) 2012(11)
    • [10].对超长网页内容进行截图[J]. 电脑知识与技术(经验技巧) 2019(08)
    • [11].基于块分布的新闻网页内容提取[J]. 吉林大学学报(工学版) 2009(05)
    • [12].基于文本对象模型的自动化网页内容提取方法[J]. 上海交通大学学报 2018(10)
    • [13].蚁群算法在网页内容分类中的应用研究[J]. 计算机系统应用 2009(04)
    • [14].基于网页内容相似度和链接关系的社区发现及动态添加[J]. 郑州大学学报(理学版) 2011(01)
    • [15].基于网页内容和链接价值的相关度方法的实现[J]. 计算机工程与设计 2008(23)
    • [16].精彩内容 瞬间分享[J]. 电脑迷 2010(10)
    • [17].祝贺本刊2010~2011年上半年网页点击逾10万次[J]. 中国矫形外科杂志 2011(15)
    • [18].祝贺本刊2011年上半年网页点击逾10万次[J]. 中国矫形外科杂志 2011(16)
    • [19].指指点点,文字、图片轻松抓[J]. 电脑爱好者 2008(17)
    • [20].揭开IE浏览器自动关闭谜底[J]. 个人电脑 2013(07)
    • [21].揭开IE浏览器自动关闭谜底[J]. 个人电脑 2017(11)
    • [22].苹果Ⅰ族应用技巧十二则[J]. 电脑知识与技术(经验技巧) 2015(11)
    • [23].一键清除Google的网络历史记录[J]. 电脑爱好者 2011(19)
    • [24].教你几招解决无法复制的网页内容[J]. 电脑知识与技术(经验技巧) 2012(06)
    • [25].老业务的2.0[J]. 21世纪商业评论 2008(06)
    • [26].网摘 得配备好武器[J]. 电脑爱好者(普及版) 2009(04)
    • [27].基于访问日志的网页内容监控挖掘系统[J]. 计算机工程 2011(04)
    • [28].不让图片帖子显示安全警告[J]. 电脑迷 2010(07)
    • [29].浅谈新时期编辑在图书线上销售中的价值体现[J]. 参花(下) 2018(09)
    • [30].Web网页内容特征库的构建及应用[J]. 情报探索 2009(04)

    标签:;  ;  ;  ;  

    基于多特征的HTML网页内容提取的研究
    下载Doc文档

    猜你喜欢