基于文本结构的近似镜像网页去重

基于文本结构的近似镜像网页去重

论文摘要

1998年,世界上第一个搜索引擎系统GOOGLE在其诞生之初,就以超强的实用性赢得了广大网民的使用热情,其准确、快速的网络导航性,往往能使人们在第一时间找到自己所要的信息。但是,近年来,随着互联网上信息的急剧膨胀,现有搜索引擎的一些不完善性也逐渐暴露出来,开始越来越让人无法忍受,其中最严重的就是返回结果中经常包含有大量的重复网页,人们将其称为近似镜像网页。这些网页的内容有的是一字不拉的完全重复,有的只是其中一部分重复。近似镜像网页存在的主要原因是网络上的非法复制。对搜索引擎系统本身来说,这些近似镜像网页的存在极大得浪费了宝贵的存储资源,降低了索引效率。对用户来说,这些网页是毫无意义的,但是却不得不花费时间去浏览它们,而它们的存在本身也是对知识产权的一种侵犯。因此,准确、快速的去除近似镜像网页,不仅对搜索引擎的深远发展来说是一项必不可少的措施,而且对知识产权也是一个有力保护。近年来,不断的有学者提出一些近似镜像网页去重的方法,这些方法对内容完全重复的近似镜像网页的去重效果都相当不错,但是对内容部分重复的近似镜像网页的去重效果却差强人意。在本文中,我们依据网页重复的特征,充分利用网页文本自身的特点,提出了一种动态的近似镜像网页去重方法。该方法首先分析各种网页的正文结构表现形式,对现有的网页正文结构表现形式进行分类;然后对每篇网页根据其结构表现形式将其正文表示成正文结构树的形式;最后通过从正文结构树中动态的提取特征来进行相似度计算,从而实现近似镜像网页的检测与去重。本文在大量实验和真实数据分析的基础上,得到了如下研究成果和结论:1.通过人工分析各种网页的正文结构表现形式,将其分为四大类,其中又包含各种小类。对每一类表现形式,都提出了相应的段落权值分配方法。2.将网页的正文表示成正文结构树的形式,并提出了由网页正文向正文结构树转化的算法。3.提出了动态提取文本特征进行相似度计算的文本复制监测方法,并提出了层次指纹的相似度计算算法。4.用大量网页对本文提出的方法的性能进行了评测,并且用相同的数据集和现有的一些近似镜像网页去重方法进行了比较。我们人工搜集了12,000篇网页作为测试集进行实验,其结果表明,不论是内容完全重复的近似镜像网页还是内容部分重复的近似镜像网页,使用该方法都取得了令人满意的效果。

论文目录

  • 中文摘要
  • ABSTRACT
  • 第一章 引言
  • 1.1 研究背景
  • 1.2 研究现状及分析
  • 1.2.1 近似镜像网页去重的研究历史
  • 1.2.2 现有近似镜像网页去重方法的分析
  • 1.2.2.1 基于内容的近似镜像网页去重
  • 1.2.2.2 基于链接的近似镜像网页去重
  • 1.2.2.3 基于链接信息的近似镜像网页去重
  • 1.3 论文的主要工作及结果
  • 1.4 论文结构
  • 第二章 近似镜像网页的分析及表示
  • 2.1 近似镜像网页的定义
  • 2.1.1 镜像网页的定义
  • 2.1.2 近似镜像网页的定义
  • 2.2 近似镜像网页的分析
  • 2.2.1 近似镜像网页重复特点的分析
  • 2.2.2 近似镜像网页正文结构的分析
  • 2.3 近似镜像网页的表示
  • 2.4 网页正文结构的树型表示
  • 第三章 正文结构树的生成
  • 3.1 网页正文结构树生成的流程
  • 3.2 段落信息表的建立
  • 3.3 小标题编号和HTML标签的识别
  • 3.4 短段落标题识别算法
  • 3.5 正文结构表现形式获取算法
  • 3.6 权值分配
  • 3.7 正文结构树生成算法
  • 第四章 近似镜像网页去重
  • 4.1 数字签名及MD5算法介绍
  • 4.2 近似镜像网页的检测与去重
  • 4.2.1 标题相似度的计算
  • 4.2.2 正文相似度的计算
  • 第五章 实验结果和结论
  • 5.1 评价指标
  • 5.2 实验结果与结论
  • 5.3 同现有方法的比较
  • 5.4 进一步的工作
  • 参考文献
  • 致谢
  • 发表文章目录
  • 个人简况
  • 相关论文文献

    • [1].色彩元素在网页设计中的研究与运用微探[J]. 流行色 2019(11)
    • [2].文字、图形、色彩在网页设计中的应用[J]. 环球首映 2019(09)
    • [3].在社团活动课程化中实现师生共同成长——网页设计与制作校本课程开发与实施心得[J]. 中学教学参考 2020(09)
    • [4].插画元素对网页设计风格实现的影响[J]. 大观 2020(04)
    • [5].浅析创新思维在网页设计教学中的应用[J]. 中国文艺家 2020(04)
    • [6].探讨网页设计在平面设计中的运用[J]. 艺术家 2020(04)
    • [7].网页设计中动态多元素应用研究[J]. 数码世界 2020(07)
    • [8].下一代网页[J]. 电脑爱好者 2012(01)
    • [9].她!让误关网页“还魂”[J]. 电脑爱好者 2008(05)
    • [10].做个小网页 看看谁在线[J]. 电脑爱好者(普及版) 2008(07)
    • [11].简单两步 网页在线抓[J]. 电脑爱好者(普及版) 2008(08)
    • [12].申请QQ号易如反掌[J]. 电脑爱好者(普及版) 2008(09)
    • [13].节约用纸,网页我只打印想要的[J]. 电脑爱好者 2009(08)
    • [14].我要正常看网页[J]. 电脑迷 2009(23)
    • [15].网页打印 只打我要的部分[J]. 电脑迷 2010(06)
    • [16].高职网页设计课程教学研究——网页设计的三个原则[J]. 科教文汇(下旬刊) 2011(07)
    • [17].复制受限网页 不用那么麻烦[J]. 电脑爱好者 2011(07)
    • [18].打印网页 只“剪”你需要的[J]. 电脑爱好者 2011(20)
    • [19].网页打印时拒绝图片广告[J]. 电脑迷 2012(04)
    • [20].省墨 网页先“删”后“打”[J]. 电脑爱好者 2012(04)
    • [21].发送文件链接,网页直接查看[J]. 电脑迷 2012(10)
    • [22].让你的网页告别“失焦”[J]. 电脑爱好者 2012(18)
    • [23].中职网页设计教学的初步探讨[J]. 新课程研究(中旬刊) 2014(02)
    • [24].谈计算机网页设计中的布局[J]. 中国校外教育 2014(25)
    • [25].网页“剪报”方法多[J]. 电脑爱好者 2013(24)
    • [26].高职计算机应用技术专业网页设计课程改革初探[J]. 科教文汇(下旬刊) 2014(12)
    • [27].中职《网页设计》课程教学方法初探[J]. 学周刊 2015(12)
    • [28].如何留住精彩网页[J]. 电脑爱好者 2016(18)
    • [29].网页设计中计算机图像处理技术应用解析[J]. 电脑迷 2016(09)
    • [30].浅谈网页设计的艺术表现形式[J]. 电脑迷 2016(11)

    标签:;  ;  ;  ;  

    基于文本结构的近似镜像网页去重
    下载Doc文档

    猜你喜欢