搜索引擎作弊检测方法研究

搜索引擎作弊检测方法研究

论文摘要

搜索引擎作弊,是指采用欺骗搜索引擎的手段使得Web页面在检索结果中的排名高于其实际应得排名的行为。搜索引擎作弊行为的猖獗导致搜索引擎检索结果的质量不断下降,被公认为是互联网搜索所面临的最大挑战之一。搜索引擎作弊检测方法的研究是一项有意义的课题。本文的主要工作和贡献在于:1.从网站自身角度进行作弊检测。有监督机器学习的搜索引擎作弊检测需要大量昂贵手工标号样本,针对这一问题,论文提出了一种基于调和函数的半监督学习方法。该方法通过在标签网页和未标签网页为顶点组成的无向带权图上进行半监督学习,充分利用未标签样本的信息。图中顶点通过网页间的相似性建立联系,避免了由于作弊网页和非作弊网页相链接而造成半监督学习不精确的问题。实验结果表明,基于调和函数的半监督学习垃圾网页检测方法在提高精度、召全率和F-measure方面是有效的。2.从搜索引擎用户角度进行作弊检测。搜索引擎查询日志记录了用户与搜索引擎的交互信息。日志中被点击的URL及其点击顺序等信息反映了用户的喜好。论文提出了一种改进的动态贝叶斯网络模型为日志点击行为建模,通过挖掘搜索引擎返回列表序列中URL之间的点击因果关系,得到从用户角度出发的网页与查询的相关性,从而对网页进行排名,降低作弊网页的排名位置。实验表明改进的动态贝叶斯网络模型是优于其它模型的。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 研究意义
  • 1.2 研究目标和研究内容
  • 1.3 论文的内容结构
  • 第二章 搜索引擎作弊检测方法综述
  • 2.1 引言
  • 2.2 常见的搜索引擎排序算法
  • 2.2.1 TF-IDF 算法
  • 2.2.2 PageRank 算法
  • 2.2.3 HITS 算法
  • 2.3 搜索引擎作弊技术
  • 2.3.1 内容作弊
  • 2.3.2 链接作弊
  • 2.3.3 隐藏作弊
  • 2.4 搜索引擎作弊检测现状
  • 2.4.1 基于内容分析的作弊检测
  • 2.4.2 基于链接分析的作弊检测
  • 2.4.3 基于隐藏技术的作弊检测
  • 2.4.4 基于机器学习的作弊检测
  • 2.4.5 基于用户行为分析的作弊检测
  • 2.5 本章小结
  • 第三章 基于调和函数的半监督作弊检测
  • 3.1 引言
  • 3.2 半监督学习概述及存在问题
  • 3.3 基于调和函数的半监督垃圾网页检测
  • 3.3.1 HFSSL 的基本框架
  • 3.3.2 基于主成分分析的特征提取
  • 3.3.3 结合其它分类器
  • 3.4 实验
  • 3.4.1 数据集和评价指标
  • 3.4.2 实验结果和分析
  • 3.5 本章小结
  • 第四章 基于动态贝叶斯网络的网页排名
  • 4.1 引言
  • 4.2 搜索引擎查询日志介绍
  • 4.3 用户行为的两个假设
  • 4.4 流行的查询日志建模方法及存在的问题
  • 4.5 改进的动态贝叶斯模型
  • 4.5.1 动态贝叶斯网络的概念
  • 4.5.2 改进的动态贝叶斯模型框架
  • 4.5.3 M-DBM 的推理
  • 4.6 实验
  • 4.6.1 数据集的获取
  • 4.6.2 评价标准
  • 4.6.3 实验结果和分析
  • 4.7 本章小结
  • 第五章 总结和展望
  • 5.1 本文完成的工作
  • 5.2 未来的研究方向
  • 致谢
  • 攻读硕士学位期间发表的论文
  • 攻读硕士学位期间获得的专利申请
  • 缩略词
  • 图表清单
  • 参考文献
  • 相关论文文献

    • [1].打造网页设计创新创业示范课程[J]. 河南教育(职成教) 2019(12)
    • [2].网页设计中计算机图像处理技术的应用[J]. 无线互联科技 2019(21)
    • [3].高职院校网页设计与制作课程教学改革研究[J]. 教育现代化 2019(95)
    • [4].浅谈网页设计与制作课程[J]. 电脑知识与技术 2020(01)
    • [5].浅析水墨元素融入网页设计的架构技巧[J]. 辽宁经济职业技术学院.辽宁经济管理干部学院学报 2019(06)
    • [6].分析计算机图像处理技术在网页设计中的应用价值[J]. 计算机产品与流通 2020(01)
    • [7].网页设计中计算机图像处理技术的应用[J]. 电子技术与软件工程 2019(24)
    • [8].“环球佳”医疗设备企业网页设计[J]. 出版发行研究 2019(12)
    • [9].网页设计在视觉传达设计中表现的形式[J]. 西部皮革 2020(03)
    • [10].论网页设计中计算机图像处理技术的应用[J]. 计算机产品与流通 2020(02)
    • [11].色彩节奏在网页设计中的应用研究[J]. 计算机产品与流通 2020(02)
    • [12].计算机图像处理技术在网页设计中的应用分析[J]. 电子世界 2020(04)
    • [13].网页设计中计算机图像处理技术的应用[J]. 科技风 2020(11)
    • [14].网页设计作品[J]. 上海纺织科技 2020(01)
    • [15].浅析网页设计中的色彩搭配[J]. 农家参谋 2020(01)
    • [16].党政网页电子文件采集与管理研究[J]. 办公室业务 2020(04)
    • [17].基于翻转课堂的《商务网页设计与制作》课程设计研究[J]. 中国多媒体与网络教学学报(中旬刊) 2020(03)
    • [18].水墨动画在网页设计中的应用思考[J]. 中外企业家 2020(12)
    • [19].网页设计中的色彩搭配探讨[J]. 信息与电脑(理论版) 2020(02)
    • [20].浏览器的神奇玩法[J]. 计算机与网络 2020(04)
    • [21].网页欣赏精品分析教学平台的设计[J]. 黑龙江科学 2020(07)
    • [22].关于网页设计与制作方法与应用的探讨[J]. 河北农机 2020(03)
    • [23].基于修辞资源与受众的高校网页简介英译失误分析——以东南地区部分985高校为例[J]. 黑龙江教师发展学院学报 2020(04)
    • [24].关于“网页设计与制作”教学的中高职衔接问题初探[J]. 电脑知识与技术 2020(09)
    • [25].网页设计中计算机图像处理技术的应用[J]. 中外企业家 2020(16)
    • [26].网页档案信息长期保存策略研究[J]. 档案时空 2019(12)
    • [27].中职《网页设计与制作》课程教学综述[J]. 信息记录材料 2020(03)
    • [28].基于眼动跟踪的教育网页“优势区域”论证研究[J]. 现代计算机 2020(13)
    • [29].基于校企合作的《网页设计》课程教学改革研究[J]. 科技创新导报 2019(31)
    • [30].计算机网页设计中的布局与排版[J]. 信息与电脑(理论版) 2020(09)

    标签:;  ;  ;  ;  ;  ;  ;  

    搜索引擎作弊检测方法研究
    下载Doc文档

    猜你喜欢