Web结构挖掘中PageRank算法研究

Web结构挖掘中PageRank算法研究

论文摘要

随着Web信息技术的迅速发展,用户可以越来越方便快捷地获取各种信息,与此同时,也面临着如何从大量Web信息中获取相关及有用信息的问题。虽然,通过使用传统的Google、百度、Lycos等搜索引擎,可以大大减少无用信息的干扰,但这些搜索引擎搜索的结果有时也不完整或不相关,很难完全满足用户的需求。值得庆幸的是,目前Web数据挖掘技术的研究可以解决Web上过量信息的问题,通过对Web超链接结构进行分析,为用户提供更精确、更相关的数据。因此,Web数据挖掘逐渐成为目前研究的热点。本文从Web结构挖掘入手,在对Web结构挖掘中典型算法PageRank深入研究的基础上,针对PageRank算法只考虑Web页面之间的链接关系而忽略Web页面本身的文本内容,对权威性高的网页随着时间的推移赋予很高的权威值,而对新出现的网页赋予很低的权威值,从而导致搜索结果出现“主题漂移”和种种缺陷的问题,提出了一种基于超链接网页之间的距离及强化学习相结合的改进算法——DisRank。该算法把网页之间的距离作为“处罚”因子,以此来计算Web网页的等级值及对其进行排序。我们首先通过网页爬行算法抓取基于某个主题的、一定数量的网页作为训练样本,然后存储到数据库中,最后分别调用PageRank算法和改进算法DisRank进行实验,以证明改进算法的有效性。这其中包括改进算法DisRank抓取相关网页的吞吐量、不同β取值算法的吞吐量、精确度、收敛速度及算法时间复杂度等。最后,对本文所做的工作进行了总结,并提出改进算法需要进一步完善的地方及下一步研究工作的方向。

论文目录

  • 中文摘要
  • Abstract
  • 第一章 绪论
  • 1.1 论文研究背景
  • 1.2 国内外研究现状
  • 1.3 本文的研究意义和主要工作
  • 1.4 本文的组织结构
  • 第二章 数据挖掘概述及相关知识
  • 2.1 数据挖掘简介
  • 2.1.1 数据挖掘的由来
  • 2.1.2 数据挖掘的定义
  • 2.1.3 数据挖掘的步骤
  • 2.1.4 数据挖掘的发展趋势
  • 2.2 Web 数据挖掘简介
  • 2.2.1 Web 数据挖掘的定义
  • 2.2.2 Web 数据挖掘的特点
  • 2.2.3 Web 数据挖掘的步骤
  • 2.3 Web 数据挖掘的分类
  • 2.3.1 Web 内容挖掘
  • 2.3.2 Web 结构挖掘
  • 2.3.3 Web 访问信息挖掘
  • 2.4 本章小结
  • 第三章 Web 结构挖掘算法
  • 3.1 PageRank 算法
  • 3.1.1 引言
  • 3.1.2 算法原理
  • 3.1.3 PageRank 算法的问题
  • 3.2 HITS 算法
  • 3.2.1 引言
  • 3.2.2 算法原理
  • 3.2.3 HITS 算法存在的问题
  • 3.3 PageRank 算法与 HITS 算法的比较
  • 3.4 本章小结
  • 第四章 Web 结构挖掘算法改进
  • 4.1 强化学习简介
  • 4.1.1 强化学习定义
  • 4.1.2 强化学习分类
  • 4.2 DisRank 算法
  • 4.2.1 问题描述
  • 4.2.2 算法描述
  • 4.3 本章小结
  • 第五章 Web 结构挖掘改进算法测试与分析
  • 5.1 实验方案
  • 5.2 实验步骤
  • 5.2.1 主题选取
  • 5.2.2 数据的收集
  • 5.2.3 算法实现
  • 5.3 实验结果与分析
  • 5.4 本章小结
  • 第六章 总结与展望
  • 6.1 研究总结
  • 6.2 对今后工作的展望
  • 参考文献
  • 攻读学位期间发表(录用)论文
  • 致谢
  • 详细摘要
  • 相关论文文献

    • [1].网络结构对专利PageRank与专利价值关系的门槛效应研究[J]. 科学学与科学技术管理 2020(02)
    • [2].基于叙词表语义关系和PageRank的查询扩展方法[J]. 情报杂志 2016(12)
    • [3].基于社交网络的PageRank算法改进[J]. 图书情报导刊 2017(04)
    • [4].圆圈结构及其变化系统的PageRank排名研究[J]. 计算机工程与应用 2017(09)
    • [5].Ranking Modules for Integrate Testing Based on PageRank Algorithm[J]. Chinese Journal of Electronics 2017(05)
    • [6].基于改进PageRank算法的路网重要交叉口筛选方法[J]. 西南交通大学学报 2016(05)
    • [7].基于洛伦兹变换和PageRank算法的数据资产估值[J]. 计算机系统应用 2020(08)
    • [8].高阶PageRank问题的一个两步分裂迭代算法[J]. 应用数学与计算数学学报 2018(03)
    • [9].基于PageRank算法的出租车需求预测[J]. 微型电脑应用 2019(04)
    • [10].基于关系网络的PageRank算法在禁毒情报上的应用研究[J]. 中国人民公安大学学报(自然科学版) 2019(01)
    • [11].基于PageRank的微博用户影响力算法研究[J]. 计算机应用研究 2018(04)
    • [12].PageRank算法改进研究[J]. 软件导刊 2017(02)
    • [13].面向微博的PageRank算法的改进与应用[J]. 计算机应用与软件 2017(03)
    • [14].基于PageRank算法的网络关键节点查找[J]. 电脑知识与技术 2017(04)
    • [15].基于PageRank算法的图书影响力评价[J]. 中华医学图书情报杂志 2015(12)
    • [16].An adaptive improvement on PageRank algorithm[J]. Applied Mathematics:A Journal of Chinese Universities(Series B) 2013(01)
    • [17].加权PageRank算法研究综述[J]. 软件导刊 2013(02)
    • [18].PageRank在图书推荐技术中的应用研究[J]. 科技通报 2013(04)
    • [19].一种基于PageRank算法和知网的词义消歧方法[J]. 计算机应用与软件 2011(05)
    • [20].个性化PageRank算法在图书馆智能搜索引擎中的实现[J]. 现代情报 2010(07)
    • [21].PageRank算法在孤立点检测中的应用[J]. 微型机与应用 2010(24)
    • [22].基于PageRank的期刊评价研究[J]. 中国科技期刊研究 2009(04)
    • [23].基于转移概率的PageRank算法研究[J]. 科学技术与工程 2008(08)
    • [24].基于改进PageRank算法的轨道交通产业集群分析[J]. 交通运输工程与信息学报 2020(02)
    • [25].基于PageRank的用户影响力评价改进算法[J]. 哈尔滨工业大学学报 2018(05)
    • [26].基于PageRank的微博用户影响力评估模型研究[J]. 信息技术 2018(05)
    • [27].基于分布式PageRank算法的可疑目标挖掘[J]. 高技术通讯 2017(05)
    • [28].基于万有引力定律和PageRank的页面分类系统构建方法研究[J]. 情报科学 2015(06)
    • [29].基于中心词耦合度和PageRank的文本自动摘录算法[J]. 中山大学研究生学刊(社会科学版) 2013(03)
    • [30].一种融合PageRank的协同过滤帖子推荐方法[J]. 中国科学技术大学学报 2014(07)

    标签:;  ;  

    Web结构挖掘中PageRank算法研究
    下载Doc文档

    猜你喜欢