基于Apriori改进算法的Web日志挖掘系统的研究与实现

基于Apriori改进算法的Web日志挖掘系统的研究与实现

论文摘要

Web日志挖掘是对用户与Web服务器在交互时产生的数据使用数据挖掘技术发现隐含的规律性知识,得到用户访问站点的频繁程度和行为模式。本文主要从以下几个方面对Web日志挖掘进行系统的分析和研究:本文首先阐述研究背景及Web日志挖掘的国内外研究现状,并对Web数据挖掘进行了概述;其次对Web日志挖掘中的数据预处理技术进行了分析与研究,详细分析了路径补充功能的实现;紧接着研究了Apriori算法在每次生成频繁集后,仍多次扫描有些可以判断出不必再去扫描的项目或事务,影响了Apriori算法的效率,在这样的问题下,本文提出了Apriori算法的改进及web日志挖掘的具体实现过程,并给出具体实例。最后论文总结本课题的研究成果和工作中尚存的不足,并指出Web日志挖掘的研究方向、应用前景和它所面临的挑战。本文的创新点在于:一是由于本地缓存和代理服务器缓存的存在,使得服务器的日志会遗漏一些重要的页面请求。缓存保存了用户最近刚刚访问过的页面,当用户点击“后退”图标时,用户的这一请求不被发送给服务器,显示给用户的是本机缓存的页面,这样Web服务器就无法知道用户又进行了重复访问这种操作,即无法探知到用户又访问了重复的页面。因此,这次访问没有被记录在Web日志中,从而不能准确地体现用户的访问路径。本文针对其不足,根据Web站点结构和客户端缓存实现将疏漏的页面补充在路径里。二是重点分析关联规则算法中的现有Apriori算法,从Apriori算法描述中不难发现,Apriori算法在每次生成频繁集后,又要回去扫描数据库来判断这些候选频繁项目集是否是频繁项目集,有些可以判断出不必再去扫描的项目或事务仍被多次扫描。当候选集规模较大时,事务数据库中的数据在不断地增加,每次增加数据后,Apriori算法计算频繁项目集和生成关联规则这两项工作必须针对增加新的数据后的数据库重新做起,这意味着以前生成的频繁项目集和关联规则都没用了,这显然不利于快速高效地发现关联规则。再有当数据库的规模超出主存的容量时,不足也就明显体现。针对其不足,本文提出一种关联规则挖掘的改进模式,通过引入分辨矩阵实现只扫描一次数据库,从而使算法效率有所提高。三是借助于VC++平台设计一个Web日志分析系统。针对系统的四个子模块:日志记录抽取、会话识别/用户识别、用户分析、页面分析,本文分别进行了介绍分析,进一步明确通过Web日志挖掘的分析,能了解用户的访问信息,更好的为用户提供众多的服务。

论文目录

  • 摘要
  • Abstract
  • 第一章 概述
  • 1.1 Web 日志挖掘的研究背景
  • 1.2 本文的研究意义
  • 1.3 国内外研究现状及趋势
  • 1.3.1 国内Web 日志挖掘研究现状
  • 1.3.2 国外Web 日志挖掘研究现状
  • 1.3.3 现有关联规则挖掘算法
  • 1.3.4 关联规则挖掘算法研究趋势
  • 1.4 本文研究的主要内容
  • 1.5 本文的章节安排
  • 第二章 Web 日志挖掘
  • 2.1 数据挖掘概述
  • 2.1.1 什么是数据挖掘
  • 2.1.2 数据挖掘的流程
  • 2.2 WEB 挖掘概述
  • 2.2.1 Web 挖掘的分类
  • 2.2.2 Web 挖掘的特点
  • 2.3 WEB 日志挖掘的流程
  • 2.3.1 日志采集
  • 2.3.2 数据预处理
  • 2.3.3 数据挖掘
  • 2.3.4 模式分析
  • 2.4 WEB 日志挖掘的应用领域
  • 2.5 本章小结
  • 第三章 用户识别及路径补充方法的研究
  • 3.1 问题的提出
  • 3.2 用户识别
  • 3.3 会话识别
  • 3.3.1 会话识别的定义
  • 3.3.2 会话识别算法
  • 3.4 路径补充的实现
  • 3.4.1 Web 站点结构
  • 3.4.2 路径补充的实现思想
  • 3.5 本章小结
  • 第四章 关联Apriori 算法的分析与改进
  • 4.1 关联规则简介
  • 4.1.1 关联规则的定义
  • 4.1.2 关联规则的分类
  • 4.2 问题的提出
  • 4.3 APRIORI 算法分析
  • 4.3.1 Apriori 算法的描述
  • 4.3.2 Apriori 算法的技术
  • 4.4 APRIORI 算法的改进
  • 4.4.1 基本定义
  • 4.4.2 改进算法的实现流程
  • 4.4.3 改进算法的应用
  • 4.5 APRIORI 改进算法的分析
  • 4.5.1 算法实验
  • 4.5.2 算法优点
  • 4.6 本章小结
  • 第五章 Web 日志挖掘系统的实现
  • 5.1 日志数据的收集
  • 5.2 系统功能模块的划分
  • 5.3 系统功能模块的实现
  • 5.3.1 日志记录抽取
  • 5.3.2 会话/用户识别
  • 5.3.3 用户分析
  • 5.3.4 页面分析
  • 5.4 本章小结
  • 第六章 总结与展望
  • 6.1 总结
  • 6.2 展望
  • 参考文献
  • 相关论文文献

    • [1].基于云计算的Web日志挖掘模块设计[J]. 电脑与信息技术 2019(02)
    • [2].基于Web日志挖掘的个性化学习资源推荐模型研究[J]. 电脑知识与技术 2018(23)
    • [3].基于日志挖掘的移动搜索用户行为研究综述[J]. 情报理论与实践 2014(03)
    • [4].网络日志挖掘技术探究[J]. 硅谷 2010(14)
    • [5].日志挖掘技术及其应用[J]. 中国新技术新产品 2009(20)
    • [6].基于日志挖掘的电商查询建议方法[J]. 计算机工程与科学 2018(02)
    • [7].基于流程日志挖掘的专家平台设计[J]. 计算机工程 2008(20)
    • [8].基于访问日志挖掘的高校综合信息门户页面推荐研究[J]. 计算技术与自动化 2016(04)
    • [9].Web日志挖掘中的数据预处理研究[J]. 河南科技 2018(19)
    • [10].Web日志挖掘系统研究及设计[J]. 信息与电脑(理论版) 2014(16)
    • [11].基于Web日志的数据挖掘初探[J]. 电脑知识与技术 2010(27)
    • [12].基于聚类算法的电子商务日志挖掘商业智能研究[J]. 中国商贸 2014(01)
    • [13].基于Apriori算法的高校Web日志挖掘系统构建[J]. 中国林业教育 2019(02)
    • [14].基于日志挖掘的移动应用用户访问模型建模技术研究[J]. 计算机科学 2014(11)
    • [15].Web日志挖掘的研究[J]. 数字通信世界 2019(03)
    • [16].基于云计算的大规模网页日志挖掘研究[J]. 电脑知识与技术 2014(28)
    • [17].基于聚类的Web日志挖掘方法探析[J]. 商场现代化 2008(35)
    • [18].浅谈Web日志挖掘技术[J]. 科技致富向导 2010(27)
    • [19].基于Web日志挖掘的策略研究[J]. 电脑知识与技术 2011(31)
    • [20].基于Web日志挖掘的个性化教育系统的研究与实现[J]. 福建电脑 2009(06)
    • [21].Web日志挖掘中事务识别的研究[J]. 广东广播电视大学学报 2009(03)
    • [22].Web日志挖掘在图书馆中的应用探讨[J]. 江西图书馆学刊 2008(03)
    • [23].PUGA:Web日志挖掘模型[J]. 计算机工程与设计 2016(09)
    • [24].Web日志挖掘中的数据预处理研究[J]. 黑龙江科技信息 2014(31)
    • [25].聚类算法在Web日志挖掘中的研究[J]. 物联网技术 2015(07)
    • [26].基于日志挖掘的影像设备云监控系统的设计与应用研究[J]. 中国数字医学 2020(10)
    • [27].Web日志挖掘中的数据预处理技术研究[J]. 科技视界 2014(12)
    • [28].基于Web日志挖掘的个性化服务技术的研究[J]. 网络安全技术与应用 2010(06)
    • [29].Web日志挖掘技术在网络教学平台中的应用研究[J]. 制造业自动化 2009(11)
    • [30].基于SQL Server 2005的Web日志挖掘应用研究[J]. 现代计算机(专业版) 2008(12)

    标签:;  ;  ;  ;  ;  

    基于Apriori改进算法的Web日志挖掘系统的研究与实现
    下载Doc文档

    猜你喜欢