基于Apriori改进算法的Web日志挖掘系统的研究与实现

论文摘要

Web日志挖掘是对用户与Web服务器在交互时产生的数据使用数据挖掘技术发现隐含的规律性知识,得到用户访问站点的频繁程度和行为模式。本文主要从以下几个方面对Web日志挖掘进行系统的分析和研究:本文首先阐述研究背景及Web日志挖掘的国内外研究现状,并对Web数据挖掘进行了概述;其次对Web日志挖掘中的数据预处理技术进行了分析与研究,详细分析了路径补充功能的实现;紧接着研究了Apriori算法在每次生成频繁集后,仍多次扫描有些可以判断出不必再去扫描的项目或事务,影响了Apriori算法的效率,在这样的问题下,本文提出了Apriori算法的改进及web日志挖掘的具体实现过程,并给出具体实例。最后论文总结本课题的研究成果和工作中尚存的不足,并指出Web日志挖掘的研究方向、应用前景和它所面临的挑战。本文的创新点在于:一是由于本地缓存和代理服务器缓存的存在,使得服务器的日志会遗漏一些重要的页面请求。缓存保存了用户最近刚刚访问过的页面,当用户点击“后退”图标时,用户的这一请求不被发送给服务器,显示给用户的是本机缓存的页面,这样Web服务器就无法知道用户又进行了重复访问这种操作,即无法探知到用户又访问了重复的页面。因此,这次访问没有被记录在Web日志中,从而不能准确地体现用户的访问路径。本文针对其不足,根据Web站点结构和客户端缓存实现将疏漏的页面补充在路径里。二是重点分析关联规则算法中的现有Apriori算法,从Apriori算法描述中不难发现,Apriori算法在每次生成频繁集后,又要回去扫描数据库来判断这些候选频繁项目集是否是频繁项目集,有些可以判断出不必再去扫描的项目或事务仍被多次扫描。当候选集规模较大时,事务数据库中的数据在不断地增加,每次增加数据后,Apriori算法计算频繁项目集和生成关联规则这两项工作必须针对增加新的数据后的数据库重新做起,这意味着以前生成的频繁项目集和关联规则都没用了,这显然不利于快速高效地发现关联规则。再有当数据库的规模超出主存的容量时,不足也就明显体现。针对其不足,本文提出一种关联规则挖掘的改进模式,通过引入分辨矩阵实现只扫描一次数据库,从而使算法效率有所提高。三是借助于VC++平台设计一个Web日志分析系统。针对系统的四个子模块:日志记录抽取、会话识别/用户识别、用户分析、页面分析,本文分别进行了介绍分析,进一步明确通过Web日志挖掘的分析,能了解用户的访问信息,更好的为用户提供众多的服务。

论文目录

摘要

Abstract

第一章概述

1.1 Web 日志挖掘的研究背景

1.2 本文的研究意义

1.3 国内外研究现状及趋势

1.3.1 国内Web 日志挖掘研究现状

1.3.2 国外Web 日志挖掘研究现状

1.3.3 现有关联规则挖掘算法

1.3.4 关联规则挖掘算法研究趋势

1.4 本文研究的主要内容

1.5 本文的章节安排

第二章 Web 日志挖掘

2.1 数据挖掘概述

2.1.1 什么是数据挖掘

2.1.2 数据挖掘的流程

2.2 WEB 挖掘概述

2.2.1 Web 挖掘的分类

2.2.2 Web 挖掘的特点

2.3 WEB 日志挖掘的流程

2.3.1 日志采集

2.3.2 数据预处理

2.3.3 数据挖掘

2.3.4 模式分析

2.4 WEB 日志挖掘的应用领域

2.5 本章小结

第三章用户识别及路径补充方法的研究

3.1 问题的提出

3.2 用户识别

3.3 会话识别

3.3.1 会话识别的定义

3.3.2 会话识别算法

3.4 路径补充的实现

3.4.1 Web 站点结构

3.4.2 路径补充的实现思想

3.5 本章小结

第四章关联Apriori 算法的分析与改进

4.1 关联规则简介

4.1.1 关联规则的定义

4.1.2 关联规则的分类

4.2 问题的提出

4.3 APRIORI 算法分析

4.3.1 Apriori 算法的描述

4.3.2 Apriori 算法的技术

4.4 APRIORI 算法的改进

4.4.1 基本定义

4.4.2 改进算法的实现流程

4.4.3 改进算法的应用

4.5 APRIORI 改进算法的分析

4.5.1 算法实验

4.5.2 算法优点

4.6 本章小结

第五章 Web 日志挖掘系统的实现

5.1 日志数据的收集

5.2 系统功能模块的划分

5.3 系统功能模块的实现

5.3.1 日志记录抽取

5.3.2 会话/用户识别

5.3.3 用户分析

5.3.4 页面分析

5.4 本章小结

第六章总结与展望

6.1 总结

6.2 展望

参考文献

基于Apriori改进算法的Web日志挖掘系统的研究与实现

论文摘要

论文目录

相关论文文献

猜你喜欢