基于关联规则及序列模式的Web日志挖掘系统

基于关联规则及序列模式的Web日志挖掘系统

论文摘要

随着Internet的飞速发展,WWW已成为遍布全球涉及人类活动各个领域的信息资源。如何从海量信息中获取潜在的知识变得十分必要。将数据挖掘技术应用于互联网--Web数据挖掘(Web Mining)目前成为许多研究领域的热点。Web日志挖掘是Web数据挖掘的一个分支,作为Web挖掘的重要组成部分,又有着特殊的理论和实践意义。本论文论述了Web数据挖掘的研究背景及国内外研究现状,简要介绍了数据挖掘的定义、过程及最常用的技术,Web数据挖掘的定义及分类等基础知识。详细阐述了Web日志挖掘的预处理过程及其各环节的思想及关键技术,重点研究了在Web日志挖掘中采用的关联规则及序列模式算法的实现途径,深化了对数据挖掘理论的理解,为构建Web日志挖掘系统提供了技术支撑。论文取得的主要研究成果有以下3点:(1)在Web日志挖掘预处理的事务识别中采用最大前向参引模型MFR算法,将用户的访问记录划分成网页浏览序列,去除了用户因改变访问主题而点击“回退”造成的影响。以此更好地挖掘用户的浏览模式。然后在此基础上使用序列模式的PreFixSpan算法挖掘用户频繁访问的路径。使得挖掘结果更精确、更有效。(2)本文根据上述理论研究结合整体方案设计开发了一个Web日志挖掘系统,该系统能够从网站的主页开始,逐层建立各级栏目的相关数据库文件并最后得到网站的拓扑结构。该系统还通过人机对话方式,采用试探性方法及设计的测试程序,将用户访问的成千上万个不同的页面(即不同的访问地址)与网站对应的栏目(一般只有数十个)联系起来。为Web日志挖掘奠定了坚实的基础,使得挖掘的结果更有意义。这也是本文在应用上的创新。(3)将Web日志挖掘系统应用于具体网站,根据挖掘的关联规则及用户频繁访问的路径,对网站的组织结构及网页的链接方式提出改进意见。使Web日志预处理及数据挖掘算法的理论与研究更具有现实性及实用性,同时也验证了系统的有效性。

论文目录

  • 表目录
  • 图目录
  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 研究背景
  • 1.2 国内外研究现状
  • 1.2.1 国外研究现状
  • 1.2.2 国内研究现状
  • 1.3 本研究课题的主要工作和论文的结构安排
  • 第二章 数据挖掘及WEB 挖掘技术综述
  • 2.1 数据挖掘技术
  • 2.1.1 数据挖掘的定义
  • 2.1.2 数据挖掘的主要过程
  • 2.1.3 数据挖掘常用技术
  • 2.2 Web 数据挖掘技术
  • 2.2.1 Web 挖掘定义
  • 2.2.2 Web 挖掘分类
  • 2.3 本章小结
  • 第三章 Web 日志的预处理及挖掘算法
  • 3.1 Web 日志
  • 3.1.1 Web 日志形成的原理
  • 3.1.2 Web 日志介绍
  • 3.1.3 Web 日志的挖掘步骤
  • 3.2 Web 日志挖掘的数据预处理
  • 3.2.1 数据清理
  • 3.2.2 用户识别
  • 3.2.3 会话识别
  • 3.2.4 事务识别
  • 3.3 Web 日志常用的挖掘算法
  • 3.3.1 关联规则挖掘算法
  • 3.3.2 序列模式挖掘算法
  • 3.4 本章小结
  • 第四章 Web 日志挖掘系统的分析与设计
  • 4.1 系统开发的需求分析
  • 4.2 系统功能设计
  • 4.3 系统模块设计
  • 4.3.1 构建网站栏目结构子系统
  • 4.3.2 Web 日志数据导入子系统
  • 4.3.3 站点流量分析与报告打印子系统
  • 4.3.4 数据预处理子系统
  • 4.3.5 关联分析与报告打印子系统
  • 4.3.6 序列分析与报告打印子系统
  • 4.3.7 系统服务
  • 4.4 本章小结
  • 第五章 Web 日志挖掘系统的应用
  • 5.1 目标网站的选择与系统的登录
  • 5.1.1 目标网站的选择
  • 5.1.2 系统的登录
  • 5.2 “货比货”网站的栏目结构
  • 5.2.1 网站首页信息
  • 5.2.2 一级栏目信息
  • 5.2.3 二级栏目信息
  • 5.2.4 三级栏目信息
  • 5.2.5 “货比货”网站栏目整体结构
  • 5.3 Web 日志数据的导入
  • 5.3.1 Web 日志导入
  • 5.3.2 Web 日志数据浏览
  • 5.4 Web 站点流量分析
  • 5.4.1 响应状态分析
  • 5.4.2 请求成功的用户IP 地址统计分析
  • 5.4.3 页面访问流量统计分析
  • 5.4.4 访问成功的页面统计分析
  • 5.4.5 访问出错的页面统计分析
  • 5.5 Web 日志数据预处理
  • 5.5.1 数据清理
  • 5.5.2 栏目地址调整
  • 5.5.3 栏目识别
  • 5.5.4 用户识别
  • 5.5.5 会话识别
  • 5.5.6 事务识别
  • 5.6 Web 日志关联分析与报告
  • 5.6.1 长度为1 的关联分析
  • 5.6.2 长度为2 的关联分析
  • 5.6.3 长度为3 的关联分析
  • 5.6.4 长度为4 的关联分析
  • 5.6.5 产生关联规则
  • 5.7 Web 日志序列分析与报告
  • 5.7.1 序列分析数据准备
  • 5.7.2 长度为1 的序列分析与报告
  • 5.7.3 长度为2 的序列分析与报告
  • 5.7.4 长度为3 的序列分析与报告
  • 5.7.5 长度为4 的序列分析与报告
  • 5.8 Web 日志挖掘的分析结果及对网站结构的调整建议
  • 5.8.1 关联分析结果及改进建议
  • 5.8.2 序列分析结果及改进建议
  • 结束语
  • 参考文献
  • 作者在学期间取得的学术成果
  • 致谢
  • 相关论文文献

    • [1].基于云计算的Web日志挖掘模块设计[J]. 电脑与信息技术 2019(02)
    • [2].基于Web日志挖掘的个性化学习资源推荐模型研究[J]. 电脑知识与技术 2018(23)
    • [3].基于日志挖掘的移动搜索用户行为研究综述[J]. 情报理论与实践 2014(03)
    • [4].网络日志挖掘技术探究[J]. 硅谷 2010(14)
    • [5].日志挖掘技术及其应用[J]. 中国新技术新产品 2009(20)
    • [6].基于日志挖掘的电商查询建议方法[J]. 计算机工程与科学 2018(02)
    • [7].基于流程日志挖掘的专家平台设计[J]. 计算机工程 2008(20)
    • [8].基于访问日志挖掘的高校综合信息门户页面推荐研究[J]. 计算技术与自动化 2016(04)
    • [9].Web日志挖掘中的数据预处理研究[J]. 河南科技 2018(19)
    • [10].Web日志挖掘系统研究及设计[J]. 信息与电脑(理论版) 2014(16)
    • [11].基于Web日志的数据挖掘初探[J]. 电脑知识与技术 2010(27)
    • [12].基于聚类算法的电子商务日志挖掘商业智能研究[J]. 中国商贸 2014(01)
    • [13].基于Apriori算法的高校Web日志挖掘系统构建[J]. 中国林业教育 2019(02)
    • [14].基于日志挖掘的移动应用用户访问模型建模技术研究[J]. 计算机科学 2014(11)
    • [15].Web日志挖掘的研究[J]. 数字通信世界 2019(03)
    • [16].基于云计算的大规模网页日志挖掘研究[J]. 电脑知识与技术 2014(28)
    • [17].基于聚类的Web日志挖掘方法探析[J]. 商场现代化 2008(35)
    • [18].浅谈Web日志挖掘技术[J]. 科技致富向导 2010(27)
    • [19].基于Web日志挖掘的策略研究[J]. 电脑知识与技术 2011(31)
    • [20].基于Web日志挖掘的个性化教育系统的研究与实现[J]. 福建电脑 2009(06)
    • [21].Web日志挖掘中事务识别的研究[J]. 广东广播电视大学学报 2009(03)
    • [22].Web日志挖掘在图书馆中的应用探讨[J]. 江西图书馆学刊 2008(03)
    • [23].PUGA:Web日志挖掘模型[J]. 计算机工程与设计 2016(09)
    • [24].Web日志挖掘中的数据预处理研究[J]. 黑龙江科技信息 2014(31)
    • [25].聚类算法在Web日志挖掘中的研究[J]. 物联网技术 2015(07)
    • [26].基于日志挖掘的影像设备云监控系统的设计与应用研究[J]. 中国数字医学 2020(10)
    • [27].Web日志挖掘中的数据预处理技术研究[J]. 科技视界 2014(12)
    • [28].基于Web日志挖掘的个性化服务技术的研究[J]. 网络安全技术与应用 2010(06)
    • [29].Web日志挖掘技术在网络教学平台中的应用研究[J]. 制造业自动化 2009(11)
    • [30].基于SQL Server 2005的Web日志挖掘应用研究[J]. 现代计算机(专业版) 2008(12)

    标签:;  ;  ;  ;  

    基于关联规则及序列模式的Web日志挖掘系统
    下载Doc文档

    猜你喜欢