基于兴趣度的Web日志用户访问序列模式挖掘

基于兴趣度的Web日志用户访问序列模式挖掘

论文摘要

随着网络技术和因特网的迅速发展,网络已经成为人们进行交流和相互联系的有效平台,它存储了大量的信息、数据。由于信息量的庞大,对于网络用户来说,如何能够及时地发现和利用有用的信息,则变得越来越困难。对于网站管理者来说,怎样合理地组织网站的布局,提高网站的点击率,也显得相当有难度。为了更好地解决上述相关问题,势必将数据挖掘技术应用于互联网,因此,形成了一个新的研究领域——Web挖掘(Web Mining). Web挖掘通常分为三类,包括Web内容挖掘,Web结构挖掘和Web使用挖掘。Web使用挖掘是其中重要的应用研究方向之一,其目的是找出网站用户的访问模式,找出用户感兴趣的浏览方式,对优化站点结构和为用户提供个性化服务具有重要的意义。本文主要研究的是基于兴趣度的Web日志用户访问序列模式挖掘,针对当前挖掘用户访问序列模式算法仅仅将频繁访问路径作为用户浏览兴趣路径的问题,改进了WAP-mine算法,命名为基于兴趣度的Web日志用户访问序列模式挖掘算法BIWAP-mine (Web Access Pattern mining based on User Traversal Interest)。本文提出了访问序列上用户浏览兴趣度的定义,综合考虑了页面访问次数、浏览时间、页而信息量大小和带宽来定义用户兴趣度,并将此兴趣度用于改进WAP-mine算法。最后结合具体的实例,对算法进行了验证。结果表明该算法是有效的,在挖掘用户浏览兴趣路径方面比当前流行的WAP-mine挖掘算法更准确,并具有较好的执行效率。

论文目录

  • 摘要
  • Abstract
  • 目录
  • 第一章 绪论
  • 1.1 研究背景及意义
  • 1.2 WEB使用挖掘国内外的研究现状
  • 1.3 本文研究的内容
  • 1.4 本文组织结构
  • 第二章 WEB挖掘
  • 2.1 WEB挖掘技术
  • 2.2 WEB挖掘分类
  • 2.2.1 Web内容挖掘
  • 2.2.2 Web结构挖掘
  • 2.2.3 Web使用挖掘
  • 第三章 WEB日志数据预处理
  • 3.1 数据预处理
  • 3.1.1 数据预处理介绍
  • 3.1.2 Web日志数据的预处理
  • 3.2 WEB日志预处理过程
  • 3.2.1 清洗数据
  • 3.2.2 识别用户
  • 3.2.3 识别会话
  • 3.2.4 识别事务
  • 第四章 基于改进兴趣度的序列模式挖掘
  • 4.1 序列模式的相关概念及定义
  • 4.2 经典序列模式挖掘算法分析
  • 4.2.1 Apriori算法
  • 4.2.2 WAP-mine算法
  • 4.3 用户对页面的兴趣度介绍
  • 4.3.1 常用的页面兴趣度介绍
  • 4.3.2 页面兴趣度的改进
  • 第五章 基于兴趣度的WEB日志用户访问序列模式挖掘算法
  • 5.1 基于兴趣度的用户访问序列模式介绍
  • 5.2 基于兴趣度的用户访问序列模式挖掘
  • 5.2.1 算法的总体思想
  • 5.2.2 建立基于兴趣度的用户访问模式树BIWAP-tree
  • 5.2.3 在BIWAP-tree上挖掘用户访问序列模式
  • 5.3 实验与结果
  • 总结与展望
  • 参考文献
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  ;  

    基于兴趣度的Web日志用户访问序列模式挖掘
    下载Doc文档

    猜你喜欢