基于Web日志的频繁浏览路径挖掘技术研究

基于Web日志的频繁浏览路径挖掘技术研究

论文摘要

频繁浏览路径的挖掘是Web使用挖掘中的一个重要研究领域,它对于电子商务网站的商业决策、改善网站建设等都有现实的指导意义。通过对大量文献的研究,本文提出了两种基于Web日志的频繁路径的挖掘算法。一、提出了一种新的基于Web日志的挖掘用户浏览偏爱路径的方法。首先,综合考虑影响用户浏览兴趣的Web日志中的浏览次数、浏览时间和浏览接收字节数等因素,采用算术法求解兴趣度;其次以浏览兴趣度为基本元素,以“三矩阵”为数据结构实现挖掘算法,这种“三矩阵”的数据结构避免了多次频繁浏览数据库,提高了算法的效率。以存储矩阵为基础建立会话矩阵和路径矩阵后,再在会话矩阵上采用两个页面向量夹角余弦作为相似用户的页面距离公式进行页面聚类,求得相似用户的相关页面集。本文采用的计算页面距离的公式,解决了Humming距离的不足之处,全面考虑了Web日志中多种因素对页面距离产生的影响,得到的相关页面集更精确,相似度更高,进而提高了算法的准确性;最后利用路径选择偏爱度在相似用户的路径矩阵上挖掘出相似用户的浏览偏爱路径。二、提出了一种基于Web日志的用户连续频繁路径的挖掘算法。采用多元线性回归的方式实现了兴趣度的线性求解;其次将浏览兴趣度作为一个属性,根据不同需求生成三种Web浏览树,此浏览树不仅解决了连续可回溯路径的描述问题,而且可以全面反映用户浏览情况,使结果更全面,更实用;以三种浏览树为前提,生成倒序单子树序列,在经过整合倒序单子树后的RT树上挖掘出频繁浏览路径。本文提出的两种算法不仅在页面浏览兴趣度的求解方法上提出了创新性的改进,而且提升了频繁路径的精准性和合理性。实验证明算法结果更真实,更全面。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 选题背景
  • 1.2 本课题的研究现状
  • 1.3 本文的研究内容
  • 1.4 本文的结构框架
  • 1.5 本章小结
  • 第二章 Web挖掘的相关理论
  • 2.1 数据挖掘基础知识
  • 2.1.1 数据挖掘的产生背景
  • 2.1.2 数据挖掘概念
  • 2.2 Web挖掘概述
  • 2.2.1 Web挖掘的概念
  • 2.2.2 Web挖掘的分类
  • 2.3 本章小结
  • 第三章 一种新的基于Web日志的挖掘用户浏览偏爱路径的算法
  • 3.1 引言
  • 3.1.1 浏览偏爱路径挖掘算法比较与分析
  • 3.1.2 本章算法改进之处
  • 3.2 基于Web日志的挖掘用户浏览偏爱路径的算法描述
  • 3.2.1 相关定义
  • 3.2.2 改进的浏览偏爱路径挖掘算法实现
  • 3.2.3 主要算法
  • 3.2.4 示例分析
  • 3.3 实验结果分析与讨论
  • 3.3.1 实验结果比较
  • 3.3.2 实验结果讨论
  • 3.4 本章小结
  • 第四章 基于Web日志的用户连续频繁路径的挖掘算法
  • 4.1 引言
  • 4.1.1 频繁路径挖掘的经典算法比较与分析
  • 4.1.2 本章算法改进之处
  • 4.2 基于Web日志的连续的频繁路径的挖掘算法描述
  • 4.2.1 相关定义
  • 4.2.2 基于Web日志的频繁路径的挖掘算法实现
  • 4.2.3 主要算法
  • 4.3 示例分析
  • 4.4 实验结果比较与分析
  • 4.4.1 实验结果比较
  • 4.4.2 实验结果分析与讨论
  • 4.5 本章小结
  • 第五章 总结与展望
  • 5.1 已完成的工作
  • 5.2 进一步的工作展望
  • 5.3 本章小结
  • 参考文献
  • 致谢
  • 攻读硕士学位期间撰写和发表的学术论文
  • 攻读硕士学位期间参与的科研项目
  • 相关论文文献

    标签:;  ;  ;  ;  ;  

    基于Web日志的频繁浏览路径挖掘技术研究
    下载Doc文档

    猜你喜欢