Web日志挖掘中数据预处理算法的研究

Web日志挖掘中数据预处理算法的研究

论文摘要

Internet的迅猛发展,尤其是Web的全球普及,使得Web上信息量无比丰富。通过对Web的挖掘,可从Web页面中提取所需的知识:对总的用户访问行为、频度、内容的分析,可得到关于群体用户访问行为和方式的普遍知识,用以改进Web服务设计。更重用的是,通过对这些用户特征的理解和分析,有助于开展有针对性的电子商务活动。Web日志挖掘利用数据挖掘技术分析和挖掘网络日志,获取网站使用情况的有价值模式,应用于个性化服务、网站设计和商业决策等方面。而数据预处理在Web日志挖掘过程中起着至关重要的作用,其中用户识别和会话识别是主要环节,也是整个过程的基础和关键步骤。本文将对提高用户识别和会话识别算法进行研究。本文系统地阐述了从数据挖掘、Web数据挖掘到Web日志挖掘整个过程,重点研究了Web日志挖掘技术及其步骤,研究了数据预处理的过程和方法,包括用户识别技术和会话识别技术等。本文的主要工作是,首先提出了一种以活动用户为基础的用户识别算法,它使用IP地址和用户访问截止时间去识别日志中的不同用户,实验结果表明,该算法比基本用户识别算法有着更好的性能,甚至对于小型日志文件系统也适用。其次,给出了会话识别的定义,并对传统的预先设定时间间隔方法进行了优化,在给出算法数据结构的基础上具体描述了算法,实验证明会话质量得到了提高。

论文目录

  • 摘要
  • ABSTRACT
  • 绪论
  • 一 课题的研究背景
  • 二 课题的研究意义
  • 三 课题的研究现状
  • 四 Web 日志挖掘的应用现状
  • 五 论文的主要工作和组织结构
  • 第一章 Web 数据挖掘
  • 1.1 数据挖掘
  • 1.1.1 数据挖掘背景
  • 1.1.2 数据挖掘的定义
  • 1.1.3 国内外数据挖掘的研究现状
  • 1.2 Web 数据挖掘
  • 1.2.1 Web 技术的历史与发展
  • 1.2.2 Web 数据挖掘提出的背景
  • 1.2.3 Web 数据挖掘的定义
  • 1.2.4 Web 数据挖掘的分类
  • 1.3 模式发现
  • 1.4 模式分析
  • 1.5 Web 挖掘的特点与难点
  • 1.5.1 Web 挖掘的特点
  • 1.5.2 Web 挖掘难点
  • 1.6 本章小结
  • 第二章 基于Web 的日志挖掘技术
  • 2.1 Web 日志挖掘的提出
  • 2.2 Web 日志挖掘的应用
  • 2.3 Web 日志挖掘的研究现状
  • 2.4 Web 日志挖掘所要解决的问题
  • 2.5 Web 日志挖掘的过程
  • 2.6 本章小结
  • 第三章 Web 日志挖掘系统的数据预处理
  • 3.1 Web 日志基础知识
  • 3.1.1 用户Web 访问过程
  • 3.1.2 术语解释
  • 3.1.3 Web 服务器日志格式
  • 3.2 Web 日志预处理过程
  • 3.2.1 数据清理
  • 3.2.2 用户识别
  • 3.2.3 会话识别
  • 3.2.4 路径补充
  • 3.2.5 事物识别
  • 3.3 本章小结
  • 第四章 Web 日志挖掘中数据预处理算法的改进
  • 4.1 Web 数据预处理过程
  • 4.2 用户识别算法优化
  • 4.2.1 基本概念
  • 4.2.2 基本用户识别算法
  • 4.2.3 基于活动用户的用户识别算法
  • 4.2.4 实验结果分析
  • 4.3 会话识别算法优化
  • 4.3.1 用户会话概念
  • 4.3.2 用户会话识别算法的优化
  • 4.3.3 会话识别算法描述
  • 4.3.4 实验结果分析
  • 4.4 本章小结
  • 结论
  • 参考文献
  • 攻读硕士学位期间发表的学术论文
  • 致谢
  • 相关论文文献

    • [1].基于云计算的Web日志挖掘模块设计[J]. 电脑与信息技术 2019(02)
    • [2].基于Web日志挖掘的个性化学习资源推荐模型研究[J]. 电脑知识与技术 2018(23)
    • [3].基于日志挖掘的移动搜索用户行为研究综述[J]. 情报理论与实践 2014(03)
    • [4].网络日志挖掘技术探究[J]. 硅谷 2010(14)
    • [5].日志挖掘技术及其应用[J]. 中国新技术新产品 2009(20)
    • [6].基于日志挖掘的电商查询建议方法[J]. 计算机工程与科学 2018(02)
    • [7].基于流程日志挖掘的专家平台设计[J]. 计算机工程 2008(20)
    • [8].基于访问日志挖掘的高校综合信息门户页面推荐研究[J]. 计算技术与自动化 2016(04)
    • [9].Web日志挖掘中的数据预处理研究[J]. 河南科技 2018(19)
    • [10].Web日志挖掘系统研究及设计[J]. 信息与电脑(理论版) 2014(16)
    • [11].基于Web日志的数据挖掘初探[J]. 电脑知识与技术 2010(27)
    • [12].基于聚类算法的电子商务日志挖掘商业智能研究[J]. 中国商贸 2014(01)
    • [13].基于Apriori算法的高校Web日志挖掘系统构建[J]. 中国林业教育 2019(02)
    • [14].基于日志挖掘的移动应用用户访问模型建模技术研究[J]. 计算机科学 2014(11)
    • [15].Web日志挖掘的研究[J]. 数字通信世界 2019(03)
    • [16].基于云计算的大规模网页日志挖掘研究[J]. 电脑知识与技术 2014(28)
    • [17].基于聚类的Web日志挖掘方法探析[J]. 商场现代化 2008(35)
    • [18].浅谈Web日志挖掘技术[J]. 科技致富向导 2010(27)
    • [19].基于Web日志挖掘的策略研究[J]. 电脑知识与技术 2011(31)
    • [20].基于Web日志挖掘的个性化教育系统的研究与实现[J]. 福建电脑 2009(06)
    • [21].Web日志挖掘中事务识别的研究[J]. 广东广播电视大学学报 2009(03)
    • [22].Web日志挖掘在图书馆中的应用探讨[J]. 江西图书馆学刊 2008(03)
    • [23].PUGA:Web日志挖掘模型[J]. 计算机工程与设计 2016(09)
    • [24].Web日志挖掘中的数据预处理研究[J]. 黑龙江科技信息 2014(31)
    • [25].聚类算法在Web日志挖掘中的研究[J]. 物联网技术 2015(07)
    • [26].基于日志挖掘的影像设备云监控系统的设计与应用研究[J]. 中国数字医学 2020(10)
    • [27].Web日志挖掘中的数据预处理技术研究[J]. 科技视界 2014(12)
    • [28].基于Web日志挖掘的个性化服务技术的研究[J]. 网络安全技术与应用 2010(06)
    • [29].Web日志挖掘技术在网络教学平台中的应用研究[J]. 制造业自动化 2009(11)
    • [30].基于SQL Server 2005的Web日志挖掘应用研究[J]. 现代计算机(专业版) 2008(12)

    标签:;  ;  ;  ;  

    Web日志挖掘中数据预处理算法的研究
    下载Doc文档

    猜你喜欢