论文摘要
随着网络技术和因特网的迅速发展,网络已经成为人们进行交流和相互联系的有效平台,它存储了大量的信息、数据。由于信息量的庞大,对于网络用户来说,如何能够及时地发现和利用有用的信息,则变得越来越困难。对于网站管理者来说,怎样合理地组织网站的布局,提高网站的点击率,也显得相当有难度。为了更好地解决上述相关问题,势必将数据挖掘技术应用于互联网,因此,形成了一个新的研究领域——Web挖掘(Web Mining). Web挖掘通常分为三类,包括Web内容挖掘,Web结构挖掘和Web使用挖掘。Web使用挖掘是其中重要的应用研究方向之一,其目的是找出网站用户的访问模式,找出用户感兴趣的浏览方式,对优化站点结构和为用户提供个性化服务具有重要的意义。本文主要研究的是基于兴趣度的Web日志用户访问序列模式挖掘,针对当前挖掘用户访问序列模式算法仅仅将频繁访问路径作为用户浏览兴趣路径的问题,改进了WAP-mine算法,命名为基于兴趣度的Web日志用户访问序列模式挖掘算法BIWAP-mine (Web Access Pattern mining based on User Traversal Interest)。本文提出了访问序列上用户浏览兴趣度的定义,综合考虑了页面访问次数、浏览时间、页而信息量大小和带宽来定义用户兴趣度,并将此兴趣度用于改进WAP-mine算法。最后结合具体的实例,对算法进行了验证。结果表明该算法是有效的,在挖掘用户浏览兴趣路径方面比当前流行的WAP-mine挖掘算法更准确,并具有较好的执行效率。