基于改进混合聚类技术的用户兴趣智能建模

基于改进混合聚类技术的用户兴趣智能建模

论文摘要

近十几年来,因特网上的各种信息以呈指数级的速度增长,使得互联网用户想要快速找到其真正所需要的资料信息变得越来越困难。在海量因特网信息带来信息过载和信息迷失问题而人们对信息数据的需求却越来越专业化的时候,Web个性化服务技术应运而生,它的出现正好可以在一定的程度上解决因特网中信息的多样化与用户需求的专一化之间的予盾。以Google等为首的商业化互联网公司也提出,下一代互联网必将是智能化、个性化的。在Web个性化服务中,用户兴趣建模技术的好坏决定了最终建立的用户兴趣模型能否准确地反映用户兴趣,是个性化服务的关键环节,决定了系统提供个性化服务的质量。所以本文针对Web个性化服务中的用户兴趣智能建模技术进行了较为深入的研究,其主要贡献如下:首先,提出了一种用户兴趣点个数自动计算方法:在用户兴趣建模过程中,用户兴趣点的个数(亦即该用户对多少个类别的网页感兴趣)的自动确定相当重要,因为在用户建模过程中,这个参数不能采取让用户自行人为指定的方式。本文提出的基于“自动相似度阈值选择”的“自动用户兴趣点个数计算”方法可用于智能地解决用户兴趣点个数的确定问题;其次,为了自动并且较为准确地挖掘出用户兴趣点(也叫用户兴趣类),本文提出了一种改进的基于k-means算法、遗传算法和ISODATA算法的网页文本混合聚类算法:①在对传统的基于划分的k-means聚类算法和遗传算法进行全面、系统研究的基础上,本文首先结合这两种算法对用户浏览过的网页文本进行聚类分析,充分利用了这两种算法各自的优点来克服他们各自的缺点,以达到优势互补的目的;②在聚类算法的迭代过程中,本文进而借鉴了ISODATA算法的思想,对聚类簇创新性地采取了动态分裂、合并的操作,使改进后的混合聚类算法具有一定的自我调整能力,克服了传统的基于划分的聚类算法不能处理复杂形状聚类簇和对初始值选择敏感的问题;再次,利用已经获得的用户兴趣点的描述,本文对用户兴趣类再进行自底向上的层次聚类,得到用户兴趣分类树(ICT)。然后结合用户浏览网页时的动作行为所体现出来的网页兴趣度,计算了用户对每个兴趣类的兴趣度,最终建立了用户近期兴趣视图(CIV)作为用户兴趣模型;最后,本文对上述方法进行了实验验证。实验证明:自动用户兴趣点个数计算方法在大多数情况下能较为准确地计算出用户对多少个类的网页感兴趣,与我们人为事先预备的类的个数相比计算结果正确率达到了约70%;本文提出的改进混合聚类算法HCA在减少一定迭代次数的同时具有更好的聚类效果,在文本聚类算法的评价指标F-measure值上有较好的提高(与传统k-means算法相比平均提高了约28%,与传统遗传算法相比平均提高了约10%),能得到满意结果;并且,把本文新的用户兴趣建模技术应用在个性化搜索实验原型系统MyPSE中能较为真实、贴切地反应用户兴趣。本论文研究提出的用户兴趣建模技术,可以应用在用户个性化信息服务领域,包括个性化推荐、个性化搜索等。如果适当改变其建模规则,本用户兴趣建模技术还可应用在客户信息管理、电子商务、以及数据挖掘其他领域,具有一定的理论价值和实用价值。

论文目录

  • 摘要
  • ABSTRACT
  • 1 绪论
  • 1.1 论文的选题背景及研究意义
  • 1.2 研究现状
  • 1.2.1 个性化服务的发展现状
  • 1.2.2 用户兴趣建模的研究现状
  • 1.3 本文的研究目的和研究内容
  • 1.4 论文组织结构
  • 1.5 本章小结
  • 2 用户浏览网页预处理
  • 2.1 中文网页清洗
  • 2.2 网页特征提取
  • 2.3 网页描述和相似度计算方式
  • 2.4 本章小结
  • 3 用户兴趣点挖掘
  • 3.1 常用聚类算法综述
  • 3.1.1 基于划分的聚类算法简介
  • 3.1.2 层次聚类算法简介
  • 3.1.3 ISODATA 聚类算法简介
  • 3.1.4 遗传算法及其克隆现象简介
  • 3.2 确定用户兴趣点个数
  • 3.2.1 自动相似度阈值选择
  • 3.2.2 自动用户兴趣点个数计算
  • 3.3 基于改进聚类算法的用户兴趣点挖掘
  • 3.3.1 染色体编码和种群初始化
  • 3.3.2 适应值函数的确定
  • 3.3.3 结合k-means 的选择操作
  • 3.3.4 交叉操作
  • 3.3.5 借鉴ISODATA 的变异操作
  • 3.3.6 算法的收敛与求解
  • 3.4 本章小结
  • 4 建立用户兴趣模型
  • 4.1 类间相似度计算方式
  • 4.2 用户行为兴趣简介
  • 4.3 用户子类兴趣度计算
  • 4.3.1 页面兴趣度计算
  • 4.3.2 用户子类兴趣度计算
  • 4.4 用户兴趣模型的建立过程
  • 4.5 基于新用户兴趣建模技术的个性化搜索系统
  • 4.5.1 个性化搜索简介
  • 4.5.2 个性化搜索实验原型系统MyPSE 简介
  • 4.6 本章小结
  • 5 实验结果及分析
  • 5.1 实验方法与步骤
  • 5.2 用户兴趣点个数计算效果实验
  • 5.3 网页聚类算法效果实验
  • 5.4 用户兴趣模型生成实验
  • 5.5 使用新用户兴趣建模技术的个性化搜索效果实验
  • 5.6 本章小结
  • 6 总结与展望
  • 致谢
  • 参考文献
  • 附录
  • 相关论文文献

    • [1].融合情境因素的电子商务用户兴趣挖掘仿真[J]. 计算机仿真 2020(04)
    • [2].基于背景和内容的微博用户兴趣挖掘[J]. 软件学报 2017(02)
    • [3].一种基于用户兴趣的个性化建模方法[J]. 内燃机与配件 2017(04)
    • [4].面向推荐的用户兴趣扩展方法[J]. 山东大学学报(工学版) 2017(02)
    • [5].微博中结合转发特性的用户兴趣话题挖掘方法[J]. 计算机应用研究 2017(07)
    • [6].支持联机分析处理的推特用户兴趣维层次提取方法[J]. 电子与信息学报 2017(09)
    • [7].基于信任与用户兴趣变化的协同过滤方法研究[J]. 情报学报 2017(02)
    • [8].用户兴趣变化下的协同过滤最优推荐仿真[J]. 计算机仿真 2016(08)
    • [9].百度贴吧用户兴趣分类[J]. 福建电脑 2014(11)
    • [10].微博用户兴趣发现研究[J]. 现代图书情报技术 2015(01)
    • [11].满足用户兴趣漂移的计算自适应快速推荐算法[J]. 计算机应用研究 2015(09)
    • [12].《解忧杂货店》走进现实[J]. 时代报告 2016(12)
    • [13].基于用户兴趣领域中可信圈挖掘的推荐模型[J]. 西北工业大学学报 2019(06)
    • [14].基于信息内容和用户关系的用户兴趣分类[J]. 河北省科学院学报 2018(02)
    • [15].基于情景和浏览内容的层次性用户兴趣建模[J]. 计算机系统应用 2017(01)
    • [16].基于改进的关联规则挖掘算法的用户兴趣挖掘[J]. 计算机时代 2016(09)
    • [17].基于学术产出挖掘的用户兴趣建模研究[J]. 图书情报工作 2013(18)
    • [18].国内用户兴趣建模研究进展[J]. 情报杂志 2013(05)
    • [19].面向个性化服务的用户兴趣偏移检测及处理方法[J]. 电子技术 2009(11)
    • [20].多层次用户兴趣模式的动态捕捉[J]. 计算机工程与应用 2009(36)
    • [21].基于分类的用户兴趣漂移模型[J]. 情报杂志 2008(01)
    • [22].基于时间权重和用户兴趣变化的协同过滤算法[J]. 皖西学院学报 2020(02)
    • [23].关于网络用户兴趣数据信息快速查询仿真研究[J]. 计算机仿真 2018(12)
    • [24].基于消费行为理解与分析的用户兴趣建模方法[J]. 电脑知识与技术 2019(14)
    • [25].基于用户兴趣及迁移的话题模型分析[J]. 软件导刊 2018(06)
    • [26].基于数据挖掘的网络购物用户兴趣分类研究[J]. 计算机仿真 2018(07)
    • [27].基于复杂网络及神经网络挖掘用户兴趣的方法[J]. 计算机技术与发展 2016(12)
    • [28].基于图像语义的用户兴趣建模[J]. 数据分析与知识发现 2017(04)
    • [29].社交网络大数据环境下的用户兴趣层次化模型研究[J]. 教育观察(上半月) 2016(08)
    • [30].一种基于用户兴趣的微博实体链接方法[J]. 计算机应用研究 2016(07)

    标签:;  ;  ;  ;  ;  

    基于改进混合聚类技术的用户兴趣智能建模
    下载Doc文档

    猜你喜欢