关于推荐系统的统计预测研究

关于推荐系统的统计预测研究

论文摘要

随着互联网的普及以及电子商务的发展,网络信息急剧膨胀,导致信息超载和信息迷航现象日益严重。在这种情况下,推荐系统作为一种有效的信息过滤手段应运而生。推荐系统直接与用户交互,模拟商家向用户提供商品推荐服务,在海量的商品信息中发现用户真正所需的商品。近年来,关于推荐系统的研究在理论上和实践上取得巨大的进展,然而它依然面临着一系列的挑战,比如推荐准确度、关系矩阵的稀疏性等[33]。协同过滤是推荐系统中最核心和应用最为广泛的技术之一。基于内存的协同过滤是协同过滤技术的重要分支通常被划分为两类:基于用户的协同过滤和基于项目的协同过滤[1]。不论以上哪种协同过滤技术,其关键在于选取真正相似的邻居集。本文对推荐系统的组成与体系结构、核心的推荐技术以及评判准则进行有益的探索和研究,主要的工作体现在以下三个方面:首先,理论分析与探讨主要项目相似度的性质,并揭示它们的应用局限性。目前,协同过滤技术中常用的相似度主要有余弦相似度,皮尔逊相似度等[2][5]。我们首先理论上探讨项目相似度的性质,并归纳为引理;然后根据引理分析它们的应用局限性并揭示它们的统计本质。其次,提出了两种新的项目相似度:基于互信息的相似度和基于L1距离的相似度。基于互信息的相似度是建立在项目评分的概率模型之上将统计理论、信息度量[55]与协同过滤技术的具体实际相结合而得到的一种新的相似度衡量方式。一些相似度诸如余弦相似度、皮尔逊相似度等只衡量两个对象之间的线性关系以及有些相似度只检测单态的依赖关系,基于互信息的相似度既考虑线性的关系也考虑非线性的关系[37]。因此,基于互信息的相似度粗粒度地考虑两个对象之间的相互关系,它既可直接用于衡量两个对象之间的项目关系又可被用于对数据集的初步的分类筛选。基于L1距离的相似度是将L1距离应用到协同过滤技术中而得到的一种新的相似度衡量。它具有灵敏度高,计算简单等优点。最后,建造了一个基于分层思想的双层协同过滤框架。本框架采用双层的信息过滤来筛选真正相似的邻居。第一层的信息过滤主要依靠基于互信息的相似度完成,第二层的信息过滤依靠其他的相似度完成,比如余弦相似度、皮尔逊相似度以及基于L1距离的相似度等。试验表明该框架能够提高推荐的质量。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 课题的研究背景与意义
  • 1.1.1 推荐系统的研究背景
  • 1.1.2 推荐系统的研究意义
  • 1.2 课题的研究现状与具体实例
  • 1.2.1 推荐系统的研究现状
  • 1.2.2 推荐系统的具体实例
  • 1.3 本文的研究对象与主要工作
  • 1.4 本文的结构
  • 第二章 相关理论的概念与综述
  • 2.1 推荐系统的综述
  • 2.1.1 推荐系统的概念与组成结构
  • 2.1.2 推荐系统的形式化定义
  • 2.1.3 推荐系统的分类
  • 2.2 协同过滤推荐技术
  • 2.2.1 协同过滤技术简介
  • 2.2.2 协同过滤的推荐过程
  • 2.2.3 基于内存的协同过滤算法(Memory-Based CF)
  • 2.2.4 基于模型的协同过滤算法(Model-Based CF)
  • 2.2.5 协同过滤技术的优缺点
  • 2.3 信息的度量
  • 2.3.1 信息的熵
  • 2.3.2 互信息
  • 2.4 小结
  • 第三章 推荐系统中相似度的理论研究
  • 3.1 相似度的简介
  • 3.1.1 相似度的概念与特征
  • 3.1.2 相似度与距离
  • 3.2 项目相似度及其分析
  • 3.2.1 协同过滤技术中相似度的作用
  • 3.2.2 协同过滤技术中的项目相似度
  • 3.2.3 余弦和皮尔逊相似度的性质
  • 3.2.4 余弦与皮尔逊相似度的局限性
  • 3.3 两种新的项目相似度
  • 3.3.1 基于互信息的相似度
  • 1 距离的相似度'>3.3.2 基于L1距离的相似度
  • 3.4 小结
  • 第四章 双层的协同过滤框架
  • 4.1 双层协同过滤框架的概述
  • 4.1.1 协同过滤框架
  • 4.1.2 传统的协同过滤框架简介
  • 4.1.3 双层的协同过滤框架简介
  • 4.2 双层协同过滤框架
  • 4.2.1 双层协同过滤框架的构架
  • 4.2.2 双层协同过滤框架的流程
  • 4.3 双层协同过滤框架的分析
  • 4.4 小结
  • 第五章 试验设计和结果分析
  • 5.1 实验数据
  • 5.2 评估标准
  • 5.3 关于相似度的实验
  • 5.3.1 实验设计与准则
  • 5.3.2 实验结果与分析
  • 5.4 关于双层协同过滤框架的实验
  • 5.4.1 实验说明
  • 5.4.2 实验方案
  • 5.4.3 实验结果与分析
  • 5.5 小结
  • 第六章 总结和展望
  • 6.1 本文的工作
  • 6.2 进一步的工作
  • 6.3 研究展望
  • 参考文献
  • 致谢
  • 攻读硕士学位期间已发表或录用的论文
  • 上海交通大学硕士学位论文答辩决议书
  • 相关论文文献

    • [1].基于曲线相似度的飞行着陆操作评价方法[J]. 交通信息与安全 2019(06)
    • [2].基于域间相似度序数的迁移学习源领域的选择[J]. 科学技术与工程 2020(20)
    • [3].一种图文组合相似度算法的设计与优化[J]. 软件工程 2020(08)
    • [4].基于超网络的微博相似度及其在微博舆情主题发现中的应用[J]. 图书情报工作 2020(11)
    • [5].说之以理[J]. 人力资源 2020(21)
    • [6].一种双层的微博用户相似度算法[J]. 情报杂志 2018(06)
    • [7].基于情景的结构化突发事件相似度研究[J]. 中国管理科学 2017(01)
    • [8].基于混合相似度的协同过滤推荐[J]. 软件导刊 2017(02)
    • [9].基于干扰相似度的多话题演化模型[J]. 电信科学 2017(09)
    • [10].软件相似度在成本估算中的应用[J]. 计算机应用与软件 2015(06)
    • [11].一种基于函数依赖的属性相似度调整算法[J]. 上海交通大学学报 2015(08)
    • [12].河马找亲戚[J]. 学生之友(童花果) 2016(12)
    • [13].十个中文流行语翻译[J]. 初中生辅导 2016(36)
    • [14].母爱[J]. 少年月刊 2017(05)
    • [15].基于多种测度的术语相似度集成计算研究[J]. 情报学报 2013(06)
    • [16].基于余弦相似度分类负荷预测[J]. 电力设备管理 2020(09)
    • [17].基于多尺度相似度特征的答案选择算法[J]. 系统工程与电子技术 2018(06)
    • [18].基于服务相似度的移动用户近似邻居选取方法[J]. 计算机工程 2018(05)
    • [19].基于文本属性的微博用户相似度研究[J]. 计算机技术与发展 2018(05)
    • [20].基于属性相似度的碎多边形自动聚合处理[J]. 测绘与空间地理信息 2013(11)
    • [21].基于共同邻居相似度的社区发现算法[J]. 信息系统工程 2014(05)
    • [22].色谱指纹图谱相似度方法的适应性研究[J]. 中国中医药信息杂志 2012(05)
    • [23].基于向量空间模型附加词义特征的句子相似度研究[J]. 成都信息工程学院学报 2012(03)
    • [24].中国-东盟自贸区二周年的比较研究——基于出口相似度与显性比较优势的分析[J]. 安徽行政学院学报 2012(03)
    • [25].色谱指纹图谱相似度方法的研究进展[J]. 中国实验方剂学杂志 2011(02)
    • [26].基于元相似度的推荐算法[J]. 计算机应用研究 2011(10)
    • [27].互信息启发的相似度组合图像检索算法[J]. 中国图象图形学报 2011(10)
    • [28].相似度法在综合分析投资环境中的应用[J]. 统计与决策 2009(15)
    • [29].一种改进相似度的协同过滤算法实现[J]. 电子科技 2020(02)
    • [30].基于曲线相似度的步态识别研究[J]. 中国新技术新产品 2020(07)

    标签:;  ;  ;  ;  ;  

    关于推荐系统的统计预测研究
    下载Doc文档

    猜你喜欢