推荐引擎作为一种信息检索和信息过滤的重要方法,用来预测某一用户愿意给予某一项目,比如图书、电影和人的评分或偏好。近些年,在电子商务领域推荐引擎已经变得非常流行。哪一个电影是我可能喜欢的?哪一个电脑是我应该购买的?推荐引擎的目的是在决策过程中支持人们和提供高品质的、易接受的、个性化的建议。分布式计算作为一种新兴的技术使用分布式系统解决计算的问题。在分布式计算中,一个特定的问题被拆分成多个任务供计算机集群运算。Hadoop是一个开源的分布式计算框架用以支撑数据密集型的应用。Hadoop的核心由HDFS和MapReduce组成。HBase是一个基于列的分布式数据库构建在HDFS之上。Mahout是一个可扩展性的开源机器学习算法库目的是提供广泛的机器学习和数据挖掘算法:协同过滤、频繁模式挖掘、分类和聚类等。本文的目标是结合推荐引擎的理论与推荐算法的实现,评估出适合大规模应用的推荐算法,建立起可供原型开发与生产环境使用的分布式推荐引擎,并且将分布式推荐引擎应用到电影数据集之上。本文提供了推荐引擎的定义与分类,比较与评估了基于内容的推荐算法、协同过滤的推荐算法、关联规则的推荐算法以及混合推荐算法。为了能够将推荐算法应用到生产系统中,又集成和部署了Hadoop、HBase、Mahout搭建起分布式推荐引擎的运行时环境,构建一个高可扩展、高可用性、面向服务的基于Hadoop的分布式推荐引擎。
本文来源: https://www.lw50.cn/article/cf4d1750c8166d2626314a42.html