大数据进阶之协同过滤推荐算法——SparkML ALS交替最小二乘法

it2025-05-21 42

算法介绍：

ALS是交替最小二乘法的简称，ALS特指使用交替最小二乘求解的一个协同过滤的推荐算法。通过观察用户对购买商品的评价，来推断每个用户的喜好并向用户推荐合适的商品。

案例解析：

西游记水浒传红楼梦三国演义简爱用户13748用户225用户36用户4741

上表所描述的是一个用户对几本名著的一个评分结果。近似的可以理解成为一个矩阵。在现实的生产环境中，矩阵的行和列都会非常大，ALS的基本思想就是将一个很大的矩阵拆分分成以两个维度为准的小矩阵。可以大致的这么理解：

两个矩阵相乘的结果大小为第一个矩阵的行数X第二个矩阵的列数

U矩阵如下：

性格年龄兴趣用户1U11U12U13用户2U21U22U23用户3U31U32U33用户4U41U42U43

B矩阵如下：

西游记水浒传红楼梦三国演义简爱性格B11B12B13B14B15年龄B21B22B23B24B25兴趣B31B32B33B34B35

K值为超参数仔细的人或许发现是R约等于U*B，为什么是约等于呢？因为对于一个U矩阵来说，我们并不可能说（性格，年龄，兴趣）这三个属性就代表着一个人对一部名著评价全部的属性，可能还会有一些其他的影响因素。但是我们可以用“主成分分析的思想”来近似（我没有从纯数学角度来谈，是为了大家更好理解）。这也是ALS和核心：一个评分矩阵可以用两个小矩阵来近似（ALS是NNMF问题下在丢失数据情况下的一个重要手段）。理想化状态：

R=U*B

但是现实生活中并非理想状态，事实证明每一次的迭代结果都会跟原有的结果有一定的差距，则会产生损失函数：为防止出现过拟合现象，需要在损失函数中加入正则化参数(其中λ为正则项系数)：对于ALS来求解这样這个问题的思想是：先固定U或者B,然后就转化为最小二乘法的问题了。他这样做就可以把一个非凸函数的问题转为二次函数的问题了。下面就求解步骤：步骤1：初始化矩阵B（可以取平均值也可以随机取值）步骤2：固定B，然后通过最小化误差函数(RMSE)解决求解U 步骤3：固定步骤2中的U，然后通过最小化误差函数(RMSE)解决求解B 步骤4：反复步骤2，3；直到U和V收敛或达到最大迭代次数。

SparkML实现：

原始数据：

// 将数据放入Rating集合中 val alldata = df.rdd.map(row=>{ Rating(row.getAs("uid").toString.toInt,row.getAs("gid").toString.toInt,row.getAs("score").toString.toFloat) }) val model = new ALS().setRank(10).setIterations(20).setLambda(0.01).setImplicitPrefs(false).run(alldata) // 对模型进行测试 val tj = model.recommendProductsForUsers(30) tj.flatMap{ case(user:Int,ratings:Array[Rating])=> ratings.map{case(rat:Rating)=>(user,rat.product,rat.rating)} }.foreach(println)

计算结果：模型中的超参数意义：

参数意义setRank拆分集合的K值(特征列数量)setIterations模型最大迭代次数setLambda为防止过拟合的值，默认为0.01，值越大，越能避免过拟合现象setImplicitPrefs是否开启隐式评分矩阵

最新回复(0)