一种针对具备项目的分类信息的推荐方法

文档序号:10580142阅读:172来源:国知局
一种针对具备项目的分类信息的推荐方法
【专利摘要】本发明为一种针对具备项目的分类信息的推荐方法,在许多网络应用中往往需要给用户推荐,需要利用上下文信息来提高推荐准确率并增强用户体验,然而现有的上下文感知推荐方法依然面临数据稀疏性问题的挑战。为了进一步缓解数据稀疏性问题,本专利提出一种新型的推荐方法,结合用户评分数据及用户类别偏好进行物品推荐,以解决用户评分数据稀疏时评分预测准确率低的问题。该方法适用于大规模数据。实验结果表明,与目前主流的方法相比,该方法具有较好的推荐效果。
【专利说明】
-种针对具备项目的分类信息的推荐方法
技术领域
[0001] 本发明属于推荐系统领域,设及一类具有项目分类功能的应用的推荐方法。
【背景技术】
[0002] 现有的基于上下文的推荐系统都是直接使用用户的历史数据的推荐方法,固然有 方便,便于广泛使用,容易得到广泛的评价的好处,但是由于用户的历史行为数据通常情况 下是非常稀疏的,因此运些方法都面临着严重的数据稀疏性问题。根据稀疏的用户历史行 为数据很难对用户的偏好进行建模,导致推荐系统的准确率偏低,从而影响用户体验。
[0003] 我们要对一个应用系统进行项目推荐,一般要分析推荐系统的构成,在运里我们 要讨论构成推荐系统的一些主体。下面对常见的上下文推荐系统的做一个简单的介绍。假 设一个推荐系统中有n个物品(运里的物品也包括电影之类的网络应用和资源)和m个用户, 则令U= Iui,U2…,Un}表示用户集合,I = Ul, i2…,im}表示项目集合。在推荐系统中,对项目 进行分类,可W更好的帮助用户找到自己感兴趣的项目。例如电影评论网站MovieLens,根 据电影的类型,为不同电影打上标签(如:喜剧、爱情等)。令C= kl,C2…,Cp}表示类别集合。 其中一个用户可W评论多个项目,一个项目可W分属不同的类别。
[0004] 目前的系统直接使用应用系统中的上下文信息来缓解用户项目评分数据的稀疏 性问题。
[0005] 他们都是整合用户项目评分之外上下文信息W缓解评分数据的稀疏性问题。大多 数推荐方法都是针对特定的应用系统,丧失了推荐方法的普适性。
[0006] -个好的推荐方法,如果需要准确的刻画用户的潜在特征,就应该具有足够的数 据来弥补用户评分数据。
[0007] 本专利针对分类系统应用,从用户类别的角度来构建用户之间的相似度矩阵,同 时结合用户-项目评分矩阵进行联合矩阵分解,提出一种基于用户类别偏好相似度和联合 矩阵分角军的推荐方法(Joint M曰trix F曰Ctoriz曰tion with User Category Preference, 简称JMF-UCP),对于评分较少的用户,很难从用户评分矩阵中捕捉其潜在的特征,在此模型 中可W通过用户类别偏好相似度来学习此类用户的潜在特征。

【发明内容】

[000引我们首先根据用户-项目评分矩阵和项目-类别矩阵构建用户类别偏好相似度矩 阵,假设某分类系统为某类项目预先定义了P个分类标签,用户U对项目i打过评分且项目i 分属n个分类,则项目i对应的每个分类标签将获得用户t的关注度为1/t.由此用户U对类别 C的关注度公式为:
[0009]
[0010] 其中,如果项目i属于类别C,则sgn(u, i ,C) = 1,否则为O.au。为用户U对类别C的偏 好值;Dk(U)为用户U评论过的项目集合;k为集合Dk(U)中的元素个数。由此可建立用户U的 User-htegoiy 偏好向量:
[0011] Au=(aui,au2,...,a叩)
[0012] 本专利采用余弦相似度来度量用户类别偏好相似度,用户i和用户j之间的类别偏 好相似度:
[0013]
[0014] 本方法首先通过用户项目的评分关系与项目类别的关联关系构建用户类别偏好 相似度矩阵,然后通过联合矩阵分解(JMF)同时分解用户项目评分矩阵和用户类别偏 好相似睽巧随S(ucp> -且优化巧掀责.
[0015]
[0016] 其中J是一个指示函数,如果巧有值,则Jik为1,如果巧'W缺失,则J化为化6是权 衡系数,用来控制用户类别偏好相似度对评分预测的影响。其中m,n分别表示用户和项目的 数量,? ^表示Frobenius范数。RmXn表示评分矩阵,UmXd表示用户的偏好特征矩阵,VnXd表示 项目的特征矩阵。I是一个指示函数,如果Rij有值,则Iij为1,如果Rij缺失,则Iij为0. M川2和M VI 12是为防止过拟合的正则化项,Au和Av为正则化系数。求解上述最优化函数L,获取局 部最优的U和V,从而预测未知评分^ 。
[0017] 目标函数主要包含两个部分,即在将用户评分矩阵分解成低维的用户潜在特征矩 阵和项目潜在特征矩阵时,同时分解用户类别偏好相似度。该联合矩阵分解模型可W有效 的缓解数据稀疏性问题,对于评分较少的用户,很难从用户评分矩阵中捕捉其潜在的特征, 在此模型中可W通过用户类别偏好相似度来学习此类用户的潜在特征。
[0018] 本发明的优化函数使用梯度下降的求解方法为了得到满足优化函数中的两个低 秩矩阵U和V,运里使用梯度下降捜索目标函数L的局部最小值。为此,目标函数分别对U、V进 行求导:
[0019;
[0020;
[0021 ]由于现有推荐系统的应用场景中,项目的类别数目往往远小于系统中用户个数和 项目个数,且用户类别偏好可单独来计算,可事先存放在内存中,因此本推荐方法的计算开 销主要来自目标函数和梯度下降变量的迭代更新。因此目标函数L3的时间复杂度为0(Ml + nsl),其中,邮Unsl分别表示矩阵R.sfuepj中的非零元素个数。因此,每迭代一次总的时间复 杂度是0(nRl+nsl)。综合上述分析,推荐方法的时间复杂度随着矩阵R、S(uc^P^勺非零元素个 数的增加呈线性增长,因此本推荐方法可W应用于大规模的数据集。
[0022] 本发明的推荐方法,正则化参数Au、Av、维度d可取普遍可W接受的经验值。参数对空 制着用户类别偏好在推荐系统中的重要性,@取值越大则用户类别偏好对推荐系统影响也 越大。因此,针对不同的数据集需要做实验来确定参数S的值。
[0023] 针对推荐系统实际应用中数据稀疏性问题,本专利提出一种基于用户类别偏好相 似度和联合矩阵分解的推荐方法,并通过在真实数据集上的实验评估证实了本推荐方法具 有较好的准确率,有效的缓解了数据稀疏性问题。本推荐方法的时间复杂度随着观察数据 的增加呈现线性增长,因此可应用于大规模数据。
【附图说明】
[0024] 图1是本方法流程图。
[00巧]图2是不同方法对比图。
[0026] 图3是参数对RMSE的影响。
【具体实施方式】
[0027] W下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并 非用于限定本发明的范围。
[00巧]使用推荐领域中MovieLens IM化ttp://grouplens.org/da1:asets/movielens/) 真实数据集给出本发明实现的例子.该数据集包含2000年6400个独立匿名用户对3900部电 影作的1,000,209次评分,评分的取值[1-引之间的离散值,标签的种类数共有18种,电影都 被打上不同的分类标签,每个电影对应一个或多个分类标签。
[0029] 利用
【发明内容】
中介绍的方法构建用户类别偏好相似度矩阵Sfuwl,然后将利用联合 矩阵分解对用户评分矩阵R和用户类别偏好相似度矩阵Sfuwl进行联合分解得到目标函数L, 学习用户的潜在特征向量U和项目的潜在特征向量V。
[0030] 为了验证本推荐方法在评分预测中的准确性,实验采用了均方根误差(root mean squared error,RM沈)评估方法。RM沈的定义形式如下:
[0031]
[003^ 其中,Rui是用户U对项目i的真是评分,尽,表示预测评分,I Rt I表示测试集中的评分 个数。可W看出,RMSE越低,评分预测的准确率越高,推荐系统的性能越好。
[0033]为了评估本推荐方法的性能,通过实验把本推荐方法与另外一些推荐方法进行了 比较=(I)Random方法,为目标用户随机产生邻居的方法;(II)UserAvg方法,根据每个用户 的历史平均评分对未知的评分进行预测;(III)协同过滤方法(CF),目前使用最为广泛的基 于内存的推荐方法;(IV)非负矩阵方法(NMF),该方法的是基本的矩阵分解,其基本形式如 公式(4),其中正则项参数Au及Av的取值与本推荐方法(JMF-UCP)中相同;(V) JMF-UP方法,该 方法首先根据用户项目评分矩阵构建用户间的相似度矩阵S,然后利用联合矩阵分解融合 基本的用户偏好S来完成评分预测,其形式如公式(4.6)将其中的用户类别偏好相似度S(uw) 替换成S,其中所需要的参数取值与本方法(JMF-UCP)中相同;(VI)SoRecUser方法,该方法 利用共享潜在特征,将用户和分类标签的关联关系融入评分矩阵的低秩矩阵分解过程。试 验中,评分数据集被分为两个部分:随机抽取80%的评分数据作为训练集,余下的20%作为 测试集。为了得到稳定的实验结果,实验重复计算10次,度量的结果取平均值。试验中,正则 化参数Au及Av取值为0.001,维度d的取值为10,附图2给出了不同方法的实验结果对比。
[0034] 参数对空制着用户类别偏好在推荐系统中的重要性,S取值越大则用户类别偏好对 推荐系统影响也越大。因此,针对参数对故了一组实验,着重研究参数6对本推荐方法模型的 性能影响,通过调整参数0取不同的值,观察本推荐方法模型的性能。实验结果如附图3所 示,参数另取不同值的情况下,本推荐方法评分预测的RMSE值有不同的变化。从图3中看出参 数易的值小于0.1或者大于0.1时RMSE的值都会上升。实验参数巧受置为0.1是合理的。同时上 述实验结果也说明,适当的考虑用户对类别的偏好可W进一步提高推荐系统的性能。
[0035] W上所述仅为本发明的较佳实施例,并不用W限制本发明,凡在本发明的精神和 原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
【主权项】
1. 一种针对具备项目的分类信息的推荐方法,其特征为:采用联合矩阵分解JMF(Joint Matrix Factorization)来同时分解用户-项目评分矩阵和用户类别偏好相似度矩阵,用户 类别偏好相似度矩阵的构造并不具有固定的方法,其具体形式有多种{Sinu,Sim 2,……}。2. 如权利要求1所述的针对具备项目的分类信息的推荐方法,其特征为:根据用户项目 评分数据矩阵和项目类别的关联矩阵构建用户类别偏好相似度。3. 如权利要求2所述的针对具备项目的分类信息的推荐方法,其特征为:使用联合矩阵 对用户项目评分矩阵和计算得出的用户类别偏好相似度矩阵进行联合分解,得到优化函数 L〇4. 如权利要求3所述的针对具备项目的分类信息的推荐方法,其特征为:利用梯度下降 和最小二乘法对优化函数L求解局部最小值。5. 如权利要求4所述的针对具备项目的分类信息的推荐方法,其特征为:(1)首先计算 用户类别之间的相似度,假设某分类系统为某类项目预先定义了P个分类标签,用户u对项 目i打过评分且项目i分属η个分类,则项目i对应的每个分类标签将获得用户t的关注度为 Ι/t,由此用户u对类别c的关注度公式为:其中,如果项目i属于类别c,则sgn (u,i,c) = 1,否则为0,au。为用户u对类别c的偏好值; Dk(u)为用户u评论过的项目集合;k为集合Dk(u)中的元素个数,由此建立用户u的User-Category偏好向量: Au - ( Elul,£lu2,· · ·,Elup ) 采用余弦相似度来度量用户类别偏好相似度,用户i和用户j之间的类别偏好相似度:(2) 将计算出来的用户类别偏好相似度矩阵和用户项目评分矩阵进行联合分解:其中m,n分别表示用户和项目的数量,K表示Frobenius范数。RmXn表示评分矩阵,Umxd 表示用户的偏好特征矩阵,VnXd表示项目的特征矩阵。I是一个指示函数,如果Ru有值,则 为1,如果b缺失,则k为0.1 |U| |2和| |V| |2是为防止过拟合的正则化项,λυ和λν为正则化系 数, (3) 得到满足(2)中等式的两个低秩矩阵U和V,这里使用梯度下降搜索目标函数L3的局 部最小值,在(2)中等式中分别对U、V进行求导:求解上述最优化函数L,获取局部最优的U和V,从而预测未知评分i = i/}7F。
【文档编号】G06F17/30GK105956089SQ201610284127
【公开日】2016年9月21日
【申请日】2016年5月3日
【发明人】王勇, 何海洋, 刘永宏, 杜诚, 张文辉, 唐红武
【申请人】桂林电子科技大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1