一种层次化商品信息过滤推荐方法与流程

文档序号:13179184阅读:118来源:国知局
技术领域本发明涉及信息过滤技术,特别涉及一种层次化商品信息过滤推荐方法。

背景技术:
推荐系统作为一类信息过滤技术,在工业界尤其是互联网产品中应用广泛,比如购物网站的商品推荐,豆瓣电影、读书推荐等等。推荐系统在工业上有着巨大的商用价值,可以挖掘出消费者对商品的喜好倾向。一般而言,学习推荐系统需要一个包含所有用户的用户集以及包含所有商品的商品集,此外还包括用户对商品的评分矩阵。这里的评分矩阵一般情况下分为两种:显反馈和隐反馈。显式的评分即用户在给定打分范围内给商品评分,显式地表明对该商品的喜欢程度,比如豆瓣电影用户可以给自己看过的电影打分,1分表示不喜欢该电影,相反地,5分表明用户非常喜欢该电影。而更常见的情况是用户的隐反馈,比如用户在网上的购买、点击、收藏等记录,这些行为并非明确表示用户对商品的喜恶程度,而且一般情况下评分用0,1表示,1表示用户浏览过该商品,反之,0意味着用户没有浏览过该商品。经典的推荐算法主要有:1)基于近邻模型,比如协同过滤,这又可分为基于用户和基于商品,前者通过比较不同用户间的相似度,且先验地认为兴趣相似的用户对相同商品均感兴趣,后者则比较相似商品,同样先验地认为相似商品拥有相同的用户群;2)基于矩阵分解的隐因子模型,即将评分矩阵分解为两个低秩矩阵乘积,分别表示为用户矩阵和商品矩阵。基于矩阵分解模型根据分解算法不同衍生出很多算法,比如奇异值分解(SingularValueDecompose,SVD)、非负矩阵分解(Non-negativeMatrixFactorization,NMF)、带权值的非负矩阵分解(Weighted,Non-negativeMatrixFactorization,WNMF)、概率非负矩阵分解(ProbabilityNon-negativeMatrixFactorization,PNMF)。以上算法一般针对显反馈情况,而在对隐反馈的研究中,已有的方法包括基于近邻的合并分解法,加权调整正样本相对重要性法,基于下采样的负样本法等。业界根据用户对商品喜好的不同方式的反馈,将推荐问题分为两种,一种是基于评分制(比如豆瓣电影评分为1-10分),称为显式反馈,另一种更为广泛的是隐式反馈,比如用户购买、浏览、点击过商品,一般用1表示,其余为0。

技术实现要素:
本发明的目的在于提供一种。本专利就推荐系统构建一种新的推荐模型,提出新的推荐算法。为此,本发明提出的一种层次化商品信息过滤推荐方法包括如下步骤:A1:对于推荐系统,构造一种分层泊松模型;A2、对每一组有效用户商品对构造长度为K的向量zui,其中每一个分量zuik~Poisson(θukβik),参数大小为对应用户偏好向量分量与商品属性向量分量乘积,其中K为商品属性向量和用户偏好向量的长度,zui为每组用户、商品对构造的长度为K的辅助向量,θu为用户偏好向量,βi为商品属性向量,k为分量的序号,u为用户序号,i为商品序号;A3、采用变分推断的方法进行逼近后验分布,利用坐标上升法多次迭代直至收敛,推导出所有隐变量的近似分布;其中各参数的含义如下:β为βi的集合,θ表示θu的集合;ξu为用户偏好向量满足Gamma分布中的尺度参数,ξ表示ξu的集合,ηi为商品属性向量满足Gamma分布中的尺度参数,η为ηi的集合,z变量表示zui的集合;A4、预测每组用户商品对评分,根据得分大小排序可对用户进行最终的推荐,其中上标T表示向量转置,将列向量转置为行向量。优选地,本发明还可包括如下特征:步骤A1中,构造分层泊松分布是针对隐反馈的情况。步骤A1包括:A1‐1:对每一个用户u构造长度为K的用户偏好向量θu,该向量表示该用户的潜在特征,其中每个分量θuk~Gamma(a,ξu),即每个分量满足Gamma分布,并且该分布中的参数ξu定义为该用户的活跃度,即用户消费的商品占所有商品的比例,且ξu~Gamma(a′,a′/b′),即用户活跃度同样也满足Gamma分布;其中参数a表示用户偏好向量满足Gamma分布中的形状参数,a’表示′上述尺度参数满足Gamma分布中的形状参数,a’/b’表示上述尺度参数满足Gamma分布中的尺度参数;A1‐2:对于每件商品i构造长度为K的商品属性向量βi,该向量同样表明了该商品的潜在特征,其中每一个分量βik~Gamma(c,ηi),即每个分量满足Gamma分布,并且该分布中的参数ηi定义为该商品的流行度,即消费该商品的用户占所有用户的比例,且ηi~Gamma(c′,c′/d′),即商品流行度同样也满足Gamma分布;;其中参数c表示商品属性向量满足Gamma分布中的形状参数,c’表示上述尺度参数满足Gamma分布中的形状参数,c’/d’表示上述尺度参数满足Gamma分布中的尺度参数;A1‐3:每组用户商品对的评分假定满足Poisson分布,即该分布中的参数等于用户偏好向量和商品属性向量的内积。步骤A2中,假设zui各分量相互独立。在于步骤A3中,通过坐标上升法,即假设其他隐变量分布已知,最大化关于当前目标变量分布的后验分布和真实分布之间的KL散度,通过多次迭代直至收敛,继而得出参数的近似后验分布。步骤A4中,在辅助变量zui的帮助下,各隐变量的完全条件分布如下:θuk|β,ξ,z,y~Gamma(a+∑izuik,ξu+∑iβik)βik|θ,η,z,y~Gamma(a+∑uzuik,ηi+∑uθuk)ξu|θ~Gamma(a′+Ka,b′+∑kθuk)ηi|β~Gamma(c′+Kc,d′+∑kβik)zui|β,θ,y~Mult(yui,θuβiΣkθukβik)]]>,其中y为yui的集合,zui为每组用户、商品对构造的长度为K的辅助向量。坐标上升法迭代所有参数包括:假设隐变量的后验分布可分解为各独立向量的分布乘积,即假设所有隐变量之间相互独立(实际上不可能),其形式如下:q(β,θ,ξ,η,z)=Πi,kq(βik|λik)Πu,kq(θuk|γuk)]]>Πuq(ξu|κu)Πiq(ηi|τi)Πu,iq(zui|φui)]]>其中,q为……,λik为变分推断中商品属性满足Gamma分布中的形状或尺度参数,γuk为变分推断中用户偏好满足Gamma分布中的形状或尺寸参数,κu为变分推断中用户活跃度满足Gamma分布中的形状或尺度参数;商品属性满足Gamma分布,Gamma分布中涉及形状参数和尺度参数,在此分别用上标shp和rte表示,则λik实际上表示两个参数和同样,用户偏好θuk满足Gamma分布,商品流行度ηi满足Gamma分布,用户活跃度ξu满足Gamma分布,辅助变量zui满足多项分布,因此其K个参数均大于零且和对于每一个用户,其偏好权重分布的参数γuk及活跃度分布的参数κu按下面步骤依次迭代:γukshp=a+Σiyuiφuik]]>γukrte=κushpκurte+Σiλikshp/λikrte]]>κurte=a′b′+Σkγukshpγukrte]]>κushp=a′+Ka]]>其中yui为用户u对i的评分,a为用户偏好的先验Gamma分布中形状参数,设为0.3,a′为用户活跃度的先验分布中的形状参数,设为0.3,b′为其尺度参数,设为1,φui为变分推断中辅助向量满足多项分布中的参数,为变分推断中商品属性满足Gamma分布中的形状参数;为变分推断中商品属性满足Gamma分布中的尺度参数,为变分推断中用户偏好满足Gamma分布中的形状参数,为变分推断中用户偏好满足Gamma分布中的尺度参数,为变分推断中用户活跃度满足Gamma分布中的形状参数,为变分推断中用户活跃度满足Gamma分布中的尺度参数。对于每一商品,其属性分布的参数λik及流行度分布的参数τi按下面步骤依次迭代:λikshp=c+Σuyuiφuikλikrte=τishpτirte+Σuγukshp/γukrteτirte=c′d′+Σkλikshp/λikrteτishp=c′+Kc]]>其中,c为商品属性的先验Gamma分布中的形状参数,设为0.3,c′为商品流行度的先验分布中的形状参数,设为0.3,d′为其尺度参数,设为1。辅助变量zui的后验多项分布中参数φui按以下公式更新:φui∝exp{ψ(γukshp)-logγukrte+ψ(λikshp)-logλikrte
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1