一种基于词频加权技术的个性化协同过滤推荐方法及系统的制作方法

文档序号:9249617阅读:543来源:国知局
一种基于词频加权技术的个性化协同过滤推荐方法及系统的制作方法
【技术领域】
[0001] 本发明设及推荐技术领域,尤其设及一种基于词频加权技术的个性化协同过滤推 荐方法及系统。
【背景技术】
[0002] 人们对推荐系统的研究始于上世纪90年代,研究人员通过用户对物品的一些 反馈,如物品的评价、用户的购买行为等隐性或显性的反馈来预测用户可能喜欢的物品。 协同过滤算法(Coll油orativeFiltering,CF)是推荐系统领域最为著名的算法之一, 其又细分为基于用户的协同过滤算法(user-based,化erCF),基于物品的协同过滤算法 (item-based,ItemCF)和潜在因子模型(XatentFactorModel,LFM),该S种模型各有优缺 点。其中的基于物品的协同过滤算法,其认为用户的兴趣具有一致性,即用户会喜欢和他之 前喜欢的东西类似的东西,该算法主要由两个流程组成,其一是计算两两物品的相似度,其 二是根据用户历史的行为记录推荐与其之前喜欢的物品相似的物品。该个过程中存在一个 问题;如果某个物品非常热口,很多人都对它有过行为记录,会造成任何物品都和该个热口 物品非常相似,形成"哈利波特效应",除此之外,该热口物品也不能真实反映用户的偏好。 该两个问题对强调个性化、致力挖掘长尾信息的推荐系统而言显然具有不合理之处。
[0003] 因此,现有技术还有待于改进和发展。

【发明内容】

[0004] 鉴于上述现有技术的不足,本发明的目的在于提供一种基于词频加权技术的个性 化协同过滤推荐方法及系统,旨在解决现有的推荐方法准确性和挖掘长尾物品的能力有待 提高的问题。
[0005] 本发明的技术方案如下:
[0006] 一种基于词频加权技术的个性化协同过滤推荐方法,其中,包括步骤:
[0007]A、计算两两物品的相似度;
[0008]B、计算出每个物品的特征性频率TF和倒排文档频率IDF,然后计算出每个物品的 TF-IDF频率TI;
[0009]C、根据两两物品之间的相似度W及每个物品的TF-IDF频率生成每个用户的推荐 列表,然后根据所述推荐列表向用户推荐物品。
[0010] 所述的基于词频加权技术的个性化协同过滤推荐方法,其中,所述步骤A具体包 括:
[0011] A1、获取用户-物品对应表;
[0012] A2、统计用户-物品对应表中每一物品出现的次数,W及两两物品同时出现的次 数;
[0013]A3、根据W下公式计算出两两物品之间的相似度Wy;
[0014]
;其中,|N(i)I是用户-物品对应表中物品i出现的次数, N(j)I是用户-物品对应表中物品j出现的次数,|N(i)nN(j)I为用户-物品对应表中 物品i和物品j同时出现的次数。
[0015] 所述的基于词频加权技术的个性化协同过滤推荐方法,其中,所述步骤B具体包 括:
[0016]B1、取每个物品相似度最高的N个物品,按相似度从高到低进行排序;
[0017]B2、分别计算取出的每个物品的特征性频率TF和倒排文档频率IDF,其中TF表 示取出的某个物品在用户-物品对应表中出现的次数,IDF=log[S/(TF+l)],其中S为用 户-物品对应表中的用户总数;
[0018]B3、计算取出的每个物品的TF-IDF频率TI。
[0019] 所述的基于词频加权技术的个性化协同过滤推荐方法,其中,所述步骤C具体包 括:
[0020] C1、按下式求出每个用户的推荐列表;
[0021]
[002引其中N(u)是用户U喜欢的物品合集,是和物品i最相似的K个物品的集合,wy为物品i和j的相似度,Zui为物品i的TF-IDF频率TI;
[0023]C2、将推荐列表中的各个物品从低到高排序,取排序靠前的若干物品推荐给用户。
[0024] 所述的基于词频加权技术的个性化协同过滤推荐方法,其中,所述步骤B3中, TF-IDF频率TI按下式计算;
[00 巧]TI=TF*IDF。
[0026] -种基于词频加权技术的个性化协同过滤推荐系统,其中,包括:
[0027] 相似度计算模块,用于计算两两物品的相似度;
[0028] 频率计算模块,用于计算出每个物品的特征性频率TF和倒排文档频率IDF,然后 计算出每个物品的TF-IDF频率TI;
[0029] 推荐模块,用于根据两两物品之间的相似度W及每个物品的TF-IDF频率生成每 个用户的推荐列表,然后根据所述推荐列表向用户推荐物品。
[0030] 所述的基于词频加权技术的个性化协同过滤推荐系统,其中,所述相似度计算模 块具体包括:
[0031] 对应表获取单元,用于获取用户-物品对应表;
[0032] 统计单元,用于统计用户-物品对应表中每一物品出现的次数,W及两两物品同 时出现的次数;
[0033] 相似度计算单元,用于根据W下公式计算出两两物品之间的相似度Wy;
[0034]
其中,|N(i)I是用户-物品对应表中物品i出现的次数, N(j)I是用户-物品对应表中物品j出现的次数,|N(i)nN(j)I为用户-物品对应表中 物品i和物品j同时出现的次数。
[0035] 所述的基于词频加权技术的个性化协同过滤推荐系统,其中,所述频率计算模块 具体包括:
[0036] 排序单元,用于取每个物品相似度最高的N个物品,按相似度从高到低进行排序;
[0037] 第一频率计算单元,用于分别计算取出的每个物品的特征性频率TF和倒排文档 频率IDF,其中TF表示取出的某个物品在用户-物品对应表中出现的次数,IDF=log[S/ (TF+1)],其中S为用户-物品对应表中的用户总数;
[0038] 第二频率计算单元,用于计算取出的每个物品的TF-IDF频率TI。
[0039] 所述的基于词频加权技术的个性化协同过滤推荐系统,其中,所述推荐模块具体 包括:
[0040] 推荐列表生成单元,用于按下式求出每个用户的推荐列表:
[0041]
[004引其中N(u)是用户U喜欢的物品合集,Su,K>是和物品i最相似的K个物品的集合,wy为物品i和j的相似度,Zui为物品i的TF-IDF频率TI;
[0043] 推荐单元,用于将推荐列表中的各个物品从低到高排序,取排序靠前的若干物品 推荐给用户。
[0044] 所述的基于词频加权技术的个性化协同过滤推荐系统,其中,所述第二频率计算 单元中,TF-IDF频率TI按下式计算;
[0045]TI=TF*IDF。
[0046] 有益效果;本发明通过在协同过滤算法中引入TF-IDF算法,能够有效的降低热口 商品对推荐结果的影响,提升推荐系统的推荐覆盖率,W及提高推荐准确性,并且能够提高 挖掘"长尾"商品的能力。
【附图说明】
[0047] 图1为本发明一种基于词频加权技术的个性化协同过滤推荐方法较佳实施例的 流程图。
[0048] 图2为图1所示方法中步骤S101的具体流程图。
[0049] 图3为图1所示方法中步骤S102的具体流程图。
[0050] 图4为图1所示方法中步骤S103的具体流程图。
[0051] 图5为本发明一种基于词频加权技术的个性化协同过滤推荐系统较佳实施例的 结构框图。
[0052]图6为图5所示系统中相似度计算模块的具体结构框图。
[0053] 图7为图5所示系统中频率计算模块的具体结构框图。
[0054]图8为图5所示系统中推荐模块的具体结构框图。
【具体实施方式】
[00巧]本发明提供一种基于词频加权技术的个性化协同过滤推荐方法及系统,为使本发 明的目的、技术方案及效果更加清楚、明确,W下对本发明进一步详细说明。应当理解,此处 所描述的具体实施例仅仅用W解释本发明,并不用于限定本发明。
[0056] 请参阅图1,图1为本发明一种基于词频加权技术的个性化协同过滤推荐方法较 佳实施例的流程图,如图所示,其包括步骤:
[0057] S101、计算两两物品的相似度;
[0058] S102、计算出每个物品的特征性频率TF和倒排文档频率IDF,然后计算出每个物 品的TF-IDF频率TI;
[0059] S103、根据两两物品之间的相似度W及每个物品的TF-IDF频率生成每个用户的 推荐列表,然后根据所述推荐列表向用户推荐物品。
[0060] 进一步,如图2所示,所述步骤S101具体包括:
[0061] S201、获取用户-物品对应表;
[0062] 用户-物品对应表的具体实例如下表1所示,后续的计算实例W此表为基础:
[0063] 表1
[0064]
[0065] 上表中,用户1喜欢的物品有1,2, 5,用户2喜欢的物品有3, 4, 5,依次类推。
[0066]S202、统计用户-物品对应表中每一物品出现的次数,W及两两物品同时出现的 次数;
[0067] 统计结果如下所示:
[0068]N(l) I= 2 ;
[0069]N(2) I= 2 ;
[0070]N(3) I= 3 ;
[0071] N(4) I= 2 ;
[0072] |n6)|=3;
[007引其中,|N(i)I是用户-物品对应表中物品i出现的次数;
[0074]N(l)nN(2)I= 1 ;
[00巧]|N(1)nN(3)I= 1 ;
[0076] N(l) nN(4) I = 1 ;
[0077] |N(1) nN巧)I = 1 ;
[0078] N(2) nN(3) | = 1 ;
[0079] |N(2) nN巧)I = 2 ;
[0080] N(3) nN(4) I = 2 ;
[0081] |N(3) nN巧)I = 2 ;
[0082] |n(4) nN巧)I = 1 ;
[008引其中,|N(i)nN(j)I为用户-物品对应表中物品i和物品j同时出现的次数;S203、根据W下公式计算出两两物品之间的相似度Wy;
[0094] 进一步,如图3所示,所述步骤S102具体包括;
[0095]S301、取每个物品相似度最高的N个物品,按相似度从高到低进行排序;
[0096] 取出的物品如下表2所示,其中的N为4,当然也可根据需要进行调整:
[0097]表 2
[0098]

[0099]S302、分别计算取出的每个物品的特征性频率TF和倒排文档频率IDF,其中TF表 示取出的某个物品在用户-物品对应表中出现的次数,IDF=log[S/(TF+l)],其中S为用 户-物品对应表中的用户总数;
[0100] 计算结果如下所示:
[0101] TFi= 2 ;
[0102] TF2= 2 ;
[0103] TFs= 3 ;
[
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1