一种基于词频加权技术的个性化协同过滤推荐方法及系统的制作方法

文档序号：9249617阅读：543来源：国知局

一种基于词频加权技术的个性化协同过滤推荐方法及系统的制作方法
【技术领域】
[0001] 本发明设及推荐技术领域，尤其设及一种基于词频加权技术的个性化协同过滤推荐方法及系统。
【背景技术】
[0002] 人们对推荐系统的研究始于上世纪90年代，研究人员通过用户对物品的一些反馈，如物品的评价、用户的购买行为等隐性或显性的反馈来预测用户可能喜欢的物品。协同过滤算法（Coll油orativeFiltering,CF)是推荐系统领域最为著名的算法之一，其又细分为基于用户的协同过滤算法（user-based,化erCF)，基于物品的协同过滤算法 (item-based,ItemCF)和潜在因子模型(XatentFactorModel，LFM)，该S种模型各有优缺点。其中的基于物品的协同过滤算法，其认为用户的兴趣具有一致性，即用户会喜欢和他之前喜欢的东西类似的东西，该算法主要由两个流程组成，其一是计算两两物品的相似度，其二是根据用户历史的行为记录推荐与其之前喜欢的物品相似的物品。该个过程中存在一个问题；如果某个物品非常热口，很多人都对它有过行为记录，会造成任何物品都和该个热口物品非常相似，形成"哈利波特效应"，除此之外，该热口物品也不能真实反映用户的偏好。该两个问题对强调个性化、致力挖掘长尾信息的推荐系统而言显然具有不合理之处。
[0003] 因此，现有技术还有待于改进和发展。

【发明内容】

[0004] 鉴于上述现有技术的不足，本发明的目的在于提供一种基于词频加权技术的个性化协同过滤推荐方法及系统，旨在解决现有的推荐方法准确性和挖掘长尾物品的能力有待提高的问题。
[0005] 本发明的技术方案如下：
[0006] 一种基于词频加权技术的个性化协同过滤推荐方法，其中，包括步骤：
[0007]A、计算两两物品的相似度；
[0008]B、计算出每个物品的特征性频率TF和倒排文档频率IDF，然后计算出每个物品的 TF-IDF频率TI;
[0009]C、根据两两物品之间的相似度W及每个物品的TF-IDF频率生成每个用户的推荐列表，然后根据所述推荐列表向用户推荐物品。
[0010] 所述的基于词频加权技术的个性化协同过滤推荐方法，其中，所述步骤A具体包括：
[0011] A1、获取用户-物品对应表；
[0012] A2、统计用户-物品对应表中每一物品出现的次数，W及两两物品同时出现的次数；
[0013]A3、根据W下公式计算出两两物品之间的相似度Wy;
[0014]
;其中，|N(i)I是用户-物品对应表中物品i出现的次数， N(j)I是用户-物品对应表中物品j出现的次数，|N(i)nN(j)I为用户-物品对应表中物品i和物品j同时出现的次数。
[0015] 所述的基于词频加权技术的个性化协同过滤推荐方法，其中，所述步骤B具体包括：
[0016]B1、取每个物品相似度最高的N个物品，按相似度从高到低进行排序；
[0017]B2、分别计算取出的每个物品的特征性频率TF和倒排文档频率IDF，其中TF表示取出的某个物品在用户-物品对应表中出现的次数，IDF=log[S/(TF+l)]，其中S为用户-物品对应表中的用户总数；
[0018]B3、计算取出的每个物品的TF-IDF频率TI。
[0019] 所述的基于词频加权技术的个性化协同过滤推荐方法，其中，所述步骤C具体包括：
[0020] C1、按下式求出每个用户的推荐列表；
[0021]
[002引其中N(u)是用户U喜欢的物品合集，是和物品i最相似的K个物品的集合，wy为物品i和j的相似度，Zui为物品i的TF-IDF频率TI;
[0023]C2、将推荐列表中的各个物品从低到高排序，取排序靠前的若干物品推荐给用户。
[0024] 所述的基于词频加权技术的个性化协同过滤推荐方法，其中，所述步骤B3中， TF-IDF频率TI按下式计算；
[00 巧]TI=TF*IDF。
[0026] -种基于词频加权技术的个性化协同过滤推荐系统，其中，包括：
[0027] 相似度计算模块，用于计算两两物品的相似度；
[0028] 频率计算模块，用于计算出每个物品的特征性频率TF和倒排文档频率IDF，然后计算出每个物品的TF-IDF频率TI;
[0029] 推荐模块，用于根据两两物品之间的相似度W及每个物品的TF-IDF频率生成每个用户的推荐列表，然后根据所述推荐列表向用户推荐物品。
[0030] 所述的基于词频加权技术的个性化协同过滤推荐系统，其中，所述相似度计算模块具体包括：
[0031] 对应表获取单元，用于获取用户-物品对应表；
[0032] 统计单元，用于统计用户-物品对应表中每一物品出现的次数，W及两两物品同时出现的次数；
[0033] 相似度计算单元，用于根据W下公式计算出两两物品之间的相似度Wy;
[0034]
其中，|N(i)I是用户-物品对应表中物品i出现的次数， N(j)I是用户-物品对应表中物品j出现的次数，|N(i)nN(j)I为用户-物品对应表中物品i和物品j同时出现的次数。
[0035] 所述的基于词频加权技术的个性化协同过滤推荐系统，其中，所述频率计算模块具体包括：
[0036] 排序单元，用于取每个物品相似度最高的N个物品，按相似度从高到低进行排序；
[0037] 第一频率计算单元，用于分别计算取出的每个物品的特征性频率TF和倒排文档频率IDF，其中TF表示取出的某个物品在用户-物品对应表中出现的次数，IDF=log[S/ (TF+1)]，其中S为用户-物品对应表中的用户总数；
[0038] 第二频率计算单元，用于计算取出的每个物品的TF-IDF频率TI。
[0039] 所述的基于词频加权技术的个性化协同过滤推荐系统，其中，所述推荐模块具体包括：
[0040] 推荐列表生成单元，用于按下式求出每个用户的推荐列表：
[0041]
[004引其中N(u)是用户U喜欢的物品合集，Su，K>是和物品i最相似的K个物品的集合，wy为物品i和j的相似度，Zui为物品i的TF-IDF频率TI;
[0043] 推荐单元，用于将推荐列表中的各个物品从低到高排序，取排序靠前的若干物品推荐给用户。
[0044] 所述的基于词频加权技术的个性化协同过滤推荐系统，其中，所述第二频率计算单元中，TF-IDF频率TI按下式计算；
[0045]TI=TF*IDF。
[0046] 有益效果；本发明通过在协同过滤算法中引入TF-IDF算法，能够有效的降低热口商品对推荐结果的影响，提升推荐系统的推荐覆盖率，W及提高推荐准确性，并且能够提高挖掘"长尾"商品的能力。
【附图说明】
[0047] 图1为本发明一种基于词频加权技术的个性化协同过滤推荐方法较佳实施例的流程图。
[0048] 图2为图1所示方法中步骤S101的具体流程图。
[0049] 图3为图1所示方法中步骤S102的具体流程图。
[0050] 图4为图1所示方法中步骤S103的具体流程图。
[0051] 图5为本发明一种基于词频加权技术的个性化协同过滤推荐系统较佳实施例的结构框图。
[0052]图6为图5所示系统中相似度计算模块的具体结构框图。
[0053] 图7为图5所示系统中频率计算模块的具体结构框图。
[0054]图8为图5所示系统中推荐模块的具体结构框图。
【具体实施方式】
[00巧]本发明提供一种基于词频加权技术的个性化协同过滤推荐方法及系统，为使本发明的目的、技术方案及效果更加清楚、明确，W下对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用W解释本发明，并不用于限定本发明。
[0056] 请参阅图1，图1为本发明一种基于词频加权技术的个性化协同过滤推荐方法较佳实施例的流程图，如图所示，其包括步骤：
[0057] S101、计算两两物品的相似度；
[0058] S102、计算出每个物品的特征性频率TF和倒排文档频率IDF，然后计算出每个物品的TF-IDF频率TI;
[0059] S103、根据两两物品之间的相似度W及每个物品的TF-IDF频率生成每个用户的推荐列表，然后根据所述推荐列表向用户推荐物品。
[0060] 进一步，如图2所示，所述步骤S101具体包括：
[0061] S201、获取用户-物品对应表；
[0062] 用户-物品对应表的具体实例如下表1所示，后续的计算实例W此表为基础：
[0063] 表1
[0064]
[0065] 上表中，用户1喜欢的物品有1，2, 5,用户2喜欢的物品有3, 4, 5,依次类推。
[0066]S202、统计用户-物品对应表中每一物品出现的次数，W及两两物品同时出现的次数；
[0067] 统计结果如下所示：
[0068]N(l) I= 2 ；
[0069]N(2) I= 2 ；
[0070]N(3) I= 3 ；
[0071] N(4) I= 2 ；
[0072] |n6)|=3;
[007引其中，|N(i)I是用户-物品对应表中物品i出现的次数；
[0074]N(l)nN(2)I= 1 ；
[00巧]|N(1)nN(3)I= 1 ;
[0076] N(l) nN(4) I = 1 ；
[0077] |N(1) nN巧）I = 1 ;
[0078] N(2) nN(3) | = 1 ；
[0079] |N(2) nN巧）I = 2 ;
[0080] N(3) nN(4) I = 2 ；
[0081] |N(3) nN巧）I = 2 ;
[0082] |n(4) nN巧）I = 1 ;
[008引其中，|N(i)nN(j)I为用户-物品对应表中物品i和物品j同时出现的次数；S203、根据W下公式计算出两两物品之间的相似度Wy;
[0094] 进一步，如图3所示，所述步骤S102具体包括；
[0095]S301、取每个物品相似度最高的N个物品，按相似度从高到低进行排序；
[0096] 取出的物品如下表2所示，其中的N为4,当然也可根据需要进行调整：
[0097]表 2
[0098]

[0099]S302、分别计算取出的每个物品的特征性频率TF和倒排文档频率IDF,其中TF表示取出的某个物品在用户-物品对应表中出现的次数，IDF=log[S/(TF+l)]，其中S为用户-物品对应表中的用户总数；
[0100] 计算结果如下所示：
[0101] TFi= 2 ；
[0102] TF2= 2 ；
[0103] TFs= 3 ;
[

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杨焕滨;王巍;
技术所有人：TCL集团股份有限公司;
我是此专利的发明人

上一篇：一种商品信息的推送和用户习惯分析方法及系统的制作方法
上一篇：基于双重url的二维码广告投放及渠道评价方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。