一种电影推荐评分系统的冷启动处理方法

文档序号:8512562阅读:374来源:国知局
一种电影推荐评分系统的冷启动处理方法
【技术领域】
[0001] 本发明涉及互联网服务领域,更具体地,涉及一种电影推荐评分系统的冷启动处 理方法。
【背景技术】
[0002] 现在互联网已经和人们的日常生活紧密结合在一起,线上线下的界限越来越模 糊。几乎所有现实生活中的信息都可以上传到互联网上,进入了信息爆炸时代。信息过载 是现代人面对的一个大难题。为了解决这个问题,人们想出很多方法:从信息检索到门户网 站到搜索引擎再到推荐系统,而推荐系统是目前最有效的方法。现在的推荐系统主要通过 统计分析用户的网上历史行为数据,对用户建模,进而想用户所想,向其做出有效推荐。
[0003] 但是,现在主流的基于协同过滤的推荐系统大多受困于"冷启动"问题。也就是说, 用户网上历史行为数据很少或者根本没有的情况下,现有推荐系统无法做出有效推荐。系 统不会推荐新的电影,新的用户也无法获得满意的推荐。如果能能够解决这个问题,现有推 荐系统的用户体验必将产生质的飞跃,供给用户个性化的网络服务。
[0004] 现在有很多方法试图解决冷启动问题,但是都存在着这样那样的缺陷:
[0005] 为了解决这个问题,C-J-Zhang等人通过研宄发现:新用户倾向于选择高热度的 电影观看,也就是说收视排行榜可以用来对新用户做推荐。Z-K-Zhang等人则发现现在广泛 应用的标签系统也可以用于解决推荐系统的冷启动问题。因为标签可以看作从电影中萃取 出的属性,也反应了用户的观影趣味。比如,对一部电影"泰坦尼克",有人打"爱情"标签,有 人打"莱昂纳多"标签。显然不同的用户的兴趣点是可以细分的。然而,尽管这种方法可以 提高对有少量历史行为记录的用户的推荐准确率,却无法对新用户做出有效推荐,他们没 有标记任何东西。MMognani等人提出可以通过挖掘重叠社交网络中的多维数据解决冷启 动问题。现代人大多参与到多个社交网络中,处于一种交叠的社交关系中。如果把这种数据 整合起来,找出同一个人在不同社交网络中的不同身份,则可以利用这种对应关系提高推 荐的准确率。比如,某用户在Twitter上是莱昂纳多的超级粉丝,那么当他登陆到Netflix 视频网站的时候,系统向他推荐由莱昂纳多主演的《盗梦空间》,会是一个好的选择。但是该 方法的效果并不稳定。S. J. Pan等人提出"迀移学习",其主旨是人们在某一个领域学到的 知识很可能与另一个领域的知识具有相似性。但是这取决于两个领域内部的关联性,并不 总是奏效。

【发明内容】

[0006] 本发明提供一种电影推荐评分系统的冷启动处理方法,来提高系统的预测准确 率。
[0007] 为解决上述技术问题,本发明的技术方案如下:
[0008] 一种电影推荐评分系统的冷启动处理方法,包括以下步骤:
[0009] Sl :构建基于用户背景的电影推荐评分模型:
【主权项】
1. 一种电影推荐评分系统的冷启动处理方法,其特征在于,包括以下步骤: 51 :构建基于用户背景的电影推荐评分模型: K,i =P + b" +^P" +btg +Ks+bio,· +kao } 其中匕为电影推荐评分模型预测的观影评分值,μ为所有电影评分的平均分,bu为用 户偏好,bi为电影质量偏差,p u为用户偏好,q i为电影本身特性,q iTpu为特定用户对特定一 部电影的评价,Kg = TrgemM,!b,7 +b^+b^+b-,为用户u对电影类型i的偏好, |genres(〇 | genres (i) I为电影类型是i的电影总数,bia为处于某年龄段a的用户对电影i的偏好,bi() 为从事某职业〇的用户对电影i的偏好,bis为性别为s的用户对电影i的评分影响;b ias为 性别为s且处于a年龄段的用户在两种背景属性的相互作用下对电影i的偏好,同理,bi()S 为性别为s且从事职业〇的用户对电影i的偏好,bia。为处于a年龄段且从事职业〇的用户 对电影i的偏好; 给模型输入数据样本利用随机梯度下降法计算得出模型中各个参数的值; 52 :对电影推荐评分模型进行训练。
2. 根据权利要求1中所述的电影推荐评分系统的冷启动处理方法,其特征在于,所述 步骤S2的过程如下: 521 :拆分模型,分别刻画用户背景属性年龄、职业、性别两两之间的交互作用,再用不 同的已被标记的样本组成若干差异化的样本子集来训练出若干差异化的回归器,样本标记 是指对样本进行推荐评分; 522 :对得到的若干回归器进行协同训练; 523 :将协同训练后的结果进行加权组合。
3. 根据权利要求2中所述的电影推荐评分系统的冷启动处理方法,其特征在于,所述 步骤S22的具体过程如下: 531 :为训练出的每一个回归器组建一个教练集,从数据样本集中以置信度为标准选取 无标签样本组成各个教练集; 532 :用各个回归器标记其教练集中的样本得到被标记的教练集; 533 :用多个差异化的被标记的教练集去训练没有隶属关系的回归器。
4. 根据权利要求3中所述的电影推荐评分系统的冷启动处理方法,其特征在于,构建 教练集的过程如下: s4i :计算数据样本集中每一样本的置信度:?(心其中N表示 正则化系数,尤71表示背景模型中用户u的活跃程度,其值与用户的偏好参数bu和ρ u相关; 表示电影i的被观看频率,其值和电影的特性属性参数匕和p i相关,其中c表示各种 背景信息:流派G、职业0、年龄A、性别S,j代表第j个回归器; S42 :通过基于置信度Cj (Xui)的轮盘赌算法来从数据样本集中选取出各个教练集,取 出的样本Xui进入教练集的概率为:
5.根据权利要求4中所述的电影推荐评分系统的冷启动处理方法,其特征在于,步骤 S23由傾合初丨练后的结里的方式加下.
【专利摘要】本发明提供一种电影推荐评分系统的冷启动处理方法,通过构建一个刻画用户背景的电影评分推荐模型,挖掘用户潜在的观影趣味;并拆分模型,分别刻画用户的年龄、职业、性别两两之间的交互作用;为了抵消数据稀疏性的影响,再从数据样本集中选取不同的样本组成若干差异化的样本子集来训练出若干差异化的回归器,用回归器进行协同训练,最后将协同训练的结果进行加权组合,全面发掘用户观影兴趣,提升推荐系统的准确率。
【IPC分类】G06F17-30
【公开号】CN104834710
【申请号】CN201510221820
【发明人】郝志峰, 成英超, 蔡瑞初, 温雯, 王丽娟
【申请人】广东工业大学
【公开日】2015年8月12日
【申请日】2015年4月30日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1