一种基于内容和评分的组合预测方法

文档序号:9432569阅读:206来源:国知局
一种基于内容和评分的组合预测方法
【技术领域】
[0001]本发明属于推荐系统技术领域,具体涉及一种基于内容和评分的组合预测方法。
【背景技术】
[0002]随着互联网的飞速发展,产生了各种各样的Web应用,信息的爆发式增长使得人们在大量信息面前变得无所适从,为了解决这种由信息爆发式增长而造成的问题,搜索引擎技术得以快速发展,然而搜索引擎只是一种主动查找信息的工具,在用户不知道自身需求的情况下,是无法借助于搜索引擎找到用户所感兴趣的信息。为了解决这个问题,对于推荐系统的研究逐渐得到了重视。随着推荐系统的研究的深入,各种各样的推荐系统正在各种商业性网站中得到运用。
[0003]推荐系统是一种分析用户的历史行为并且根据用户的历史行为推荐用户所感兴趣信息的一种技术。目前现有的推荐系统的算法通常使用基于邻居的推荐算法,典型的算法包括基于用户的协同过滤以及基于物品的系统过滤。除了基于邻居的推荐算法之外还有使用奇异值分解进行推荐的算法,该算法属于基于模型的推荐算法。此外深度学习也逐渐在推荐系统中崭露头角,目前有基于限制性玻尔兹曼机的协同过滤算法,该算法取得了较为不错的预测精度。
[0004]然而上述算法的性能却不是那么地令人满意,其中基于邻居的算法其局限性在于当用户数和物品数增大之后,在进行用户或者物品之间的相似度计算所需要的时间将增大。奇异值分解算法虽然不会随着用户和物品的数量的增大而导致计算量迅速增大,但是其在冷启动的时候其性能却受到非常大的影响。此外奇异值分解算法以及限制性玻尔兹曼机协同过滤算法都只局限在了分析用户所产生的评分数据上,并不能利用用户以及物品的其他信息,比如用户的个人信息,物品的描述信息等。此外仅仅利用用户所产生的评分进行预测的精度也较为有限。
[0005]本发明采用内容特征生成预测评分,通过筛选基于内容特征生成的预测评分,并对预测评分进行阈值筛选,将经过筛选的预测评分填充用户-物品评分矩阵中的部分缺失值,使用限制性玻尔兹曼机对填充过的矩阵进行学习,最终使用该模型对缺失评分进行预测。该方法充分利用用户以及物品的信息,能够克服推荐系统冷启动问题,并且该方法还考虑到了评分矩阵的稀疏性对于最终预测的影响,将内容特征融合到现有推荐方法中,进一步提高了推荐算法的性能。

【发明内容】

[0006]本发明的发明目的在于:传统的推荐系统算法的缺点主要是仅仅使用了用户对于物品的评分数据,并没有使用用户以及物品的信息,这从信息的利用率上是不够的,此外传统的推荐系统算法不能够处理用户数以及物品数较大的情况,在面对推荐系统冷启动问题时性能急剧下降。本发明通过引入用户特征以及物品特征所形成的内容特征,将现有的评分作为类标,训练基于内容的分类器,使用该分类器根据缺失评分所生成的内容特征得出缺失评分的预测值,采用阈值筛选出较为合适的预测值以及现有的评分值作为基于限制性玻尔兹曼机协同过滤算法的输入进行训练,得出更为优秀的模型,然后使用该模型进行预测,从而改善预测精度。
[0007]1.本发明的技术方案分为如下几个基本的步骤:
[0008]步骤a.将评分数据集进行划分。
[0009]通过将评分数据集进行划分,划分为训练集a、训练集b以及测试集。其中训练集a作为学习最优参数所需要的集合,训练集b作为学习最优限制性玻尔兹曼机协同过滤模型所需要的模型,测试集为了测试系统性能。
[0010]步骤b.获取最优阈值
通过训练集a、用户数据、物品数据获得最优的筛选阈值。
[0011]步骤c.获取最优限制性玻尔兹曼机协同过滤模型
通过训练集b、用户数据、物品数据、以及在步骤b获得的最优筛选阈值获得最优限制性玻尔兹曼机协同过滤模型。
[0012]步骤d.对数据进行预测
通过使用步骤c所获得的最优限制性玻尔兹曼机协同过滤模型对测试数据集进行预测。
[0013]2.如权利要求1所述的方法,其特征在于,所述步骤b中获取最优阈值的过程如下:
[0014](bl)通过给定的用户信息和物品信息生成用户特征以及物品特征。
[0015](b2)生成已有评分的内容特征。根据训练集a(包含用户编号以及物品编号以及评分)中已有评分的用户编号以及物品编号在步骤(bl)所生成的用户特征以及物品特征进行查找获得用户特征以及物品特征然后将这两个特征进行融合形成已有评分的内容特征,对应的评分作为类标。
[0016](b3)输入到分类器进行训练。将步骤(b2)中所形成的已有评分的内容特征以及类标作为输入,在超限学习机分类器上进行训练,获得在训练集a上基于内容的分类器模型。
[0017](b4)生成缺失评分的内容特征。根据训练集a(包含用户编号以及物品编号以及评分)中缺失评分的用户编号以及物品编号在步骤(bl)所生成的用户特征以及物品特征进行查找获得用户特征以及物品特征然后将这两个特征进行融合形成缺失评分的内容特征。
[0018](b5)输入到分类器进行预测。将步骤(b4)中所形成的缺失评分的内容特征作为输入,使用在训练集a上训练好的基于内容的分类器模型进行预测,得到缺失评分的填充值。
[0019](b6)在0-2范围内生成筛选阈值的范围集合。
[0020](b7)使用阈值范围集合筛选填充值。将步骤(b5)中所得到的缺失评分的填充值进行阈值筛选,去掉一部分填充值,形成若干个填充值集合。
[0021](b8)对稀疏矩阵进行填充。将步骤(b7)中经过筛选的填充值集合分别填充到训练集a中,形成若干个经过填充的训练集a。
[0022](b9)将步骤(b8)中若干个经过填充的训练集a输入基于RBM的算法进行训练,选择其中训练结果最佳的那个阈值范围作为最佳阈值。
[0023]3.如权利要求1所述的方法,其特征在于,所述步骤c中获取获取最优限制性玻尔兹曼机协同过滤模型的过程如下:
(Cl)通过给定的用户信息和物品信息生成用户特征以及物品特征。
[0024](c2)生成已有评分的内容特征。根据训练集b (包含用户编号以及物品编号以及评分)中已有评分的用户编号以及物品编号在步骤(Cl)所生成的用户特征以及物品特征进行查找获得用户特征以及物品特征然后将这两个特征进行融合形成已有评分的内容特征,对应的评分作为类标。
[0025](c3)输入到分类器进行训练。将步骤(c2)中所形成的已有评分的内容特征以及类标作为输入,在超限学习机分类器上进行训练,获得在训练集b上基于内容的分类器模型。
[0026](c4)生成缺失评分的内容特征。根据训练集a(包含用户编号以及物品编号以及评分)中缺失评分的用户编号以及物品编号在步骤(Cl)所生成的用户特征以及物品特征进行查找获得用户特征以及物品特征然后将这两个特征进行融合形成缺失评分的内容特征。
[0027](c5)输入到分类器进行预测。将步骤(c4)中所形成的缺失评分的内容特征作为输入,使用在训练集a上训练好的基于内容的分类器模型进行预测,得到缺失评分的填充值。
[0028](c6)使用最优阈值范围筛选填充值。将步骤(c5)中所得到的缺失评分的填充值进行阈值筛选,去掉一部分填充值,形成一个填充值集合。
[0029](c7)对稀疏矩阵进行填充。将步骤(c6)中经过筛选的填充值集合分别填充到训练集b中,形成若一个经过填充的训练集b。
[0030](c8)将步骤(b6)中若干个经过填充的训练集b输入基于RBM的算法进行训练,得到最佳的限制性玻尔兹曼机协同过滤模型。
【附图说明】
本发明将通过例子并参照附图的方式说明,其中:
图1是本发明具体实施方法的数据集划分示意图;
图2是本发明具体实施方法的
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1