基于节点用户的概率矩阵分解模型的构建方法

文档序号:10655135阅读:251来源:国知局
基于节点用户的概率矩阵分解模型的构建方法
【专利摘要】本发明公开了一种基于节点用户的概率矩阵分解模型的构建方法,步骤一:根据社交网络对推荐的影响来定义用户影响力;步骤二:对于节点用户影响力进行形式化的度量;步骤三:构建基于节点用户的概率矩阵分解模型;步骤四:对基于节点用户的概率矩阵分解模型进行训练。与现有技术相比,本发明能够加强社交关系对推荐的作用,进一步提高推荐算法的预测准确性。
【专利说明】
基于节点用户的概率矩阵分解模型的构建方法
技术领域
[0001] 本发明属于数据挖掘领域的推荐算法,特别是是一种基于节点用户的概率矩阵分 解模型。
【背景技术】
[0002] -个完整的推荐系统由3部分组成,包括用户信息收集和用户偏好分析、推荐算法 W及推荐系统实现。矩阵分解模型是隐因子模型最成功的一种,也是当前推荐系统领域使 用最为广泛的模型,其推荐准确度高,而且相对于启发式协同过滤算法可W处理较大规模 数据。目前现有的矩阵分解模型有朴素概率矩阵分解模型、约束概率矩阵分解模型、拓展概 率矩阵分解模型。
[0003] 1)朴素概率矩阵分解模型假设用户和物品的特征向量都服从高斯先验分布,并假 设已经观察到的评分数据的条件概率同时也要服从高斯分布。因而在运个假设前提下,用 户对物品的喜欢程度便可W转化一些概率组合问题。由于朴素概率矩阵分解模型对于评分 数量少的用户会使其特征向量接近于先验均值或者其他用户的均值,因而在预测评分时也 会使得评分接近于目标物品的均值。2)约束的概率矩阵分解模型就可W很好地解决运一类 问题,其是通过引入其他用户对评分数量稀少用户的影响来处理运一类问题。并且约束的 概率矩阵模型的训练时间随着训练样本数量线性增加,其表现要优于朴素概率模型。特别 的,对于训练数据稀少的用户,约束的概率矩阵模型会更优。3)拓展的概率矩阵分解模型是 一类概率矩阵分解模型,其中包括贝叶斯概率矩阵分解模型、参数化概率矩阵分解模型、与 文档主题模型相结合等。与概率矩阵分解模型相同,贝叶斯概率矩阵分解模型假设用户和 物品的特征向量矩阵服从高斯分布,不同用户、物品概率分布相互独立。贝叶斯模型通常是 使用马尔科夫蒙特卡洛方法进行训练,并且预测误差比朴素概率矩阵分解模型要好,但同 样在稀疏的数据下获取潜在信息较为困难。

【发明内容】

[0004] 基于上述现有技术和存在的问题,本发明提出了一种基于节点用户的概率矩阵分 解模型的构建方法,将节点用户影响力引入矩阵分解模型,提出基于节点用户的概率矩阵 分解模型。
[0005] 本发明提出了一种基于节点用户的概率矩阵分解模型的构建方法,该方法包括W 下步骤:
[0006] 步骤一、通过社交关系矩阵来定义用户的影响力,即社交关系矩阵TG {0,l}wn,l 表示有关系,0表示没有关系,有关系的节点越多代表该节点的影响力越大;
[0007] 步骤二、对于节点用户的影响力进行形式化的度量,包括:使用用户入度、用户评 分、W及用户平均误差作为衡量用户影响力的指标;计算=个所述指标两两之间的相关性; [000引步骤S、按照"影响力"大小排序,得到影响力最大的一些用户;
[0009]步骤四、构建基于节点用户的概率矩阵分解模型,包括:对于社交网络中的一个用 户,其特征向量会受到其直接邻居中影响力最大的一些用户的影响。设Nu表示用户U的节点 邻居集合,TG {0,irn为用户社交关系矩阵,Fv表示用户V的影响力,则用户U的特征向量受 运些节点邻居的影响力扶表示为: r] 9
[0010]
[0011] 式中,Uv表示用户V的特征向量受运些节点邻居的影响力,Nu表示用户U邻居节点的 集合;
[0012] 计算用户特征向量的条件概率,表示为:
[0013]
[0014] 其中,N(y I O2)表示为均值ii,方差为O2的高斯分布;假设用户、物品特征向量W及社 交关系矩阵服从高斯分布,则通过贝叶斯推导,可W得到在给定用户评分、社交关系矩阵W 及用户影响力情况下用户和物品特征向量的后验概率,将后验概率取对数(目的是将概率 值放大),得到目标函数;
[0015] 步骤五、对基于节点用户的概率矩阵分解模型进行训练,对后验概率对数式,求其 极大值,等价于求解目标函数式的最小值。
[0016] 与现有技术相比,本发明能够加强社交关系对推荐的作用,进一步提高推荐算法 的预测准确性。
【附图说明】
[0017] 图1为本发明的基于节点用户的概率矩阵分解模型的构建方法的整体示意图;
[0018] 图2为豆瓣电影数据集在=种模型下的实验结果示意图;
[0019] 图3为化Ip数据集在S中模型下的实验结果示意图。
【具体实施方式】
[0020] W下结合附图及【具体实施方式】,进一步详述本发明的技术方案。
[0021] 本发明提出了一种基于节点用户的概率矩阵分解模型,图1为本发明的整体示意 图,包括:
[0022] 步骤1:定义用户的"影响力",根据社交网络对推荐的影响来定义用户的"影响 力",即通过使用社交关系矩阵来度量推荐系统中的用户"影响力",令TE {〇,irn表示社交 关系矩阵,1表示有关系,0表示没有关系,有关系的节点越多,代表该节点的影响力越大;G =(V,E)表示网络拓扑结构,n = I V I表示节点个数,V康示节点i,eij表示节点巧日j之间的 边。
[0023] 步骤2:对于节点用户影响力进行形式化的度量
[0024] 1、度量社交网络用户的影响力可W转化为度量网格拓扑结构中节点的重要程度。 由于基于社交网络的推荐算法在用户-物品评分矩阵的基础上增加了社交关系矩阵,因而 "影响力"的度量需要从用户-物品评分矩阵W及社交网络关系矩阵中挖掘。本专利使用用 户入度、用户评分、W及用户平均误差作为衡量用户影响力的指标。用户入度是在社交网络 中,所受到其他用户关注的程度,可W反映一个用户的受关注的程度。用户评分数是反映一 个用户的活跃程度W及专业程度,一般来说,一个用户的评分数目越多,就说明他越活跃, 影响力越大。用户评分平均误差可W反映一个用户与大众平均评分的差距,从一定角度上 可W反映一个用户是否专业,品味是否和其他用户接近。
[0025] 2、利用斯皮尔曼等级相关系数来衡量上述步骤中=个指标之间相关性。在统计学 中,斯皮尔曼等级相关系数是用来衡量两个变量依赖性的非参数指标。斯皮尔曼等级相关 系数计算公式如公式1所示。
[0026]
(1)
[0027] di = xi-yi表示被观测的两个变量xi,yi(如个指标用户入度、用户评分、W及用 户平均误差中的任意两个变量)的等级差值,n表示di的维度(等于节点个数n)。斯皮尔曼相 关系数体现了两个统计变量之间的相关性。若该相关系数为负值,则说明当Xi增加时,yi趋 向于减少。若该相关系数为正值,则说明当Xi增加时,yi趋向于增加。若该相关系数为0时,Xi 和yi相互独立。例如:将步骤2中的=个指标用户入度、用户评分、W及用户平均误差两两分 别作为被观测的变量。=者之间会依据两两之间计算得到的相关系数的值,描述出具体的 相关性。如果通过计算=个影响力指标间的斯皮尔曼等级相关系数,可W得到绝大部分的 相关系数是特别小的,因而说明运=个影响力指标之间没有明显的相关性,可看做成运= 个指柄基本上保持相互独立的关系。
[0028] 步骤3:利用上述步骤计算的用户影响力,按照"影响力"大小排序,得到影响力最 大的一些用户;
[0029] 步骤4:构建基于节点用户的概率矩阵分解模型:对于社交网络中的一个用户,其 特征向量会受到其直接邻居中影响力最大的一些用户的影响。设Nu表示用户U的节点邻居 集合,TG {0,irn为用户社交关系矩阵,Fv表示用户V的影响力,则用户U的特征向量受运些 节点邻居的影响力^如公式3所示: Ll,
[0030]
(3)
[0031] 式中,Uv表示用户V的特征向量受运些节点邻居的影响力,Nu表示用户U邻居节点的 集合;
[0032] 计算用户特征向量的条件概率,如公式4所示:
[0033]
(4)
[0034] 其中,N(y I O2)表示为均值y,方差为O2的高斯分布。
[0035] 假设用户、物品特征向量W及社交关系矩阵服从高斯分布,则通过贝叶斯推导,可 W得到在给定用户评分、社交关系矩阵W及用户影响力情况下用户和物品特征向量的后验 概率,将后验概率取对数(目的是将概率值放大),得到目标函数。
[0036] 步骤5:对基于节点用户的概率矩阵分解模型进行训练,对后验概率对数式,求其 极大值,等价于求解目标函数式的最小值。
[0037] 为取得目标函数的最小值,可通过对每一个Uu,Vi执行梯度下降,即将目标函数对 于Uu, Vi求偏导,计算对应偏导的临界点即可求得目标函数的最小值。
[0038] 本发明将用户的影响力与推荐系统中使用的概率矩阵分解模型相结合,提出基于 节点用户的概率矩阵分解模型。通过使用=种相互独立的度量衡量了用户的影响力,并且 验证了其模型的有效性。从实验结果可知运模型能够在一定程度上提高推荐算法的预测准 确率,但也需要根据数据的特点W及不同的应用条件来选择恰当的影响力指标去应用该概 率矩阵分解模型。
[0039] 用基于节点用户的概率矩阵分解模型在豆瓣电影和化Ip数据集中与SocialMF模 型W及朴素概率矩阵分解模型进行对比。
[0040] A. W用户评分数作为影响力衡量指标,图2表示了豆瓣电影数据集在=种模型下 的实验结果。由图可知,在采用局部节点用户和采用全局节点用户两种方法下,基于节点用 户的概率矩阵分解模型都优于SocialMF模型。
[0041] B. W用户入度作为影响力衡量指标,图3表示了化Ip数据集在=中模型下的实验 结果。图3为使用用户入度作为影响力衡量指标由图的实验结果显示,当W用户入度作为影 响力因素时,在采用全局节点用户方法时,基于节点用户的概率矩阵分解模型和SocialMF 模型的效果类似,但在采用局部节点方法时基于节点用户的概率矩阵分解模型要优于 SocialMF模型。从实验结果可W看出,基于节点用户的概率矩阵分解模型在使用时需要根 据不同的适用环境,并且需要选择恰当的衡量指标来衡量用户影响力。
【主权项】
1. 一种基于节点用户的概率矩阵分解模型的构建方法,其特征在于,该方法包括以下 步骤: 步骤一、通过社交关系矩阵来定义用户的影响力,即社交关系矩阵Te {0,1}-% 1表示 有关系,O表;^没有关系,有关系的节点越多代表该节点的影响力越大; 步骤二、对于节点用户的影响力进行形式化的度量,包括:使用用户入度、用户评分、以 及用户平均误差作为用户影响力指标;判断三个影响力指标两两之间的相关性; 步骤三、按照"影响力"大小排序,得到影响力最大的一些用户; 步骤四、构建基于节点用户的概率矩阵分解模型,包括:对于社交网络中的一个用户, 其特征向量会受到其直接邻居中影响力最大的一些用户的影响。设Nu表示用户u的节点邻 居集合,Te {〇,1}_为用户社交关系矩阵,Fv表示用户V的影响力,则用户u的特征向量受这 些节点邻居的影响力,表示为:式中,Uv表示用户V的特征向量受这些节点邻居的影响力,Nu表示用户u邻居节点的集 合; 计算用户特征向量的条件概率,表示为:其中,Ν(μ|σ2)表示为均值μ,方差为〇2的高斯分布;假设用户、物品特征向量以及社交关 系矩阵服从高斯分布,则通过贝叶斯推导,可以得到在给定用户评分、社交关系矩阵以及用 户影响力情况下用户和物品特征向量的后验概率,将后验概率取对数(目的是将概率值放 大),得到目标函数; 步骤五、对基于节点用户的概率矩阵分解模型进行训练,对后验概率对数式,求其极大 值,等价于求解目标函数式的最小值。
【文档编号】G06F17/30GK106021289SQ201610284644
【公开日】2016年10月12日
【申请日】2016年4月29日
【发明人】于瑞国, 黄才宝, 王建荣, 赵满坤, 喻梅, 张敏杰
【申请人】天津大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1