一种融合置信度的信任影响群组推荐方法与流程

文档序号:29165438发布日期:2022-03-09 02:20阅读:170来源:国知局
一种融合置信度的信任影响群组推荐方法与流程

1.本发明涉及群组推荐数据技术领域,特别是设计一种融合置信度的信任影响群组推荐方法。


背景技术:

2.随着互联网技术的快速发展,网络空间产生海量数据,信息过载问题日益突出。个性化推荐系统通过对用户历史行为数据进行深度挖掘,借助数学工具分析用户偏好并主动向用户推荐令其满意的产品,一方面缓解了用户的信息过载困境,另一方面增加了平台的用户粘性,为企业带来巨额利润,已被广泛应用于诸多领域。
3.然而,个性化推荐系统只能向单个用户产生推荐。在很多现实场景中,有些活动是以多用户组成的群组的形式进行的,如与朋友一起看电影,和同事一起吃饭等。这样的场景给推荐系统带来了新的挑战:为了满足所有/大部分群组成员,应该推荐什么样的产品或服务?基于新挑战,群组推荐系统逐渐成为新的研究热点。
4.目前,对群组推荐系统的研究主要聚焦于解决群组成员间的偏好冲突方面,研究的重点主要围绕在设计出行之有效的偏好融合策略,以期通过融合成员偏好达到高效的群组推荐效果。已有的群组推荐方法基本首先分析组内成员的用户特征,然后根据社会选择理论为具有不同特征的成员分配不同权重,最后通过对成员权重与其评分加权融合得到群组评分,进而得到群组推荐结果。但这种方法对组内成员的交互影响缺乏考虑,因为个人独处行为和位于群体中的行为具有显著差异。因此,已有的群组推荐方法未能解决群组成员间的交互影响问题,导致群组推荐的准确性不高。


技术实现要素:

5.为了解决上述问题,本发明提供了一种融合置信度的信任影响群组推荐方法,构建了一种新的信任关系计算模型,该模型同时考虑了用户的评分相似性和评分置信度,可显著提高群组推荐的准确性。为此,本发明采用的技术方案是:
6.提供一种融合置信度的信任影响群组推荐方法,该方法包括以下步骤:
7.一种融合置信度的信任影响群组推荐方法,其特征在于,该方法包括以下步骤:
8.s1、从基于在线社交网络的服务网站(如netflix、meetup等)中采集数据,获取用户对项目的评分数据,构建评分数据集;
9.s2、利用k-means聚类算法对评分数据集中用户进行聚类,形成多个子簇,构建群组信息;由于同一用户可以位于不同群组中,反复执行聚类算法,形成大量群组,构建群组集;
10.(1)将评分数据集整理成用户评分向量;
11.(2)随机选取k个用户作为初始聚类中心;
12.(3)计算剩余用户到k个初始中心用户之间的余弦距离,并将每个剩余用户归于距离最小的簇中;更新簇中心点;
13.(4)重复步骤(3)(4);
14.(5)达到约定迭代次数,结束算法。
15.s3、在同一群组中,针对成员之间对于评分的理解、解释不同,构建评分习惯差异模型;
16.(1)应用香农熵计算成员u评分的不确定性
[0017][0018][0019]
其中,|rd|表示评分域中的元素数量,p
ur
表示用户u在评分向量vu中评分为r的概率;|vu|表示评分域中的评分元素的数量。
[0020]
(2)通过不确定性计算成员u评分的确定性
[0021]
ceru=1-uceruꢀꢀꢀꢀ
(3)
[0022]
其中,ceru表示用户u评分的确定性。
[0023]
(3)计算成员评分习惯之间的差异
[0024]
cerdiff
u,v
=|cer
u-cerv|
ꢀꢀꢀꢀ
(4)
[0025]
其中,cerdiff
u,v
表示用户u和用户v的评分习惯差异。
[0026]
s5、基于成员之间的评分相似性与评分习惯构建融合置信度的信任模型;
[0027][0028][0029][0030]
其中,cbtrust
u,v
表示用户u对用户v的信任度,affinity
u,v
表示用户u对用户v的亲和度,|iu∩iv|表示用户u和用户v共同评分过的项目数,|iu|表示用户u评分过的项目数,distance
u,v
表示用户u和用户v之间的距离,r
u,i
表示用户u对项目i的评分。
[0031]
s6、基于信任模型计算成员间的动态信任影响权重;
[0032][0033][0034]
其中,winf
v,u
表示用户v对用户u的影响权重,similarity
u,v
表示用户u和用户v之间的皮尔逊相关系数,表示用户u的评分均值。
[0035]
s7、计算经过信任影响修正后的成员评分;
[0036]
infr
u,i
=r
u,i
+∑
v∈g∧v≠u
winf
v,u
*(r
v,i-r
u,i
)
ꢀꢀꢀꢀ
(10)
[0037]
其中,infr
u,i
表示用户u经过群组成员信任影响修正后对项目i的评分。
[0038]
s8、融合成员评分,得到群组评分;
[0039][0040]
其中,r
g,i
表示群组g对项目i的评分,|g|表示群组内的成员数量。
[0041]
s9、将s8计算出的群组评分进行降序排序,并将排名靠前的多个候选项目推荐给群组。
[0042]
这里步骤s1所述的构建评分数据集就是收集用户在服务网站的评分数据,如用户对某个电影的评分数据。
[0043]
进一步的是,步骤s1中采集的数据包括:服务网站中的用户id、用户名、项目id、项目类型、用户评分,用户评分时间。
[0044]
进一步的是,在步骤s2中,一般使用k-means算法作为群组挖掘算法,但群组挖掘算法不限于k-means算法,还可以是其他的聚类算法,如模糊c均值聚类算法等。
[0045]
进一步的是,在步骤s2中,一个用户可以同时位于多个群组中,因此在大数据集下反复执行聚类算法,可生成大量群组,同时同一用户会位于不同群组中。
[0046]
进一步的是,在步骤s3中,所述评分习惯差异模型包括以下组件:
[0047]
1)用户评分不确定性组件:在该组件中,考虑到用户u对项目i的评分r
u,i
的不确定性,利用香农熵定理对这种不确定性进行建模。该模型对用户u在评分允许范围内的所有评分出现的次数进行计算并代入香农熵定理,得到了用户u评分的不确定性,该值位于[0,1]之间。
[0048]
2)用户评分确定性组件:在该组件中,用户u评分的确定性通过其评分的不确定性进行计算得到。
[0049]
3)用户评分习惯差异组件:在该组件中,用户u和用户v之间评分习惯通过二者的评分确定性进行计算得到。
[0050]
需要说明的是,上述的各种符号只是指代作用,也可以用其他符号代替。某个评分出现的概率与其在评分集中出现的次数成正比。
[0051]
进一步的是,在步骤s5中,充分结合用户之间评分距离和每个用户的评分置信度,计算得到用户之间更加精确的信任关系。需要注意的是,考虑到信任关系的不对称性,在公式(6)中,利用jaccard距离计算用户u与用户v之间的亲和度。
[0052]
进一步的是,在步骤s6中,利用皮尔逊相关系数计算两个用户之间的评分相似性,将计算得到的评分相似性与融合置信度的信任模型相结合,计算用户之间的信任影响权重。
[0053]
需要注意的是,在公式(8)中,用户v对用户u的信任影响权重取决于用户u对用户v的信任和用户u与用户v之间的评分相似性。
[0054]
进一步的是,在步骤s7中,利用用户间的信任影响权重计算得到经过信任影响后的修正的成员评分。
[0055]
进一步的是,在步骤s8中,对得到的成员评分进行融合,得到群组评分。需要注意的是,这里直接采用均值策略作为评分融合策略,但融合策略不是一成不变的,还可使用其他如最小痛苦策略、最受尊敬者策略等等,具体的融合策略可根据具体的应用场景进行设计使用。
[0056]
进一步的是,在步骤s9中,为了使推荐的项目更加容易被群组接受,将计算的群组评分倒序排列,推荐群组评分较高的多个项目。
[0057]
本发明主要是根据用户的评分数据,挖掘潜在群组,并利用香农熵定理计算各成员评分习惯的差异性,在此基础上,结合成员间的隐式信任关系计算得到融合置信度的信
任关系,进一步地计算出群组成员交互中的修正评分,继而结合融合策略得到群组评分,产生相应地群组推荐结果。该方法考虑到了组内交互对成员的影响,模拟了真实情况下的组内交互作用,旨在提高群组推荐的准确性,提高用户的体验感和满足感。
附图说明
[0058]
图1本发明在不同推荐数量下与其他算法归一化折损累计增益的比较示意图;
[0059]
图2本发明在不同推荐数量下与其他算法均方根误差的的比较示意图;
[0060]
图3本发明在不同群组规模下与其他算法归一化折损累计增益的的比较示意图;
[0061]
图4本发明在不同群组规模下与其他算法均方根误差的的比较示意图。
具体实施方式
[0062]
一种融合置信度的信任影响群组推荐方法,该方法包括以下步骤:
[0063]
(1)获取用户评分数据集;
[0064]
(2)根据用户评分数据进行聚类,生成群组;
[0065]
(3)计算组内成员的评分习惯差异;
[0066]
应用香农熵计算成员u评分的不确定性
[0067][0068][0069]
其中,|rd|表示评分域中的元素数量,p
ur
表示用户u在评分向量vu中评分为r的概率;|vu|表示评分域中的评分元素的数量。
[0070]
通过不确定性计算成员u评分的确定性
[0071]
ceru=1-uceruꢀꢀꢀꢀ
(3)
[0072]
其中,ceru表示用户u评分的确定性。
[0073]
计算成员评分习惯之间的差异
[0074]
cerdiff
u,v
=|cer
u-cerv|
ꢀꢀꢀꢀ
(4)
[0075]
其中,cerdiff
u,v
表示用户u和用户v的评分习惯差异。
[0076]
(4)计算组内成员的信任关系;
[0077][0078][0079][0080]
其中,cbtrust
u,v
表示用户u对用户v的信任度,affinity
u,v
表示用户u对用户v的亲和度,|iu∩iv|表示用户u和用户v共同评分过的项目数,|iu|表示用户u评分过的项目数,distance
u,v
表示用户u和用户v之间的距离,r
u,i
表示用户u对项目i的评分。
[0081]
(5)计算组内成员间的动态信任影响权重;
[0082]
[0083][0084]
其中,winf
v,u
表示用户v对用户u的影响权重,similarity
u,v
表示用户u和用户v之间的皮尔逊相关系数,表示用户u的评分均值。
[0085]
(6)计算经过信任影响修正后的成员评分;
[0086]
infr
u,i
=r
u,i
+∑
v∈g∧v≠u
winf
v,u
*(r
v,i-r
u,i
)
ꢀꢀꢀꢀ
(10)
[0087]
其中,infr
u,i
表示用户u经过群组成员信任影响修正后对项目i的评分。
[0088]
(7)计算群组评分;
[0089][0090]
其中,r
g,i
表示群组g对项目i的评分,|g|表示群组内的成员数量。
[0091]
(8)将群组评分较高的多个项目推荐给群组;
[0092]
一个好的推荐系统应该要从多方面展现出好的推荐效果,因此也具有多种评价指标。本发明采用归一化折损累计增益(ndcg)和均方根误差(rmse)来进行推荐算法精度的评测。
[0093]
归一化折损累计增益的计算公式为:
[0094][0095][0096]
其中,dcg@n表示用户对推荐列表中n个项目相对于它们在列表中位置的真实评分的满意度,reli表示用户对推荐列表中第i个项目的评分。idcg@n是dcg@n优选值,即推荐列表按照单个用户的评分降序排列。实验中,计算每个组成员的ndcg@n的值,以平均值平均值表示组的ndcg@n值。ndcg@n的值越高,说明推荐方法越好。
[0097]
均方根误差的计算公式为:
[0098][0099]
其中,r
g,i
表示预测的群组g对项目i的评分,ar
g,i
表示真实的群组g对项目i的评分,n是推荐的项目数量。rmse的值越小,说明预测的精度越高。
[0100]
一种融合置信度的信任影响群组推荐方法,其特征在于,该方法包括以下步骤:
[0101]
s1、从基于在线社交网络(online social network)的服务网站(如netflix、meetup等)中采集数据,获取用户对项目的评分数据,构建评分数据集;使用明尼苏尼亚大学grouplens项目组提供的公开数据,https://grouplens.org/datasets/movielens/,该数据依据用户对电影的喜好程度对电影进行评分;
[0102]
s2、利用k-means聚类算法对评分数据集中用户进行聚类,形成多个子簇,构建群组信息;由于同一用户可以位于不同群组中,反复执行聚类算法,形成大量群组,构建群组集;
[0103]
(1)将评分数据集整理成用户评分向量;假设共有10个电影,当用户u给电影1,3,7分别评分为5,1,4时,用户u的评分向量即为ru=[5,0,1,0,0,0,4,0,0,0](未评分项目用0表示)
[0104]
(2)随机选取k个用户作为初始聚类中心,依据k-means算法步骤,k个用户是随机选取;
[0105]
(3)计算剩余用户到k个初始中心用户之间的余弦距离,并将每个剩余用户归于距离最小的簇中;余弦距离的计算公式如下:
[0106][0107]
假设有如下8个点a1(2,10),a2(2,5),a3(8,4),a4(5,8),a5(7,5),a6(6,4),a7(1,2),a8(4,9),需要分成三类,选择初始点是a1,a4,a7。
[0108]
第一轮计算剩余点到初始点的距离:
[0109][0110][0111][0112]
通过上面的计算,可以看出a2距离a1距离最小,因此a2点属于a1这个簇。
[0113]
同理,可以计算出其余各点到初始聚类中心的距离。
[0114][0115][0116][0117]
因此,a3属于a1簇。
[0118][0119][0120]
dist(a5,a7)=0.884
[0121]
因此,a5属于a1簇。
[0122][0123]
dist(a6,a4)=0.911
[0124]
dist(a6,a7)=0.868
[0125]
所以,a6也属于a1簇。
[0126]
经过第一轮计算,得到三个簇的情况如下:
[0127]
cluster1:(a1,a2,a3,a5,a6)
[0128]
cluster2:(a4)
[0129]
cluster3:(a7)
[0130]
之后,更新簇中心。
[0131]
对于cluster1,新的簇中心的x特征为(2+2+8+7+6)/5=5,y特征为(10+5+4+5+4)/5=5.6,所以cluster1的新簇中心为(5,5.6)
[0132]
对于cluster2和cluster3,由于只有一个点,所以新的簇中心维持不变。即cluster2的簇中心为(5,8),cluster3的簇中心为(1,2)。
[0133]
至此,k-means算法的第一轮迭代结束。
[0134]
之后,重新计算数据点到新的簇心的距离,并重新分配数据点。
[0135]
如果算法迭代的约定次数为2次,则在第二次分配完数据点之后,算法即完成。
[0136]
其中,表示评分向量
[0137]
(4)根据平均距离计算每个簇的新的中心,并更新簇中心点;
[0138]
(5)重复步骤(3)(4);
[0139]
(6)达到约定迭代次数,结束算法。
[0140]
s3、在同一群组中,针对成员之间对于评分的理解、解释不同,利用香农熵计算成员评分习惯之间的差异;
[0141]
(1)应用香农熵计算成员u评分的不确定性
[0142][0143][0144]
其中,|rd|表示评分域中的元素数量,p
ur
表示用户u在评分向量vu中评分为r的概率;|vu|表示评分域中的评分元素的数量。
[0145]
(2)通过不确定性计算成员u评分的确定性
[0146]
ceru=1-uceruꢀꢀꢀꢀ
(3)
[0147]
其中,ceru表示用户u评分的确定性。
[0148]
(3)计算成员评分习惯之间的差异
[0149]
cerdiff
u,v
=|cer
u-cerv|
ꢀꢀꢀꢀ
(4)
[0150]
其中,cerdiff
u,v
表示用户u和用户v的评分习惯差异。
[0151]
s5、基于成员之间的评分相似性与评分习惯构建融合置信度的信任模型;
[0152][0153][0154][0155]
其中,cbtrust
u,v
表示用户u对用户v的信任度,affinity
u,v
表示用户u对用户v的亲和度,|iu∩iv|表示用户u和用户v共同评分过的项目数,|iu|表示用户u评分过的项目数,distance
u,v
表示用户u和用户v之间的距离,r
u,i
表示用户u对项目i的评分。
[0156]
s6、基于信任模型计算成员间的动态信任影响权重;
[0157][0158][0159]
其中,winf
v,u
表示用户v对用户u的影响权重,similarity
u,v
表示用户u和用户v之间的皮尔逊相关系数,表示用户u的评分均值。
[0160]
s7、计算经过信任影响修正后的成员评分;
[0161]
infr
u,i
=r
u,i
+∑
v∈g∧v≠u
winf
v,u
*(r
v,i-r
u,i
)
ꢀꢀꢀꢀ
(10)
[0162]
其中,infr
u,i
表示用户u经过群组成员信任影响修正后对项目i的评分。
[0163]
s8、融合成员评分,得到群组评分;
[0164][0165]
其中,r
g,i
表示群组g对项目i的评分,|g|表示群组内的成员数量。
[0166]
s9、将s8计算出的群组评分进行降序排序,并将排名靠前的多个候选项目推荐给群组。
[0167]
假设聚类得到的群组成员及其对电影的评分如表1所示(空白表示未评分)。
[0168]
表1评分表
[0169][0170]
通过式(9)得到的组成员之间的相似度如表2所示。
[0171]
表2相似度表
[0172][0173]
通过式(5)可以计算出群组成员间的信任值,如表3所示。
[0174]
表3信任值表
[0175]
[0176][0177]
通过式(8)计算出成员之间的影响权重,如表4所示。
[0178]
表4影响权重表
[0179][0180]
通过式(10)计算出修正后的成员评分,如表5所示。
[0181]
表5修正后的评分表
[0182][0183]
通过式(11)可以得到群组对电影的评分,如表6所示。
[0184]
表6群组评分表
[0185]

[0186]
图1-图4展示了方法在不同情况下的推荐精度。图1和图2展示了各方法在不同的推荐数量n下的推荐性能,包括ndcg@n和rmse。由实验结果分析可得:总体而言,推荐的性能随着推荐数量的增大逐渐降低。mcs算法和wbf算法仅考虑到用户和项目的静态属性,推荐效果一般;ibgr算法结合了用户之间的信任关系,在推荐效果上有所提升;而本文算法不仅考虑了用户间的信任关系,而且考虑到了用户评分的置信度,通过融合置信度更正了用户间的信任关系,使得归一化折损累计增益和均方根误差均优于前三种算法,这也正说明了该方法的有效性,能够准确地为群组进行推荐。图3和图4展示了各方法在不同的群组规模下|g|下的推荐性能,包括ndcg@n和rmse。由实验结果分析可得:总体而言,推荐的性能与群组规模呈现一种反比关系。mcs算法和wbf算法由于对群组间的交互影响缺乏考虑,因此推
荐的性能较低;ibgr虽然考虑了群组间的信任影响,但对用户评分的置信度缺乏考量,虽然推荐效果得以提升,但效果还不足够令人满意;相比之下,本文方法由于在信任关系中融入了置信度,使得归一化折损累计增益和均方根误差均优于对比算法,再一次说明了本文方法的有效性及优越性。
[0187]
本发明的优点在于通过考虑用户评分的置信度,利用香农熵定理计算得到了用户评分习惯的差异性,通过将其融入隐式信任计算中,更正了用户之间的信任关系,对群组用户间的交互影响进行了建模,使得群组推荐的性能有所提高。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1