一种面向信任度社交网络的社区发现技术方法与流程

文档序号:12125755阅读:165来源:国知局

本发明涉及一种面向信任度社交网络的社区发现技术,属于信息技术领域。



背景技术:

社交网络中的用户以及用户与用户之间的关系是很重要的,能够揭示整个社交网络的结构特征,挖掘用户之间的潜在特征。社交网络中的社区是指包含有部分用户的子图,这些子图内部用户之间权重较高或者连接紧密,而属于不同社区的用户之间权重普遍较低或者连接稀疏。社区的划分一定程度上表明了社交网络中的规律和特征,这对基于社交网络为基础的数据挖掘有着重要的促进作用。因此划分出社交网络中的社区对于设计推荐系统有着重要意义。

社交网络中的社区是客观存在的,一个用户可能因为某个兴趣爱好只与少数几个邻居用户有联系、交集,这在社交网络中对应着用户之间存在着直接相连的边,虽然这个用户没有与其他用户有直接联系了,但是这个用户的邻居用户也因为这个共同的兴趣爱好与社交网络中的其他用户有着联系,因此这个用户与社交网络中的许多用户都存在着一定的相似度。

社区发现技术可以分为局部优化以及全局优化。全局优化需要用到整个网络的所有信息,从整体上对网络进行划分。局部优化方法主要利用社交网络的局部结构特征来揭示全局的网络特征,与全局优化方法相比,不需要全局的社交网络信息或者先验知识。全局优化方法的一个常用方法是谱聚类,被广泛使用来发现社交网络中的社区。谱聚类用于将给定的样本点按照一定的规则划分为若干个簇,每个簇内样本点之间权重较高,不同簇的样本点间的权重较低。相比于k-means等传统算法只能在凸球形的样本空间上进行计算,谱聚类可以针对任何形状的样本空间取得良好效果,不会出现k-means那样的局部最优问题。目前基于社交网络的社区发现技术已经被广泛用在用户朋友推荐、媒体营销中。将社交网络划分为社区后,可以揭示出社交网络的全局规律特征,同时可以对每个社区内的用户网络做更进一步的挖掘,另外在计算上可以对每个社区网络同时进行计算,这尤其适合于一些分布式算法,能够减少算法的运行时间。

信任度是表示社交网络中用户之间信任程度的关系,取值在[0,1]之间,值越高则表明用户被相信的概率就越大。社交网络中用户之间都存在着信任度关系的,只是作为社交网站的使用者,用户很难看到系统后台对用户间信任度的明确度量,信任度可以根据用户之间的交流频率或者用户其他行为间接获得。用户间存在的信任度网络表明了整个社交网络上人们相信彼此的程度。近些年,基于信任度的社交网络成为社交网络应用类型中的主流。而面向信任度社交网络的社区发现技术目前成为信息服务领域的一个研究热点和难点。



技术实现要素:

本发明目的在于克服现有技术不足,面向基于信任度的社交网络,公开一种面向信任度社交网络的社区发现技术方法。该方法根据用户之间的相似度和信任度,定义出用户之间的权重,并利用谱聚类来发现其所隐含的用户社区。最终划分出的社区内的用户有着较为紧密的联系,社区内的用户能够为社区内其他用户的推荐提供有用的参考价值。本发明能够显著提高社区发现的效率和质量。

本发明技术方案表征为:

一种面向信任度社交网络的社区发现技术方法,其特征在于,包括以下步骤:

步骤1,针对信任度社交网络G(U,T,R)中的用户和信任度参数(U,T),计算社交网络中用户之间的信任度;

步骤2,针对信任度社交网络G(U,T,R)中的用户、信任度和用户物品评分矩阵参数(U,T,R),计算社交网络中用户之间的相似度;

步骤3,根据步骤1和2,计算用户之间的权值;

步骤4,根据社交网络中所有用户间的权值,产生|U|×|U|规模的权值矩阵,其中|U|=N,表示信任度社交网络中用户数量;

步骤5,对步骤4中产生的权值矩阵使用谱聚类产生最终的k个社区G1(U1,T1,R1),…,Gk(Uk,Tk,Rk),其中k为用户给定的参数值。

本发明具有以下优点:

1、根据信任度社交网络规模选择合适的划分社区数目,能够最小化划分社区中的信息损耗,具有良好的划分效果;

2、本发明融合谱聚类(“谱聚类”,已属于现有技术),使得社区划分结果具有较高的准确率;

3、本发明的社区发现综合考虑用户之间信任度、相似度因素,能够显著提高其上的推荐质量。

附图说明

图1本发明工作流程图

具体实施方式

本发明面向基于信任度的社交网络,提出了一种有效的社区发现技术,其工作流程如图1所示。

本发明以基于信任度的社交网络G(U,T,R)为输入,其中U={u1,u2,…,uN}为用户的集合,I={i1,i2,…,iM}物品的集合,这里共有N个用户,M个物品。用户物品评分信息以矩阵形式给出R=[Ru,i]N×M,Ru,i表示用户u对物品i的评分,评分是一定范围内的整数,比如[1,5]。当某个用户对某个物品没有评分信息时,则该项为空,在矩阵中记为0。用户与用户之间的信任度用T表示,T=[tu,v]N×N,tu,v表示用户u对用户v的信任度,信任度取值是[0,1]范围内的数值,信任度是单向的。基于信任度的社交网络G(U,T,R)以图结构的形式表示,其中用户作为图中的顶点,而顶点间边的权重即是用户间信任度,这个信任度网络图是单向的。

本发明主要包括以下5个步骤:

1、针对信任度社交网络G(U,T,R)中的用户和信任度参数(U,T),计算社交网络中用户之间的信任度;

2、针对信任度社交网络G(U,T,R)中的用户、信任度和用户物品评分矩阵参数(U,T,R),计算社交网络中用户之间的相似度;

3、根据步骤1和2,计算用户之间的权值;

4、根据社交网络中所有用户间的权值,产生|U|×|U|规模的权值矩阵,其中|U|=N,表示信任度社交网络中用户数量;

5、对步骤4中产生的权值矩阵使用谱聚类产生最终的k个社区G1(U1,T1,R1),…,Gk(Uk,Tk,Rk),其中k为用户给定的参数值。

在步骤1社交网络中用户u和v之间的信任度tu,v计算过程中,本发明采取的是u和v传播路径上的所有信任度的乘积,具体计算公式见公式1:

在公式1中,path(u,v)表示用户u和v之间的路径,(u’,v’)表示u和v之间的路径上的相邻用户对。如果用户u和v之间不存在可达路径,则用户之间的信任度为0,亦即他们之间的权重为0,即用户v对于在计算用户u的推荐结果时不需要考虑用户v的偏好信息,这时候将用户u与用户v划分到两个社区中不会影响这两个用户的推荐结果。为了控制信任度传播距离过远带来的误差太大,本发明设置信任度最大传播经过5个用户,所以在公式(1)中度量用户之间的间接信任度时只考虑游走距离不超过6步。

在步骤2社交网络中用户u和v之间的相似度sim(u,v)计算过程中,本发明使用公式(2)来实施:

在公式(2)中,RIu和分别表示用户u评分过和没有评分过的物品集合,表示集合的基数。本发明在计算用户之间的相似度时,利用用户u没有评分过的物品集和近邻用户v评分过的物品集的相似度计算得到的。由于在选择替代物品时,与物品i相似度较高的其他物品被选中概率较大,所以这里本发明考虑相似度最大的情况。另外本发明也考虑了用户v所有历史偏好信息对计算用户u推荐结果的帮助有多大。

在本发明中,基于步骤1和步骤2计算得到的用户u和v之间的信任度tu,v和相似度sim(u,v),步骤3使用公式(3)来获取用户u和v之间的权值:

其中e为自然对数的底数。

当我们循环执行|U|2=N2次步骤3后,我们将得到N2个两两用户之间的权值。之后,本发明在步骤4中将这N2个权值组织成一个N行N列的权值矩阵W:

在步骤5中,本发明基于权值矩阵W和用户给定的社区个数参数k,采用谱聚类来实施并产生k个社区G1(U1,T1,R1),…,Gk(Uk,Tk,Rk),过程如下:

1)计算权值矩阵W的对角权值矩阵D:

2)计算拉普拉斯矩阵L

3)计算L的的前k个最小特征向量,并组成矩阵HN×k

4)利用k-means(k均值聚类)对HN×k进行聚类,并产生G1(U1,T1,R1),…,Gk(Uk,Tk,Rk)。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1