基于社交用户隐特征表示的网络群体形成机制发现方法与流程

文档序号:16791079发布日期:2019-02-01 19:37阅读:240来源:国知局
基于社交用户隐特征表示的网络群体形成机制发现方法与流程

本发明涉及社交网络技术领域,具体涉及一种基于社交用户隐特征表示的网络群体形成机制发现方法。



背景技术:

随着web2.0应用以及其他各种类型的社会媒体的发展,在线社交网络(onlinesocialnetworks,osn)已经成为人们网络生活的最主要平台,在这些平台上,用户并不是单独存在的,他们可能会受社会选择或者社会影响等机制影响而形成社交连接或加入群体,社会选择表示用户因为兴趣而产生关注等连接关系,社会影响表示用户受到网络中重要影响力用户的影响而产生关注等连接关系。

现有的关于网络生成机制的研究多是认为用户更倾向于通过连接高度数节点来获得信息,这种影响机制下形成了ba网络生成模型,但是该模型却没有考虑到社交网络中其他重要的特性,如聚类和社区结构等。一些研究表明用户不仅会连接高度数节点,而且他们也会因为个人兴趣和少数低度数节点相连,因此,这种因为偏好相似而形成关系的社会选择也是网络进化形成的重要机制。这种社会选择可被理解成显性同质性和隐性同质性两种,前者表示用户偏好在显性属性上的相似性,如年龄、地点等,后者表示用户偏好在某些隐偏好上的相似性。这种选择机制下,如空间随机图模型,可以刻画社交网络的一般特性,如“小世界”、幂律度分布和高聚类性,然而这些模型在研究社交网络生成进化机制时,是需要明确网络大小的。最近的考虑选择和影响机制的研究,如亲密模型(kinshipmodel)用相同颜色来表示节点间的亲密程度,新节点的加入会根据度来判断其是选择现有颜色还是新颜色;如流行度相似性模型(popularitysimilaritymodel,ps),流行度被视为节点生成时间,相似性被用于度量两节点的角距离,新节点的加入是基于极坐标上双曲线距离选择最近的m个节点进行连接。但是这些模型只是表达了真实网络的一些特性,对于选择和影响机制在网络形成过程中如何影响节点连接、边的变化等,都没有更加深入的研究。



技术实现要素:

(一)解决的技术问题

针对现有技术的不足,本发明提供了一种基于社交用户隐特征表示的网络群体形成机制发现方法,可解决选择和影响机制在网络形成过程中影响的技术问题。

(二)技术方案

为实现以上目的,本发明通过以下技术方案予以实现:

一种基于社交用户隐特征表示的网络群体形成机制发现方法,包括,

基于用户连接关系构建社交网络;

利用node2vec方法学习获得所述社交网络的隐特征表示;

基于所述社交网络的隐特征表示生成不同影响机制下的网络;

分析所述不同影响机制下的网络特性,确定真实网络的形成机制。

进一步的,所述利用node2vec方法学习获得所述社交网络的隐特征表示;包括:

通过随机游走过程构建邻居用户集;

针对社交网络,构建目标函数;

由所述目标函数获得邻居用户集的似然函数;

对所述似然函数所表征的特征点积单元化;

通过随机梯度上升的方法不断优化,学习获得较优的用户隐特征矩阵。

进一步的,所述基于所述社交网络的隐特征表示生成不同影响机制下的网络;包括:

在初始时间t0随机选择m0个初始用户构建全连接网络;

计算时间t时产生的新连接数;

计算时间t时用户与用户的连接概率;

针对所述全连接网络和连接概率方阵,动态生成仿真社交网络。

进一步的,所述基于用户连接关系构建社交网络;包括:

定义在用户连接关系中用户集合u为:u={u1,...,ui,...,uj,...un},n表示用户数量;以eij表示用户ui和用户uj之间的连接关系,1<i<n,1<j<n,若用户ui和用户uj存在连接关系,则eij=1,表示两用户间形成边,否则eij=0;e表示连接关系集合;以ωij表示用户ui和用户uj之间连接关系eij的权重,w表示权重集合;

定义eii=1;

将存在连接关系的用户依次连接,构建社交网络r=(u,e,w)。

进一步的,所述利用node2vec方法学习获得所述社交网络的隐特征表示,包括:

在所构建的社交网络r中,给定初始用户u0,模拟定长l的随机游走,用户uv游走到用户ux的概率由式(1)所表征:

式(1)中,uv和ux分别表示游走过程中的用户v和用户x;z是标准化常数;πvx是由式(2)所表征的uv到ux的非标准转移概率:

πvx=αpq(t,x)·ωvx,其中,

式(2)中,dtx表示用户t与用户x之间的最短距离,设定随机游走中最短距离不超过3;αpq(t,x)表示用户t游走到用户x的概率,p与q是控制参数;ωvx表示用户t与用户x的关系权重;

通过随机游走过程构建邻居用户集,定义表示用户的邻居用户集;

针对社交网络r=(u,e,w),构建如式(3)所表征的目标函数:

式(3)中,f是用户特征匹配函数;f(u)=[f(u1),...,f(ui),...f(un)]表示用户隐特征矩阵,所述用户隐特征矩阵f(u)是n×d的矩阵;f(ui)=(ai1,...,aik,…aid)表示用户ui的隐特征向量,所述用户ui的隐特征向量f(ui)是1×d的向量,aik表示用户ui的第k维特征偏好值;d表示用户隐特征数;邻居用户集的似然函数p(ns(u)|f(u))如式(4)所表征:

式(4)中,用户ui的似然函数是如式(5)所表征的特征点积单元化:

联合式(4)和(5),式(3)所表征的目标函数约简如式(6)所表征:

针对式(6)所表征的目标函数,通过随机梯度上升的方法不断优化,学习获得较优的用户隐特征矩阵f(u)。

进一步的,所述基于所述社交网络的隐特征表示生成不同影响机制下的网络,包括:

在初始时间t0随机选择m0个初始用户构建全连接网络;

计算时间t时产生的新连接数如式(7)所表征:

δmt=ntk-(nt-1)k(7)

式(7)中,nt表示时间t时的用户数,设定变化率k的取值范围为[1.1,1.7];

计算时间t时用户ui与用户uj的连接概率如式(8)所表征:

式(8)中,βi(0≤βi≤1)表示用户ui的兴趣选择权重,该兴趣选择权重是从概率密度函数中抽样的;是由式(9)所表征的时间t用户uj的影响度:

式(9)中,表示用户uj在时间t的度;

式(8)中,sim(ui,uj)表示时间t时用户ui与用户uj的相似度,所述相似度是如式(10)所表征的隐特征向量f(ui)=(ai1,...,aik,…aid)和f(uj)=(aj1,...,ajk,…ajd)的余弦相似性:

定义时间t时所有用户间的连接概率形成连接概率方阵pt

针对所述全连接网络和连接概率方阵,动态生成仿真社交网络。

进一步的,所述仿真社交网络为影响型生成网络、兴趣型生成网络和中和型生成网络。

进一步的,所述分析所述不同影响机制下的网络特性,确定真实网络的形成机制,包括:

针对影响型生成网络、兴趣型生成网络、中立型生成网络和真实网络,在度分布、聚类系数、knn、社区大小上分析四中网络分布情况,判断真实的网络分布更符合的生成机制,即可确定真实网络是更偏向于哪种生成机制的网络。

(三)有益效果

本发明公开了一种基于在线社交用户隐特征表示的网络群体形成机制发现方法,用二维矩阵表示基于用户的社交网络关系;基于node2vec学习用户社交关系的隐特征表示;基于用户社交关系的隐特征表示生成选择型、影响型和中立型网络三种不同影响机制下的网络;分析网络特性,确定真实网络的形成机制。本发明结合选择机制和影响机制,基于用户隐偏好动态生成网络,更加形象的刻画了真实社交网络的变化,从而更加准确的确定真实网络的形成机制。

附图说明

图1本发明的流程示意图;

图2a为本发明中eu-email和youtube两种真实社交网络数据集及其在选择型、影响型和中立型上对比的聚类系数可视化图;

图2b为本发明中eu-email和youtube两种真实社交网络数据集及其在选择型、影响型和中立型上对比的度分布可视化图;

图2c为本发明中eu-email和youtube两种真实社交网络数据集及其在选择型、影响型和中立型上对比的knn可视化图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。

如图1所示,本发明实施例的一种基于社交用户隐特征表示的网络群体形成机制发现方法,包括以下步骤:

基于用户连接关系构建社交网络;

利用node2vec方法学习获得所述社交网络的隐特征表示;

基于所述社交网络的隐特征表示生成不同影响机制下的网络;

分析所述不同影响机制下的网络特性,确定真实网络的形成机制。

下面针对每一个步骤做详细说明:

步骤1、针对用户连接关系构建社交网络r=(u,e,w)

定义:在所述用户连接关系中用户集合u为:u={u1,...,ui,...,uj,...un},n表示用户数量;以eij表示用户ui和用户uj之间的连接关系,1<i<n,1<j<n,若用户ui和用户uj存在连接关系,则eij=1,表示两用户间形成边,否则eij=0;e表示连接关系集合;以ωij表示用户ui和用户uj之间连接关系eij的权重,w表示权重集合;

定义:eii=1;

将存在连接关系的用户依次连接,构建社交网络r=(u,e,w)。

步骤2、利用node2vec方法学习用户社交关系的隐特征

node2vec方法利用相邻节点之间联系进行特征抽取,采取随机游走策略,把广度优先的搜索策略(breadth-firstsampling,bfs)和深度优先的搜索策略(depth-firstsampling,dfs)结合起来选择邻居节点。

步骤2.1、在步骤1中所构建的社交网络r中,给定初始用户u0,模拟定长l的随机游走,用户uv游走到用户ux的概率由式(1)所表征:

式(1)中,uv和ux分别表示游走过程中的用户v和用户x;z是标准化常数;πvx是由式(2)所表征的uv到ux的非标准转移概率:

πvx=αpq(t,x)·ωvx,其中,

式(2)中,dtx表示用户t与用户x之间的最短距离,设定随机游走中最短距离不超过3;αpq(t,x)表示用户t游走到用户x的概率,p与q是控制参数,参数p与q是来控制游走速度的,p控制再访某节点的概率,一般设置较大值以防止再次抽样到已经访问过的节点;q允许向内和向外两种不同的搜索,如果q>1,随机游走更可能抽样直接相邻节点,类似于bfs策略,属于向内搜索,反之则更可能抽样离得远的节点,类似于dfs策略,属于向外搜索;ωvx表示用户t与用户x的关系权重。

通过随机游走过程构建邻居用户集,定义表示用户的邻居用户集。

步骤2.2、针对社交网络r=(u,e,w),构建如式(3)所表征的目标函数:

式(3)中,f是用户特征匹配函数;f(u)=[f(u1),...,f(ui),...f(un)]表示用户隐特征矩阵,所述用户隐特征矩阵f(u)是n×d的矩阵;f(ui)=(ai1,...,aik,…aid)表示用户ui的隐特征向量,所述用户ui的隐特征向量f(ui)是1×d的向量,aik表示用户ui的第k维特征偏好值;d表示用户隐特征数;基于邻居节点间相互独立的条件独立性假设,邻居用户集的似然函数p(ns(u)|f(u))如式(4)所表征:

p(ns(u)|f(u))=∑p(ui|f(u))(4)

式(4)中,基于i目s标节点与邻居节点在特征空间上彼此影响对称的特征空间对称性假设,用户ui的似然函数是如式(5)所表征的特征点积单元化:

联合式(4)和(5),式(3)所表征的目标函数可约简如式(6)所表征:

针对式(6)所表征的目标函数,通过随机梯度上升的方法不断优化,可以学习获得较优的用户隐特征矩阵f(u)。

步骤3、利用所述用户隐特征矩阵f(u)生成不同影响机制下的网络

步骤3.1、在初始时间t0随机选择m0个初始用户构建全连接网络;

步骤3.2、计算时间t时产生的新连接数如式(7)所表征:

δmt=ntk-(nt-1)k···(7)

式(7)中,nt表示时间t时的用户数,设定变化率k的取值范围为[1.1,1.7]。

步骤3.3、计算时间t时用户ui与用户uj的连接概率如式(8)所表征:

式(8)中,所述连接概率是选择因素和影响因素的线性函数;βi(0≤βi≤1)表示用户ui的兴趣选择权重,也是用户ui与用户uj建立连接时考虑影响度和选择度的权衡因子,该兴趣选择权重是从概率密度函数中抽样的,考虑到用户可能是因为兴趣选择连接,也可能是因为被连接节点用户的影响力而建立连接,又或者是两种因素的综合影响,于是这里假定β服从的偏好分布分别为三种概率密度函数:[0,1]区间单调递增、[0,1]区间单调递减和均匀分布;当概率密度函数单调递增时,β的均值大于0.5,表示选择因素比影响因素的影响更强,用“high”表示网络的生成;当概率密度函数单调递减时,β的均值小于0.5,表示影响因素比选择因素的影响更强,用“low”表示网络的生成;是由式(9)所表征的时间t用户uj的影响度:

式(9)中,表示用户uj在时间t的度;

式(8)中,sim(ui,uj)表示时间t时用户ui与用户uj的相似度,所述相似度是如式(10)所表征的隐特征向量f(ui)=(ai1,...,aik,…aid)和f(uj)=(aj1,...,ajk,…ajd)的余弦相似性:

定义:时间t时所有用户间的连接概率形成连接概率方阵pt

步骤3.4、针对所述全连接网络和连接概率方阵,动态生成仿真社交网络

考虑到真实网络环境下的社交网络动态性,现有节点用户间存在着建立连接和取消连接的现象;

针对时间t的现有全连接网络,设定当前连接中阈值为pt中全部概率值的中位数只有当连接概率大于阈值时,才会形成连接,否则会断开连接;由式(7)得到产生新连接的数量应该为δmt+mt′,mt′表示时间t时断开的连接数;

时间t时,向时间t-1的全连接网络中依次加入u中其他新用户,设定新用户ut与所述时间t-1的全连接网络中现有用户ui的归一化连接概率如式(11)所表征:

根据步骤3.3中所述连接概率方阵pt,从未连接的边中选择个连接概率较高的连接所述连接的连接概率依次为连接ei将以概率被选择。其中,

不断重复以上过程,直到所有用户都被加入网络中。

步骤3.5、步骤3.3中兴趣选择权重从不同的概率密度函数中进行抽样,重复步骤3.1~3.4,从而可以得到影响型、兴趣型和中和型三类仿真社交网络。

步骤4、比较三类仿真社交网络和社交网络r,从而确定社交网络r的形成机制

针对影响型生成网络、兴趣型生成网络、中立型生成网络和真实网络,在度分布、聚类系数、knn、社区大小上分析四中网络分布情况,判断真实的网络分布更符合的生成机制,即可确定真实网络是更偏向于哪种生成机制的网络。

步骤5、使用标准数据集进行实验,在聚类系数、knn和度分布等社交网络性能指标上进行比较分析,并与真实网络进行比较,从而确定真实网络的形成机制。

针对本发明方法进行实验论证,具体包括:

1)准备标准数据集

本发明使用eu-email和youtube两个真实社交网络数据集作为标准数据集验证方法有效性,该数据集是斯坦福大学汇集整理的一个大规模社交网络数据集。eu-email数据集来自欧洲一个研究机构的真实email网络数据,包括了来自42个部门的1005位独立用户的25571条边数据,部门成员间可以相互发送邮件,数据集不记录发送或者接收来自机构外部的数据。youtube数据集来自视频分享网站上的社交数据,本发明抽样了来自100个小组的12382位独立用户的66164条边数据,用户可以于他人建立好友关系,也可以创建或加入小组。

2)评价指标

在真实社交网络与三类生成机制网络的比对试验中,采用如下指标:度分布,度量节点的连接边数分布;平均聚类系数,表示节点聚类或抱团的总体迹象;knn,表示度为k的节点的邻居平均度分布;余弦相似度,表示两个网络的相性程度。

3)在标准数据集上进行实验

为了验证本发明所提方法的有效性,本文分别在eu-email和youtube的数据集进行建模和预测。首先,社交连接关系数据通过node2vec得到用户的隐特征,其中,隐特征维度均取30;其次,分别仿真选择型(si,high)、影响型(si,low)和中立型(si,uniform)三类网络;最后,再将仿真网络与真实社交网络在评价指标上进行比较,实验结果如表1所示,本发明方法发现eu-email真实社交网络属于中立型,即表示网络中用户建立连接受到兴趣型和影响型的共同作用,youtube真实社交网络属于影响型,即表示网络中用户更多的受影响力用户影响而建立连接,与真实研究的结果是一致的。

表1

综上可知与已有技术相比,本发明实施例的有益效果体现在:

1、本发明提出基于在线社交用户隐特征表示的群体形成机制发现方法,其核心是结合选择机制和影响机制,其中的选择机制是基于用户隐偏好构建,相比于服从分布的抽样,本发明的方法更加符合用户真实社交情况。

2、本发明中提出用户连接概率是选择机制和影响机制的一种均衡,在网络的动态生成过程中,连接的生成和取消服从某种生成机制下的概率,更加形象的刻画了真实社交网络的变化。

3、真实社交环境中,影响用户产生连接关系的影响因素可能不同,本发明可以针对不同类型的数据和社交环境,根据不同的用户隐特征,发现真实网络形成的机制是影响型、选择型或中和型。

4、本发明可用于用户购买等显示反馈、用户浏览等隐式反馈以及社交网络关系等场景,网络生成机制的发现可以用于其他研究领域,如推荐、社交网络等,应用范围广泛。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1