一种面向社交网络的用户关系分析方法与流程

文档序号:11864763阅读:561来源:国知局
一种面向社交网络的用户关系分析方法与流程
本发明属于社交网络分析领域,主要涉及社交网络行为动力学,以及最大熵模型,具体针对网络结构中的用户关系进行分析。
背景技术
:随着移动互联网技术和web技术的发展,在线社交网络成为了人们日常交流、娱乐、通信的重要工具。网络中用户的关系是在线社交网络的基础,极大的影响在线社会网络的形成和发展,因此对影响用户关系的因素进行分析变得尤为重要。现阶段,对于用户关系分析有不同方面的探索,其中最主要的是关于用户关系预测方面的研究。在基于相似性的用户关系预测中,普遍认为网络中的节点之间的相似度越高,用户之间建立关系的可能性也就越高。目前关于相似性的指标最常见的有共同邻居、Jaccard系数、Adamic/Adaic等。这些相似性指标通过获取网络中节点的局部信息,来用于用户关系预测,具有计算复杂度低的优点。但是,由于只获取网络的局部信息,因此预测精确度较低,另外与以往的用户关系预测方法不同,目前基于社交理论的用户关系预测中能够有效的提高用户关系预测的精度,并且非常适合在大型网络中应用。还有基于概率模型的用户关系分析中,通过建立概率模型获取最优参数集合,然后用于用户关系分析。虽然概率模型可以提高预测准确度,但是计算较为复杂,不适合大规模网络。以上的研究侧重于从不同的角度来进行用户关系分析,提高预测的精度而忽略了影响链接的各个因素之间权重的探索。然而在实际的网络中,这些因素对链接的形成占据着非常重要的作用。因此对每一个驱动因素进行详细分析量化用户关系的影响因素,找到链接形成的决定性因素显得尤为重要。技术实现要素:为了解决上述不足,对于用户之间相互建立关系这一行为,考虑到社交网络中用户关系建立的复杂的线上、线下动力学成因,本发明分别从个人兴趣、好友关系、社团驱动三个方面出发,提取影响链接建立的因素。针对多种影响因素难以量化以及权值分配不确定等问题,考虑到最大熵模型在选择特征时不需要依赖于特征之间的关联性等优点,以最大熵原理为基础构建用户关系分析模型,量化各个因素对用户关系建立的驱动强度,进一步挖掘影响链接建立的关键因素,进而对用户关系进行分析。本发明首先,针对用户关系建立的复杂动力学成因,分别从个人兴趣、好友关系、社团驱动三个方面提取影响用户关系的因素,并定义相应的影响因子函数,对各个因素进行分析。其次,考虑到最大熵的基本思想和方法是建立已知的事实之上,并且对未知的事实不做任何的干预和假设,而是尽可能地保持均匀分布,另外最大熵模型在选择特征时,不需要依赖于特征之间的关联性等优点。针对多种影响因素难以量化以及权值分配不确定等问题,本发明以最大熵原理为基础构建用户关系分析模型。该模型不仅能够量化各因素对链接建立的驱动强度大小,发现关键影响因素,而且可以对用户关系进行有效预测,进而展现出用户关系的发展态势。基于此,本发明采用的技术方案是:一种面向社交网络的用户关系分析方法,包括以下步骤:(1)利用网络爬虫或者通过各社交网站开放API平台获取原始数据。(2)提取用户的个人属性、用户的好友关系信息以及用户的社团信息,根据所提取的信息建立个人兴趣影响因子函数、好友关系影响因子函数和社团驱动影响因子函数。(3)以最大熵原理为基础构建用户关系分析模型,并对用户关系分析模型进行参数训练,获得最优参数集合。(4)根据最优参数集合以及用户关系分析模型对用户之间是否存在关系进行预测。具体地,所述步骤(1)中还包括去掉原始数据中属性缺失的、重复的以及无效的数据结点。在本发明的优选实施例中,所述提取用户的个人属性时,从清洗后的数据中构建初始用户关系网络G=(V,E),从初始网络G中抽取顶点对,若该顶点对存在好友关系则构成正样本,不存在好友关系的顶点对集合构建负样本;然后选取其中的一部分作为源网络Gs=(Vs,Es),从源网络Gs提取用户的个人属性信息。以上用户的个人属性包括用户的ID、用户名称、性别、描述、所在地以及精英用户。本发明的有益效果为:本方法首先从个人属性、好友关系、社团影响三个不同的方面提取特征,然后构建基于最大熵原理的用户关系分析模型。对驱动链接建立的影响因素进行分析,从而获取影响用户之间建立关系的主要驱动因素。另外本方法不仅可以量化各个影响因素的驱动力大小,从而消除了权值不确定的问题,最后我们还可以运行这些驱动力对用户关系进行有效预测。因此本发明方法有利于在社交网络中发现未知链接和未来链接,对了解用户行为方式以及网络结构的演化规律有着重要的意义。附图说明图1是本发明的系统框架图;图2是本发明用户关系分析模型示意图;图3是本发明模型训练流程示意图。具体实施方式为使本发明的目的、技术方案更加简明清晰,以下参照附图及实施例对本发明具体实施做进一步的阐述。如图1为本发明的系统框架图,表明本发明首先从网络中提取用户的个人属性数据,以及用户的关系数据。用户的关系数据既包括用户的粉丝又包括用户的关注信息。然后考虑到用户关系建立的复杂的线上线下动力学成因,分别从三个方面定义用户关系影响因子函数。经过用户关系分析模型的分析和处理,我们不仅可以挖掘到影响用户关系的关键因素,还可以对用户关系进行预测。根据以上叙述,我们做出如下定义:Definition1:初始用户关系网络G=(V,E)其中,G表示初始用户关系网络;V表示初始用户的集合,|V|=N即初始网络中用户的总数;表示初始用户群体中的用户关系边,即用户之间是否存在关系。Definition2:源用户关系网络Gs=(Vs,Es)其中,Gs表示源用户关系网络;Vs表示源用户的集合,|Vs|=Ns即源网络中用户的总数;表示源用户群体中的用户关系边,即用户之间是否存在关系。Definition3:目标用户关系网络Gt=(Vt,Et)其中,Gt表示目标用户关系网络;Vt表示目标用户的集合,|Vt|=Nt即目标网络中用户的总数;表示目标用户群体中的用户关系边,即用户之间是否存在关系。Definition4:全用户关系网络G′=(V′,E′)其中,G′表示全用户关系网络;V′表示所有用户的集合,|V′|=N′即用户的总数;表示全用户群体中的用户关系边,即用户之间是否存在关系。本发明的具体实施步骤主要包括数据获取、特征提取、模型构建、模型训练,模型预测等5个步骤。以下进行详细说明:S1:数据获取。S11:利用网络爬虫获取或者通过各社交网站开放API平台获取所需的原始数据。数据内容主要包括用户的个人属性信息、好友关系信息以及历史行为信息等。S12:数据清洗。获取原始数据之后,通过简单的数据清洗,去掉属性缺失的、重复的以及无效的数据结点等。S2:特征选取。S21:选取数据集。从清洗后的数据中构建初始用户关系网络G=(V,E),从初始网络G中抽取顶点对,若该顶点对存在好友关系则构成正样本,不存在好友关系的顶点对集合构建负样本。本发明选取相同数量的正样本和负样本作为实验初始数据,运用十折交叉验证随机选取其中的90%样本作为源网络Gs=(Vs,Es),剩下10%的样本作为目标网络Gt=(Vt,Et),从源网络Gs提取用户的属性信息。社交网络中丰富的属性信息对用户关系的形成也具有直接的影响力,一对用户越相似越有可能产生链接。属性特征主要是指用户个人的属性,包括用户的ID、用户名称、性别、描述、所在地、以及精英用户等。相对于普通用户来讲,精英用户总是会拥有更多的链接。本发明运用用户关系粉丝特征值来选取精英用户,将所得特征值排名前5%-10%的用户作为精英用户。其中,vi对于用户粉丝特征值fi(vi)计算如下:f(vi)=ϵ(Nvif-Nvim)+Nvim---(1)]]>其中,代表用户vi的粉丝数目,代表用户vi的互粉好友数目。ε表示可变参数,在本发明中选取ε=2,以缩小用户之间粉丝数量特征值的差距。为了便于描述,定义XI表示个人兴趣特征集合,对于任意的个人兴趣特征若用户vi和用户vj满足该特征,则反之为0。S22:提取用户的好友关系信息。在社交网络中,用户之间是否建立链接同时也受到来自网络结构的影响。根据社交平衡理论,如两个人拥有共同好友,那么他们之间建立链接的概率也就更高。因此,通过全用户关系网络G′=(V′,E′),计算用户之间的共同粉丝和关注数,作为影响链接建立的特征。为了便于描述,定义XU表示好友关系特征集合,对于任意的特征若用户vi和用户vj满足该特征,则反之为0。S23:提取用户的社团信息。社团也对用户之间链接的建立存在一定的影响,同属于一个社团的用户之间联系更加紧密,也更容易产生链接。因此,本发明运用社团分类算法CPM判断用户是否属于同一个社团,从而提取用户的社团特征。为了便于描述,定义XG表示社团特征集合,对于任意的社团特征若用户vi和用户vj满足该特征,则反之为0。S24:建立其相关因子函数。提取完以上三方面的各个属性信息后,本发明用相关因子函数来表示属性信息和用户关系的相关性。(1)个人兴趣影响因子函数fIi(xIi,yk)=xIi,xIi≠0∩yk=10,otherwise---(2)]]>其中,yk用来表示用户之间是否存在链接,如果存在,则yk=1,反之为0。表示个人兴趣方面的第i个特征,表示的是用户个人兴趣特征和用户关系的相关性,例如:表示用户之间的存在链接,并且满足个人兴趣特征中的第i个特征取值不为0。(2)好友关系影响因子函数fUi(xUi,yk)=xUi,xUi≠0∩yk=10,otherwise---(3)]]>其中,表示的是好友关系特征和用户关系的相关性。表示好友关系方面的第i个特征。(3)社团驱动影响因子函数fGi(xGi,yk)={xGi,xGi≠0∩yk=10,otherwise---(4)]]>其中,表示的是社团驱动特征和用户关系的相关性。表示社团驱动方面的第i个特征。根据以上定义,分别计算用户个人属性对其用户关系的影响用户好友关系对其影响备选用户所属社团对其影响S3:模型建立。如图2所示为用户关系分析模型示意图。通过从源网络Gs=(Vs,Es)中提取特征T={(x1,y1),(x2,y2),...xk,yk},(xk∈X,yk∈Y),其中,X表示影响用户关系的特征,xk表示第k个特征;Y表示所属类别,在这里表示是否存在链接,yk代表某一类别。S31:约束条件。其中,已知的约束条件为所有特征的条件概率的总和为1。约束条件1如下所示:Σyp(y|x)=1---(5)]]>其中p(y|x)是条件概率,表示的是在x特征出现的情况下,y出现的概率。另外对于影响因子函数fi(x,y),它相对于样本(x,y)联合分布概率的期望值为:Ep~(fi)=Σ(x,y)p~(x,y)fi(x,y)---(6)]]>影响因子函数fi(x,y)相对于模型条件概率p(y|x)的期望值为:Ep(fi)=Σ(x,y)p~(x)p(y|x)fi(x,y)---(7)]]>其中p(y|x)是要求的条件概率,是特征x的统计概率。因为我们限制在给定的数据集中,那么就可以假设这两个的期望值相等,得到约束条件2,即:Ep(fi)-Ep~(fi)=0---(8)]]>S31:模型求解。现在的问题转化为满足一组约束条件,求解最优解的问题。求解这个问题经典的方法就是拉格朗日乘子算法。本发明直接给出结论,因为我们通过个人属性、好友关系、社团驱动三方面来提取影响链接建立的特征,并定义了相关的影响因子函数。然后分别为各个影响因子函数定义参数集合θ=({α},{β},{γ})。所以条件概率p*(y|x)又可以表示为下面的形式:p*(y|x)=1Z(x)exp(ΣiKIαifIi(xIi,yk)+ΣiKUβifUi(xUi,yk)+ΣiKGγifGi(xGi,yk))---(9)]]>Z(x)=Σyexp(ΣiKIαifIi(xIi,yk)+ΣiKUβifUi(xUi,yk)+ΣiKGγifGi(xGi,yk))---(10)]]>其中Z(x)是归一化因子,确保概率为1。分别代表从个人兴趣、好友关系、社团驱动三个方面所定义的影响因子函数。kI、kU、kG分别代表每类特征的数目。αi、βi、γi代表各个影响因子函数的权值,即该特征对用户关系建立的驱动强度的大小。S4:模型训练。S41:如图3所示为参数训练流程图。首先输入网络:初始用户关系网络G=(V,E)以及全用户关系网络G′=(V′,E′)并初始化参数集合θ=({α},{β},{γ})。S42:通过源网络Gs=(Vs,Es)运用所定义的影响因子函数,分别统计出样本(x,y)的联合分布概率以及特征x的统计概率S43:条件概率如式(9)所示,但实际上很难找到一个解析解,一般采用基于梯度的数值优化算法进行求解,本发明采用GIS算法来进行求解。以参数集合{α}为例,可得到参数更新梯度η为:η=1clogFp~[fi(xIi,yk)]Fp[fi(xIi,yk)]---(11)]]>常数c是训练样本里最大的特征个数。分别代表经验分布的期望值和模型p(y|x)的期望值。S43:通过参数更新梯度η,对每一个参数更新。其中参数更新的公式如下所示:αnew=αold+η(12)S44:最后,判断是否收敛。收敛条件可以有不同的方法,本发明采用收敛方式为:每个参数的变化值都小于某个阈值。若收敛转到输出,如不收敛,带入更新后的参数集合,继续迭代直至收敛。S5:模型预测。影响因素驱动强度大小依据参数的变化而不同,通过运用模型学习算法所获取的最优参数集合θ*,可以定量反映出各个因素对用户关系建立的影响强度。因为用户关系的预测受到多种因素的影响,把这些影响因素组成向量X,然后运用已经训练好的模型,预测目标网络Gt=(Vt,Et)中的用户vi和用户vj产生链接的概率pij=p(y|x)。并且仅当pij的值大于指定阈值ξ时,y取值1;否则0。y=1,p(y|x)≥ξ0,p(y|x)<ξ---(13)]]>本发明针对在线社会网络中用户关系建立的特点,结合最大熵的原理和方法,提出基于最大熵原理的用户关系分析模型。模型考虑到不同的因素对用户关系建立的影响强度不一样,挖掘在用户关系建立过程中各因素的影响强度,从而发现影响用户关系的关键因素,并且利用驱动强度,对用户关系进行预测。应当指出上述具体的实施例,可以使本领域的技术人员和读者更全面理解本发明创造的实施方法,应该被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。因此,尽管本发明说明书参照附图和实施例对本发明创造已经进行了详细的说明,但是,本领域的技术人员应当理解,仍然可以对本发明创造进行修改或者等同替换,总之,一切不脱离本发明创造的精神和范围的技术方案及其改进,其均应涵盖在本发明创造专利的保护范围当中。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1