一种社交网络关键用户的挖掘方法与流程

文档序号:12864404阅读:406来源:国知局
一种社交网络关键用户的挖掘方法与流程

本发明涉及社交网络信息算法领域,尤其是一种社交网络关键用户的挖掘方法。



背景技术:

社交网络是由个人以及群体构成的由一个或多个因素关联起来的一种社交结构。互联网空间为用户产生新的社交方式提供了极大的可行性。1960年,社交网络的概念第一次在美国伊利诺斯大学提出。之后,成立了第一个社交网站,即“sixdegrees.com”。2002年之后,各种诸如linkin之类的社交网站遍地开花,给该领域带来了一次重大的革命,极大地丰富了社交网络。今天,社交网络受到极大的欢迎,它给用户提供了大量的交流工具。无论是新成员的加入,还是成员之间建立新的联系,整个社交网络都会得到增长,社交网络数据也在急剧膨胀。

在分析这些社交网络的时候随着在线社会网络的发展,商业活动也逐渐进入这个领域,如何更快更好地分析和识别社交网络中的关键用户,对广告传播、市场营销都有着极其重要的作用。在社交网络中挖掘关键用户,不仅可以挖掘出当下的热点信息,也可以用来对未来信息传播的预测,对舆情监测有着极为重要的意义。

pagerank算法是一种针对链接进行分析并计算网页在互联网中的等级和重要性的排序算法,一个网页的等级越高,重要性越突出,在搜索引擎中出现的排名就会越靠前。pagerank算法的使用基于两个前提,一个前提指向一个网页的超链接数量越多,表明这个网页越重要;另一个前提是指向页面的入链质量不同,质量高的页面会通过链接向其他页面传递更多的权重,所以越是质量高的页面指向的页面重要性也越高。

经典的pagerank算法认为用户能够通过网页之间的链接来访问到整个互联网,但是由于实际的互联网中会有一组彼此互相连接的,没有对组外网页链接的一组网页,因此其pr值就一直在这组网页内部,不能传递出去,被称为pr值沉淀现象。为了避免这种现象出现,引入阻尼系数d,即pagerank公式为:

阻尼系数d一般取0.85。

pagerank算法的优点是它属于与查询无关的静态算法,所有的pr值都可以通过离线计算获得,响应速度快,并且google搜多引擎的成功也证明了该算法的高效合理性。

通过以上策略以及解析过程可以看出该流程至少有如下弊端:pagerank算法将当前的网页上的权值平均分配给它的全部链接。但是互联网中的各个网页的质量价值是千差万别的,即使是相同的页面中,不同的链接也有着不同的质量价值,它们可能存在很大的优劣差别。实际上网络中有很多的广告或者注释信息,这些信息相当于噪音信息,经典pagerank算法在平均分配权值时这些信息也分配到了和其他链接相同的的权值。如果一个噪音信息链接存在于一个比较重要的页面中,则它有可能会得到比正常页面链接还要重要的排名,从而会对最终的排名准确性造成影响。



技术实现要素:

本发明要解决的技术问题是:针对经典pagerank算法平均分配权值的缺点,在进行权值分配时为每个节点赋予相应的权威度,并且参照用户实际操作情况,模拟用户浏览网页时可以根据主观意向进行选择下一步操作,从而对网络中的噪音信息进行了有效的过滤,提供了一种社交网络关键用户的挖掘方法,解决了经典pagerank算法因平均分配权值对结果造成的影响。

本发明解决其技术问题所采用的技术方案是:一种社交网络关键用户的挖掘方法,具体方法如下:

a:在进行权值分配时,利用au-pagerank算法进行计算引入网站的权威度,其au-pagerank的计算公式为:其中p(vi)为权威度;

b:参照用户实际操作情况,根据链接显示的文本信息和主观意向去判断网页重要和符合自己的需求,从而利用2s-pagerank算法进行计算用户下一步浏览页面的概率,在此基础上计算出的概率转移矩阵将会比经典pagerank的转移矩阵更加稀疏,在计算时可以加快收敛速度,其2s-pagerank的计算公式为:其中c(vk)表示当前页面中第k个链接到的页面中的连接数;

c:在网站中,结合a得出的权威度和b得出的浏览页面的概率,使用户可以再上网时多看一步,从而得出au-2s-pagerank算法,通过au-2s-pagerank算法产生排名果,其au-2s-pagerank的计算公式为:

其特征是:所述的权威度p(vi)由网页被指向链接与指向链接的比来确定:其中,linkout为引用网页i的链接数目;linkin为该网页引用其他网页的链接数目;q是一个与阻尼系数d相关的常数。

所述的au-pagerank算法的具体步骤如下:(1)数据预处理;(2)将处理的数据根据节点链接关系生成邻接矩阵;(3)根据每个节点的出入度情况计算节点的权威度;(4)将节点权威度代入au-pagerank公式进行迭代计算;(5)最终产生排名果。

所述的2s-pagerank算法的具体步骤如下:(1)数据预处理;(2)将处理的数据根据节点链接关系生成邻接矩阵;(3)根据每个节点的第二层子节点出度计算第一层子节点在分配权值时所占概率权重;(4)将节点权重值代入2s-pagerank公式进行迭代计算;(5)最终产生排名果。

所述的au-2s-pagerank算法的具体步骤如下:(1)数据预处理;(2)将处理的数据根据节点链接关系生成邻接矩阵;(3)根据每个节点的出入度情况计算节点的权威度和根据每个节点的第二层子节点出度计算第一层子节点在分配权值时所占概率权重;(4)将节点的权威度与节点分配权值时的概率权重同时代入au-2s-pagerank公式进行迭代计算;(5)最终产生排名果。

本发明的有益效果是:所述的一种社交网络关键用户的挖掘方法,将au-pagerank算法和2s-pagerank算法结合形成au-2s-pagerank算法,解决了经典pagerank算法因平均分配权值对结果造成的影响,并且在计算时可以加快收敛速度,排序结果更加准确。

附图说明

下面结合附图和实施例对本发明进一步说明。

图1是本发明所述的一种社交网络关键用户的挖掘方法的流程图;

图2是图1中au-pagerank算法的流程;

图3是图1中2s-pagerank算法的流程;

图4是图1中au-2s-pagerank算法的流程;

图5是四种算法的运行时间折线图。

具体实施方式

现在结合附图对本发明作进一步详细的说明。这些附图均为简化的示意图,仅以示意方式说明本发明的基本结构,因此其仅显示与本发明有关的构成。

如图1所示的一种社交网络关键用户的挖掘方法,具体方法如下:a:在进行权值分配时,利用au-pagerank算法进行计算引入网站的权威度,au-pagerank算法的具体步骤如下,如图2所示:(1)数据预处理;(2)将处理的数据根据节点链接关系生成邻接矩阵;(3)根据每个节点的出入度情况计算节点的权威度;(4)将节点权威度代入au-pagerank公式进行迭代计算;(5)最终产生排名果,其au-pagerank的计算公式为:其中p(vi)为权威度,权威度p(vi)由网页被指向链接与指向链接的比来确定:其中,linkout为引用网页i的链接数目;linkin为该网页引用其他网页的链接数目;q是一个与阻尼系数d相关的常数;

b:参照用户实际操作情况,根据链接显示的文本信息和主观意向去判断网页重要和符合自己的需求,从而利用2s-pagerank算法进行计算用户下一步浏览页面的概率,2s-pagerank算法的具体步骤如下,如图3所示:(1)数据预处理;(2)将处理的数据根据节点链接关系生成邻接矩阵;(3)根据每个节点的第二层子节点出度计算第一层子节点在分配权值时所占概率权重;(4)将节点权重值代入2s-pagerank公式进行迭代计算;(5)最终产生排名果,其2s-pagerank的计算公式为:其中c(vk)表示当前页面中第k个链接到的页面中的连接数;

c:在网站中,结合a得出的权威度和b得出的浏览页面的概率,使用户可以再上网时多看一步,从而得出au-2s-pagerank算法,au-2s-pagerank算法的具体步骤如下,如图4所示:(1)数据预处理;(2)将处理的数据根据节点链接关系生成邻接矩阵;(3)根据每个节点的出入度情况计算节点的权威度和根据每个节点的第二层子节点出度计算第一层子节点在分配权值时所占概率权重;(4)将节点的权威度与节点分配权值时的概率权重同时代入au-2s-pagerank公式进行迭代计算;(5)最终产生排名果,其au-2s-pagerank的计算公式为:

实施例:

一、实验环境及数据

实验数据使用snap(stanfordnetworkanalysisplatform)提供的推特数据集。snap是一个通用的、能高效的分析和处理大型网络的系统,它支持图和网两种数据结构。其中,图描述的是拓扑结构,即每个结点都有一个唯一的整数id,结点之间的边可以是有向的,也可以是无向的,并且两个结点之间可以有多条边;网可以看成是一种结点或者边上赋有数据的图。这些数据的数据类型可以很容易的作为模板参数传递,这就为实现那些在其结点和边上有着丰富数据的各种各样的网络提供了一种快速便捷的方法。

为了验证改进算法的效果,使用snap提供的推特id数据模拟网页之间的有向图进行试验。所使用的数据集基本情况如表1所示。

表1:实验数据统计基本情况

二、算法执行时间

经过对数据的预处理,选取部分具有代表性的节点分别对经典pagerank算法,au-pagerank算法,2s-pagerank算法以及au-2s-pagerank算法进行测试。首先分别测试四种算法的运行时间,分别选取节点数为1000、2000、3000、4000,结果由图5可知,四种算法的运行时间都会随着节点数目的增加而增加,但是其各自的运行时间增加幅度不尽相同。其中pagerank、2s-pagerank和au-2s-pagerank三种算法随着节点数的增加,其运行时间的增长情况较为接近,而au-pagerank的运行时间随着节点数的增加大大延长;此外,改进后的au-2s-pagerank算法在节点增加时,运行时间明显优于经典pagerank算法,但是由于其中含有了au-pagerank算法的思想,导致后序随着节点的继续增加运行时间会高于2s-pagerank算法。

三、算法执行结果

分别执行经典pagerank、au-pagerank、2s-pagerank和au-2s-pagerank算法,得出的top20排名情况如表2所示:

表2:4种排序算法结果的对比

针对表中的数据可以发现,由于经典pagerank算法平均分配pr值得缺点,使得au-pagerank、steppagerank和au-steppagerank略有不同的结果。

(1)pagerank:该算法对于一个网页链出的链接是平均分配权重的,没有考虑到现实中的噪音链接,并把权值分配给了这些噪音链接,从而会导排序的准确性降低。例如表1中的id:813286和id:1183041虽然排名在第一位和第六位,但是可能是由于其是公众id号,含有大量的广告或资讯信息,因此被其他节点大量引用,从而造成排名靠前但是其自身的重要程度并不明显。

(2)au-pagerank:该算法考虑到经典pagerank算法的平均分配权值的缺陷,为网络中的每个节点赋一个权威度,根据权威度大小进行权值的分配,使得最终的排序结果准确性提高。但是仅根据链接网络进行排序,并未考虑到现实中用户的主观因素,因此结果还是存在一定的偏差。表1中与经典pagerank算法的结果相比较,id:22462180、id:34428380的排名上升至第一、第二,由于考虑到节点权威度因素,pagerank算法结果中的前五名都出现了不同程度的后退。

(3)2s-pagerank:该算法也是考虑到了经典pagerank算法平均分配权值的缺陷,从用户主观选择的角度进行考虑,使用户可以根据链接的字面意思推断下一节点的链接情况,从而达到不平均分配权值的效果。根据表1与经典pagerank算法排序结果的比较可以看出,2s-pagerank的前五名全部替换,而pagerank算法的第一、第二名的id:813286、id:7861312在该算法中排名第七、第八。算法表明考虑到用户主观因素之后,算法结果有了较大的变化。

(4)au-2s-pagerank:综合考虑之前三种方法,为了弥补经典pagerank算法的平均权值缺陷,将au-pagerank算法与2s-pagerank算法的思想结合,为网络中的节点赋予不同的权值,同时考虑到用户的主观意向,使得收敛速度更快,排序结果更加准确。由表1的结果可以得出id:783214在经典pagerank中排名第二十,在au-pagerank中排名第二十,而在本算法中排名第一,经过分析可知该节点的权威度较大,并且用户可以明确得到节点的链接情况,同样id:90420314节点排名也有所提高;而id:40981798和id:43003845节点在前三种算法中排名都比较靠前,在此算法中排名有了一定程度的下降。

以上述依据本发明的理想实施例为启示,通过上述的说明内容,相关工作人员完全可以在不偏离本项发明技术思想的范围内,进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容,必须要根据权利要求范围来确定其技术性范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1