一种网络社交平台用户分类方法、存储介质及终端与流程

文档序号:24070788发布日期:2021-02-26 15:07阅读:125来源:国知局
一种网络社交平台用户分类方法、存储介质及终端与流程

[0001]
本发明涉及复杂网络分析领域,尤其是涉及一种网络社交平台用户分类方法、存储介质及终端。


背景技术:

[0002]
局部社区发现算法是分析复杂网络、挖掘网络信息的有力方法之一。它能够检测复杂网络中的社区结构。复杂网络具有社区结构,是指复杂网络可以被自然地分成一系列节点组,同一组的节点一般更具有相连相关的倾向。局部社区发现算法已经被各大网络社交平台应用于网络社交平台异常用户分类,在防止诈骗、恶意营销、恶意舆论引导等方面起着重要的作用。
[0003]
应用局部社区发现算法的网络社交平台用户分类的检测过程包含两个步骤:选择种子节点和以种子节点为起点,以一定的方式扩张形成社区。选择种子节点,是要先找出作为研究对象的节点所处社区中代表性强的节点,再将这样的节点作为算法起点发现社区,种子节点的代表性越强,以它为算法起点扩张社区的准确度越高。目前,选取种子节点主要有三种方法,一种方法是以随机选择的方式确定种子节点,一种方法是以度数较低的节点作为种子节点,这两种方法选取的种子节点代表性差,不能体现所处社区的特征,故计算准确度低,在实际应用中逐渐被淘汰;另一种方法是以局部度数峰值节点作为种子节点,这种选择种子节点的方法明显提高了计算准确度,但此方法局限性大、敏感度低,只能感知到含有极高代表性节点的部分社区,但无法感知其他社区,故发现社区的稳定性差。


技术实现要素:

[0004]
本发明的目的就是为了克服上述现有技术存在的精确度和稳定性差的缺陷而提供一种网络社交平台用户分类方法、存储介质及终端。
[0005]
本发明的目的可以通过以下技术方案来实现:
[0006]
一种网络社交平台用户分类方法,该方法包括以下步骤:
[0007]
s1:获取网络社交平台的用户关注信息,并基于用户关注信息构建无向图;
[0008]
s2:在无向图中选取初始节点,待检测节点集的元素初始化为初始节点,已检测节点集初始化为空集;
[0009]
s3:检测待检测节点集内的节点,得到峰值点集和与峰值点集对应的阶数集;
[0010]
s4:判断峰值点集是否为空集,若是,更新已检测节点集的元素为待检测节点集和已检测节点集或运算后的元素,更新待检测节点集的元素为现有待检测节点集的元素的所有邻节点,执行步骤s3,若否,阶数集中数值最小的元素对应的节点作为种子节点;
[0011]
s5:种子节点扩张形成社区,完成网络社交平台用户分类。
[0012]
步骤s1的无向图中,用户作为节点,任意两用户之间的关注作为无向边。
[0013]
若任意两用户之间为多重关注,只保留单个关注。
[0014]
所述步骤s2中初始节点为随机选择的节点。
[0015]
所述的步骤s3中,得到峰值点集和与峰值点集对应的阶数集的过程包括:
[0016]
s31:检测待检测节点集内的节点u,得到节点u的一次邻节点,并进一步得到节点u的度数d
u
以及一次邻节点的度数;
[0017]
s32:若一次邻节点的度数中大于节点u的度数的个数为m,m小于等于设定的灵敏度,且一次邻节点的二次邻节点的度数中大于一次邻节点的度数的个数不等于m,节点u列入峰值点集,节点u对应的m阶数列入阶数集,执行s33,否则,执行s33;
[0018]
s33:u自加1,执行步骤s31,直到遍历待检测节点集内的所有节点。
[0019]
所述的步骤s4中,待检测节点集的元素更新为现有待检测节点集的元素的所有邻节点去除已检测节点集的元素后剩余的元素。
[0020]
所述的用户关注信息通过爬虫获取。
[0021]
所述的种子节点通过基于适应度函数的贪心策略扩张形成社区。
[0022]
一种计算机可读存储介质,所述计算机可读存储介质上储存有计算机程序,所述计算机程序被处理器执行所述的网络社交平台用户分类方法。
[0023]
一种终端,包括处理器及存储器,所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行所述的网络社交平台用户分类方法。
[0024]
与现有技术相比,本发明具有以下优点:
[0025]
(1)在“局部度数峰值”概念的基础上进一步完善,结合阶数集改进呈现了“多阶局部度数峰值点”的概念,结合阶数选择的种子节点极大程度上提高了社区发现精确度和稳定性。
[0026]
(2)提供了新型的选择种子节点的方法作为框架,该框架可与不同的扩张社区方法结合,可移植性好。
附图说明
[0027]
图1为本发明的流程图;
[0028]
图2为本发明实施例的“m阶局部度数准峰值点”示意图;
[0029]
图3为本发明实施例的“m阶局部度数峰值点”示意图;
[0030]
图4a为本发明实施例基于l-shell扩张算法的传统“局部度数峰值”效果图;
[0031]
图4b为本发明实施例基于l-shell扩张算法的“多阶局部度数峰值”效果图;
[0032]
图5a为本发明实施例基于局部模块度r扩张算法的传统“局部度数峰值”效果图;
[0033]
图5b为本发明实施例基于局部模块度r扩张算法的“多阶局部度数峰值”效果图。
具体实施方式
[0034]
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
[0035]
实施例
[0036]
本实施例提供一种网络社交平台用户分类方法,如图1所示,包括以下步骤:
[0037]
s1:获取网络社交平台的用户关注信息,并基于用户关注信息构建无向图g;
[0038]
s2:在无向图g中选取初始节点v,待检测节点集s的元素初始化为初始节点v,已检测节点集h初始化为空集
[0039]
s3:检测待检测节点集s内的节点,得到峰值点集f和与峰值点集f对应的阶数集fn;
[0040]
s4:判断峰值点集f是否为空集,若是,更新已检测节点集h的元素为待检测节点集s和已检测节点集h或运算后的元素,更新待检测节点集s的元素为现有待检测节点集的元素的所有邻节点,执行步骤s3,若否,阶数集fn中数值最小的元素对应的节点作为种子节点;
[0041]
s5:种子节点扩张形成社区,完成网络社交平台用户分类。
[0042]
具体而言:
[0043]
步骤s1的无向图g中,用户作为节点,任意两用户之间的关注作为无向边,若任意两用户之间为多重关注,只保留单个关注。
[0044]
步骤s2中初始节点可以为随机选择的节点。
[0045]
步骤s3中,得到峰值点集f和与峰值点集f对应的阶数集fn的过程包括:
[0046]
对于待检测节点集s中的每个节点u,得到该节点的度数d
u
、该节点的邻居节点集合nu、nu中各节点的度数组成的集合d
nu
;如果集合d
nu
中大于d
u
的元素个数m不超过μ,即m≤μ,μ为设定灵敏度,则称节点u为“m阶局部度数准峰值点”,并对节点u进一步考察。
[0047]
在进一步考察中,对于nu中的每个节点nu,得到该节点的度数d
nu
、该节点的邻居节点集合nnu、nnu中各节点的度数组成的集合d
nnu
;如果每一个节点nu对应的集合d
nnu
中大于d
nu
的元素个数mnu都不等于m,即:
[0048][0049]
则将节点u称为“m阶局部度数峰值点”加入峰值点集f,并将被称为阶数的m加入与集f对应的阶数集fn。
[0050]
步骤s4中,待检测节点集s的元素更新为现有待检测节点集的元素的所有邻节点去除已检测节点集h的元素后剩余的元素,即s=n
s-h,n
s
为现有待检测节点集的元素的所有邻节点组成的集合。
[0051]
用户关注信息可通过爬虫获取,种子节点可通过基于适应度函数的贪心策略扩张形成社区,也可通过基于l-shell的扩张算法、基于局部模块度r的扩张算法等其余方式扩展形成社区。
[0052]
以下为一具体例子:
[0053]
以设定灵敏度μ=15为例:
[0054]
a、在无向图中选定作为研究对象的节点v,并将灵敏度参数设置为μ=15;
[0055]
b、将待检测节点集s初始化,令s=v,并将已检测节点集h初始化,令
[0056]
c、检测待检测节点集s内全部节点,得到峰值点集f和与之对应的阶数集fn;
[0057]
步骤c中,峰值点集f及对应的阶数集fn的生成需要两步判定:
[0058]
(1)10阶局部度数准峰值点(包括阶数小于10的)的判定:对于待检测节点集s中的每个节点u,得到该节点的度数d
u
、该节点的邻居节点集合nu、nu中各节点的度数组成的集合d
nu
。如果集合d
nu
中大于d
u
的元素个数m不超过10,即m≤10,则称节点u为“m阶局部度数准
峰值点”,并对节点u进一步考察。
[0059]
(2)10阶局部度数峰值点(包括阶数小于10的)的判定:对于经过(1)判定的节点u,对其每个邻节点进行(1)判定,如果每个邻居节点都不是“m阶局部度数准峰值点”,则节点u进入峰值点集f,其度数d
u
进入对应的阶数集fn。
[0060]
d、如果则顺序执行步骤e、f、g,并返回执行步骤c,否则执行步骤h;
[0061]
e、更新已检测节点集h,令h=h∪s;
[0062]
f、得到待检测节点集s内各节点邻节点的集合n
s

[0063]
g、更新节点集s,令s=n
s-h,返回执行步骤c;
[0064]
h、得到fn中数值最小的元素fnmin,并从f中选取与之对应的节点p作为种子节点。
[0065]
图2中中间节点是度数为d
u
的节点,di>d
u
,di≤du;图3中中间节点是“m阶局部度数峰值点”,a,b,c
···
≠m。
[0066]
本专利算法与传统专利的分类结果对比如图4和图5所示:
[0067]
使用统计学中由准确率(precision)、召回率(recall)构成的f值(f-measure)作为对种子节点的社区划分效果评价指标,利用lfr基准网络进行本实施例方法与传统“传统局部度数峰值”的对比验证。
[0068]
种子节点可通过算法扩张形成局部社区,设该社区的节点集为b,由于lfr基准网络中已经给出了该种子节点所属社区,设原所属社区的节点集为a。故:
[0069][0070][0071]
f值(f-measure)由准确率和召回率共同构成:
[0072][0073]
式中,当种子节点包含于b时,δ=1,否则δ=0。当生成社区和原社区完全重合时,f=1。
[0074]
lfr基准网络的具体实验参数如表1所示:
[0075]
表1对比实验网络参数
[0076][0077]
图4a和图4b是将基于相同社交网络,使用相同社区扩张算法(基于l-shell的扩张算法)所取得的分类效果对比图(变量只有选取初始种子节点的方法不同),其中图片上部代表分类正确的点的数量,图片上部点的数量越多,代表分类的准确度越高。
[0078]
图5a和图5b是将基于相同社交网络,使用相同社区扩张算法(基于局部模块度r的扩张算法)所取得的分类效果对比图(变量只有选取初始种子节点的方法不同),其中图片上部代表分类正确的点的数量,图片上部点的数量越多,代表分类的准确度越高。
[0079]
由此可知,本实施例的基于“多阶局部度数峰值”方法的性能更好。
[0080]
本实施例还提供一种计算机可读存储介质和一种终端,计算机可读存储介质上储存有计算机程序,计算机程序被处理器执行上述网络社交平台用户分类方法;终端包括处理器及存储器,存储器用于存储计算机程序,处理器用于执行存储器存储的计算机程序,以使终端执行上述网络社交平台用户分类方法。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1