社交网络异常用户检测方法、系统、介质、设备、终端与流程

文档序号:24160893发布日期:2021-03-05 16:42阅读:77来源:国知局
社交网络异常用户检测方法、系统、介质、设备、终端与流程

[0001]
本发明属于社交网络数据挖掘技术领域,尤其涉及一种社交网络异常用户检测方法、系统、介质、设备、终端。


背景技术:

[0002]
目前:随着互联网技术的飞速发展和广泛应用,社交网络因其便利性、娱乐性和实时性,逐渐成为人们数字化生活中必不可少的组成部分。社交网络一方面承载着海量的媒体资讯和社交信息,另一方面本身也蕴含着大量的隐私信息和巨大的商业价值,因此,社交网络吸引着大量的恶意攻击者。恶意攻击者通过创建虚假账户或盗取正常账户,在社交网络中进行恶意信息发布、金融交易诈骗、发动网络攻击等恶意行为,严重威胁到人们的生命财产安全和社交网络的规则秩序及信任关系。将这些恶意攻击者统称为异常用户。
[0003]
针对社交网络中异常用户节点的检测与识别存在着以下难点:
[0004]
(1)传统的社交网络异常检测方法需要花费大量的时间开销和人力成本。社交网络中用户基数大,覆盖范围广,涵盖着各式各样的异常用户,而异常用户的行为特征也会随着时间的推移而产生动态的变化,当异常用户改变其行为模式后,传统的社交网络异常检测方法无法有效地进行处理。
[0005]
(2)社交网络的复杂性为异常检测工作带来了巨大的困难。社交网络数据由于拓扑结构中边的存在,导致数据的表达呈现出高维稀疏、用户节点高度耦合以及用户节点间关系重重迭代的特点,造成用户特征难以被捕获。
[0006]
目前,针对上述问题,已经提出的解决方案有:
[0007]
(1)基于网络表示学习的社交网络异常账户检测方法及系统,该方法通过构建社交网络中拓扑结构和节点属性的联合优化模型求解每个社交网络账户在拓扑结构、节点属性和结构属性一致性上的异常因子,联合评估三种异常因子来完成社交网络异常账户的检测和识别。
[0008]
(2)一种基于图嵌入的社交网络中异常用户检测方法,该方法根据社交网络中用户节点的社区归属关系值构建用户节点嵌入模型,进而求解用户节点的嵌入加权向量和异常水平,将异常水平大于最大阈值或小于最小阈值的用户节点定义为异常用户节点。
[0009]
然而,上述的解决方案均存在着一定的局限性:
[0010]
(1)基于网络表示学习的社交网络异常账户检测方法及系统的缺陷在于:
[0011]
1)矩阵分解技术不适合于大规模的社交网络;
[0012]
2)现实世界社交网络表现出高度复杂的非线性,这是难以通过矩阵分解技术捕捉到的。
[0013]
(2)一种基于图嵌入的社交网络中异常用户检测方法的缺陷在于:
[0014]
1)社交网络的社区结构缺乏普世定义,且大规模社交网络中的社区检测是存在较大困难的,而社区结构划分的准确性直接关系到该方法效果的好坏;
[0015]
2)该方法在嵌入时缺乏对异常用户节点的制约以降低异常用户节点对最终嵌入
向量的影响,因此该方法难以构建一个健壮的图嵌入模型。
[0016]
通过上述分析,现有技术存在的问题及缺陷为:
[0017]
(1)现有基于网络表示学习的社交网络异常账户检测方法及系统矩阵分解技术不适合于大规模的社交网络;现实世界社交网络表现出高度复杂的非线性,这是难以通过矩阵分解技术捕捉到的。
[0018]
(2)现有基于图嵌入的社交网络中异常用户检测方法社交网络的社区结构缺乏普世定义,且大规模社交网络中的社区检测是存在较大困难的,而社区结构划分的准确性直接关系到该方法效果的好坏;在嵌入时缺乏对异常用户节点的制约以降低异常用户节点对最终嵌入向量的影响,因此该方法难以构建一个健壮的图嵌入模型。
[0019]
解决以上问题及缺陷的难度为:针对大规模的社交网络,在保证有效地检测与识别出社交网络中异常用户的同时能够生成为下游数据挖掘任务提供便利的健壮模型。
[0020]
解决以上问题及缺陷的意义为:对社交网站安全、用户隐私保护等问题具有重要的意义,同时对社交网络中群体事件监测、舆论导向分析等问题也具有重大的研究价值。


技术实现要素:

[0021]
针对现有技术存在的问题,本发明提供了一种社交网络异常用户检测方法、系统、介质、设备、终端。
[0022]
本发明是这样实现的,一种社交网络异常用户检测方法,所述社交网络异常用户检测方法包括:
[0023]
对爬取的社交网络数据进行预处理,构建社交网络邻接矩阵、社交网络属性矩阵和社交网络邻接属性矩阵,社交网络属性矩阵将作为模型的输入,同时社交网络邻接属性矩阵将作为模型的预期输出,基于此减小损失来训练模型。
[0024]
基于社交网络属性矩阵和社交网络邻接属性矩阵,利用自编码结构的深度神经网络模型得到社交网络用户低维表征矩阵,同时更新社交网络中每位用户的异常值,一方面,可以据此进行社交网络的异常检测与识别,另一方面,通过引入与异常值成反比的系数因子从而生成健壮的用户低维表征矩阵。
[0025]
通过异常值评估社交网络中每位用户的异常程度,这里对每位用户的异常值进行从高到低的排序从而完成社交网络中异常用户的检测和识别。
[0026]
进一步,所述社交网络异常用户检测方法包括以下步骤:
[0027]
(1)利用社交网络数据集构建社交网络(v,e,a),其中v是社交网络中所有节点的集合,e是社交网络中所有边的集合,a是社交网络中所有节点属性集合;
[0028]
(2)对(1)中的社交网络数据(v,e,a)进行预处理,构建n
×
n维的社交网络邻接矩阵g、n
×
m维的社交网络属性矩阵a和n
×
m维的社交网络邻接属性矩阵
[0029]
(3)构建基于网络嵌入的社交网络异常用户检测模型;
[0030]
(4)初始化模型相关参数,通过梯度下降法反复迭代计算以减小损失函数值直至收敛,将社交网络中所有节点按照异常值从高到低排序,将结果输出反馈给数据挖掘人员,以用于检测与识别出社交网络中存在的异常节点。
[0031]
进一步,所述预处理步骤包括:
[0032]
1)社交网络节点唯一标识整型化:针对社交网络数据集中的每个用户节点v,将其
所在行号作为其唯一整型索引,行号从1开始索引;
[0033]
2)社交网络邻接矩阵构建:基于社交网络数据中||e||
×
2维的两两成对关注关系矩阵,构建n
×
n维的社交网络邻接矩阵g;
[0034]
3)社交网络属性矩阵构建:社交网络数据集中所有节点的属性向量即构成n
×
m维的社交网络属性矩阵a;
[0035]
4)社交网络邻接属性矩阵构建:针对图中的每个节点v,获取其邻居节点集合neigh(v),若其存在邻居节点,则其邻接属性向量为其所有邻居节点属性向量的平均值,即若其不存在邻居节点,则将其邻接属性向量赋值为其自身属性向量,即对社交网络中的所有节点执行上述操作,获得n
×
m维的社交网络邻接属性矩阵
[0036]
进一步,所述模型构建步骤包括:
[0037]
1)基于自编码结构的深度神经网络模型构建:编码器主要由k层全连接层组成,k为大于等于1的正整数,m维的属性向量经过k层编码器最终降维成d维的隐含层输出,全连接层之间通过双曲正切激活函数相连;
[0038]
解码器也由k层全连接层组成,d维的输入向量经过k层解码器最终扩维成m维的输出向量,全连接层之间通过双曲正切激活函数相连;
[0039]
基于此构建出n
×
d维的社交网络用户低维表征矩阵e;
[0040]
2)基于自编码结构的深度神经网络模型的损失函数构建:使基于网络嵌入的社交网络异常用户检测模型能最大限度地检测并识别出异常节点,同时尽可能地降低异常节点对社交媒体网络表示学习的影响,构建如下损失函数;
[0041]
3)基于自编码结构的深度神经网络模型的异常值更新。
[0042]
进一步,所述基于自编码结构的深度神经网络模型构建,全连接层之间通过双曲正切激活函数相连:
[0043][0044]
解码器由k层全连接层组成,全连接层之间通过双曲正切激活函数相连:
[0045][0046]
进一步,所述损失函数:
[0047][0048]
式中,n为社交网络中节点总数,m为节点属性向量的维度,y代表邻接属性矩阵,特别地,y
ij
代表第i个节点的第j个邻接属性值,代表基于自编码结构的深度神经网络输出的邻接矩阵,特别地,代表深度神经网络输出的矩阵中第i个节点的第j个邻接属性值,λ
i
代表第i个节点的异常值,标识着该节点的异常程度;
[0049]
异常值更新基于如下公式:
[0050][0051]
式中,m为节点属性向量的维度,y代表邻接属性矩阵,特别地,y
ij
代表第i个节点的第j个邻接属性值,代表基于自编码结构的深度神经网络输出的邻接矩阵,特别地,代表深度神经网络输出的矩阵中第i个节点的第j个邻接属性值,代表计算矩阵的弗罗贝尼乌斯范数,每次迭代更新深度神经网络参数后都需要对异常值进行更新。
[0052]
本发明的另一目的在于提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:
[0053]
对爬取的社交网络数据进行预处理,构建社交网络邻接矩阵、社交网络属性矩阵和社交网络邻接属性矩阵;
[0054]
基于社交网络属性矩阵和社交网络邻接属性矩阵,利用自编码结构的深度神经网络模型得到社交网络用户低维表征矩阵,同时更新社交网络中每位用户的异常值;
[0055]
通过异常值评估社交网络中每位用户的异常程度,完成社交网络中异常用户的检测和识别。
[0056]
本发明的另一目的在于提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:
[0057]
对爬取的社交网络数据进行预处理,构建社交网络邻接矩阵、社交网络属性矩阵和社交网络邻接属性矩阵;
[0058]
基于社交网络属性矩阵和社交网络邻接属性矩阵,利用自编码结构的深度神经网络模型得到社交网络用户低维表征矩阵,同时更新社交网络中每位用户的异常值;
[0059]
通过异常值评估社交网络中每位用户的异常程度,完成社交网络中异常用户的检测和识别。
[0060]
本发明的另一目的在于提供一种信息数据处理终端,所述信息数据处理终端用于实现所述的社交网络异常用户检测方法。
[0061]
本发明的另一目的在于提供一种实施所述社交网络异常用户检测方法的社交网络异常用户检测系统,所述社交网络异常用户检测系统包括:
[0062]
数据预处理模块,用于对爬取的社交网络数据进行预处理,构建社交网络邻接矩阵、社交网络属性矩阵和社交网络邻接属性矩阵;
[0063]
异常值更新模块,用于基于社交网络属性矩阵和社交网络邻接属性矩阵,利用自编码结构的深度神经网络模型得到社交网络用户低维表征矩阵,同时更新社交网络中每位用户的异常值;
[0064]
异常用户检测和识别模块,用于通过异常值评估社交网络中每位用户的异常程度,完成社交网络中异常用户的检测和识别。
[0065]
结合上述的所有技术方案,本发明所具备的优点及积极效果为:实验效果如图6所示,横坐标代表社交网络中所有用户节点按照异常值从高到低排序后的前l%个异常用户节点数据,纵坐标代表社交网络中异常用户节点检测与识别的召回率,与其他方案相比,本发明在前15%的数据中就达到了90%之高的召回率,更是在前60%的数据中就达到了100%的召回率。
附图说明
[0066]
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图做简单的介绍,显而易见地,下面所描述的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。
[0067]
图1是本发明实施例提供的社交网络异常用户检测方法流程图。
[0068]
图2是本发明实施例提供的社交网络异常用户检测系统的结构示意图;
[0069]
图2中:1、数据预处理模块;2、异常值更新模块;3、异常用户检测和识别模块。
[0070]
图3是本发明实施例提供的社交网络异常用户检测方法的实现流程图。
[0071]
图4是本发明实施例提供的社交网络异常用户检测方法的总体框架图。
[0072]
图5是本发明实施例提供的社交网络异常用户检测方法的优选实施例的社交网络图。
[0073]
图6是本发明实施例提供的社交网络异常用户检测方法的优选实施例的实验效果图。
具体实施方式
[0074]
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0075]
针对现有技术存在的问题,本发明提供了一种社交网络异常用户检测方法、系统、介质、设备、终端,下面结合附图对本发明作详细的描述。
[0076]
如图1所示,本发明提供的社交网络异常用户检测方法包括以下步骤:
[0077]
s101:对爬取的社交网络数据进行预处理,构建社交网络邻接矩阵、社交网络属性矩阵和社交网络邻接属性矩阵;
[0078]
s102:基于社交网络属性矩阵和社交网络邻接属性矩阵,利用自编码结构的深度神经网络模型得到社交网络用户低维表征矩阵,同时更新社交网络中每位用户的异常值;
[0079]
s103:通过异常值评估社交网络中每位用户的异常程度,完成社交网络中异常用户的检测和识别。
[0080]
本发明提供的社交网络异常用户检测方法业内的普通技术人员还可以采用其他的步骤实施,图1的本发明提供的社交网络异常用户检测方法仅仅是一个具体实施例而已。
[0081]
如图2所示,本发明提供的社交网络异常用户检测系统包括:
[0082]
数据预处理模块1,用于对爬取的社交网络数据进行预处理,构建社交网络邻接矩阵、社交网络属性矩阵和社交网络邻接属性矩阵;
[0083]
异常值更新模块2,用于基于社交网络属性矩阵和社交网络邻接属性矩阵,利用自编码结构的深度神经网络模型得到社交网络用户低维表征矩阵,同时更新社交网络中每位用户的异常值;
[0084]
异常用户检测和识别模块3,用于通过异常值评估社交网络中每位用户的异常程度,完成社交网络中异常用户的检测和识别。
[0085]
下面结合附图对本发明的技术方案作进一步的描述。
[0086]
如图3所示,本发明提供的社交网络异常用户检测方法包括以下步骤:
[0087]
(1)利用如图4所示的社交网络数据集构建社交网络(v,e,a),在该数据集中,用户节点总数||v||为2708,有向边总数||e||为5429,用户属性向量维度m为1433;
[0088]
(2)对(1)中的社交网络数据(v,e,a)进行预处理,构建2708
×
2708维的社交网络邻接矩阵g、2708
×
1433维的社交网络属性矩阵a和2708
×
1433维的社交网络邻接属性矩阵具体地,预处理步骤如下:
[0089]
1)社交网络节点唯一标识整型化:针对社交网络数据集中的每个用户节点v,将其所在行号作为其唯一整型索引,行号从1开始索引;
[0090]
2)社交网络邻接矩阵构建:基于社交网络数据中5429
×
2维的两两成对关注关系矩阵,构建2708
×
2708维的社交网络邻接矩阵g;
[0091]
3)社交网络属性矩阵构建:社交网络数据集中所有节点的属性向量即构成2708
×
1433维的社交网络属性矩阵a;
[0092]
4)社交网络邻接属性矩阵构建:针对图中的每个节点v,获取其邻居节点集合neigh(v),若其存在邻居节点,则其邻接属性向量为其所有邻居节点属性向量的平均值,即若其不存在邻居节点,则将其邻接属性向量赋值为其自身属性向量,即对社交网络中的所有节点执行上述操作,即可获得2708
×
1433维的社交网络邻接属性矩阵
[0093]
(3)构建基于网络嵌入的社交网络异常用户检测模型,具体地,模型构建步骤如下:
[0094]
1)基于自编码结构的深度神经网络模型构建:在此实施例的编码器中,我们将k赋值为5,将d赋值为32,如图5所示,编码器主要由五层全连接层组成,第一层将1433维的属性向量降维至512维,第二层将上层的512维数据降维至256维,第三层将上层的256维数据降维至128维,第四层将上层的128维数据降维至64维,第五层将上层的64维数据降维至32维的隐含层输出,全连接层之间通过双曲正切激活函数相连,即:
[0095][0096][0097][0098]
在此实施例的解码器中,我们将k赋值为5,将d赋值为32,如图5所示,解码器主要由五层全连接层组成,第一层将32维的输入数据扩维至64维,第二层将上层的64维数据扩
维至128维,第三层将上层的128维数据扩维至256维,第四层将上层的256维数据扩维至512维,第五层将上层的512维数据扩维至1433维,全连接层之间通过双曲正切激活函数相连,即:
[0099][0100][0101]
基于此构建出2708
×
32维的社交网络用户低维表征矩阵e;
[0102]
2)基于自编码结构的深度神经网络模型的损失函数构建:为了使基于网络嵌入的社交网络异常用户检测模型能最大限度地检测并识别出异常节点,同时尽可能地降低异常节点对社交媒体网络表示学习的影响,构建如下损失函数:
[0103][0104]
式中,2708为社交网络中节点总数,1433为节点属性向量的维度,y代表邻接属性矩阵,特别地,y
ij
代表第i个节点的第j个邻接属性值,代表基于自编码结构的深度神经网络输出的邻接矩阵,特别地,代表深度神经网络输出的矩阵中第i个节点的第j个邻接属性值,λ
i
代表第i个节点的异常值,标识着该节点的异常程度。
[0105]
3)基于自编码结构的深度神经网络模型的异常值更新:异常值更新基于如下公式:
[0106][0107]
式中,1433为节点属性向量的维度,y代表邻接属性矩阵,特别地,y
ij
代表第i个节点的第j个邻接属性值,代表基于自编码结构的深度神经网络输出的邻接矩阵,特别地,代表深度神经网络输出的矩阵中第i个节点的第j个邻接属性值,代表计算矩阵的弗罗贝尼乌斯范数,每次迭代更新深度神经网络参数后都需要对异常值进行更新。
[0108]
(4)初始化模型相关参数,通过梯度下降法反复迭代计算以减小损失函数值直至收敛,将社交网络中所有节点按照异常值从高到低排序,将结果输出反馈给数据挖掘人员,以用于检测与识别出社交网络中存在的异常节点,实验效果如图6所示,横坐标代表社交网络中所有用户节点按照异常值从高到低排序后的前l%个异常用户节点数据,纵坐标代表社交网络中异常用户节点检测与识别的召回率,与其他方案相比,本发明在前15%的数据中就达到了90%之高的召回率,更是在前60%的数据中就达到了100%的召回率。
[0109]
证明部分(具体实施例/能够证明本发明创造性的正面实验数据等)
[0110]
实验数据集如下表所示:
[0111][0112]
实验效果评估如下表所示:
[0113][0114]
应当注意,本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、cd或dvd-rom的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。
[0115]
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1