流式大数据安全处理方法与流程

文档序号:18887523发布日期:2019-10-15 21:10阅读:295来源:国知局
流式大数据安全处理方法与流程

本发明涉及网络安全,特别涉及一种流式大数据安全处理方法。



背景技术:

互联网通信及大数据技术的发展为确定用户信用等级提供了坚实的数据和技术基础。根据研究发现,用户的互联网行为是人的行为在互联网载体上的实现形式,其本质与社会行为一致,且资产、经营状况的变化会通过其网络行为体现出来。而网络行为数据所表现出的社交关系更被认为与用户征信具有强相关性,因此用户信用不仅存在于财务报表、抵押业务信息之中,而且还可体现在相关的用户行为数据、社会关系等非结构化数据中。这些数据会持续不断产生并输入数据分析和挖掘引擎。与传统数据相比,流式数据呈现出实时性、易失性、突发性、无序性和无限性等特征。由于互联网业务对系统响应时间的高要求,这些数据往往需要实时的分析和计算。因此在互联网海量的流式数据环境下,如何提高用户信用的计算准确率和实时性,成为了大数据分析领域中急需解决的主要问题。在网络规模呈几何级增长的今天,被检测的数据量极其庞大,传统的网络分析监测工具和平台很难应付;并且存储和处理大量的社交网络数据会耗费大量的资源和时间。但随着用户行为和社交关系的日趋复杂化,现有的方法已无法实现风险用户行为特征的识别以及对失信用户进行的控制管理,并导致计算时间滞后。



技术实现要素:

为解决上述现有技术所存在的问题,本发明提出了一种流式大数据安全处理方法,包括:

基于社交网络拓扑,计算用户节点的局部向心度特征;所述社交关系网络拓扑的节点表示用户,边表示用户之间的社交关系;

所述节点的局部向心度表示从网络图移除该节点后,网络的关联能量下降的程度;

其中社交网络图g的关联能量被定义为:

el(g)=∑θ2

θ表示图g的基尔霍夫矩阵的特征值;

所述图g的基尔霍夫矩阵为l(g)=d(g)-a(g);

a(g)是图形g的邻接矩阵,d(g)是顶点出度的对角矩阵。

对于有n个节点,出度分别为d1,d2,…,dn的拓扑图g,其关联能量为

在社交关系网络中,用节点表示用户,边表示社交关系。从节点vi指向节点vj的边a=(i,j)表示用户i与j存在至少一个会话。。

将顶点v从图形g中移除之后的图记为h,则顶点v的局部向心度为:

cv=el(g)-el(h)

计算每个用户的局部向心度,并与预先选择的向心度阈值相比较;

然后将流式数据中的会话文本内容分解为词组,然后使用词袋分析的方法计算这些词组的语义距离;

使用封闭的词袋特征集合用来计算会话内容相似度;每个特征集合包含一个列表,列表中包含相似语义的词语;通过检查这些词语的相似度,得到整个内容的相似度,进而统计每个用户每次发布的会话内容之间的相似度;

在计算完每个用户的局部向心度和每个用户每次发布的会话内容之间的相似度之后,通过设置风险判别阈值,过滤得到局部向心度低于预设向心度阈值并且会话内容相似度高于预设相似度阈值的用户节点,将其识别为失信用户。

本发明相比现有技术,具有以下优点:

本发明提出了一种流式大数据安全处理方法,减少了待分析用户行为特征的数量,消除了特征间的冗余,采用的分类模型更加高效实用,有效地提高信用评估的速度以及信用评估的准确性,更好地适应了海量数据的流式计算场景。

附图说明

图1是根据本发明实施例的流式大数据安全处理方法的流程图。

具体实施方式

下文与图示本发明原理的附图一起提供对本发明一个或者多个实施例的详细描述。结合这样的实施例描述本发明,但是本发明不限于任何实施例。本发明的范围仅由权利要求书限定,并且本发明涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节以便提供对本发明的透彻理解。出于示例的目的而提供这些细节,并且无这些具体细节中的一些或者所有细节也可以根据权利要求书实现本发明。

本发明的一方面提供了一种流式大数据安全处理方法。图1是根据本发明实施例的流式大数据安全处理方法流程图。

本发明通过监控社交网络用户行为记录来实现对社交网络行为的检测,产生行为风险预警信息。用户行为记录包括社交网络会话信息。可选地,还包括用户交易记录信息。对于会话信息,在集群节点的出口进行端口镜像,将会话文本导入用于安全检测的主机上,捕获流式数据原始报文,解码报文并在其转发到检测引擎之前进行预处理。预处理包括会话分类、碎片重组和会话还原。预处理后通过匹配存储在数据库中的检测规则和预定义的风险特征代码,检查流式数据报文头部以及载荷,对风险行为进行识别与拦截。

其中,所述社交网络会话记录中的文本内容包括但不限于,即时通信聊天记录、自媒体发布信息、微博或论坛留言信息、新闻网站的评论记录、电商网站评价信息等。上述社交网络行为记录仅为举例,实际情况下具体社交网络行为也可以示例不同,此处不作具体限定。

在社交网络行为记录分析中,采用规则匹配和基于用户的行为模型进行风险行为的特征提取。首先从服务器中获取社交网络行为记录,然后根据数据库中的判别规则对日志文件进行模式匹配,在进行信用评估之前消除正常行为产生的冗余记录,从而识别和提取记录中存在的违约行为。

用户之间一般通过网络关系实现信息跳转。这些跳转路径可以表示某个用户访问社区网站的操作。通过扫描社交网络图结构,建立当前待分析用户与关联用户的二元组,表示两者之间的跳转关系。然后通过分析服务器日志,建立用户在实际访问页面时的路径和行为。

根据以上提供的行为信息和预警信息,通过使用风险性统计、脆弱性分析、可用性分析进行统计。分别读取社交网络用户行为的流式数据训练集和测试集,将经过规范化预处理的训练集数据和测试集数据使用主成分分析进行降维处理,去除冗余数据,进行数据维度约简,形成征信数据特征集。

征信数据特征可从以下流式数据集合中选择一项或多项:历史信用特征,例如用户通过金融网站的支付历史和还款历史记录,购物网站的购买、退换、取消订单记录;社会关系特征,即用户在社交网络中建立关联的其他用户的信用数据,还包括用户与其他关联用户的交往密集度、深度和广度,例如关系维持时间,会话频率等;行为偏好特征,根据用户访问网页或应用的类型、时段、频率和社交网络评价信息,统计用户行为规律;身份属性特征,即通过用户网络行为,预测个人身份相关属性,包括年龄、职业、婚姻、教育程度,并验证与用户输入的基本信息的一致性。上述特征信息仅为举例,实际情况下的样本所包含的特征信息的数量,可以多于或少于所示信息的数量,具体特征信息也可以示例不同,此处不作具体限定。

从征信数据特征集中筛选多维数据特征,并将训练集的数据特征和类型载入dbn信念网络分类器,经过dbn信念网络进行训练,然后载入测试集的特征对其类型进行预测,得到测试集的数据分类预测结果。其中,所述dbn信念网络分类器多个隐含层,并且隐含层之间采用不同的激励函数来计算。训练数据经过dbn信念网络分类器训练之后得到结果,然后载入测试数据,根据训练有效结果对测试数据集类型进行预测。得到预测结果,即完成基于机器学习的信用等级的检测。最后,载入测试集类型标记与dbn信念网络分类器预测值进行对比和评估。

在对选择出的征信数据特征进行分类时,优选地,通过定义超平面尝试将数据集分成正样本和负样本2类。假设存在2类线性可分的数据样本集合:(xi,yi),i=1,2,…,n,n为样本数量,yi∈{+1,-1},满足以下条件:

yi(ω·xi)-1≥0,

ω为特征权重调节参数,使||ω||2/2最小的分类器为最优的分类器,将征信数据最优分类器的求解问题转换为二次规划寻优问题:

其中:a1为拉格朗日乘子且a1≥0,约束条件为:

根据以上的求解,得出最优分类器函数为:

sgn为取符号函数。

如果最优分类器不能将两类点分开,则引入容错因子ξi≥0,使得:

λ表示广义分类器的判别阈值。标识cp表示惩罚因子,可得出广义的最优分类器。广义最优分类器的对偶问题与线性分类情况完全相同,只是将a1改为:

0≤ai≤cp,i=1,2,…,n

对于线性分类问题,将相关关联数据组进行映射处理,映射到高维空间后,进而通过关联特征的线性分类来求解问题。此时特征相对应的分类函数为:

φ表示函数:φ(xi,x)=[(x·xi)+1]ξi;

由此,根据f(x)的取值完成对基于特征选择的用户信用特征分类。

可选地,当提取征信特征信息后,通过深度学习将已识别的风险用户和当前待分析用户的行为数据的特征映射到具有风险判别性的新建特征空间中,在新建特征空间中加权平均两者的相似度得分,进而得到计算出当前待分析用户与风险用户的行为特征相似度。

在流式数据的训练学习阶段,预先采用一个大量征信行为库,训练得到的深度神经网络来提取征信的特征信息,训练样本集来源于社交网络会话数据集和金融交易数据集。所述深度神经网络结构中,每个卷积层后都紧跟一个激活函数层。用于将线性输入转化成非线性输出,其隐含层节点的输出表达式为:

hi(x)=maxj∈[1,k][xtwij+bijwij]

式中,wij表示特征矩阵中第i列第j行节点值,bij表示第i列第j行节点的平衡因子,每个隐含层单元对应了k个子隐含层,将这k个子隐含层节点输出值中最大的一个作为激活函数的输出。采用2个激活函数节点,经过每个卷积层后,原通道数减少1/2。

在池化层中,取邻域内最大特征均值作为邻域的新特征值输出,保留行为的上下文信息,具体的方法是将行为特征数据经过卷积操作和激活函数激活后分别进行最大值池化和平均值池化,将得到的2个池化结果级联作为新特征输出。

为了得到对征信特征表达能力足够好的网络模型来进行特征提取,深度神经网络利用有限的数据样本训练得到的映射空间中,类内间距尽可能小,而类间间距尽可能大。因此在代价函数l的计算中增加聚类约束,使同类数据相互聚集而不同类数据相互远离:

式中,m为聚类数量,xi为第i个聚类中的样本特征向量,wt为回归矩阵的转置矩阵,λ为权重衰减参数,cxi为特征向量xi的调节因数。

在风险防范中,除需要识别用户的交易违约等行为外,还涉及社交网络中的用户个体间的欺诈行为的风险。欺诈型用户典型地伪装成正常用户骗取他人的信任,通过网络进行虚假宣传,前期投入一定的时间以及实际利益博取受害人的信任,并在获得非法利益后迅速消失隐藏,或借刷单、众筹等名义非法敛财。在识别带有欺诈行为的用户时,关键在于其行为特征的提取与表示。本发明将用户行为通过一个征信序列簇来表示,征信序列簇中包含特征序列集合,无需对行为结构进行任何注释或先验,直接实现特征序列集合自动分类和学习。

首先,将用户的网络行为分解为基本特征序列,其次,将特征序列变换为索引序列。获取训练行为集合{(vn,yn)n=1,2,…,n},其中,vn为某个用户的行为集合,yn∈[1,2,…,c]为操作特征类型标签。n为用户操作的数量,c为类型数量。举例而言,对用户欺诈行为的分析特征包括用户的社交网络拓扑参数、好友维持时长、预设时间内添加好友数量、删除好友数量、好友维持时长与资金转账时间的比值、同一订单中资金转入好友的被删除数量与资金转入总次数的比值与等。

然后将行为vn表示为特征序列xn,定义如下:

xn=[x1,n,…,xi,n,…,xln,n]

式中:xi,n是第i时间段计算的特征集;ln表示vn中时间段的数量。

将一个特征序列集合表示为μ={pi|i=1,…,np},np为特征序列集合的数量。第i个特征序列pi定义为{xi,τi};

式中τi为检测阈值。

为计算xi,首先对所有的训练特征序列{x1,…,xn}进行矩阵变换,以获得具有代表性的时间段并聚类所有时间段的索引,将变换矩阵a表示为:

式中:分别为xi,n和xk,m中描述类型t的fisher向量。

然后,对第i个征信序列簇,通过设置检测阈值τi来建立训练数据序列,避免含噪声的序列模式被挖掘。

对于一个特征序列为xn,将xn转换为索引序列,表示为

in=[i1,n,…,ii,n,…,iln,n]

式中:ii,n为第i个特征序列索引,利用特征序列检测模型对xn处理,选择索引ii,n使svm的响应达到最大。

从训练后的索引序列[i1,i2,…,in]中通过数据挖掘算法得出特征序列集合r,特征序列集合r表示一个用户操作局部特征结构,第j个序列rj定义如下:

rj={cj,sj,xj,wj}

式中:cj∈[1,2,…,c]为操作特征类型标签;sj为序列模式;xj为特征序列集合特征;wj是表示rj在操作特征类型cj的权重。

为计算sj,首先收集训练数据索引。然后从收集到的训练索引序列计算序列模式,相同的序列模式可以从两个操作特征类中挖掘得到,所以设定一个权重wj,对于模式sj,wj表示sj的相对支持率。如果同样的模式发生在两个以上的操作特征类型,那么两特征序列集合权重减少。如果一个模式值出现在一个类型中,权重将达到最大值1。

每个特征序列集合表示一个特定的操作类型,特征序列集合保留了特征序列的时间关系。由于类型的多样性,其可有效地模拟复杂的特征。设测试行为vt,特征序列集合r,一个操作特征c的评价函数可表示为:

式中:αj,c,βj,c,γj,c为操作特征类型c中第j个特征序列集合的参数。nr为特征序列集合个数。it为序列索引,xt为vt的特征序列,σ(it,sj)为序列参照特征。σ(it,sj)用于计算测试行为和特征序列集合之间的结构相似性,设初始值f(n,0)=0,n∈[0,l];f(0,m)=-m,m∈[0,mj],l为在it中时间段的数量,mj为序列模式sj的长度。因此,匹配矩阵f定义如下:

f(n,m)=max{-1+a(xn,t,xm,j),f(n-1,m),f(n,m-1)}

序列参照特征是将表示整个操作特征结构的一个长序列即测试序列对齐一个短序列,描述一个操作特征的部分结构。当sj与测试序列相匹配时,σ(it,sj)具有最大参照得分:

σ(it,sj)=max(f(n,mj)/mj)

在征信数据特征的理解与识别阶段,为准确快速,采用层次分析算法实现σ(it,sj)序列参照特征的识别,使类内分布矩阵sw的秩尽量小;同时类间分布矩阵sb的秩尽量大,以达到最优的分类性能。计算fisher函数j:

式中:为一个n维列向量。通过选取使最大的为投影方向,投影后获得了最大sb和最小sw;选择一组最佳判别向量来建立投影矩阵w,表示为:

最后在基于层次分析的学习中,利用pca对投影矩阵w进行降维,消除冗余特征信息,完成风险用户特征的识别。

而在已完成部分用户的征信风险识别之后,对于其他新用户的信用评估,可以基于深度网络分析当前新用户与风险用户的行为模式是否存在相似性,实现风险用户与当前待分析用户的特征识别。具体地,首先记录已确认的风险用户与当前待分析用户的特征样本二元组(xf,xc),其中xf、xc分别表示风险用户和待分析用户的征信特征向量。深度学习的目标是寻找一个映射函数f,使得f(xf)、f(xc)在新建特征空间中满足下面的关系:当待分析新用户与风险用户具有相似行为模式特征时,f(xc)和f(xf)之间的距离尽可能小;当用户与风险用户没有相似行为模式特征时,f(xf)与f(xc)的距离尽可能大。

为将问题进一步简化,在深度学习算法之前训练一个卷积网络,通过学习一组分层非线性变换将特征样本二元组投影到新建特征空间中,在该空间中正样本对多于预设阈值,负样本对少于该预设阈值,以便在深度网络中做出正确判断。

假设深度网络共有m层,第m层有p(m)个神经元,其中m=1,2,3,…,m,对给定的用户行为特征向量的第m层输出为:

hm=tanh(w(m)h(m-1)+b(m));

式中,w(m)为第m层的权重参数,b(m)为第m层的偏置量,xf、xc经过上述m层非线性变换得到:

f(xf)=hf(m),f(xc)=hc(m),风险用户与当前待分析用户在新特征空间中的距离为:d2fc(xf,xc)=||f(xf)-f(xc)||2

则用户与风险用户的行为模式相似度度量则应满足:

d2fc(xf,xc)<τ-1,则xf和xc有行为模式相似度;

d2fc(xf,xc)>τ+1,则xf和xc无行为模式相似度;

式中τ表示设定的风险距离阈值,这样正负样本对在新建特征空间上被很好地分隔开。

然后设置优化目标函数为

其中

β为调节算子,采用随机梯度下降算法,根据上述公式得到权重参数w、偏置量b。

经过深度学习得到新的特征表示二元组(x'f,x'c),利用相似度算法可以分别得到当前待分析用户与某个风险用户的行为模式相似度sfc(x'f,x'c):

即最终的用户相似度估计值。其中x'fi,x'ci分别为特征向量x'f,x'c的第i个分量,d为特征向量的维度。

如果当前待分析用户与某个风险用户的行为模式相似度大于预设阈值,则将当前待分析用户识别为失信用户。

除上述基于社交关系图的特征之外,对用户信用评估还需要基于会话内容的语义分析。如某些广告型用户,通过重复发送相似的内容来吸引合法用户访问的频率,并使用一些工具重新发布内容,使用不同的词语表达表达相同语义。将他们从正常用户中区分出来变得更加困难。基于此,本发明实施例对社交网络中每个用户在社交关系网络拓扑中的局部向心度特征进行计算,识别出伪装为正常用户的风险用户。

在社交关系网络中,用节点表示用户,边表示社交关系。从节点vi指向节点vj的边a=(i,j)表示用户i与j存在至少一个会话。即使失信用户改变自身属性,也较难改变他们在社交网络拓扑中的位置。因此,基于上述社交网络拓扑,计算用户节点的以下特征。

一个节点的局部向心度指从网络移除该节点后,网络的关联能量下降的程度。局部向心度不仅考虑了局部密度信息,还考虑瓶颈信息。一个拓扑图的关联能量被定义为:

el(g)=∑θ2

θ指该图g的基尔霍夫矩阵的特征值,是所有顶点出度之和。假定a(g)是图形g的邻接矩阵,d(g)是顶点出度的对角矩阵。图形g的基尔霍夫矩阵为l(g)=d(g)-a(g)。

对于有n个顶点,出度分别为d1,d2,…,dn的拓扑图g来说,其关联能量为反映了图形内部的连接程度。将一个顶点从图形中移除,图形的关联能量将减少。减少的部分el(g)反映了这个顶点在图形中的重要程度。假定将顶点v从图形g中移除之后的图为h。顶点v的局部向心度为:

cv=el(g)-el(h)

由于失信用户没有稳定的社交网络结构,而且与邻居节点的关系很弱。将这些社交关系不重要的失信用户从网络中移除,网络的能量降低少。

失信用户处于自身特定的商业利益,其发布的会话内容往往有很大的相似性,包含大量重复的会话内容、有害链接等信息,这些信息具有高度的相似性。因此首先将流式数据中的会话文本内容分解为词组,然后使用词袋分析的方法计算这些词组语义距离。使用封闭的词袋特征集合用来计算内容相似度。每个特征集合包含一个列表,列表中包含相似语义的词语。通过检查这些词语的相似度,可以得到整个内容的相似度,进而统计每个用户每次发布的会话内容之间的相似度。

在获取了每个用户的局部向心度和每个用户每次发布的会话内容之间的相似度之后,通过设置风险判别阈值,过滤得到局部向心度低于预设向心度阈值并且会话内容相似度高于预设相似度阈值的用户节点,并识别为失信用户。

在给系统带来风险的违约交易中,有相当比例是因为用户在交易链中的上级节点的信用较低所导致。本发明进一步针对交易链中的风险扩散行为进行风险扩散识别。根据过去一段时间用户所有交易的平均值设定该用户的信用被动降低阈值。当同时有多笔交易时考虑网络结构对扩散的影响。以实际交易数据建立网络g(v,e)。节点v表示所有交易用户的集合。其中s(x)为无风险用户的集合,i(x)为有风险用户的集合。节点e表示网络中用户之间交易的集合。边eij上的权值记为{aij},表示用户之间交易的数额。记用户i的状态为ni,ni=1表示违约,ni=0表示未违约;记用户之间交易eij的状态为eij,eij=1表示该条用户之间的交易异常,eij=0表示交易正常。用户j的信用被动降低数额为dj=σaijaijeij,若用户信用被动降低阈值分布记为{δi},而信用被动降低次数{fi},风险扩散到的信用被动降低的用户的集合为risk(x)。扩散过程描述为:

a)初始化所有用户都处于正常状态(s),随机使一部分用户变为风险状态(i),即随机使一部分ni由0变为1,这部分用户的某一交易eij发生违约,eij=1。

b)违约的数额累加到上级用户,一旦上级用户信用被动降低数额大于给定阈值,即当dj=σaijaijeij>δj,该上级用户状态由s变成i。

c)记录每个用户i被扩散而变为风险状态的次数fi,当前后两次扩散结束后信用被动降低的用户集合risk(x)相同时,扩散过程结束。

从交易网络中抽取出违约交易构成子网络,将信用被动降低次数fi降序排列,选择子网络中次数fi最高的前x个用户,作为高风险传播用户的识别结果,其中x为预设数量阈值。

为进一步限制风险用户和失信用户的违约行为,降低非法操作对正常用户和社交网络环境产生的不良影响,本发明在流式数据的识别阶段完成之后,进一步实施的具体限制或控制策略。所述限制或控制策略包括但不限于以下方式:

1:限制用户扩展社交范围,在用户尝试搜索其他新用户或在系统为该用户推荐新好友时,减少该用户可见或系统推送的对象的数量。具体做法是,将用户原本可推荐的新用户按风险值从低到高排序,隐藏系统信任级别最高的预设比例的新用户。由此限制风险用户对正常用户的影响。2:对用户进行标记,若用户在一定时间段内未产生违约行为,但超过该时间段后再次发生违约,则将该用户重新标识为失信用户,并置入比原控制级别高的风险等级。3:如果将某个用户判定为恶意违约的用户,则采取强制控制手段,包括冻结账户,阻止该用户继续影响社交网络环境。

综上所述,本发明提出了一种流式大数据安全处理方法,减少了待分析用户行为特征的数量,消除了特征间的冗余,采用的分类模型更加高效实用,有效地提高信用评估的速度以及信用评估的准确性,更好地适应了海量数据的流式计算场景。

显然,本领域的技术人员应该理解,上述的本发明的各模块或各步骤可以用通用的计算系统来实现,它们可以集中在单个的计算系统上,或者分布在多个计算系统所组成的网络上,可选地,它们可以用计算系统可执行的程序代码来实现,从而,可以将它们存储在存储系统中由计算系统来执行。这样,本发明不限制于任何特定的硬件和软件结合。

应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1