基于挖掘的网络智能平台恶意数据检测方法和装置制造方法

文档序号:6619644阅读:187来源:国知局
基于挖掘的网络智能平台恶意数据检测方法和装置制造方法
【专利摘要】本发明实施例提供了一种基于挖掘的网络智能平台恶意数据检测方法和装置。该方法主要包括:将多个综合特征向量Table<中心,权值,作用半径>和每个Table对应的数据包类型存储在先验数据库中,提取待测数据包的各个字段的字段值,根据坐标化的待测数据包的各个字段的字段值,计算出待测数据包和存储的各个Table的中心之间的距离值;根据待测数据包和各个Table的中心之间的距离值,以及先验数据库中存储的各个Table的作用半径和对应的数据包类型,判断待测数据包是否为恶意数据包。本发明实施例可以在移动互联网网关等网络智能平台处实时对数据包进行有效的恶意数据检测,不仅可以保障用户财产和隐私的安全,还可以增强运营商的竞争力。
【专利说明】 基于挖掘的网络智能平台恶意数据检测方法和装置

【技术领域】
[0001]本发明涉及网络安全检测【技术领域】,尤其涉及一种基于挖掘的网络智能平台恶意数据检测方法和装置。

【背景技术】
[0002]随着科技的发展,手机等移动终端上各种应用在丰富人们生活的同时也为移动终端的安全性增添了一份隐患。当前移动终端中存在一些的恶意软件,给用户造成了极大的困扰,比如窃取了用户隐私、造成恶意的消费等。因为受移动终端的运算速度、电量等的限制,移动终端本身难以有效地对恶意软件进行检测。
[0003]现在的移动终端的恶意软件的行为与传统的PC(personal computer,个人计算机)上的恶意软件有所不同,其行为包括提取更高权限、窃取用户隐私、远程控制、发送短信等。恶意软件的窃取用户隐私和远程控制的行为都必须通过移动互联网的通信来完成,恶意软件发送和接收的数据包必然会经过移动互联网网关。与此同时,大量存在的恶意软件对移动运营商提出了一种挑战,即如何增强服务的质量,确保用户的数据安全。
[0004]因此,如何实现对恶意软件发送的恶意数据包进行有效的检测是一个亟待解决的问题。


【发明内容】

[0005]本发明的实施例提供了一种基于挖掘的网络智能平台恶意数据检测方法和装置,以实现在网络智能平台处实时对数据包进行有效的恶意数据检测。
[0006]一种基于挖掘的网络智能平台恶意数据检测方法,将多个综合特征向量Table<中心,权值,作用半径>和每个Table对应的数据包类型存储在先验数据库中,所述Table的中心为所述Table对应的数据密集区中的各个数据包的坐标化的各个字段的字段值的平均值,所述Table的作用半径为所述中心到所述数据密集区中各个数据点之间的距离的最大值,所述方法具体包括:
[0007]网络智能平台接收到待测数据包后,提取待测数据包的各个字段的字段值,根据坐标化的所述待测数据包的各个字段的字段值,计算出所述待测数据包和所述先验数据库中存储的各个Table的中心之间的距离值;
[0008]根据所述待测数据包和所述先验数据库中存储的各个Table的中心之间的距离值,以及所述先验数据库中存储的各个Table的作用半径和对应的数据包类型,判断所述待测数据包是否为恶意数据包。
[0009]所述的将多个综合特征向量Table <中心,权值,作用半径>和每个Table对应的数据包类型存储在先验数据库中,所述Table的中心为所述Table对应的数据密集区中的各个数据包的坐标化的各个字段的字段值的平均值,所述Table的作用半径为所述中心到所述数据密集区中各个数据点之间的距离的最大值,包括:
[0010]提取已知的各个非恶意数据包、恶意数据包的特征值,根据该特征值选取多个数据密集区,每个数据密集区中包含多个非恶意数据包或者恶意数据包;
[0011]对每一个数据密集区建立一个综合特征向量Table <中心,权值,作用半径>,提取一个数据密集区内的各个数据包的各个字段的字段值,计算出各个数据包的各个字段值的平均值,将各个字段值的平均值坐标化,将坐标化的各个字段值的平均值作为所述数据密集区对应的Table的中心,将所述数据密集区内的每个数据包作为一个数据点,将每个数据包的各个字段值坐标化,计算出所述Table的中心到所述数据密集区中各个数据点之间的距离值,将所有距离值中的最大值作为所述Table的作用半径,所述数据密集区所含数据点的个数作为所述Table的权值;
[0012]将建立的多个Table和每个Table对应的数据包类型存储在先验数据库中,所述数据包类型为恶意数据包或者非恶意数据包。
[0013]所述的计算所述Table的中心到所述数据密集区中各个数据点之间的距离值,包括:
[0014]设所述Table的中心为(A,B,C...M),坐标化的所述Table对应的数据密集区中一个数据点的各个字段值为(ai,bi,ci,...mi);
[0015]所述Table的中心到所述数据点的距离的计算公式如下:
|( A, B,C…M)- (ai,bi,ci,...mi) |
[0016]_ 公式 I
=VlA - ail2 + |B - bi|2 + |C - ci|2...+ |M - mi|2
[0017]在计算所述公式I中的|A_ai|, B-bi | , |C_ci|, M-mi时,对于数值型的字段直接相减;对于离散型的字段,如果所述Table的中心在该字段的值和所述数据点在该字段的值相等,则相减的结果为0,如果所述Table的中心在该字段的值和所述数据点在该字段的值不相等,则将相减的结果设定为指定数值。
[0018]所述的根据所述待测数据包和所述先验数据库中存储的各个Table的中心之间的距离值,以及所述先验数据库中存储的各个Table的作用半径和对应的数据包类型,判断所述待测数据包是否为恶意数据包,包括:
[0019]当所述待测数据包和某个Table的中心之间的距离值不大于所述某个Table的作用半径时,则判断所述待测数据包属于所述某个Table对应的数据密集区;
[0020]获取先验数据库中存储的所述某个Table对应的数据包类型,当所述数据包类型为恶意数据包,则确定所述待测数据包为恶意数据包;当所述数据包类型为非恶意数据包,则确定所述待测数据包为非恶意数据包。
[0021]所述的方法还包括:
[0022]将所述待测数据包的检测结果存储在检测结果库中,所述检测结果中包括所述待测数据包为恶意数据包或者非恶意数据包,所述待测数据包所对应的综合特征向量Table,所述待测数据包的各个字段的字段值;
[0023]读取一段时间内所述检测结果库中存储的对应同一个Table的所有数据包的各个字段的字段值,并读取先验数据库中存储所述同一个Table的中心、作用半径和权重值,根据读取的所述信息运用设定的增量挖掘算法,对所述同一个Table的中心、作用半径和权重进行更新;
[0024]将更新后的所述同一个Table的中心、作用半径和权重重新写入到先验数据库中,替换先验数据库中原先存储的所述同一个Table的中心、作用半径和权重值。
[0025]一种基于挖掘的网络智能平台恶意数据检测装置,包括:
[0026]原始挖掘模块,用于将多个综合特征向量Table <中心,权值,作用半径>和每个Table对应的数据包类型存储在先验数据库中,所述Table的中心为所述Table对应的数据密集区中的各个数据包的坐标化的各个字段的字段值的平均值,所述Table的作用半径为所述中心到所述数据密集区中各个数据点之间的距离的最大值;
[0027]距离值计算模块,用于在网络智能平台接收到待测数据包后,提取待测数据包的各个字段的字段值,根据坐标化的所述待测数据包的各个字段的字段值,计算出所述待测数据包和所述先验数据库中存储的各个Table的中心之间的距离值;
[0028]判断处理模块,用于根据所述待测数据包和所述先验数据库中存储的各个Table的中心之间的距离值,以及所述先验数据库中存储的各个Table的作用半径和对应的数据包类型,判断所述待测数据包是否为恶意数据包。
[0029]所述的原始挖掘模块,具体用于提取已知的各个非恶意数据包、恶意数据包的特征值,根据该特征值选取多个数据密集区,每个数据密集区中包含多个非恶意数据包或者恶意数据包;
[0030]对每一个数据密集区建立一个综合特征向量Table <中心,权值,作用半径>,提取一个数据密集区内的各个数据包的各个字段的字段值,计算出各个数据包的各个字段值的平均值,将各个字段值的平均值坐标化,将坐标化的各个字段值的平均值作为所述数据密集区对应的Table的中心,将所述数据密集区内的每个数据包作为一个数据点,将每个数据包的各个字段值坐标化,计算出所述Table的中心到所述数据密集区中各个数据点之间的距离值,将所有距离值中的最大值作为所述Table的作用半径,所述数据密集区所含数据点的个数作为所述Table的权值;
[0031]将建立的多个Table和每个Table对应的数据包类型存储在先验数据库中,所述数据包类型为恶意数据包或者非恶意数据包。
[0032]所述的距离值计算模块,具体用于设所述Table的中心为(A,B,C...M),坐标化的所述Table对应的数据密集区中一个数据点的各个字段值为(ai,bi,ci,...mi);
[0033]所述Table的中心到所述数据点的距离的计算公式如下:
|( A1 B,C …M)- (ai,bi,ci,…mi) |
[0034]_ 公式 I
=VIA — ai|2 + |B — bi|2 + |C — ci|2...+ |M — mi|2
[0035]在计算所述公式I中的A-ai | , B-bi | , |C_ci|, M-mi时,对于数值型的字段直接相减;对于离散型的字段,如果所述Table的中心在该字段的值和所述数据点在该字段的值相等,则相减的结果为0,如果所述Table的中心在该字段的值和所述数据点在该字段的值不相等,则将相减的结果设定为指定数值。
[0036]所述的判断处理模块,具体用于当所述待测数据包和某个Table的中心之间的距离值不大于所述某个Table的作用半径时,则判断所述待测数据包属于所述某个Table对应的数据密集区;
[0037]获取先验数据库中存储的所述某个Table对应的数据包类型,当所述数据包类型为恶意数据包,则确定所述待测数据包为恶意数据包;当所述数据包类型为非恶意数据包,则确定所述待测数据包为非恶意数据包。
[0038]所述的装置还包括:
[0039]增量挖掘模块,用于将所述待测数据包的检测结果存储在检测结果库中,所述检测结果中包括所述待测数据包为恶意数据包或者非恶意数据包,所述待测数据包所对应的综合特征向量Table,所述待测数据包的各个字段的字段值;
[0040]读取一段时间内所述检测结果库中存储的对应同一个Table的所有数据包的各个字段的字段值,并读取先验数据库中存储所述同一个Table的中心、作用半径和权重值,根据读取的所述信息运用设定的增量挖掘算法,对所述同一个Table的中心、作用半径和权重进行更新;
[0041]将更新后的所述同一个Table的中心、作用半径和权重重新写入到先验数据库中,替换先验数据库中原先存储的所述同一个Table的中心、作用半径和权重值。
[0042]由上述本发明的实施例提供的技术方案可以看出,本发明实施例通过将初始挖掘得到的多个综合特征向量Table作为检测模型存储在先验数据库中,可以在移动互联网网关等网络智能平台处实时对数据包进行有效的恶意数据检测,及时发现恶意软件发送的恶意数据包,有效控制恶意数据包和恶意软件的传播,不仅可以保障用户财产和隐私的安全,还可以增强运营商的竞争力。

【专利附图】

【附图说明】
[0043]为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0044]图1为本发明实施例一提供的一种基于挖掘的网络智能平台恶意数据检测方法的实现原理不意图;
[0045]图2为本发明实施例一提供的一种基于挖掘的网络智能平台恶意数据检测方法的处理流程图;
[0046]图3为本发明实施例二提供的一种基于挖掘的网络智能平台恶意数据检测装置的具体实现结构图,图中,原始挖掘模块31,距离值计算模块32,判断处理模块33,增量挖掘模块34。

【具体实施方式】
[0047]为便于对本发明实施例的理解,下面将结合附图以几个具体实施例为例做进一步的解释说明,且各个实施例并不构成对本发明实施例的限定。
[0048]实施例一
[0049]本发明实施例在网络智能平台处利用原始挖掘得到的检测模型对所有经过的数据包的内容进行分析和检测,判断数据包是否为恶意数据包,并将判断结果进行存储。然后,根据存储的一段时间内的判断结果对检测模型进行更新。
[0050]该实施例提供了一种基于挖掘的网络智能平台恶意数据检测方法的实现原理示意图如图1所示,具体处理流程如图2所示,包括如下的处理步骤:
[0051]步骤S210、利用缩点聚类的方法对已知的非恶意数据包、恶意数据包进行原始挖掘,得到每个密集区对应的数据包的综合特征向量Table,将多个综合特征向量Table作为初始的检测模型存储在先验数据库中。
[0052]在原始挖掘阶段,通过对大量的已知的非恶意数据包、恶意数据包进行挖掘形成初始的检测模型,并存储在先验数据库中。原始挖掘过程首先提取已知的各个非恶意数据包、恶意数据包的特征值,根据该特征值选取多个数据密集区,每个数据密集区中包含多个非恶意数据包或者恶意数据包,即每个数据密集区中包含的数据包都是具有相似特征值的相同类型的数据包(恶意数据包或者非恶意数据包)。上述特征值可以为数据包的特定字段等。
[0053]对每一个数据密集区建立一个数据包的综合特征向量,该综合特征向量定义为Table <中心,权值,作用半径>。上述综合特征向量Table的建立过程如下:
[0054]提取一个数据密集区内的各个数据包的各个字段的字段值,上述字段可以为访问方法、连接状态、协议类型、URL、源IP、目的IP、源端口、目的端口、是否携带附件等。计算出所有数据包的各个字段值的平均值。对于数值型的字段如数据包长度、连接频率等,所有数据包的字段值的平均值可以为所有数据包的字段值的数学平均值或者方差等;对于离散型的字段如访问方法、URL等,所有数据包的字段值的平均值为出现次数最多的字段值。比如在一个数据密集区内访问方法有9个GET,5个POST,则该数据密集区内所有数据包的访问方法字段的平均值为GET。
[0055]然后,将各个字段值的平均值坐标化,这里的坐标化并没有改变字段值的平均值的实际数值,只是将各个字段值的平均值按照坐标的形式进行排列。比如,各个字段值的平均值分别为S1、S2、S3...SM,则坐标化的各个字段值的平均值为(S1, S2, S3...Sm)。将坐标化的各个字段值的平均值作为上述数据密集区对应的综合特征向量Table的中心。
[0056]将上述数据密集区内的每个数据包作为一个数据点,同样将每个数据包的各个字段值坐标化,根据坐标化的数据包的各个字段值计算出所述Table的中心到所述数据密集区中各个数据点之间的距离值,将所有距离值中的最大值作为所述Table的作用半径,所述数据密集区所含数据点的个数作为所述Table的权值。
[0057]例如:在某个数据密集区内的数据点有η个,每个数据包中各个字段为a?m,各个数据包的坐标化的字段值为(al, bl, cl...ml)、a2, b2, c2...m2)...(an, bn, cn...mn),该数据密集区的Table的中心为(A, B, C...Μ),其中,A = (al+a2+...+an) /n, B =(bl+b2+...+bn)/n, C = (cl+c2+...+cn)/n, M = (ml+m2+...+mn)/n。
[0058]Table的权值为数据点的个数n, Table的作用半径为max ( (A,B,C...M)-(ai,bi,ci,...mi) I),i = 1...n,即中心到密集区内各个数据点的距离的最大值。
[0059]设所述Table的中心为(A,B,C...M),坐标化的所述Table对应的数据密集区中一个数据点的各个字段值为仏1,1^,(^,...1^),所述1&1316的中心到所述数据点的距离的计算公式如下:
|( A, B,C …M)- (ai,bi,ci,".mi) |
[0060]_ 公式 I
=VlA - ail2 + IB - bi|2 + |C - ci|2...+ |M - mi|2
[0061]在计算上述公式I中的I A-ai I, B-bi | , |C_ci|, M-mi时,对于数值型的字段如数据包长度、连接频率等,可以直接相减;对于离散型的字段如访问方法、URL等,如果中心在该字段的值和数据点在该字段的值相等,则相减的结果为O,如果中心在该字段的值和数据点在该字段的值不相等,则将相减的结果设定为指定数值,比如I或者2等。
[0062]上述方法建立的一个综合特征向量Table对应一个非恶意数据包或者恶意数据包的集合,将初始挖掘过程建立的多个综合特征向量Table和该Table对应的数据包类型(恶意或者非恶意)作为先验结论存储在先验数据库中,先验数据库中的各个综合特征向量Table和该Table对应的数据包类型(恶意数据包或者非恶意数据包)构成了初始的检测模块。
[0063]Table这种向量的存储方式,为缩点聚类提供聚类依据,可以有效地减少聚类算法的时间复杂度和空间复杂度。
[0064]步骤S220、在先验数据库中还存储恶意数据包的源IP地址列表,在网络智能平台接收到待检测数据包后,根据上述恶意数据包的源IP地址列表在网络智能平台处对待测数据包进行初步过滤。
[0065]上述恶意数据包的源IP地址列表可以根据用户举报的恶意软件和恶意数据包来更新,用户举报一个恶意数据包后,将恶意数据包放入指定环境中运行,调用检测模型对其进行检测,确定其为恶意数据包后,将该恶意数据包的源IP地址增加到上述恶意数据包的源IP地址列表中。
[0066]步骤S230、在网络智能平台处对所述待检测数据包进行解析,获取所述待检测数据包的源IP地址。判断待测数据包的源IP地址是否包含在上述恶意数据包的源IP地址列表中,如果是,则确定该待测数据包为恶意数据包,执行步骤S250 ;否则,执行步骤S240。
[0067]上述网络智能平台可以为移动互联网网关。
[0068]步骤S240、调用先验数据库中存储的初始的检测模型对初步过滤后的待测数据包进行检测,判断数据包为恶意数据包或者非恶意数据包。
[0069]提取初步过滤后的待测数据包的所有有效字段的字段值,按照设定的转换方法将各个字段值坐标化,设待测数据包的坐标化的各个字段值为(T1, T2, T3...Tm)。由于先验数据库中存储的综合特征向量Table的中心为数据密集区内各个数据点的字段平均值,设Table的中心为(S1, S2, S3...Sm)。因此,根据上述两个坐标值(T1, T2, T3...Tm)和(S1, S2,S3-..Sm)按照上述公式I的计算方法,计算出待测数据包和先验数据库中存储的各个综合特征向量Table的中心之间的距离值。
[0070]当所述待测数据包和某个Table的中心之间的距离值不大于所述某个Table的作用半径时,则判断所述待测数据包属于所述某个Table对应的数据密集区。然后,获取先验数据库中存储的所述某个Table对应的数据包类型,当所述数据包类型为恶意数据包,则确定所述待测数据包为恶意数据包;当所述数据包类型为非恶意数据包,则确定所述待测数据包为非恶意数据包。
[0071]将上述待测数据包的检测结果通知给客户,上述检测结果包括待测数据包为恶意数据包或者非恶意数据包,待测数据包所对应的综合特征向量Table,待测数据包的源IP地址、目的IP地址、各个字段的坐标化后的字段值等参数信息。然后,将检测结果存储在检测结果库中。执行步骤S260。
[0072]步骤S250、确定上述待测数据包为恶意数据包。
[0073]将上述待测数据包的检测结果通知给客户,上述检测结果包括待测数据包为恶意数据包,待测数据包的源IP地址、目的IP地址、各个字段的坐标化后的字段值等参数信息。然后,将检测结果存储在检测结果库中。执行步骤S260。
[0074]步骤S260、对检测结果库中存储的数据包的检测结果进行增量挖掘,根据增量挖掘对先验数据库中存储的综合特征向量Table进行更新。
[0075]在增量挖掘的过程中,读取检测结果库中存储的一段时间(比如I个月或者I个星期)内的检测结果,运用设定的增量挖掘算法对检测结果进行增量挖掘。
[0076]比如,读取检测结果库中对应同一个综合特征向量Table的所有数据包的各个字段的坐标化后的字段值,并读取先验数据库中存储上述同一个综合特征向量Table的中心、作用半径和权重值。然后,根据读取的上述信息运用设定的增量挖掘算法,对上述同一个综合特征向量Table的中心、作用半径和权重进行更新,将更新后的上述同一个综合特征向量Table的中心、作用半径和权重重新写入到先验数据库中,替换先验数据库中原先存储的上述同一个综合特征向量Table的中心、作用半径和权重值。使得综合特征向量Table的中心、作用半径和权重值发生少量变化,以能够适应新的数据包的检测结果。使系统能够对新的恶意数据进行识别,增强数据检测和数据挖掘的准确率。上述增量挖掘算法可以为贝叶斯分类模型、决策树分类模型等。
[0077]在实际应用中,上述先验数据库中存储的综合特征向量Table还可以根据用户定制的信息进行更新,上述用户定制的信息可以为最新的恶意数据包等。
[0078]实施例二
[0079]该实施例提供了一种基于挖掘的网络智能平台恶意数据检测装置,其具体实现结构如图3所示,具体可以包括如下的模块:
[0080]原始挖掘模块31,用于将多个综合特征向量Table <中心,权值,作用半径>和每个Table对应的数据包类型存储在先验数据库中,所述Table的中心为所述Table对应的数据密集区中的各个数据包的坐标化的各个字段的字段值的平均值,所述Table的作用半径为所述中心到所述数据密集区中各个数据点之间的距离的最大值;
[0081]距离值计算模块32,用于在网络智能平台接收到待测数据包后,提取待测数据包的各个字段的字段值,根据坐标化的所述待测数据包的各个字段的字段值,计算出所述待测数据包和所述先验数据库中存储的各个Table的中心之间的距离值;
[0082]判断处理模块33,用于根据所述待测数据包和所述先验数据库中存储的各个Table的中心之间的距离值,以及所述先验数据库中存储的各个Table的作用半径和对应的数据包类型,判断所述待测数据包是否为恶意数据包。
[0083]进一步地,所述的原始挖掘模块31,具体用于提取已知的各个非恶意数据包、恶意数据包的特征值,根据该特征值选取多个数据密集区,每个数据密集区中包含多个非恶意数据包或者恶意数据包;
[0084]对每一个数据密集区建立一个综合特征向量Table <中心,权值,作用半径>,提取一个数据密集区内的各个数据包的各个字段的字段值,计算出各个数据包的各个字段值的平均值,将各个字段值的平均值坐标化,将坐标化的各个字段值的平均值作为所述数据密集区对应的Table的中心,将所述数据密集区内的每个数据包作为一个数据点,将每个数据包的各个字段值坐标化,计算出所述Table的中心到所述数据密集区中各个数据点之间的距离值,将所有距离值中的最大值作为所述Table的作用半径,所述数据密集区所含数据点的个数作为所述Table的权值;
[0085]将建立的多个Table和每个Table对应的数据包类型存储在先验数据库中,所述数据包类型为恶意数据包或者非恶意数据包。
[0086]进一步地,所述的距离值计算模块32,具体用于设所述Table的中心为(A,B,C...M),坐标化的所述Table对应的数据密集区中一个数据点的各个字段值为(ai,bi,ci,...mi);
[0087]所述Table的中心到所述数据点的距离的计算公式如下:
|( A1 B,C…M)- (ai,bi,ci,...mi) |
[0088]_ 公式 I
=VlA — ai|2 + |B - bi|2 + |C _ ci|2...+ |M - mi|2
[0089]在计算所述公式I中的I A-ai I, B-bi | , |C_ci|, M-mi时,对于数值型的字段直接相减;对于离散型的字段,如果所述Table的中心在该字段的值和所述数据点在该字段的值相等,则相减的结果为0,如果所述Table的中心在该字段的值和所述数据点在该字段的值不相等,则将相减的结果设定为指定数值。
[0090]进一步地,所述的判断处理模块33,具体用于当所述待测数据包和某个Table的中心之间的距离值不大于所述某个Table的作用半径时,则判断所述待测数据包属于所述某个Table对应的数据密集区;
[0091]获取先验数据库中存储的所述某个Table对应的数据包类型,当所述数据包类型为恶意数据包,则确定所述待测数据包为恶意数据包;当所述数据包类型为非恶意数据包,则确定所述待测数据包为非恶意数据包。
[0092]进一步地,所述的装置还包括:
[0093]增量挖掘模块34,用于将所述待测数据包的检测结果存储在检测结果库中,所述检测结果中包括所述待测数据包为恶意数据包或者非恶意数据包,所述待测数据包所对应的综合特征向量Table,所述待测数据包的各个字段的字段值;
[0094]读取一段时间内所述检测结果库中存储的对应同一个Table的所有数据包的各个字段的字段值,并读取先验数据库中存储所述同一个Table的中心、作用半径和权重值,根据读取的所述信息运用设定的增量挖掘算法,对所述同一个Table的中心、作用半径和权重进行更新;
[0095]将更新后的所述同一个Table的中心、作用半径和权重重新写入到先验数据库中,替换先验数据库中原先存储的所述同一个Table的中心、作用半径和权重值。
[0096]用本发明实施例的装置进行基于挖掘的网络智能平台恶意数据检测的具体过程与前述方法实施例类似,此处不再赘述。
[0097]本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
[0098]本领域普通技术人员可以理解:实施例中的设备中的模块可以按照实施例描述分布于实施例的设备中,也可以进行相应变化位于不同于本实施例的一个或多个设备中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
[0099]本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory, ROM)或随机存储记忆体(Random AccessMemory, RAM)等。
[0100]综上所述,本发明实施例通过将初始挖掘得到的多个综合特征向量Table作为检测模型存储在先验数据库中,可以在移动互联网网关等网络智能平台处实时对数据包进行有效的恶意数据检测,及时发现恶意软件发送的恶意数据包,有效控制恶意数据包和恶意软件的传播,不仅可以保障用户财产和隐私的安全,还可以增强运营商的竞争力。
[0101]本发明实施例以面向服务的方式提供在移动互联网网关等网络智能平台处检测数据安全,并可以根据最近的数据包的检测结果对先前存储的检测模型进行修正,以使检测模型能够适应新的数据包的检测结果,使系统能够对新的恶意数据进行有效的识别。
[0102]以上所述,仅为本发明较佳的【具体实施方式】,但本发明的保护范围并不局限于此,任何熟悉本【技术领域】的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
【权利要求】
1.一种基于挖掘的网络智能平台恶意数据检测方法,其特征在于,将多个综合特征向量Table <中心,权值,作用半径>和每个Table对应的数据包类型存储在先验数据库中,所述Table的中心为所述Table对应的数据密集区中的各个数据包的坐标化的各个字段的字段值的平均值,所述Table的作用半径为所述中心到所述数据密集区中各个数据点之间的距离的最大值,所述方法具体包括: 网络智能平台接收到待测数据包后,提取待测数据包的各个字段的字段值,根据坐标化的所述待测数据包的各个字段的字段值,计算出所述待测数据包和所述先验数据库中存储的各个Table的中心之间的距离值; 根据所述待测数据包和所述先验数据库中存储的各个Table的中心之间的距离值,以及所述先验数据库中存储的各个Table的作用半径和对应的数据包类型,判断所述待测数据包是否为恶意数据包。
2.根据权利要求1所述的基于挖掘的网络智能平台恶意数据检测方法,其特征在于,所述的将多个综合特征向量Table <中心,权值,作用半径>和每个Table对应的数据包类型存储在先验数据库中,所述Table的中心为所述Table对应的数据密集区中的各个数据包的坐标化的各个字段的字段值的平均值,所述Table的作用半径为所述中心到所述数据密集区中各个数据点之间的距离的最大值,包括: 提取已知的各个非恶意数据包、恶意数据包的特征值,根据该特征值选取多个数据密集区,每个数据密集区中包含多个非恶意数据包或者恶意数据包; 对每一个数据密集区建立一个综合特征向量Table <中心,权值,作用半径>,提取一个数据密集区内的各个数据包的各个字段的字段值,计算出各个数据包的各个字段值的平均值,将各个字段值的平均值坐标化,将坐标化的各个字段值的平均值作为所述数据密集区对应的Table的中心,将所述数据密集区内的每个数据包作为一个数据点,将每个数据包的各个字段值坐标化,计算出所述Table的中心到所述数据密集区中各个数据点之间的距离值,将所有距离值中的最大值作为所述Table的作用半径,所述数据密集区所含数据点的个数作为所述Table的权值; 将建立的多个Table和每个Table对应的数据包类型存储在先验数据库中,所述数据包类型为恶意数据包或者非恶意数据包。
3.根据权利要求1所述的基于挖掘的网络智能平台恶意数据检测方法,其特征在于,所述的计算所述Table的中心到所述数据密集区中各个数据点之间的距离值,包括: 设所述Table的中心为(A,B,C...M),坐标化的所述Table对应的数据密集区中一个数据点的各个字段值为(ai,bi,ci,...mi); 所述Table的中心到所述数据点的距离的计算公式如下: |( A1 B,C…M)- (ai,bi,ci,".mi) |

公式I
=VlA - ai|2 + |B - bi|2 + |C - ci|2...+ |M - mi|2 在计算所述公式I中的|A-ai|, B-bi |, C-ci |, M-mi时,对于数值型的字段直接相减;对于离散型的字段,如果所述Table的中心在该字段的值和所述数据点在该字段的值相等,则相减的结果为O,如果所述Table的中心在该字段的值和所述数据点在该字段的值不相等,则将相减的结果设定为指定数值。
4.根据权利要求1或2或3所述的基于挖掘的网络智能平台恶意数据检测方法,其特征在于,所述的根据所述待测数据包和所述先验数据库中存储的各个Table的中心之间的距离值,以及所述先验数据库中存储的各个Table的作用半径和对应的数据包类型,判断所述待测数据包是否为恶意数据包,包括: 当所述待测数据包和某个Table的中心之间的距离值不大于所述某个Table的作用半径时,则判断所述待测数据包属于所述某个Table对应的数据密集区; 获取先验数据库中存储的所述某个Table对应的数据包类型,当所述数据包类型为恶意数据包,则确定所述待测数据包为恶意数据包;当所述数据包类型为非恶意数据包,则确定所述待测数据包为非恶意数据包。
5.根据权利要求4所述的基于挖掘的网络智能平台恶意数据检测方法,其特征在于,所述的方法还包括: 将所述待测数据包的检测结果存储在检测结果库中,所述检测结果中包括所述待测数据包为恶意数据包或者非恶意数据包,所述待测数据包所对应的综合特征向量Table,所述待测数据包的各个字段的字段值; 读取一段时间内所述检测结果库中存储的对应同一个Table的所有数据包的各个字段的字段值,并读取先验数据库中存储所述同一个Table的中心、作用半径和权重值,根据读取的所述信息运用设定的增量挖掘算法,对所述同一个Table的中心、作用半径和权重进行更新; 将更新后的所述同一个Table的中心、作用半径和权重重新写入到先验数据库中,替换先验数据库中原先存储的所述同一个Table的中心、作用半径和权重值。
6.一种基于挖掘的网络智能平台恶意数据检测装置,其特征在于,包括: 原始挖掘模块,用于将多个综合特征向量Table <中心,权值,作用半径>和每个Table对应的数据包类型存储在先验数据库中,所述Table的中心为所述Table对应的数据密集区中的各个数据包的坐标化的各个字段的字段值的平均值,所述Table的作用半径为所述中心到所述数据密集区中各个数据点之间的距离的最大值; 距离值计算模块,用于在网络智能平台接收到待测数据包后,提取待测数据包的各个字段的字段值,根据坐标化的所述待测数据包的各个字段的字段值,计算出所述待测数据包和所述先验数据库中存储的各个Table的中心之间的距离值; 判断处理模块,用于根据所述待测数据包和所述先验数据库中存储的各个Table的中心之间的距离值,以及所述先验数据库中存储的各个Table的作用半径和对应的数据包类型,判断所述待测数据包是否为恶意数据包。
7.根据权利要求6所述的基于挖掘的网络智能平台恶意数据检测装置,其特征在于: 所述的原始挖掘模块,具体用于提取已知的各个非恶意数据包、恶意数据包的特征值,根据该特征值选取多个数据密集区,每个数据密集区中包含多个非恶意数据包或者恶意数据包; 对每一个数据密集区建立一个综合特征向量Table <中心,权值,作用半径>,提取一个数据密集区内的各个数据包的各个字段的字段值,计算出各个数据包的各个字段值的平均值,将各个字段值的平均值坐标化,将坐标化的各个字段值的平均值作为所述数据密集区对应的Table的中心,将所述数据密集区内的每个数据包作为一个数据点,将每个数据包的各个字段值坐标化,计算出所述Table的中心到所述数据密集区中各个数据点之间的距离值,将所有距离值中的最大值作为所述Table的作用半径,所述数据密集区所含数据点的个数作为所述Table的权值; 将建立的多个Table和每个Table对应的数据包类型存储在先验数据库中,所述数据包类型为恶意数据包或者非恶意数据包。
8.根据权利要求6所述的基于挖掘的网络智能平台恶意数据检测装置,其特征在于: 所述的距离值计算模块,具体用于设所述Table的中心为(A,B,C...M),坐标化的所述Table对应的数据密集区中一个数据点的各个字段值为(ai,bi,ci,...mi); 所述Table的中心到所述数据点的距离的计算公式如下:
|( A, B1C- -M) - (ai,bi,ci,…mi) |

公式I
=VIA - ai|2 + |B - bi|2 + |C - ci|2...+ |M - mi|2 在计算所述公式I中的|A-ai|, I B-bi I, C-ci |, M-mi时,对于数值型的字段直接相减;对于离散型的字段,如果所述Table的中心在该字段的值和所述数据点在该字段的值相等,则相减的结果为O,如果所述Table的中心在该字段的值和所述数据点在该字段的值不相等,则将相减的结果设定为指定数值。
9.根据权利要求6或7或8所述的基于挖掘的网络智能平台恶意数据检测装置,其特征在于: 所述的判断处理模块,具体用于当所述待测数据包和某个Table的中心之间的距离值不大于所述某个Table的作用半径时,则判断所述待测数据包属于所述某个Table对应的数据密集区; 获取先验数据库中存储的所述某个Table对应的数据包类型,当所述数据包类型为恶意数据包,则确定所述待测数据包为恶意数据包;当所述数据包类型为非恶意数据包,则确定所述待测数据包为非恶意数据包。
10.根据权利要求9所述的基于挖掘的网络智能平台恶意数据检测装置,其特征在于,所述的装置还包括: 增量挖掘模块,用于将所述待测数据包的检测结果存储在检测结果库中,所述检测结果中包括所述待测数据包为恶意数据包或者非恶意数据包,所述待测数据包所对应的综合特征向量Table,所述待测数据包的各个字段的字段值; 读取一段时间内所述检测结果库中存储的对应同一个Table的所有数据包的各个字段的字段值,并读取先验数据库中存储所述同一个Table的中心、作用半径和权重值,根据读取的所述信息运用设定的增量挖掘算法,对所述同一个Table的中心、作用半径和权重进行更新; 将更新后的所述同一个Table的中心、作用半径和权重重新写入到先验数据库中,替换先验数据库中原先存储的所述同一个Table的中心、作用半径和权重值。
【文档编号】G06F21/56GK104318158SQ201410325598
【公开日】2015年1月28日 申请日期:2014年7月9日 优先权日:2014年7月9日
【发明者】崔宝江, 金海峰, 何珊珊, 金建林, 袁隽 申请人:北京邮电大学, 北京直真科技股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1