本发明涉及数据挖掘技术领域,具体涉及一种基于业务流量空间图的网络异常数据挖掘方法。
背景技术:
随着国内各行业、部门间的数据不断融合,相互之间的沟通交流数据形成了大数据。能否实时、准确发现这些存在在各行业、部门中及之间的泄密窃密事件,已经成为相关安全部门关注的焦点。
国内各安全厂商和行业研究机构针对上述安全问题,推出了一系列的数据挖掘和数据分析方法,取得了丰硕的成果,解决了大量的信息安全问题。这其中基于流量异常的数据挖掘分析方法较为前沿,但是随着信息技术的飞速发展,流量数据变的越来越复杂,传统的流量分析方法呈现自身的不足:
1.面向设备单一,如:单个终端上的出现的攻击或异常;
2.未全局统筹考虑,如:单个设备或者非常小的局域网上的异常流量;
3.人为处理工作量巨大,准确率不高,如:基于概率的流量分析;
所以当前需要一种解决行业结合全网、准确率高的基于异常流量的数据挖掘方法。
技术实现要素:
为了克服上述现有技术中的不足,本发明提供一种基于业务流量空间图的网络异常数据挖掘方法,以解决上述技术问题。
本发明的技术方案是:
一种基于业务流量空间图的网络异常数据挖掘方法,包括如下步骤:
分析业务流量特征;
根据部门间的业务流量形成业务流量矩阵,其中,业务流量矩阵中的每个元素代表两部门之间的业务流量可达关系;
根据业务流量特征识别流量数据的具体业务数据并对业务流量矩阵进行初始化;
通过对部门间的业务流量数据进行检测判断,进行业务流量矩阵的刷新;
业务流量矩阵中表示部门之间流量可达占比变化低于设定阈值时视为网络关系确定,完成网络异常数据的筛选。
进一步的,步骤分析业务流量特征,包括:
通过分析部门之间的业务往来的业务特征梳理出具体业务形成用向量表示的流量特征集合,其中,全部符合流量特征的流量为业务流量。
进一步的,步骤根据部门间的业务流量形成初始化的业务流量矩阵,包括:
将多部门之间的业务流量形成一个有向网状结构即业务流量矩阵;
其中,多部门之间bi业务流量可达性用业务流量矩阵表示如下:
nij代表部门pi和部门pj之间的可达关系,值为0表示不可达,1为表示可达;
将全部的业务流量矩阵bn初始化为零矩阵。
进一步的,步骤根据业务流量特征识别流量数据的具体业务数据并对业务流量矩阵进行对应关系值的填充,之前包括:
获取流量采集设备采集的流量数据,其中,流量数据中包含源目的ip信息以及ip属于的部门信息。
进一步的,步骤根据业务流量特征识别流量数据的具体业务数据并对业务流量矩阵进行初始化,包括:
根据业务流量特征识别出流量数据的具体的业务流量;
根据数据流量的源目的ip信息以及ip属于的部门信息,自动对业务流量矩阵进行初始化;其中,0表示两部门之间的业务流量不可达,1为表示两部门之间的业务流量可达。
进一步的,步骤根据业务流量特征识别流量数据的具体业务数据并对业务流量矩阵进行初始化,还包括:
业务流量矩阵进行初始化过程中,在设定时间段内表示两部门之间的业务流量可达的占比不变时,初始化完成。
进一步的,步骤通过对部门间的业务流量数据进行检测判断,进行业务流量矩阵的刷新;包括:
将初始化完成的业务流量矩阵部门间的流量数据进行检测;
判断部门间流量数据是否是正常业务流量数据;
若是,将反映该业务的业务流量矩阵中对应的值修改为1;
若否,将问题流量形成事件进行显示;再次判断问题流量两部门之间是否真实可达;
若两个部门间流量真实可达,将反映该业务的业务流量矩阵中对应的值修改为1,否则视为非法可达,将反映该业务的业务流量矩阵中对应的值修改为0。
进一步的,步骤将问题流量形成事件进行显示;再次判断问题流量两部门之间是否真实可达,包括:
将问题流量对应的部门间的信息、部门间交互的主机的信息和主机间交互的内容进行显示;
查看显示的信息判断两部门之间是否真实可达。
从以上技术方案可以看出,本发明具有以下优点:
1、经过自动初始化和自动判断,缩小的了人工梳理部门业务关系的工作量。
2、统筹了行业内部跨部分间的流量关系网,解决大规模网络中存在的异常流量问题。
3、方案采用适当的对是否真实确定的业务关系的人工判断,可以筛选出高概率的异常流量。
4、正常的业务流量关系网的确认,较准确地完成网络异常数据的初步筛选,提高了下一步数据分析的准确性,比基于规则的流量实时判定有更高的效率,也更容易解决跨时间阶段的攻击、异常等的判断。
5、增加阈值判断应对实时变化的网络结构。
此外,本发明设计原理可靠,结构简单,具有非常广泛的应用前景。
由此可见,本发明与现有技术相比,具有突出的实质性特点和显著地进步,其实施的有益效果也是显而易见的。
附图说明
图1为一种基于业务流量空间图的网络异常数据挖掘方法流程示意图;
图2为一种基于业务流量空间图的网络异常数据挖掘方法流程示意图。
具体实施方式
下面结合附图并通过具体实施例对本发明进行详细阐述,以下实施例是对本发明的解释,而本发明并不局限于以下实施方式。
实施例一
一种基于业务流量空间图的网络异常数据挖掘方法,包括如下步骤:
s1:分析业务流量特征;
通过分析部门之间的业务往来的业务特征梳理出具体业务形成用向量表示的流量特征集合,其中,全部符合流量特征的流量为业务流量。
s2:根据部门间的业务流量形成业务流量矩阵,其中,业务流量矩阵中的每个元素代表两部门之间的业务流量可达关系;
将多部门之间的业务流量形成一个有向网状结构即业务流量矩阵;
其中,多部门之间bi业务流量可达性用业务流量矩阵表示如下:
nij代表部门pi和部门pj之间的可达关系,值为0表示不可达,1为表示可达;
将全部的业务流量矩阵bn初始化为零矩阵。
s3:根据业务流量特征识别流量数据的具体业务数据并对业务流量矩阵进行初始化;
根据业务流量特征识别出流量数据的具体的业务流量;
根据数据流量的源目的ip信息以及ip属于的部门信息,自动对业务流量矩阵进行初始化;其中,0表示两部门之间的业务流量不可达,1为表示两部门之间的业务流量可达。
s4:通过对部门间的业务流量数据进行检测判断,进行业务流量矩阵的刷新;
将初始化完成的业务流量矩阵部门间的流量数据进行检测;
判断部门间流量数据是否是正常业务流量数据;
若是,将反映该业务的业务流量矩阵中对应的值修改为1;
若否,将问题流量形成事件进行显示;再次判断问题流量两部门之间是否真实可达;
若两个部门间流量真实可达,将反映该业务的业务流量矩阵中对应的值修改为1,否则视为非法可达,将反映该业务的业务流量矩阵中对应的值修改为0。
s5:业务流量矩阵中表示部门之间流量可达占比变化低于设定阈值时视为网络关系确定,完成网络异常数据的筛选。
实施例二
如图1、图2所示,一种基于业务流量空间图的网络异常数据挖掘方法,包括如下步骤:
s1:分析业务流量特征;
部门之间的业务往来具有可以枚举的业务特征,如是否公文传输、文件格式、是否有网页预览、预览内容、是否有应答反馈、反馈内容等等。这些不同的特征,具有不同的流量表示,如存在文件数据流,即视为有文件传输;文件流得知文件格式等。
通过分析部门之间的业务往来的业务特征梳理出某一具体业务形成一个用向量表示的流量特征集合:{b1,b2…bn}。bi是由一组[b0,b1,···,bn]特征构成,bi为第i个特征,全部符合这些特征视为某一业务流量;
s2:根据部门间的业务流量形成业务流量矩阵,其中,业务流量矩阵中的每个元素代表两部门之间的业务流量可达关系;
业务流向图为有向图,图在数据结构的上的表示为矩阵,矩阵中的每个值相当于有向图的边表示。即可使用布尔型表达是否可达,也可以使用数值类型表达长度。部门业务流量矩阵定义如下:
部门pi和部门pj之间如果存在业务往来,流量可以通达,不存在业务往来,就不会存在业务流量,为不通达。多部门之间的业务流量必然形成一个有向网状结构,即从部门pi到部门pj,再到部门pk,以及更多的其他部门。用矩阵来表示上述部门间的关系:
nij代表部门pi和pj之间的可达关系,值为0标示不可达,1为标示可达(如果基于流量大小进行检测,可以使用流量次数定义可达关系,也可以使用均值等表达正常流量值,该处视应用场景定义矩阵中的值),也可以视为部门有向图中pi到pj的边。
将全部的业务矩阵bn初始化为零矩阵,表示所有单位均不可达。具体某一业务的部门间的业务流量矩阵如下:
s3:根据业务流量特征识别流量数据的具体业务数据并对业务流量矩阵进行初始化;
根据步骤s1中的业务流量特征,识别出流量采集设备提供的流量数据为某具体业务的流量,而流量数据中包含源目的ip以及ip属于的部门等信息。结合这些信息,即可知道本次的流量是什么业务,从哪个部门的那个ip中流出,到那个部门的那个ip中去,继而可以通过程序自动填充业务流量矩阵。表达一个部门到另个部门存在某一业务的往来。
因为大部分的部门间的业务数据都是正常的,人工梳理正常流量的工作量大且重复率高,所以在最初的一个阶段,不判断流量是否合法合规,有流量关系即视为可达,以此完成业务流量矩阵的初始化。
初始化的业务流量矩阵中nn0位置为1代表部门pn和部门p0存在bi业务的往来。
初始化过程中,最初全部业务流量矩阵中的1的占比为零,在最初的一段时间,1在整个矩阵中的占比会直线上升,到占比不再增加时,视为初步初始化成功。
s4:通过对部门间的业务流量数据进行检测判断,进行业务流量矩阵的刷新;
经过步骤s3后,根据本现已有的攻击、异常、违规等检测判断手段,如攻击链判断、关联分析、以及木马、病毒检测等,可以区分问题流量和正常业务流量。将问题流量形成的事件,包括部门pi和pj的信息,两台交互流量的主机的信息,交互的内容等等,通过可视化技术呈现到页面。通过人工查看这些页面,判断两个部门之间是否真实可达。事件经过人工判断后,若认为两个部门流量真实可达,将反映业务bi可达关系矩阵的bin中的nij修改为1,否则视为非法可达,修改为0。
s5:业务流量矩阵中表示部门之间流量可达占比变化低于设定阈值时视为网络关系确定,完成网络异常数据的筛选。
经过一段时间的,自动判断和人工判断后,可达占比变化低于设定阈值,视为网络关系确定结束。如果高于该阈值,需要再次开启步骤s4,直到满足步骤s5,以应对真实经常变化的网络关系。
训练好的业务流量矩阵,视为一个部门间正常的流量关系矩阵。不符合该矩阵的流量关系有较大概率是攻击、违规流量等造成的流量,视为异常流量。该异常流量的确定,可以极大提高对窃密泄密行为的分析判定的准确性。
针对网络部门间的攻击、窃密、泄密等都存在一定的规律性,结合某时间段内的不同异常违规流量发生的概率,可以基于改进的贝叶斯算法、或者使用马尔科夫链的蒙特卡罗随机分析方法进行行为分析。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。