基于快速聚类算法的网络异常检测方法

文档序号：7684260阅读：213来源：国知局

专利名称：基于快速聚类算法的网络异常检测方法
技术领域：
本发明涉及网络异常检测及入侵检测技术领域，具体涉及一种基于快速聚类算法的网络异常的检测方法。
背景技术：
入侵检测系统(Intrusion Detection System, IDS)是继防火墙、数据加密等传统安全保护措施之后的新一代安全保障技术。入侵检测系统能够帮助网络系统快速发现网络攻击，能够扩展系统管理员的安全管理能力，提高信息安全基础结构的完整性。虽然IDS无法完全使计算机系统免受攻击及破坏，但是却可以在计算机系统遭受攻击时使管理人员能够近实时地检测到攻击并采取相应行动，同时还可以防范日后进一步的攻击，这正是入侵检测系统的功能所在，是应付破坏企图的一种有效方式。与数据加密、防火墙等技术高度成熟的产品相比，目前的入侵检测系统还存在相当多的问题，海量数据的处理就是入侵检测系统首先要面对的困难。入侵检测技术实质上归结为对包括网络数据、主机审计记录、应用程序日志文件等在内的安全审计数据的分析处理。然而，操作系统的日益复杂化和网络数据流量的急剧膨胀，导致了安全审计数据同样以惊人的速度递增，入侵检测系统采集的数据量非常庞大，但其中只有少部分数据对于入侵检测才是有意义的，激增的数据背后隐藏着许多重要的安全信息，如何从包含大量冗余信息的数据中提取出具有代表性的入侵模式是入侵检测的关键，而靠传统数据检索机制和统计分析方法无法发现数据中存在的关联、关系和规则，不能满足安全信息有效提取的需要。

发明内容
本发明的目的是提供一种基于快速聚类算法的网络异常检测的方法，以克服现有技术无法从包含大量冗余信息的数据中提取出具有代表性的入侵模式，难以满足安全信息有效提取需要的问题。为克服现有技术存在的问题，本发明提供了一种基于快速聚类算法的网络异常检测的方法，它是通过以下几个步骤来实现的步骤一以旁路侦听方式捕获网络上的数据包；步骤二进行数据的预处理，对抓来的数据包进行属性分解，得到的过滤数据同时送到步骤三和步骤五；步骤三对过滤数据使用快速聚类算法进行聚类划分，它包括算法面向混合类型数据的快速聚类算法；输入数据集E，取样次数n; 输出每个聚类；其运算过程是-(1) <formula>formula see original document page 6</formula>读取新记录e"〃获得聚类初始中心ml，m2(2)<formula>formula see original document page 6</formula>(3)<formula>formula see original document page 6</formula>(4)<formula>formula see original document page 6</formula>计算<formula>formula see original document page 6</formula>其中n=l, 2，…k);s一C,，C》是聚类间的非相似度，w'm(:C)是&与聚类C的非相似度，(5) 求出<formula>formula see original document page 6</formula>和<formula>formula see original document page 6</formula><formula>formula see original document page 6</formula>(6)<formula>formula see original document page 6</formula>Else将ei聚合到与ei非相似度为min"^0''，的聚类中； (7) Until记录集中所有记录处理完毕。 !四将步骤三中区分出的异常行为放入入侵检测模式库中；!五实时接收步骤二送来的过滤数据，通过检测引擎对其进行检测，引擎通过将网络数据包与入侵检测模式库的模式进行匹配，如果发现异常, 警或通知防火墙对该连接进行阻断。步步上述步骤三的运算过程中，所述w'附(c; ， cy)是各个不同类之间的非相似度设ei和ej (i#j)为记录集E中任意两个事件记录对象，它们由m个特征属性(其中含P个离散特征属性)组成，和分别为离散属性Fk (FkEFD)在记录集E中取值为fik和fjk的数量，则ei和ej之间的离散特征非相似度 w',(e,，e,)为= J ^~~^仏,厶) 式中A, /'J =〗6i和ej之间的离散特征非相似度与两个记录对象对应的离散属性值的不匹配量有关，不匹配数量越小，两个记录对象离散特征就越相似。设ei和ej (i^j)为记录集E中任意两个事件记录对象，它们由m个特征属性(其中含q个连续属性)组成，ei和ej之间的连续特征非相似度^c(e,A) 采用欧几里德(Euclidean)距离度量设ei和ej (i^j)为记录集E中任意两个事件记录对象，它们之间的非相(e,.A)决定 s/加(e, ， ^) = //s/w/) (e,，勺)+ w附c (A ，勺)其中U为加权因子，通过P可以调整两个子集影响事件记录非相似度的权重；所述算法Search一m(E，n)，是基于样本搜索的初始聚类中心选取算法，输入数据集E，取样次数n，输出初始聚类中心m,，m2 过程(1) 对E进行n次取样，得到数据样本集S,， S2，， Sn;(2) For i=l to n do对Si聚类求出聚类中心m尸Count—m(i);(3) 将集合(m,，m2，…，nU作为一个聚类，求出其聚类中心m= Count—m(n);(4) For i=l to n do Ww(/n,w,);(5) Max (w'w(/w，附,))，令mi二m， m2=mi;(6) m,和m2为初始聚类中心；所述算法Count—m(i)，是基于对象分离的聚类中心求取算法输入聚类序号i。输出聚类中心mi。过程(1) 对Ci中所有事件记录对象求出聚类中心m,;(2) 计算Ci中所有事件记录对象与nh'的非相似度^(^.，m力(~ eC,)，并求出所有非相似度的平均值"vg( Z叾A'));(3) 选取Ci中与mi，非相似度小于m^(Z ^(e7,m,'))的事件记录对象，记该集合为Ci' ，(4) 计算集合Ci'的聚类中心rrii， mi为聚类Ci的聚类中心。与现有技术相比,本方法提出的是一种面向混合类型数据的快速聚类算法，对连续特征属性和离散特征属性分别采用几何距离和相异性的度量方法，利用记录间的非相似度来高速有效地对大流量的网络行为集进行聚类划分，从中划分出入侵模式提取所需要的正常/异常行为库。通过快速聚类来发现、判定网络中的异常，能够解决传统聚类算法在入侵检测领域所面临的混合类型数据相异性计算、大流量数据快速聚类要求、以及最终聚类数目未知等问题。具有方法灵活、智能化程度高、判断准确的优点。

附图为本发明基于快速聚类算法的网络异常检测方法流程图。
具体实施例方式下面将结合附图和实施例对本发明做详细地说明。一种基于快速聚类算法的网络异常检测的方法，它是通过以下几个步骤来实现的步骤一以旁路侦听方式抓取网络上的TCP/IP流量数据包，对数据进行采集；步骤二进行数据的预处理，对抓来的数据包进行属性分解，得到的过滤数据同时送到步骤三和步骤五；步骤三对过滤数据使用快速聚类算法进行聚类划分，它包括算法面向混合类型数据的快速聚类算法；输入数据集E，取样次数n; 输出每个聚类；其运算过程是(1) Search—m(E， n); 〃获得聚类初始中心ml， m2(2) R印eat(3) 读取新记录ei;(4) 计算m^ Count—m(n)， ^(C,.，C》，WmO,.，C)，(其中n=l， 2,…k);^(C,，。)是聚类间的非相似度，^(e,，C)是ei与聚类C的非相似度，(5) 求出min(sfm(e,.,C))和minO'm(C));(6) If min0^fe，Q)〉minO/附(C)) thenElse将ei聚合到与ei非相似度为min(^^''，C))的聚类中； (7)Until记录集中所有记录处理完毕；在整个过程中所述^(C,.,C》是各个不同类之间的非相似度设ei和ej (i#j)为记录集E中任意两个事件记录对象，它们由m个特征属性(其中含p个离散特征属性)组成，^和分别为离散属性Fk (FkEFD)在记录集E中取值为fik和fjk的数量，则e,和ej之间的离散特征非相似度 w7wfl(e,，e》为<formula>formula see original document page 0</formula>和ej之间的离散特征非相似度与两个记录对象对应的离散属性值的不匹配量有关，不匹配数量越小，两个记录对象离散特征就越相似。设ei和ej (i#j)为记录集E中任意两个事件记录对象，它们由m个特征属性(其中含q个连续属性)组成，ei和ej之间的连续特征非相似度叾c(e,，e》采用欧几里德(Euclidean)距离度量<formula>formula see original document page 0</formula>其中"为加权因子，通过"可以调整两个子集影响事件记录非相似度的权重；所述算法Search一m(E，n)，是基于样本搜索的初始聚类中心选取算法，输入数据集E，取样次数n，输出初始聚类中心1^，1112 过程-(1) 对E进行n次取样，得到数据样本集S,， S2，…，Sn;(2) For i二l to n do对Si聚类求出聚类中心nu= Count_m(i);(3) 将集合(m,，m2，…，mJ作为一个聚类，求出其聚类中心m二CounUn(n);(4) For i=l to n do由O, w,);(5) Max (siw(w， ))，令mi=m， m2=nii;(6) nu和ni2为初始聚类中心；所述算法CoUnt_m(i)，是基于对象分离的聚类中心求取算法输入聚类序号i。输出聚类中心nu。过程(1) 对"中所有事件记录对象求出聚类中心(2) 计算Ci中所有事件记录对象与mi'的非相似度^(^m,')(e,eC,)，并求出所有非相似度的平均值wg(2:叾(^，m,'));(3) 选取Ci中与mi'非相似度小于m;g(S ^A,m,'))的事件记录对象，记该集合为Ci';(4) 计算集合Ci，的聚类中心ini， mi为聚类Ci的聚类中心；步骤四将步骤三中区分出的异常行为放入入侵检测模式库中；步骤五实时接收步骤二送来的过滤数据，通过检测引擎对其进行检测，检测引擎通过将网络数据包与入侵检测模式库的模式进行匹配，如果发现异常，则报警或通知防火墙对该连接进行阻断。上面所提供的具体实施过程实际上是一个迭代的过程。入侵检测模式库中的内容会逐渐增加，检测效果也会越来越好。最后所应说明的是以上实施方式仅用以说明而非限制本发明的技术方案，尽管参照上述实施方式对本发明进行了详细的说明，本领域的普通技术人员应当理解依然可以对本发明进行修改或者等同替换，而不脱离本发明的精神和范围的任何修改与局部替换，其均应涵盖在本发明的权利要求范围内。
权利要求
1、一种基于快速聚类算法的网络异常检测的方法，它是通过以下几个步骤来实现的步骤一以旁路侦听方式捕获网络上的数据包；步骤二进行数据的预处理，对抓来的数据包进行属性分解，得到的过滤数据同时送到步骤三和步骤五；步骤三对过滤数据使用快速聚类算法进行聚类划分，它包括算法面向混合类型数据的快速聚类算法；输入数据集E，取样次数n；输出每个聚类；其运算过程是(1)Search_m(E，n)；//获得聚类初始中心m1，m2(2)Repeat(3)读取新记录ei；(4)计算<math-cwu><![CDATA[<math> <mrow><msub> <mi>m</mi> <mi>n</mi></msub><mo>=</mo><mi>Count</mi><mo>_</mo><mi>m</mi><mrow> <mo>(</mo> <mi>n</mi> <mo>)</mo></mrow><mo>,</mo><mover> <mi>sim</mi> <mo>&OverBar;</mo></mover><mrow> <mo>(</mo> <msub><mi>C</mi><mi>i</mi> </msub> <mo>,</mo> <msub><mi>C</mi><mi>j</mi> </msub> <mo>)</mo></mrow><mo>,</mo><mover> <mi>sim</mi> <mo>&OverBar;</mo></mover><mrow> <mo>(</mo> <msub><mi>e</mi><mi>i</mi> </msub> <mo>,</mo> <mi>C</mi> <mo>)</mo></mrow><mo>,</mo> </mrow></math>]]></math-cwu>(其中n＝1，2，…k)；是聚类间的非相似度，是ei与聚类C的非相似度，(5)求出和
2、如权利要求1所述的基于快速聚类算法的网络异常检测的方法，其特征在于所述步骤三的运算过程中，1)所述^(c,，c》是各个不同类之间的非相似度设ei和e」(i#j)为记录集E中任意两个事件记录对象，它们由m个特征属性(其中含P个离散特征属性)组成，气和分别为离散属性K (Fk￡FD) 在记录集E中取值为fa和fjk的数量，则ei和ej之间的离散特征非相似度和ej之间的离散特征非相似度与两个记录对象对应的离散属性值的不匹配量有关，不匹配数量越小，两个记录对象离散特征就越相似。设ei和ej (i^j)为记录集E中任意两个事件记录对象，它们由m个特征属性(其中含q个连续属性)组成，ei和ej之间的连续特征非相似度c(e,A) 采用欧几里德(Euclidean)距离度量设ei和ej (i#j)为记录集E中任意两个事件记录对象，它们之间的非相似度Ww(e, ， ^)由由￡> 0, ， e,)禾口 w,wc (e,, ey.)决定其中U为加权因子，通过U可以调整两个子集影响事件记录非相似度的权重； 2)所述算法Search一m(E，n)，是基于样本搜索的初始聚类中心选取算法，输入数据集E，取样次数n，输出初始聚类中心nu,m2formula>formula see original document page 3</formula>过程(1) 对E进行n次取样，得到数据样本集S,， S2，， Sn;(2) For i=l to n do对Si聚类求出聚类中心Count—m(i);(3) 将集合(m,，m2，…，nU作为一个聚类，求出其聚类中心m= Count_m(n);(4) For i=l to n do 6'/iw0n,m,.);(5) Max (w7n( n,m,))，令mi=m, m2=mi;(6) m,和m2为初始聚类中心； 3)所述算法Count—m(i)，是基于对象分离的聚类中心求取算法输入聚类序号i。输出聚类中心mi。过程(1) 对Ci中所有事件记录对象求出聚类中心mi';(2) 计算Ci中所有事件记录对象与mi'的非相似度^(^.，/V)(^eC,)，并求出所有非相似度的平均值"vg(i; ^(e,，m,'));(3) 选取"中与mi，非相似度小于ovg(j; ^A,/V))的事件记录对象，记该集合为Ci';计算集合Ci，的聚类中心mi， nu为聚类Ci的聚类中心。
全文摘要
本发明涉及网络异常检测及入侵检测技术领域，具体涉及一种基于快速聚类算法的网络异常的检测方法。本发明的目的是要克服现有技术无法从包含大量冗余信息的数据中提取出具有代表性的入侵模式，难以满足安全信息有效提取需要的问题。本发明提供的方法是步骤一、以旁路侦听方式捕获网络上的数据包；步骤二、进行数据的预处理，得到的过滤数据同时送到步骤三和步骤五；步骤三、对过滤数据使用快速聚类算法进行聚类划分；步骤四、将步骤三中区分出的异常行为放入入侵检测模式库中；步骤五、实时接收步骤二送来的过滤数据，通过检测引擎对其进行检测，如果发现异常，则报警或通知防火墙对该连接进行阻断。
文档编号H04L12/24GK101242316SQ200810017498
公开日2008年8月13日申请日期2008年2月3日优先权日2008年2月3日
发明者涛刘, 张永彬, 亮白, 赵卫栋申请人:西安交大捷普网络科技有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘涛;白亮;张永彬;赵卫栋
技术所有人：西安交大捷普网络科技有限公司
我是此专利的发明人

上一篇：高速数字视频信号的防泄漏装置及方法
上一篇：基于双循环队列移位和换位规则的加密方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。