基于快速聚类算法的网络异常检测方法

文档序号:7684260阅读:213来源:国知局
专利名称:基于快速聚类算法的网络异常检测方法
技术领域
本发明涉及网络异常检测及入侵检测技术领域,具体涉及一种基于快速聚 类算法的网络异常的检测方法。
背景技术
入侵检测系统(Intrusion Detection System, IDS)是继防火墙、数据加密 等传统安全保护措施之后的新一代安全保障技术。入侵检测系统能够帮助网络 系统快速发现网络攻击,能够扩展系统管理员的安全管理能力,提高信息安全 基础结构的完整性。虽然IDS无法完全使计算机系统免受攻击及破坏,但是却 可以在计算机系统遭受攻击时使管理人员能够近实时地检测到攻击并采取相应 行动,同时还可以防范日后进一步的攻击,这正是入侵检测系统的功能所在, 是应付破坏企图的一种有效方式。与数据加密、防火墙等技术高度成熟的产品 相比,目前的入侵检测系统还存在相当多的问题,海量数据的处理就是入侵检 测系统首先要面对的困难。入侵检测技术实质上归结为对包括网络数据、主机 审计记录、应用程序日志文件等在内的安全审计数据的分析处理。然而,操作 系统的日益复杂化和网络数据流量的急剧膨胀,导致了安全审计数据同样以惊 人的速度递增,入侵检测系统采集的数据量非常庞大,但其中只有少部分数据 对于入侵检测才是有意义的,激增的数据背后隐藏着许多重要的安全信息,如 何从包含大量冗余信息的数据中提取出具有代表性的入侵模式是入侵检测的关 键,而靠传统数据检索机制和统计分析方法无法发现数据中存在的关联、关系 和规则,不能满足安全信息有效提取的需要。

发明内容
本发明的目的是提供一种基于快速聚类算法的网络异常检测的方法,以克 服现有技术无法从包含大量冗余信息的数据中提取出具有代表性的入侵模式, 难以满足安全信息有效提取需要的问题。为克服现有技术存在的问题,本发明提供了一种基于快速聚类算法的网络异常检测的方法,它是通过以下几个步骤来实现的 步骤一以旁路侦听方式捕获网络上的数据包;步骤二进行数据的预处理,对抓来的数据包进行属性分解,得到的过滤 数据同时送到步骤三和步骤五;步骤三对过滤数据使用快速聚类算法进行聚类划分,它包括 算法面向混合类型数据的快速聚类算法; 输入数据集E,取样次数n; 输出每个聚类;其运算过程是-(1) <formula>formula see original document page 6</formula>读取新记录e"〃获得聚类初始中心ml,m2(2)<formula>formula see original document page 6</formula>(3)<formula>formula see original document page 6</formula>(4)<formula>formula see original document page 6</formula>计算<formula>formula see original document page 6</formula>其中n=l, 2,…k);s一C,,C》是聚类间的非相似度,w'm(:C)是&与聚类C的非相 似度,(5) 求出<formula>formula see original document page 6</formula>和<formula>formula see original document page 6</formula><formula>formula see original document page 6</formula>(6)<formula>formula see original document page 6</formula>Else将ei聚合到与ei非相似度为min"^0'',的聚类中; (7) Until记录集中所有记录处理完毕。 !四将步骤三中区分出的异常行为放入入侵检测模式库中;!五实时接收步骤二送来的过滤数据,通过检测引擎对其进行检测,引擎通过将网络数据包与入侵检测模式库的模式进行匹配,如果发现异常, 警或通知防火墙对该连接进行阻断。步 步上述步骤三的运算过程中,所述w'附(c; , cy)是各个不同类之间的非相似度设ei和ej (i#j)为记录集E中任意两个事件记录对象,它们由m个特征 属性(其中含P个离散特征属性)组成, 和 分别为离散属性Fk (FkEFD)在记录集E中取值为fik和fjk的数量,则ei和ej之间的离散特征非相似度 w',(e,,e,)为= J ^~~^仏,厶) 式中A, /'J =〗6i和ej之间的离散特征非相似度与两个记录对象对应的离散属性值的不匹配量有 关,不匹配数量越小,两个记录对象离散特征就越相似。设ei和ej (i^j)为记录集E中任意两个事件记录对象,它们由m个特征 属性(其中含q个连续属性)组成,ei和ej之间的连续特征非相似度^c(e,A) 采用欧几里德(Euclidean)距离度量设ei和ej (i^j)为记录集E中任意两个事件记录对象,它们之间的非相(e,.A)决定 s/加(e, , ^) = //s/w/) (e,,勺)+ w附c (A ,勺)其中U为加权因子,通过P可以调整两个子集影响事件记录非相似度的权重;所述算法Search一m(E,n),是基于样本搜索的初始聚类中心选取算法, 输入数据集E,取样次数n, 输出初始聚类中心m,,m2 过程(1) 对E进行n次取样,得到数据样本集S,, S2,, Sn;(2) For i=l to n do对Si聚类求出聚类中心m尸Count—m(i);(3) 将集合(m,,m2,…,nU作为一个聚类,求出其聚类中心m= Count—m(n);(4) For i=l to n do Ww(/n,w,);(5) Max (w'w(/w,附,)),令mi二m, m2=mi;(6) m,和m2为初始聚类中心;所述算法Count—m(i),是基于对象分离的聚类中心求取算法 输入聚类序号i。 输出聚类中心mi。过程(1) 对Ci中所有事件记录对象求出聚类中心m,;(2) 计算Ci中所有事件记录对象与nh'的非相似度^(^.,m力(~ eC,),并 求出所有非相似度的平均值"vg( Z叾A'));(3) 选取Ci中与mi,非相似度小于m^(Z ^(e7,m,'))的事件记录对象,记该集合为Ci' ,(4) 计算集合Ci'的聚类中心rrii, mi为聚类Ci的聚类中心。 与现有技术相比,本方法提出的是一种面向混合类型数据的快速聚类算法,对连续特征属性和离散特征属性分别采用几何距离和相异性的度量方法,利用 记录间的非相似度来高速有效地对大流量的网络行为集进行聚类划分,从中划 分出入侵模式提取所需要的正常/异常行为库。通过快速聚类来发现、判定网络 中的异常,能够解决传统聚类算法在入侵检测领域所面临的混合类型数据相异 性计算、大流量数据快速聚类要求、以及最终聚类数目未知等问题。具有方法 灵活、智能化程度高、判断准确的优点。


附图为本发明基于快速聚类算法的网络异常检测方法流程图。
具体实施例方式下面将结合附图和实施例对本发明做详细地说明。一种基于快速聚类算法的网络异常检测的方法,它是通过以下几个步骤来实现的步骤一以旁路侦听方式抓取网络上的TCP/IP流量数据包,对数据进行 采集;步骤二进行数据的预处理,对抓来的数据包进行属性分解,得到的过滤 数据同时送到步骤三和步骤五;步骤三对过滤数据使用快速聚类算法进行聚类划分,它包括 算法面向混合类型数据的快速聚类算法; 输入数据集E,取样次数n; 输出每个聚类; 其运算过程是(1) Search—m(E, n); 〃获得聚类初始中心ml, m2(2) R印eat(3) 读取新记录ei;(4) 计算m^ Count—m(n), ^(C,.,C》,WmO,.,C),(其中n=l, 2,…k);^(C,,。)是聚类间的非相似度,^(e,,C)是ei与聚类C的非相 似度,(5) 求出min(sfm(e,.,C))和minO'm(C));(6) If min0^fe,Q)〉minO/附(C)) thenElse将ei聚合到与ei非相似度为min(^^'',C))的聚类中; (7)Until记录集中所有记录处理完毕; 在整个过程中所述^(C,.,C》是各个不同类之间的非相似度设ei和ej (i#j)为记录集E中任意两个事件记录对象,它们由m个特征属性(其中含p个离散特征属性)组成,^和 分别为离散属性Fk (FkEFD)在记录集E中取值为fik和fjk的数量,则e,和ej之间的离散特征非相似度 w7wfl(e,,e》为<formula>formula see original document page 0</formula>和ej之间的离散特征非相似度与两个记录对象对应的离散属性值的不匹配量有 关,不匹配数量越小,两个记录对象离散特征就越相似。设ei和ej (i#j)为记录集E中任意两个事件记录对象,它们由m个特征 属性(其中含q个连续属性)组成,ei和ej之间的连续特征非相似度叾c(e,,e》 采用欧几里德(Euclidean)距离度量<formula>formula see original document page 0</formula>其中"为加权因子,通过"可以调整两个子集影响事件记录非相似度的权重;所述算法Search一m(E,n),是基于样本搜索的初始聚类中心选取算法, 输入数据集E,取样次数n, 输出初始聚类中心1^,1112 过程-(1) 对E进行n次取样,得到数据样本集S,, S2,…,Sn;(2) For i二l to n do对Si聚类求出聚类中心nu= Count_m(i);(3) 将集合(m,,m2,…,mJ作为一个聚类,求出其聚类中心m二CounUn(n);(4) For i=l to n do由O, w,);(5) Max (siw(w, )),令mi=m, m2=nii;(6) nu和ni2为初始聚类中心;所述算法CoUnt_m(i),是基于对象分离的聚类中心求取算法输入聚类序号i。输出聚类中心nu。过程(1) 对"中所有事件记录对象求出聚类中心(2) 计算Ci中所有事件记录对象与mi'的非相似度^(^m,')(e,eC,),并 求出所有非相似度的平均值wg(2:叾(^,m,'));(3) 选取Ci中与mi'非相似度小于m;g(S ^A,m,'))的事件记录对象,记该 集合为Ci';(4) 计算集合Ci,的聚类中心ini, mi为聚类Ci的聚类中心; 步骤四将步骤三中区分出的异常行为放入入侵检测模式库中; 步骤五实时接收步骤二送来的过滤数据,通过检测引擎对其进行检测,检测引擎通过将网络数据包与入侵检测模式库的模式进行匹配,如果发现异常, 则报警或通知防火墙对该连接进行阻断。上面所提供的具体实施过程实际上是一个迭代的过程。入侵检测模式库中 的内容会逐渐增加,检测效果也会越来越好。最后所应说明的是以上实施方式仅用以说明而非限制本发明的技术方案, 尽管参照上述实施方式对本发明进行了详细的说明,本领域的普通技术人员应 当理解依然可以对本发明进行修改或者等同替换,而不脱离本发明的精神和 范围的任何修改与局部替换,其均应涵盖在本发明的权利要求范围内。
权利要求
1、一种基于快速聚类算法的网络异常检测的方法,它是通过以下几个步骤来实现的步骤一以旁路侦听方式捕获网络上的数据包;步骤二进行数据的预处理,对抓来的数据包进行属性分解,得到的过滤数据同时送到步骤三和步骤五;步骤三对过滤数据使用快速聚类算法进行聚类划分,它包括算法面向混合类型数据的快速聚类算法;输入数据集E,取样次数n;输出每个聚类;其运算过程是(1)Search_m(E,n);//获得聚类初始中心m1,m2(2)Repeat(3)读取新记录ei;(4)计算<math-cwu><![CDATA[<math> <mrow><msub> <mi>m</mi> <mi>n</mi></msub><mo>=</mo><mi>Count</mi><mo>_</mo><mi>m</mi><mrow> <mo>(</mo> <mi>n</mi> <mo>)</mo></mrow><mo>,</mo><mover> <mi>sim</mi> <mo>&OverBar;</mo></mover><mrow> <mo>(</mo> <msub><mi>C</mi><mi>i</mi> </msub> <mo>,</mo> <msub><mi>C</mi><mi>j</mi> </msub> <mo>)</mo></mrow><mo>,</mo><mover> <mi>sim</mi> <mo>&OverBar;</mo></mover><mrow> <mo>(</mo> <msub><mi>e</mi><mi>i</mi> </msub> <mo>,</mo> <mi>C</mi> <mo>)</mo></mrow><mo>,</mo> </mrow></math>]]></math-cwu><!--img id="icf0001" file="S2008100174987C00011.gif" wi="362" he="30" img-content="drawing" img-format="tif"/-->(其中n=1,2,…k);是聚类间的非相似度,是ei与聚类C的非相似度,(5)求出和
2、如权利要求1所述的基于快速聚类算法的网络异常检测的方法,其特征 在于所述步骤三的运算过程中,1)所述^(c,,c》是各个不同类之间的非相似度设ei和e」(i#j)为记录集E中任意两个事件记录对象,它们由m个特征 属性(其中含P个离散特征属性)组成,气和 分别为离散属性K (Fk£FD) 在记录集E中取值为fa和fjk的数量,则ei和ej之间的离散特征非相似度和ej之间的离散特征非相似度与两个记录对象对应的离散属性值的不匹配量有 关,不匹配数量越小,两个记录对象离散特征就越相似。设ei和ej (i^j)为记录集E中任意两个事件记录对象,它们由m个特征 属性(其中含q个连续属性)组成,ei和ej之间的连续特征非相似度c(e,A) 采用欧几里德(Euclidean)距离度量设ei和ej (i#j)为记录集E中任意两个事件记录对象,它们之间的非相 似度Ww(e, , ^)由由£> 0, , e,)禾口 w,wc (e,, ey.)决定其中U为加权因子,通过U可以调整两个子集影响事件记录非相似度的权重; 2)所述算法Search一m(E,n),是基于样本搜索的初始聚类中心选取算法, 输入数据集E,取样次数n, 输出初始聚类中心nu,m2formula>formula see original document page 3</formula>过程(1) 对E进行n次取样,得到数据样本集S,, S2,, Sn;(2) For i=l to n do对Si聚类求出聚类中心Count—m(i);(3) 将集合(m,,m2,…,nU作为一个聚类,求出其聚类中心m= Count_m(n);(4) For i=l to n do 6'/iw0n,m,.);(5) Max (w7n( n,m,)), 令mi=m, m2=mi;(6) m,和m2为初始聚类中心; 3)所述算法Count—m(i),是基于对象分离的聚类中心求取算法 输入聚类序号i。 输出聚类中心mi。过程(1) 对Ci中所有事件记录对象求出聚类中心mi';(2) 计算Ci中所有事件记录对象与mi'的非相似度^(^.,/V)(^eC,),并 求出所有非相似度的平均值"vg(i; ^(e,,m,'));(3) 选取"中与mi,非相似度小于ovg(j; ^A,/V))的事件记录对象,记该 集合为Ci';计算集合Ci,的聚类中心mi, nu为聚类Ci的聚类中心。
全文摘要
本发明涉及网络异常检测及入侵检测技术领域,具体涉及一种基于快速聚类算法的网络异常的检测方法。本发明的目的是要克服现有技术无法从包含大量冗余信息的数据中提取出具有代表性的入侵模式,难以满足安全信息有效提取需要的问题。本发明提供的方法是步骤一、以旁路侦听方式捕获网络上的数据包;步骤二、进行数据的预处理,得到的过滤数据同时送到步骤三和步骤五;步骤三、对过滤数据使用快速聚类算法进行聚类划分;步骤四、将步骤三中区分出的异常行为放入入侵检测模式库中;步骤五、实时接收步骤二送来的过滤数据,通过检测引擎对其进行检测,如果发现异常,则报警或通知防火墙对该连接进行阻断。
文档编号H04L12/24GK101242316SQ200810017498
公开日2008年8月13日 申请日期2008年2月3日 优先权日2008年2月3日
发明者涛 刘, 张永彬, 亮 白, 赵卫栋 申请人:西安交大捷普网络科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1