基于主机流量功率谱相似性度量的僵尸网络检测方法

文档序号:7859955阅读:197来源:国知局
专利名称:基于主机流量功率谱相似性度量的僵尸网络检测方法
技术领域
本发明涉及网络通信安全领域,尤其涉及一种基于主机流量功率谱相似性度量的僵尸网络检测方法。
背景技术
僵尸网络(botnet)是指攻击者出于恶意目的,传播僵尸程序控制大量主机,通过一对多的命令与控制信道(Co_and and Control, C&C)所组成的网络。僵尸网络为攻击者提供了隐匿、灵活且高效的ー对多命令与控制机制,僵尸网络的控制者可以控制大量僵尸主机来实现信息窃取、分布式拒绝服务攻击和垃圾邮件发送等攻击目的。僵尸网络正步入快速发展期,对因特网安全造成了严重威胁。
国内外有代表性的对僵尸网络的检测策略主要有基于蜜罐密网技术的检测、基于終端信息的检测和基于流量的检测方法。但是这些研究通常都是用于检测IRC类型僵尸网络,对P2P类型的僵尸网络检测效果较差。參考文献I (臧天宁等.基于通讯特征和D-S证据理论分析僵尸网络相似度.通信学报.2011,32(4) :66-76)针对不同僵尸网络之间可能存在潜在的隐藏关系,通过提取时间域内僵尸网络内部通信的数据流数量、流中数据分组数量、主机通信量和数据分组负载等特征,并定义了特征相识度统计函数,利用改进的D-S证据理论建立了僵尸网络之间的相似性关系。在实际应用中该方法提取,由于僵尸网络主机的网络带宽、延时、用户习惯等原因,使得僵尸网络内部通信特征在时间域上并不一定呈现出严格的相似性,如果用该方法检测僵尸网络,容易导致检测失效。參考文献2 (金鑫等.基于通信特征曲线动态时间弯曲距离的IRC僵尸网络同源判别方法.计算机研究与发展.2012,49(3) :481-490)针对IRC类型僵尸网络IRC服务器和bot连接的动态特性,提取僵尸网络的通信量特征曲线、通信频率特征曲线,采用改进的动态时间弯曲距离判别不同的僵尸网络是否同源。该方法的目的是识别使用不同IRC控制服务器的同源僵尸网络,只适用于IRC型僵尸网络,对新型的P2P僵尸网络效果较差。

发明内容
鉴于此,本发明提出一种基于主机流量功率谱相似性度量的僵尸网络检测方法,利用主机对功率谱序列的DTW距离对主机流量功率谱的相似性进行度量。本发明方法的基本思想是采集网络出ロ流量数据,对该流量数据进行预处理后,利用自相关函数对其进行描述,自相关函数取离散傅里叶变换得到各主机流量功率谱序列,计算主机对功率谱序列的优化动态时间弯曲距离(Dynamic Time Warping Distance,简称DTW距离),将优化DTW距离小于阈值的主机对放入主机对集合,最后利用时空关联算法计算主机对集合中的各主机对所处状态的可信度,根据该值的大小判断被检测网络中是否存在僵尸网络,实现僵尸网络的检测。具体实现步骤如下
步骤一、网络出ロ流量数据采集基于libpcap/winpcap等工具软件在企业网的出ロ处采集所有的网络流量,作为检测的原始数据,井根据不同的内网主机对采集到的网络流量进行分类,最后将流量数据存入数据中心;步骤ニ、采用黑名单和白名单技术对流量数据进行预处理在对僵尸网络的检测过程中主要关注两大类流量,一类是僵尸网络的通信流量,包括IRC流量、HTTP流量和P2P流量;另一类是僵尸主机的攻击流量,包括扫描流量、DDoS攻击流量、电子邮件流量。采用黑名单和白名单技术对流量数据预处理的具体步骤如下(I)将上述两大类网络流量加入黑名单;
(2)采用白名单技术将明显不是检测所关注的流量从黑名单中剔除,本发明针对不同的网络流量设置了不同的白名单IRC流量因IRC流量在现实环境中较少出现,出现就极有可能是僵尸网络,所以没有设置白名単;HTTP 流量将典型门户网站(Sohu,Sina, ifeng,163,QQ,中华网,土豆网,Yahoo)、搜索引擎(google, baidu)、论坛(CSDN, mop, tianya,人人网,开心网)、电子商务网站(淘宝,京东,各大团购网,当当网,亚马逊)等的HTTP流量都设置成白名单;P2P流量利用网络流(网络流包括源IP、目的IP、源端ロ、目的端口和协议号)的特征进行过滤,如果在时间间距L内,网络流流量除以P2P连接时间的值大于设定的阈值,则将该网络流列入白名单;扫描流量借助其他的检测工具,如借助开源的入侵检测工具snort,检测扫描流量是否要列为白名単;DDoS攻击流量现实中出现的有效DDoS攻击绝大部分采用SYN攻击方式,所以在数据采集过程中采用黑名单技术,采集所有的SYN请求流量;电子邮件流量如果出现了大于IM的附件,则将该电子邮件流量列入白名単。(3)计算网络主机在固定时间长度内的通讯量,并对其进行归一化处理,得到网络主机的通讯量函数,即网络主机流量函数,记为x(t),t = I, 2, "'N,其中,N为观测的时间步长;在时间间距为L吋,网络主机流量的自相关函数定义为Rx (L) = E [X (t) X (t+L)]其中,Eレ]表示取数学期望。步骤三、通过离散傅里叶变换得到各主机流量功率谱序列通过对主机流量的自相关函数取离散傅里叶变换来获得主机流量功率谱序列,表示为V,(Rx(L),k) = [=⑷ Ly 帥/N), k = L2,- \-lU)步骤四、主机对流量功率谱的相似性度量提取步骤三中主机流量功率谱序列的特征点,得到特征点的数目q,并记录特征点的序号is ;将长度为N的主机流量功率谱序列转换为长度为f的功率谱特征序列,并分别计算转换前后序列的查询上界和查询下界;计算主机对功率谱特征序列的优化DTW距离,若距离值小于设定的阈值,则将主机对加入主机对集合Asb,以备下一歩的检测。
所述的长度为N的主机流量功率谱序列是指主机流量功率谱序列包含N个元素。主机对流量功率谱相似性度量的具体实现步骤为 ①提取主机流量功率谱序列的特征点定义主机流量功率谱序列的特征点为功率谱序列的起点、終点和横坐标间的距离大于阈值A的极值点;特征点的序号记为is, I彡s彡q ;is = a表示功率谱序列中的第a个元素是该序列的特征点,根据特征点的定义易知れ=1,i, = N ;②将长度为N的n个主机流量功率谱序列,记为S1 (N),S2 (N),…,Sn(N),转换为长 度为f的功率谱特征序列^7),^(7),…,^7),井分别计算转换前后的查询上界序列和查询下界序列;其中,f = q-1 ;^.(/),1 ^ j ^ n,表示转换后第j个主机流量功率谱特征序列,该序列的第k个元素为ヽ'/[ん]=^~y(^,[4]--.V, [/.,.]),I < k < f,Sj[ik]表示转换前第
j个主机流量功率谱序列A(N)的第ik个元素,ik为特征点序号,I ^ ik ^ N ;计算功率谱序列S1 (N),S2 (N),…,Sn(N)的查询上界序列和查询下界序列,分别记为 U1 (N),U2 (N),…,Un(N)和 L1 (N),L2 (N),…,Ln(N),
U [/] = max S, [/ + r]I ri —哗P r パ 1</<H, \<i<N(2)
,/[,]=閃丨),A [ノ+ r]其中,—ララ/ル+ 〃]表示以S1W为中心,以弯曲率P为半径的第I个主机流量功
率谱的最大值表示以sji]为中心,以弯曲率p为半径的第I个主机流量功率谱的最小值;计算长度为f的功率谱特征序列R7), SjJ),…,07)的查询上界序列uJjl…,瓦17)和查询下界序列^7),LjJl…,■,
硕= ^T7T(咖+ "/[‘])I_ lM~h + i,\<]<n , \<i< f( 3 )
ハWブル小i-ハ[へ:1]) ③计算主机对功率谱特征序列的优化DTW距离由于直接计算主机对功率谱特征序列的DTW距离,计算量很大,为了减小计算的复杂度,本发明对主机对功率谱特征序列DTW距离的计算进行了优化首先,计算主机对功率谱特征序列DTW距离的下界0 —^(7)),1^ i
<j n
权利要求
1.一种基于主机流量功率谱相似性度量的僵尸网络检测方法,其特征在于 该方法的具体实现步骤为 步骤一、网络出口流量数据采集 基于libpcap/winpcap工具软件在企业网的出ロ处采集所有的网络流量,作为检测的原始数据,井根据不同的内网主机对采集到的网络流量进行分类,最后将流量数据存入数据中心; 步骤ニ、对流量数据进行预处理后,计算网络主机在固定时间长度内的通讯量,并进行归ー化处理,得到网络主机的通讯量函数,即网络主机流量函数,记为X (t),t = 1,2,…,N,其中,N为观测的时间步长,在时间间距为L吋,网络主机流量的自相关函数定义为 Rx (L) = E [X (t) X (t+L)] 其中,Eレ]表示取数学期望; 步骤三、通过离散傅里叶变换得到各主机流量功率谱序列 通过对主机流量的自相关函数取离散傅里叶变换来获得主机流量功率谱序列,表示为 W(Rx(L),k) = XiI01K{L)e-J2MN) , k = l,2,-,N-l(I) 步骤四、主机对流量功率谱的相似性度量 提取步骤三中主机流量功率谱序列的特征点,得到特征点的数目q,并记录特征点的序号is ;将长度为N的主机流量功率谱序列转换为长度为f的功率谱特征序列,并分别计算转换前后序列的查询上届和查询下界;计算主机对功率谱特征序列的优化DTW距离,若距离值小于设定的阈值,则将主机对加入主机对集合Asb,以备下ー步的检测; 所述的长度为N的主机流量功率谱序列是指主机流量功率谱序列包含N个元素; 步骤五、时空关联分析 首先利用空间关联分析法分析主机对处于每种状态的可信度,即通过基本概率赋值函数bpa( )将主机对的优化DTW距离转换为主机对所处状态的可信度;再利用时间关联分析法对主机对中存在僵尸主机的可信度进行修正,得到更精确的检测結果;最后判断待检测网络是否为僵尸网络; 所述的主机对所处状态包括主机对处于非工作状态、主机对中存在僵尸主机、主机对中不存在僵尸主机和不能确定主机对中是否存在僵尸主机; (I)空间关联分析 采用D-S证据理论实现空间关联分析,设辨识框架t/ = (C,iC)表示主机所处状态的集合,其中C表示主机是僵尸主机;iC表示主机不是僵尸主机;则主机对所处状态的集合,即辨识框架U的幂集合2U为2P={0,{c}, hr}, {C,コC}} 其中,0表示主机对处于非工作状态表示主机对所处的状态无法判断,即主机对中可能存在僵尸主机,也可能不存在僵尸主机; 幂集合2U中各元素的基本概率赋值函数bpa(2u)定义为
2.根据权利要求I所述的ー种基于主机流量功率谱相似性度量的僵尸网络检测方法,其特征在于 所述的数据流量是指在对僵尸网络检测过程中主要关注的两大类流量,一类是僵尸网络的通信流量,包括IRC流量、HTTP流量和P2P流量;另一类是僵尸主机的攻击流量,包括扫描流量、DDoS攻击流量、电子邮件流量; 步骤ニ中采用黑名单和白名单技术对数据流量进行预处理的具体步骤为 (1)将上述两大类网络流量加入黑名单; (2)采用白名单技术将明显不是检测所关注的流量从黑名单中剔除,本发明针对不同的网络流量设置了不同的白名单 IRC流量因IRC流量在现实环境中较少出现,出现就极有可能是僵尸网络,所以没有设置白名単; HTTP流量将典型门户网站、搜索引擎、论坛和电子商务网站的HTTP流量都设置成白名单; P2P流量利用网络流,包括源IP、目的IP、源端ロ、目的端口和协议号的特征进行过滤,如果在时间间距L内,网络流流量除以P2P连接时间的值大于设定的阈值,则将该网络流列入白名单; 扫描流量借助其他的检测工具检测扫描流量是否要列为白名单; DDoS攻击流量现实中出现的有效DDoS攻击绝大部分采用SYN攻击方式,所以在数据采集过程中采用黑名单技术,采集所有的SYN请求流量; 电子邮件流量如果出现了大于IM的附件,则将该电子邮件流量列入白名单; 所述的典型门户网站包括Sohu、Sina、ifeng、163、QQ、中华网、土豆网和Yahoo ;搜索引擎包括google和baidu ;论坛包括CSDN、mop、tianya、人人网和开心网;电子商务网站包括淘宝、京东、各大团购网、当当网和亚马逊。
3.根据权利要求I所述的ー种基于主机流量功率谱相似性度量的僵尸网络检测方法,其特征在于 本发明采用主机对流量功率谱的优化DTW距离对主机对流量的相似性进行度量,具体实现步骤为 ①提取主机流量功率谱序列的特征点 定义主机流量功率谱序列的特征点为功率谱序列的起点、終点和横坐标间的距离大于阈值A的极值点; 特征点的序号记为is,I≤s≤q ;is = a表示功率谱序列中的第a个元素是该序列的特征点,根据特征点的定义易知れ=1,iq = N ;q表示功率谱序列的特征点数目;②将长度为N的n个主机流量功率谱序列,记为S1(N),S2 (N),…,Sn(N),转换为长度为f的功率谱特征序列
全文摘要
本发明公开了一种基于主机流量功率谱相似性度量的僵尸网络检测方法,属于网络通信安全领域。对采集到的网络出口流量数据进行预处理后,利用自相关函数对其进行描述,自相关函数取离散傅里叶变换得到各主机流量功率谱序列,计算主机对功率谱序列的优化DTW距离,将优化DTW距离小于阈值的主机对放入主机对集合,最后利用时空关联算法计算主机对集合中的各主机对所处状态的可信度,根据该值的大小判断被检测网络中是否存在僵尸网络,实现僵尸网络的检测。采用优化DTW距离描述主机对流量功率谱的相似性,避免了僵尸主机个体差异给检测效果带来的影响;时空关联法分析主机对所处状态的可信度,充分利用了主机流量在时间和空间上的相关性,提高检测效果。
文档编号H04L29/06GK102801719SQ201210279978
公开日2012年11月28日 申请日期2012年8月8日 优先权日2012年8月8日
发明者邹鹏, 郑黎明, 李润恒, 贾焰, 王宇, 韩伟杰 申请人:中国人民解放军装备学院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1