Dns流量异常的检测方法和系统的制作方法

文档序号:7865577阅读:1556来源:国知局
专利名称:Dns流量异常的检测方法和系统的制作方法
技术领域
本发明属于计算机网络领域,涉及DNS流量检测系统,具体涉及一种DNS流量异常的检测方法和系统。
背景技术
域名系统(Domain Name System,DNS)是连接整个互联网应用层和网络层的纽带,是当今互联网系统的神经中枢,其主要功能是实现了 IP地址到域名之间的转换,用来精确定位和标识互联网上的浩瀚资源,是很多重要网络应用(网页浏览、电子邮件等)正常运转的基石。
尽管DNS为广大互联网用户提供了各种基础服务,但很遗憾的是,DNS仍经常遭受到破坏者的恶意攻击,比较常见的有DNS缓存中毒、DNS重定向、DNS信息劫持、DNS放大攻击、DNS的DDOS攻击等。DNS的安全形势越来越严峻,保护DNS的安全稳定不容懈怠,特别是能够主动地检测出DNS流量的异常,对于巩固DNS安全防线意义重大。在检测DNS流量时,通常需要扫描DNS查询日志。DNS查询日志蕴含着丰富的有用信息,记录了用户查询行为的绝大部分信息,是DNS系统中最宝贵的资源之一。算法检测的数据来源,是CN国家顶级域名权威服务器上记录的DNS查询日志,其产生的日志记录每一行代表一次查询行为,形如19~May-2009 1 9:5 2:4 8. 1 0 3 queries :1nfo: client189.25.96.41#1044:query:ns. xinnet. cn IN A +其中,“19-1\^^-200919:52:48·103” 为查询请求的到达时间:“189. 25. 96. 41” 为用户的源IP地址为用户的源端口 :“ns. xinnet. cn”为用户请求杳询的域名;“m”为资源类别(class),表示Internet,是最常见的一种;“A”为资源记录类型(type),表示请求查询该域名的IPV4地址;“ + ”表示递归查询。可以看出,每条日志中有用的信息是时间、源IP地址、源端口、查询域名、资源类另IJ、资源记录类型、递归标识。在数据的预处理过程中,我们就把这些信息提取出来。在一些常见的DNS流量攻击中,经常出现很多伪造的查询域名,S卩随机字符串+固定域名后缀,而且在域名系统中,形如“ns. xinnet. cn”和“ns2. xinnet. cn”的域名是属于同一个子域“xinnet. cn”的,也是位于同一个区数据文件中的。所以,我们有必要对查询域名进行归约处理,根据CN域名的命名规则,将日志记录中出现的所有CN域名都归约为CN域下的二级域名,或者CN域下的43种按机构性质、行政区域申请的三级域名。比如www.sina. com. cn、news. sina. com. cn、sports, sina. com. cn 等,者夺被归约为 sina. com. cn 的查询。现有技术一般是基于Kmeans算法原理对DNS流量进行异常检测。Kmeans算法是一种基于划分的聚类分析方法,被广泛应用于各种流量检测中,其核心思想是将η个向量(对象)的集合划分为k个类簇,使得同一类簇内的向量相似度高,不同类簇之间的向量相似度低。
设待分类的向量集合为(X1, x2, x3,…,xn},dis(x, c)表示向量X与向量c的欧氏距离,向量X表示待分类的向量,向量c表示聚类中心向量,m表示向量的特征个数。该算法的基本流程如下①选定y个向量作为初始聚类中心{c1,c2,···,(/}。其中,y=l,2,"'kk为类簇值。②将待分类的向量逐个计算与每个聚类中心的距离,按最小距离原则把每个向量
划分到某一类中,这里是计算向量间的欧氏距离
权利要求
1.一种DNS流量异常的检测方法,其步骤包括(1)对原始的DNS流量数据进行预处理,提取特征数据源作为待分类的向量;(2)结合DNS流量的相关特征,对上述向量的每个特征赋予不同的权重;(3)利用W-Kmeans算法对赋予权重后的向量进行检测分析;所述W-Kmeans算法,是采用下式计算欧氏距离dis (x, cy)其中,向量X表示待分类的向量,cy表示聚类中心向量,m表示向量的特征个数,Wi表示向量第i特征的权重,Xi表示的是向量X的第i特征值,4表示的是cy的第i个特征取值,k为类簇值;(4)根据检测分析结果,与欧氏距离阈值Dtostold比对,当所述向量与正常类中心向量的距离大于阈值Dthreshtjld时,判定该DNS流量异常。
2.如权利要求1所述的方法,其特征在于,所述特征包括查询速率、源IP地址的分布空间、源IP地址的熵值、查询域名的分布空间、域名查询的最大次数、查询域名的熵值和递归查询的比例。
3.如权利要求1所述的方法,其特征在于,所述聚类中心向量分为正常类中心向量和异常类中心向量两种,k = 2。
4.如权利要求1所述的方法,其特征在于,所述步骤(I)依照单位时间粒度提取特征数据源作为待分类的向量。
5.如权利要求4所述的方法,其特征在于,所述单位时间粒度为10s。
6.如权利要求1所述的方法,其特征在于,所述步骤(2)使不同特征值相减后的差值数量级控制在10倍以内。
7.如权利要求1所述的方法,其特征在于,其步骤还包括(5)将分类结果存入知识库中。
8.一种DNS流量异常的检测系统,其特征在于,包括一数据预处理模块,对原始的DNS流量数据进行预处理;一数据提取模块,从数据预处理模块中提取预处理过的DNS流量数据的特征向量;一检测分析模块,将上述特征向量作为待分类向量,对每个特征赋予权重,利用 W-Kmeans算法进行检测分析,根据聚类中心值分析聚类结果。
9.如权利要求8所述的检测系统,其特征在于,所述数据提取模块依照单位时间粒度提取预处理过的DNS流量数据的特征向量。
10.如权利要求8所述的检测系统,其特征在于,还包括一模型应用模块和一知识库, 所述模型应用模块将所述聚类中心值保存为数据文本文件,并将聚类结果纳入知识库中。
全文摘要
本发明提供一种DNS流量异常的检测方法和系统,对待处理的DNS流量数据提取相应的特征值,并对每个特征赋予不同的权重,通过W-Kmeans算法和增设的欧氏距离阈值Dthreshold检测在训练集中标记过的异常类簇,并可以发现新的未知特征的异常。本发明的算法收敛速度快,运算量小,新的待检测样本只需与处理好的训练聚类中心进行比较,无需与大量的原始训练数据进行计算部署成本低,并具有较强的泛化能力,特别适合部署在大型DNS服务器上,能够快速有效地发现DNS流量的异常。
文档编号H04L29/12GK103001825SQ20121046176
公开日2013年3月27日 申请日期2012年11月15日 优先权日2012年11月15日
发明者李晓东, 金键, 林成虎, 尉迟学彪 申请人:中国科学院计算机网络信息中心
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1