Dns流量异常的检测方法和系统的制作方法

文档序号：7865577阅读：1556来源：国知局

专利名称：Dns流量异常的检测方法和系统的制作方法
技术领域：
本发明属于计算机网络领域，涉及DNS流量检测系统，具体涉及一种DNS流量异常的检测方法和系统。
背景技术：
域名系统(Domain Name System,DNS)是连接整个互联网应用层和网络层的纽带，是当今互联网系统的神经中枢，其主要功能是实现了 IP地址到域名之间的转换，用来精确定位和标识互联网上的浩瀚资源，是很多重要网络应用(网页浏览、电子邮件等)正常运转的基石。
尽管DNS为广大互联网用户提供了各种基础服务，但很遗憾的是，DNS仍经常遭受到破坏者的恶意攻击，比较常见的有DNS缓存中毒、DNS重定向、DNS信息劫持、DNS放大攻击、DNS的DDOS攻击等。DNS的安全形势越来越严峻，保护DNS的安全稳定不容懈怠，特别是能够主动地检测出DNS流量的异常，对于巩固DNS安全防线意义重大。在检测DNS流量时，通常需要扫描DNS查询日志。DNS查询日志蕴含着丰富的有用信息，记录了用户查询行为的绝大部分信息，是DNS系统中最宝贵的资源之一。算法检测的数据来源，是CN国家顶级域名权威服务器上记录的DNS查询日志，其产生的日志记录每一行代表一次查询行为，形如19~May-2009 1 9:5 2:4 8. 1 0 3 queries :1nfo: client189.25.96.41#1044:query:ns. xinnet. cn IN A +其中，“19-1\^^-200919:52:48·103” 为查询请求的到达时间:“189. 25. 96. 41” 为用户的源IP地址为用户的源端口 :“ns. xinnet. cn”为用户请求杳询的域名;“m”为资源类别(class),表示Internet,是最常见的一种；“A”为资源记录类型(type),表示请求查询该域名的IPV4地址；“ + ”表示递归查询。可以看出，每条日志中有用的信息是时间、源IP地址、源端口、查询域名、资源类另IJ、资源记录类型、递归标识。在数据的预处理过程中，我们就把这些信息提取出来。在一些常见的DNS流量攻击中，经常出现很多伪造的查询域名，S卩随机字符串+固定域名后缀，而且在域名系统中，形如“ns. xinnet. cn”和“ns2. xinnet. cn”的域名是属于同一个子域“xinnet. cn”的，也是位于同一个区数据文件中的。所以，我们有必要对查询域名进行归约处理，根据CN域名的命名规则，将日志记录中出现的所有CN域名都归约为CN域下的二级域名，或者CN域下的43种按机构性质、行政区域申请的三级域名。比如www.sina. com. cn、news. sina. com. cn、sports, sina. com. cn 等,者夺被归约为 sina. com. cn 的查询。现有技术一般是基于Kmeans算法原理对DNS流量进行异常检测。Kmeans算法是一种基于划分的聚类分析方法，被广泛应用于各种流量检测中，其核心思想是将η个向量(对象)的集合划分为k个类簇，使得同一类簇内的向量相似度高，不同类簇之间的向量相似度低。
设待分类的向量集合为(X1, x2, x3,…，xn}，dis(x, c)表示向量X与向量c的欧氏距离，向量X表示待分类的向量，向量c表示聚类中心向量,m表示向量的特征个数。该算法的基本流程如下①选定y个向量作为初始聚类中心{c1，c2，···，(/}。其中，y=l，2，"'kk为类簇值。②将待分类的向量逐个计算与每个聚类中心的距离，按最小距离原则把每个向量
划分到某一类中，这里是计算向量间的欧氏距离
权利要求
1.一种DNS流量异常的检测方法，其步骤包括(1)对原始的DNS流量数据进行预处理，提取特征数据源作为待分类的向量；(2)结合DNS流量的相关特征，对上述向量的每个特征赋予不同的权重；(3)利用W-Kmeans算法对赋予权重后的向量进行检测分析；所述W-Kmeans算法,是采用下式计算欧氏距离dis (x, cy)其中，向量X表示待分类的向量，cy表示聚类中心向量，m表示向量的特征个数，Wi表示向量第i特征的权重，Xi表示的是向量X的第i特征值，4表示的是cy的第i个特征取值，k为类簇值；(4)根据检测分析结果，与欧氏距离阈值Dtostold比对，当所述向量与正常类中心向量的距离大于阈值Dthreshtjld时，判定该DNS流量异常。
2.如权利要求1所述的方法，其特征在于，所述特征包括查询速率、源IP地址的分布空间、源IP地址的熵值、查询域名的分布空间、域名查询的最大次数、查询域名的熵值和递归查询的比例。
3.如权利要求1所述的方法，其特征在于，所述聚类中心向量分为正常类中心向量和异常类中心向量两种，k = 2。
4.如权利要求1所述的方法，其特征在于，所述步骤(I)依照单位时间粒度提取特征数据源作为待分类的向量。
5.如权利要求4所述的方法，其特征在于，所述单位时间粒度为10s。
6.如权利要求1所述的方法，其特征在于，所述步骤(2)使不同特征值相减后的差值数量级控制在10倍以内。
7.如权利要求1所述的方法，其特征在于，其步骤还包括(5)将分类结果存入知识库中。
8.一种DNS流量异常的检测系统，其特征在于，包括一数据预处理模块，对原始的DNS流量数据进行预处理；一数据提取模块，从数据预处理模块中提取预处理过的DNS流量数据的特征向量；一检测分析模块，将上述特征向量作为待分类向量，对每个特征赋予权重，利用 W-Kmeans算法进行检测分析，根据聚类中心值分析聚类结果。
9.如权利要求8所述的检测系统，其特征在于，所述数据提取模块依照单位时间粒度提取预处理过的DNS流量数据的特征向量。
10.如权利要求8所述的检测系统，其特征在于，还包括一模型应用模块和一知识库，所述模型应用模块将所述聚类中心值保存为数据文本文件，并将聚类结果纳入知识库中。
全文摘要
本发明提供一种DNS流量异常的检测方法和系统，对待处理的DNS流量数据提取相应的特征值，并对每个特征赋予不同的权重，通过W-Kmeans算法和增设的欧氏距离阈值Dthreshold检测在训练集中标记过的异常类簇，并可以发现新的未知特征的异常。本发明的算法收敛速度快，运算量小，新的待检测样本只需与处理好的训练聚类中心进行比较，无需与大量的原始训练数据进行计算部署成本低，并具有较强的泛化能力，特别适合部署在大型DNS服务器上，能够快速有效地发现DNS流量的异常。
文档编号H04L29/12GK103001825SQ20121046176
公开日2013年3月27日申请日期2012年11月15日优先权日2012年11月15日
发明者李晓东, 金键, 林成虎, 尉迟学彪申请人:中国科学院计算机网络信息中心

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李晓东;金键;林成虎;尉迟学彪
技术所有人：中国科学院计算机网络信息中心
我是此专利的发明人

上一篇：针对双重jpeg压缩图像的篡改检测及篡改定位方法
上一篇：一种基于双目恰可觉察失真的立体图像半脆弱水印方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。