一种实现恶意域名识别的方法及装置的制造方法_2

文档序号:9306673阅读:来源:国知局
一 致率为:权威服务器的主域域名的最高频度与权威服务器的主域域名总频度的比率。
[0058] 进一步地,该装置还包括动态识别模型单元,包括过滤模块和动态识别建模模块; 其中,
[0059] 过滤模块,用于对动态特征集合进行动态特征的恶意域名高可信判断之前,根据 预先设置的静态特征过滤黑名单;
[0060] 动态识别建模模块,用于将白名单与过滤模块中过滤后的黑名单通过支持向量机 SVM建立动态特征的恶意域名可信判断模型。
[0061] 进一步地,过滤模块具体用于,预先设置静态特征数字比例小于0. 5、和/或数字 和字母切换比例大于〇. 3、和/或域名长度大于10对黑名单进行过滤。
[0062] 进一步地,动态特征集合还包括:IP-致度、和/或IP变化次数、和/或查询失败 的频度、和/或生存时间最小值TTL_MIN、和/或生存时间最大值TTL_MAX、和/或生存时间 平均值TTL_AVG、和/或生存时间标准差TTL_STD、和/或别名个数。
[0063] 进一步地,该装置还包括解析单元、静态判断单元;其中,
[0064] 解析单元,用于解析防护目标网络的DNS域名,对解析的DNS域名进行黑名单和白 名单过滤;
[0065] 判断结果单元,还用于对解析单元的黑名单和白名单过滤结果为命中黑名单和白 名单时,将确定的结果存到相应的黑名单、或白名单中;根据静态特征集合的恶意域名高可 信判断结果,确定DNS域名是否为恶意域名,并将确定的是否为恶意域名的结果存到相应 的黑名单、或白名单中;
[0066] 静态判断单元,用于当解析单元发往判断结果单元的DNS域名过滤后未命中黑名 单和白名单时,提取DNS域名的静态特征集合,进行静态特征集合的恶意域名高可信判断; 当静态特征集合的恶意域名高可信判断为低时,将所述DNS域名发往动态判断单元。
[0067] 进一步地,静态特征集合至少包含域名长度、和/或数字比例、和/或数字和字母 切换比例、和/或站点名和主域名长度比例、和/或连接符的数量、和/或最大词长度、和/ 或国家顶级域名的类型、和/或国际顶级域名的类型、和/或二级国际顶级域名的类型。 [0068] 进一步地,该装置还包括静态识别模型单元,用于在进行静态特征集合的恶意域 名高可信判断之前,将白名单与黑名单通过支持向量机SVM建立静态特征集合的恶意域名 可信判断模。型。
[0069] 进一步地,判断结果单元包括白名单模块和黑名单模块;其中,
[0070] 白名单模块,用于取Alexa列表中排名靠前的域名作为白名单;
[0071] 黑名单模块,用于从挂马举报平台通过爬虫获取被挂过木马的域名;或利用公开 的垃圾邮件数据库,提取其中的域名;
[0072] Alexa列表包括:从top.chinaz.com、或www.alexa.cn网站通过爬虫获取的列表。
[0073] 进一步地,白名单模块具体用于,取Alexa列表中排名靠前2000的域名作为白名 单。
[0074] 本申请技术方案包括:提取域名系统(DNS)域名的动态特征集合,通过动态特征 的恶意域名可信判断模型对动态特征集合进行动态特征的恶意域名高可信判断;根据动态 特征集合的恶意域名高可信判断结果,确定DNS域名是否为恶意域名,并将是否为恶意域 名确定的结果存到相应的黑名单、或白名单中;动态特征集合至少包含:与IP相关的特征、 和/或权威DNS服务器主域名一致率。本申请的技术方案实现了根据动态特征集合进行恶 意域名确定;通过静态特征高可信判断和动态特征高可信判断,提高了恶意域名的识别效 率。
【附图说明】
[0075] 此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发 明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0076] 图1为本发明实现恶意域名识别的方法的流程图;
[0077] 图2为本发明实现恶意域名识别的装置的结构框图。
【具体实施方式】
[0078] 图1为本发明实现恶意域名识别的方法的流程图,如图1所示,包括:
[0079] 步骤100、提取域名系统(DNS)域名的动态特征集合,通过动态特征的恶意域名可 信判断模型对动态特征集合进行动态特征的恶意域名高可信判断。
[0080] 这里,动态特征集合至少包含:与IP相关的特征、和/或权威DNS服务器主域名一 致率。
[0081] 需要说明的是,恶意域名的高可信判断通过现有技术的SVM进行判断,
[0082] 对于一个域名,其特征为一向量(或称数组),如[1:0. 1,2:0.4,3:0. 1,"^8:0.9], 将其作为支持向量机(SVM)的输入,其输出[MaliProbability:0. 3,NormProbabilit y: 0. 7],此时根据SVM对高可信设置的概率,一般确定该域名被判断为'正常'域名,同时加 入白名单;若返回[MaliProbability:0. 97,NormProbability:0. 03],则一般可判定该域 名为'恶意域名',同时加入黑名单。
[0083] 判断过程高可信的定义根据本领域技术人员根据实际情况设定。可以按照应用环 境、安全要求等进行设定。
[0084] 本步骤中,与IP相关的特征至少包含:IP信息熵、和/或IP国家分布变化次数。
[0085] 进一步地,与IP相关的特征包含有IP信息熵时,IP信息熵为:
DNS恶意域名确定的结果的次数,I?I算子表示集合的基,即元素个数;
[0088] 均允收P(/匕)=[尤.圮.圮]为算子从IP中以""分割,提取4个字节;
[0089] 其中,/^f为第i次DNS请求的返回的第k个IP,IPSet为返回的IP的集合,用公 式表示为:IPSet=UPlil,IPli2,IP2il,…,IPN,k};
[0090] 这里,IP信息熵为:把DNS恶意域名确定的结果中的IP分为4个字节,形成一个 字节数组,以字节的频度为基础建立的评估返回IP的稳定性的熵;
[0091] 与IP相关的特征包含有IP国家分布变化次数时,所述IP国家分布变化次数为:
[0092] 查询DNS恶意域名确定的结果,并计算IP所属国家的比率,当相邻两次IP所属国 家的比率相同,则IP国家分布变化次数不变;否则,计数加1。
[0093] IP国家分布变化次数为:
[0097] CountryOfIP(IPiik)为算子,提取IPiik 所属国家;
[0098] 其中,Jif为第i次DNS请求的返回的第k个IP,IPSet为返回的IP的集合,用公 式表示为:IPSet= {IPia,IP1>2,IP2a,…,IPN,k};
[0099] 动态特征集合包含有权威DNS服务器主域名一致率时,权威DNS服务器主域名一 致率为:权威服务器的主域域名的最高频度与权威服务器的主域域名总频度的比率。这里 一个域名的所有权威服务器的主域域名是一致的,主域域名的数量远远小于权威服务器完 整域名(FQDN)的数量。
[0100] 步骤101、根据动态特征集合的恶意域名1?可"[目判断结果,确定DNS域名是否为恶 意域名,并将是否为恶意域名确定的结果存到相应的黑名单、或白名单中。
[0101] 对动态特征集合进行动态特征的恶意域名高可信判断之前,本发明方法还包括: 根据预先设置的静态特征过滤黑名单,将白名单与过滤后的黑名单通过支持向量机(SVM) 建立动态特征的恶意域名可信判断模型。
[0102] 需要说明的是IP信息熵和IP国家分布变化次数是本发明引入的新的动态特 征,以下以简要示例,对于IP信息熵作用进行说明,对于一个DNS域名A,它的IPSet为 [202. 168. 110. 34],IPSet为连续查询20次返回IP的集合(去重),而DNS域名B的IPSet 为[202. 168. 110. 34, 134. 156. 120. 134, 139. 128. 210. 24],可见A的IPSet实际有 4 个数 字且它们的出现频率都为〇. 25,而B的IPSet包含12个数字,频率都为为1/12,那么跟据 IP信息熵定义,前者的IP信息熵为2,而后者为3. 58,可见IPSet中属于不相同网段的IP 越多(属于同一网段的情况,会使IP信息熵下降,如202. 168. 110. 34与202. 168. 110. 35的 同时出现不会对IP信息熵产生过大影响,因为它们只有5个不同的数字),IP信息熵越大。 而这正好与恶意域名的特点吻合,对于恶意域名,每次返回的IP是经常变化的(且很少同 属一个网段),很少像DNS域名A那样,每次查询只返回一个IP。这个特征的信息,是黑、白 名单、静态特征所无法提供的。
[0103] IP国家分布变化次数,这个特征也类似,一个正常的域名,每次返回的结果集中 IP所属国的比例往往是固定的,比如:20%的IP为中国,80%为美国,但对于恶意域名,这一 比例很难保持稳定,比如:第一次20%的IP为中国,80%为美国,第二次返回的结果集就变 为30%的IP为中国,70%为美国。这种变化信息也是静态特征无法提供的。
[0104] 进一步地,根据预先设置的静态特征过滤黑名单包括:预先设置静态特征数字比 例小于0. 5、和/或数字和字母切换比例大于0. 3、和/或域名长度大于10对黑名单进行过 滤。
[0105] 需要说明的是,这里设置的比例大小是根据经验值获得,根据实际情况可以进行 一定的调整。对黑名单进行过滤的预先设置的条件,主要根据黑名单数据量进行确定,过滤 后的动态特征要满足SVM建立动态特征的恶意域名可信判断模型的要求。当黑名单数据量 足够多时,可以选择最多的预先设置的过滤条件进行黑名单过滤。否者,只选择部分甚至一 个条件进行过滤。
[0106] 动态特征集合还包括:IP-致度、和/或IP变化次数、和/或查询失败的频度、和 /或生存时间最小值(TTL_MIN)、和/或生存时间最大值(TTL_MAX)、和/或生存时间平均值 (TTL_AVG)、和/或生存时间标准差(TTL_STD)、和/或别名个数。
[0107] 这里,IP-致度为:IP去重总数*请求次数/IP不去重总数;一般的,正常的域名 应该为1. 0,而恶意域名往往大于1 ;
[0108] 沿用正常的域名应该为1. 0,而恶意域名往往大于1的假设,
[0110]
当前第2页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1