一种实现恶意域名识别的方法及装置的制造方法_3

文档序号:9306673阅读:来源:国知局
若IPiikIPi+1,k+1,只表不它们值相同,但仍为两个兀素。
[0111] IP变化次数为:
[0112] 统计每次DNS确定恶意域名的结果返回的一组IP集合发生变化的频度,若相邻两 次查询的返回结果(两个IP集合),完全相同,则视为无变化,否则计数加1。
[0113] 查询失败的频度为:当没有成功查询到域名时,DNS服务器会返回NxDomain状态, 该特征为此状态出现的次数。
[0114] TTL_MIN为:每一个DNS查询结果都附带一个TTL属性,告知缓存服务器建议在 TTL秒后更新该域名的缓存记录,最小TTL指N次查询返回结果中最小的TTL值。
[0115] TTL_MAX为:N次查询返回结果中最大的TTL值。
[0116] TTL_AVG为:N次查询返回结果中的TTL值的平均值。
[0117] TTL_STD为:N次查询返回结果中的TTL值的标准差。
[0118] 别名个数为:一个域名有时会设置别名,正常域名的别名应该是固定的,该特征是 N次查询返回结果中出现的别名个数。
[0119] 本发明方法之前还包括:对静态特征集合的恶意域名进行高可信判断和处理,具 体的包括:
[0120] 解析防护目标网络的DNS域名,对解析的DNS域名进行黑名单和白名单过滤;
[0121] 当黑名单和白名单过滤未命中时,提取DNS域名的静态特征集合,通过恶意域名 可信判断模型对静态特征集合进行恶意域名高可信判断;
[0122] 当根据静态特征集合进行恶意域名高可信判断的域名为高可信判断结果确定DNS 域名是否为恶意域名,并将确定是否为恶意域名的结果存到相应的黑名单、或白名单中;
[0123] 当根据静态特征集合进行恶意域名高可信判断的域名为低可信判断结果时,提取 DNS域名的动态特征集合,通过动态特征的恶意域名可信判断模型对动态特征集合进行动 态特征的恶意域名高可信判断。
[0124] 静态特征集合至少包含:域名长度、和/或数字比例、和/或数字和字母切换比例、 和/或站点名和主域名长度比例、和/或连接符的数量、和/或最大词长度、和/或国家顶 级域名的类型、和/或国际顶级域名的类型、和/或二级国际顶级域名的类型。
[0125] 这里,域名长度为:完整域名(FQDN)的总长度,如163.com的长度为11。
[0126] 数字比例为:DigitRatio=DigitNum/length,其中DigitRatio为FQDN中数字的数 量。
[0127] 数字与字母切换比例(DigitCharRatio)为:
[0128] 相邻两个字符称为一个"相邻字符对",若一个相邻字符对中只存在一个数字,则 为一个"数字与字母切换",该特征为数字与字母切换总数与相邻字符对总数的比例。
[0129] 站点名与主域名长度比例为:SiteRatio=SiteLength/MainDomainLength
[0130] 其中SiteLength为FQDN中站点名称的长度,MainDomainLength为主域名的长度。 如:www. 163.com的站点名称为www,SiteLength,主域名为 163,MainDomainLength。
[0131] 连接符的数量(ConnectCharNum)为:FQDN中连接符的个数。
[0132] 最大词长度(MaxWordLength)为:以小数点"为分隔符,将FQDN分割为多个字 符串,其中最长的字符串的长度。
[0133] 国家顶级域名的类型(CountryCode)为:如"cn","jp"等域名中代表国家的域名 后缀。
[0134] 国际顶级域名的类型(InterCode),如"com","net"等。
[0135] 二级国际顶级域名的类型(Inter2Code),如"edu","gov"等。
[0136] 在现有方法与产品中,恶意域名识别仅采用基于静态特征的恶意域名识别方法和 基于动态特征的恶意域名识别方法,没有将动态特征与静态特征进行有机的结合,并且,现 有的动态特征的恶意域名识别方法仍然缺乏强关联度的动态特征;本发明既是针对上述问 题,一方面提出黑白名单过滤,静态特征恶意代码识别和动态特征恶意代码识别相结合的 三层结构、通过实时的黑白名单,对建立静态特征的恶意域名可信判断模型的黑名单根据 预先设置的静态特征过滤;在动态特征的恶意域名可信判断模型时引入了IP信息熵等关 联性较强的动态特征,使恶意域名的识别效率得到提高,同时基于三层结构的黑白名单实 时恶意域名识别结果自动更新,其恶意域名的识别效果较现有的恶意域名识别方法有所提 升。
[0137] 在进行静态特征集合的恶意域名高可信判断之前,本发明方法还包括:将白名单 与黑名单通过支持向量机SVM建立静态特征集合的恶意域名可信判断模型。
[0138] 白名单包括:取Alexa列表中排名靠前的域名作为白名单;这里,取Alexa列表中 排名靠前的域名包括:取Alexa列表中排名靠前2000的域名。
[0139] Alexa列表包括:从top.chinaz.com、或www.alexa.cn网站通过爬虫获取的列表。
[0140] 黑名单包括:从挂马举报平台通过爬虫获取被挂过木马的域名;或利用公开的垃 圾邮件数据库,提取其中的域名。
[0141] 图2为本发明实现恶意域名识别的装置的结构框图,如图2所示,包括:动态判断 单元和判断结果单元;其中,
[0142] 动态判断单元,用于提取DNS域名的动态特征集合,通过动态特征的恶意域名可 信判断模型对动态特征集合进行动态特征的恶意域名高可信判断。
[0143] 动态特征集合至少包含:与IP相关的特征、和/或权威DNS服务器主域名一致率。
[0144] 与IP相关的特征至少包含:IP信息熵、和/或IP国家分布变化次数。
[0145] 与IP相关的特征包含有IP信息熵时,IP信息熵为:
DNS恶意域名确定的结果的次数,I?算子表示集合的基,即元素个数;
[0148] 办MC仲,(//; ,;) =[尤,圮.尤尤
[0149] 与IP相关的特征包含有IP国家分布变化次数时,所述IP国家分布变化次数为:
[0150] 查询DNS恶意域名确定的结果,并计算IP所属国家的比率,当相邻两次IP所属国 家的比率相同,则IP国家分布变化次数不变;否则,计数加1 ;
[0151] 其中,/if为第i次DNS请求的返回的第k个IP,IPSet为返回的IP的集合,用公 式表示为:IPSet=UPlil,IPli2,IP2il,…,IPN,k};
[0152] IP国家分布变化次数为:
[0153] IPCo丽巧说油'〇.=IVe'e:Co?仍句/}
[0154] 其中R(c)为国家c的占比,
[0156] CountryOfIP(IPiik)为算子,提取IPiik 所属国家;
[0157] 其中,i?f为第i次DNS请求的返回的第k个IP,IPSet为返回的IP的集合,用公 式表示为:IPSet=UPlil,IPli2,IP2il,…,IPN,k};
[0158] 动态特征集合包含有权威DNS服务器主域名一致率时,权威DNS服务器主域名一 致率为:权威服务器的主域域名的最高频度与权威服务器的主域域名总频度的比率。
[0159] 判断结果单元,用于根据动态特征集合的恶意域名高可信判断结果,确定DNS域 名是否为恶意域名,并将是否为恶意域名确定的结果存到相应的黑名单、或白名单中。
[0160] 判断结果单元包括白名单模块和黑名单模块;其中,
[0161] 白名单模块,用于取Alexa列表中排名靠前的域名作为白名单;
[0162] 黑名单模块,用于从挂马举报平台通过爬虫获取被挂过木马的域名;或利用公开 的垃圾邮件数据库,提取其中的域名;
[0163] Alexa列表包括:从top.chinaz.com、或www.alexa.cn网站通过爬虫获取的列表。
[0164] 白名单模块具体用于,取Alexa列表中排名靠前2000的域名作为白名单。
[0165] 本发明装置还包括动态识别模型单元,包括过滤模块和动态识别建模模块;其中,
[0166] 过滤模块,用于对动态特征集合进行动态特征的恶意域名高可信判断之前,根据 预先设置的静态特征过滤黑名单;
[0167] 动态识别建模模块,用于将白名单与过滤模块中过滤后的黑名单通过支持向量机 (SVM)建立动态特征的恶意域名可信判断模型。
[0168] 过滤模块具体用于,预先设置静态特征数字比例小于0. 5、和/或数字和字母切换 比例大于0. 3、和/或域名长度大于10对黑名单进行过滤。
[0169] 动态特征集合还包括:IP-致度、和/或IP变化次数、和/或查询失败的频度、和 /或生存时间最小值(TTL_MIN)、和/或生存时间最大值(TTL_MAX)、和/或生存时间平均值 (TTL_AVG)、和/或生存时间标准差(TTL_STD)、和/或别名个数。
[0170] 本发明装置还包括解析单元、静态判断单元;其中,
[0171] 解析单元,用于解析防护目标网络的DNS域名,对解析的DNS域名进行黑名单和白 名单过滤;
[0172] 判断结果单元,还用于对解析单元的黑名单和白名单过滤结果为命中黑名单和白 名单时,将确定的结果存到相应的黑名单、或白名单中;根据静态特征集合的恶意域名高可 信判断结果,确定DNS域名是否为恶意域名,并将确定的是否为恶意域名的结果存到相应 的黑名单、或白名单中;
[0173] 静态判断单元,用于当解析单元发往判断结果单元的DNS域名过滤后未命中黑名 单和白名单时,提取DNS域名的静态特征集合,进行静态特征集合的恶意域名高可信判断; 当静态特征集合的恶意域名高可信判断为低时,将所述DNS域名发往动态判断单元。
[0174] 静态特征集合至少包含:域名长度、和/或数字比例、和/或数字和字母切换比例、 和/或站点名和主域名长度比例、和/或连接符的数量、和/或最大词长度、和/或国家顶 级域名的类型、和/或国际顶级域名的类型、和/或二级国际顶级域名的类型。
[0175] 本发明装置还包括动态识别模型单元,用于在进行静态特征集合的恶意域名高可 信判断之前,将白名单与黑
当前第3页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1