临时性域名识别方法和系统的制作方法_2

文档序号:9670925阅读:来源:国知局
[0052]举个简单的例子,如果某段时间内从域名查询数据库中观察到的域名查询请求序列如下:
[0053]aa.example, cn
[0054]a.example, com
[0055]aa.example, cn
[0056]ab.bb.example, cn
[0057]cd.bb.example, cn
[0058]那么域名查询树构建模块所构建的域名查询树则如图2所示。
[0059]域名特征抽取模块,负责对域名查询树中的所有子节点(叶子结点除外)进行特征抽取。根据临时性域名相比非临时性域名所表现出来的特性,特征抽取规则包括但不限于:
[0060]1)该子节点下的分支子节点数量;临时性域对应的子节点下的分支子节点数量通常相对会较多。
[0061 ] 2)该子节点下的各个分支子节点出现频率的中值;临时性域对应的子节点下的分支子节点出现的频率相对会较低。
[0062]3)该子节点下的各个分支子节点对应的域字段的熵的均值;临时性域对应的子节点下的分支子节点对应的域字段的熵的均值相对会较大。
[0063]4)该子节点下的各个分支子节点对应的域字段的熵的方差;临时性域对应的子节点下的分支子节点对应的域字段的熵的方差相对会较大。
[0064]以前述域名查询请求序列中example, cn域所对应的子节点为例,该域的4个特征分别为:
[0065]分支子节点数量'2
[0066]各分支子节点对应域字段出现频率中值'2
[0067]各分支子节点对应域字段熵均值:0
[0068]各分支子节点对应域字段熵方差:0
[0069]另以前述域名查询请求序列中bb.example, cn域所对应的子节点为例,该域的4个特征分别为:
[0070]分支子节点数量:4
[0071]各分支子节点对应域字段出现频率中值:1
[0072]各分支子节点对应域字段熵均值:1
[0073]各分支子节点对应域字段熵方差:0
[0074]由上述可知,临时性域名中域字段对应的子节点的域名特征具有较大的差异性,域名特征抽取完毕后,由域名聚类模块负责根据上述域名特征对域名查询树中的所有子节点进行聚类。就可以将临时性域划分在独立的子集中。且由于在海量的域名中临时性域名的数量要远少于非临时性域名,所以这些独立的子集中,临时性域绝大多数都包含在子域数量较少的子集。其中,所使用的聚类算法可以是K-MEANS、K-MEDOIDS等常用聚类算法。
[0075]聚类完毕后,域名查询树中的所有域将被划分成K个独立子集。子集包含子节点对应的域字段及子节点的域名特征。针对每个子集,首先根据一个阀值进行筛选,从所述多个子集中筛选包含子节点数量小于该阀值的子集,作为疑似临时域子集。一般取阀值为50,该阀值获取的依据是,通过计算多个子集中包含的已知临时域与该子集包含所有子域的数量比值,该比值大于二十分之一的子集中包含的子域数量一般在50以下。
[0076]针对这些疑似临时域子集,若其中包含某个或某些已知的临时域,则依次输出其中的每个域下的全部子结点所对应的域名,即为本系统所产出的疑似临时性域名列表。
[0077]下面以一实施例进行说明,对某大型公共递归服务器日志进行分析(每天5.5亿次查询,去重后包含了 3100多万个域名),通过前述方法及系统获取所有子节点的域名特征,并采用k-means算法进行聚类,选取k = 12,能成功将常见临时域名分类在小集合内。如图3所示,聚类后的子集列表中[1]行中有九个子集,[10]中有3个子集,其中各子集用其包含的子域的个数表示,可以看到,其中7个子集中包含的子域个数小于50。
[0078]对[1]行第一个子集进行分析,如图4为该子集的内容片段,常见临时域名(如avqs.mcafee.com、cdntip.com等均包含在该子集内。
【主权项】
1.一种临时性域名识别方法,基于一域名查询数据库,包括以下步骤: 读取域名查询数据库,根据域名查询数据库中的域名查询请求信息构建一域名查询树;该域名查询树的树根为域名空间中的根域,该树根的子节点对应域名中的域字段,域字段在域名中的位置越靠左,其对应的子节点级别越低,位于域名中最左端的域字段对应的子节点均为叶子节点,各子节点拥有一个表示其对应域字段在域名查询数据库中出现频率的权值; 对域名查询树中除叶子节点外的所有子节点根据临时性域名特性进行特征抽取,获得各子节点的域名特征; 根据抽取的域名特征对域名查询树中除叶子节点外的所有子节点进行聚类,获得多个子集; 从所述多个子集中筛选包含子节点数量小于一阀值的子集,作为疑似临时域子集,根据疑似临时域子集输出一疑似临时性域名列表。2.如权利要求1所述的临时性域名识别方法,其特征在于,所述域名查询请求信息包括:域名查询数据库中的域名查询请求原始日志中储存的域名被使用时生成的记录。3.如权利要求1所述的临时性域名识别方法,其特征在于,所述临时性域名特性包括: 1)临时性域名及其所在域内的绝大部分域名使用频率接近于0; 2)临时性域名及其所在域内的绝大部分域名的最左端字段均是随机生成字串。4.如权利要求3所述的临时性域名识别方法,其特征在于,所述子节点的域名特征包括: 1)该子节点下的分支子节点数量; 2)该子节点下的各个分支子节点出现频率的中值; 3)该子节点下的各个分支子节点对应的域字段的熵的均值; 4)该子节点下的各个分支子节点对应的域字段的熵的方差。5.如权利要求1所述的临时性域名识别方法,其特征在于,所述阀值为50。6.如权利要求1所述的临时性域名识别方法,其特征在于,所述聚类的算法可选K-MEANS 或 K-MEDOIDS。7.如权利要求1所述的临时性域名识别方法,其特征在于,所述聚类后获得的子集包含子节点对应的域字段及子节点的域名特征。8.如权利要求7所述的临时性域名识别方法,其特征在于,所述根据疑似临时域子集输出一疑似临时性域名列表,包括:判断各疑似临时域子集中是否包含一个或多个子节点,该子节点对应的域字段为已知的临时域字段,则依次输出该子集中的每个子节点及该子节点的全部分支子结点所对应的域名,形成疑似临时性域名列表。9.一种临时性域名识别系统,基于域名查询数据库,包括: 一域名查询树构建模块,用以读取域名查询数据库,并根据数据库中的域名查询请求信息构造一域名查询树;其中,域名查询树的树根即为域名空间中的根域,树根的子节点对应域名中的域字段,域字段在域名中的位置越靠左,其对应的子节点级别越低,位于域名中最左端的域字段对应的子节点均为叶子节点,各子节点拥有一个表示其对应域字段在域名查询数据库中出现频率的权值; 一域名特征抽取模块,用以对域名查询树中除叶子节点外的所有子节点根据临时性域名特性进行特征抽取,获得各子节点的域名特征; 一域名聚类模块,用以根据各子节点的域名特征对域名查询树中除叶子节点外的所有子节点进行聚类,获得多个子集;从所述多个子集中筛选包含子节点数量小于一阀值的子集,作为疑似临时域子集,根据疑似临时域子集输出一疑似临时性域名列表。
【专利摘要】本发明提供一种临时性域名识别方法,基于一域名查询数据库,包括以下步骤:读取域名查询数据库,根据域名查询请求信息构建一域名查询树;对域名查询树中除叶子节点外的所有子节点根据临时性域名特性进行特征抽取,获得各子节点的域名特征;根据抽取的域名特征对域名查询树中除叶子节点外的所有子节点进行聚类,获得多个子集;从所述多个子集中筛选包含子节点数量小于一阀值的子集,作为疑似临时域子集,根据疑似临时域子集输出一疑似临时性域名列表。同时提供实现上述方法的系统。
【IPC分类】G06F17/30, H04L29/12
【公开号】CN105430112
【申请号】CN201510736531
【发明人】尉迟学彪, 潘蓝兰, 李晓东
【申请人】中国互联网络信息中心
【公开日】2016年3月23日
【申请日】2015年11月3日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1