域名和因特网协议地址经核准和未经核准隶属度推理的制作方法_2

文档序号:9916925阅读:来源:国知局
准域名列表120和未经核准域名列表128中未 出现的域名,以因此将该域名识别为良性的(即核准的)或恶性的(即未经核准)。类似地,概 率推理模块132可考虑在经核准IP地址列表122和未经核准IP地址列表130中未出现的IP地 址,以因此将IP地址识别为良性的或恶性的。因此,当评价未知域名时,概率推理模块132可 考虑未知域名D解析成η个IP地址,其中的m个IP地址在未经核准IP地址列表130(或者基于 该分析观点的经核准IP地址列表122)中。当评价未知IP地址时,概率推理模块132可考虑未 知IP地址解析成η个域名,其中m个域名在未经核准域名列表128(或者基于该分析观点的经 核准域名列表120)中。
[0024]根据阈值处理的实现方式的示例,m/n被指定为已知为经核准的IP地址的分数。如 果m/n大于阈值t(即,预定百分数),则概率推理模块132可将与IP地址对应的未知域名标记 为良性的。否则(即m/n小于或等于阈值t),概率推理模块132可将域名D标记为恶性的。例 如,t可以是0.8或更高值。相同阈值处理可以被应用于未知IP地址。此外,概率推理模块132 可从训练数据集得知t的值,使得失误的数目最小化。
[0025]根据阈值处理的另一实现方式的示例,概率推理模块132可分配将域名标记为良 性或恶性的可信度(并且类似地对待IP地址)。例如,关于与分数m/n的确定有关的前述阈值 方法,如果两个域名具有相同的分数但其中m和η的值不同,例如,8/10和80/100,则概率推 理模块132可将相同的标记(例如,良性的或恶性的)分配给这两个域名。然而,分配给80/ 100的标记上的可信度相对于分配给8/10的可信度更高。例如,概率推理模块132可能不知 道针对被解析为1 〇个IP地址的一个域名的所有IP地址。在这一点上,概率推理模块132可使 用可信区间来实现在标记上的可信度。例如,对于可信区间,可信区间越小,可信度越高。概 率推理模块132所使用的可信区间的示例可包括经调节的Wald可信区间。例如,对于8/10, 95%经调节Wald可信区间是[0.47,0.95],而对于80/100,是[0.71,0.87]。因此,80/100比 8/10更有可能是0.8,因此在80/100中存在更高的可信度。概率推理模块132所使用的可信 区间的其他示例可以包括Wi 1 son区间或Clopper-Pearson区间。因此,给定一域名,概率推 理模块132可计算分数和可信区间。如果可信区间大于可信区间阈值(例如,大于0.3),则概 率推理模块132可将域名标记为未知。然而,如果可信区间小于可信区间阈值(例如,小于等 于0.3),则概率推理模块132可使用该分数和阈值以适当地标记域名(例如,恶性的或良性 的)。
[0026]根据阈值处理的另一实现方式的示例,概率推理模块132可使用来自推荐系统和/ 或其他机器学习系统的自举处理(bootstrapping process),这些系统依赖于系统可得的 一定量数据以适当操作。自举过程可用于概率推理模块132可能不知道域名解析成的所有 IP地址(和IP地址解析成的所有域名)的情况。关于自举处理,并不是计算如m/n的分数,概 率推理模块132可计算如下经调节的分数:
[0027] (m+C*avg)/(n+N)等式(1)
[0028] 对于等式(1),当评价未知IP地址以及该IP地址被映射至的域名集合时,N可以表 示目前为止所看到域名的总数,avg可表示全部N个节点(即,在如本文所公开的二分图114 中的节点)的分数的平均值,以及C可以表示一个常数。类似地,当评价未知域名以及该域名 被映射至的IP地址集合时,N可以表示目前为止所看到的IP地址的总数,avg可表示全部N个 节点的分数的平均值,以及C可以表示一个常数。关于等式(1),如果域名解析成C个或更多 个IP地址,则域名的分数上的可信度可增大(以及,对于IP地址分数,反之亦然)。此外,如果 m小于C,则经调节分数可接近于平均分数avg。如果存在关于节点的足够信息,则节点的分 数可影响使用等式(1)的分析。因此,给定一域名,概率推理模块132可计算出其经调节分数 (并且,对于给定IP地址是类似的)。概率推理模块132还可以将经调节分数与该阈值进行比 较,以将域名标记为良性的或恶性的。
[0029] 隶属度赋值模块134可使用来自概率推理模块132的基于阈值的结果,以将未知域 名和IP地址的隶属度分配给经核准域名列表120、经核准IP地址列表122、未经核准域名列 表128以及未经核准IP地址列表130。
[0030] 图2图示了根据本公开示例的针对装置100的应用示例的二分图114。如二分图114 的示例中所示,域名104和IP地址106可以被表示为二分图114中的节点。对于图2中的示例, 命名为D1的域名"bad-domain, com"可事先确定为属于未经核准的域名列表128。命名为D2 的域名"examp 1 e . com"可事先确定为属于经核准域名列表1 20。命名为D3的域名 "unknowl. com"和命名为D4的域名"unknown2. com"可在二分图114中被命名为未知域名。命 名为IP1的IP地址"12.56.45.127"和命名为IP2的IP地址"33.57.218.82"可事先被确定为 属于未经核准IP地址列表130。命名为IP3的IP地址"212.19.2.42"和命名为IP4的IP地址 "110.31.64.28"可被命名为二分图114中的未知IP地址。
[0031]经核准列表概率赋值模块116可将例如为0.99的概率118分配给以前已确定属于 经核准域名列表120或属于经核准IP地址列表122的域名104和IP地址106。此外,未经核准 列表概率赋值模块124可将例如为0.01(例如,1-概率118)的概率126分配给以前已确定属 于未经核准域名列表128或属于未经核准IP地址列表130的域名104和IP地址106。
[0032]为了推理二分图114中的未知节点(例如,针对图2的示例的未知域名D3和D4以及 IP地址IP3和IP4)的概率,概率推理模块132可通过使用由经核准列表概率赋值模块116和 未经核准列表概率赋值模块124所分配的概率,而使用如本文所公开的图形推理处理,以推 理二分图114中剩余未知节点(即,未知域名D3和D4以及IP地址IP3和IP4)的概率。关于图形 推理处理,绘图模块112可通过添加域名与该域名解析成的IP地址之间的边缘来生成二分 图114。对于图2的示例,绘图模块112可通过添加分别在D1和IP1以及D1和IP1之间的边缘 200、202来生成二分图114。可针对二分图114类似地生成其他边缘。如图2中所图示,域名 (和IP地址)中的一些会是良性的(例如D2),这是因为它们在经核准的域名列表120中,而域 名(和IP地址)中的一些可能是恶性的(例如D1、IP1和IP2),这是因为它们在未经核准域名 列表128和未经核准IP地址列表130中。概率推理模块132可使用例如Bayesian推理、置信传 播(^61丨6€口1'<^3831:;[011)或0-3(0611^18七61-31^€61')处理,来推理未知节点(例如,图2的示 例中的D3、D4、IP3以及IP4)的概率。
[0033] 关于Bayesian推理处理,概率推理模块132可推理其余未知域名和IP地址(例如, 图2的示例中的D3、D4、IP3以及IP4)的边际(margina 1)概率(即,在经核准域名列表120、经 核准IP地址列表122、未经核准域名列表128以及未经核准IP地址列表130中的给定域名和 IP地址是恶性的(良性的)可能性)。如果二分图114不包括循环,则Bayesian推理处理可用 于确定未知节点的确切概率。通常,随机变量X(给定变量的集合)的边际概率可被表示为遍 布在不包括X的集合中在所有变量的所有可能值的所有变量的联合概率分布的总和。例如, 参考图2,为了确定D3的边际概率在经核准域名列表120中,属于经核准域名列表120或经核 准IP地址列表122的域名和IP地址的概率可表示为相应节点的概率。因此,为了确定D3的边 际概率在经核准域名列表120中,概率推理模块132可以确定D3的等于1的概率,如下:
[0034] Pr(D3=l) 2Di,D2,D4,iPi,iP2,iP3,ip4Pr(D3=l,Dl,D2,D4,IPl,IP2,IP3,IP4)等式(2) 参考图2,能够看出某些概率(例如,D1、D2、IP1以及IP2)是已知的先验值。例如,可以看出, 通过D1表示的域名"bad-domain, com"属于未经核准域名列表128。因此,D1的是0的概率可 以是1,并且D1具有非0的任何值的概率是0。在图2的示例中,尽管概率被表示为1和0,但为 了解释与域名和IP地址的先验状态有关的误算,概率推理模块132可以使用概率值,例如 0.99和0.01。因此,对于图2的示例,对于被表示为1和0的概率,01、02、1?1和1?2的概率可以 被表示如下:Pr(Dl = 0) = 1 ;Pr(D2 = l) = 1 ;Pr(IPl = 0) = 1;以及Pr(IP2 = 0) = 1。
[0035] 概率推理模块132可替代等式(2)中的已知概率值,如下:
[0036] Pr(D3 = l)= 2D4,iP3,ip4Pr(D3 = l,Dl = 0,D2=l,D4,IPl = 0,IP2 = 0,IP3,IP4)
[0037] 等式(3)
[0038] Pr(D3 = l)=2D4,iP3,ip4Pr(D3 = l,D4,IP
当前第2页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1