一种基于注册信息与解析关系的钓鱼域名检测方法

文档序号:37359569发布日期:2024-03-22 10:13阅读:10来源:国知局
一种基于注册信息与解析关系的钓鱼域名检测方法

本发明属于计算机网络安全与深度学习,具体涉及一种基于注册信息与解析关系的钓鱼域名检测方法。


背景技术:

1、目前,网络安全中的主要危害来自于恶意软件,其在活动时大多依靠域名运作,包含散布恶意程序的僵尸网络、扰乱用户生活的钓鱼和垃圾邮件域名、操纵受害者主机的特洛伊木马等。因此,面对愈发严峻的网络环境,研究域名安全评估技术和恶意域名检测方法对于打击网络犯罪行为、保护当今世界的网络环境具有重要的意义。

2、针对钓鱼域名的检测与封堵,国内外研究人员展开了众多研究,取得了良好的进展,目前主要方法根据其注册信息手动从中提取各种特征,构建如基于时间的特征、基于dns应答的特征、基于ttl的特征、基于域名配置文件的特征、基于注册历史的特征、基于批关联的特征等,建立特征工程,并通过成熟的机器学习模型对其进行训练,在实际应用中取得了良好的预警效果。

3、然而,这些早期防御方法存在以下问题:模型需求的特征难以获取,涉及多方合作的问题;此外,由于隐私政策的更新,大量特征因为获取困难面临失效的问题,导致检测模型无法对新注册域名进行早期防御,过去的这些方法不再适用于新环境,需要重新选择新的特征。


技术实现思路

1、为了克服以上现有技术存在的问题,本发明的目的在于提供一种基于注册信息与解析关系的钓鱼域名检测方法,通过提出的gried模型通过少量特征在“.xyz”顶级域的新注册域名中高效找到批量注册的钓鱼域名,解决以往特征失效、难以获取的问题。

2、为了实现上述目的,本发明采用的技术方案是:

3、一种基于注册信息与解析关系的钓鱼域名检测方法,包括以下步骤;

4、1)数据预处理与过滤:

5、首先从域名注册中心收集连续一周的新注册域名,通过比对知名黑名单库与知名在线网站评级工具得到每一个域名的标签,对存在恶意行为记录的域名赋予恶意标签,作为实验的负样本,对被工具确定为良性的域名赋予良性标签,作为实验的正样本,两者合并作为实验的训练集数据;

6、其次,对于以上得到标签的域名数据,查询其实验所需的whois信息,过滤掉不符合实验要求的数据;

7、最后,为了验证模型的效果,需要选取和训练数据时间相隔近的新数据,以确保其行为和特征和训练数据有共性、能加入后续实验构建的域名关系图中,因此对距离训练数据时隔一天的新注册域名进行随机抽取,作为实验的测试集数据;

8、2)域名关系图构建:

9、将解析ip作为节点的边关系,将域名、注册商、相关域名数、解析ns服务器、存活时间作为节点的属性,进行域名关系图的构建,并获得其节点特征矩阵、稀疏邻接矩阵、标签向量作为模型的输入数据;

10、3)模型训练:

11、使用所述节点特征矩阵、稀疏邻接矩阵、标签向量,通过gat算法对步骤1)中得到标签的训练集和测试集数据进行训练,并在训练阶段使用掩码屏蔽测试集数据,避免干扰实验;

12、4)节点分类:

13、通过gat算法对测试集数据进行节点分类,最终获得模型预测的疑似恶意域名。

14、进一步,所述步骤1)中的实验训练集数据来源于“.xyz”顶级域,其中训练数据为2023年3月23日至3月29日共3648712个新注册域名,测试数据为3月30日全天新注册域名中随机采样的1000个域名;为了将域名标记为恶意或良性以得到样本的标签,通过比对openphish、spamhaus、malwaredomains等知名黑名单库,若存在相关记录则赋予其恶意的标签,若未被记录则继续使用mcafee webadvisor和google safe browsing等知名在线网站评级工具,若被这些工具确信为良性域名,则赋予其良性的标签。

15、进一步,对于所收集的实验数据,选择特征为域名、注册商、解析ip、解析ns服务器、相关域名数、存活时间;对于注册商、注册时间、到期时间、解析ip和解析ns服务器均无法获取的域名,因为特征损失过多,无法参与图的构建,将其从数据集中删去。

16、进一步,所述步骤2)中,定义域名关系无向图g=(v,e),将域名集合记为d={d1,d2,d3,…,dn},其对应的节点集合为v={v1,v2,v3,…,vn},节点vi对应域名di,qi为域名di的解析ip集合;

17、为了构建域名关系图,制定以下规则:若存在即注册域名的解析ip存在重合关系,则vi、vj之间存在边,边权重eij=|qi∩qj|;通过以上两种规则,构建域名基于解析关系的网络图,并在完成构图后对边权重进行归一化。

18、进一步,所述步骤3)中在完成域名关系图的构建后,从中获得节点特征矩阵x、稀疏格式的邻接矩阵a、标签向量y作为输入数据,其中图的节点数为n,边数为e,特征维度为m;邻接矩阵a的大小为2×2e,节点特征矩阵x的大小为n×m,标签向量y的大小为1×n;邻接矩阵a和特征矩阵x分别被传递给不同的输入层,特征矩阵x在经过第一个dropout层后和邻接矩阵a一起进入第一个图注意力层,通过leakyrelu激活函数获得输出,再经过第二个dropout层后进入第二个图注意力层,最后通过softmax激活函数获得分类结果。

19、进一步,所述步骤4)中,在模型的训练阶段使用掩码屏蔽测试集的节点,用带标签的恶意域名和良性域名对图进行训练,之后再取消屏蔽,让gat对测试数据进行节点分类,并获取模型的分类结果。模型预测为恶意的域名即为疑似批量注册的钓鱼域名。

20、本发明的有益效果:

21、本发明提出了钓鱼域名的批量注册与解析特征,采用域名、注册商、解析ip、解析ns服务器、相关域名数、存活时间作为特征,避免了注册人信息、注册历史信息无法获取的问题。部分恶意域名间存在关联,如批注册行为,这些域名不仅来自同一个注册商,而且注册时间的间隔较短,解析ip间存在重合关系,具有很强的关联性。其次,本发明引入了图注意力网络模型,通过图方法和神经网络提取有限特征中的隐藏信息。注意力机制在许多基于序列的任务中表现出良好的性能,它允许模型处理可变大小的输入,专注于输入中最相关的部分以做出决策。图注意力网络通过引入注意力机制,能够对每个邻居节点的特征进行自适应的加权融合,从而更好地捕捉节点在图中的局部特征。此外,它也可以对每个邻居节点的权重进行解释,从而更好地理解模型的决策过程。和其他图神经网络相比,图注意力网络可以处理任意形状的图结构,适合复杂网络,且解决了gcn无法处理动态图的问题,因此选用gat作为框架的主要模型。通过有监督训练,让模型学习良性域名和恶意域名在注册信息层面的特征差异,实现分类功能。

22、本发明能够在“.xyz”顶级域的新注册域名中高效找到恶意攻击者的批量注册钓鱼域名,可解决以往特征获取困难的问题和因新的隐私政策导致的特征失效问题,具有广阔的应用前景。



技术特征:

1.一种基于注册信息与解析关系的钓鱼域名检测方法,其特征在于,包括以下步骤;

2.根据权利要求1所述的一种基于注册信息与解析关系的钓鱼域名检测方法,其特征在于,所述步骤1)中的实验训练集数据来源于“.xyz”顶级域,为了将域名标记为恶意或良性以得到样本的标签,通过比对openphish、spamhaus、malwaredomains知名黑名单库,若存在相关记录则赋予其恶意的标签,若未被记录则继续使用mcafee webadvisor和googlesafe browsing等知名在线网站评级工具,若被这些工具确信为良性域名,则赋予其良性的标签。

3.根据权利要求1所述的一种基于注册信息与解析关系的钓鱼域名检测方法,其特征在于,对于所收集的实验数据,选择特征为域名、注册商、解析ip、解析ns服务器、相关域名数、存活时间;对于注册商、注册时间、到期时间、解析ip和解析ns服务器均无法获取的域名。

4.根据权利要求1所述的一种基于注册信息与解析关系的钓鱼域名检测方法,其特征在于,所述步骤2)中,定义域名关系无向图g=(v,e),将域名集合记为d={d1,d2,d3,…,dn},其对应的节点集合为v={v1,v2,v3,…,vn},节点vi对应域名di,qi为域名di的解析ip集合;

5.根据权利要求1所述的一种基于注册信息与解析关系的钓鱼域名检测方法,其特征在于,所述步骤3)中在完成域名关系图的构建后,从中获得节点特征矩阵x、稀疏格式的邻接矩阵a、标签向量y作为输入数据,其中图的节点数为n,边数为e,特征维度为m;邻接矩阵a的大小为2×2e,节点特征矩阵x的大小为n×m,标签向量y的大小为1×n;邻接矩阵a和特征矩阵x分别被传递给不同的输入层,特征矩阵x在经过第一个dropout层后和邻接矩阵a一起进入第一个图注意力层,通过leakyrelu激活函数获得输出,再经过第二个dropout层后进入第二个图注意力层,最后通过softmax激活函数获得分类结果。

6.根据权利要求1所述的一种基于注册信息与解析关系的钓鱼域名检测方法,其特征在于,所述步骤4)中,在模型的训练阶段使用掩码屏蔽测试集的节点,用带标签的恶意域名和良性域名对图进行训练,之后再取消屏蔽,让gat对测试数据进行节点分类,并获取模型的分类结果。模型预测为恶意的域名即为疑似批量注册的钓鱼域名。


技术总结
本发明公开了一种基于注册信息与解析关系的钓鱼域名检测方法,包括以下步骤;1)数据预处理与过滤:过滤掉不符合实验要求的数据;2)域名关系图构建:3)模型训练:使用所述节点特征矩阵、稀疏邻接矩阵、标签向量,通过GAT算法对步骤1)中得到标签的训练集和测试集数据进行训练,并在训练阶段使用掩码屏蔽测试集数据,避免干扰实验;4)节点分类:最终获得模型预测的疑似恶意域名。本发明通过提出的GRIED模型通过少量特征在“.xyz”顶级域的新注册域名中高效找到批量注册的钓鱼域名,解决以往特征失效、难以获取的问题。

技术研发人员:张永斌,石乘齐,王荔,李成宁,孙连山,侯涛
受保护的技术使用者:陕西科技大学
技术研发日:
技术公布日:2024/3/21
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1