本发明涉及网络安全的领域,尤其涉及基于知识图谱的恶意域名识别方法和系统。
背景技术:
1、目前,恶意域名的检测方法多种多样,其通常都是着重于恶意域名的检测准确度,其忽略检测方法所针对的检测特征要素对检测结果的影响。此外,恶意域名的攻击手段的多变性导致依赖检测特征要素提取和分类算法无法应对层出不穷的域名类型,难以进行深层次的恶意域名挖掘。现有的恶意域名检测方法只能针对某部分特定的检测特征要素来进行域名类型识别,这使得恶意域名检测在当前模式下只能局限于对应的检测特征要素,若当前的恶意域名的攻击手段是体现在其他检测特征要素,将无法对当前的恶意域名进行全面准确的检测,降低恶意域名的检测可信度和准确度。
技术实现思路
1、本发明的目的在于提供基于知识图谱的恶意域名识别方法和系统,基于若干已知域名在解析访问过程中产生的解析访问数据的域名工作记录元素,生成与所有已知域名分别对应的若干已知域名知识图谱,并构建每个已知域名知识图谱与其对应的图谱特征信息之间的映射关系,对所有已知域名进行知识图谱特征状态的关联对应识别;还基于未知域名在解析访问过程中的解析访问记录,生成与未知域名对应的未知域名知识图谱及其图谱特征信息,对未知域名进行知识图谱表征,再将未知域名知识图谱的图谱特征信息与映射关系进行对比,确定与未知域名最密切相关的已知域名,通过确定的最密切相关的已知域名的域名情况,识别未知域名是否属于恶意域名,提高恶意域名检测可信度和准确度。
2、本发明是通过以下技术方案实现:
3、基于知识图谱的恶意域名识别方法,包括:
4、获取若干已知域名在解析访问过程中产生的解析访问数据,对所述解析访问数据进行分析处理,得到所有已知域名各自对应的若干域名工作记录元素;基于所有域名工作记录元素,生成与所有已知域名分别对应的若干已知域名知识图谱;
5、对所有已知域名知识图谱分别进行图谱运算处理,得到所有已知域名知识图谱的图谱特征信息;基于所述图谱特征信息,构建每个已知域名知识图谱与其对应的图谱特征信息之间的映射关系;
6、获取未知域名在解析访问过程中的解析访问记录,对所述解析访问记录进行分析,确定所述未知域名对应的所有有效解析访问条目;基于所有有效解析访问条目,生成与所述未知域名对应的未知域名知识图谱,并获取所述未知域名知识图谱的图谱特征信息;
7、基于所述未知域名知识图谱的图谱特征信息和所述映射关系,确定与所述未知域名最密切相关的一个已知域名;基于所述最密切相关的一个已知域名的域名属性信息,识别所述未知域名是否属于恶意域名。
8、可选地,获取若干已知域名在解析访问过程中产生的解析访问数据,对所述解析访问数据进行分析处理,得到所有已知域名各自对应的若干域名工作记录元素;基于所有域名工作记录元素,生成与所有已知域名分别对应的若干已知域名知识图谱,包括:
9、对若干已知域名各自所在的服务器进行监听,判断所述服务器当前是否执行访问解析操作;若是,则获取所述服务器执行访问解析操作全过程中产生的解析访问数据;并将所有已知域名所在服务器产生的解析访问数据进行干扰数据成分剔除处理;
10、对所述解析访问数据进行数据类型识别,得到所有已知域名各自对应的ip地址、解析结果中错误数据占比、解析总耗时和解析卡顿总次数,以此作为域名工作记录元素;以所有域名工作记录元素作为知识图谱实体,生成与所有已知域名分别对应的若干已知域名知识图谱。
11、可选地,对所有已知域名知识图谱分别进行图谱运算处理,得到所有已知域名知识图谱的图谱特征信息;基于所述图谱特征信息,构建每个已知域名知识图谱与其对应的图谱特征信息之间的映射关系,包括:
12、对所有已知域名知识图谱分别进行图谱运算处理,得到所有已知域名知识图谱各自的图谱实体数据内容特征信息;基于所述图谱实体数据内容特征信息,构建每个已知域名知识图谱与其对应的图谱实体数据内容特征信息之间的一一映射关系。
13、可选地,获取未知域名在解析访问过程中的解析访问记录,对所述解析访问记录进行分析,确定所述未知域名对应的所有有效解析访问条目;基于所有有效解析访问条目,生成与所述未知域名对应的未知域名知识图谱,并获取所述未知域名知识图谱的图谱特征信息,包括:
14、对未知域名所在的服务器进行监听,得到所述服务器的解析访问日志;对所述解析访问日志进行分析,确定所述解析访问日志包含所有已经完成解析处理的解析访问目录;对所述已经完成解析处理的解析访问目录进行分析,确定所述未知域名对应的所有正确解析访问条目,以此作为有效解析访问条目;
15、从所述正确解析访问条目提取所述未知域名在解析访问过程中对应的ip地址、解析结果中错误数据占比、解析总耗时和解析卡顿总次数作为知识图谱实体,从而生成与所述未知域名对应的未知域名知识图谱;对所述未知域名知识图谱进行图谱运算处理,得到所述未知域名知识图谱的图谱实体数据内容特征信息。
16、可选地,基于所述未知域名知识图谱的图谱特征信息和所述映射关系,确定与所述未知域名最密切相关的一个已知域名;基于所述最密切相关的一个已知域名的域名属性信息,识别所述未知域名是否属于恶意域名,包括:
17、将所述未知域名知识图谱的图谱实体数据内容特征信息与所述映射关系下属包含的所有已知域名图谱的图谱实体数据内容特征信息分别进行对比,得到所述未知域名知识图谱的图谱实体数据内容特征信息与每个已知域名图谱的图谱实体数据内容特征信息之间的相似度,并将具有最大相似度对应的已知域名作为与所述未知域名最密切相关的已知域名;
18、将所述最密切相关的已知域名的域名属性信息与预设域名属性列表进行对比,判断所述最密切相关的已知域名是否属于已知恶意域名,若是,则确定所述未知域名属于恶意域名;若否,则确定所述未知域名不属于恶意域名。
19、在对已知域名识别时,还检测其是否已被非法劫持,包括:
20、步骤s1,设需要对某已知域名进行是否被非法劫持进行检测,点击其域名跳转后跳转链接为x,数据库中历史该域名跳转链接为y,则当前域名跳转后跳转链接x和其数据库中历史该域名跳转链接y的相似系数为:
21、
22、在上述公式(1)中,中f(x,y)为当前域名跳转后跳转链接x和其数据库中历史该域名跳转链接y的相似系数,|x∩y|表示字符串x和字符串y相同的元素个数;
23、步骤s2,设x去除前后缀后为x′,y去除前后缀后为y′,则当前域名跳转后跳转链接去除前后缀后x′和其数据库中历史该域名跳转链接去除先后缀后y′的相似系数为:
24、
25、在上述公式(2)中,h(x,y)为当前域名跳转后跳转链接去除前后缀后x′和其数据库中历史该域名跳转链接去除先后缀后y′的相似系数;
26、步骤s3,利用下面公式(3),根据上述步骤s1和s2的计算结果,计算该已知域名是否被非法劫持,
27、p(x,y)=1-0.36 f(x,y)-0.64h(x,y) (3)
28、在上述公式(3)中,p(x,y)为该已知域名被非法劫持的概率,当p(x,y)大于0.6时,表明该已知域名被非法劫持,其当前为恶意域名,当p(x,y)小于等于0.6时,表明该已知域名未被非法劫持。
29、基于知识图谱的恶意域名识别系统,包括:
30、已知域名访问解析模块,用于获取若干已知域名在解析访问过程中产生的解析访问数据,对所述解析访问数据进行分析处理,得到所有已知域名各自对应的若干域名工作记录元素;
31、第一知识图谱构建模块,用于基于所有域名工作记录元素,生成与所有已知域名分别对应的若干已知域名知识图谱;
32、映射关系构建模块,用于对所有已知域名知识图谱分别进行图谱运算处理,得到所有已知域名知识图谱的图谱特征信息;基于所述图谱特征信息,构建每个已知域名知识图谱与其对应的图谱特征信息之间的映射关系;
33、未知域名访问解析模块,用于获取未知域名在解析访问过程中的解析访问记录,对所述解析访问记录进行分析,确定所述未知域名对应的所有有效解析访问条目;
34、第二知识图谱构建模块,用于基于所有有效解析访问条目,生成与所述未知域名对应的未知域名知识图谱,并获取所述未知域名知识图谱的图谱特征信息;
35、未知域名识别认定模块,用于基于所述未知域名知识图谱的图谱特征信息和所述映射关系,确定与所述未知域名最密切相关的一个已知域名;基于所述最密切相关的一个已知域名的域名属性信息,识别所述未知域名是否属于恶意域名。
36、可选地,所述已知域名访问解析模块用于获取若干已知域名在解析访问过程中产生的解析访问数据,对所述解析访问数据进行分析处理,得到所有已知域名各自对应的若干域名工作记录元素,包括:
37、对若干已知域名各自所在的服务器进行监听,判断所述服务器当前是否执行访问解析操作;若是,则获取所述服务器执行访问解析操作全过程中产生的解析访问数据;并将所有已知域名所在服务器产生的解析访问数据进行干扰数据成分剔除处理;
38、对所述解析访问数据进行数据类型识别,得到所有已知域名各自对应的ip地址、解析结果中错误数据占比、解析总耗时和解析卡顿总次数,以此作为域名工作记录元素;
39、所述第一知识图谱构建模块用于基于所有域名工作记录元素,生成与所有已知域名分别对应的若干已知域名知识图谱,包括:
40、以所有域名工作记录元素作为知识图谱实体,生成与所有已知域名分别对应的若干已知域名知识图谱。
41、可选地,所述映射关系构建模块用于对所有已知域名知识图谱分别进行图谱运算处理,得到所有已知域名知识图谱的图谱特征信息;基于所述图谱特征信息,构建每个已知域名知识图谱与其对应的图谱特征信息之间的映射关系,包括:
42、对所有已知域名知识图谱分别进行图谱运算处理,得到所有已知域名知识图谱各自的图谱实体数据内容特征信息;基于所述图谱实体数据内容特征信息,构建每个已知域名知识图谱与其对应的图谱实体数据内容特征信息之间的一一映射关系。
43、可选地,所述未知域名访问解析模块用于获取未知域名在解析访问过程中的解析访问记录,对所述解析访问记录进行分析,确定所述未知域名对应的所有有效解析访问条目,包括:
44、对未知域名所在的服务器进行监听,得到所述服务器的解析访问日志;对所述解析访问日志进行分析,确定所述解析访问日志包含所有已经完成解析处理的解析访问目录;对所述已经完成解析处理的解析访问目录进行分析,确定所述未知域名对应的所有正确解析访问条目,以此作为有效解析访问条目;
45、所述第二知识图谱构建模块用于基于所有有效解析访问条目,生成与所述未知域名对应的未知域名知识图谱,并获取所述未知域名知识图谱的图谱特征信息,包括:
46、从所述正确解析访问条目提取所述未知域名在解析访问过程中对应的ip地址、解析结果中错误数据占比、解析总耗时和解析卡顿总次数作为知识图谱实体,从而生成与所述未知域名对应的未知域名知识图谱;对所述未知域名知识图谱进行图谱运算处理,得到所述未知域名知识图谱的图谱实体数据内容特征信息。
47、可选地,所述未知域名识别认定模块用于基于所述未知域名知识图谱的图谱特征信息和所述映射关系,确定与所述未知域名最密切相关的一个已知域名;基于所述最密切相关的一个已知域名的域名属性信息,识别所述未知域名是否属于恶意域名,包括:
48、将所述未知域名知识图谱的图谱实体数据内容特征信息与所述映射关系下属包含的所有已知域名图谱的图谱实体数据内容特征信息分别进行对比,得到所述未知域名知识图谱的图谱实体数据内容特征信息与每个已知域名图谱的图谱实体数据内容特征信息之间的相似度,并将具有最大相似度对应的已知域名作为与所述未知域名最密切相关的已知域名;
49、将所述最密切相关的已知域名的域名属性信息与预设域名属性列表进行对比,判断所述最密切相关的已知域名是否属于已知恶意域名,若是,则确定所述未知域名属于恶意域名;若否,则确定所述未知域名不属于恶意域名。
50、与现有技术相比,本发明具有如下有益效果:
51、本技术提供的基于知识图谱的恶意域名识别方法和系统基于若干已知域名在解析访问过程中产生的解析访问数据的域名工作记录元素,生成与所有已知域名分别对应的若干已知域名知识图谱,并构建每个已知域名知识图谱与其对应的图谱特征信息之间的映射关系,对所有已知域名进行知识图谱特征状态的关联对应识别;还基于未知域名在解析访问过程中的解析访问记录,生成与未知域名对应的未知域名知识图谱及其图谱特征信息,对未知域名进行知识图谱表征,再将未知域名知识图谱的图谱特征信息与映射关系进行对比,确定与未知域名最密切相关的已知域名,通过确定的最密切相关的已知域名的域名情况,识别未知域名是否属于恶意域名,提高恶意域名检测可信度和准确度。