本技术涉及网络安全,尤其涉及一种病毒检测方法、装置、电子设备及存储介质。
背景技术:
1、杀毒引擎可能存在误报病毒(即判定未携带病毒的样本携带病毒)和/或漏报病毒(即判定携带病毒的样本未携带病毒)的问题。
2、然而,相关技术中,对于如何降低病毒的误报率和漏报率尚未有有效解决方案。
技术实现思路
1、为解决相关技术问题,本技术实施例提供一种病毒检测方法、装置、电子设备及存储介质。
2、本技术实施例的技术方案是这样实现的:
3、本技术实施例提供了一种病毒检测方法,包括:
4、获取待检测样本,并确定所述待检测样本的特征向量,得到目标特征向量;
5、利用所述目标特征向量、至少一个第一规则和至少一个第二规则,确定所述待检测样本是否携带病毒,得到第一检测结果;其中,
6、每个第一规则用于判断所述目标特征向量与一个第一特征向量的相似度是否满足第一条件,所述第一特征向量基于未携带病毒的第一样本确定;
7、每个第二规则用于判断所述目标特征向量与一个第二特征向量的相似度是否满足第二条件,所述第二特征向量基于携带病毒的第二样本确定。
8、上述方案中,所述利用所述目标特征向量、至少一个第一规则和至少一个第二规则,确定所述待检测样本是否携带病毒,包括:
9、利用每个第一规则,判断所述目标特征向量与相应第一特征向量的相似度是否满足第一条件,得到至少一个第一判断结果;并利用每个第二规则,判断所述目标特征向量与相应第二特征向量的相似度是否满足第二条件,得到至少一个第二判断结果;
10、利用所述至少一个第一判断结果和所述至少一个第二判断结果,确定所述待检测样本是否携带病毒。
11、上述方案中,所述利用所述至少一个第一判断结果和所述至少一个第二判断结果,确定所述待检测样本是否携带病毒,包括:
12、存在至少一个第一判断结果表征所述目标特征向量与相应第一特征向量的相似度满足第一条件、且每个第二判断结果均表征所述目标特征向量与相应第二特征向量的相似度不满足第二条件时,确定所述待检测样本未携带病毒。
13、上述方案中,所述利用所述至少一个第一判断结果和所述至少一个第二判断结果,确定所述待检测样本是否携带病毒,包括:
14、存在至少一个第二判断结果表征所述目标特征向量与相应第二特征向量的相似度满足第二条件、且每个第一判断结果均表征所述目标特征向量与相应第一特征向量的相似度不满足第一条件时,确定所述待检测样本携带病毒。
15、上述方案中,每个第一特征向量对应的第一条件相同或不同,所述第一条件包含第一阈值;所述判断所述目标特征向量与相应第一特征向量的相似度是否满足第一条件,包括:
16、判断所述目标特征向量与相应第一特征向量的相似度是否小于相应第一特征向量对应的第一阈值;
17、在所述目标特征向量与相应第一特征向量的相似度小于相应第一特征向量对应的第一阈值的情况下,相应第一判断结果表征所述目标特征向量与相应第一特征向量的相似度满足相应第一特征向量对应的第一条件;
18、在所述目标特征向量与相应第一特征向量的相似度大于或等于相应第一特征向量对应的第一阈值的情况下,相应第一判断结果表征所述目标特征向量与相应第一特征向量的相似度不满足相应第一特征向量对应的第一条件。
19、上述方案中,每个第二特征向量对应的第二条件相同或不同,所述第二条件包含第二阈值;所述判断所述目标特征向量与相应第二特征向量的相似度是否满足第二条件,包括:
20、判断所述目标特征向量与相应第二特征向量的相似度是否小于相应第二特征向量对应的第二阈值;
21、在所述目标特征向量与相应第二特征向量的相似度小于相应第二特征向量对应的第二阈值的情况下,相应第二判断结果表征所述目标特征向量与相应第二特征向量的相似度满足相应第二特征向量对应的第二条件;
22、在所述目标特征向量与相应第二特征向量的相似度大于或等于相应第二特征向量对应的第二阈值的情况下,相应第二判断结果表征所述目标特征向量与相应第二特征向量的相似度不满足相应第二特征向量对应的第二条件。
23、上述方案中,所述方法还包括:
24、利用目标人工智能(ai,artificial intelligence)模型针对多个样本的检测结果,从所述多个样本中确定至少一个第一样本和至少一个第二样本,并确定所述至少一个第一样本对应的至少一个第一特征向量,及所述至少一个第二样本对应的至少一个第二特征向量;所述目标ai模型用于检测样本是否携带病毒;所述目标ai模型针对所述第一样本的检测结果表征所述第一样本携带病毒;所述目标ai模型针对所述第二样本的检测结果表征所述第二样本未携带病毒;
25、基于所述至少一个第一特征向量,确定至少一个第一规则;并基于所述至少一个第二特征向量,确定至少一个第二规则。
26、上述方案中,所述基于所述至少一个第一特征向量,确定至少一个第一规则,包括:
27、从训练样本集获取携带病毒的多个第三样本,并确定所述多个第三样本对应的多个第三特征向量;所述目标ai模型是基于所述训练样本集训练的;
28、利用所述至少一个第一特征向量和所述多个第三特征向量,确定至少一个第一规则。
29、上述方案中,每个第一特征向量对应的第一条件相同或不同,所述第一条件包含第一阈值;所述利用所述至少一个第一特征向量和所述多个第三特征向量,确定至少一个第一规则,包括:
30、针对每个第一特征向量,从所述多个第三特征向量中确定与相应第一特征向量的距离最小的目标第三特征向量,并利用所述目标第三特征向量与相应第一特征向量的距离,确定相应第一特征向量对应的第一阈值;
31、利用相应第一特征向量对应的第一阈值,确定相应第一特征向量对应的第一条件,并利用相应第一特征向量和相应第一特征向量对应的第一条件,确定一个第一规则。
32、上述方案中,所述从所述多个第三特征向量中确定与相应第一特征向量的距离最小的目标第三特征向量,包括:
33、基于聚类索引的方式和k最邻近(knn,k nearest neighbor)算法,从所述多个第三特征向量中确定与相应第一特征向量的距离最小的目标第三特征向量。
34、上述方案中,所述基于所述至少一个第二特征向量,确定至少一个第二规则,包括:
35、从训练样本集获取未携带病毒的多个第四样本,并确定所述多个第四样本对应的多个第四特征向量;所述目标ai模型是基于所述训练样本集训练的;
36、利用所述至少一个第二特征向量和所述多个第四特征向量,确定至少一个第二规则。
37、上述方案中,每个第二特征向量对应的第二条件相同或不同,所述第二条件包含第二阈值;所述利用所述至少一个第二特征向量和所述多个第四特征向量,确定至少一个第二规则,包括:
38、针对每个第二特征向量,从所述多个第四特征向量中确定与相应第二特征向量的距离最小的目标第四特征向量,并利用所述目标第四特征向量与相应第二特征向量的距离,确定相应第二特征向量对应的第二阈值;
39、利用相应第二特征向量对应的第二阈值,确定相应第二特征向量对应的第二条件,并利用相应第二特征向量和相应第二特征向量对应的第二条件,确定一个第二规则。
40、上述方案中,所述从所述多个第四特征向量中确定与相应第二特征向量的距离最小的目标第四特征向量,包括:
41、基于聚类索引的方式和knn算法,从所述多个第四特征向量中确定与相应第二特征向量的距离最小的目标第四特征向量。
42、上述方案中,所述方法还包括:
43、利用所述目标特征向量和所述目标ai模型,确定所述待检测样本是否携带病毒,得到第二检测结果;
44、判断所述第二检测结果与所述第一检测结果是否一致;
45、在所述第二检测结果与所述第一检测结果不一致的情况下,利用所述第一检测结果更新所述第二检测结果。
46、本技术实施例还提供了一种病毒检测装置,包括:
47、第一处理单元,用于获取待检测样本,并确定所述待检测样本的特征向量,得到目标特征向量;
48、第二处理单元,用于利用所述目标特征向量、至少一个第一规则和至少一个第二规则,确定所述待检测样本是否携带病毒,得到第一检测结果;其中,
49、每个第一规则用于判断所述目标特征向量与一个第一特征向量的相似度是否满足第一条件,所述第一特征向量基于未携带病毒的第一样本确定;
50、每个第二规则用于判断所述目标特征向量与一个第二特征向量的相似度是否满足第二条件,所述第二特征向量基于携带病毒的第二样本确定。
51、本技术实施例还提供了一种电子设备,包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器,
52、其中,所述处理器用于运行所述计算机程序时,执行上述任一方法的步骤。
53、本技术实施例还提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一方法的步骤。
54、本技术实施例提供的病毒检测方法、装置、电子设备及存储介质,获取待检测样本,并确定所述待检测样本的特征向量,得到目标特征向量;利用所述目标特征向量、至少一个第一规则和至少一个第二规则,确定所述待检测样本是否携带病毒,得到第一检测结果;其中,每个第一规则用于判断所述目标特征向量与一个第一特征向量的相似度是否满足第一条件,所述第一特征向量基于未携带病毒的第一样本确定;每个第二规则用于判断所述目标特征向量与一个第二特征向量的相似度是否满足第二条件,所述第二特征向量基于携带病毒的第二样本确定。本技术实施例提供的方案,根据待检测样本的目标特征向量与白样本(即未携带病毒的样本)的特征向量的相似度、以及目标特征向量与黑样本(即携带病毒的样本)的特征向量的相似度确定待检测样本是否携带病毒,与根据样本的md5信息摘要算法(英文可以表达为message digest algorithm md5,简称为md5)值判断样本是否携带病毒的方式相比,由于md5值的相似性不能等同于样本的相似性,换句话说,在两个样本的md5值不同的情况下这两个的样本仍然可能属于同一类型(比如均携带病毒或均未携带病毒),即这两个样本的特征向量可能相似,因此,从待检测样本与白样本的特征向量相似性、以及待检测样本与黑样本的特征向量相似性这两个维度进行病毒判定,能够降低病毒的误报率和漏报率,从而进一步保障用户的网络安全,提升用户体验。