本发明涉及信息安全,尤其涉及一种恶意软件识别方法、装置、电子设备及存储介质。
背景技术:
1、近些年,随着网络安全攻击目标范围日趋升级扩散,apt(advancedpersistentthreat,高级持续性威胁)攻击、商业窃密、勒索攻击等安全事件层出不穷,作为攻击核心载体的恶意软件也日渐呈现出规模化、复杂化、对抗化的变化趋势。对于安全厂商来讲,传统的签名黑白名单、特征查杀、静态启发等恶意软件识别技术的局限性开始凸显,在未知检出率、及时性以及扫描性能等技术指标上逐渐无法应对当下海量恶意家族样本的激烈对抗形势。另一方面,随着机器学习和深度学习的在图像分类、语义分析等领域的巨大发展和成功落地,以人工智能技术为核心的下一代杀软引擎(ngav)研发也成为众多安全厂商的产品核心技术。
2、与其它领域不同,信息安全方向在安全对抗性、准确性、泛化能力、结果可解释性等方面要求更高,ai(artificial intelligence,人工智能)技术的落地面临更大的困难挑战。目前,由于恶意软件安全对抗复杂性、性能考虑欠缺,大多数恶意软件识别模型的检测方法准确率欠佳。
技术实现思路
1、有鉴于此,本发明实施例提供一种恶意软件识别方法、装置、电子设备及存储介质,以提升恶意软件识别的准确率。
2、第一方面,本发明实施例提供一种恶意软件识别方法,所述方法包括:
3、获取预设数量的恶意训练样本和良性训练样本,组成训练样本集;
4、提取训练样本集中训练样本的恶意行为特征,其中该特征包括语义层特征和/或启发层特征;
5、利用训练样本集中训练样本的恶意行为特征及其标签信息,对恶意软件识别模型进行训练;
6、基于训练后的恶意软件识别模型,识别待识别软件是否为恶意软件。
7、进一步的,在提取训练样本集中训练样本的恶意行为特征之前,还包括:对训练样本集中的训练样本进行去重处理。
8、进一步的,在提取训练样本集中训练样本的恶意行为特征之前,还包括:利用多种杀毒引擎,对训练样本集中训练样本的标签信息进行校正。
9、进一步的,所述方法还包括:
10、当所述校正失败时,计算该训练样本与所述训练样本集中其它训练样本的特征相似度;
11、将相似度最大且满足预设的第一相似度阈值的其它训练样本的标签信息,作为该训练样本最终的标签信息。
12、进一步的,在提取训练样本集中训练样本的恶意行为特征之前,还包括:
13、计算训练样本集中未知标签信息的目标训练样本的特征与恶意家族特征的相似度;
14、将相似度最大且满足预设的第二相似度阈值的恶意家族特征所对应的标签信息,作为所述目标训练样本的标签信息。
15、进一步的,在利用训练样本集中训练样本的恶意行为特征及其标签信息,对恶意软件识别模型进行训练之前,所述方法还包括:对所提取的恶意行为特征进行降维处理。
16、进一步的,利用训练样本集中训练样本的恶意行为特征及其标签信息,对恶意软件识别模型进行训练,包括:
17、划分训练样本集中训练样本的类型,其中不同类型的训练样本对应不同的恶意软件识别子模型;
18、针对所划分的每种类型:利用该种类型的训练样本的恶意行为特征及其标签信息,对所对应的恶意软件识别子模型进行训练。
19、进一步的,在对所对应的恶意软件识别子模型进行训练之后,所述方法还包括:
20、如果恶意软件识别子模型识别测试样本是否为恶意软件时,无法得到预期的识别结果,则增加新的恶意行为特征,重新训练该恶意软件识别子模型。
21、进一步的,对所对应的恶意软件识别子模型进行训练,包括:采用集成学习算法,对所对应的恶意软件识别子模型进行训练。
22、第二方面,本发明实施例提供一种恶意软件识别装置,所述装置包括:
23、样本获取单元,用于获取预设数量的恶意训练样本和良性训练样本,组成训练样本集;
24、样本特征提取单元,用于提取训练样本集中训练样本的恶意行为特征,其中该特征包括语义层特征和/或启发层特征;
25、模型训练单元,用于利用训练样本集中训练样本的恶意行为特征及其标签信息,对恶意软件识别模型进行训练;
26、软件识别单元,用于基于训练后的恶意软件识别模型,识别待识别软件是否为恶意软件。
27、进一步的,所述样本获取单元还用于:在样本特征提取单元提取训练样本集中训练样本的恶意行为特征之前,对训练样本集中的训练样本进行去重处理。
28、进一步的,所述样本获取单元还用于:在样本特征提取单元提取训练样本集中训练样本的恶意行为特征之前,利用多种杀毒引擎,对训练样本集中训练样本的标签信息进行校正。
29、进一步的,所述样本获取单元还用于:
30、当所述校正失败时,计算该训练样本与所述训练样本集中其它训练样本的特征相似度;
31、将相似度最大且满足预设的第一相似度阈值的其它训练样本的标签信息,作为该训练样本最终的标签信息。
32、进一步的,所述样本获取单元还用于在样本特征提取单元提取训练样本集中训练样本的恶意行为特征之前:
33、计算训练样本集中未知标签信息的目标训练样本的特征与恶意家族特征的相似度;
34、将相似度最大且满足预设的第二相似度阈值的恶意家族特征所对应的标签信息,作为所述目标训练样本的标签信息。
35、进一步的,所述样本特征提取单元还用于:在模型训练单元利用训练样本集中训练样本的恶意行为特征及其标签信息,对恶意软件识别模型进行训练之前,对所提取的恶意行为特征进行降维处理。
36、进一步的,所述模型训练单元用于利用训练样本集中训练样本的恶意行为特征及其标签信息,对恶意软件识别模型进行训练,包括:
37、划分训练样本集中训练样本的类型,其中不同类型的训练样本对应不同的恶意软件识别子模型;
38、针对所划分的每种类型:利用该种类型的训练样本的恶意行为特征及其标签信息,对所对应的恶意软件识别子模型进行训练。
39、进一步的,所述模型训练单元还用于在对所对应的恶意软件识别子模型进行训练之后:如果恶意软件识别子模型识别测试样本是否为恶意软件时,无法得到预期的识别结果,则增加新的恶意行为特征,重新训练该恶意软件识别子模型。
40、进一步的,所述模型训练单元用于对所对应的恶意软件识别子模型进行训练,包括:采用集成学习算法,对所对应的恶意软件识别子模型进行训练。
41、第三方面,本发明实施例提供一种电子设备,所述电子设备包括:壳体、处理器、存储器、电路板和电源电路,其中,电路板安置在壳体围成的空间内部,处理器和存储器设置在电路板上;电源电路,用于为上述电子设备的各个电路或器件供电;存储器用于存储可执行程序代码;处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,用于执行前述第一方面所述的恶意软件识别方法。
42、第四方面,本发明的实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个中央处理器执行,以实现前述第一方面所述的恶意软件识别方法。
43、本发明实施例提供的技术方案,选用海量的恶意样本和良性样本,保证了训练样本的多样性,在参与模型训练的恶意行为特征中融入深度启发特征、语义特征,突破了传统特征表达深度不足的限制,能够一定程度上提高恶意软件识别模型所识别的准确率。另外,优选方案还从现实环境中恶意样本对抗的复杂性出发,创新性引入多模型分层判定和集成学习模式,恶意样本误报率极低,并且识别准确率和泛化能力都实现较大提升。