日志的风险类型确定方法、装置及电子设备与流程

文档序号:37298271发布日期:2024-03-13 20:46阅读:14来源:国知局
日志的风险类型确定方法、装置及电子设备与流程

本发明涉及数据处理领域,具体而言,涉及一种日志的风险类型确定方法、装置及电子设备。


背景技术:

1、随着网络信息技术的高速发展,在为人们提供便捷和效率的同时,大家忽略了网络上的风险问题。近年来,网络安全事件频发,网络攻击层出不穷,网络安全也渐渐被提升到更高的高度进行风险防范。然而互联网的数据数以亿计,目前许多网络攻击的风险检测和发现都是通过网络设备的日志进行分析。由于网络的日志信息通常也是海量的,导致无法一一通过人工审核来判断网络安全风险。

2、随着机器学习和深度学习的快速发展,越来越多的模型被用于网络安全的风险检测。尽管这些模型在网络安全领域取得了巨大的进展,但依然存在一些问题,比如,传统的机器学习算法模型在不同风险下的特征区分度不够、区分能力不强。另外,传统的机器学习算法模型需要大量的人工标注的监督数据用于训练,而人工标注在实际应用中是十分昂贵且耗时的。

3、针对上述的问题,目前尚未提出有效的解决方案。


技术实现思路

1、本发明实施例提供了一种日志的风险类型确定方法、装置及电子设备,以至少解决相关技术使用模型对日志的风险进行预测时,存在模型训练数据要求高的技术问题。

2、根据本发明实施例的一个方面,提供了一种日志的风险类型确定方法,包括:获取目标日志;将所述目标日志输入至风险类型预测模型中,得到所述目标日志的风险类型,其中,所述风险类型预测模型通过如下方式训练得到:获取第一样本数据与第二样本数据,其中,所述第一样本数据为有标签标注的样本数据,标签标注与样本数据对应的风险类型,所述第二样本数据为没有标签标注的样本数据;调取与所述第一样本数据对应的第一损失函数,以及与第二样本数据对应的第二损失函数;基于所述第一损失函数与所述第二损失函数,采用第一样本数据与所述第二样本数据对初始模型进行训练,得到所述风险类型预测模型。

3、可选地,所述将所述目标日志输入至风险类型预测模型中,得到所述目标日志的风险类型之前,还包括:确定第一损失函数项,第二损失函数项以及第三损失函数项,其中,所述第一损失函数项用于最小化所述第一样本数据中,相同风险类型的样本数据之间的差距,并最大化所述第一样本数据中,不同风险类型的样本数据之间的差距,所述第二损失函数项用于最小化所述第一样本数据与第一解码数据之间的距离,所述第一解码数据为对所述第一样本数据进行编码解码操作后得到的数据,所述第三损失函数项用于最小化第一预测结果与第一实际结果之间的差距,所述第一预测结果为对所述第一样本数据进行风险分类预测后得到的预测风险类型,所述第一实际结果为所述第一样本数据标签标注的实际风险类型;依据所述第一损失函数项,所述第二损失函数项以及所述第三损失函数项,构建所述第一损失函数。

4、可选地,所述将所述目标日志输入至风险类型预测模型中,得到所述目标日志的风险类型之前,还包括:确定第四损失函数项与第五损失函数项,其中,所述第四损失函数项用于最小化第二样本数据与第二解码数据之间的距离,所述第二解码数据为对所述第二样本数据进行编码解码操作后得到的数据,所述第五损失函数项用于最小化第二预测结果与第二伪实际结果之间的差距,所述第二伪实际结果为第三样本数据伪标签标注的伪实际风险类型,所述第二预测结果为对第四样本数据进行风险分类预测后得到的预测风险类型,所述第三样本数据为依据所述第二样本数据确定得到的,所述第四样本为依据所述第二样本数据与所述第三样本数据确定得到的;依据所述第四损失函数项与所述第五损失函数项,确定所述第二损失函数。

5、可选地,所述确定第四损失函数项与第五损失函数项之前,还包括:对所述第二样本数据进行风险分类预测,得到与所述第二样本数据对应的预测风险类别,以及对应的预测准确概率;从所述第二样本数据中,确定出对应的预测准确概率大于预定阈值的样本数据,得到伪实际样本数据,其中,所述预定阈值为与对应的风险类别对应的阈值;以对应的伪标签标注所述伪实际样本数据,得到所述第三样本数据,其中,伪标签标注预测出的与样本数据对应的伪实际风险类型。

6、可选地,所述确定第四损失函数项与第五损失函数项之前,还包括:复制所述第二样本数据,得到复制样本数据;从所述复制样本数据中,确定出与所述第三样本数据对应的样本数据作为所述第四样本数据。

7、可选地,所述确定第一损失函数项,包括:提取所述第一样本数据的特征,得到第一样本特征;将所述第一样本特征投影至预定空间,得到第二样本特征;从所述第二样本特征中,确定出多组具备相同标签的相同标签特征;依据多组相同标签特征以及与多组相同标签特征分别对应的其他特征,确定与多组相同标签特征分别对应的子损失函数项,其中,所述对应的子损失函数项用于最小化所述第一样本数据中,对应相同的风险类型的样本数据之间的差距和最大化所述第一样本数据中,不同风险类型的样本数据之间的差距;依据多个子损失函数项,确定所述第一损失函数项。

8、可选地,所述将所述目标日志输入至风险类型预测模型中,得到所述目标日志的风险类型,包括:基于所述第一损失函数与所述第二损失函数,采用第一样本数据与所述第二样本数据对初始模型进行训练,得到验证模型;使用验证样本数据对所述验证模型进行验证,得到模型准确率;在所述模型准确率大于预定准确阈值的情况下,得到所述风险类型预测模型。

9、根据本发明实施例的一个方面,提供了一种日志的风险类型确定装置,包括:获取模块,用于获取目标日志;预测模块,用于将所述目标日志输入至风险类型预测模型中,得到所述目标日志的风险类型,其中,所述风险类型预测模型通过如下方式训练得到:获取第一样本数据与第二样本数据,其中,所述第一样本数据为有标签标注的样本数据,标签标注与样本数据对应的风险类型,所述第二样本数据为没有标签标注的样本数据;调取与所述第一样本数据对应的第一损失函数,以及与第二样本数据对应的第二损失函数;基于所述第一损失函数与所述第二损失函数,采用第一样本数据与所述第二样本数据对初始模型进行训练,得到所述风险类型预测模型。

10、根据本发明实施例的一个方面,提供了一种电子设备,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现上述任一项所述的日志的风险类型确定方法。

11、根据本发明实施例的一个方面,提供了一种计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行上述任一项所述的日志的风险类型确定方法。

12、在本发明实施例中,获取目标日志,将目标日志输入至风险类型预测模型中,得到目标日志的风险类型。由于风险类型预测模型通过如下方式训练得到:获取第一样本数据与第二样本数据,其中,第一样本数据为有标签标注的样本数据,标签标注与样本数据对应的风险类型,第二样本数据为没有标签标注的样本数据;调取与第一样本数据对应的第一损失函数,以及与第二样本数据对应的第二损失函数;基于第一损失函数与第二损失函数,采用第一样本数据与第二样本数据对初始模型进行训练,得到风险类型预测模型。可知,本技术所提供的风险类型预测模型是使用有标签标注的第一样本数据与没有标签标注的第二样本数据协同训练的,提出使用半监督学习,将训练数据分为有标签数据和无标签数据。避免了只用有标注的数据进行训练时需要耗费大量人力物力进行人工标注所带来的耗费极大的人力和时间的问题,同时也解决了人工标注数据不够的问题。进而解决了相关技术使用模型对日志的风险进行预测时,存在模型训练数据要求高的技术问题。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1