本发明涉及网络威胁检测领域,尤其是一种基于大模型的网络安全威胁检测方法和装置、以及电子设备和存储介质。
背景技术:
1、集散控制系统(distributed control system,dcs),又叫分布式控制系统,广泛应用于工业自动化领域,用于监控和控制生产过程。由于其重要性和复杂性,特别是随着零日攻击等多种威胁形势不断演变,dcs成为网络攻击的重要目标。目前,大模型在dcs网络威胁检测功能方面的应用还有待探索。
技术实现思路
1、针对现有技术中存在的技术问题,本发明实施例提供了一种基于大模型的网络安全威胁检测方法和装置,引入大模型技术来实现对集散控制系统dcs进行网络威胁检测,使得对dcs进行网络威胁检测更加快速、准确和智能。
2、为达到上述目的,本发明的实施例采用如下技术方案:
3、第一方面,本发明实施例提供一种基于大模型的网络安全威胁检测方法,具体包括:
4、s1:获取网络流量数据集作为训练集,并对所述训练集进行数据处理,所述数据处理包括采用主成分回归或偏最小二乘回归方法对训练集里面的输入特征进行排序,以评估特征重要性,并选择前预设数量个特征作为输入参数;
5、s2:将上述步骤中选择出来的特征作为输入参数,传入到嵌入生成函数以生成嵌入,所述嵌入生成函数利用大模型的嵌入api将网络特征转换为嵌入,即生成一组固定维度大小的向量;
6、s3:将上述步骤中生成的所述嵌入都存入向量数据库中,并将所述嵌入标记为安全类别嵌入或者恶意类别嵌入;
7、s4:获取集散控制系统dcs中的实时网络流量,并对所述实时网络流量进行与步骤s1中相同的数据处理,以选择出实时网络流量所对应的前预设数量个特征作为输入参数;
8、s5:将上述步骤中选择出来的特征作为输入,同样传入到嵌入生成函数以生成嵌入;
9、s6:并通过相似性度量判断所述嵌入是否与已存储到所述向量数据库中的任何嵌入足够相似;
10、s7:基于上述步骤中的判断结果来对所述实时网络流量进行分类,从而实现网络威胁检测。
11、可选地,使用通过在dcs系统中生成真实的攻击而创建的网络流量数据集,该网络流量数据集共分为8类:分布式拒绝服务攻击(ddos)、恶意软件攻击、sql注入攻击、数据包嗅探攻击、高级持续性威胁(apt)、零日攻击(0day)、篡改消息和伪造消息。
12、可选地,所述预设数量个特征为7个特征,包括:与前一个数据包的时间差、流中数据包的最小长度、流中数据包的最大长度、流中数据包的平均长度、流中数据包长度的总和、在相同流中设置rst标志的数据包数量和头部的长度。
13、可选地,所述大模型为openai 的gpt4.0模型。
14、可选地,所述向量数据库为开源的搜索相似性向量数据库。
15、可选地,所述相似性度量包括度量两个向量之间的距离,对于两个向量p={p1,p2,...,pn}和q={q1,q2,...,qn},我们使用如下方法来度量两个向量之间的距离:
16、
17、第二方面,本发明实施例还提供一种基于大模型的网络安全威胁检测装置,具体包括:第一获取和处理模块,用于获取网络流量数据集作为训练集,并对所述训练集进行数据处理,所述数据处理包括采用主成分回归或偏最小二乘回归方法对训练集里面的输入特征进行排序,以评估特征重要性,并选择前预设数量个特征作为输入参数;第一嵌入生成模块,用于将第一获取和处理模块选择出来的特征作为输入参数,传入到嵌入生成函数以生成嵌入,所述嵌入生成函数利用大模型的嵌入api将网络特征转换为嵌入,即生成一组固定维度大小的向量;嵌入存储和标记模块,用于将第一嵌入生成模块生成的所述嵌入都存入向量数据库中,并将所述嵌入标记为安全类别嵌入或者恶意类别嵌入;第二获取和处理模块,用于获取集散控制系统dcs中的实时网络流量,并对所述实时网络流量进行与第一获取和处理模块中相同的数据处理,以选择出实时网络流量所对应的前预设数量个特征作为输入参数;第二嵌入生成模块,用于将第二获取和处理模块选择出来的特征作为输入,同样传入到嵌入生成函数以生成嵌入;相似性度量模块,用于通过相似性度量判断所述嵌入是否与已存储到所述向量数据库中的任何嵌入足够相似;分类模块,用于基于所述判断结果来对所述实时网络流量进行分类,从而实现网络威胁检测。
18、第三方面,本发明实施例还提供一种电子设备,包括:存储器和处理器,所述存储器和所述处理器耦合;所述存储器存储有程序指令,所述程序指令由所述处理器执行时,使得所述电子设备执行上述基于大模型的网络安全威胁检测方法。
19、第四方面,本发明实施例还提供一种计算机可读存储介质,包括计算机程序,当所述计算机程序在电子设备上运行时,使得所述电子设备执行上述基于大模型的网络安全威胁检测方法。
20、在本发明实施例中,获取网络流量数据集作为训练集,并对所述训练集进行数据处理;所述数据处理包括采用主成分回归或偏最小二乘回归方法对训练集里面的输入特征进行排序,以评估特征重要性,并选择前预设数量个特征作为输入参数;将上述步骤中选择出来的特征作为输入,传入到嵌入生成函数以生成嵌入;所述嵌入生成函数利用大模型的嵌入api将网络特征转换为嵌入,即生成一组固定维度大小的向量;将上述步骤中生成的嵌入都存入向量数据库中;获取集散控制系统dcs中的实时网络流量,并对所述实时网络流量进行相同的数据处理,以选择出实时网络流量所对应的前预设数量个特征作为输入参数;将上述选择出来的特征作为输入,同样传入到嵌入生成函数以生成嵌入,并通过相似性度量判断所述嵌入是否与已存储到所述向量数据库中的任何嵌入足够相似;基于所述判断结果来对所述实时网络流量进行分类。通过引入大模型技术来实现对集散控制系统dcs进行网络威胁检测,使得对dcs进行网络威胁检测更加快速、准确和智能;此外,采用正则化回归方法从数据集中包含的大量特征中筛选出少量的比较重要的输入特征,避免阻碍模型性能导致过拟合。
21、下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
1.一种基于大模型的网络安全威胁检测方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,使用通过在所述dcs系统中生成真实的攻击而创建的网络流量数据集。
3.根据权利要求2所述的方法,其特征在于,所述网络流量数据集中的攻击共分为8类:分布式拒绝服务攻击(ddos)、恶意软件攻击、sql注入攻击、数据包嗅探攻击、高级持续性威胁(apt)、零日攻击(0day)、篡改消息和伪造消息。
4.根据权利要求1所述的方法,其特征在于,所述预设数量个特征为7个特征,包括:与前一个数据包的时间差、流中数据包的最小长度、流中数据包的最大长度、流中数据包的平均长度、流中数据包长度的总和、在相同流中设置rst标志的数据包数量和头部的长度。
5.根据权利要求1所述的方法,其特征在于,所述大模型为openai 的gpt4.0。
6.根据权利要求1所述的方法,其特征在于,所述向量数据库为开源的搜索相似性向量数据库。
7.根据权利要求1所述的方法,其特征在于,所述相似性度量包括度量两个向量之间的距离;对于两个向量p={p1,p2,...,pn}和q={q1,q2,...,qn},使用如下方法来度量两个向量之间的距离:
8.一种基于大模型的网络安全威胁检测装置,其特征在于,包括:
9.一种电子设备,其特征在于,所述电子设备包括:存储器和处理器,所述存储器和所述处理器耦合;所述存储器存储有程序指令,所述程序指令由所述处理器执行时,使得所述电子设备执行如权利要求1至7任意一项所述的方法。
10.一种计算机可读存储介质,其特征在于,包括计算机程序,当所述计算机程序在电子设备上运行时,使得所述电子设备执行如权利要求1至7任意一项所述的方法。