本发明涉及网络安全,尤其涉及一种电力系统网络安全攻击预测方法、系统及存储介质。
背景技术:
1、电力系统网络安全攻击预测技术是指利用数据分析和机器学习方法,现有通常使用深度学习模型对电力系统网络中的安全事件和攻击进行预测和检测的技术。首先,深度学习模型通常是黑盒模型,很难以理解模型如何根据输入数据做出预测和判断,从而限制了对攻击预测过程的可解释性和可理解性,进而降低了对攻击行为的分析的准确度以及相应的安全措施的采取判断的准确度。其次,深度学习模型通常需要大量的计算资源和时间来进行训练和推断。特别是在实时预测和检测的场景下,模型可能需要在短时间内快速处理大量的实时数据,进而限制了计算资源,降低了模型推断的效率。另外,深度学习模型在某些情况下可能会受到对抗性攻击的影响,即攻击者通过对输入数据进行微小的扰动,导致模型产生错误的预测结果,干扰预测的准确性,使得攻击者可能会针对模型进行有针对性的攻击。
技术实现思路
1、本发明提供了一种电力系统网络安全攻击预测方法、系统及存储介质,以提高电力系统网络安全攻击预测的准确性和稳定性。
2、本发明提供了一种电力系统网络安全攻击预测方法,包括:
3、获取电力系统的网络安全数据,对每个所述网络安全数据提取若干个特征数据;将所述特征数据输入随机森林预测回归模型,以使每个决策树输出目标变量值;将所述目标变量值取平均值作为攻击事件数量预测值;
4、所述随机森林预测回归模型利用时间序列特征和目标变量训练而来;在所述随机森林预测回归模型进行训练之前,将若干个时间步的训练特征数据作为滑动窗口的输入,将所述训练特征数据在每个时间步产生攻击事件数量作为输出,获得时间序列特征和目标变量作为训练数据集。
5、进一步地,将若干个时间步的训练特征数据作为滑动窗口的输入之前,还包括:
6、获取电力系统的训练数据,对每个训练数据提取若干个训练特征数据;根据每个时间步的训练特征数据,构建第一矩阵;其中,所述第一矩阵的每个矩阵行表示每个时间步的训练特征数据;
7、所述第一矩阵表达式为:
8、
9、其中,c为第一矩阵;n表示网络安全数据的样本数量,m表示每个所述网络安全数据的特征数据的数量,所述第一矩阵的cnm值表示在某个时间间隔内电力系统的训练数据集中第n个样本的第m个特征的观测值;
10、对所述第一矩阵进行平滑处理,生成第二矩阵;根据所述第二矩阵中每个时间步产生攻击事件数量生成目标集。
11、进一步地,对所述第一矩阵进行平滑处理,生成第二矩阵;根据所述第二矩阵中每个时间步产生攻击事件数量生成目标集,具体为:
12、利用平滑因子对第一矩阵中每个特征的观测值进行平滑处理,生成每个所述特征的平滑值;根据每个所述特征的平滑值,生成第二矩阵;其中,所述第二矩阵的每个矩阵行表示每个时间步的特征的平滑值;
13、平滑处理后的特征的观测值的表达式为:
14、x=α·c+(1-α)·c';
15、其中,α为平滑因子,c表示当前特征的观测值,c′表示上一个时间步长的特征的平滑值,x表示输出的当前特征的平滑值;
16、所述第二矩阵的表达式为:
17、
18、x为第二矩阵,所述第二矩阵的xnm值表示在某个时间间隔内电力系统的训练数据集中第n个样本的第m个特征的平滑值;
19、根据每个时间步的样本产生的攻击事件数量,生成目标集;
20、所述目标集的表达式为:
21、y=(y1 y2…yn)t;
22、y为目标集,yn为第n个样本产生的攻击事件数量。
23、进一步地,将若干个时间步的训练特征数据作为滑动窗口的输入,将所述训练特征数据在每个时间步产生攻击事件数量作为输出,获得时间序列特征和目标变量作为训练数据集,具体为:
24、将若干个时间步的训练特征数据作为滑动窗口的输入,将下一时间步的攻击事件数量作为输出进行预测,以使若干个时间步的训练特征数据和对应的攻击事件数量进行数据时间序列化处理,获得时间序列特征和对应的目标变量,并将所述时间序列特征和目标变量作为随机森林预测回归模型的训练数据集。
25、进一步地,随机森林预测回归模型利用时间序列特征和目标变量训练而来,具体为:
26、利用bootstrap重采样方式从训练数据集中有放回的采集若干次训练数据,生成的样本子集;根据所述样本子集,构建若干棵决策树,并获得每棵所述决策树产生的袋外样本数据;根据每棵所述决策树产生的袋外样本数据,分别构建若干棵对应的决策回归树;
27、根据目标变量获得所述袋外样本数据的实际值;将所述袋外样本数据输入每棵所述决策树进行预测,生成若干个预测值;将所述预测值与实际值的差值的绝对值作为每个所述预测值的误差值,并取每个所述预测值的误差值的平均值作为袋外误差值;调整每棵所述决策树的数量参数和深度参数,直到调整后生成的袋外误差值与调整前的袋外误差值的差值小于预设阈值,生成随机森林预测回归模型。
28、进一步地,根据每棵所述决策树产生的袋外样本数据,分别构建若干棵对应的决策回归树,具体为:
29、根据决策树的样本集构建二叉树,从所述二叉树的根节点开始,根据所述决策树的特征集中的第一特征作所述二叉树的切分点,将所述样本集中的每个样本分成左集合和右集合,并计算左集合均方误差和右集合均方误差;
30、选择左集合均方误差和右集合均方误差之和最小的切分点作为第一特征的最优切分点;依次计算所述特征集中每个特征下的最优切分点,比较在最优切分下每个特征的均方误差,选择均方误差最小的特征作为最优特征;
31、在当前节点中生成两个子节点,将最优特征的最优切分点匹配到两个子节点中,对两个子节点中的集合再次进行下一次切分,并寻找在下一次切分中的最优切分点和最优特征,直至树的深度达到最大深度,生成对应的决策回归树。
32、作为优选方案,本发明通过特征提取和时间窗口的方法,将时间序列数据转化为适用于随机森林算法的训练样本。利用训练好的随机森林预测回归模型对电力系统网络安全攻击进行预测,随机森林预测回归模型能够处理具有时间依赖性和趋势性的数据,适用于时间序列预测问题,并且其预测结果可以基于多个决策树的综合,提高了预测的准确性和稳定性。另外,随机森林算法具有较强的泛化能力,能够处理输入的网络安全数据的高维特征和复杂关系,进一步提高了预测的准确性。
33、本发明的其他特征和优点将在随后的具体实施方式部分予以详细说明。
34、相应地,本发明还提供一种电力系统网络安全攻击预测系统,包括:数据收集模块、数据预处理模块、时间序列特征构建模块、模块训练模块、模型预测模块和可视化告警模块;
35、所述数据收集模块用于获取电力系统的网络安全数据和训练数据集;
36、所述时间序列特征构建模块用于将若干个时间步的训练特征数据作为滑动窗口的输入,将所述训练特征数据在每个时间步产生攻击事件数量作为输出,获得时间序列特征和目标变量作为训练数据集;
37、所述模块训练模块用于利用时间序列特征和目标变量训练随机森林预测回归模型;
38、所述模型预测模块用于将所述特征数据输入随机森林预测回归模型,以使每个决策树输出目标变量值;将所述目标变量值取平均值作为攻击事件数量预测值;
39、所述可视化告警模块用于将随机森林预测回归模型的预测结果可视化,并触发相应的报警和告警系统。
40、进一步地,数据预处理模块包括:特征提取单元和输入数据处理单元;
41、所述特征提取单元用于对每个所述网络安全数据提取若干个特征数据;对训练数据集中每个训练数据提取若干个训练特征数据;
42、所述输入数据处理单元用于根据每个时间步的训练特征数据,构建第一矩阵;其中,所述第一矩阵的每个矩阵行表示每个时间步的训练特征数据;
43、所述第一矩阵表达式为:
44、
45、其中,c为第一矩阵;n表示网络安全数据的样本数量,m表示每个所述网络安全数据的特征数据的数量,所述第一矩阵的cnm值表示在某个时间间隔内电力系统的训练数据集中第n个样本的第m个特征的观测值。
46、进一步地,时间序列特征构建模块包括:平滑处理单元和时间序列特征构建单元;
47、所述平滑处理单元用于利用平滑因子对第一矩阵中每个特征的观测值进行平滑处理,生成每个所述特征的平滑值;根据每个所述特征的平滑值,生成第二矩阵;其中,所述第二矩阵的每个矩阵行表示每个时间步的特征的平滑值;
48、平滑处理后的特征的观测值的表达式为:
49、x=α·c+(1-α)·c';
50、其中,α为平滑因子,c表示当前特征的观测值,c′表示上一个时间步长的特征的平滑值,x表示输出的当前特征的平滑值;
51、所述第二矩阵的表达式为:
52、
53、x为第二矩阵,所述第二矩阵的xnm值表示在某个时间间隔内电力系统的训练数据集中第n个样本的第m个特征的平滑值;
54、根据每个时间步的样本产生的攻击事件数量,生成目标集;
55、所述目标集的表达式为:
56、y=(y1 y2…yn)t;
57、y为目标集,yn为第n个样本产生的攻击事件数量;
58、所述时间序列特征构建单元用于将若干个时间步的训练特征数据作为滑动窗口的输入,将下一时间步的攻击事件数量作为输出进行预测,以使若干个时间步的训练特征数据和对应的攻击事件数量进行数据时间序列化处理,获得时间序列特征和对应的目标变量,并将所述时间序列特征和目标变量作为随机森林预测回归模型的训练数据集。
59、进一步地,模块训练模块包括:构建单元和训练单元;
60、所述构建单元用于利用bootstrap重采样方式从训练数据集中有放回的采集若干次训练数据,生成的样本子集;根据所述样本子集,构建若干棵决策树,并获得每棵所述决策树产生的袋外样本数据;根据每棵所述决策树产生的袋外样本数据,分别构建若干棵对应的决策回归树;
61、所述训练单元用于根据目标变量获得所述袋外样本数据的实际值;将所述袋外样本数据输入每棵所述决策树进行预测,生成若干个预测值;将所述预测值与实际值的差值的绝对值作为每个所述预测值的误差值,并取每个所述预测值的误差值的平均值作为袋外误差值;调整每棵所述决策树的数量参数和深度参数,直到调整后生成的袋外误差值与调整前的袋外误差值的差值小于预设阈值,生成随机森林预测回归模型。
62、相应地,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序;其中,所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行如本
技术实现要素:
所述的一种电力系统网络安全攻击预测方法。