本发明涉及一种电气互联系统虚假数据注入攻击检测方法及装置,具体是一种基于改进随机森林算法的电气互联系统fdia攻击检测方法。
背景技术:
1、综合能源系统如今融合了多能源技术和网络技术,组成了由智能仪表、传感器和计算技术等有机联合的整体。正由于系统的高度复杂度,使系统遭受各方面攻击的几率大大提高。虚假数据注入攻击(fdia)的概念最初是在智能电网领域引入的。虽然这个术语听起来很常见,但它具体指的是攻击者以一种不容易被发现的方式破坏传感器读数,从而将未检测到的错误引入到状态变量和值的计算中。由于电网和气网、热网的联系密切,fdia逐渐侵入综合能源系统,必须提高防范意识,完善防范网络攻击的机制。
技术实现思路
1、目的:为了克服现有技术中存在的不足,本发明公开一种电气互联系统虚假数据注入攻击检测方法及装置,通过电气互联系统中提取的特征向量生成训练集和测试集,在训练集的取样中加入权重的考虑,然后根据随机森林算法对特征向量进行判断,是否受到了虚假数据注入攻击。
2、技术方案:为解决上述技术问题,本发明采用的技术方案为:
3、第一方面,本发明提供一种电气互联系统虚假数据注入攻击检测方法,包括:
4、提取电气互联系统的节点状态变量构建数据集;
5、将所述数据集进行bootstrap抽样得到训练集和测试集;
6、计算训练集中每个特征的权重,根据计算得到的权重对训练集数据特征进行精简;
7、利用精简后的训练集进行训练生成随机森林模型;
8、将测试集数据输入所述随机森林模型,根据所述随机森林模型的输出确定虚假数据注入攻击检测结果。
9、在一些实施例中,所述电气互联系统的节点状态变量包括电网的节点电压、有功功率、气网的节点进出流量和压力。
10、在一些实施例中,将数据集进行bootstrap抽样得到与原数据集分布相似的训练集d和测试集。
11、在一些实施例中,计算训练集中每个特征的权重,根据计算得到的权重对训练集数据特征进行精简,包括:
12、设训练集d中第k类样本所占比例为pk,k=1,2,…,n,训练集d的信息熵ent(d)定义为:
13、
14、设离散属性a有v个可能的取值{a1,a2,…,av},用a对训练集d来划分,产生v个子集,第v个子集中包含d中所有在属性a上取值为av的样本,记为dv,计算出dv的信息熵;
15、不同子集包含的样本数不同,给子集赋予权重即样本越多的子集影响越大;计算出用属性a对训练集d进行划分得到的信息增益gain(d,a):
16、
17、根据训练集d上第j个特征aj,1≤j≤k;计算出每个特征aj在训练集d下的信息增益gain(d,aj),由此得到k个信息增益值,对k个信息增益值进行归一化处理,得到每个特征的权重wj:
18、
19、得到所有特征的权重之后,选择权重较大的前m个特征,作为精简后的训练集数据特征组成。
20、在一些实施例中,利用精简后的训练集进行训练生成随机森林模型,包括:
21、s401、从精简后的训练集中随机抽取n个样本,对每个样本的f个特征的基尼指数进行计算;
22、s402、根据计算得到的特征的基尼指数建立决策树;
23、s403、重复步骤s401至步骤s402,直至决策树数目达到设定要求;
24、s404、基于所有的决策树生成随机森林模型。
25、进一步地,在一些实施例中,对每个样本的f个特征的基尼指数进行计算包括:
26、
27、其中,gini(p)代表样本特征的基尼指数,f代表样本特征种类,pf代表样本根据第f个特征分类正确的概率。
28、在一些实施例中,将测试集数据输入所述随机森林模型,根据所述随机森林模型的输出确定虚假数据注入攻击检测结果,包括:将测试集中的数据逐个放进随机森林中进行划分,当节点状态子集个数v=1时,判断该数据为异常数据,则电气互联系统的该节点受到了虚假数据注入攻击。
29、第二方面,本发明提供了一种电气互联系统虚假数据注入攻击检测系统,包括:
30、节点状态变量提取模块,被配置为:提取电气互联系统的节点状态变量构建数据集;
31、数据集抽样模块,被配置为:将所述数据集进行bootstrap抽样得到训练集和测试集;
32、训练集数据特征精简模块,被配置为:计算训练集中每个特征的权重,根据计算得到的权重对训练集数据特征进行精简;
33、模型生成模块,被配置为:利用精简后的训练集进行训练生成随机森林模型;
34、攻击检测模块,被配置为:将测试集数据输入所述随机森林模型,根据所述随机森林模型的输出确定虚假数据注入攻击检测结果。
35、第三方面,本发明提供了一种电气互联系统虚假数据注入攻击检测装置,包括处理器及存储介质;
36、所述存储介质用于存储指令;
37、所述处理器用于根据所述指令进行操作以执行根据第一方面所述方法的步骤。
38、第四方面,本发明提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述方法的步骤。
39、有益效果:
40、本发明提供的一种基于改进随机森林算法的电气互联系统虚假数据注入攻击检测方法及装置,具有以下优点:随机森林算法是一种常用且有效的分类方法。用机器学习算法对电气互联系统的fdia攻击进行检测时,可将问题视作一个二分类问题,即系统是否遭受攻击,而不需设置阈值来判断。但在数据集的抽样中,随机森林算法是对样本进行随机的有放回抽样,而数据集存在大占比类型和小占比类型,会降低小占比类别的分类精度。因此对随机森林方法进行改进,不再随机抽样,而是根据权重,选取对分类影响大的特征向量,降低了计算量,提高了计算精度。本方法对电气互联系统遭受的fdia攻击进行检测,检测成功率更高,为我国综合能源系统安全助力。
1.一种电气互联系统虚假数据注入攻击检测方法,其特征在于,包括:
2.根据权利要求1所述的一种电气互联系统虚假数据注入攻击检测方法,其特征在于,所述电气互联系统的节点状态变量包括电网的节点电压、有功功率、气网的节点进出流量和压力。
3.根据权利要求1所述的一种电气互联系统虚假数据注入攻击检测方法,其特征在于,将数据集进行bootstrap抽样得到与原数据集分布相似的训练集d和测试集。
4.根据权利要求1所述的一种电气互联系统虚假数据注入攻击检测方法,其特征在于,计算训练集中每个特征的权重,根据计算得到的权重对训练集数据特征进行精简,包括:
5.根据权利要求1所述的一种电气互联系统虚假数据注入攻击检测方法,其特征在于,利用精简后的训练集进行训练生成随机森林模型,包括:
6.根据权利要求5所述的一种电气互联系统虚假数据注入攻击检测方法,其特征在于,对每个样本的f个特征的基尼指数进行计算包括:
7.一种电气互联系统虚假数据注入攻击检测系统,其特征在于,包括:
8.根据权利要求1所述的一种电气互联系统虚假数据注入攻击检测方法,其特征在于,将测试集数据输入所述随机森林模型,根据所述随机森林模型的输出确定虚假数据注入攻击检测结果,包括:
9.一种电气互联系统虚假数据注入攻击检测装置,其特征在于,包括处理器及存储介质;
10.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。