本发明涉及数据处理,具体涉及一种区域级综合能源大规模数据清洗方法。
背景技术:
1、采集能源数据的过程中的电磁干扰,温度变化等外界环境因素,或者采集的能源数据在传输局的过程中发生信号干扰等情况,使得部分采集到的能源数据错误,即能源数据中存在异常数据,而传统的利用孤立森林算法获取能源数据中的异常数据,是通过不断进行分割迭代才能够将能源数据中的异常数据分割出来,但是由于区域级的能源数据数量多,使得传统的孤立森林算法获取异常数据需要进行多次迭代才能获取异常数据,即传统的孤立森林算法获取异常数据的效率低下,导致对能源大规模数据清洗的效率低,而为了提高对能源大规模数据清洗的效率,本技术通过缩小孤立森林算法中根节点的选取范围,达到提高数据清洗效率的目的。
技术实现思路
1、本发明提供一种区域级综合能源大规模数据清洗方法,以解决现有的问题:传统的孤立森林算法获取异常数据的效率低下,导致对能源大规模数据清洗的效率低。
2、本发明的一种区域级综合能源大规模数据清洗方法采用如下技术方案:
3、包括以下步骤:
4、采集若干个连续时刻下供电系统的不同类型的电力数据分别形成的序列,统称为电力数据序列,将任意电力数据序列划分为若干个电力数据段;
5、根据每个电力数据段中的数据的数值差异筛选出电力数据段中的疑似异常电力数据段;
6、根据疑似异常电力数据段中的相邻数据之间的差异,计算疑似异常电力数据段中每个数据的变化程度;根据疑似异常电力数据段中每个数据的变化程度,获取疑似异常电力数据段中每个疑似异常电力数据;根据疑似异常电力数据所对应的其他类型的电力数据的差异,计算每个疑似异常电力数据变化的无理程度;根据疑似异常电力数据变化的无理程度,获取疑似异常电力数据的正常程度;
7、根据疑似异常电力数据的正常程度,获取对疑似异常电力数据段进行孤立森林算法中的根节点的选取范围,根据对疑似异常电力数据段进行孤立森林算法中的根节点的选取范围,获取疑似异常电力数据段中的异常数据,对电力数据进行清洗。
8、优选的,所述将任意电力数据序列划分为若干个电力数据段,包括的具体方法为:
9、预设两个时刻点与,电力数据序列中所有位于到时间段内的电力数据形成的序列记为高电力数据段,将电力数据序列中所有位于到时间段内的电力数据形成的序列记为低电力数据段,得到若干个高电力数据段与低电力数据段,并将高电力数据段与低电力数据段,统称得到电力数据段。
10、优选的,所述根据每个电力数据段中的数据的数值差异筛选出电力数据段中的疑似异常电力数据段,包括的具体方法为:
11、将高电力数据段与低电力数据段分别记为两类不同的电力数据段;
12、对于第种类型的第类电力数据段中第个电力数据段,首先获取第种类型的第类电力数据段中第个电力数据段中所有电力数据的均值,然后获取第种类型的第类电力数据段中除第个电力数据段外每个电力数据段中所有电力数据的均值;根据获取第种类型的第类电力数据段中第个电力数据段中所有电力数据的均值,以及第种类型的第类电力数据段中除第个电力数据段外每个电力数据段中所有电力数据的均值,计算第种类型的第类电力数据段中第个电力数据段的异常程度;
13、预设一个异常程度阈值,当第种类型的第类电力数据段中第个电力数据段的异常程度大于,则第种类型的第类电力数据段中第个电力数据段为疑似异常电力数据段。
14、优选的,所述获取第种类型的第类电力数据段中第个电力数据段中所有电力数据的均值,以及第种类型的第类电力数据段中除第个电力数据段外每个电力数据段中所有电力数据的均值,计算第种类型的第类电力数据段中第个电力数据段的异常程度,包括的具体计算公式为:
15、
16、式中,表示第种类型的第类电力数据段中第个电力数据段的异常程度;表示第种类型的第类电力数据段中第个电力数据段中所有电力数据的均值;表示第种类型的第类电力数据段中除第个电力数据段外每个电力数据段中所有电力数据的均值;表示第种类型的第类电力数据段的数量;表示线性归一化函数;表示绝对值运算。
17、优选的,所述根据疑似异常电力数据段中的相邻数据之间的差异,计算疑似异常电力数据段中每个数据的变化程度,包括的具体方法为:
18、对于第个疑似异常电力数据段中的第个数据,将第个疑似异常电力数据段中的第个数据,减去第个疑似异常电力数据段中的第个数据的绝对值,除以第个疑似异常电力数据段中的第个数据,将得到的商作为第个疑似异常电力数据段中的第个数据的变化程度。
19、优选的,所述根据疑似异常电力数据段中每个数据的变化程度,获取疑似异常电力数据段中每个疑似异常电力数据,包括的具体方法为:
20、预设一个变化程度阈值;对于第个疑似异常电力数据段中的第个数据,当第个疑似异常电力数据段中的第个数据的变化程度大于,将第个疑似异常电力数据段中的第个数据记为疑似异常电力数据,所述疑似异常电力数据包括疑似异常功率数据与疑似异常电流数据。
21、优选的,所述根据疑似异常电力数据所对应的其他类型的电力数据的差异,计算每个疑似异常电力数据变化的无理程度,包括的具体方法为:
22、对于第个疑似异常功率数据,获取第个疑似异常功率数据的前一个功率数据,获取第个疑似异常功率数据所对应的电压数据与电流数据、第个疑似异常功率数据的前一个功率数据所对应的电压数据与电流数据,根据第个疑似异常功率数据、第个疑似异常功率数据的前一个功率数据、第个疑似异常功率数据所对应的电压数据与电流数据、第个疑似异常功率数据的前一个功率数据所对应的电压数据与电流数据,计算第个疑似异常功率数据变化的无理程度,其具体的计算公式为:
23、
24、式中,表示第个疑似异常功率数据变化的无理程度;表示第个疑似异常功率数据;表示第个疑似异常功率数据的前一个功率数据;表示第个疑似异常功率数据所对应的电压数据;表示第个疑似异常功率数据所对应的电流数据;表示第个疑似异常功率数据的前一个功率数据所对应的电压数据;表示第个疑似异常功率数据的前一个功率数据所对应的电流数据;表示线性归一化函数;
25、对于第个疑似异常电流数据,获取第个疑似异常电流数据的前一个电流数据,获取第个疑似异常电流数据所对应的电压数据与功率数据、第个疑似异常电流数据的前一个电流数据所对应的电压数据与功率数据,根据第个疑似异常电流数据、第个疑似异常电流数据的前一个电流数据、第个疑似异常电流数据所对应的电压数据与功率数据、第个疑似异常电流数据的前一个电流数据所对应的电压数据与功率数据,计算第个疑似异常电流数据变化的无理程度,其具体的计算公式为:
26、
27、式中,表示第个疑似异常电流数据变化的无理程度;表示第个疑似异常电流数据;表示第个疑似异常电流数据的前一个电流数据;表示第个疑似异常电流数据所对应的功率数据;表示第个疑似异常电流数据所对应的电压数据;表示第个疑似异常电流数据的前一个电流数据所对应的功率数据;表示第个疑似异常电流数据的前一个电流数据所对应的电压数据。
28、优选的,所述根据疑似异常电力数据变化的无理程度,获取疑似异常电力数据的正常程度,包括的具体方法为:
29、计算疑似异常电流数据段中的疑似异常电流数据的正常程度,与计算疑似异常功率数据段中的疑似异常功率数据的正常程度相同;
30、对于第个疑似异常功率数据段中第个疑似异常功率数据,获取第个疑似异常功率数据段中第个疑似异常功率数据的变化的无理程度,结合第个疑似异常功率数据段中的所有功率数据,计算第个疑似异常功率数据段中第个疑似异常功率数据的正常程度,其具体的计算过程为:
31、
32、式中,表示第个疑似异常功率数据段中第个疑似异常功率数据的正常程度;表示第个疑似异常功率数据段中所有功率数据的均值;表示第个疑似异常功率数据段中第个疑似异常功率数据;表示第个疑似异常功率数据段中第个疑似异常功率数据;表示第个疑似异常功率数据段中第个疑似异常功率数据变化的无理程度;表示线性归一化程。
33、优选的,所述根据疑似异常电力数据的正常程度,获取对疑似异常电力数据段进行孤立森林算法中的根节点的选取范围,包括的具体方法为:
34、获取疑似异常电力数据段中每个疑似异常电力数据的正常程度,然后预设一个阈值,将疑似异常电力数据段中正常程度小于的疑似异常电力数据,记为异常电力数据,得到若干异常电力数据,将若干异常电力数据中,最小的异常电力数据到最大的异常电力数据的数据范围,作为对疑似异常电力数据段进行孤立森林算法中的根节点的选取范围;得到所有对疑似异常电力数据段进行孤立森林算法中的根节点的选取范围。
35、优选的,所述根据对疑似异常电力数据段进行孤立森林算法中的根节点的选取范围,获取疑似异常电力数据段中的异常数据,对电力数据进行清洗,包括的具体方法为:
36、将疑似异常电力数据段中,最小的异常电力数据到最大的异常电力数据的数据范围,作为对疑似异常电力数据段进行孤立森林算法中的根节点的选取范围,利用孤立森林算法检测每个疑似异常电力数据段中的异常数据,得到若干疑似异常电力数据段中的异常数据,将疑似异常电力数据段中的异常数据去除,并使用均值填充法填充异常电力数据段中的空白处,完成对能源数据的清洗。
37、本发明的技术方案的有益效果是:本技术通过先对数据进行分段,得到若干电力数据段,根据电力数据段中的数据,获取疑似异常电力数据段,以此减少所需要分析的数据段,提高数据清洗效率,然后进一步的分析每个疑似异常电力数据段中的数据,缩小对疑似异常电力数据段进行孤立森林算法中的根节点的选取范围,使孤立森林算法能够更加容易的将异常数据分割出来,达到提高数据清洗效率的目的。