区域级电网多源异构数据处理及特征分析方法及设备与流程

文档序号:37581237发布日期:2024-04-18 12:03阅读:10来源:国知局
区域级电网多源异构数据处理及特征分析方法及设备与流程

本发明涉及电力系统阻塞预警,尤其涉及区域级电网多源异构数据处理及特征分析方法及设备。


背景技术:

1、电力系统表现出数据量庞大、变量错综复杂的特性,这些特点显著影响了电力系统的分析和预测模型的建立。在电力系统迅猛发展的背景下,传统的基于专家经验的分析模式逐渐无法满足日益增长的需求。与此相比,基于数据驱动的方法更能有效地应对新型电力系统的数据复杂性。然而,数据驱动方法的建立需要整合大量的数据,以构建具备强大预测能力的模型,从而使得对数据的处理变得尤为关键。区域级电网的数据特征显示出规模庞大、类型丰富的特点。在不同省级电网部门之间,信息化建设常常是独立进行的,缺乏统一的标准与规范,导致形成了各自独立的“信息孤岛”。这些“信息孤岛”之间的数据呈现出时空特性复杂且异构性严重的特点,因此需要解决多源异构信息的收集、清洗、校核和融合等问题。随着电力系统规模和复杂度的不断增加,数据量和特征数量也在迅速膨胀。这导致在电力系统的建模和预测过程中,数据的维度过高,存在大量冗余特征和干扰数据,进而影响了预测和决策的准确性和效率。因此,迫切需要对电力系统的数据进行必要的特征选择,通过对原始数据进行筛选和降维,挑选出对模型预测和分类最为关键的特征。这一步骤对于提高模型的可解释性和应用性来说至关重要,有助于更有效地应对新型电力系统面临的挑战。


技术实现思路

1、本发明提供区域级电网多源异构数据处理及特征分析方法,用以解决现有技术中在电力系统的建模和预测过程中,数据的维度过高,存在大量冗余特征和干扰数据,进而影响了预测和决策的准确性和效率的问题。

2、本发明提供区域级电网多源异构数据处理及特征分析方法,包括区域级电网多源异构数据的处理和区域级电网阻塞场景的特征选择;具体步骤如下:

3、步骤1、区域级电网多源异构数据的处理;

4、步骤1.1、数据校验与修正;

5、步骤1.2、历史数据对时与重采样;

6、步骤1.3、数据标准化与整合;

7、步骤2、区域级电网阻塞场景的特征选择;

8、步骤2.1、基于pearson相关系数的特征选择;

9、步骤2.2、基于spearman相关系数的特征选择;

10、步骤2.3、基于relief-f算法的特征选择;

11、步骤2.4、形成区域级电网阻塞场景特征指纹库。

12、根据本发明提供的区域级电网多源异构数据处理及特征分析方法,步骤1.1所述数据校验与修正包括以下步骤:

13、1)预处理;

14、取得原始数据文件后,需要考虑数据的格式、数据类型、数据的完整性和一致性等问题。本发明分别从以下几个方面考虑数据的预处理方法:

15、(1)数据格式校验:使用数据验证规则来检查数据是否符合预期的格式和范围,包括数据长度、数据格式、数据范围等方面的校验。

16、(2)数据一致性校验:对于多源数据的集成,需要确保数据的一致性,包括数据单位、数据命名、数据格式等方面的校验。

17、(3)数据类型检查:对于某些数据,需要确保其数据类型的正确性,通过设置数据检查器来完成数据类型的检查,比如数字、日期等。

18、(4)重复数据处理:使用去重算法删除冗余数据。

19、(5)异常值检测:通过统计分析和机器学习算法等方法,识别和处理异常值。例如,可以使用箱线图等方法来识别异常值,箱线图中的箱子表示数据的四分位数(q1、q2、q3),箱子的长度代表数据的中间50%。在箱子的上下各画一条线,代表数据中的最大值和最小值,如果数据中有一些点超出了两条线之间的区域,则可以认为这些点为异常值。

20、2)基于样条插值的数据修正方法;

21、样条插值方法可以将数据分成多个小段,每个小段内使用一个低次多项式来逼近数据。这种方法可以平滑地拟合数据,并且可以通过调整节点数量和节点位置来控制拟合的精度。

22、三次样条具有连续二阶导数,其曲线光滑性好,三次样条插值的原理如下:假设在数据点(xi,yi)(i=0,1,2,…,n)中,xi均匀分布在区间[a,b]内。在每个子区间[xi,xi+1]上,插值函数si(x)可以表示为一个三次多项式:

23、si(x)=ai+bi(x-xi)+ci(x-xi)2+di(x-xi)3(xi<x<xi+1)

24、其中,ai,bi,ci和di是待求解的系数。

25、为了保证插值函数在节点xi处连续,需要满足:

26、si(xi)=yi

27、为了保证插值函数在节点xi处一阶导数连续,需要满足:

28、si(xi+1)=si+1(xi+1)

29、si′(xi+1)=si+1′(xi+1)

30、为了保证插值函数在节点xi处二阶导数连续,需要满足:

31、si″(xi+1)=si+1″(xi+1)

32、此外,由于插值函数的端点处没有给定的导数值,需要进一步加上边界条件。最常用的边界条件是自然边界条件,即令插值函数的二阶导数在端点处为0:

33、s0″(x0)=sn″(xn)

34、为了求解这些未知系数,需要解一个4n元线性方程组。具体地,可以将所有系数放在一个向量c=(a0,b0,c0,d0,a1,b1,c1,d1,…,an-1,bn-1,cn-1,dn-1)中,然后利用以上的等式和边界条件构造一个4n×4n的系数矩阵a,并将方程组ac=y求解即可。其中y=(y0,y1,…,yn-1)是给定的数据点的函数值。

35、根据本发明提供的区域级电网多源异构数据处理及特征分析方法,步骤1.2所述历史数据对时与生采样包括以下步骤:

36、1)基于相关性分析的数据对时方法;

37、由于数据采集对时不同步且在传输、导入系统等过程存在着时延,原始数据的时间戳往往无法保持同步。数据之间的时间不一致,造成分析和预测的偏差。基于相关性分析方法进行寻找历史数据中的时间对齐关系,相关性系数较大的数据之间具有较强的时间对齐关系。基于相关性分析的历史数据对时步骤为:

38、(1)选取数据:首先从历史数据中选取需要对齐的数据,并将它们转化为时序数据格式,以便进行后续处理。

39、(2)划分时间窗口:选取一定长度的时间窗口,并确定窗口的步长。时间窗口的长度和步长的选择需要根据具体数据的特点来决定。

40、(3)计算相关性系数:在每个时间窗口内,计算不同数据之间的相关性系数。常用的相关性系数有皮尔逊相关系数、斯皮尔曼相关系数等。

41、(4)确定对齐关系:根据相关性系数的大小,确定不同数据之间的时间对齐关系。通常,相关性系数较大的数据之间具有较强的时间对齐关系。

42、(5)对齐数据:根据确定的时间对齐关系,对数据进行对齐,使得不同的时间窗口的起点在同一时间点上。

43、2)数据重采样;

44、由于各个数据采集系统的采样频率不一致,导致样本之间的时间间隔不一致,为了便于分析,需要对数据进行重采样使各类型以相同的频率出现。将原始数据按照时间进行排序,然后将时间划分为等间隔的时间段,并将每个时间段内的数据聚合成一个值,这样就可以得到相同采样频率的数据样本集合,方便进行后续的分析和挖掘。它的原理可以用以下公式表示:

45、yi=f(x1,x2,...xj,...,xn)

46、其中,xj表示原始数据在时间点tj时的取值,yi表示重采样后在时间点ti的取值,n表示在时间点ti和ti+1之间的样本数量,f(·)是重采样所使用的聚合函数。采用平均值作为聚合函数,则

47、根据本发明提供的区域级电网多源异构数据处理及特征分析方法,步骤1.3所述数据标准化与整合包括以下步骤:

48、1)数据标准化;

49、数据驱动理论的关键在于挖掘数据和数据变化的规律,在此之前,如果不将不同的数据量纲统一到同一范围内,会导致某个指标的权重被放大或缩小、模型不稳定等问题。

50、中心化是一种简单的数据标准化方法,它将数据转换为以均值为中心的分布。中心化的方法是将每个特征的值减去该特征的平均值,从而得到一个新的特征集合,这个特征集合的平均值为0。中心化不会导致信息失真,似乎克服了最大最小值标准化的缺点。但是它只是简单的减去了均值,由于没有缩放,特征值之间的差异仍然存在,变化范围大的特征的权重可能会引起数据驱动模型的过拟合。在中心化的基础上,z-score标准化首先计算每个特征的均值和标准差,然后对每个特征的每个值,将其减去该特征的均值,再除以该特征的标准差。使用z-score标准化方法,数据的平均值为0,标准差为1,使得不同特征之间具有可比性,并且缩放后的数据不会受到极端值的影响。对于第i个原始数据xi,将其标准化后的数值为xnorm,i,计算公式为:

51、

52、其中,xi为第i个原始数据,xnorm,i为第i个标准化后的数据,μ为原始数据的均值,σ为原始数据的标准差。本文采用了z-score标准化的方法,将数据库中的各指标值进行了标准化,消除量纲和数据范围的影响,使得不同变量之间可比较,且对算法的表现有明显的提升。

53、2)数据整合方法;

54、将处理好的所有数据整合到一起,尽可能地保留原有对象的时间戳、所属类别、名称、值等所有属性,形成完备的数据库,但是不同类型数据的属性具有很大的差异性。例如对于某省的某片区来说,数据源提供属性类别包括了时间、省份、片区名称、新能源发电、总发电、总受电。而对于断面来说,这是由另一个数据源提供的,其属性包含了断面编号、时间、实时值、上限额、下限额。按照电力系统数据的常用描述逻辑,电力系统数据最具有指向性的属性有两个:时间属性和身份属性。通过时间属性和身份属性,可以将数据定位为某个时间点上某个对象的数据。实现了某个数据的定位之后,下一步是具体阐述这个数据,需要展示该数据的指标。按照这个思路,构建了立方体数据库对数据进行收纳,数据库包含3个维度:时间属性、身份属性、指标属性。其中,时间维度表示数据的时间戳,身份维度表示数据所属的地理位置及对象信息,指标维度则表示数据的指标名称和数值。

55、根据本发明提供的区域级电网多源异构数据处理及特征分析方法,步骤2.1所述基于pearson相关系数的特征选择包括:

56、(2)pearson相关系数公式为:

57、

58、其中,xi和yi分别表示两个变量的第i个样本值,x和y分别表示两个变量的样本均值,n表示样本容量。其取值范围在-1到1之间,当r为正时,表示两个变量之间呈正相关,即随着一个变量的增加,另一个变量也会增加;当r为负时,表示两个变量之间呈负相关,即随着一个变量的增加,另一个变量会减少;当r为0时,表示两个变量之间不存在线性关系。

59、根据本发明提供的区域级电网多源异构数据处理及特征分析方法,步骤2.2所述基于spearman相关系数的特征选择包括:

60、spearman相关系数是一种用于评估两个变量之间的相关程度的方法,它与pearson相关系数类似,但适用于等级数据。与pearson相关系数不同,spearman相关系数基于变量的等级而不是变量的原始值。在电网阻塞事件中,对不同阻塞事件进行了分类,包含了0、1、2、3共四个类别,指征着无阻塞、轻微阻塞、中度阻塞、重度阻塞四个严重等级。

61、spearman相关系数的计算步骤如下:

62、(1)将每个变量的值转换为等级,即按大小排序并分配排名。

63、(2)计算变量的排名之间的差异d。

64、(3)计算d的平方和∑d2。

65、(4)根据公式计算spearman相关系数ρ:

66、

67、其中,n是数据样本的大小,d是两个变量的排名之间的差异。

68、spearman相关系数的值范围从-1到1,取值为-1时表示完全负相关,取值为0时表示没有相关性,取值为1时表示完全正相关。

69、根据本发明提供的区域级电网多源异构数据处理及特征分析方法,步骤2.3所述基于relief-f算法的特征选择包括:

70、relief-f算法是一种经典的过滤式特征选择算法,其基本思想是通过模拟特征对分类的影响,来评估每个特征对分类的重要性,然后选择对分类影响最大的特征。电网阻塞预测对特征提取提出了多分类的要求,不仅希望知道电网是阻塞还是不阻塞,还希望知道阻塞到了哪种程度。面对这样一个多分类任务,需将relief算法拓展为relief-f算法。relief-f算法具体的步骤如下:

71、(1)初始化相关参数:设置数据集d,其中包含m个样本和n个特征,样本包含了l个类别,设置权重阈值θ,并初始化特征权重向量w,设置循环退出条件。

72、(2)随机选择一个样本xi∈d,设其属于第k类,寻找样本xi的同类别最近邻样本xi,nh,对每一个相异的类别都找到1个异类最近邻xi,l,mh,下标l表示第l类。

73、(3)对于每个特征j∈1,2,...,n,计算特征j的相关性权重wj,并更新特征j的权重:

74、

75、其中,diff(xij,xij,nh)表示xi与同一类别的最近邻样本xi,nh的特征j的距离,xi,l,mh为第l类的异类样本(l≠k),diff(xij,xij,l,mh)表示xi与样本xi,l,mh的特征j的距离,ρl为第l类样本占数据集d的比例。

76、(4)重复步骤(2)和步骤(3),直到满足循环退出条件。

77、(5)根据特征权重w排序,选取权重大于权重阈值θ的特征作为最优特征子集。

78、通过公式(0.1),即特征权重的更新方式。如果样本在某个特征的方向上如果距离同类最近邻样本越近、距离异类最近邻样本越远,则在权重更新后该特征的权值越大,特征的权值越大则直接使得该特征越被重视、被选则的优先级越高。

79、根据本发明提供的区域级电网多源异构数据处理及特征分析方法,步骤2.4所述形成区域电网阻塞场景特征指纹库包括:

80、通过步骤2.1、步骤2.2、步骤2.3,提取出区域级电网阻塞场景的特征变量,取平均值加权排序后,按照时间属性、身份属性、指标属性的结构进行保存,形成特征指纹库。在未来时刻,调度部门对比当前时刻特征变量的指标属性与电网阻塞场景特征变量的指标属性,即可判断阻塞的程度,从而做出进一步的调度操作,减少了对阻塞线路、阻塞程度的计算过程和计算时间,同时也可通过特征变量的排序判断出阻塞连锁传播的关键点,为调度工作争取了时间。

81、如图3(a)、图3(b)、图3(c)所示,表示了hx断面功率与基于relief-f特征选择方法过滤得到的2个重要性较高的特征。其中,图3(a)、图3(b)和图3(c)分别表示hx断面的功率、tw断面的功率和xxx新能源的出力。hx断面的功率和tw断面的功率呈相反的趋势,说明tw断面的功率对hx断面的灵敏度为负值,当tw断面的功率增大时,可凭经验判断出hx断面阻塞的可能性。而hx断面的功率和xxx新能源的出力,难以从直观上判断出耦合关系,说明基于数据驱动的特征选择方法,能从大量的历史事件中挖掘出复杂的耦合关系以及重要的特征变量,能更为全面的挖掘出阻塞成因,有利于提升分析、预测的效率和准确性。

82、本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述区域级电网多源异构数据处理及特征分析方法。

83、本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述区域级电网多源异构数据处理及特征分析方法。

84、本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述区域级电网多源异构数据处理及特征分析方法。

85、与现有技术相比,本发明的有益效果是:本发明提出一种阻塞场景下区域级电网多源异构数据的处理及特征分析方法。在区域级电网阻塞场景下,针对海量数据多源异构、阻塞场景判断困难、阻塞调控时间紧张这一系列问题,提出了区域级电网多源异构数据的处理及特征分析方法,形成了阻塞场景的特征指纹库。这一方法在电力系统的大量特征中筛选出与阻塞相关或有利于阻塞预测的特征,有效地提炼出有效信息,有利于提升分析、预测的效率和准确性。为电力系统调度中心“阻塞判断与调控”这一业务提供了技术支撑。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1