一种海量电网数据的快速处理与查询方法与流程

文档序号:37462721发布日期:2024-03-28 18:45阅读:13来源:国知局
一种海量电网数据的快速处理与查询方法与流程

本发明属于电网数据管理,具体涉及一种海量电网数据的快速处理与查询方法。


背景技术:

1、随着电力信息化建设的不断推进,大量实时和非实时系统得到建立,大体可以分为监测系统、控制系统以及管理系统,如能源管理系统(d5000)、配网能源管理系统(d5200)、gis系统、生产管理系统(pmis)、用电信息采集系统、物资管理系统等。这些系统对电网的安全管理、安全生产以及经营起到了极其重要的作用。虽然目前这些系统的海量数据经整合后汇聚至数据中台,并应用了不同的分布式数据处理模型(比如mapreduce、maxcompute、datahub),但是搜索查询处理海量电网数据时,依然不能满足需求。主要体现在:1、存储空间限制:海量电网数据包含大量的监测数据、传感器数据、事件记录等,存储这些数据需要庞大的存储资源。现有的分布存储系统无法满足数据的快速增长、长期存储和数据多份备份的需求;2、并发处理需求及传输带宽限制:海量电网数据的实时处理和查询可能涉及多个数据源、多个处理任务和多个用户的并发访问并进行传输。然而,多数据源多处理任务的请求,受限于网络带宽无法满足大规模电网数据的传输需求,进而降低数据中台或企业中台的计算能力。

2、电网公司的主要业务系统有自身的特点,如用采系统主要包括电量数据、电压数据和功率数据等;d5000、d5200主要包括一次接线图数据、潮流数据等;pmis主要包括设备资源数据、设备状态数据等,业务数据具有高度的重复模式、稀疏模式和递增/递减连续模式。因此,如何针对电力系统数据的特点提出一种适用于电网业务特点的海量电网数据实时处理与查询框架十分必要。


技术实现思路

1、本发明为了解决上述问题,本发明的目的是提供一种海量电网数据的快速处理与查询方法,本发明的数据处理和查询算法可以显著减少数据的存储需求,处理后的数据需要更少的磁盘空间,从而为分布式系统提供更有效的存储管理和资源利用。

2、本发明的目的通过以下技术方案实现:

3、一种海量电网数据的快速处理与查询方法,包括两个部分,即数据模式界定部分和模式数据处理与查询部分。

4、数据模式界定部分用于界定海量电网数据中具有重复模式、稀疏模式和递增/递减连续模式的数据,其中;

5、重复模式的界定:通过统计分析数据的频率分布和数据中的重复子序列来判断数据是否存在重复模式,其中频率分布用于浮点数类型数据,重复子序列用于整型和字符类型数据,如海量电网数据中的电压数据,以电压等级10kv、35kv、110kv、220kv为中心波动的连续数据,电压有效值数据、电压电流的瞬时数据(基频率为50hz,采样频率为500hz的正弦采样数据)。

6、频率分布分析方法,若某些特定值或值范围的频率显著高于其他值,则界定数据具有重复模式,包括以下两个步骤:

7、s1:将数据划分为若干离散区间,用最大最小值或者取一定的步长划分出来离散区间;

8、s2:统计各个区间内数据值出现的频次;

9、重复子序列判断方法,通过自平衡二叉查找树(如avl树)和哈希表来判定。利用哈希表存储已经遍历的子序列的哈希值,以快速检索和比较子序列是否重复;自平衡二叉查找树将序列元素依次插入avl树,然后查找已插入的元素是否重复出现来查找重复子序列。

10、s1:初始化一个空的avl树和一个空的哈希表;

11、s2:从序列的开头开始,依次取出序列中的每个元素;

12、s3:对于每个元素,先在哈希表中查找是否存在相同的元素。如果存在,则找到了重复的子序列,结束判断过程;

13、s4:如果哈希表中不存在相同的元素,则将当前元素插入到avl树中,并在哈希表中记录当前元素;

14、s5:重复步骤s2到步骤s4,直到遍历完整个序列。

15、稀疏模式的界定:通过计算数据的稀疏度指标来判断是否存在稀疏模式,如海量电网数据中的设备一次接线数据、设备状态数据和设备资源数据。

16、稀疏度指标是用于衡量数据集中零元素的比例,从而确定数据集是否为稀疏的,即稀疏矩阵的非零元素数目与矩阵总元素数目之比。

17、对于数据矩阵a,大小为m×n,非零元素的数量为nz,那么稀疏度指标可以通过公式计算:稀疏度指标=(1-(nz/(m*n)))*100%;

18、稀疏度指标越接近100%,表示数据集中的零元素越多,数据集越稀疏。相反,指标越接近0%,表示数据集中的非零元素越多,数据集越密集。

19、递增/递减连续模式的界定:通过分箱方法和自相关分析算法来实现。若数据既满足分箱方法中的连续性,又满足自相关分析算法的连续性,则认为数据具有递增/递减连续模式,如海量电网数据中的电流数据、潮流数据和功率数据。

20、分箱方法首先搜寻出数据的最大值/最小值,然后将数据进行分箱操作(对于浮点数据则离散化为不同区间的值)。如果数据的分箱操作后大部分数据点被分配到相邻的箱中,而非聚集在少数离散值上,那么界定数据具有连续性;

21、自相关分析算法描述数据自身不同时期的相关程度,度量历史数据对现在产生的影响。对于序列数据计算自相关系数,其步骤包括:

22、s1:计算时间序列数据的平均值(mean):和方差(variance):

23、s2:对于每个滞后值k,计算序列数据与其在k个时间单位之后的值之间的协方差(covariance)。协方差度量两个随机变量之间的线性关系,其中包括其方向和强度。

24、s3:将每个延迟值k的协方差除以时间序列数据的方差,得到该延迟下的自相关系数。自相关系数的取值范围在-1到1之间,表示正负相关的程度,值越接近1或-1表示相关性越强。

25、自相关系数的计算公式为:

26、

27、其中:n:数据集大小,k:滞后值,xi:每个数据点,数据集的平均值,t:t∈z+,t≥1。

28、模式数据处理与查询部分对于已经界定模式的数据,分别针对重复模式、稀疏模式和递增/递减连续模式采用不同的方法处理数据和查询数据,其中查询数据是处理数据的逆过程。模式数据处理与查询部分包含三部分,即重复模式的数据处理与查询、稀疏模式的数据处理与查询和递增/递减连续模式数据的处理与查询。

29、重复模式的数据处理与查询,考虑浮点类型数据和非浮点类型数据两种情况,处理过程为:

30、对于重复模式的非浮点类型数据处理过程,数据集合中的数据出现概率分布不均匀时,利用熵编码将出现概率高的符号用较短的编码表示,而出现概率低的符号用较长的编码表示。

31、s1:对于给定的电网数据,统计每个数据在数据集中出现的频率。通过扫描整个数据集,计算每个数据出现的次数或频率;

32、s2:根据频率统计结果,计算出数据的熵。

33、熵的计算公式:h=-∑(p*;log2(p)),其中p为每个数据的出现频率,熵的单位是比特(bits);

34、s3:根据数据出现的频率,构建编码表,将频率较高的数据用较短的编码表示,频率较低的数据用较长的编码表示。

35、对于重复模式的浮点类型数据处理过程,利用小波变换将浮点数数据转换为小波域表示,在小波域中对高频部分使用较低精度编码,而对低频部分使用较高精度编码,编码方式按照重复模式的非浮点类型数据处理方式,有效地降低数据的存储量,进而降低数据的传输量。查询过程则反之,实现数据的无损存储和无损查询。

36、小波变换公式:

37、小波基函数

38、尺度离散:

39、位移离散:

40、其中:a:尺度参数;τ:平移参数;t:时间;j:变换尺度;k:变换位置;a0:原始数据。

41、稀疏模式的数据处理与查询则需要根据业务计算是否应用矩阵乘法或者矩阵向量乘法来考虑不同的存储方式。如果仅仅为了数据的处理和查询,则使用哈希表的键值存储行索引或列索引,以及使用值来存储数据。如果业务计算需要应用到矩阵乘法,则:

42、s1:统计每一行非零元素的数量,并将这些数量存储在一个数组中,称为行偏移数组;或者统计每一列的非零元素的数量,作为列偏移数组;

43、s2:对于行偏移数组将矩阵的非零元素按行的顺序存储在一个值数组中,并保存对应的列索引,而列偏移数据则保存对应的行索引。

44、递增/递减连续模式数据的处理与查询,电网数据具有一定的周期性或者相对来说小范围的波动性,如果业务需要频繁的计算则对于递增/递减连续模式的数据,利用数据的均值和方差来处理原始数据,使用这些统计量来表示原始数据。在查询时,只需要将均值和差值还原回来,然后根据它们来生成原始数据。

45、s1:计算原始数据序列的均值(mean)和方差(variance);

46、s2:对于每个数据点,计算它与均值的差值;

47、s3:将这个差值作为处理后的数据;

48、查询递增/递减连续模式的数据时,对于每个处理后的数据点,将它与恢复的均值相加,得到原始数据。

49、如果业务仅作多份备份的需求,则初始化数据,设置初始值为0,然后对于输入数据序列中的每个元素计算当前元素与前一个元素之间的差值,将编码后的差异存储或传输。查询递增/递减连续模式数据时,按照相同的顺序对差异进行处理,并将差异值与之前的元素值相加以得到原始数据序列。

50、本发明的技术效果和优点:

51、海量电网数据中存在高度的重复模式、稀疏模式和递增/递减连续模式,本发明提出了数据模式界定和模式数据处理与查询方法,能够提供较好的存储效果并能保持数据的准确性。尤其是跨服务器的分布式计算集群,其瓶颈往往是硬件io、网络带宽等,影响计算的实时性和数据的海量查询能力。海量数据需要大量的存储空间,通过本发明的数据处理和查询算法可以显著减少数据的存储需求,处理后的数据需要更少的磁盘空间,从而为分布式系统提供更有效的存储管理和资源利用。在分布式数据中台中,数据的传输是一项昂贵而耗时的操作。通过本发明的数据处理和查询方法,在网络传输过程中可以减少数据量,从而降低传输带宽的需求,提高传输效率和速度。处理后的数据集大小变小,可以减少对数据的读取和处理时间。在分布式数据中台中,数据的处理可能需要跨越多个节点,减少数据量可以加快计算过程,减少数据传输的时间和开销。本发明具有数据加密的功能,可以提高数据的隐私性。在数据传输和存储过程中,加密压缩后的数据可以保护数据的安全,防止未经授权的访问和窃取。总之,本发明在分布式数据中台中可以显著降低存储需求、传输带宽和计算开销,提高系统的性能和效率。特别是在处理海量数据时,数据压缩算法的应用具有重要的意义和益处。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1