一种基于编辑距离的相似水情数据挖掘方法及其应用与流程

文档序号:33329490发布日期:2023-03-04 00:08阅读:58来源:国知局
一种基于编辑距离的相似水情数据挖掘方法及其应用与流程

1.本发明属于水利调度技术领域,特别涉及一种基于编辑距离的相似水情数据挖掘方法及其应用。


背景技术:

2.在水文、水利及水能分析计算和电站发电计划编制以及调度实时决策过程中,常常需要参照前一段历史时期内的水情信息,即通过查询某一时间段内的水位、流量、出力或耗水率以及对应的变化范围来实现上述目标。
3.传统的水文分析对比采用层次分析法来量化水文相似度指标,利用相似指标结合权重查找出相似水文时间序列,而水文相似权重是水文相似度评定中不能回避的一个重要参数,赋权的合理性关乎相似度的可靠性,但是赋权的过程不可避免的会体现个人主观因素,导致相似度分析结果因人而异。
4.三峡梯级水库调度任务复杂,工况多变,采用人工经验制定辅助决策,其效率和可靠性已经越来越不能满足水库调度的实际需要。因此针对峡梯级水库的实际需要,以及不同的调度场景,需要采取高效且更为客观的数据处理分析方法来挖掘海量系统数据中的相关性。数据挖掘工具则是提供针对多年来积累的水情水调相关数据中潜在的规律性挖掘工具,从中发掘对调度有指导意义的调度原则和经验总结。
5.为解决梯级水库相似水情数据挖掘的问题,本专利提出了一种基于编辑距离的相似水情数据挖掘方法,应用于水调相似调度过程的查询,通过该方法的应用,为梯级水电站联合调度计算、发电计划编制、实时调度决策提供重要技术支撑,最大限度的利用水资源,提高调度效益。


技术实现要素:

6.本发明的目的在于针对现有技术的不足,提出一种基于编辑距离的相似水情数据挖掘方法,该方法能够客观、准确、高效的为调度人员提供相似调度场景下的决策参考。
7.本发明的技术目的是通过以下技术方案得以实现的:一种基于编辑距离的相似水情数据挖掘方法,它包括以下过程:
8.步骤1,确定要挖掘的水情数据,并将所述水情数据符号化处理为序列s1;
9.步骤2,选定要查询历史数据的起止时间,从数据库中选定待查询数据,并将待查询数据符号化处理为序列s2,确定序列s2中候选子序列的个数m;
10.步骤3,在序列s2的子序列中选取与序列s1等长的子序列,并计算每个所述子序列与序列s1之间的编辑距离,从所述子序列的第一个符号开始,若所述子序列与序列s1的符号相等,则editdt+0,否则editdt+1,其中editdt为编辑距离;
11.步骤4,重复3)直到序列s2中所有与s1等长的子序列完成计算;
12.步骤5,按照编辑距离从小到大选取前n个子序列构成候选集;
13.步骤6,将候选集中每个子序列转换成原始格式序列,分别计算每个子序列对应的
原始格式序列与所述要挖掘的水情数据的动态弯曲距离dtw;
14.步骤8,按照编辑距离从小到大返回m个子序列;
15.步骤9,输出返回的子序列。
16.优选的,步骤3计算判定如下:
17.if(x
j-xi>d&x
j-xk>d&x
j-x
i-1
>d&x
j-x
k+1
>d)or
18.(x
j-xi<-d&x
j-xk<-d&x
j-x
i-1
<-d&x
j-x
k+1
<-d)
19.式中:i从3开始,定义j=i+1,k=j+1,d为分段阈值,xi,xj,xk为序列中的数据。
20.优选的,步骤6中动态弯曲距离dtw按照如下公式计算:
[0021][0022]
式中:w=w1,

wk,

wk为翘曲路径,qi为序列s1中的数据,cj为序列s2中的数据。
[0023]
优选的,步骤2中,按时间顺序从数据库中选定待查询数据。
[0024]
优选的,所述水情数据包括上游水位、出库流量、出力和耗水率中的一个或多个。
[0025]
本发明还提供了一种基于编辑距离的相似水情数据挖掘方法的应用,用于梯级水库的实时调度。
[0026]
相比于现有技术,本发明具有以下有益效果:
[0027]
本发明提供的一种基于编辑距离的相似水情数据挖掘方法,可在水调系统中提供相似调度过程的查询,避免传统人工经验制定辅助决策导致效率和可靠性已经越来越不能满足水库调度的实际需要等问题,运用该方法,可有效避免主观因素在相似性分析中产生的误差,提高梯级水电站中水文数据挖掘的效率和精度,相似水情对比结果以图表的形式呈现,可为调度人员提供相似调度场景下的实时调度决策参考,最大限度的利用水资源,提高梯级电站综合效益。
附图说明
[0028]
图1是本发明一种基于编辑距离的相似水情数据挖掘方法的流程图。
具体实施方式
[0029]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0030]
以某流域大型梯级水电站电站为例,该梯级包含2座水电站,装机容量分别为2250万千瓦和271.5万千瓦,基于编辑距离的相似水情数据挖掘方法,参阅附图1,具体包括如下步骤:
[0031]
步骤1,输入要查询的上游水位、流量、出力或耗水率以及对应的变化范围,本次输入a电站上游水位159米,变化范围1米;出库流量25000立方米每秒,变化范围500立方米每秒;出力2100万千瓦,变化范围50万千瓦;输入b电站上游水位66米,变化范围0.1米;入库流量25000立方米每秒,变化范围150立方米每秒;出库流量25000立方米每秒,变化范围200立方米每秒;出力300万千瓦,变化范围2万千瓦,将以上水情数据符号化处理为序列s1。
[0032]
步骤2,选定2021年7月21日0时至2022年7月21日0时为要查询历史数据的起止时间,从数据库中按时间顺序选定出待查询数据,并将待查询数据符号为化序列s2,确定候选子序列个数m。
[0033]
步骤3,在序列s2的子序列中选取与序列s1等长的子序列,并计算每个所述子序列与序列s1之间的编辑距离,从所述子序列的第一个符号开始,若所述子序列与序列s1的符号相等,则editdt+0,否则editdt+1,其中editdt为编辑距离。
[0034]
步骤4,重复3)直到s2中所有与s1等长的子序列完成计算。
[0035]
步骤5,按照编辑距离从小到大选取前n个子序列构成候选集。
[0036]
步骤6,将候选集中每个子序列转换成原始格式序列,分别计算每个子序列对应的原始格式序列与所述要挖掘的水情数据的动态弯曲距离dtw。
[0037]
步骤7,按照编辑距离从小到大返回m个子序列。
[0038]
步骤8,输出返回的子序列。
[0039]
作为优选的实施例,在上述实施例中步骤4计算判定如下:
[0040]
if(x
j-xi>d&x
j-xk>d&x
j-x
i-1
>d&x
j-x
k+1
>d)or
[0041]
(x
j-xi<-d&x
j-xk<-d&x
j-x
i-1
<-d&x
j-x
k+1
<-d)
[0042]
式中:i从3开始开始,定义j=i+1,k=j+1,d为分段阈值,xi,xj,xk为序列中的数据。在一些优选实施例中,上述实施例中的步骤7采用如下公式计算:
[0043][0044]
式中:w=w1,

wk,

wk为翘曲路径,qi为序列s1中的数据,cj为序列s2中的数据。根据上述实施例,在待查询数据库计算结果得到与序列s1相似水情数据结果如下:
[0045]
表1 a电站相似水情数据查询结果
[0046]
[0047]
表2 b电站相似水情数据查询结果
[0048][0049][0050]
以上梯级水电站相似水情数据查询时段为2021年7月21日0时至2022年7月21日0时。按照本实施例的方法,根据反馈出水情数据挖掘结果,结合历史水情数据及调度方案,可对当前调度提供科学、准确、客观的参考和指导信息,用于梯级水库的实时调度。
[0051]
综上,本发明提出的一种基于编辑距离的相似水情数据挖掘方法,应用于某梯级水电站某一时段内相似水情数据的数据挖掘查询,本专利提供的查询模型在满足多种约束条件下,可根据不同上游水位、出库流量和耗水率的组合,通过给出上述条件合理的变化范围,挖掘出相似程度最高的水库历史数据,并汇总出水位、流量、出力的过程,上述算例验证了该方法的可行性,可作为梯级水库在实时调度中的有效参考,对梯级水库的优化调度有一定的促进作用。
[0052]
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1