一种基于图计算及机器学习的电网拓扑结构跨系统自动匹配与构建的方法与流程

文档序号:13812184阅读:268来源:国知局

本发明属于电网互联技术,具体涉及一种基于图计算及机器学习的电网拓扑结构跨系统自动匹配与构建的方法。



背景技术:

电网互联,是电力发展的必然趋势,所谓电力系统网络拓扑结构指的是电力系统网络内的各变电站、变压器、线路等的布局及连接方式。在庞大的电网系统中,电网拓扑结构无疑直接决定着电力系统是否稳定。

当前,基于电网拓扑结构的分析主要涉及同一系统内,对于跨系统电网拓扑分析相关研究较少,研究不同系统拓扑结构,对电网运行减少风险有着重要的意义,研究电网拓扑结构不同系统间的匹配与构建对于整个电网系统的稳定运行,全局把控都具有重要的意义。

目前对于电网拓扑结构分析,大多直接采用以下方法:

1)基于关联表和矩阵方法

传统的电网拓扑分析大部分采用基于深度优先或广度优先的拓扑分析方法。然而,这种方法需要建立一些复杂的关联表和关联矩阵,采用数据结构与算法的方式来实现,而且在搜索过程中需要进行多次的递归和回溯,电网拓扑发生变化时,通过修改关联表跟踪电网拓扑。

2)面向对象的方法

有些学者采用面向对象的方法建立电网拓扑分析模型,面向对象的拓扑分析首先是进行图上连接点与电力设备间的连接关系分析,形成电网结构的连接点与设备关联关系表,即电力网络图,进而采用某种搜索策略如广度优先或深度优先策略进行网络拓扑静态分析,当开关设备(断路器、隔离开关等)状态变化后,进行网络的动态拓扑,给有关的计算分析程序提供新的接线方式下的信息与数据。

3)基于地理信息系统的方法

利用数据库技术把在配电网中电力设备的空间地理数据与属性数据联系起来,综合分析与检索空间定位数据,构建具有拓扑结构和分析功能的空间数据库系统,实现生产信息与反映地理的图形信息结合的信息管理系统。

以上三种方法虽然能够在一定程度上对电网拓扑结构进行分析,但分析结果并不理想与实用,主要原因分析如下:以上三种方法都是基于人工主数据管理的,需要人工参与数据准备、整合与管理,具有计算量大,时效性短、扩展性差,不易理解等缺点。且现有的相关技术都是服务于单一电网拓扑进行分析与跟踪,较少涉及电网不同系统间拓扑结构匹配与构建。



技术实现要素:

鉴于以上分析,本发明提出了一种基于图计算及机器学习的电网拓扑结构跨系统自动匹配与构建的方法,重点解决以上传统方法的弊端,实现“营配调一张图”,开展营配调一体化应用,全面推进电力公司营销和配网现代化管理方式的根本转变。

本发明通过以下技术方案实现:

一种基于图计算及机器学习的电网拓扑结构跨系统自动匹配与构建的方法,包括以下步骤:

步骤一、基于图数据库构建电网生产系统、电网营销系统、电网调度系统各自的拓扑结构;

步骤二、通过向量空间模型根据所述拓扑结构上节点的图结构特征属性和文本特征属性建立不同系统间的相似节点的自动匹配模型;

步骤三、根据所述自动匹配模型的匹配结果,对所述拓扑结构上的非零相似度节点采用分箱的方法确定差异阈值,建立差异节点识别模型;

步骤四、针对步骤三中的非零相似度节点,根据该节点的其他属性及相似度,对该节点进行纠正或删除;

步骤五、对电网生产系统、电网营销系统、电网调度系统的拓扑结构以相同节点为锚点进行关联合并,建立跨系统的电网全图谱。

本发明的有益效果:

本发明首先基于图数据库(如neo4j等)构建营销、生产、调度三大系统各自的拓扑关系;然后通过向量空间模型根据节点的图结构特征和文本特征建立不同系统间相似节点自动匹配模型;对匹配结果利用分箱得到异常阈值,进而建立差异节点识别模型;对于存在差异的节点,根据节点其他属性及差异度进行纠正;最后将三大系统的拓扑结构以相匹配节点为锚点进行关联,建立跨系统的电网全图谱。本发明通过建立与匹配电网不同系统间的拓扑结构,实现“营配调一张图”,开展营配调一体化应用,全面推进电力公司营销和配网现代化管理方式的根本转变。

以下将结合附图及实施例对本发明做进一步详细说明。

附图说明

图1是电网拓扑匹配与构建的结构示意图。

图2是营销系统中数据关系示意图。

图3是图结构特征关系图。

具体实施方式

为进一步阐述本发明达成预定目的所采取的技术手段及功效,以下结合附图及实施例对本发明的具体实施方式、结构特征及其功效,详细说明如下。

为了解决传统的电网拓扑结构分析方法计算量大,时效性短、扩展性差,不易理解等缺点。本实施例提出了一种基于图计算及机器学习的电网拓扑结构跨系统自动匹配与构建的方法。

该方法首先基于图数据库(如neo4j等)构建营销、生产、调度三大系统各自的拓扑关系;然后通过向量空间模型根据节点的图结构特征和文本特征建立不同系统间相似节点自动匹配模型;对匹配结果利用分箱得到异常阈值,进而建立差异节点识别模型;对于存在差异的节点,根据节点其他属性及差异度进行纠正;最后将三大系统的拓扑结构以相匹配节点为锚点进行关联,建立跨系统的电网全图谱。

本实施例的具体实施过程如下:

1.基于图数据库的电网拓扑关系

电网营销系统中包含了变电站、线路、台区/配电变压器、用户、受电点、计量点、电能表数据,生产系统中包含了变电站、断路器、线路、台区/配电变压器、表箱、用户、计量点数据,调度系统中包含了变电站、断路器、线路数据,同一系统中数据间相互关联。比如营销系统中一个变电站连接若干条线路,每条线路又连接若干个台区,每个台区下有若干用户,每个用户下又有受电点、计量点等等,部分数据关系如图2所示。

根据数据间的相关性基于neo4j构建营销、生产、调度三大系统的拓扑结构。如调度系统中,变电站和断路器间存在关联关系,断路器和线路间存在关联关系,对每个变电站,将与其相关联的断路器利用有向弧关联,对每个断路器,又将与其关联线路间采用有向弧进行关联,整个调度系统形成一张大网。生产和营销系统同理。

2.相似节点自动匹配

营销、生产两个系统内含有变电站、线路、台区/配电变压器、表箱、用户、计量点等节点。每个节点都具有图结构特征和文本属性特征。

根据每个系统的拓扑关系图,对每个节点求取其图结构特征,图结构特征包括节点对应的有向弧个数以及每个弧所对应的起点和终点,图结构特征关系如图3所示,变电站、线路和台区为节点,每个节点有对应的起点终点和有向弧。每个节点的文本属性特征主要包括节点的名称、地理位置。综合两个系统中每一类节点中的图结构特征和文本属性特征采用k-means聚类,节点被聚为若干小类,每一小类含有生产和营销两个系统的节点,以小类为单位,对小类中的节点以节点涉及弧个数、每个弧的起点和终点、节点名称和地理位置两两采用向量空间模型求得每个营销系统节点的最相似生产系统节点,每个生产系统节点最相似的营销系统节点。

生产和调度系统同上进行相似节点自动匹配,以找到两个系统中最为相似的节点。

3.差异节点识别

根据相似节点自动匹配模型得到生产系统的每个节点与营销系统最相似节点的相似度。对所有匹配节点的非零相似度数据,采用分箱的方法,确定差异节点相似度阈值,具体公式为:

up=q3+1.5*(q3-q1);

down=q1-1.5*(q3-q1)

其中q1为第一四分位数,q3为第三四分位数。

对于匹配节点的相似度小于阈值down的节点,判定为两个系统内的差异节点。

生产和调度系统同上进行差异节点识别。

4.差异节点纠正

对于采用差异节点识别模型识别出的差异节点,提取差异节点在两个系统中的地址文本特征,对两个地址信息利用向量空间模型算法计算相似度,若相似度大于70%,则继续分别计算两个系统中节点名称和地址信息的相似度,将节点名称和地址信息相似度较小的节点所对应的系统里的节点名称,纠正为相似度较大的节点对应的系统里的节点名称。若两个系统中地址信息的文本相似度小于70%,则不予纠正,直接删除。

5.电网全图谱构建

生产系统和营销系统可对应匹配,将二者的拓扑结构通过相匹配节点进行关联,生产系统和调度系统亦可对应匹配,将二者的拓扑结构通过相匹配节点进行关联。生产系统作为桥梁,可将营销与调度二者联系,以相匹配节点为锚点,建立整个电网跨系统的图谱结构。如生产系统中的变电站与营销系统及调度系统都可以匹配关联,故营销系统和调度系统中变电站间也可以产生关联关系。

本实施例涉及到的算法及技术如下:

neo4j是一个高性能的,nosql图形数据库,它将结构化数据存储在网络上而不是表中。它是一个嵌入式的、基于磁盘的、具备完全的事务特性的java持久化引擎,但是它将结构化数据存储在网络(从数学角度叫做图)上而不是表中。neo4j也可以被看作是一个高性能的图引擎,该引擎具有成熟数据库的所有特性。

向量空间模型:向量空间模型(vectorspacemodel)是一种自然语言处理中常用的模型,它是g.salton等人在二十世纪60年代提出的,最早用在smart信息检索系统中。vsm涉及如下基本概念:

1)文档(document):通常是文档中具有一定规模的片段,从句子到篇章,都可看做一个文档。

2)项、特征项(term,featureterm):特征项是vsm中不可分的语言单元,可以是字,词,短语等。一个文档内容被看成是它含有特征项所组成的集合,表示为:document=d(t1,t2,...tn),其中t(k)是特征项,1<=k<=n。

3)项的权重(termweight):对于含有n个特征项的文档d(t1,t2,t3,...tn),每一个特征都依据一定的原则被赋予一个权重w(k),表示它们在文档中的重要程度。这样一个文档d可用它含有的特征项及其特征项对应的权重所表示,d=d(t1,w1,t2,w2,...,tn,wn),其中w(k)是特征项t(k)的权重,1<=k<=n。

一个文档在上述约定下可以看成是n维空间中的一个向量,这就是向量空间模型。值得注意的是,vsm有如下的特点:

1)各个特征项互异。

2)各个特征项无先后顺序关系(即,不考虑文档的内部结构)这样,t(k),k∈(1,n),就是一个n维坐标系,w(k)就是坐标值,一个文本就是这个n维空间中的一个向量。

k-means聚类:k-means算法是很典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。

k个初始类聚类中心点的选取对聚类结果具有较大的影响,因为在该算法第一步中是随机的选取任意k个对象作为初始聚类的中心,初始地代表一个簇。该算法在每次迭代中对数据集中剩余的每个对象,根据其与各个簇中心的距离将每个对象重新赋给最近的簇。当考察完所有数据对象后,一次迭代运算完成,新的聚类中心被计算出来。如果在一次迭代前后,j的值没有发生变化,说明算法已经收敛。

算法过程如下:

1)从n个文档随机选取k个文档作为质心

2)对剩余的每个文档测量其到每个质心的距离,并把它归到最近的质心的类

3)重新计算已经得到的各个类的质心

4)迭代2~3步直至新的质心与原质心相等或小于指定阈值,算法结束。

下面对上述自动匹配与构建方法中涉及的术语解释如下:

图数据库:图数据库是一种在线的数据库,支持对数据模型的crud。图数据库一般用户事务(oltp)系统中,它对事务性能进行了优化,在设计通常考虑了事务完整性和操作可用性。一般图数据库使用原生图存储,这类存储是优化过的,并且是专门为了存储和管理图而设计的。图形数据库是将数据描述为点(vertex)和边(edge)及他们的属性(property),每一张图(graph)都可以看成是一个结构化数据。

机器学习:机器学习(machinelearning,ml)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。

拓扑:拓扑学(topology)是研究几何图形或空间在连续改变形状后还能保持不变的一些性质的学科。它只考虑物体间的位置关系而不考虑它们的形状和大小。拓扑英文名是topology,最早指研究地形、地貌相类似的有关学科。几何拓扑学是十九世纪形成的一门数学分支,它属于几何学的范畴。有关拓扑学的一些内容早在十八世纪就出现了。那时候发现的一些孤立的问题,在后来的拓扑学的形成中占着重要的地位。

电力系统:电力系统是由发电厂、送变电线路、供配电所和用电等环节组成的电能生产与消费系统。它的功能是将自然界的一次能源通过发电动力装置转化成电能,再经输电、变电和配电将电能供应到各用户。为实现这一功能,电力系统在各个环节和不同层次还具有相应的信息与控制系统,对电能的生产过程进行测量、调节、控制、保护、通信和调度,以保证用户获得安全、优质的电能。

四分位数:四分位数(quartile),即统计学中,把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值就是四分位数。第一四分位数(q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。第二四分位数(q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数字。第三四分位数(q3),又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。第三四分位数与第一四分位数的差距又称四分位距。

在本实施例中,基于图计算及机器学习的电网拓扑结构跨系统自动匹配与构建的方法,具体过程如下:

步骤一、基于图数据库构建电网生产系统、电网营销系统、电网调度系统各自的拓扑结构;

11)在电网生产系统、电网营销系统、电网调度系统中,确定各自数据的所属关系;如调度系统中,变电站和断路器间存在关联关系,断路器和线路间存在关联关系;

12)对电网生产系统、电网营销系统、电网调度系统,在具有所属关系的节点间,根据图数据库技术利用有向弧关联,构建出各自的拓扑结构;如,调度系统中对每个变电站,利用图数据库技术将与其相关联的断路器利用有向弧关联,对每个断路器,又利用图数据库技术将与其关联线路间采用有向弧进行关联,整个调度系统形成一张大网;

步骤二、通过向量空间模型根据拓扑结构上节点的图结构特征属性和文本特征属性建立不同系统间的相似节点的自动匹配模型;

21)针对电网生产系统、电网营销系统、电网调度系统,构建各自节点的图结构特征,图结构特征包括节点对应的起点终点和有向弧;

22)针对电网生产系统、电网营销系统、电网调度系统,构建各自节点的文本特征,文本特征包括节点的名称、地理位置;

23)在电网生产系统、电网营销系统、电网调度系统中,对任意两个系统中每个节点的图结构特征和文本属性特征采用k-means聚类,两个系统中的节点被聚为若干小类,且每一小类含有两个系统中的若干节点;

24)对小类中的节点采用向量空间模型算法构建系统间节点的自动匹配模型,自动匹配模型以两个系统间各节点的特征为输入,相似度为输出;

241)对两个系统中节点的特征进行词频统计,每个词是一个维度,频率是其值(向量),每个节点的信息就构成一个i维空间图;

242)采用公式计算i维空间图的相似度;,

其中:d1和d2为两个系统中节点的相似度,ai为d1中各个词的词频,bi为d2中各个词的词频;

25)根据自动匹配模型输出的相似度;

步骤三、根据自动匹配模型的匹配结果,对拓扑结构上的非零相似度节点采用分箱的方法确定差异阈值,建立差异节点识别模型;

其中:步骤三中采用分箱的方法,确定差异节点相似度阈值的具体公式为:

up=q3+1.5*(q3-q1);

down=q1-1.5*(q3-q1)

其中,q1为第一四分位数,q3为第三四分位数;

对于匹配节点相似度小于阈值down的节点,判定为关联匹配的两个系统内的差异节点;

步骤三中建立差异节点识别模型的具体过程是:

31)对两个系统中的具有相似度的匹配节点采用分箱方法计算相似度阈值;

32)对匹配节点的相似度与阈值进行判断,将相似度小于阈值的节点对,确定为两个系统的差异节点;

步骤四、针对步骤三中的非零相似度节点,根据该节点的其他属性及相似度,对该节点进行纠正或删除;

41)对于采用步骤三的差异节点识别模型识别出的差异节点,提取差异节点在两个系统中的地址文本特征;

42)对步骤41)中的两个地址信息利用向量空间模型算法计算相似度;

若两个系统中地址信息的文本相似度大于70%,则继续分别计算两个系统中节点名称和地址信息的相似度,将节点名称和地址信息相似度较小的节点所对应的系统里的节点名称,纠正为相似度较大的节点对应的系统里的节点名称;

若两个系统中地址信息的文本相似度小于70%,则不予纠正,直接删除;

步骤五、对电网生产系统、电网营销系统、电网调度系统的拓扑结构以相同节点为锚点进行关联合并,建立跨系统的电网全图谱;

51)对应匹配电网生产系统、电网营销系统,将电网生产系统、电网营销系统的拓扑结构通过匹配节点进行关联;

52)对应匹配电网生产系统、电网调度系统,将电网生产系统、电网调度系统的拓扑结构通过匹配节点进行关联;

53)以电网生产系统作为桥梁,将电网营销系统与电网调度系统二者联系,以相匹配的节点为锚点,建立整个电网跨系统的图谱结构;

531)获取电网生产系统与电网调度系统、电网生产系统与电网营销系统的拓扑结构数据;

532)提取电网生产系统中即与电网调度系统存在相匹配节点,又与电网营销系统存在相匹配节点,利用图数据库技术对该相匹配节点在三个系统中构建关联拓扑;

533)提取出电网生产系统中只跟电网调度系统存在相匹配的节点,利用图数据库技术对该节点在电网生产系统与电网调度系统中构建关联拓扑;或者,提取出电网生产系统中只跟电网营销系统存在相匹配的节点,利用图数据库技术对该节点在电网生产系统与电网营销系统中构建关联拓扑;

534)提取出电网生产系统与电网调度系统、电网营销系统中不匹配的孤立节点,利用图数据库技术构建同一系统内上下级的拓扑结构关联。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1