一种挖掘特高压变电设备状态数据关联规则的方法及系统与流程

文档序号:15095838发布日期:2018-08-04 14:32阅读:237来源:国知局

本发明涉及特高压变电设备数据研究技术领域,并且更具体地,涉及一种挖掘特高压变电设备状态数据关联规则的方法及系统。



背景技术:

关联规则就是发现数据背后存在的某种规则或者联系。对于关联规则的挖掘目前已经有了丰富的成果,并且已形成了一种通用的流程。现有的常用的关联规则挖掘技术大多是针对类别特征进行挖掘,几乎没有针对数值特征的挖掘。对于数值特征。大多数算法会首先对数值特征进行离散化处理,使其变为类别特征,再使用关联规则挖掘。但是这样处理的结果将对原有数值特征包含的信息产生极大地削减,进而挖掘出的规则和原始数值属性有差距。

特高压设备状态数据具有量大、面广、多源异构的特点,同时特高压变电设备元件多样、结构复杂,设备状态影响因素众多,多物理量跨学科耦合机理分析困难。对于特高压变电设备状态数据的具体情况,状态数据包含大量数值属性的数据,如在线监测数据和气象数据。同时也包含类别属性特征,如缺陷、故障类型等。在这种情况下,采用常用的关联规则挖掘算法往往不能得到满意的效果。另外,多数关联规则挖掘算法需要反复遍历数据集,在时间性能上表现较差。

粒子群算法(Particle Swarm Optimization,PSO)是一种基于种群的随机优化算法。它模仿昆虫,鸟群等的群集行为,这些群体按照一种合作的方式寻找食物,群体中每个成员学习它自身的经验和其他成员的经验来不断改变搜索模式。在PSO中,每个粒子有两个属性,速度和位置,代表了问题的候选解。在搜索过程中,每个粒子根据自身经验和群体经验移动到下一位置。

Spark是一个开源的大数据处理架构,最大的特点就是速度、易用性和对于复杂分析的适用性。其设计包含了的工作负载方面的任务,例如迭代算法、批处理应用、流处理、交互式查询等,是一种快速的集群计算技术。



技术实现要素:

本发明提供了一种挖掘特高压变电设备状态数据关联规则的方法及系统,以解决特高压变电设备状态数据关联规则的确定问题。

为了解决上述问题,根据本发明的一个方面,提供了一种挖掘特高压变电设备状态数据关联规则的方法,所述方法包括:

基于粒子群算法PSO建立候选规则和粒子的位置之间的一一对应关系,将每个候选规则分别编码为粒子,在粒子的规则表示中特高压变电设备状态数据每个记录的每个特征包括:标示域、下界和上界;

根据特高压变电站设备状态数据集限定编码的上界和下界并随机初始化粒子群数和迭代次数;

设置适应度函数,基于Spark分布式并行处理框架在最大迭代次数内进行并行化的迭代处理,根据帕累托规则确定全局最优解对应的粒子的位置,即特高压变电设备状态数据的关联规则。

优选地,其中利用密歇根方法表示粒子的位置。

优选地,其中利用属性区间表示法将每个候选规则分别编码为粒子。

优选地,其中根据所述标示域的值确定对应的特征属于规则的先导、后继或不参与该规则,其中,

若所述标示域的值大于0并且小于等于第一预设阈值,则表示对应的特征属于规则的先导;

若所述标示域的值大于第一预设阈值并且小于等于第二预设阈值,则表示对应的特征属于规则的后继;

若所述标示域的值大于第二预设阈值并且小于1,则表示对应的特征不参与规则。

优选地,其中所述特高压变电设备状态数据的每个记录的特征包括:在线检测数据、气象数据、缺陷类型和故障类型。

优选地,其中所述并行性化为基于粒子模式的并行化或基于数据模式的并行化。

优选地,其中所述设置适应度函数,基于Spark分布式并行处理框架在最大迭代次数内进行并行化的迭代处理,根据帕累托规则确定全局最优解对应的粒子的位置,即特高压变电设备状态数据的关联规则,包括:

设置适应度函数,在每一次的迭代过程中计算每个粒子的适应度函数;

根据所述每个粒子的适应度函数利用帕累托规则更新每个粒子的局部最优解以及全局最优解;

根据每个粒子的局部最优解以及全局最优解更新每个粒子的位置和速度;

基于Spark分布式并行处理框架在最大迭代次数内进行并行化的迭代处理,直至确定全局最优解对应的粒子的位置,即特高压变电设备状态数据的关联规则。

优选地,其中粒子的最大速度计算公式为:

vmaxi=(Ui-Li)/K,

其中,K是设定的常量;vmaxi为粒子i的最大速度;Ui为设定的速度上界;Li为设定的速度下界。

当速度值超过界限,粒子的更新公式为:

vi=r*vmaxi,

其中,r是[0,1]之间的随机数;vi为更新后的粒子i的速度。

优选地,其中所述适应度函数={支持度,置信度,可理解性,有趣性},其中,对于规则A->C,

其中,Sup(A)为A的支持度;Sup(C)为C的支持度;Sup(A∪C)为A和C同时出现的支持度;|C|为数据集中出现C的记录数;|A∪C|为A和C同时出现的记录数;|D|为数据集总的记录数。

根据本发明的另一个方面,提供了一种挖掘特高压变电设备状态数据关联规则的系统,所述系统包括:

粒子确定单元,用于基于粒子群算法PSO建立候选规则和粒子的位置之间的一一对应关系,将每个候选规则分别编码为粒子,在粒子的规则表示中特高压变电设备状态数据每个记录的每个特征包括:标示域、下界和上界;

初始化单元,用于根据特高压变电站设备状态数据集限定编码的上界和下界并随机初始化粒子群数和迭代次数;

关联规则确定单元,用于设置适应度函数,基于Spark分布式并行处理框架在最大迭代次数内进行并行化的迭代处理,根据帕累托规则确定全局最优解对应的粒子的位置,即特高压变电设备状态数据的关联规则。

优选地,其中利用密歇根方法表示粒子的位置。

优选地,其中利用属性区间表示法将每个候选规则分别编码为粒子。

优选地,其中根据所述标示域的值确定对应的特征属于规则的先导、后继或不参与该规则,其中,

若所述标示域的值大于0并且小于等于第一预设阈值,则表示对应的特征属于规则的先导;

若所述标示域的值大于第一预设阈值并且小于等于第二预设阈值,则表示对应的特征属于规则的后继;

若所述标示域的值大于第二预设阈值并且小于1,则表示对应的特征不参与规则。

优选地,其中所述特高压变电设备状态数据的每个记录的特征包括:在线检测数据、气象数据、缺陷类型和故障类型。

优选地,其中所述并行性化为基于粒子模式的并行化或基于数据模式的并行化。

优选地,其中所述关联规则确定单元,设置适应度函数,基于Spark分布式并行处理框架在最大迭代次数内进行并行化的迭代处理,根据帕累托规则确定全局最优解对应的粒子的位置,即特高压变电设备状态数据的关联规则,包括:

适应度函数计算模块,用于设置适应度函数,在每一次的迭代过程中计算每个粒子的适应度函数;

最优解更新模块,用于根据所述每个粒子的适应度函数利用帕累托规则更新每个粒子的局部最优解以及全局最优解;

位置和速度更新模块,用于根据每个粒子的局部最优解以及全局最优解更新每个粒子的位置和速度;

关联规则确定模块,用于基于Spark分布式并行处理框架在最大迭代次数内进行并行化的迭代处理,直至确定全局最优解对应的粒子的位置,即特高压变电设备状态数据的关联规则。

优选地,其中粒子的最大速度计算公式为:

vmaxi=(Ui-Li)/K,

其中,K是设定的常量;vmaxi为粒子i的最大速度;Ui为设定的速度上界;Li为设定的速度下界。

当速度值超过界限,粒子的更新公式为:

vi=r*vmaxi,

其中,r是[0,1]之间的随机数;vi为更新后的粒子i的速度。

优选地,其中所述适应度函数={支持度,置信度,可理解性,有趣性},其中,对于规则A->C,

其中,Sup(A)为A的支持度;Sup(C)为C的支持度;Sup(A∪C)为A和C同时出现的支持度;|C|为数据集中出现C的记录数;|A∪C|为A和C同时出现的记录数;|D|为数据集总的记录数。

本发明提供了一种挖掘特高压变电设备状态数据关联规则的方法及系统,针对特高压变电设备状态数据,对于含有数值属性特征数据的关联规则的确定,利用PSO算法的思路,将规则量化构造为粒子表示,通过对粒子的位置编码,使得在关联规则的挖掘中不必将数值属性特征进行离散化处理,保证了数据的准确性;提出利用四种不同的适应度函数来优化粒子,使得挖掘的关联规则更优;基于Spark进行并行化设计,相比于串行算法,对于大数据情形能够更好的适应,减少时间消耗,对于解决大数据量下的含有数值型属性特征的关联规则挖掘提供了有价值的解决方案。

附图说明

通过参考下面的附图,可以更为完整地理解本发明的示例性实施方式:

图1为根据本发明实施方式的挖掘特高压变电设备状态数据关联规则的方法100的流程图;

图2为根据本发明实施方式的PSO算法的整体流程图;

图3为根据本发明实施方式的基于粒子模式的并行化迭代处理的示意图;

图4为根据本发明实施方式的基于数据模式的并行化迭代处理的示意图;

图5为根据本发明实施方式的基于粒子模式和基于数据模式的两种并行化方式的时间成本比较图;以及

图6为根据本发明实施方式的挖掘特高压变电设备状态数据关联规则的系统600的结构示意图。

具体实施方式

现在参考附图介绍本发明的示例性实施方式,然而,本发明可以用许多不同的形式来实施,并且不局限于此处描述的实施例,提供这些实施例是为了详尽地且完全地公开本发明,并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中,相同的单元/元件使用相同的附图标记。

除非另有说明,此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外,可以理解的是,以通常使用的词典限定的术语,应当被理解为与其相关领域的语境具有一致的含义,而不应该被理解为理想化的或过于正式的意义。

图1为根据本发明实施方式的挖掘特高压变电设备状态数据关联规则的方法100的流程图。如图1所示,本发明的实施方式提供的挖掘特高压变电设备状态数据关联规则的方法,针对特高压变电设备状态数据,对于含有数值属性特征数据的关联规则的确定,利用PSO算法的思路,将规则量化构造为粒子表示,通过对粒子的位置编码,使得在关联规则的挖掘中不必将数值属性特征进行离散化处理,保证了数据的准确性;提出利用四种不同的适应度函数来优化粒子,使得挖掘的关联规则更优;基于Spark进行并行化设计,相比于串行算法,对于大数据情形能够更好的适应,减少时间消耗,对于解决大数据量下的含有数值型属性特征的关联规则挖掘提供了有价值的解决方案。本发明的实施方式提供的挖掘特高压变电设备状态数据关联规则的方法100从步骤101处开始,在步骤101基于粒子群算法PSO建立候选规则和粒子的位置之间的一一对应关系,将每个候选规则分别编码为粒子,在粒子的规则表示中特高压变电设备状态数据每个记录的每个特征包括:标示域、下界和上界。优选地,其中利用密歇根方法表示粒子的位置。优选地,其中利用属性区间表示法将每个候选规则分别编码为粒子。优选地,其中根据所述标示域的值确定对应的特征属于规则的先导、后继或不参与该规则,其中,若所述标示域的值大于0并且小于等于第一预设阈值,则表示对应的特征属于规则的先导;若所述标示域的值大于第一预设阈值并且小于等于第二预设阈值,则表示对应的特征属于规则的后继;若所述标示域的值大于第二预设阈值并且小于1,则表示对应的特征不参与规则。优选地,其中所述特高压变电设备状态数据的每个记录的特征包括:在线检测数据、气象数据、缺陷类型和故障类型。

PSO算法用于在进行关联规则挖掘时被用来设计粒子的位置向量和适应度函数。其中,有两种方法可以表示粒子的位置:首先是匹兹堡算法,其中每个粒子代表一组规则;第二种是密歇根方法,其中每个粒子代表一个独立的规则。这两种方法有不同的应用场景,需要根据具体任务来决定。匹兹堡方法注重整个规则集的特征,而不是评估单个规则的质量。相反,密歇根方法有更简单的编码方式,可以更容易的计算单个规则的优化目标。

在本发明的实施方式中,选择密歇根方法建立候选规则和粒子的位置之间的一一对应关系。

将单个规则编码为粒子也有不同的表示方法:二进制编码和属性区间表示法。二进制编码方法更适用于处理类别特征和单一维度的关联规则挖掘任务;属性区间表示法适用于处理固定长度的数据,更适用于数值属性。

在本发明的实施方式中,利用属性区间表示法将规则编码为粒子。具体地,其中每个粒子的表示规则如表1所示。

表1粒子的表示规则

其中,每条特高压变电设备状态数据记录的每个特征由三部分组成:标示域(Mark),下界(L)和上界(U)。标示域表示属于规则的哪个部分:先导、后继或者不参与该规则。若标示域的值大于0并且小于等于第一预设阈值,则表示对应的特征属于规则的先导;若所述标示域的值大于第一预设阈值并且小于等于第二预设阈值,则表示对应的特征属于规则的后继;若所述标示域的值大于第二预设阈值并且小于1,则表示对应的特征不参与规则。优选地,其中所述特高压变电设备状态数据的每个记录的特征包括:在线检测数据、气象数据、缺陷类型和故障类型。在PSO算法的迭代过程中,特征的值在不断优化,直至找到最合适的间隔。例如,设置第一预设阈值为0.033,第二预设阈值为0.66。则当Marki∈[0,0.33]时,对应的特征属于规则的先导;当Marki∈[0.34,0.66]时,对应的特征属于规则的后继;当Marki∈[0.67,1.00]时,对应的特征不参与规则。最终该粒子所表示的规则先导由所有Mark取值在[0,0.33]之间的特征组成,后继由所有Mark取值在[0.34,0.66]之间的特征组成。特征的第二和第三部分表示在规则中该特征的取值上界和下界。在PSO算法的迭代过程中,特征的值在不断优化,直至找到最合适的间隔。例如,对于规则“温度在30-35之间且电流值为3-4之间时,缺陷类型为1”,示例编码如下:

优选地,其中所述适应度函数={支持度,置信度,可理解性,有趣性},其中,对于规则A->C,

其中,Sup(A)为A的支持度;Sup(C)为C的支持度;Sup(A∪C)为A和C同时出现的支持度;|C|为数据集中出现C的记录数;|A∪C|为A和C同时出现的记录数;|D|为数据集总的记录数。

在本发明的实施方式中,利用四种评价指标用来评估粒子,包括:支持度、置信度、可理解性和有趣性。支持度和置信度保证了规则的客观性和可靠性。除此以外,规则也应该是可理解的和有趣的。

优选地,在步骤102根据特高压变电站设备状态数据集限定编码的上界和下界并随机初始化粒子群数和迭代次数。

优选地,在步骤103设置适应度函数,基于Spark分布式并行处理框架在最大迭代次数内进行并行化的迭代处理,根据帕累托规则确定全局最优解对应的粒子的位置,即特高压变电设备状态数据的关联规则。优选地,其中所述并行性化为基于粒子模式的并行化或基于数据模式的并行化。

优选地,其中所述设置适应度函数,基于Spark分布式并行处理框架在最大迭代次数内进行并行化的迭代处理,根据帕累托规则确定全局最优解对应的粒子的位置,即特高压变电设备状态数据的关联规则,包括:

设置适应度函数,在每一次的迭代过程中计算每个粒子的适应度函数;

根据所述每个粒子的适应度函数利用帕累托规则更新每个粒子的局部最优解以及全局最优解;

根据每个粒子的局部最优解以及全局最优解更新每个粒子的位置和速度;

基于Spark分布式并行处理框架在最大迭代次数内进行并行化的迭代处理,直至确定全局最优解对应的粒子的位置,即特高压变电设备状态数据的关联规则。

优选地,其中粒子的最大速度计算公式为:

vmaxi=(Ui-Li)/K,

其中,K是设定的常量;vmaxi为粒子i的最大速度;Ui为设定的速度上界;Li为设定的速度下界。

当速度值超过界限,粒子的更新公式为:

vi=r*vmaxi,

其中,r是[0,1]之间的随机数;vi为更新后的粒子i的速度。

图2为根据本发明实施方式的PSO算法的整体流程图。如图2所示,首先,对每个粒子随机初始化其位置Xi=(xi1,xi2,...,xiN)i=1,2,...,k,xin∈[Ln,Un],1<n<N。其中Ln和Un是第n维上下界,限定其粒子位置的上界和下界,能合理缩小搜索范围,更容易收敛。然后设定集合Xi的位置为其局部最优解lbesti,遍历整个粒子群,根据适应度函数初始化全局最优解gbesti,初始化速度为0。然后,在最大迭代数内进行迭代,定义适应度函数={支持度,置信度,可理解性,有趣性},计算每个粒子的适应度函数,对于每个粒子,在整个的迭代过程中根据帕累托规则更新其最优解,记为局部最优lbest。随后根据整个粒子群中的最优解更新全局最优解gbest;然后根据以下公式更新粒子的位置和速度。

Vi(t+1)=w*Vi(t)+C1*r1*(lbesti(t)-Xi(t))+C2*r2*(gbest(t)-Xi(t))

Xi(t+1)=Xi(t)+Vi(t+1)

其中1≤i≤k,w是惯性权重,C1和C2称为学习因子,是两个常量。r1,r2是在[0,1]之间的随机数。

为了防止超出搜索域,速度值要被限制在最大速度内,最大速度计算公式为:vmaxi=(Ui-Li)/K。其中,K是用户设定的常量。当速度值超过界限,按照以下公式计算:vi=r*vmaxi,其中r是[0,1]之间的随机数。

PSO算法需要在上一次迭代结束后才能计算本次迭代,迭代之间是串行计算的。在这种情况下,本发明将每个迭代中的阶段进行分布计算以减少时间损耗。例如,可以分别处理计算适应度函数和更新每个粒子位置、速度、局部最优等部分。设定|D|为数据库中记录数,N为特征数,算法的复杂度为O(N*|D|)。如果考虑特定迭代次数I和种群数目P的话,复杂度为O(N*|D|*P*I),会随着每个参数呈线性增长。适应度函数计算步骤需要对整个数据集进行扫描,得到优化对象的值,其复杂程度取决于数据集的规模。由于其他步骤的复杂性只与群体规模和迭代有关,因此适应度计算步骤是每次迭代中全部时间消耗的主要部分。

图3为根据本发明实施方式的基于粒子模式的并行化迭代处理的示意图。如图3所示,基于粒子模式的并行化迭代处理的基本原则是将每个粒子视作一个计算单元,并行计算每个粒子的适应度函数,对每个粒子,算法都会像串行计算一样扫描整个数据库。

具体实现是基于RDD框架,创建一个RDD,particleRDD=[P1,P2,...,Pp]用来保存整个粒子群。其中Pi是一个粒子。算法开始时,将整个数据集存入内存中,然后将数据分发到各个节点。在每一次迭代中,将每个粒子分发到不同的计算节点,在节点中计算整个流程。这样的方式可以将复杂度降低为O(N*|D|)。这种并行化方案适用于数据集较小,而粒子群数较大的情况,这种情况要将数据集在每个节点制作一份拷贝,比较消耗内存。但是,当数据集较大的时候,单个节点可能无法加载整个数据集。因此,本发明提出了另一种基于数据模式的并行化迭代处理的方法。

图4为根据本发明实施方式的基于数据模式的并行化迭代处理的示意图。如图4所示,基于数据模式的并行化和基于粒子模式的并行化在更新粒子位置,速度和局部最优解的时候采用同样的方式。但是在计算适应度函数时,该方法将整个数据集分割成多个分区,将每个分区视作一个计算单元。粒子群是串行处理的,对于每个粒子,算法并行计算每个分区的适应度函数,然后对每个分区的结果进行采集和合并,得到最终的适应度函数。在这种方式中,数据集被组织为RDD,dataRDD=[R1,R2,...,Rd]。其中,Ri是一条记录。每条记录与粒子位置所代表的规则之间的关系可以分为四种:1)记录满足先验条件和后果条件;2)只满足先验条件;3)只满足后果件;4)既不满足先验条件,也不满足后果条件。算法通过计算这四种类型的记录数来计算优化目标。令Ti,1≤Ti≤4表示关系类型,将每个记录Ri映射到一个键值对<Ti,1>,然后使用reduceByKey()方法得到每个类型的记录数。这种模式可以在大数据集上有较好的表现,只要将更多的计算节点添加到集群便可以提高效率,因此具有良好的可扩展性。

为了验证基于粒子模式的并行化和基于数据模式的并行化处理的速度。在一个包含1个主节点(master),6个从节点(slave)的本地搭建的Spark集群上进行试验。每个节点内存4G,CPU有4核。Spark版本为2.0.0。使用特高压变电设备状态数据作为实验数据。包括发生缺陷时的气象数据,油温,设备属性和缺陷类型等。实验1对比了提出的两种并行化方法在不同粒子群数目下的运行速度,使用串行方式作为基准对比。实验记录了一次迭代的时间,使用数据量200万。结果表2所示。

表2两种并行化方式的时间成本

图5为根据本发明实施方式的基于粒子模式和基于数据模式的两种并行化方式的时间成本比较图。如图5所示,分别为基于粒子模式、基于数据模式和串行处理的时间成本数据,随着粒子数目的增加,所有方法的时间成本都保持近似线性增长,这与理论上的复杂性是一致的。基于数据模式的并行化处理速度大约提高了180%,基于粒子模式的并行化处理速度平均提高了600%。结果表明,基于粒子模式的方法是基于数据模式的方法的三倍以上。因此,当数据集规模不是很大或每个计算节点上有足够的内存时,基于粒子模式的并行化处理应该是第一选择。

基于数据模式的并行化处理是针对无法一次加载到内存中的大型数据集而设计的。为了测试了不同数据集大小下的时间成本,测试范围从200万到2000万行。记录一个粒子的适应度计算步骤的时间成本,结果如表3所示,花了0.22秒来计算200万行上的一个粒子的适应度函数。把这个假设为耗时单位,并与实际曲线进行比较,能够得出随着数据集规模的增大,实时消费量与理想基线有偏差趋势。这是因为当数据集大小增长时,算法会生成更多的键值对,这使得reduce步骤需要更多的时间。

表3基于数据模式的不同数据集规模的时间成本

在本发明的实施方式中,所使用的特征包括:温度,湿度,风速,降水等气象指标,电流,电压,有功功率,无功功率,氢气,甲烷,乙烯等在线监测数据,以及主变,线路的缺陷类型和故障类型等特征。粒子编码示例如下,初始时,对于Mark、L和U进行随机初始化,然后进行PSO算法的迭代计算,最终确定最优的粒子。如下表所示,这个粒子所代表的规则为“温度在30-35之间且电流值为3-4之间时,缺陷类型为1”。

图6为根据本发明实施方式的挖掘特高压变电设备状态数据关联规则的系统600的结构示意图。如图6所示,本发明实施方式的挖掘特高压变电设备状态数据关联规则的系统600包括:粒子确定单元601、初始化单元602和关联规则确定单元603。优选地,在粒子确定单元601,基于粒子群算法PSO建立候选规则和粒子的位置之间的一一对应关系,将每个候选规则分别编码为粒子,在粒子的规则表示中特高压变电设备状态数据每个记录的每个特征包括:标示域、下界和上界。优选地,其中利用密歇根方法表示粒子的位置。优选地,其中利用属性区间表示法将每个候选规则分别编码为粒子。优选地,其中根据所述标示域的值确定对应的特征属于规则的先导、后继或不参与该规则,其中,若所述标示域的值大于0并且小于等于第一预设阈值,则表示对应的特征属于规则的先导;若所述标示域的值大于第一预设阈值并且小于等于第二预设阈值,则表示对应的特征属于规则的后继;若所述标示域的值大于第二预设阈值并且小于1,则表示对应的特征不参与规则。优选地,其中所述特高压变电设备状态数据的每个记录的特征包括:在线检测数据、气象数据、缺陷类型和故障类型。

优选地,在初始化单元602,根据特高压变电站设备状态数据集限定编码的上界和下界并随机初始化粒子群数和迭代次数。

优选地,在关联规则确定单元603,设置适应度函数,基于Spark分布式并行处理框架在最大迭代次数内进行并行化的迭代处理,根据帕累托规则确定全局最优解对应的粒子的位置,即特高压变电设备状态数据的关联规则。优选地,其中所述并行性化为基于粒子模式的并行化或基于数据模式的并行化。优选地,其中所述关联规则确定单元,设置适应度函数,基于Spark分布式并行处理框架在最大迭代次数内进行并行化的迭代处理,根据帕累托规则确定全局最优解对应的粒子的位置,即特高压变电设备状态数据的关联规则,包括:适应度函数计算模块,用于设置适应度函数,在每一次的迭代过程中计算每个粒子的适应度函数;最优解更新模块,用于根据所述每个粒子的适应度函数利用帕累托规则更新每个粒子的局部最优解以及全局最优解;位置和速度更新模块,用于根据每个粒子的局部最优解以及全局最优解更新每个粒子的位置和速度;关联规则确定模块,用于基于Spark分布式并行处理框架在最大迭代次数内进行并行化的迭代处理,直至确定全局最优解对应的粒子的位置,即特高压变电设备状态数据的关联规则。

优选地,其中粒子的最大速度计算公式为:

vmaxi=(Ui-Li)/K,

其中,K是设定的常量;vmaxi为粒子i的最大速度;Ui为设定的速度上界;Li为设定的速度下界。

当速度值超过界限,粒子的更新公式为:

vi=r*vmaxi,

其中,r是[0,1]之间的随机数;vi为更新后的粒子i的速度。

优选地,其中所述适应度函数={支持度,置信度,可理解性,有趣性},其中,对于规则A->C,

其中,Sup(A)为A的支持度;Sup(C)为C的支持度;Sup(A∪C)为A和C同时出现的支持度;|C|为数据集中出现C的记录数;|A∪C|为A和C同时出现的记录数;|D|为数据集总的记录数。

本发明的实施例的挖掘特高压变电设备状态数据关联规则的系统600与本发明的另一个实施例的挖掘特高压变电设备状态数据关联规则的方法100相对应,在此不再赘述。

已经通过参考少量实施方式描述了本发明。然而,本领域技术人员所公知的,正如附带的专利权利要求所限定的,除了本发明以上公开的其他的实施例等同地落在本发明的范围内。

通常地,在权利要求中使用的所有术语都根据他们在技术领域的通常含义被解释,除非在其中被另外明确地定义。所有的参考“一个/所述/该[装置、组件等]”都被开放地解释为所述装置、组件等中的至少一个实例,除非另外明确地说明。这里公开的任何方法的步骤都没必要以公开的准确的顺序运行,除非明确地说明。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1