一种基于K最近邻算法的电网监控信号的分类压缩方法与流程

文档序号:12863889阅读:242来源:国知局

本发明涉及一种电网监控信号的分类压缩方法,具体涉及一种基于k最近邻算法的电网监控信号的分类压缩方法。



背景技术:

随着国网公司“大运行”体系建设的深入推进,集中监控功能成为制约电网发展的关键问题。

针对监控信号量大,监控效率低的现状,目前国内各级监控中心基本都按照国家电网变电站集中监控信息管理规范,将监控信息统一分为5类,在集中监控界面上报警信息能够分类和集中显示。但是在信号总体数量上并没有改善。监控员每日需要面对成大量地站端上传的事故、异常、越限、变位信号,电网监控任务日益繁重,监控工作效率有待提升。另外,大量频繁动作、复归信号,极易造成监控告警窗刷屏,严重影响正常的电网监控工作,甚至遗漏重要电网异常信号。基于以上现实情况,需要对监控信号进行优化治理,降低监控人员的监控压力,提高监控效率。



技术实现要素:

针对上述问题,本发明提供一种对电网监控信号进行优化,降低监控人员的工作压力,提高监控人员工作效率的基于k最近邻算法的电网监控信号的分类压缩方法。

由于电网监控信息总量大,监控员每日需要面对成大量地站端上传的事故、异常、越限、变位信号,电网监控任务日益繁重。为方便监控员对监控电网的工作,本发明提出了基于k最近邻算法来实现对监控信号进行分类压缩的办法来解决这种问题。

k最近邻算法具有简单性、有效性的特点,是基于向量空间模型的最好分类算法之一。

以下是基于k最近邻算法具体实现对监控信号进行分类压缩的步骤:

步骤一、对电网监控信号进行采集取样,建立包含n个监控信息文档t的电网监控的信息样本;

步骤二、利用基于字符串匹配的分词方法对电网监控的信息样,即文本训练集s进行分词处理和统计;

步骤三、采用tf-idf公式计算权重,形成文本训练集s中t个监控信息文档t的二维向量dt,其中0<t≤n;文本训练集s中所有监控信息文档t的二维向量dt构成文本训练集s的空间特征向量;

步骤四、通过步骤一至三计算电网监控后台新收到的告警信号的二维向量d;

步骤五、采用k最近邻算法对文本训练集s的空间特征向量进行聚类分析;通过计算新收到的告警信号的二维向量d与文本训练集s的监控信息文档t的二维向量dt的相似度和新收到的告警信号在各类监控信息文档t的隶属度对告警信号进行分类压缩。

步骤一中建立电网监控的信息样本的具体过程如下:

现场电网设备故障或变位时产生一条事项上送到电网的监控后台,读取一条告警信息保存为一个可以计算的数据样本,将电网监控告警信息表征为下式形式

t=[m,n](1)

式中:t为读取到的告警信息文档、m为对应告警信息的字数n为告警信息文本内容,电网监控的信息样本为n个监控信息文档t的集合。

步骤二中对电网监控的信息样本即文本训练集s进行分词处理和统计的具体过程如下:

在产生的每一条事项信息里都会有空格把汉字进行分割开来,采用空格为分割点把监控信息文档t分成n个词条,最终形成监控信息文档t的特征项集合

θ={δ1,δ2,δ3,...δn}(2),

其中δ为筛选后得到的词条即为该监控信息文档t的关键词。

步骤三中文本训练集s的空间特征向量具体形成过程如下:

采用tf-idf公式计算词条在监控信息文档t中的权重大小,其计算公式为

式中:f(δi,t)为词条δi在监控信息文档t中出现频率;n为所有监控信息文档t的个数;ni为含有词条δi的监控信息文档t的个数;由tf-idf公式计算得到的权重系数表征了词条的特异性,ωi(t)越大则表明词条δi的特异性越高,在不同监控信息文档t中出现的比率越低,但在单个监控信息文档t中出现的频次越高,那么词条δi用于表征监控信息文档t的可信度越高;

由此,可以计算得到不同词条在监控信息文档t中的权重,归一化处理后的权重为

wi即为词条δi在监控信息文档t中的权重,因此任意监控信息文档t可以表征为一个二维向量,其形式如下式所示{[δ1,w1],[δ2,w2].....[δn,wn]},如果将不同的词条看作一个坐标轴,那么该二维向量可以看作是该空间中的一个向量,电网监控的信息样本中所有监控信息文档t的二维向量dt构成文本训练集s的空间特征向量。

步骤五中对读取到的监控信息文档t进行分类压缩的具体过程如下:

特征向量dt={xt1,xt2...xtn}t0<t≤n中的{xt1,xt2....xtn}即为文本训练集s的第t个监控信息文档t的二维向量{[δt1,wt1],[δt2,wt2]..[δtn,wtn]};

利用向量夹角余弦公式来计算待分类文本的二维向量d与文本训练集s的空间特征向量的dt相似度,公式为

其中n为监控信息文档t所包含的词条个数;

选出与待分类文本最相似的k个文本作为待分类文本的最近邻,根据k个最近邻,电网监控的信息样本中所有监控信息文档t共分为m类,计算待分类文本的二维向量d在各个类别tm里的隶属度,其中0<m≤m;计算公式为

式中:δ(d,tm)表示若待分类文本是否属于该监控信息文档类别tm,是则为1,否则为0,δ(d,tm)的计算公式为

选出隶属度最大的类别tm,别将待分类的文本归入到该类别tm中,从而实现对电网设备产生的事项信息进行分类压缩。

本发明能有效的减少监控告警信息数量、压缩误发和频发信号、规范检修告警信息,减少直至消除监控信息刷屏现象,杜绝信号漏监,使监控人员的对电网的监控工作更加方便有效率,从而提高监控工作的安全性,降低监控人员的工作压力,有效地避免遗漏重要电网异常信号,提高电力生产的安全性,保证电网安全稳定的运行。

具体实施方式

一种基于k最近邻算法的电网监控信号的分类压缩方法,包括如下步骤:

步骤一、对电网监控信号进行采集取样,建立包含n个监控信息文档t的电网监控的信息样本;

现场电网设备故障或变位时产生一条事项上送到电网的监控后台,读取一条告警信息保存为一个可以计算的数据样本,将电网监控告警信息表征为下式形式

t=[m,n](1)

式中:t为读取到的告警信息文档、m为对应告警信息的字数n为告警信息文本内容,电网监控的信息样本为n个监控信息文档t的集合。

步骤二、利用基于字符串匹配的分词方法对电网监控的信息样本即文本训练集s进行分词处理和统计;

在产生的每一条事项信息里都会有空格把汉字进行分割开来,采用空格为分割点把监控信息文档t分成n个词条,最终形成监控信息文档t的特征项集合

θ={δ1,δ2,δ3,...δn}(2),

其中δ为筛选后得到的词条即为该监控信息文档t的关键词。

步骤三、采用tf-idf公式计算权重,形成文本训练集s中t个监控信息文档t的二维向量dt,其中0<t≤n;文本训练集s中所有监控信息文档t的二维向量dt构成文本训练集s的空间特征向量;

采用tf-idf公式计算词条在监控信息文档t中的权重大小,其计算公式为

式中:f(δi,t)为词条δi在监控信息文档t中出现频率;n为所有监控信息文档t的个数;ni为含有词条δi的监控信息文档t的个数;由tf-idf公式计算得到的权重系数表征了词条的特异性,ωi(t)越大则表明词条δi的特异性越高,在不同监控信息文档t中出现的比率越低,但在单个监控信息文档t中出现的频次越高,那么词条δi用于表征监控信息文档t的可信度越高;

由此,可以计算得到不同词条在监控信息文档t中的权重,归一化处理后的权重为

wi即为词条δi在监控信息文档t中的权重,因此任意监控信息文档t可以表征为一个二维向量,其形式如下式所示{[δ1,w1],[δ2,w2].....[δn,wn]},如果将不同的词条看作一个坐标轴,那么该二维向量可以看作是该空间中的一个向量,电网监控的信息样本中所有监控信息文档t的二维向量dt构成文本训练集s的空间特

步骤四、通过步骤一至三计算电网监控后台新收到的告警信号的二维向量d;

步骤五、采用k最近邻算法对文本训练集s的空间特征向量进行聚类分析;通过计算新收到的告警信号的二维向量d与文本训练集s的监控信息文档t的二维向量dt的相似度和新收到的告警信号在各类监控信息文档t的隶属度对告警信号进行分类压缩。

特征向量dt={xt1,xt2...xtn}t0<t≤n中的{xt1,xt2....xtn}即为文本训练集s的第t个监控信息文档t的二维向量{[δt1,wt1],[δt2,wt2]..[δtn,wtn]};

利用向量夹角余弦公式来计算待分类文本的二维向量d与文本训练集s的空间特征向量的dt相似度,公式为

其中n为监控信息文档t所包含的词条个数;

选出与待分类文本最相似的k个文本作为待分类文本的最近邻,根据k个最近邻,电网监控的信息样本中所有监控信息文档t共分为m类,计算待分类文本的二维向量d在各个类别tm里的隶属度,其中0<m≤m;计算公式为

式中:δ(d,tm)表示若待分类文本是否属于该监控信息文档类别tm,是则为1,否则为0,δ(d,tm)的计算公式为

选出隶属度最大的类别tm,别将待分类的文本归入到该类别tm中,从而实现对电网设备产生的事项信息进行分类压缩。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1