一种用于IEC61850的GOOSE报文机器数据的结构化处理的方法与流程

文档序号:11410907阅读:309来源:国知局
一种用于IEC61850的GOOSE报文机器数据的结构化处理的方法与流程
本发明属于iec61850数字变电站运行工况安全分析领域,采用基于帧报文模板的多模式结构化匹配技术,完成对goose帧报文中的机器数据的结构化处理和储存。结构化处理的goose报文数据可以构建智能变电站运行工况大数据分析中心,从而能够完成对各类数字变电站工况事件的安全分析。
背景技术
:iec61850是基于通用网络通信平台的变电站自动化系统的国际标准,它可以实现变电站自动化系统产品的互操作性和协议转换。采用iec61850标准可使变电站自动化设备具备自描述、自诊断和即插即用的特性,很大程度上使数字变电站系统的集成变得简单,减少了变电站自动化系统的开支。iec61850标准也使得智能电网的网络形态正从过去的封闭系统走向半封闭和逐渐开放。这个变化过程加速了变电站智能化的进程的同时,也带来了智能变电站的安全上的隐患。其中iec61850数字变电站采用的基于开放标准的网络技术之上,导致系统的安全性降低。具体表现为iec61850协议本身并没有考虑任何安全措施,一旦攻击者绕过物理防护,直接进入调度中心和变电站网络,可直接通过通信协议实现对智能变电站设备的控制。所以,对数字变电站的运行工况的安全监控分析就变得越来越重要。通用面向对象的变电站事件goose服务是iec61850提供的一个重要服务模型,为iec61850数字变电站中各类ied智能设备提供了一种快速且高效的网络通讯方式。任何一ied智能设备通过以太网与其它ied设备相连,可通过goose协议以订阅方式接收数据,也可以发布方式向其它ied设备提供数据。goose传输是一种实时应用,主要传输间隔闭锁信号跳闸信号等数字变电站的重要的事件信息。通过goose报文,可将信息数据打包在数据集里可以在极短时间里使数据覆盖网络。由于goose报文的实时性高的特点,iec61850数字变电站中的很多重要事件信息是通goose报文来传输。由于数字变电站中的goose报文数据中蕴藏着丰富的变电站工况运行信息,通过对goose报文数据的分析挖掘,可以实时监控分析和预测智能变电站的运行工况的状态和安全。而goose报文的数据都是以海量的连续的二进制的形式存在,这种二进制数据形态无法被直接理解、利用、存储、自动化分析和挖掘,也无法对智能变电站的各类工况运行事件的进行统计查询。因此需要找到能够对数字变电站中的海量goose报文二进制数据结构化处理和存储的方法,为对数字变电站的工况运行状态分析提供数据支撑。技术实现要素:本发明提供一种用于iec61850的goose报文机器数据的结构化处理的方法,目的在于解决现有技术中iec61850标准中的goose报文的数据都是以海量的连续的二进制的形式存在,二进制数据形态无法被直接理解、利用、存储、自动化分析和挖掘,也无法对智能变电站的各类工况运行事件的进行统计查询的问题。本发明通过以下技术方案实现:一种用于iec61850的goose报文机器数据的结构化处理的方法,其特征在于:所述实现方法包括如下步骤;1)goose帧报文结构模板的定义:goose帧报文模板是由一系列的数据项的模板单元组成,模板单元按照goose报文的帧结构按先后次序构建出goose报文模板;2)基于goose报文模板的多模式匹配树及二进制数据提取:基于模板的多模式匹配数据提取是建立在goose帧报文模板定义的基础上,根据goose报文的数据项模板单元集{p1,p2,p3……pn}和goose报文机器数据集t,通过多模式匹配技术找出存在于报文数据集t中的各数据项p的模板单元的值;3)goose报文数据的结构化存储:goose结构化报文数据的存储采用了分布式海量存储,数据在存储节点上采用列存储结构,把每帧goose报文中的数据项单元的数据值按照字典序存储,每帧goose报文中的数据项单元的数据项分别保存到文件的不同位置,一定数量的帧报文数据项集合作为一个单独文件保存,这种类型的文件称为“片”,是goose报文数据存储发布的基本单位。本发明进一步技术改进方案是:所述步骤2中数据匹配过程主要包含三个主要部分,1)为goose报文模板单元集合构造一个多模式匹配树;2)根据模板单元数据模式设置每次模板单元匹配的移位函数;3)利用模式匹配树和模板移位函数扫描goose报文数据集对象。本发明的效益是通过对iec61850-goose报文数据结构化处理机制的研究,提出通过定义goose报文结构模板模式,建立基于报文模板的多模式匹配树,实现goose报文数据的结构化提取,结构化的报文数据使得对智能变电站的工况及安全分析预测成为可能。具体来说,本发明具有如下效果:一、发明了iec61850-goose帧报文结构的模板描述方法,通过将goose帧报文数据单元的最小化,提出了系列组成goose的模板数据项单元,每个模板单元定义特定的报文数据项和数据的匹配模式,不同的模板单元的数据模式对应着goose报文中的不同数据项,goose帧报文模板是由一系列具有不同数据匹配模式的数据项模板单元组成。goose帧报文的模板定义用结构化的方法定义了非结构化的报文数据。二、结合报文模板中模板单元的数据模式,采用多模式树的匹配技术完成报文数据的结构化处理。根据goose报文模板单元集合构建出多模式匹配树,建立各模板单元的位移模式,利用匹配树和位移模式扫描goose报文源数据,提取出goose报文数据集合中的各数据项单元对应的报文数据项。多模式匹配树提高了非结构化数据到结构化输出的过程效率和准确性。三、为了实现对goose报文的大数据分析,对完成结构化处理的报文数据实现了海量分布式的列存储,在海量数据储存上建立了集中式分布式b+树索引,在数据“片”内部建立起报文数据项的内部索引,集中和局部索引的结合极大提高报文数据项检索的效率,而列储存的方式也提供了大数据多数据项检索。附图说明图1为本发明iec61850-goose通信协议栈示意图;图2为本发明iec61850-goose报文帧结构示意图;图3为本发明iec61850-goose报文数据的结构化处理流程。具体实施方式本发明提供了一种对iec61850数字变电站中用于在智能设备间(ied)传输控制和信号的goose的帧报文中的机器数据结构化处理方法,通过本发明能够快速完成对goose报文通讯中帧机器数据的结构化处理。结构化的机器数据可以被灵活的存储和索引,可建立数字变电站运行工况报文数据中心,为报文数据的进一步分析和挖掘提供数据保障。由图1、2可见goose服务的通信协议栈由应用层、表示层、数据层、链路层和物理层组成,会话层、传输层和网络层均为空。这样可以缩短报文的长度,减少传输的延时,满足数据实时传输的要求。应用层定义了iec61850-goose报文的应用协议单元(apdu),表示层遵循asn.1ber对apdu进行编码,数据链路层基于iso/iec8802-3标准设置报文的传输优先级、以太网类型、组播地址等。本发明为了实现对iec61850-goose报文数据的结构化处理,采用了三个处理步骤,1)goose帧报文结构模板定义;2)基于goose报文模板的多模式匹配树及二进制数据提取;3)goose报文数据的结构化存储。1、goose帧报文结构模板的定义goose帧报文模板是由一系列的数据项的模板单元组成,模板单元按照goose报文的帧结构按先后次序构建出goose报文模板。每个数据项模板单元定义在两个“@”标识符之间,模板单元由四部分组成,每部分彼此以“:”隔开。第一部分为该数据项单元对应的报文的源数据类型;第二部分为该数据项在源报文数据中的长度,数据项长度不定时缺省为空;第三部分为该数据项提取出来后的数据类型;第四部分为对应报文数据项的名称。前两部分描述了该数据项在报文源数据中的形态,后两部分表达了数据项数据结构化处理后的表现形式。根据图1可将goose报文可分解为下表中的模板单元数据项,表中键名是报文数据键值对结构化输出中的键的名字:序号模板数据单元数据项名称键名1@字节:6:字节:目标地址@目标地址单元macdst2@字节:6:字节:源地址@源地址单元macsrc3@字节:2:字节:tpid@802.1q以太网编码帧的以太网类型tpid4@字节:2:字节:优先级@用户优先级tci5@字节:2:字节:网络类型@以太网络类型ethertype6@字节:2:字节:应用标识@应用标识符;appid7@字节:2:整数:长度字节数@从appid开始包含在以太网pdu中字节数length8@字节:2:字节:保留字@保留字reserve19@字节:2:字节:保留字@保留字reserve210@字节:1480:集合:应用协议单元@goose报文应用协议单元apdu11@字节::填充数据@填充数据macdata12@字节:4:数据:校验数据@校验数据crc以上各数据项模板单元可组成一个完整的goose帧报文模板:@字节:6:字节:目标地址@@字节:6:字节:源地址@@字节:2:字节:tpid@@字节:2:字节:优先级@@字节:2:字节:网络类型@@字节:2:字节:应用标识@@字节:2:整数:长度字节数@@字节:2:字节:保留字@@字节:2:字节:保留字@@字节:1480:集合:应用协议单元@@字节::填充数据@@字节:4:数据:校验数据@数据项模板单元也可以由若干模板单元集合组成,如组成goose报文应用协议单元(@字节:1480:集合:应用协议单元@)又可以由以下模板单元组成:序号模板数据单元数据项名称键名1@字节:65:字符串:控制模块引用@控制块引用gocbref2@字节:4:整型:生存时间@报文生存时间timeallowedlive3@字节:65:字符串:数据集@数据集dataset4@字节:65:字符串:报文标识@goose报文标识goid5@字节:8:时间:事件时间@事件产生时间time6@字节:4:整数:变化序号@报文变化序号stnum7@字节:4:整数:顺序号@报文顺序序号sqnum8@字节:1:布尔:测试@测试位test9@字节:4:整数:配置版本@配置版本号confrev10@字节:1:布尔:未配置好标志@未配置好标志ndscom11@字节:4:整数:数据集数目@数据个数numdatasetentries12@字节::集合:数据集值@数据值集和alldatasetgoose报文应用协议单元(apdu)模板格式如下:@字节:65:字符串:控制模块引用@@字节:时间:生存时间@@字节:65:字符串:数据集@@字节:65:字符串:报文标识@@字节:8:时间:事件时间@@字节:4:整数:变化序号@@字节:4:整数:顺序号@@字节:1:布尔:测试@@字节:4:版本号:配置版本@@字节:1:布尔:未配置好标志@@字节:4:整数:数据集数目@@字节::集合:数据集值@通过上面数据项定义规则,可将goose报文结构定义成一系列的数据项模板单元的集合,每个数据项模板单元定义了该数据项在原始数据和结构化处理后的形态2、基于goose帧报文模板的机器数据多模式匹配提取基于模板的多模式匹配数据提取是建立在goose帧报文模板定义的基础上,根据goose报文的数据项模板单元集{p1,p2,p3……pn}和goose报文机器数据集t,通过多模式匹配技术找出存在于报文数据集t中的各数据项p的模板单元的值。数据项模板单元定义了该数据项在报文源数据中组织形态,以及结构化后的存在形态,通过模板单元的定义可将原始报文中该数据项数据转换成单元定义的结构化数据。在进行报文数据项匹配和数据提取转换之前先对goose报文根据报文模板定义进行预处理,预处理过程是根据goose报文的数据项模板单元顺序形成一颗多模式的匹配树,匹配树的节点是单个数据项模板单元,每个数据项单元已经定义该数据单元的数据匹配及结构化处理模式。多模式匹配树只需对报文数据集t扫描一次就可以匹配分解出所有与报文模板单元匹配的数据项。数据匹配过程主要包含三个主要部分,1)为goose报文模板单元集合构造一个多模式匹配树;2)根据模板单元数据模式设置每次模板单元匹配的移位函数;3)利用模式匹配树和模板移位函数扫描goose报文数据集对象。goose报文数据的匹配过程是从goose模式匹配树的根节点开始向子节点的方向按逐层逐个机器字节的移动比较,其中模板单元中最短的模板单元长度为每次移动的偏移量l。第一次比较从goose报文的末端向前取l个字节数据,然后从模式树的根模板单元开始比较,每个数据项模板单元已经定义了该数据单元的匹配模式,当出现与模板单元模式不匹配的的数据字节时,下一个匹配目标则按偏移量l移动模式匹配树到下一个模板单元模式串前缀的下一个位置或将模式树移动到树中另一个模板模式后缀能够匹配目标报文字节的位置,依次往复移动处理,直到完成整个报文数据字节流完成在多模式树中各节点数据项模板单元的匹配处理。匹配的报文数据项数据被以键值对的结构化形态输出数据。3、goose报文数据的结构化存储海量的goose报文数据中蕴藏着丰富的智能变电站的运行工况和状态数据,传统的goose报文数据都是以二进制形式存在,无法实现对报文相关项目的查询和分析,通过对goose报文数据的结构化处理,使得对智能变电站的运行工况分析成为可能。goose结构化报文数据的存储采用了分布式海量存储,数据在存储节点上采用列存储结构,把每帧goose报文中的数据项单元的数据值按照字典序存储,每帧goose报文中的数据项单元的数据项分别保存到文件的不同位置,一定数量的帧报文数据项集合作为一个单独文件保存,这种类型的文件称为“片”,是goose报文数据存储发布的基本单位。根据goose报文的业务特点,对goose结构化报文数据“片”集采用报文产生时间的时间属性进行分区管理,索引分片之间保持时间有序,同时建立起基于时间属性的b+树形式的分布式“片”索引。b+树形式的索引是内部结点并没有指向模板单元数据项的关键字具体信息的指针,使得计算机在处理b+索引数据无需加载关键字,大大降低了磁盘io的读写,提高数据的查找效率。在“片”和“片”数据之间建立分布式索引的基础上,在每个“片”中引入的内部块索引,用来标记索引分块内部不同模板单元数据项数据的具体存储位置。报文数据片的索引块的大小通常使用固定大小空间存储,方便一次性加入内存进行数据查询。goose结构化报文数据的块内索引基于@字节:6:mac地址:目标地址@、@字节:6:mac地址:源地址@、@字节:65:字符串:报文标识@等数据项模板单元索引。结合图3下面就iec61850-goose报文数据的结构化处理过程进行详细描述:1、定义iec61850-goose报文的帧数据结构模板,帧报文模板有一系列数据项模板单元组成,每个数据项单元定义包含了该数据项在原始报文中的存在形式,数据结构化后的形态以及数据项数据的匹配模式;2、根据goose报文的帧数据模板,建立该报文帧数据的多模式匹配树。多模式树的每个叶子节点是帧数据项模板单元,每个数据项单元设置了各自帧报文数据的匹配模式,同时依据多模式树中数据项单元的特性设置报文数据每次的匹配移动偏移量;3、通过goose报文模板建立的多模式匹配树扫描一帧帧goose报文,从多模式匹配树的根节点的数据项单元开始按照匹配树的偏移移动量开始逐层逐数据项单元完成数据匹配处理。匹配成功的帧报文数据以键值对的形式输出,完成帧报文数据从非结构化到结构化的处理转换;4、结构化的报文数据进入索引存储环节,索引存储过程是为一帧帧完成结构化处理的goose报文的高速查询建立一种高效的存储方式。本方法将结构化的goose帧报文数据按照报文产生的时间段存储在帧数据文件中,海量的帧报文数据按产生的时间段被分配到不同的帧数据文件中,一个帧数据文件包含一定量的的goose帧报文数据,goose帧报文数据文件以分布形式存储。为提高goose报文数据的检索效率,根据各文件内报文产生的时间为分布存储的帧数据文件建立时间的索引,在每个帧数据文件的内部又建立起帧报文数据项的索引,这种存储索引方式保证了对各帧报文数据项的高效存储和快速查询。本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段,还包括由以上技术特征任意组合所组成的技术方案。应当指出,对于本
技术领域
的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1