一种基于电力调度数据的多源异构数据采集处理方法

文档序号:26193615发布日期:2021-08-06 18:47阅读:59来源:国知局
一种基于电力调度数据的多源异构数据采集处理方法
本发明涉及电力调度数据采集领域,具体的说是一种通过建立基于电力调度数据多源异构数据之间的关联关系从而对数据进行整理采集的方法。
背景技术
:由于不同业务系统之间分散地开发、运行和管理,电力调度系统数据存储结构独立,带来数据多源、格式不一致,数据准确性、实时性不强,数据质量不高,缺乏统一的数据规范等问题,导致不同业务系统之间的数据不能及时共享、访问、管理与分析挖掘。现有多源异构数据采集方法主要是识别将多个命名实体可对应到一个真实实体的实体链接技术。实体链接技术的局限性在于实体识别的适用范围、准确率方面存在不足,前期识别错误会向后续步骤延续等。技术实现要素:针对现有技术的不足,本发明提供一种通过建立基于电力调度数据多源异构数据之间的关联关系并解决数据冲突问题从而对数据进行整理采集的方法。出于对电力调度业务的理解,本方法在实现数据之间关联关系方面准确性高、适用性强,解决了对实体链接技术在实体识别的适用范围、数据关联不全面导致数据准确率方面的不足。本发明为实现上述目的所采用的技术方案是:一种基于电力调度数据的多源异构数据采集处理方法,包括如下步骤:步骤1:采集各业务系统的电力调度数据以及数据间的关系并存储至数据库;步骤2:根据设备名称关联起不同业务系统的设备id,生成设备id关联数据表;步骤3:将目标电网模型与各业务系统数据进行差异化分析,获取差异化分析数据表;步骤4:根据差异化分析结果利用etl工具进行抽取。所述业务系统包括调度管理系统、调度自动化系统scada平台、电量采集系统、云平台系统。所述各业务系统的电力调度数据包括:字典数据、电网基础数据、电网运行及应用数据。所述字典数据为:对数据属性中的输入内容的定义;字典数据内容包括编码和名称,编码和名称是键值对,编码作为对应数据值的唯一标识,用于在数据存储时引用编码。所述电网基础数据为:公共数据、电力一次设备、自动化设备和保护设备;公共数据包括组织结构、电力设备容器、一次能源对象,是支持调度运行管理数据的最基础数据;电力一次设备包括:发电机、电动机、变压器、断路器、隔离开关、自动开关、接触器、刀开关、母线、输电线路、电力电缆、电抗器等;自动化设备用于描述二次设备模型中的自动化模型,描述组成某一数据的表和表的具体结构;具体内容包括自动化设备、厂站公共二次设备、配电自动化终端设备,厂站自动化设备;保护设备用于描述二次设备模型中的保护设备模型,描述组成某一数据的表和表的具体结构;具体内容包括设备类、产品信息类、直流类、设备关联、保护类。所述电网运行及应用数据为:电网运行数据指在电力运行过程当中产生的历史及实时数据,包括发电、输电和变电设备采集的历史数据及电网、断面设备容器汇总计算的总加数据;电网应用数据指电力调度运行管理中生成的数据,包括调度运行报表数据、调度日志数据、计划预测数据、操作票数据。所述数据间的关系为在当前数据中引用了其他数据的id或编码。所述设备id关联数据表的步骤包括:为待选设备生成新的设备id,用设备名称为不同系统的设备进行标记,使得被标记的设备的id之间存在关联映射,形成设备id关联表,设备id关联表包括:当前设备新生成id,设备名称,关联系统,关联系统设备名称,关联系统设备id。所述差异化分析包括:将目标模型字段与采集的电力调度数据进行比对,一个目标模型字段能够与多个系统的电力调度数据的字段匹配,将比对结果生成差异化分析表;差异化分析表主要包括:目标表名,目标字段,来源系统,来源表名,来源字段,生效标识;所述目标表名存储目标表表名称;所述目标字段存储目标表的字段名称;字段内容包括id、设备名称、所属组织机构、电压等级、目标表属性名。所述来源系统存储用来进行比对的系统名称;所述来源表名存储来源系统中与目标表数据一致的表名;所述来源字段存储来源表中与目标字段匹配的字段,如果来源系统没有能与目标字段匹配的字段,来源字段内容为空值;所述来源系统、来源表名、来源字段是根据设备id关联数据表确定的关联关系;所述生效标识存储用于最终的匹配抽取结果,“是”为最终抽取来源用于后续的抽取步骤。所述根据差异化分析结果利用etl工具进行抽取,包括:利用etl组件清除差异化分析数据表中重复数据、根据差异化分析表中“生效标识”筛选数据;根据筛选后的差异化分析表中的来源字段,在字典表中查找来源字段对应的id值抽取更新至目标表中。本发明具有以下有益效果及优点:1.本发明抽取的电力调度数据是完全按照电力系统模型进行抽取,除了对冗余数据进行处理外未对原数据进行其他操作,保证数据准确,全面,可靠性高。2.差异化分析时分析更为全面,当需要切换数据来源无需重新比对。3.数据抽取过程配置简单易懂,使用任意etl工具都可实现。附图说明图1是本发明的方法流程图;图2是本发明所采集数据结构图。具体实施方式下面结合实施例对本发明做进一步的详细说明。为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但本发明能够以很多不同于在此描述的其他方式来实施,本领域技术人员可以在不违背发明内涵的情况下做类似改进,因此本发明不受下面公开的具体实施的限制。除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的
技术领域
的技术人员通常理解的含义相同。如图1所示为本发明的方法流程图。首先收集电力调度个业务系统包含的数据信息,梳理数据之间的关联关系。然后为设备建立新id并根据收集到的数据根据设备名称关联起不同系统的设备id,将整理好的数据关系存入数据库。将电网模型与各业务系统数据进行差异化分析,将分析结果存入数据库。最后使用etl工具根据差异化分析结果对数据进行抽取。步骤1:采集各业务系统的电力调度数据以及数据间的关系并存储至数据库;数据收集为:a.收集各业务电力调度的相关信息,主要包括如下三种模型:字典数据模型包括:公共字典、容器类、发电设备类、输变电设备类型、量测类型、调度事件类;电网基础数据模型包括:公共数据、电力一次设备、自动化设备和保护设备。公共数据包括:组织结构、电力设备容器、一次能源对象,电力一次设备包括:发电设备、交流输电设备、变电设备、直流输电设备,自动化设备包括:自动化设备、厂站二次设备、自动化终端设备、厂站自动化设备,保护设备包括:设备类、产品信息类、直流类、设备关联表、保护类;电网运行及应用数据模型包括:量测数据、调度运行报表数据、调度日志数据、计划预测数据、操作票数据。数据表包括:公共字典中电压等级表,电压等级表包含编码与名称,名称中具体内容包括电压等级的标准范围例如1000kv、500kv、220kv等。公共字典中调度机构表,调度机构表包含编码和名称,名称中内容为调度机构的具体名称例如国调、东北调度分中心、辽宁省调等。电力设备中容器发电厂信息表包含id、发电厂名称、最高电压等级、所属调度机构。其中id为唯一标识,发电厂名称为该电厂的全名,最高电圧等级为电厂内变压器的最高电压等级所对应电压等级表的编码,所属调度机构为负责管理该电厂的调度机构对应调度机构表的编码。电力设备中容器变电站信息表包含id、变电站名称、最高电压等级、所属调度机构。其中id为唯一标识,变电站名称为该变电站的全名,最高电圧等级为变电站内变压器的最高电压等级所对应电压等级表的编码,所属调度机构为负责管理该电厂的调度机构对应调度机构表的编码。变电设备中变压器基本信息表包括id、变压器名称、所属厂站、最高电压等级、设备型号、额定容量,其中id为唯一标识,变压器名称为该变压器的全名,所属厂站为该变压器所在的发电厂或变电站的id,最高电圧等级为变压器的铭牌上规定最高电压等级所对应电压等级表的编码,设备型号为变压器的具体型号、额定容量为变压器铭牌上的规定容量。发电设备中发电机基本信息包括id、发电机名称、所属厂站、最高电压等级、设备型号、额定容量,其中id为唯一标识,发电机名称为该发电机的全名,所属厂站为该发电机所在的发电厂或变电站的id,最高电圧等级为发电机的铭牌上规定最高电压等级所对应电压等级表的编码,设备型号为发电机的具体型号、额定容量为发电机铭牌上的规定容量。交流输电设备中交流线路基本信息表包括id、线路名称、首端厂站、末端厂站、线路长度,其中id为唯一标识,线路名称为该交流线路的全名,首端厂站为线路起始侧厂站id,末端场站为线路末尾厂站id,线路长度为整条线路的全长。b.获取数据之间关联关系:主要包括:字典数据模型与电网基础数据模型的引用关系;字典数据模型与电网运行及应用数据模型的引用关系;电网基础数据模型与电网运行及应用数据模型的引用关系;上述引用关系指在模型数据中引用了其他表的id或编码,例如在电网基础数据的电力容器中发电厂的电压等级引用了公共字典表中电压等级表的编码值,电网运行及应用数据中调度日志数据中机组管理的机组字段引用了电网基础数据的发电设备中发电机的id值。电力设备容器中发电厂、变电站与发电设备中的发电机、变电设备中的母线和变压器之间的包含关系,交流输电设备中交流线路、直流输电设备中直流线路与发电厂、变电站之间的连接关系。上述连接关系指发电厂、变电站中有多个发电机、母线、变压器,发电机、母线、变压器表的所属厂站引用了发电厂、变电站中的id。交流线路和直流线路负责在厂站之间传输电能,交流线路和直流线路表的首端厂站和末端厂站引用了发电厂、变电站中的id。数据模型的详细内容及之间的关联关系可见图2。c.将采集的各业务系统的电力调度数据按种类分别存储至数据库,将上述数据模型间的关系并存储至数据库;步骤2:id关联形成关联表为:为基础数据中电力设备容器中的发电厂和变电站、发电设备中发电机、交流输电设备中的交流线路、直流输电设备的直流线路及变电设备中的母线和变压器等设备以重新生成设备id,将新生成的设备id用设备名称与其他系统的设备id进行关联形成设备id关联表。设备id关联表内容包括:新生成id,设备名称,关联系统,关联系统设备名称,关联系统设备id等。如下表1所示,以发电厂伊敏厂举例,对于新生成id的伊敏厂在调度管理系统中与设备名称为伊敏厂的设备关联,同时与云平台系统设备名称为伊敏厂的设备关联。表1设备id关联表示例新生成id设备名称关联系统关联系统设备名称关联系统设备id0203011083923伊敏厂调度管理系统伊敏厂86310203011083923伊敏厂云平台伊敏厂99010482390步骤3:差异化分析为:将电网模型字段与步骤1中收集的电力调度数据进行比对,一个模型字段能够与多个系统字段匹配,将比对结果整理成差异化分析表。差异化分析表主要包括:目标表名,目标字段,来源系统,来源表名,来源字段,是否生效等。目标表名存储目标表表名称,目标字段存储目标表的字段名称,来源系统存储用来进行比对的系统名称,来源表名存储来源系统中与目标表数据相近的表名,来源字段存储来源表中与目标字段匹配的字段,是否生效存储最终匹配结果,数据为“是”的为最终抽取来源。如下表2所示,调研的系统中有3个系统都存在发电厂表,在差异化分析过程中对于所属调度机构字段调度自动化系统被云平台系统有可以对应的字段,而调度自动化系统scada平台没有对应字段,于是对于抽取来源有限考虑前两个系统。而在调度管理系统和云平台系统中,云平台系统仅上线运行1年左右,调度管理系统已经运行了5年以上,这里认为调度管理系统的数据更加准确,最终选择调度管理系统的发电厂标作为抽取来源。表2差异化分析表示例步骤4:etl工具进行数据抽取为:首先,利用etl组件,清除重复数据和根据差异化分析表中该字段的“是否生效”标识去除明显有问题的数据,例如发电厂信息中没有填写电压等级的数据。其次,根据差异化分析结果利用关联组件,将上一步抽取的数据中与字典表相关联的属性值(例如电压等级,上一步抽取数据为500kv)转换为字典表中的编码值(1003),将转换后的编码与其他数据一同输出到目标表。在得到目标表之后,我们可以对整合进来的数据进行进一步分析应用,例如结合调度日志数据中机组非正常停运的时间及操作票中机组计划检修时间能够知道这段时间机组没有正常工作,当量测数据中该机组获取到的电量值并不准确,在计划预测明日电量时不能取这段时间的数据作为计算基础。反之如果电量数据出现异常,数据超过一定阈值出现明显错误,并且机组不在检修状态即出现异常情况,对调度员进行告警与厂站进行联系核实情况。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1