基于风机数据的多源数据整合方法及装置与流程

文档序号:18190648发布日期:2019-07-17 05:34阅读:222来源:国知局
基于风机数据的多源数据整合方法及装置与流程
本发明涉及风力发电
技术领域
,更具体地讲,涉及一种基于风机数据的多源数据整合方法及其装置。
背景技术
:近些年来,随着风力发电行业的蓬勃发展,风力发电机组已拥有很大规模,随着社会的发展和市场的不断扩大,为了规范企业内部的管理行为、客户的要求,建立并运行了多个运维管理系统。多种运维管理系统的推行有利于企业公司适应不同的市场变化的需要。然而,丰富的数据资源由于建设时期不同,开发部门不同、使用设备不同、技术发展阶段不同和能力水平的不同等,数据存储管理极为分散,造成了过量的数据冗余和数据不一致性,使得数据资源难于查询访问,管理层无法获得有效的决策数据支持。往往管理者要了解所管辖不同部门的信息,需要进入众多不同的系统,而且数据不能直接比较分析。运维管理系统的云端与客户端系统集成度低、互联性差、信息管理分散,数据的完整性、准确性、及时性等方面存在较大差距,形成了许多信息孤岛,缺乏共享的、网络化的可用度高的风机数据体系。数字化转型对各个运维管理系统的数据准确性、有效性的要求较高。在机组运行过程中各个运维管理系统回传了大量的机组配置信息数据,而各个运维管理系统数据源的数据侧重点不尽相同,使得数据整体变得零散。因此,需要将这些海量数据整合成完整的、有效的数据,并存储起来。因此,需要一种针对风机数据的多源数据整合的方法及其装置。技术实现要素:为了解决上述问题和/或缺点,并至少提供下面描述的优点,本发明提供了一种基于风机数据的多源数据整合的方法和装置。本发明的一方面在于提供一种基于风机数据的多源数据整合方法,所述方法包括:通过分析风机业务数据以及各个数据源的风机数据来设计风机数据事实表的表结构;将各个数据源的风机数据分别抽取到设计的风机数据事实表中并将抽取的风机数据中的数据标识转化为统一的数据标识;针对转化后的各个数据源的数据进行数据清洗;将清洗后的各个数据源的数据进行数据融合,生成风机数据实时表。优选地,设计风机数据事实表的表结构的步骤可以包括:针对各个数据源的基础数据使用统一的数据变量名称来生成机组基础信息维度表;通过确定业务系统需求的变量信息来生成变量信息维度表;通过分析各个数据源的变量信息来生成各个数据源之间的变量转化关系表。优选地,设计风机数据事实表的表结构的步骤可以包括:根据各个数据源的机组编码、机组变量名称,结合数据采集时间、数据返回时间来设计风机数据事实表的表结构。优选地,抽取数据的步骤可以包括:从各个数据源将风机数据全部抽取到目标数据库临时表中,根据变量信息维度表中定义的变量名称将与风机业务系统相关的数据抽取到设计的风机数据事实表中。优选地,数据转化的步骤可以包括:参照生成的变量转化关系表将各个数据源的机组编码、风电场编码为统一的机组编码、风电场编码。优选地,数据清洗的步骤可以包括:参照生成的变量信息维度表,针对各个数据源在数据传输中出现的重复数据、残缺数据和/或错位数据将不同数据类型的风机数据进行类型校验,将数据类型不匹配的风机数据过滤掉。优选地,数据清洗的步骤还可以包括:参照变量信息维度表和机组基础信息维度表,针对各个机组变量的校验规则、命名规范和数据值范围对经数据类型校验后的风机数据进行有效性校验,将无效的数据过滤掉。优选地,数据清洗的步骤还可以包括:参照变量信息维度表和机组基础信息维度表,确定风机数据中相关联的配置信息是否存在冲突,当配置信息存在冲突时,将当前同次抽取的全部数据过滤掉。优选地,数据清洗的步骤还可以包括:参照变量信息维度表,针对各个机组变量之间相关联的变量值进行冲突校验,当相关联的变量值存在冲突时,将当前同次抽取的全部数据过滤掉。优选地,数据融合的步骤可以包括:将清洗后的各个数据源的风机数据按照机组编码、变量名称、数据采集时间的顺序进行排序,对变量值重复的数据进行过滤,生成新的风机数据事实表,并且将新的风机数据事实表按照数据采集时间的倒序进行排序,生成风机数据实时表。优选地,数据融合的步骤还可以包括:将各个数据源的风机数据实时表进行整合和数据清洗,将经整合和清洗的风机数据实时表存入数据库中。本发明的另一方面在于提供一种基于风机数据的多源数据整合装置,所述装置包括:分析设计模块,被配置为通过分析风机业务数据以及各个数据源的风机数据来设计风机数据事实表的表结构;数据抽取模块,被配置为将各个数据源的风机数据分别抽取到设计的风机数据事实表中;数据转化模块,被配置为将抽取的风机数据中的数据标识转化为统一的数据标识;数据清洗模块,被配置为针对转化后的各个数据源的数据进行数据清洗;数据融合模块,被配置为将清洗后的各个数据源的数据进行数据融合,生成风机数据实时表。本发明的另一方面在于提供一种基于风机数据的多源数据整合装置,所述装置包括:存储器,被配置为存储指令;处理器,被配置为运行存储在存储器中的所述指令以执行以下操作:通过分析风机业务数据以及各个数据源的风机数据来设计风机数据事实表的表结构;将各个数据源的风机数据分别抽取到设计的风机数据事实表中并将抽取的风机数据中的数据标识转化为统一的数据标识;针对转化后的各个数据源的数据进行数据清洗;将清洗后的各个数据源的数据进行数据融合,生成风机数据实时表。本发明的另一方面在于提供一种计算机可读存储介质,包括计算机程序,所述计算机程序能够被处理器运行以执行上述基于风机数据的多源数据整合的方法。本发明的另一方面在于提供一种计算机,包括:存储器,被配置为存储指令;处理器,被配置为运行存储在存储器中的所述指令以执上述基于风机数据的多源数据整合的方法。基于以上描述的基于风机数据的多源数据整合方法及其装置,可以有效地整合现有及未来的运维管理系统的数据资源,形成统一的、完整的、准确的、可用度高的风机数据体系,解决了多个数据源海量数据的整合问题。附图说明下面,将结合附图进行本发明的详细描述,本发明的上述特征和其他目的、特点和优点将会变得更加清楚,其中:图1是示出根据本发明的示例性实施例的基于风机数据的多源数据整合方法的流程图;图2是示出根据本发明的示例性实施例的对数据进行清洗操作的流程图;图3是示出根据本发明的示例性实施例的对数据进行类型校验的流程图;图4是示出根据本发明的示例性实施例的对数据进行有效性校验的流程图;图5是示出根据本发明的示例性实施例的对数据进行业务逻辑校验的流程图;图6是示出根据本发明的示例性实施例的对数据进行变量值校验的流程图;图7是示出根据本发明的示例性实施例的对数据进行融合的流程图;图8是示出根据本发明的示例性实施例的多源数据整合装置的框图。具体实施方式下面,参照附图来详细说明本发明的示例性实施例。其中,相同的标号始终表示相同的部件。应理解,根据本发明示例性实施例的基于风机数据的多源数据整合方法及其装置可被应用于各种风力发电机组的多个数据源海量数据的整合。图1是示出根据本发明的示例性实施例的基于风机数据的多源数据整合方法的流程图。如图1中所示,在步骤s110,通过分析风机业务数据以及各个数据源的风机数据来设计风机数据事实表的表结构。具体地说,结合风机业务对各个运维管理系统(即数据源)所需求的风机数据进行分析,生成风机数据需求报告,基于风机数据需求报告针对需求的风机数据来设计风机数据事实表的表结构。在设计针对各个数据源的表结构的过程中,首先对各个运维管理系统的数据包含内容、数据的更新频率以及数据的获取方式等进行分析以获取各个运维管理系统需求数据的信息并将分析结果应用于后续的数据清洗操作中。然后,对风机业务系统的业务数据进行整理分析,确定业务系统所需的数据变量的名称以保证各个产品类型的变量信息的一致性。具体地,在设计风机数据事实表的表结构的过程中,可针对各个数据源的基础数据使用统一的数据变量名称来生成机组基础信息维度表。其中,基础数据可以包括关于风电场的数据(诸如风电场编码、风电场名称、所属片区和所属省份等)、关于风机机组的数据(诸如机组编码、机组容量、机组大类以及机组细类等)以及协议信息(诸如协议号、协议类型等)等。由于不同的运维管理系统可能使用不同的变量名称并且各个运维管理系统的数据结构可能不匹配,因此需要针对不同的产品类型的机组数据使用统一的变量名称以及数据结构来形成统一的机组基础数据信息管理,便于将各个运维管理系统的机组基础数据汇总起来。例如,假设来自第一运维管理系统的机组id为100001001,来自第二运维管理系统的机组id为gw150001,可以使用第一运维管理系统中的命名规则将第二运维管理系统中的机组idgw150001修改为100001001。通过生成机组基础信息维度表可以获知风机数据事实表中的数据来自哪个机组以及该机组的基础信息。根据本公开的实施例,机组基础信息维度表根据风机业务的需求可以包括风电场编码、机组编码、机组名称、机组容量以及产品类型等内容,如表1所示。但上述实施例仅是示例性的,并不限于此。表1机组基础信息维度表风电场编码机组编码机组名称机组容量产品类型…在设计风机数据事实表的表结构的过程中,还可通过确定业务系统需求的变量信息来生成变量信息维度表。例如,假设风机业务系统需要500个指定变量,在分析各个运维管理系统的基础数据时,将统计各个运维管理系统中的哪些变量属于风机业务系统需要的500个指定变量,并根据确定的业务系统所需的数据变量名称来形成变量信息维度表。通过变量信息维度表可以获知风机数据事实表中的变量含义、变量名称等。根据本公开的实施例,变量信息维度表可以包括变量类型、变量数值范围以及变量名称等内容,如表2所示。表2变量信息维度表变量类型数据范围变量名称变量含义…由于在不同的运维管理系统中,同一个变量可能具有不同的变量标识,因此,在设计风机数据事实表的表结构的过程中需要根据业务需求以及针对各个运维管理系统的分析设计来生成变量转化关系表。例如,不同的运维管理系统可能使用不同版本的中控系统,假设第一运维管理系统使用第二版本的中控系统,第二运维管理系统使用第三版本的中控系统,此时需要将第二版本系统的变量命名转化为第三版本系统的变量命名以方便管理。上述对于包括各个维度表的表结构的设计方式仅是示例性的,本公开并不限于此。通过对机组基础信息维度表、变量信息维度表等的设计可以减少数据冗余和关联关系。根据本申请的示例性实施例,可参照如上所述的机组基础信息维度表、变量信息维度表,根据各个运维管理系统的机组编码、机组变量名称,结合数据采集时间、数据返回时间来设计各个数据源的风机数据事实表的表结构。例如,根据本公开的实施例,可以将风机数据事实表结构设计为表3的形式,然而,本公开并不限于此。表3风机数据事实表结构风电场编码机组编码变量名称变量值数据采集时间数据源回传时间通过对上述各种维度表的设计以及风机数据事实表的设计有利于满足数据抽取、数据清洗以及数据整合的目的,这样可以实现在数据存储时产生更少的数据冗余等。下面,将详细说明使用s110步骤的分析设计的结果来处理风机数据的一系列操作。经过对各个数据源的风机数据以及风机业务系统需求的数据进行分析设计之后,在步骤s120,将各个数据源的风机数据分别抽取到设计的风机数据事实表中并将抽取的风机数据中的数据标识转化为统一的数据标识。具体来说,首先使用通用数据接口将风机数据从各个运维管理系统中抽取到目标数据库临时表中。在本公开的实施例中,使用能够适配多种数据类型的数据接口来从各个运维管理系统中的历史数据中抽取全部数据,实现初次数据抽取,这样可以得到完整的数据。然后通过变量信息维度表中定义的变量名称将与业务系统相关的数据抽取到设计的风机数据事实表中。此外,在后续的数据抽取中,根据数据采集时间,按日增量的方式来抽取数据。例如,假设每天下午1点为数据采集时间,在每天下午1点时从各个运维管理系统中抽取前一天的风机数据,即前一天新增的数据。如果数据源是数据库,则可以按照事实表中回传时间字段来抽取数据。在将数据抽取到风机数据事实表后,参照变量转化关系表将各个运维管理系统的机组编码、风电场编码转化为统一的机组编码和风电场编码。例如,从第一运维管理系统抽取并转化后的数据放入设计的风机数据事实表中,如表4所示。表4仅是示例性的,本公开并不限于此。表4风机数据事实表风电场编码机组编码变量名称变量值数据采集时间…101001101001001主控程序版本号1500_fr_v170725…101001101001001风机类型121/1500101001101001001变流器类型3…在步骤s130,针对转化后的各个数据源的数据进行数据清洗。由于风电厂网络的特殊性和国家对电网安全的要求,各个运维管理系统在数据传输中容易出现重复数据、残缺数据和错位数据等情况,此时需要通过业务逻辑针对风机数据在传输中出现的重复数据、残缺数据和/或错位数据来进行清洗数据。以下将参照图2对清洗数据的操作进行详细描述。图2是示出根据本发明的示例性实施例的对数据进行清洗操作的流程图。如图2中所示,在步骤s211,参照生成的变量信息维度表,针对各个数据源在数据传输中出现的重复数据、残缺数据和/或错位数据,对不同数据类型的风机数据进行类型校验,将数据类型不匹配的风机数据过滤掉。由于风机数据在存储、回传的过程中可能出现数据发生错误的情况,所以可以使用数据类型对风机数据进行初步过滤。参照图3,在步骤s310,首先查询在步骤s120中抽取并转化后的数据中的数据类型,在步骤s320,根据机组变量的类型属性对数据类型进行分类,在步骤s330,将不同数据类型的风机数据进行数据类型校验,在步骤s340,将经数据类型校验后的数据进行合并记录,在步骤s350,对数据类型不匹配的数据进行过滤,这样可以提高数据质量。例如,根据数据类型的分类,可以分为字符类型、数字类型等,假设变量信息维度表中的风电场编码的数据类型为字符型,而抽取的某一风电场编码的数据类型为数值型,则将该数据过滤掉。在步骤s212,参照变量信息维度表和机组基础信息维度表,针对各个机组变量的校验规则、命名规范和数据值范围对经数据类型校验后的风机数据进行有效性校验。参照图4,在经数据类型校验后,在步骤s410,根据变量信息维度表中的变量名称进行分类,在步骤s420,根据变量的校验规则、命名规范以及数值范围进行有效性校验。例如,针对主控软件版本号变量,需要核对与版本号变量相应的风电机组的产品类型,确定主控软件版本的命名规范以及与主控软件版本号变量相匹配的变量值是否正确,如果出现变量值不匹配、命名不符合规范或超出此变量的数据范围的数据,则确定该数据为无效数据并在步骤s430将该数据过滤掉。在步骤s213,参照变量信息维度表和机组基础信息维度表,确定风机数据中相关联的配置信息是否存在冲突,当配置信息存在冲突时,将同次采集的风机数据过滤掉。其中,配置信息是指在机组基础信息维度表和变量信息维度表中存在的能够判断风机数据事实表中的数据是否匹配,例如,可以根据机组基础信息维度表中的机组类型来判断风机数据事实表中的中控软件版本号、风机类型等变量。由于各个业务系统的数据具有各自的独特性,在数据回传时可能出现数据转化不正确的情况,导致变量值冲突,因此需要对风机数据进行业务逻辑校验,即验证相互关联的配置信息是否存在冲突。具体地,参照图5,在步骤s510,将经变量值校验后的数据与变量信息维度表和机组基础信息维度表进行比较,在步骤s520,找出针对不同产品类型的机组数据中相互关联的配置信息,然后通过步骤s530中的字段选择,在步骤s540,对相互关联的配置信息进行冲突校验,以确定风机数据中相关联的配置信息是否存在冲突,当配置信息存在冲突时,在步骤s550,将当前批次的风机数据过滤掉,即将当前机组数据同次采集的全部数据过滤掉。例如,当主控程序版本号为1500_fr_v21070725、变流器类型为2时,两个变量发生冲突,这是因为在主控程序版本号为1500_fr_v2107072格式的情况下,变流器类型变量只能为1、3、5中的一个,因此确定为冲突,将当前机组数据同次采集的全部数据过滤掉。又例如,当主控版本号为1500_fr_v170725以及风机类型为121/1500时,参照机组基础信息维度表的数据,可以确定机组类型为1.5mw风冷机组。如果当机组编码为101001001、机组类型为2.5mw风冷机组时,返回的数据是主控版本号为1500_fr_v170725和风机类型为121/1500,则确定配置信息发生冲突,将当前机组数据同次采集的全部数据过滤掉。上述示例仅是示例性的,本公开并不限于此。在步骤s214,参照变量信息维度表,针对各个机组变量之间相关联的变量值进行冲突校验,当相关联的变量值存在冲突时,将当前同次抽取的全部数据过滤掉。具体地,参照图6,在对风机数据进行业务逻辑校验之后,在步骤s610,参照变量信息维度表,按照机组编码对数据进行分组,使数据扁平化,在步骤s620,针对同一机组的不同变量之间相互关联的变量值,选择相同类型的字段并在步骤s630,进行变量值冲突校验,如果不同变量的变量值存在冲突,则在步骤s640,将抛离当前批次的数据,即当前机组数据同次采集的所有数据。例如,对于同一产品类型的机组,存在一系列参数配置变量与该机组相应,例如,1.5mw水冷机组对应于特定类型或格式的变流器类型、主控程序版本号、初始化文件号等变量值,本步骤需要对相关的这些变量值进行冲突校验,如果针对同一产品类型的机组之间的变量值存在冲突,则将当前机组数据同次采集的全部数据过滤掉。此外,对于步骤s213和步骤s214的操作顺序,并不限于与上述实施例,可以并行操作步骤s213和步骤s214,也可以先操作步骤s214再操作步骤s213。再次参照图1,在步骤s140,针对清洗后的各个数据源的风机数据按照机组编码、变量名称、数据采集时间进行排序,并且对变量值重复的数据进行过滤,生成新的风机数据事实表,并且将新生成的风机数据事实表按照数据采集时间的倒序进行排序,生成风机数据实时表。然后对各个数据源的风机数据实时表进行整合和数据清洗,将经整合并清洗的风机数据事实表存入数据库中。参照图7,在步骤s710,将各个运维管理系统中的风机数据按照机组编码、变量名称、数据采集时间进行排序来生成新的风机数据事实表,并将新生成的风机数据事实表按照机组编码、变量名称、数据采集时间的倒序进行排序,生成风机数据实时表。针对各个运维管理系统的风机数据实时表进行合并,在步骤s720,将合并过程中重复记录的数据过滤掉,在步骤s730,对合并后的数据再次进行数据清洗操作,在数据融合中的数据清洗的步骤与步骤s130中的数据清洗的步骤类似,这里不在赘述。最终,在步骤s740,将经整合和清洗的风机数据实时表存入数据库中,这样最大限度的保证数据的完整性和准确性,同时保持了风机数据的可追溯性,便于跟踪问题。图8是示出根据本发明的示例性实施例的多源数据整合装置的框图。如图8所示,整合装置80包括分析设计模块801、数据抽取模块802、数据转化模块803、数据清洗模块804以及数据融合模块805。其中,分析设计模块801通过分析风机业务数据以及各个数据源的风机数据来设计风机数据事实表的表结构。数据抽取模块802将各个数据源的风机数据分别抽取到设计的风机数据事实表中。数据转化模块803将抽取的风机数据中的数据标识转化为统一的数据标识。数据清洗模块804将转化后的各个数据源的数据进行数据清洗。数据融合模块805将清洗后的各个数据源的数据进行数据融合,生成风机数据实时表。在设计风机数据事实表的表结构的过程中,分析设计模块801需要针对各个数据源的基础数据使用统一的数据变量名称来生成机组基础信息维度表,通过确定业务系统需求的变量信息来生成变量信息维度表以及通过分析各个数据源的变量信息来生成各个数据源之间的变量转化关系表。通过分析风机业务数据以及各个数据源的风机数据,分析设计模块801根据各个数据源的机组编码、机组变量名称,结合数据采集时间、数据返回时间来设计风机数据事实表的表结构。在通过分析设计模块801对各个数据源的数据以及风机业务数据进行分析设计之后,数据抽取模块802首先使用通用数据接口将风机数据从各个运维管理系统中全部抽取到目标数据库临时表中,实现初次数据抽取。然后,通过变量信息维度表中定义的变量名称将与业务系统相关的数据抽取到设计的风机数据事实表中。此外,数据抽取模块802在后续的数据抽取中,根据数据采集时间,按日增量的方式来抽取数据。在将收据抽取到风机数据事实表后,数据转化模块803根据变量转化关系表将各个运维管理系统的机组编码、风电场编码转化为统一的机组编码和风电场编码。在将抽取数据的数据标识转化为统一的数据标识之后,数据清洗模块804对转化后的数据进行数据清洗。具体地,数据清洗模块804首先根据生成的变量信息维度表,针对各个数据源在数据传输中出现的重复数据、残缺数据和/或错位数据将不同数据类型的风机数据进行类型校验,将数据类型不匹配的风机数据过滤掉。然后,数据清洗模块804根据变量信息维度表和机组基础信息维度表,针对各个机组变量的校验规则、命名规范和数据值范围对经数据类型校验后的风机数据进行有效性校验,将无效的数据过滤掉。在经过上述清洗过程后,数据清洗模块804根据变量信息维度表和机组基础信息维度表,还需要确定风机数据中相关联的配置信息是否存在冲突。当配置信息存在冲突时,将当前同次抽取的全部数据过滤掉。数据清洗模块804还根据变量信息维度表,针对各个机组变量之间相关联的变量值进行冲突校验,当相关联的变量值存在冲突时,将当前同次抽取的全部数据过滤掉。数据清洗模块804的清洗操作与步骤s130的操作相同,这里不再进行详细描述。在经各个数据源的数据清洗之后,数据融合模块805将清洗后的各个数据源的风机数据按照机组编码、变量名称、数据采集时间进行排序,对变量值重复的数据进行过滤,生成新的风机数据事实表,并且将新的风机数据事实表按照数据采集时间的倒序进行排序,生成风机数据实时表。然后,数据融合模块805将各个数据源的风机数据实时表进行整合和数据清洗,将经整合和清洗的风机数据实时表存入数据库中。此处的数据融合与步骤s140的操作相同,这里不再赘述。根据本发明公开的实施例的一种基于风机数据的多源数据整合装置可包括:存储器,被配置为存储指令;处理器,被配置为运行存储在存储器中的所述指令以执行以下操作:通过分析风机业务数据以及各个数据源的风机数据来设计风机数据事实表的表结构;将各个数据源的风机数据分别抽取到设计的风机数据事实表中并将抽取的风机数据中的数据标识转化为统一的数据标识;针对转化后的各个数据源的数据进行数据清洗;将清洗后的各个数据源的数据进行数据融合,生成风机数据实时表。根据本发明公开的实施例的一种基于风机数据的多源数据整合方法可被实现为计算机可读记录介质上的计算机可读代码,或者可通过传输介质被发送。计算机可读记录介质是可存储此后可由计算机系统读取的数据的任意数据存储装置。计算机可读记录介质的示例包括只读存储器(rom)、随机存取存储器(ram)、光盘(cd)-rom、数字多功能盘(dvd)、磁带、软盘、光学数据存储装置,但不限于此。传输介质可包括通过网络或各种类型的通信通道发送的载波。计算机可读记录介质也可分布于连接网络的计算机系统,从而计算机可读代码以分布方式被存储和执行。基于以上描述的基于风机数据的多源数据整合方法以及装置,可以有效地整合现有的以及未来的各个数据源的数据资源,形成统一的、完整地、准确地、可用度高的风机数据体系,避免了过量的数据冗余和数据的不一致性,使得数据资源便于查询访问,管理层可以获得有效的决策数据支持。尽管已经参照其示例性实施例,具体显示和描述了本发明,但是本领域的技术人员应该理解,在不脱离权利要求所限定的本发明的精神和范围的情况下,可以对其进行形式和细节上的各种改变。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1