用于数据流处理的方法和系统与流程

文档序号:17049602发布日期:2019-03-05 19:55阅读:194来源:国知局
用于数据流处理的方法和系统与流程

本文公开了用于收集和处理来自通信网络的数据流的系统和方法。



背景技术:

安装在现场的连接设备需要一种鲁棒的,可靠的,可执行的并且可扩展的通信基础设施,用于收集和处理设备产生的数据。典型地,通过适合的电信通道,数据从设备传输到web门户。通过web门户接收到的数据先由web门户存储并处理,以供客户使用。

例如,如风电场、光伏发电设施等可再生能源发电厂通常由大量的逆变器组成,这些逆变器收集由例如风轮机或光伏板阵列的可再生能源产生的直流电,并将电能转化为适合用于给电负载供电或适合用于注入配电网的交流电。逆变器的控制单元收集和逆变器的操作相关的,及和与逆变器连接的如风轮机和光伏板等发电设备的操作相关的数据。所收集的数据可用于监测逆变器及与其连接的其他设备,并且可用于测量与所产生的交流电流相关的参数,例如有功功率、无功功率、功率因数、电压等等。

可能产生例如与ups、电池充电器、汽车应用设备等相关的在数据收集和处理方面的类似需求。

数据处理必须高效、廉价、易于管理和维护。数据存储同样重要,因为传入的数据必须通过一个高效和高带宽的通道连续不断地被存储。

web门户代表着通信基础设施的主要组成部分。web门户必须是鲁棒的,即其必须能够承受不断增长的负载并快速地从事故中恢复。此外,web门户必须可用并且可执行,即其必须时刻快速响应用户的命令。web门户还必须可靠,即其应确保数据不被丢失并且易于维护。系统复杂性必须可承受,负载和成本必须得到控制。

通常,在现场的非常大量的设备与web门户进行数据通信,数据在web门户中被存储和处理。设备可以属于几个不同的所有者。例如,不同的光伏发电设施可以属于不同的所有者。每个所有者可以从web门户订阅服务并且注册自己的设备,以获得经消化和处理的关于例如由他的设施产生的电力的数据,以及获得关于例如各种设备的操作条件、效率和性能的信息。根据签订的协议的种类(和成本),不同用户可能有不同的优先级,即他们的请求可能比其他用户的请求以更高或更低的优先级被处理。

通常仅基于通过web门户的订阅者拥有的每个设备的服务订阅和注册,数据被收集、处理并提供给所有者。在设备安装和服务订阅之间的时间间隔内所收集的数据被丢失。这代表了现有技术的数据收集系统的缺点。

目前现有技术的数据收集和处理系统的进一步的缺点和若干原因造成的延迟相关。在一些情况下,数据摄取和数据处理之间可能有延迟。例如,可能存在表征过程本身的操作延迟。进一步的延迟可能是由可能导致性能问题的所摄取数据的意外峰值引起的。门户基础设施的常规维护和/或处理系统上的事故可能会使处理服务暂时不可用,从而导致数据处理的延迟。并且,传输大量历史数据的设备,例如因为正在从通信中断中恢复,可能进一步导致数据处理过程中的延迟。

因此,需要一种数据收集和处理系统,该系统至少部分地克服或者缓解现有技术的数据收集和处理系统中的至少一个缺点。

特别地,提供防止数据丢失并能够尽可能快地处理数据并将数据提供给所有者的系统是有利的。这还有利于防止或减少数据处理延迟并以接近实时的方式(即,在数据收集时间和所收集的数据被处理并被提供给所有者的时间之间具有有限延迟)处理数据。



技术实现要素:

为了缓解或克服现有技术数据摄取方法的一个或多个缺点,本文公开了一种用于处理来自多个设备的数据流的方法,所述方法包括以下步骤:

当接收到来自连接到数据摄取系统或结构的多个设备中的一个的数据包时,检测数据包和活动设备还是非活动设备相关;并且:

如果数据包和活动设备相关,则将数据传送到一个数据处理装备;并且

如果数据包和非活动设备相关,则将数据包存储在原始数据存档中。

与非活动设备相关的数据从而可被存储在例如原始数据存档中,以用于一旦从其接收数据的相关设备变得活跃就进行后续检索。避免了数据丢失。例如,一旦客户订阅了数据处理服务,就可以从属于客户的设备提供完整数据。此外,这些在相关设备激活之前已被收集的数据会后续被处理并被传送给客户。如果设备被暂时设置在非活动状态,则从其接收到的数据不会丢失,而是被存储在例如原始数据存储器中并后续被处理,例如一旦设备被切换回活动状态就离线。

根据一些实施例,检测数据包和活动设备还是非活动设备相关的步骤包括如下步骤:

从数据包检索从其接收数据包的设备的唯一标识符;

检验逻辑设备是否存在,逻辑设备代表数据包来源的设备,并且检验逻辑设备处于活动状态还是非活动状态。

根据一些实施例,如果未获得代表数据包来源的设备的逻辑设备,则可以生成逻辑设备,并且可以将逻辑设备设置为非活动状态。

根据本公开的方法的进一步的特征和实施例在所附权利要求中阐述。

根据另一方面,本文公开了适用于与多个设备(1)处于数据通信关系的一种数据处理基础设施。所述数据处理基础设施包括一种适用于将从所述设备接收的数据传送到原始数据存档的离线数据流。数据处理基础设施还包括适用于向数据处理装备发送数据以进一步处理的实时数据流。还提供了存储单元,其适用于存储与数据处理基础设施进行数据通信的每个设备的识别数据和关于每个所述设备的状态的信息。

因此,当接收到数据包时,每个与数据处理基础设施处于数据通信关系的设备可被识别,并且设备的状态(或者活动设备或者非活动设备)可被识别。取决于数据所来源的设备状态,数据可以被传送到其它的数据处理装置(如果设备处于活动状态),或可以被存储在原始数据存档中(如果设备处于非活动状态),用于以后的处理。来自活动设备的数据被传送到实时数据流,而来自非活动设备的数据被转移到离线数据流,并可以稍后当设备从非活动状态切换到活动状态时被检索。

根据本公开的数据处理基础设施的其它特征和实施例在所附权利要求中阐述。

根据另一个方面,本文公开了一种处理来自多个设备的数据流的方法,包括以下步骤:

为连接到数据处理基础设施的每个设备创建逻辑设备;

给每个所述逻辑设备指定非活动或活动状态;

当从所述设备中的一个接收数据包时:

如果对应于从其接收数据包的设备的逻辑设备处于活动状态,则将数据包传送到数据处理装备;并且

如果对应于从其接收数据包的设备的逻辑设备处于非活动状态,则将数据包存储在原始数据存档中。

这样的方法还可以包括所附从属权利要求的特征、限制或步骤中的一个或多个。

附图说明

很方便可获得对公开的本发明实施例和其许多附带的优点的更全面的理解,因为当联系附图考虑时,参考后文的详细描述,可以更好地理解,其中:

图1是输入数据处理基础设施的一个示例性实施例的框图;

图2是数据包的图示;

图3是总结图1中的数据处理基础设施的操作的流程图。

具体实施方式

以下示例性实施例的详细描述参考附图。在不同的图中相同的参考数字标识相同或相似的元素。此外,图纸不一定按比例绘制。并且,下面的详细描述并不限制本发明。相反,本发明的范围由所附权利要求定义。

在整个说明书中引用“一个实施例”或“实施例”或“一些实施例”意味着与实施例相关描述的特定特征、结构或特性被包括在所公开的主题的至少一个实施例中。因此,在整个说明书中各处出现的短语“在一个实施例”或“在实施例中”或“在一些实施例中”并不一定指同一个或同一些实施例。此外,在一个或多个实施例中,可以以任何合适的方式将特定的特征、结构或特性结合。

公开了一种新的基于可靠基础设施的数据挖掘方法。本文所公开的方法和结构允许通过预先标识哪个是源设备、数据来源于何处以及其在系统表现中的状态,自动地向适合的处理流路由输入数据。

从现场的物理设备接收的输入数据通过平衡器被路由到一个集群服务,该服务负责标识发送数据到web门户的设备,并负责根据对应的逻辑设备的状态,即物理设备的系统表式,选择数据处理流。

逻辑设备,即web门户系统中的物理设备的表示,可以具有不同的状态。例如,逻辑设备可以从活动状态切换到非活动状态,反之亦然。切换可以由不同的事件或因素触发,并且可以随时发生。例如,逻辑设备可以根据对应的物理设备的通信状态,或者根据门户所必须承受的同时摄取的数据的负载,从活动切换到非活动,反之亦然。设备可以被临时标记为非活动的,以便门户处理意外的负载峰值。设备可以被标记为非活动的,因为对应的物理设备没有正在与门户进行通信。

从一个状态切换到另一个状态也可以是业务相关的。例如,对应于尚未注册的物理设备的逻辑设备可以被标记为非活动的。属于许可过期的所有者的设备可以被标记为非活动的。设备可以临时被标记为非活动的,以便让门户给予属于高级客户(即,订阅了提供更高的优先级的服务的客户)的设备处理优先权。

智能流管理器可以负责将逻辑设备标记为活动的或非活动的。

根据本文所公开的实施例,无论对应的逻辑设备的状态如何,来自物理设备的输入数据都以原始格式储存在数据库中。提供了两个数据处理流:提供给属于非活动逻辑设备的数据的离线数据流;保留给属于活动逻辑设备的数据的实时数据流。

被分配给实时数据流的数据被立即传送到门户处理服务,以便进一步处理、解析和存储。已处理的数据可以在客户请求时通过访问门户来呈现给客户。

被分配给离线数据流的数据可被存储以用于未来的处理。离线数据恢复服务负责检索需处理的存档数据,例如,当非活动的逻辑设备被切换到活动状态时。

智能流管理器决定:

是否激活或停用逻辑设备,即将其切换为活动状态或非活动状态;

在数据恢复过程中,哪些设备将被赋予更高的优先级(例如,属于高级客户的设备可能受益于更高的处理优先级;一些设备可能暂时被赋予较低的处理优先级以减少服务处理负载);

哪条恢复策略必须被应用于由数据恢复服务所处理的数据,例如

首先处理较旧的数据记录(过去到现在模式),

首先处理新的数据记录(现在到过去模式),

处理在整个处理期间的采样数据,然后逐步填充处理间隙(低到高分辨率模式)。

现参考图1,将描述根据本公开的数据通信和处理基础设施的示例性实施例。

这里描述的数据处理基础设施可以与现场多个电子设备处于数据通信关系。在图1中,参考数字1.1,…1.i,…1.n示意性地表示在现场的多个通用电子设备。电子设备可以彼此相同,或彼此相似,或彼此不同。例如,每个电子设备可以是逆变器的微控制器,逆变器例如是与光伏板或板阵列电气耦接的逆变器、与由风轮机或水轮机供电的发电机电气耦接的逆变器、或与另一个电源电气耦接的逆变器。电子设备1还可以包括一个或多个传感器,其适于检测一个或多个环境参数,例如温度、风速、太阳辐射、湿度等。在一些实施例中,电子设备1可能包括元件和组件的集群,例如逆变器,一个或多个传感器、探头或换能器、微控制器和数据发送设施的集群。

每个电子设备1可以配备有数据记录器3。设备1.1,…1.i,…1.n的数据记录器在图1中被标为3.1,…3.i,…3.n。

设备可以连接到数据处理基础设施7,例如通过http或https协议连接5通过互联网,或通过任何其他互联网或物联网(internetofthings)协议。

装置1可属于设备的一个或多个集合,例如一个或多个光伏设施、风电场等。一般来说,数据处理基础设施7可以与几个设备集合处于数据通信关系,这些设备集合可以属于不同的所有者,并且可以位于世界的任何地方,只要可以在设备集合和数据处理基础设施7之间建立数据通信信道。数据处理基础设施7可以是web门户8的一部分。

一般而言,在制造期间,每个设备1被分配唯一的标识符(unid),例如单义序列号,用于其单义识别。要连接到web门户8的所有生产的设备的唯一标识符被发送到web门户8并由此被存储。这样,每个将被置于与web门户8为数据通信关系的设备1可以被web门户识别。当设备1被安装在现场并被打开时,设备开始与web门户进行数据通信。由于被分配给每个通信设备的unid,一旦开始与之进行数据通信,web门户就单义地标识每个设备1。

对于连接到web门户8的每个物理设备1,生成逻辑设备。逻辑设备是在web门户中的物理设备的表示。根据一些实施例,每个逻辑设备可以采取至少两种不同的状态,即活动状态和非活动状态。在一些实施例中,当逻辑设备生成时,每个逻辑设备默认地处于非活动状态。当满足给定条件时,例如当客户订阅和激活服务时,状态被切换为活动状态。

每个物理设备1可以属于几个所有者中的一个。例如,第一组光伏逆变器可以是第一光伏设施的一部分,并且属于第一所有者(所有者oa)。第二组光伏逆变器可以是第二光伏设施的一部分,并且属于第二所有者(所有者ob)。在安装时,每个设备1可开始与web门户8的数据通信,并且web门户8可以为每个物理设备生成逻辑设备。这样的逻辑设备的初始状态将是非活动状态。一旦其所有者与web门户8签订服务合同并通过将相关的unid传输到web门户8来注册属于他的对应物理设备,逻辑设备的状态就可以从非活动状态切换到活动状态。一旦设备所有者订阅了web门户服务并注册了属于他的物理设备1,相应逻辑设备将从非活动状态切换到活动状态,并且所有者将能够访问与他的设备相关的数据。

因为例如前述原因,每个逻辑设备可随时被停用并被重新激活,即其可以从活动状态被切换到非活动状态,反之亦然。

根据本文所公开的实施例,无论对应的逻辑设备的状态如何,来自物理设备1的输入数据被存储在web门户8中,这样用户将能够在注册时检索属于他的那组设备1的数据,并且在物理设备1开始和web门户8进行通信的时间和设备激活的时间之间,还将能够访问那些在此期间已被收集的数据。另外,当先前的“活动”设备被暂时切换到非活动状态时,数据被存储,并且可以在之后被检索。

根据一些实施例,web门户8的数据处理基础设施7可包括数据平衡器9。如本文所理解的,数据平衡器可以是任何服务,优选是可扩展的服务,它通过数据处理基础设施7中可用的多个资源来分配输入的工作负载。

数据平衡器9可以与数据服务11为数据通信关系。数据服务11可以是连接到智能流管理器10的可扩展服务,负责决定设备是活动的还是非活动的,从而将其数据分配到两个数据流中的一个或另一个。这两个数据流在此被称为“实时数据流13”和“离线数据流15”。

在图1的示意图中,实时数据流13包含实时数据,如箭头17所示,这些实时数据通过web门户8被移动到下一个处理阶段。在一些实施例中,实时数据流13的数据也可以作为原始数据存储在原始数据存档14中。模块12代表原始数据存档服务。实时数据是由物理设备1发送的数据,其对应逻辑设备处于活动状态。因此,实时数据流13接收源自对应逻辑设备处于“活动状态”的设备1的数据。

离线数据流15收集从物理设备1接收的数据,其对应的逻辑设备处于“非活动”状态。离线数据流15的数据通过原始数据存档服务12被存储为原始数据存档14中的原始数据,并且不通过门户8转送到下一个数据处理步骤,直到相应的逻辑设备切换到活动状态。

原始数据存档14可以接收和永久存储原始形式的输入数据,即,例如在进一步处理以供进一步转发给客户之前。来自非活动设备1的数据被存储在原始数据存档14中,并且该数据将在当相关设备1从非活动状态将被切换到活动状态时的稍后阶段从原始数据存档中被检索。

数据处理基础设施7可包括存储单元,或者可以与存储单元进行数据通信,该存储单元包含有关逻辑设备的数据,每个逻辑设备代表或对应于与数据处理基础设施7进行数据通信的设备1。在图1中,存储单元在19处示意性地示出。存储单元19在此也将被称为逻辑设备数据库14。与数据处理基础设施7进行数据通信的每个物理设备1.j的唯一标识符unid被存储在逻辑设备数据库19中,并且可以与对应于物理设备1.j的逻辑设备(1.j)相关联。在图1中,逻辑设备数据库19包含每个关联到对应物理设备1.j的逻辑设备(1.j)l的唯一标识符(unid)j,该物理设备已注册到web门户8,和/或与之或已经与之进行数据通信。

物理设备1.j的每个用户或所有者可以在web门户8注册他的物理设备1.j的唯一标识符unidj,使得唯一标识符unidj与对应于物理设备1.j的逻辑设备(1.j)l相关地被存储在逻辑设备数据库19中。注册可以以订阅web门户服务为条件,并且注册可以是有时间限制的,使得给定设备1.j的唯一标识符(unid)j将从逻辑设备数据库19中被删除,或者当订阅的服务到期时,除非续订,其状态可能被切换为“非活动”。即希望通过web门户8从设备访问数据的设备1.j的所有者被要求订阅web门户服务,这可能需要支付相关费用和/或提供用户的数据。他还被要求识别哪些设备1旨在被订阅的服务覆盖。用户可以通过提供每个这样的设备的相关唯一标识符(unid),即通过将设备注册到web门户8,来做到这一点。

一旦服务被订阅了以及设备1.j被注册了,智能流管理器可以将对应的逻辑设备(1.j)l的状态(status)j切换到“活动”。

数据服务11可以通过智能流管理器10收集关于逻辑设备的信息。智能流管理器10可以在功能上耦接到数据库19和设备信息数据库16,该设备信息数据库16存储关于物理设备的信息,例如所有者数据、服务到期时间、优先级策略、恢复策略等。

来自物理设备1的输入数据可以被时间戳记,并且可以通过与发送数据的物理设备1.j对应的唯一标识符(unid)j来标识。例如,由数据服务11接收的数据包100(图2)可能具有包含唯一标识符unid和时间戳的头部102,随之是包含将由web门户8收集并处理的实际数据的有效负载104。在数据包100的末尾可提供crc校验。

对于每一个输入数据包,数据服务11可以通过智能流管理器10,检查是否在web门户8中已存在与包含在数据包中的唯一标识符(unid)j相关联的对应逻辑设备(1.j)l。这可以通过例如检查逻辑设备数据库19来实现。在一些实施例中,如果在用户订阅之前由数据服务11接收到了来自设备1.j的数据,则设备唯一标识符(unid)j和相关逻辑设备(1.j)l可能已经在逻辑设备数据库19中。

如果尚未生成逻辑设备(1.j)l,则逻辑设备(1.j)l被生成并与其唯一标识符(unid)j一起存储在逻辑设备数据库19中。“非活动”状态[(status)j=“非活动”]是由智能流管理器10提供给逻辑设备(1.j)l的。

如果在从物理设备1.j接收到数据时,对应的逻辑设备(1.j)l已经存在于web门户8中,例如已经存储在逻辑设备数据库19中,则可以检查其状态。如上所述,根据前述策略,逻辑设备(1.j)l的状态可以或者是活动的,或者是非活动的。

例如,用户的网络服务的订阅和设备的注册可能导致已经存在于逻辑设备数据库19中的相关逻辑设备(1.j)l的状态从“非活动”切换到“活动”。如果在订阅时还没有从设备1.j接收到数据,则用户的注册可能导致逻辑设备(1.j)l被生成并与它的唯一标识符(unid)j相关联地存储。逻辑设备(1.j)l的状态可以被设置为“活动”。

如果在接收到来自物理设备1.j的数据包时,对应逻辑设备(1.j)l处于活动状态,则数据通过实时数据流13进一步被处理,并且可能被存储在原始数据存储器14中。如果逻辑设备(1.j)l处于“非活动”状态,则数据通过离线数据流15传送到原始数据存储器14,存储在其中,并且不被进一步处理,直到对应逻辑设备被切换到活动状态。

如果逻辑设备(1.j)l不存在,则生成逻辑设备(1.j)l,其状态被设置为“非活动”,并与唯一标识符(unid)j一起被存储,并且数据被存储在原始数据存储器14中。

因此,所描述的过程确保了由数据处理基础设施7接收的所有数据被存储,包括非活动的或尚未被注册的设备1的数据,这样一旦相应的逻辑设备被切换到“活动”状态,就可以在稍后的阶段检索所述数据。

如图1的功能框图所示,根据本文公开的实施例,数据处理基础设施7可包括离线数据恢复功能块21,其可在功能上耦接到原始数据存档14、智能流管理器10以及实时数据流13。

一旦先前离线逻辑设备(1.j)l,即“非活动”状态下的逻辑设备,被切换到“活动”状态,例如在相应用户订阅网络服务之后,离线数据恢复功能块21可以检索存储在离线原始数据存储器14中的相关数据,并将其添加到实时数据流13中以供进一步处理。根据前述的数据恢复策略,可以在例如智能流管理器10的控制下,在后台从原始数据存储器14进行数据检索,而不对实时数据的处理产生不利影响。

web门户8可包括数据处理装备30,其可由一个或多个处理和存储单元或装备组成。数据处理装备30的结构与本公开无关,因此将不进行详细描述。处理装备30可以处理数据,并通过互联网或任何其他合适的通信信道使其为用户可用,如图1中示意性所示的。

图3展示了总结由上述的数据处理基础设施7所执行的方法的流程图。数据的背景检索在图3中未示出。

上述的数据处理的结构和方法具有几个优点。它们确保从一开始,即一旦数据处理基础设施7接收到数据,就收集和存储来自现场的设备1的数据。没有丢失数据,所有数据都可以跟随前面提到的逻辑设备激活/停用和数据恢复策略被恢复。

沿处理链可用的存储能力确保即使链上的服务完全关闭也不会丢失数据。然后系统维护变得更容易和更安全。

只有在必要时才能恢复离线数据的能力,避免在不需要的情况下使系统过载,因此这一能力不必过多。此外,当非活动设备被激活时,来自设备的实时数据被立即处理,同时历史数据在后台被恢复和处理,向最终用户展示高性能的数据处理。

如果数据因为某些原因是间歇性地接收到的,则所述方式也有效地工作。这可能发生,例如,如果设备1由于现场的不稳定网络而发生通信故障。

另外,如果接收数据的粒度不同,例如由于采样间隔配置发生了改变,或者如果数据按照或不按照时间戳进行排序,例如数据被回填,则系统的效率也得以维持。在所有的情况下,一旦被接收或从原始存档14恢复,数据就被处理。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1