基于数据分析的分布式数据清洗系统及方法与流程

文档序号:12825018阅读:412来源:国知局
基于数据分析的分布式数据清洗系统及方法与流程

本发明属于数据处理技术领域,特别涉及一种基于数据分析的分布式数据清洗系统及方法。



背景技术:

大数据分析系统已经越来越多地被应用到各个领域之中,作为数据分析的基础,数据的准确性和有效性对于分析的过程和结论,无疑将产生直接的影响。因此,如何确保数据的质量已经成为成功应用大数据分析系统所需要解决的首要问题。



技术实现要素:

为了解决现有技术中存在的上述问题,本发明提出了一种基于数据分析的分布式数据清洗系统及方法,应用于物联网中分布式传感器网络的数据采集过程之中。该系统在对以往采集数据的分析基础之上,动态生成数据清洗的方法(规则),并通过网络将清洗的规则分发到不同的数据采集节点,由数据采集节点执行数据清洗规则,从而达到对不同的数据源进行定制化的数据清洗的目的。

本发明提供了一种基于数据分析的分布式数据清洗系统,包括:

传感器网络,包括多个传感器,用于采集第一数据;

数据采集节点,包括数据清洗引擎和数据清洗规则库;所述数据清洗引擎根据传感器标识在所述数据清洗规则库中找到针对不同传感器所设定的数据清洗规则,并通过执行所述数据清洗规则,来完成对不同传感器采集的第一数据的清洗工作,并生成第二数据;

数据服务器,包括数据库、数据有效性分析模块、数据清洗规则生成模块和数据清洗规则发布模块;

所述第二数据传输到并储存于所述数据库中,所述数据有效性分析模块用于对已经存储在所述数据库中的历史数据,进行自相关的和互相关的数据有效性验证分析,并将分析结果输入到所述数据清洗规则生成模块;

所述数据清洗规则生成模块则依据输入的有效性验证分析结果,来判断当前的针对某个数据源的清洗规则是否需要修正;如果需要修正,则根据所述有效性验证分析结果产生新的针对某个数据源的清洗规则,并将新的数据清洗规则发送给所述数据清洗规则发布模块;

所述数据清洗规则发布模块将所述数据清洗规则生成模块新产生的清洗规则,发送到相应的数据采集节点,并更新所述数据采集节点中的所述数据清洗规则库,从而使得新产生的数据清洗规则能够被所述数据清洗引擎所执行,并达到使用新的数据清洗规则完成针对相应数据源的数据清洗工作的目的。

优选地,所述基于数据分析的分布式数据清洗系统包括多个不同的数据采集节点。

优选地,所述传感器为电流传感器,电压传感器,流量传感器,压力传感器和温度传感器中的任意一种或多种。

本发明还提供了一种基于数据分析的分布式数据清洗方法,所述方法包括如下步骤:

通过传感器网络中的多个传感器采集第一数据;

在包括数据清洗引擎和数据清洗规则库的数据采集节点中:

所述数据清洗引擎根据传感器标识在所述数据清洗规则库中找到针对不同传感器所设定的数据清洗规则,并通过执行所述数据清洗规则,来完成对不同传感器采集的第一数据的清洗工作,并生成第二数据;

在包括数据库、数据有效性分析模块、数据清洗规则生成模块和数据清洗规则发布模块的数据服务器中:

将所述第二数据传输并储存于所述数据库中;在所述数据有效性分析模块中,对已经存储在所述数据库中的历史数据,进行自相关的和互相关的数据有效性验证分析,并将分析结果输入到所述数据清洗规则生成模块;

在所述数据清洗规则生成模块中,依据输入的有效性验证分析结果,来判断当前的针对某个数据源的清洗规则是否需要修正,如果需要修正,则根据有效性验证分析结果产生新的针对某个数据源的清洗规则,并将新的数据清洗规则发送给所述数据清洗规则发布模块;

在所述数据清洗规则发布模块中,将所述数据清洗规则生成模块新产生的清洗规则,发送到相应的数据采集节点,并更新所述数据采集节点中的所述数据清洗规则库,从而使得新产生的数据清洗规则能够被所述数据清洗引擎所执行,并达到使用新的数据清洗规则完成针对相应数据源的数据清洗工作的目的。

优选地,所述第一数据为电流值,电压值,气体或者液体的压力,温度,流量中的任意一种或多种。

与现有技术相比,本发明的有益效果是:

能够自适应地调整数据清洗规则,不需要在现场逐一地人工进行设置和校验,因而极大地提高了分布式传感器网络部署的效率。

当因传感器周围环境(如电磁环境)发生变化,而对传感器数据采集过程产生干扰时,本发明可以基于对长期数据的分析而产生消除新增干扰的数据清洗规则,从而及时消除新产生的干扰对采集系统的影响。

本发明的其他特征和优点将在如下的具体实施方式部分详细描述。

附图说明

图1为本发明的实施例提供的基于数据分析的分布式数据清洗系统的结构示意图;

图2为本发明的实施例提供的基于数据分析的分布式数据清洗方法流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明的实施方式作进一步地详细描述。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。

本发明的第一个方面提供了一种基于数据分析的分布式数据清洗系统,包括:

传感器网络,包括多个传感器,用于采集第一数据;

数据采集节点,包括数据清洗引擎和数据清洗规则库;所述数据清洗引擎根据传感器标识在所述数据清洗规则库中找到针对不同传感器所设定的数据清洗规则,并通过执行所述数据清洗规则,来完成对不同传感器采集的第一数据的清洗工作,并生成第二数据;

数据服务器,包括数据库、数据有效性分析模块、数据清洗规则生成模块和数据清洗规则发布模块;所述第二数据传输到并储存于所述数据库中,所述数据有效性分析模块用于对已经存储在所述数据库中的历史数据,进行自相关的和互相关的数据有效性验证分析,并将分析结果输入到所述数据清洗规则生成模块;所述数据清洗规则生成模块则依据输入的有效性验证分析结果,来判断当前的针对某个数据源的清洗规则是否需要修正;如果需要修正,则根据有效性验证分析结果产生新的针对某个数据源的清洗规则,并将新的数据清洗规则发送给所述数据清洗规则发布模块;所述数据清洗规则发布模块将所述数据清洗规则生成模块新产生的清洗规则,发送到相应的数据采集节点,并更新所述数据采集节点中的所述数据清洗规则库,从而使得新产生的数据清洗规则能够被所述数据清洗引擎所执行,并达到使用新的数据清洗规则完成针对相应数据源的数据清洗工作的目的。

优选地,上述基于数据分析的分布式数据清洗系统可以包括多个不同的数据采集节点,从而达到对不同的数据源进行定制化的数据清洗的目的。

如图1所示,本发明提供了一种基于数据分析的分布式数据清洗系统,所述系统包括:传感器网络3、数据采集节点1和数据服务器2。

传感器网络3包括多个传感器,用于采集第一数据,基于此,也可以将传感器称为数据源。传感器例如可以为电流传感器,电压传感器,流量传感器,压力传感器和温度传感器等数据源中的任意一种或多种。相应地,第一数据例如可以为电流值,电压值,气体或者液体的压力,温度,流量等数据。

数据采集节点1包括数据清洗引擎11和数据清洗规则库12。数据清洗引擎11根据传感器标识在数据清洗规则库12中找到针对不同传感器所设定的数据清洗规则,并通过执行所述数据清洗规则,来完成对不同传感器采集的第一数据的清洗工作,并生成第二数据(即,清洗后的第一数据)。

数据服务器2包括数据库21、数据有效性分析模块22、数据清洗规则生成模块23和数据清洗规则发布模块24。

所述第二数据传输到(例如,可以通过网络传输)并储存于数据库21中。数据库21用于存储这些第二数据,这些存储的第二数据将作为相应的应用系统(如:大数据分析)的数据源使用。

数据有效性分析模块22用于对已经存储在数据库21中的历史数据,进行自相关的和互相关的数据有效性验证分析,并将分析结果输入到数据清洗规则生成模块23。

数据清洗规则生成模块23则依据输入的有效性验证分析结果,来判断当前的针对某个数据源(即,传感器)的清洗规则是否需要修正。如果需要修正,则根据有效性验证分析结果产生新的针对某个数据源(传感器)的清洗规则,并将新的数据清洗规则发送给数据清洗规则发布模块24。如果无需修正,数据清洗系统中的清洗规则不发生任何变化,即维持现有的清洗规则不变。

数据清洗规则发布模块24将数据清洗规则生成模块23新产生的清洗规则,发送到相应的数据采集节点1,并更新数据采集节点1中的数据清洗规则库12,从而使得新产生的数据清洗规则能够被数据清洗引擎11所执行,并达到使用新的数据清洗规则完成针对相应数据源(传感器)的数据清洗工作。

本发明的第二个方面提供了一种基于数据分析的分布式数据清洗方法,所述方法包括如下步骤:

通过传感器网络中的多个传感器采集第一数据;

在包括数据清洗引擎和数据清洗规则库的数据采集节点中:所述数据清洗引擎根据传感器标识在所述数据清洗规则库中找到针对不同传感器所设定的数据清洗规则,并通过执行所述数据清洗规则,来完成对不同传感器采集的第一数据的清洗工作,并生成第二数据;

在包括数据库、数据有效性分析模块、数据清洗规则生成模块和数据清洗规则发布模块的数据服务器中:将所述第二数据传输并储存于所述数据库中;在所述数据有效性分析模块中,对已经存储在所述数据库中的历史数据,进行自相关的和互相关的数据有效性验证分析,并将分析结果输入到所述数据清洗规则生成模块;在所述数据清洗规则生成模块中,依据输入的有效性验证分析结果,来判断当前的针对某个数据源的清洗规则是否需要修正,如果需要修正,则根据有效性验证分析结果产生新的针对某个数据源的清洗规则,并将新的数据清洗规则发送给所述数据清洗规则发布模块;在所述数据清洗规则发布模块中,将所述数据清洗规则生成模块新产生的清洗规则,发送到相应的数据采集节点,并更新所述数据采集节点中的所述数据清洗规则库,从而使得新产生的数据清洗规则能够被所述数据清洗引擎所执行,并达到使用新的数据清洗规则完成针对相应数据源的数据清洗工作的目的。

如图2所示,本发明的第二个方面提供的基于数据分析的分布式数据清洗方法,包括如下步骤:

步骤41:通过传感器网络采集第一数据。

其中,所述传感器网络可以包括多个传感器。所述传感器例如可以为电流传感器,电压传感器,流量传感器,压力传感器和温度传感器等数据源中的任意一种或多种。相应地,第一数据例如可以为电流值,电压值,气体或者液体的压力,温度,流量等数据中的任意一种或多种。

步骤42:数据清洗引擎根据传感器标识在数据清洗规则库中找到针对不同传感器所设定的数据清洗规则。

步骤43:通过执行所述数据清洗规则,来完成对不同传感器采集的第一数据的清洗工作,并生成第二数据。

步骤44:将所述第二数据传输并储存于所述数据库中。

步骤45:在所述数据有效性分析模块中,对已经存储在所述数据库中的历史数据,进行自相关的和互相关的数据有效性验证分析,并将分析结果输入到所述数据清洗规则生成模块。

其中,典型的自相关的数据有效性验证分析可以为采用时间序列自相关分析,也就是识别数据的时间序列特性。典型的生产过程都具有时间序列特性,例如:每天早晨8:00开始工作,下午5:00结束,这样的生产过程,具有24小时重复的时间序列特性。典型的互相关分析就是根据内在的生产过程,不同的传感器之间的数据具有很强的相关性。例如:工序一和工序二的电机工作具有同步性或者一定的延时同步性。这是由生产工艺或者流程所决定的,因此两个工序的电机之间就存在确定的相关性。

步骤46:在所述数据清洗规则生成模块中,依据输入的有效性验证分析结果,来判断当前的针对某个数据源的清洗规则是否需要修正。

步骤47:如果需要修正,则根据有效性验证分析结果产生新的针对某个数据源的清洗规则,并将新的数据清洗规则发送给所述数据清洗规则发布模块;如果无需修正,数据清洗系统中的清洗规则不发生任何变化,即维持现有的清洗规则不变。

步骤48:在所述数据清洗规则发布模块中,将所述数据清洗规则生成模块新产生的清洗规则,发送到相应的数据采集节点,并更新所述数据采集节点中的所述数据清洗规则库,从而使得新产生的数据清洗规则能够被所述数据清洗引擎所执行,并达到使用新的数据清洗规则完成针对相应数据源的数据清洗工作。

与现有技术相比,本发明可以获得如下有益效果:

本发明的基于数据分析的分布式数据清洗系统和基于数据分析的分布式数据清洗方法能够自适应地调整数据清洗规则,不需要在现场逐一地人工进行设置和校验,因而极大地提高了分布式传感器网络部署的效率。而且,当因传感器周围环境(如电磁环境)发生变化,而对传感器数据采集过程产生干扰时,本发明可以基于对长期数据的分析而产生消除新增干扰的数据清洗规则,从而及时消除新产生的干扰对采集系统的影响。

实施例

下面以对电机的工作电流采样为例,说明本发明提供的基于数据分析的分布式数据清洗系统的工作过程。

在对电流数据进行采集的过程中,由于受到周围环境的干扰影响,在电机不工作时电流传感器(即电流计)3的实际采样值并不总是0值。为此,最初在负责接受电流采样数据的数据采集节点1的数据清洗规则库12中,存储了针对该电流计采样数据的清洗规则:如果采样值小于0.1,则输出0。

经过一段时间的数据采样之后,数据服务器2上的数据有效性分析模块22通过对清洗后的采样数据分析,将电机启停频率过高,启停时间间隔过小的分析结果输入给数据清洗规则生成模块23。数据清洗规则生成模块23则根据这些分析结果触发数据清洗规则修订算法,将置0阈值(置0阈值为:当数值为小于阈值的数值时,一律为零;例如,如果置零阈值为0.2,则对于x<0.2的值,则令x=0)提高到0.2,即生成了新的数据清洗规则,并通过数据清洗规则发布模块24将新的数据清洗规则发送到指定的数据采集节点1,保存到该数据采集节点的数据清洗规则库12中。当电机的电流计3将采集的电流数值再传送给数据采集节点1之时,阈值数据清洗引擎11则执行新的数据清洗规则,即:如果采样值<0.2,则输出0。

由技术常识可知,本发明可以通过其它的不脱离其精神实质或必要特征的实施方案来实现。因此,上述公开的实施方案,就各方面而言,都只是举例说明,并不是仅有的。所有在本发明范围内或在等同于本发明的范围内的改变均被本发明包含。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1