基于窗口的流式数据缺失处理方法与流程

文档序号:15648272发布日期:2018-10-12 22:51阅读:276来源:国知局

本发明属于无线通信、信息检索及其数据库结构技术及领域,尤其涉及一种基于窗口的流式数据缺失处理方法。



背景技术:

目前,业内常用的现有技术是这样的:传感器网络通常用来监测不同位置的物理或环境状况,网络在获取数据后会传输到数据中心对数据进行分析和显示。在节点所环境中,通常由于传感器网络自身硬件和软件的局限性,加上监测中遭到各种不利因素例如天气、人为、电磁辐射以及向中心传输过程中传输信道不稳定等影响,传感器网络中的节点在监测和获取信息的过程中,会出现数据缺失的情况,在数据中心接收到的数据将会是不完备的数据。数据的缺失,一般分为数据单重缺失和数据多重缺失,单重缺失是指数据中单一属性值的缺失,而多重缺失是存在多重属性值的缺失。传感器网络中数据通常是具有时间相关性和空间相关性的,时间相关性是指对同一个传感器而言,其获得的数据在时间上是具有前后关系的,而空间相关性是指网络中各个节点之间在位置接近,它们获得的数据之间具有一定的内在关系,这种内在关系就是空间相关性。在传感器网络的正常工作中,中心获得的各个传感器的数据是流式数据。在对含有缺失数据的流式数据进行处理中,通常需要计算数据的相关特性,同时需要存储一定数据。这些在处理过程所需要的计算量通常用时间复杂度度量,需要的存储空间通常用空间复杂度度量,流式数据由于其数据量大的特点,通常在处理中需要较大的时间复杂度和空间复杂度,这也会带来一些获取数据具有一定时延的问题。在一些特殊的场景例如实时监控领域,数据中心需要具有较小时延的数据来实时反映监控区域的状态,因此在处理的过程中需要很好的解决时延问题。

现有技术一提出采用三阶段法进行填充,第一阶段特征挑选阶段即挑选具有缺失数据的特征和完备数据特征,然后利用k最近邻方法填充,最后利用贝叶斯定理进行后验校正。但是利用k最近邻方法本身具有一定缺陷,参数的选取对结果的影响很大,可能由于k值的选取不合适而造成结果误差较大,而且k最近邻方法计算复杂度高在流式数据处理过程中会造成很大时延,同时因为使用贝叶斯定理需要数据的统计特性,而在流式数据的情况下,无法精确获得数据的统计结果,因此该方法不适用于具有流式数据的缺失处理。现有技术二利用分类器方法来对数据进行分类,然后基于同类数据中的相关性,对同一类中的缺失数据利用该类数据集数据均值进行填充,从而提高缺失数据处理精度。但该方法利用的分类器方法是基于不相关数据来进行,即具有不相关属性的一些数据才可以进行分类,如果数据集内部数据的关联性很大,即每种数据之间都是关联的,那么该方法就无法将它们分开,因此就无法进行填充。传感器网络中的数据本身就存在时间和空间相关性,对同一环境数据进行感知时,各个传感器获得的数据内部具有相关,利用该方法无法将它们分类开,因此在此场景之下该方法不适用,而且分类器方法本身存在一个分类的过程,该过程耗时计算量大,在面对流失数据时同样会存在处理延时较大的问题,因此该方法不适用于流式数据处理。

综上所述,现有技术存在的问题是:

(1)采用三阶段法进行填充形式单一,无法解决多重缺失填补问题,同时无法满足流式数据处理需要的低时延的条件。

(2)利用分类器来分类并利用分类后的数据进行缺失数据填充,该方法无法解决具有内部数据属性之间具有较关联大关系的数据的分类问题

(3)现有技术主要针对静态数据集的数据填充,在面对流式数据的缺失处理问题时,其方法在计算时时间复杂度和空间复杂度高,同时没有解决数据流的流量控制问题。

解决上述技术问题的难度和意义:

针对上述计算问题,面对流失数据缺失处理的问题时存在以下难点:(1)数据的缺失可能存在单一也可能存在多重,如何解决不同缺失模式下的数据填充处理;(2)如何对内部具有关联关系的数据进行分类,处理不同内部特性下的缺失数据;(3)如何减小流式数据缺失处理时延;(4)如何在流式数据处理时进行流量控制。

上述问题是在传感器网络中对具有缺失数据的数据流进行数据预处理时遇到的一些急需解决的问题。传感器网络中采集到的数据流会因为传感器精度、灵敏度以及数据传输中的一些因素影响而存在缺失,在数据中心分析、显示过程中,缺失的数据会减小有用信息量,同时对中心处理以及信息显示造成困难,因此对流式数据的缺失处理是很重要的。



技术实现要素:

针对现有技术存在的问题,本发明提供了一种基于窗口的流式数据缺失处理方法。

一种基于窗口的流式数据缺失处理方法,所述基于窗口的流式数据缺失处理方法通过采用动态大小的滑动窗口,根据数据流的输入速率动态调整窗口大小;利用数据内部的时间和空间特性对缺失数据进行填补。

进一步,所述基于窗口的流式数据缺失处理方法包括以下步骤:

步骤一,输入数据流;

步骤二,选取初始窗口大小,判断窗口中的数据是否缺失;

步骤三,滑动窗口大小调整;计算饱和可用窗口大小wmax;计算当前窗口wcur大小,计算数据为空的子窗口nswnull大小,其中空子窗口指数据流数据为空时窗口的大小;然后调整窗口大小;

步骤四,窗口锁定,保持窗口大小并存储窗口中的数据;

步骤五,进行不完备信息处理,判断数据是部分缺失还是整体缺失;是部分缺失判断是位置信息确实还是信号信息缺失,或者两部分都缺失,利用算法填充;全部缺失,判断是什么情况缺失,利用算法填充;

步骤六,输出完备数据流。

进一步,所述步骤二的数据流中数据缺失判断方法具体包括:

选取初始窗口大小,初始窗口大小的选取根据数据流入速率进行设置,例如可采用数据初始速率大小,然后对窗口中的数据进行判断,读取窗口中的数据,如果存在缺失则进行下一步处理,如果不存在缺失则进行窗口滑动。

进一步,所述步骤三的动态滑动窗口评估方法具体包括:

(1)窗口wcur大小计算,采用最大饱和可用窗口wmax的一定比例来获取得;

(2)调整窗口大小的方法,保持η的大小为较高的比例,并且在一定的范围内波动,然后动态调整sw的大小,当窗口占比增大到一定比例则减小wcur的大小,否则增加wcur的大小但是要满足wcur小于最大可用窗口,其中表示数据窗口占比,sw表示窗口大小。

进一步,所述步骤五缺失信息类型的判断方法如下:

在读取窗口中的数据时,根据数据帧的情况,在读取到缺失数据位以后,根据缺失部分位于数据帧中的位置来判断具体缺失情况。

进一步,所述步骤五位置信息部分缺失的填充方法采用差值法填充,任意第i项数据与第j项数据之间的相关性采用数据相关性公式计算,可以采用但不仅限于如下计算公式:

其中:j=1,2,...,i-1,i+1,...,n;yik代表第i条数据项的第k个属性值,yjk代表第j条数据的第k个属性值;yi代表第i数据项的平均值,yj代表第j条数据项的平均值。

进一步,所述步骤五信号信息部分缺失情况方法采用空间最近邻方法具体包括:对各个传感器节点找到自己空间相关的节点信息,保存在本身的信息存储单元中;找到缺失数据节点的缺失数据项,相邻的空间相关性节点的相同或相近的时刻点的数据项,对数据项进行求均值,把结果填充到缺失的数据位。

进一步,所述步骤五特征全部缺失情况采用如下步骤:

(1)位置信号全而信号信息缺失,对缺失信息不处理,直接输出;

(2)信息中的信号信息是全的,位置信息全部缺失,采用灰度预测方法进行填充;

(3)位置信息全部缺失时,并存在信号信息缺失的情况,对信息无法进行处理的,丢弃数据。

本发明的另一目的在于提供一种应用所述基于窗口的流式数据缺失处理方法的无线通信系统。

综上所述,本发明的优点及积极效果为:通过对流式数据提供滑动窗口,根据数据流的大小动态调整窗口大小,然后利用数据内部的时间和空间特性对缺失数据进行填补,从而达到对流失数据的缺失填补的目的;以提高缺失数据填充的精度,克服信息缺陷问题,减少处理流式数据时的时间复杂度和空间复杂度,保证填补数据的恢复精确度。

本发明引入时空相关性、数据仓库比对以及灰度预测等特性和方法,克服了单一特征差值填充的不足,使得本发明提高了缺失数据的填充精确度。本发明引入动态滑动窗口评估技术,克服了流失数据的动态和无限特性而造成的计算复杂度高和时延大的问题,提高了流失数据处理的精度。由于本发明综合考虑不同情况下的缺失数据处理场景和方法,对传感器网络中的不同场景流数据的缺失处理具有较好的应用型,克服现有方法太多假设条件的问题。

附图说明

图1是本发明实施例提供的基于窗口的流式数据缺失处理方法流程图。

图2是本发明实施例提供的滑动窗口动态评估算法流程图。

图3是本发明实施例提供的不完备信息综合处理框图。

图4是本发明实施例提供的缺失数据恢复性能仿真对比图。

图5是本发明实施例提供的滑动窗口动态调整资源利用率仿真结果图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

本发明利用无线传感网络中节点数据的时空相关性,通过动态滑动窗口调整方法,提高无线传感网络中的缺失数据恢复精度。可适用于军事侦查、环境感知和目标识别等领域的缺失信息处理,提高缺失数据填充的精度和处理效率。

如图1所示,本发明实施例提供的基于窗口的流式数据缺失处理方法包括以下步骤:

s101:输入需要处理的含有缺失数据的数据流;

s102:判断流失数据是否缺失;

s103:动态滑动窗口评估;

s104:窗口锁定;

s105:不完备信息处理;

s106:输出处理后的完备数据流结果。

下面结合附图对本发明的应用原理作进一步的描述。

如图2和图3所示,本发明实施例提供的基于窗口的流式数据缺失处理方法包括以下步骤:

步骤一,判断数据流中数据是否缺失;根据数据初始流入速率选取初始窗口大小,例如可采用数据初始速率大小,然后读取窗口中的数据,如果存在缺失则进行下一步处理,如果不存在缺失则进行窗口滑动,滑动大小为当前窗口大小。

步骤二,滑动窗口大小调整,方法流程如图2所示,图2仅仅给出一种系数计算和窗口调整的计算实例,但方法不局限于图2中的具体实例。流程具体为;首先计算计算饱和可用窗口大小wmax;然后计算当前窗口wcur大小,计算数据为空子窗口nswnull大小;

保持η的大小为较高的比例,并且在一定的范围内波动,然后动态调整sw的大小,当窗口占比增大到一定比例则减小wcur的大小,否则增加wcur的大小但是要满足wcur小于最大可用窗口,如果η满足波动范围则进行下一步处理。

步骤三,窗口锁定,保持窗口大小并存储窗口中的数据;

步骤四,进行不完备信息处理,处理方法流程如图3所示;判断数据是部分缺失还是整体缺失;如果位置信息部分缺失的填充方法采用差值法填充,填充方法中任意第i项数据与第j项数据之间的相关性采用数据相关性公式计算,可以采用但不仅限于如下计算公式:

其中:j=1,2,...,i-1,i+1,...,n;yik代表第i条数据项的第k个属性值,yjk代表第j条数据的第k个属性值;yi代表第i数据项的平均值,yj代表第j条数据项的平均值。

如果信号信息部分缺失情况,方法采用空间最近邻方法(sknn)如下:

对各个传感器节点找到自己空间相关的节点信息,并保存在本身的信息存储单元中;找到缺失数据节点的缺失数据项,找其相邻的空间相关性节点的相同或相近的时刻点(此处存在误差的定义系数r)的侦查的数据项。对这些数据项进行求均值,并把结果填充到缺失的数据位。

如果特征全部缺失采用方法如下:

如果位置信号全而信号信息缺失,这种情况下,对缺失信息不处理,直接输出。如果信息中的信号信息是全的,而位置信息全部缺失。此种情况之下,采用灰度预测方法进行填充。如果位置信息全部缺失时,并存在信号信息缺失的情况,这种情况下是对信息无法进行处理的,丢弃数据。

步骤五,输出完备数据流。

下面结合仿真对本发明的应用效果作详细的描述。

1.仿真条件

在cpu为amdcpu、内存8g、windows7系统上进行了仿真,采用c++语言在visualstudio2015的环境下进行编程实现,结果数据利用matlab画图显示。

2.仿真内容

(1)静态数据缺失处理仿真:基于系统处理所需数据的格式,信息缺失填补的好坏以输出数据的有效性为依据,根据数据的有效性来反映缺失数据处理结果性能,有效的数据包括完备数据以及空间相关性完备的数据。

实验采用综合不完备信息处理(comprehensivemiss-dataprocess,cmdp)方法、sknn以及tra算法对比,展现数据恢复性能。所产生的数据恢复结果如图4所示。由图4,综合不完备数据处理方法对数据的缺失填补具有一定的优越性。在数据的缺失数据率不高的情况下,三种方法都具有较好的恢复性能,其中sknn方法具有更好的恢复效率,原因在于,在大规模无线传感器网络中,当环境中的传感器几点足够多的时候,每个传感器节点都会与几个节点在空间上具有相关性,传感器节点的密布造成了空间相关性更高,因此通过空间相关性达到的回复效率会更高。随着数据缺失率的增加,所有方法的缺失数据恢复率都呈现下降趋势。其中sknn的恢复效率会在0.6值附近呈现陡降,原因在于,随着缺失率的增加,数据集中的缺失数据增多,虽然有空间相关性节点,但是各个节点的数据都或多或少会存在缺失,数据呈现缺失特性,不能再通过空间相关性直接进行填补。cmdp和tra法都呈现慢下降趋势,而本发明提出的cmdp在缺失数据流较高的情况下也具有很好的恢复效率,是因为该方法兼顾了sknn与tra算法的优点,同时该方法还增加了不同情况下的处理方法,对缺失数据的填补具有更好的结果。

(2)动态滑动窗口仿真:仿真分析采用三个场景,数据密集,数据稀疏和数据交替密集稀疏,在三种场景下以计算资源利用率来反映算法好坏。计算资源利用率ε:表示计算资源在动态滑动窗口下计算资源的利用率,计算方式为:

仿真数据采用5000个时刻的数据模拟流式数据的部分时间窗口内,分别使得数据密集、数据稀疏和数据交替密集稀疏的情况下,计算中的计算资源利用率。实验采用的数据集中,数据密集的数据中完整数据为95%,即数据流中存在5%的空白数据;数据稀疏的数据集中数据完整数据为35%,即数据流存在60%的空白数据;数据交替密集稀疏情况下,数据整体平均完整性为50%。实验仿真结果如图5所示。

由图5分析可以知道,在数据密集的情况下,固定大小窗口的方法具有较高的计算利用率,而动态窗口大小的会存在部分计算利用率低的情况,因为系统会有一部分计算资源被用来计算窗口大小和动态调整,在密集数据情况下二者结果差异不大。在稀疏数据和交替数据的情况下,动态调整算法可以很好的利用系统的计算资源,提高系统计算资源利用率,同时可以保证系统计算资源利用率处在一种平稳的状态下,减小cpu的发热,提高系统生存时间。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1