实时数据流模式识别应用的数据补全方法

文档序号:6637540阅读:274来源:国知局
实时数据流模式识别应用的数据补全方法
【专利摘要】本发明公开了一种针对实时数据流模式识别应用中数据缺失问题的数据补全方法。该数据补全方法包含一个运行时动态缓存、一项数据完整性指标和一个基于滑动窗口的迭代式数据补全算法构成。其中,运行时动态缓存保存获取的实时数据;数据完整性指标根据数据率与当前滑动窗口中数据的分布来判断数据完整性;数据补全算法根据数据完整性,迭代地使用缓存的历史数据来对当前滑动窗口的数据进行补全。本发明针对实时数据流模式识别应用中常见的数据缺失问题,提出了一种高效的数据补全方法,拥有补全效果好、在线化程度高、适用面广、对应用透明等优点,能够有效运用于各类针对连续实时数据流的模式识别应用。
【专利说明】实时数据流模式识别应用的数据补全方法

【技术领域】
[0001] 本发明涉及一种针对实时数据流模式识别应用的数据补全方法,属于计算机应用 领域,针对实时数据流采集与传输中常见的因设备性能限制、网络通信质量波动等原因造 成的数据缺失问题,结合在线实时模式识别应用的特性,实现了一种高效的数据补全方法。

【背景技术】
[0002] 随着物联网相关技术,如无线传感器网络、可穿戴式感知和计算设备的快速发展, 计算机系统能够不断地获取外部环境感知数据并进行处理。这些由大量传感器节点不间断 感知到的数据通过无线网络等传输手段实时汇总到处理节点,就形成了潜在无穷的实时数 据流。这些实时数据流经过处理后,能够通过模式识别等技术,从中提取出拥有高抽象层次 的、丰富语义的、有用的信息,来服务于人类。
[0003] 由于无线网络传输的不可靠性、带宽的局限性、各类传感器定时睡眠等原因,处理 节点接收到的实时数据流往往存在数据的缺失。而与实时数字信号处理和流媒体播放类应 用不同,模式识别算法旨在从底层数据流中抽取出有用的特征,从而识别出具有高抽象层 次、丰富语义的、有用的信息。数据补全方法是模式识别应用中应对数据缺失问题的重要技 术,传统的方法往往采用在缺失处填入固定默认值、或最近的一次获得的数据的方式来对 缺失数据进行补全。但是由于这种方法没有很好地契合模式识别类应用的特点,因此其效 果往往不是特别显著。


【发明内容】

[0004] 发明目的:为了克服传统方法数据补全效果差的不足,本发明从针对实时流数据 的模式识别类应用的特点出发,提出了一种使用在线缓存数据的、低冗余、高效的数据补全 方法。在高效的同时,该数据补全方法对输入数据特征、后续模式识别方法和其它系统组件 实现方案不作任何预设,能够无缝、透明地插入和拔出应用系统数据处理流程,灵活满足不 同应用场景的需求。
[0005] 从一般意义上说,模式识别类应用具有以下三个特点:1)对数据缺失敏感:数据 缺失造成的信息丢失,会对特征提取的质量造成严重影响,进而影响模式识别算法的准确 性;2)从模式识别结果角度看,数据具有本地化特性:高层抽象信息表现为包含丰富语义 信息的类别,与实时原始数据不同,类别的变化频率相对缓慢,因此,在考虑数据对应的类 别时,呈现出本地化的特性(即,数据所对应的类别在一段时间内不改变);3)冗余信息价 值不大:重复的、冗余的数据对于提取有用特征的价值不大。
[0006] 根据以上三个特点,我们确定了针对模式识别应用的数据补全算法需求,提出了 利用历史数据进行补全的方法,提出了相应的完整性指标和抗冗余的数据补全算法。具体 来说,本发明所提出的针对实时流数据模式识别应用的数据补全方法,包含一个运行时在 线数据缓存,一项数据完整性指标、和一个基于滑动窗口的迭代式抗冗余数据补全算法。该 数据补全方法对于模式识别应用的其他组件透明,可以方便地应用于已部署的系统中增强 系统的抗数据丢失能力,也可以在需要时随时关闭而不影响系统其他组件的正常运行。
[0007] 技术方案:一种实时数据流模式识别应用的数据补全方法,其具体过程包含以下 步骤:
[0008] 1)数据源连续产生数据形成输入数据流,设数据率已知为每秒!个采样值(r根据 应用场景确定,为正实数),输入数据存储于运行时在线数据缓存,记缓存的数据为D;
[0009] 2)以当前时刻t为起点,使用大小为w秒(w根据应用场景确定,为正实数)的滑 动窗口在缓存的数据中向前截取一段D[t-w,t]作为当前窗口数据;
[0010] 3)在当前窗口数据D[t-w,t]的基础上,结合已知数据源的数据率r、滑动窗口大 小w,计算数据完整性指标c;
[0011] 4)若当前窗口数据D[t-W,t]的完整性指标c不达标,则从前一个窗口的数据 D[t-2w,t-w]中以最小冗余为原则,选取数据补充填入当前窗口D[t-w,t],若补全后完整 性指标c达到标准则算法结束,否则迭代执行本步骤直至完整性指标c达到标准或穷尽缓 存中的所有数据。
[0012] 其中,步骤1)的具体过程为:
[0013] I. 1)创建动态大小的在线运行时缓存D;
[0014] 1. 2)将数据源产生的数据存入D,并按照数据获取时间递增排序;
[0015] 1. 3)根据上层模式识别应用的需求,定义D中缓存数据最长的保留时间为h秒(h 为w的整数倍),以避免缓存过于陈旧的数据。
[0016] 其中,步骤2)的具体过程为:
[0017] 2. 1)根据上层模式识别应用的需求,定义滑动窗口的大小w秒为合理的数据在时 间上的分片粒度;
[0018] 2. 2)以当前时刻t为起点,向前回溯读取缓存D中以t-w时刻开始到t时刻结束 的一段数据D[t_w,t]作为当前滑动窗口的数据。
[0019] 其中,步骤3)的具体过程为:
[0020] 3. 1)给定当前滑动窗口数据D[t-w,t],已知数据源的数据率r和滑动窗口大小w, 按照以下公式计算数据完整性指标c:
[0021]

【权利要求】
1. 一种实时数据流模式识别应用的数据补全方法,其特征在于,包含一个运行时在线 数据缓存,一项数据完整性指标、和一个基于滑动窗口的迭代式抗冗余数据补全算法,具体 包含以下步骤: 1) 数据源连续产生数据形成输入数据流,设数据率已知为每秒r个采样值,输入数据 存储于运行时在线数据缓存,记缓存的数据为D; 2) 以当前时刻t为起点,使用大小为w秒的滑动窗口在缓存的数据中向前截取一段 D[t-w,t]作为当前窗口数据; 3) 在当前窗口数据D[t-w,t]的基础上,结合已知数据源的数据率r、滑动窗口大小w, 计算数据完整性指标c; 4) 若当前窗口数据D[t-w,t]的完整性指标c不达标,则从前一个窗口的数据 D[t-2w,t-w]中以最小冗余为原则,选取数据补充填入当前窗口D[t-w,t],若补全后完整 性指标c达到标准则算法结束,否则迭代执行本步骤直至完整性指标c达到标准或穷尽缓 存中的所有数据。
2. 如权利要求1所述的实时数据流模式识别应用的数据补全方法,其特征在于,步骤 1) 的具体过程为: 1. 1)创建动态大小的在线运行时缓存D; 1. 2)将数据源产生的数据存入D,并按照数据获取时间递增排序; 1. 3)根据上层模式识别应用的需求,定义D中缓存数据最长的保留时间为h秒,以避免 缓存过于陈旧的数据。
3. 如权利要求2所述的实时数据流模式识别应用的数据补全方法,其特征在于,步骤 2) 的具体过程为: 2. 1)根据上层模式识别应用的需求,定义滑动窗口的大小w秒为合理的数据在时间上 的分片粒度; 2. 2)以当前时刻t为起点,向前回溯读取缓存D中以t-w时刻开始到t时刻结束的一 段数据D[t-w,t]作为当前滑动窗口的数据。
4. 如权利要求2所述的实时数据流模式识别应用的数据补全方法,其特征在于,步骤 3) 的具体过程为: 3. 1)给定当前滑动窗口数据D[t-w,t],已知数据源的数据率r和滑动窗口大小w,按照 以下公式计算数据完整性指标c:
其中,分子|D[ti,t]|表示D[ti,t]中所包含数据的数量;根据上述公式,由于分母 是w时间内传感器数据量的上限,因此c为定义在[0,1]区间上的实数,c取值越大, 表示数据D[t-w,t]的完整性越高。
5. 如权利要求2所述的实时数据流模式识别应用的数据补全方法,其特征在于,步骤 4) 的具体过程为: 4. 1)设置补全回溯深度变量j并初始化为j= 1 ; 4.2)设用于补全的缓存历史数据段为D[t-2w,t-w],取D[t-2w,t-w]中尾部的j个数 据和D[t-w,t]中头部的j个数据进行比较,取其差值的绝对值相加并求平均,g卩,按照如下 公式计算j项数据间差值的平均值,d(j):
其中,j为历史数据段和当前数据段的重叠部分大小,k取1到j表示对重叠部分的数 据进行枚举,|D[t-w-j+k-l] -D[t-w+k-l] |表示历史数据段的倒数第j项数据和当前数据 段的第一项数据对其后,重叠部分第k项数据的数值差的绝对值; 4. 3)计算当j的值为1到w时d(j)的取值,最终确定使得d(j)最小的j的值j' ; 4.4)将D[t-2w,t-w-j']中的数据子序列,按原顺序补充到D[t-w,t]中数据序列的前 方,得到补全后的当前滑动窗口中的数据D[t-w,t]。
【文档编号】G06K9/62GK104484673SQ201410737932
【公开日】2015年4月1日 申请日期:2014年12月5日 优先权日:2014年12月5日
【发明者】吕建, 汪亮, 陶先平 申请人:南京大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1