本发明涉及一种边缘端的实时数据分类建模,具体地说是一种边缘端的嵌入式时间序列决策树分类方法及系统。
背景技术:
对数据进行分类是常见的一个需求。不同于聚类算法,分类算法需要训练数据进行建模。建模完成之后,就可以使用这个模型进行不断的预测使用。
最经典的分类算法是决策树,决策树利用信息学中信息增益的方法判断样本变量的重要性,然后根据重要性排序进行样本的区分。这样的方法的缺点在于很难对海量数据进行一次性的建模处理,因为需要大的内存并且耗时。
近些年,随着大数据的出现,对流式数据的处理和研究成为热门领域。如何实现对海量数据进行一次性建模处理,同时确保内存需求量效且耗时短是目前急需解决的技术问题。
专利号为cn104318270a的专利文献公开了一种基于modis时间序列数据的土地覆盖分类方法,该方法具体是按照以下步骤进行的:1、建立原始曲线;2、对原始曲线进行滤波拟合成初始曲线;3、建立初始曲线像元的无云影像二维数组;4、设置为阈值t,其中,yi≠yi;5、处理过的原始曲线;6、得到重建后的ndvi年变化曲线;7、提取植被生长季参数组成特征影像;8、决定最终投票分类结果等步骤进行的;本发明应用于基于modis时间序列数据的土地覆盖分类领域。但是该技术方案要解决传统方法用时长、植被指数的负偏差以及sg重建结果准确性降低的问题,不能实现对海量数据进行一次性建模处理,同时确保内存需求量效且耗时短。
技术实现要素:
本发明的技术任务是提供一种边缘端的嵌入式时间序列决策树分类方法及系统,来解决如何实现对海量数据进行一次性建模处理,同时确保内存需求量效且耗时短的问题。
本发明的技术任务是按以下方式实现的,一种边缘端的嵌入式时间序列决策树分类方法,该方法是将vfdt算法应用到边缘端的计算中,实现边缘端大数据量的计算且能够达到对实时处理要求高的需求;具体步骤如下:
s1、边缘端收集数据并将数据存储到边缘端的存储设备中;
s2、利用vfdt算法(非常快速决策树或者叫时间序列决策树)对边缘端收集数据进行智能分类处理;
s3、边缘端获取分类结果;
s4、边缘端将分类结果传输到云端;边缘端可以只将得到的分析结果传输到云端,也可以将原始数据也一起传输到云端;如果只传输结果,这样避免了在边缘端传输大量数据带来的时间开销。
作为优选,所述步骤s1中边缘端通过传感器采集数据,传感器安装到需要进行数据采集的位置完成数据采集,传感器实时将采集的数据发送到边缘端,例如温度传感器安装在能够直接检测温度的地方。
作为优选,所述步骤s2中vfdt算法实时的对流式数据进行分析处理,根据流入数据的特性进行分类判断,并判断决策树是否要进行更新。
更优地,所述决策树进行更新的步骤如下:
(1)、ht为有单个叶子结点l_1的决策树;
(2)、赋值:
(3)、按预测s中最频繁一类把
(4)、对于每一类yk,每个xij值,赋值nijk(l1)=0;
(5)、对于每个例子(x,yk),使用ht分类(x,y)成为叶子节点;对于每个xij,增加nijk(l);
(6)、标记l;
(7)、判断l中的例子是否为同一类:
①、若不是同一类,则下一步执行步骤(8);
(8)、对每个属性
(9)、按最高的
(10)、判断是否是
①、若是,则下一步执行步骤(11);
(11)、用在xa分离的全局节点代替l;
(12)、对于分离的每一分支添加lm,xm=x-{xa},据lm的最频繁一类将
(13)、输出决策树ht,完成决策树的更新。
更优地,所述步骤s2中vfdt算法利用c/c++语言编程为vfdt算法软件系统,将vfdt算法软件系统作为数据处理的智能系统部署到边缘端设备中。
更优地,步骤s4中边缘端将分类结果实时或者存储指定时间后传输到云端,指定时间是根据用户需求在边缘端设定的时间段。
一种边缘端的嵌入式时间序列决策树分类系统,该系统包括边缘端设备、传感器和云端设备,传感器和边缘端设备通过无线连接并互传数据,云端设备与边缘端设备通过无线或有线连接并传输数据;
边缘端设备用于收集数据、存储数据、处理数据并返回分类结果,同时判断决策树是否需要更新;
传感器用于采集数据;
云端设备用于接收分类结果。
作为优选,所述边缘数据设备内部署有边缘数据收集模块、基于vfdt算法的智能数据处理模块、数据存储模块以及分类结果传输模块;
其中,边缘数据收集模块用于收集传感器采集的数据;
基于vfdt算法的智能数据处理模块用于利用vfdt算法对传感器采集的数据进行分类处理;
数据存储模块用于存储传感器采集的数据;
分类结果传输模块用于将基于vfdt算法的智能数据处理模块的分类结果传输到云端。
本发明的边缘端的嵌入式时间序列决策树分类方法及系统具有以下优点
(一)、vfdt算法(veryfastdecisiontree,非常快速决策树)是流式数据的一种建模算法,是对决策树在实时数据上的一种拓展,vfdt是一种基于hoeffding不等式建立决策树的方法,利用统计不等式hoeffding来判断一个节点是否应该作为分类判断的依据,本发明将vfdt算法应用到边缘端的计算中,实现边缘端大数据量的计算且能够达到对实时处理要求高的需求;
(二)、网络边缘产生的数据正在逐步增加,如果我们能够在网络的边缘结点去处理、分析数据,那么这种计算模型会更高效。这样的计算要求是云计算所不能满足的,因为很多场景需要数据在边缘端得到快速的处理;边缘计算的需求主要来源于云服务的推动、物联网的推动和终端使用的需求;边缘计算的高效、快速可以满足很多实时场景的需求,本发明在边缘计算端处理海量实时流式数据,所采用方法为基于时间序列算法的决策树,即vfdt算法,可以不需要大内存保存数据和模型,对实时数据进行及时处理,非常适合边缘计算;
(三)、随着数据量的增大,对数据的实时处理提出了强烈的需求,甚至需要数据在边缘端得到智能的处理,并把结果发送到云端;边缘端的数据处理方法目前非常缺少,针对流式海量数据的处理方法更是稀缺,目前的主要方法或者算法是基于传统的批量建模方法,即一次建模多次使用;本发明可以实时的对数据进行分类,例如,区分两类数据;还可以根据实时数据进行模型的更新;传统方法,例如决策树,需要对全量数据进行建模;而本发明可以针对一部分数据进行建模,并不断的根据新的数据进行模型更新,能够应对数据的变化,对物联网布局很有价值,是物联网时代边缘计算的重要工具。
附图说明
下面结合附图对本发明进一步说明。
附图1为边缘端的嵌入式时间序列决策树分类方法流程框图;
附图2为决策树更新的流程框图;
附图3为边缘端的嵌入式时间序列决策树分类的结构框图。
具体实施方式
参照说明书附图和具体实施例对本发明的一种边缘端的嵌入式时间序列决策树分类方法及系统作以下详细地说明。
实施例1:
如附图1所示,本发明的边缘端的嵌入式时间序列决策树分类方法,该方法是将vfdt算法应用到边缘端的计算中,实现边缘端大数据量的计算且能够达到对实时处理要求高的需求;具体步骤如下:
s1、边缘端收集数据并将数据存储到边缘端的存储设备中;边缘端通过传感器采集数据,传感器安装到需要进行数据采集的位置完成数据采集,传感器实时将采集的数据发送到边缘端,例如温度传感器安装在能够直接检测温度的地方。
s2、利用vfdt算法(非常快速决策树或者叫时间序列决策树)对边缘端收集数据进行智能分类处理;vfdt算法利用c/c++语言编程为vfdt算法软件系统,将vfdt算法软件系统作为数据处理的智能系统部署到边缘端设备中。vfdt算法实时的对流式数据进行分析处理,根据流入数据的特性进行分类判断,并判断决策树是否要进行更新,如附图2所示,步骤如下:
(1)、ht为有单个叶子结点l_1的决策树;
(2)、赋值:
(3)、按预测s中最频繁一类把
(4)、对于每一类yk,每个xij值,赋值nijk(l1)=0;
(5)、对于每个例子(x,yk),使用ht分类(x,y)成为叶子节点;对于每个xij,增加nijk(l);
(6)、标记l;
(7)、判断l中的例子是否为同一类:
①、若不是同一类,则下一步执行步骤(8);
(8)、对每个属性
(9)、按最高的
(10)、判断是否是
①、若是,则下一步执行步骤(11);
(11)、用在xa分离的全局节点代替l;
(12)、对于分离的每一分支添加lm,xm=x-{xa},据lm的最频繁一类将
(13)、输出决策树ht,完成决策树的更新。
s3、边缘端获取分类结果;
s4、边缘端将分类结果实时或者存储指定时间后传输到云端,指定时间是根据用户需求在边缘端设定的时间段;边缘端可以只将得到的分析结果传输到云端,也可以将原始数据也一起传输到云端;如果只传输结果,这样避免了在边缘端传输大量数据带来的时间开销。
实施例2:
如附图3所示,本发明的边缘端的嵌入式时间序列决策树分类系统,该系统包括边缘端设备、传感器和云端设备,传感器和边缘端设备通过无线连接并互传数据,云端设备与边缘端设备通过无线或有线连接并传输数据;边缘端设备用于收集数据、存储数据、处理数据并返回分类结果,同时判断决策树是否需要更新;传感器用于采集数据;云端设备用于接收分类结果。
其中,边缘数据设备内部署有边缘数据收集模块、基于vfdt算法的智能数据处理模块、数据存储模块以及分类结果传输模块;边缘数据收集模块用于收集传感器采集的数据;基于vfdt算法的智能数据处理模块用于利用vfdt算法对传感器采集的数据进行分类处理;数据存储模块用于存储传感器采集的数据;分类结果传输模块用于将基于vfdt算法的智能数据处理模块的分类结果传输到云端。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。