基于深度学习的茶园异常数据校正方法、系统和存储介质与流程

文档序号:23397184发布日期:2020-12-22 14:49阅读:203来源:国知局
基于深度学习的茶园异常数据校正方法、系统和存储介质与流程
本发明涉及一种基于深度学习的茶园异常数据校正方法,属于茶园物联网数据识别领域。
背景技术
:物联网技术的应用使得农业生产领域产生和积累了大量的数据,为农业智能管理和决策提供了丰富的数据来源。然而,由于受复杂的农业生产环境和农业成产成本等因素的影响,数据中也含有大量的异常数据,影响了数据的可用性。因此,异常数据的校正是农业数据处理过程中首先要解决的问题。但目前大部分研究人员是对异常数据检测进行研究,还没有成熟的技术方法对茶园环境数据进行异常数据校正。异常数据的校正一方面可以提高数据的质量,另一方面能够提升异常数据源的识别,可以发现物联网系统中存在的问题并进行处理。以往的传感器异常数据侧重于异常数据检测问题,很少考虑到传感器异常数据的校正问题。技术实现要素:本发明的目的在于提供一种基于深度学习的茶园异常数据校正方法、系统和计算机可读存储介质,以实现茶园物联网传感器异常数据的检测并能对异常数据进行校正。为此,本发明一方面提供了一种基于深度学习的茶园异常数据校正方法,包括:采集步骤:采集目标茶园的环境数据并对此预处理;异常数据检测步骤:将预处理后的目标茶园的环境数据作为输入数据,输入到卷积神经网络-支持向量机cnn-svm中,对数据进行异常检测,输出检测到的异常数据;数据预测步骤:将预处理后的目标茶园的环境数据作为输入数据,输入到长短期记忆神经网络lstm中,对环境数据进行预测,输出预测的茶园数据;输出步骤:当cnn-svm模型检测数据为正常数据时,则输出到茶园数据集中;当cnn-svm模型检测数据为异常数据时,提取出由cnn-svm模型检测出异常数据的时间特征,并在lstm模型预测的数据中选取具有相同时间特征的数据进行校正,然后再输出到茶园数据集中。根据本发明的另一方面,提供了一种基于深度学习的茶园异常数据校正系统,一种基于深度学习的茶园异常数据校正系统,包括:采集单元,用于采集目标茶园的环境数据并对此预处理;异常数据检测单元,用于将预处理后的目标茶园的环境数据作为输入数据,输入到卷积神经网络-支持向量机cnn-svm中,对异常数据进行检测,输出检测到的异常数据;数据预测单元,用于将预处理后的目标茶园的环境数据作为输入数据,输入到长短期记忆神经网络lstm中,对环境数据进行预测,输出预测的茶园数据;输出单元,用于当cnn-svm模型检测数据为正常数据时,则输出到茶园数据集中;当cnn-svm模型检测数据为异常数据时,提取出由cnn-svm模型检测出异常数据的时间特征,并在lstm模型预测的数据中选取具有相同时间特征的数据进行校正,然后再输出到茶园数据集中。本发明还提供了一种计算机可读存储介质,存储有茶园异常数据校正程序,所述程序在被执行时实现根据本发明的基于深度学习的茶园异常数据校正方法的步骤。本发明利用深度学习算法,融合了卷积神经网络、支持向量机和长短期记忆网络,实现茶园环境异常数据的校正。与传统方法相比,卷积神经网络能精确地提取茶园环境数据特征,与支持向量机的结合能够有效的对茶园环境数据进行分类,克服了数据缺失、采集不稳定、自然灾害等外部影响,lstm网络提取了时间特征,能够加强后面的时间节点对前面时间节点的感知力,能充分利用采集的环境数据,提高了准确率、特异度,对环境数据进行准确预测,两者所融合的模型能够实现异常数据的准确校正,并且具有较高的鲁棒性。除了上面所描述的目的、特征和优点之外,本发明还有其它的目的、特征和优点。下面将参照图,对本发明作进一步详细的说明。附图说明构成本申请的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:图1是本发明中茶园异常数据校正方法流程图。图2是本发明中茶园异常数据校正模型结构示意图。图3是本发明中茶园异常数据校正模型测试集准确率变化图。图4是本发明中茶园异常数据校正模型测试集loss变化图。图5是本发明中茶园异常数据校正模型输出图。具体实施方式下面将参考附图并结合实施例来详细说明本发明。本发明既能检测异常数据又能进一步对异常数据进行校正,使用卷积神经网络和支持向量机结合的算法对环境数据先进行异常数据检测,再提取出异常数据的时间节点,然后运用长短时记忆网络对环境数据进行预测,用预测数据与异常数据相同节点的预测值对异常数据进行校正,建立泛化能力强、预报准确率高的茶园数据校正模型。本发明的基于深度学习的茶园异常数据校正方法,包括以下步骤:1、茶园环境数据采集:每10分钟对目标茶园的环境数据进行一次实时采集记录,共采集近一年的数据量,预计6×24×350=50400条数据记录。2、数据预处理:在训练模型前,需要对所采集茶园数据做标准化处理,将不同量级数据统一转化为同一量级,保证不同范围的输入数据有着相同的作用,标准化处理采用z-score标准化方法,公式如下:x*=(x-μ)/σ其中x为原始数据,μ为所有样本数据的均值,σ为所有样本数据的标准差,x*为标准化后数据。将标准化处理后的茶园数据做时间切片,使用滑动窗口模型实现对时序数据的处理,实现在线式检测,经过试验验证(表1),滑动窗口模型大小定为9。最后将初始数据按照7:3进行划分训练集和测试集,并分别在训练集和测试集中加入10%的异常数据,用于之后模型的训练和测试。表1确定滑动窗口尺寸滑动窗口尺寸训练100次正确率训练500次平均正确率q=789.350%96.002%q=889.450%95.996%q=989.470%96.101%q=1089.330%95.990%q=1189.310%95.938%3、设计cnn-svm网络模型架构:本实施例中使用tensorflow2.0框架来实现深度学习的快速原型。本实施例中选用cnn-svm网络架构对茶园数据进行检测,cnn-svm模型构成如图2所示,cnn-svm神经网络架构包括四层卷积层、两层池化层、一层dropout层、两层全连接层和一层svm层。将预处理后的训练集依次经过两层卷积层、池化层、两层卷积层、池化层、一层dropout层和两层全连接层进行有效特征提取,修正cnn-svm模型参数,提高模型精度,最后将有效特征输入到svm层进行多分类;dropout层为了防止训练出来的模型过拟合,它在模型训练过程中更新参数时暂时随机断开指定数量的神经元,dense层是全连接层,其运算为od=f(sn⊙wd+bd),其中f为激活函数,wd为权重矩阵,bd为偏置值。使用卷积神经网络模型的具体参数为:第一层为卷积层,一维卷积核个数为64,滤波核大小为4的向量,padding为same,激活函数为relu函数。第二层为卷积层,一维卷积核个数为64,滤波核大小为4的向量,padding为same,激活函数为relu函数。第三层为池化层,池化方式选择为最大池化,pool_size为2。第四层为卷积层,一维卷积核个数为32,滤波核大小为2的向量,padding为same,激活函数为relu函数。第五层为卷积层,一维卷积核个数为32,滤波核大小为2的向量,padding为same,激活函数为relu函数。第六层为池化层,池化方式选择为最大池化,pool_size为2。第七层为展平层。第八层为alphadropout层,丢弃率为0.5。第九层为全连接层,神经元个数为128,激活函数为relu函数。第十层为全连接层,神经元个数为64,激活函数为relu函数。最后一层为svm层,svm层中核函数采用径向基核函数(rbf),惩罚系数c=5.32,scoring为roc_auc,decision_function_shape为ovo,gamma为0.1。表2为随迭代次数的增加cnn-svm模型的准确率(accuracy),微精度(micro-precision),微召回率(micro-recall),微特异度(micro-specificity)和micro-f1的变化情况。表2cnn-svm模型性能评价4、设计lstm网络模型架构:lstm模型对茶园环境数据进行预测,lstm模型构成如图2所示,包括三层lstm层、一层dropout层和一层dense层;将经过预处理后训练集输入通过3个lstm层。第一层lstm单元有128个节点,第二层lstm单元有64个节点,第三层lstm单元有32个节点,激活函数采用relu函数,lstm层使用lstm函数对输入数据进行计算;再将计算后的数据输入到dropout层,其中dropout层是为了防止训练出的模型过拟合,它在模型训练过程中更新参数时暂时随机断开指定数量的神经元。lstm单元内部的计算过程为:设当前时刻n,cell的值为计算公式为:其中xn为n时刻的输入数据,sn-1为n-1时刻隐藏层的输出值,uc、ba分别为对应的权值和偏置。输入门决定了多少新数据加入cell状态中来:in=σ(uixn+wisn-1+vicn-1+bi),ui、wi、vi分别为对应的权值,bi为偏置。遗忘门决定了丢弃哪些信息:fn=σ(ufxn+wfsn-1+vfcn-1+bf),其中uf、wf、vf分别为对应的权值,bf为偏置量;当前时刻n,cell的状态值为:输出门决定输出哪些信息:on=σ(uoxn+wosn-1+vocn-1+bo),uo、wo、vo分别为对应的权值,bo为偏置量;lstm单元的输出为:sn=ontanh⊙(cn),⊙为逐点相乘。使用长短时记忆网络的具体参数为:第一层为lstm层,units为128,return_sequences为true;第二层为lstm层,units为64,return_sequences为true,激活函数为relu函数;第三层为lstm层,units为32,return_sequences为true,激活函数为relu函数;第四层为dropout层,丢弃率为0.5;第五层为dense层,dense层的神经元个数为8。表3为随迭代次数的增加lstm模型的平均绝对误差(mae)、均方根误差(rmse)和r平方值(r2)的变化情况。表3lstm模型性能评价5、网络训练(调参和优化):先将隐藏状态初始化为0,将当前minibatch的隐藏状态作为接下来隐藏状态的初始值,每个minibatch的大小为12。本发明中cnn-svm模型和lstm模型的epochs为1000,学习率为0.01(learningrate,lr),每训练200epochs后lr衰减100倍。在训练的过程中,依据交叉熵(crossentropyloss)计算误差向量,根据反向传播算法更新模型的权重。再将测试集中的茶园环境数据输入至训练好的模型结构中,通过依据原始数据检测和预测的某时刻茶园数据与期望值之间的差距,对模型的网络参数进行调整。6、异常数据校正:最终将训练、测试后的cnn-svm模型和lstm模型作为茶园异常数据校正模型。将预处理后的目标茶园的环境数据作为输入数据,通过cnn对输入数据进行学习,最终当cnn-svm模型检测数据为正常数据时,则输出到茶园数据集中;当cnn-svm模型检测时序数据时连续异常数据小于3个,先保留数据,并提取出异常数据的时间点a,再使用lstm模型预测到的a时间的数据校正异常数据并输入到茶园数据集中;当连续异常数据大于等于3个时,则根据异常数据判断故障地点并输出;经验证茶园异常数据校正模型的准确率约95.91%,如图3所示;茶园异常数据校正模型的损失值约为0.1941,如图4所示;茶园异常数据校正模型的输出,如图5所示。本发明所采用的方法充分利用了茶园采集的历史数据,运用cnn-svm模型和lstm模型,识别茶园环境异常数据特征,并进行分类,基于历史数据和lstm算法,对茶园数据进行检测和预测,提升了对茶园环境数据校正的精度和效率。该方法具有较强的鲁棒性。本发明还提供了一种基于深度学习的茶园异常数据校正系统,包括采集单元、异常数据检测单元、数据预测单元、以及输出单元。采集单元用于采集目标茶园的环境数据并对此预处理。异常数据检测单元用于将预处理后的目标茶园的环境数据作为输入数据,输入到卷积神经网络-支持向量机cnn-svm中,对异常数据进行检测。数据预测单元用于将预处理后的目标茶园的环境数据作为输入数据,输入到长短期记忆神经网络lstm中,对环境数据进行预测。输出单元用于当cnn-svm模型检测数据为正常数据时,则输出到茶园数据集中;当cnn-svm模型检测数据为异常数据时,提取出由cnn-svm模型检测出异常数据的时间特征,并在lstm模型预测的数据中选取具有相同时间特征的数据进行校正,然后再输出到茶园数据集中。在本发明的其他实施例中,将目标茶园的环境数据校正替换为预定目标的物联网传感器数据校正,并对此进行异常数据校正。该预定目标例如田地的物联网传感器数据校正、果园的物联网传感器数据校正、山林的物联网传感器数据校正、鱼塘的物联网传感器数据校正等。本茶园异常数据校正系统可以集成在电子设备中,该电子设备可以是服务器,也可以是终端等设备。其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、网络加速服务(contentdeliverynetwork,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接。本茶园异常数据校正程序为软件,可存储在计算机可读存储介质中,例如包括:只读存储器(rom,readonlymemory)、随机存取记忆体(ram,randomaccessmemory)、磁盘或光盘等。以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1