一种电子鼻快速识别方法与流程

文档序号:18825154发布日期:2019-10-09 01:27阅读:2223来源:国知局
一种电子鼻快速识别方法与流程

本发明涉及电子鼻气体检测技术,具体是涉及一种电子鼻快速识别方法。

[

背景技术:
]

现有电子鼻主要由气敏传感器阵列、信号预处理和模式识别三部分组成。某种气味呈现在一种活性材料的传感器面前,传感器将化学输入转换成电信号,由多个传感器对一种气味的响应便构成了传感器阵列对该气味的响应谱。

目前电子鼻相关的研究工作中,研究者门以电子鼻的应用,提升识别率和解决传感器漂移问题为主要的研究工作。这些工作进展的前提是使用充分响应或者尽量充分响应的气体数据作为分析的输入数据,这些数据的采集需要十几秒甚至几十秒的时间,因此在许多实际情况下无法实用,比如工厂和家庭中易燃易爆气体、液体的监测,在这种情形下快速,准确成为电子鼻的必要要求。

[

技术实现要素:
]

在此,我们提出了一种电子鼻快速识别方法,以解决电子鼻识别不及时的问题。

为了实现上述目的,本发明的技术方案如下:

一种电子鼻快速识别方法,包括如下步骤:

步骤1,设置输入层,进行分段、去均值中心化,将采集数据转化构造成按时间步形式存储的数据,同时包含数据中心化的处理操作;

步骤2,将处理后的数据输入综合层,所述综合层由卷积层和lstm循环层构成;

步骤3,转录层,紧跟在lstm循环层之后,数据进入转录层,所述转录层实现对识别出的标签分布数据进行格式化处理已经得到对应气体种类。

进一步地,步骤1中所述分段即将原始数据进行切分,切分成同样规格的按照时间顺序的传感器数据列,方便依时间步分别进入卷积层进行后续的计算,匹配循环神经网络的计算方式。

进一步地,步骤1中所述去均值化即将切分好的每一小段数据减去对应的均值,实现中心化处理,去均值中心化的作用是使得输入数据对称分布在0周围。

进一步地,步骤2中的卷积层设有卷积神经网络,数据通过卷积层,卷积层利用多核卷积操作强大的特征提取能力来实现对输入数据卷积特征的提取;并将卷积的多个特征向量拼接成一个特征向量,该长向量用于lstm循环层的计算输入。

进一步地,步骤2中的lstm循环层设有循环神经网络;所述lstm循环神经网络层通过隐藏状态来存储之前所有时间步中的信息,使得网络可以在时间步上逐步综合卷积特征中的信息;

进一步地,步骤3中识别气体方法为将lstm层输出的标签分布进行softmax格式化,从而将分布转化成各类气体的概率值,之后从中概率向量中选择最大概率值对应的索引,用此索引作为key从预设的字典中查找对应的气体种类作为预测的最终输出值。

一种电子鼻快速识别系统,包括

输入层,进行分段、去均值中心化,将采集数据转化构造成按时间步形式存储的数据,同时包含数据中心化的处理操作;

卷积层,连接输入层,卷积层利用多核卷积操作强大的特征提取能力来实现对输入数据卷积特征的提取;

lstm循环层,连接卷积层,lstm循环神经网络层可以充分利用气体数据序列性的特点,使得网络可以在时间步上逐步综合卷积特征中的信息

转录层,连接lstm循环层,转录层实现对识别出的标签分布数据进行格式化处理已经得到对应气体种类。

对于传感器阵列,气体响应数据具有序列性、多通道性,序列性类似于自然语言中词向量按顺序连续排列,多通道性的特点使得可以将气体响应数据看作单通道的二维图像,因此气体响应数据兼有图形和序列的特点,使得可以把计算机视觉领域中广泛使用的卷积神经网络以及自然语言处理领域里广泛使用的循环神经网络联合使用,从而使得可以从更短的响应序列中提取出足够的信息对气体数据进行识别。

[附图说明]

图1为本发明电子鼻气体识别模型系统。

图2为本发明卷积层卷积网络计算示意图。

图3为本发明循环神经网络流程图。

图4为本发明lstm循环层结构图。

图5为本发明lstm循环层的循环计算展开图。

图6为本发明设计转录层实现流程。

图7为本发明气体网络及对比算法实验结果曲线图。

[具体实施方式]

为了使本发明实现的技术手段清晰明了,下面结合附图进一步阐述本发明。

如图1所示,本发明针对传感器阵列气体响应数据设计的气体识别模型系统。总体结构可以分成输入层、卷积层、lstm循环层和转录层。

输入层负责将输入数据转化构造成按时间步形式存储的数据,同时包含数据中心化的处理操作。cr-cell网络为卷积神经网络和循环神经网络的综合层,卷积层利用多核卷积操作强大的特征提取能力来实现对输入数据卷积特征的提取。lstm循环神经网络层可以充分利用气体数据序列性的特点,使得网络可以在时间步上逐步综合卷积特征中的信息。转录层实现对识别出的标签分布数据进行格式化处理已经得到对应气体种类。输入层由于设计的网络中包含有循环神经网络,它的特点是数据依时间步分时计算,因此对于输入的原始多通道气体数据进行处理,使得数据可以用于循环神经网络的计算方式。因此在输入层对数据进行了两步操作,第一步是分段,第二步是去均值中心化。分段即将原始数据进行切分,切分成同样规格的按照时间顺序的传感器数据列,方便依时间步分别进入卷积层进行后续的计算,匹配循环神经网络的计算方式;去均值化即将切分好的每一小段数据减去对应的均值,实现中心化处理去均值中心化的作用是使得输入数据对称分布在0周围,这种操作能够让模型在训练阶段更好的收敛。另一方面这种处理由于去除了均值,只体现了数据的变化程度,可以使得模型在识别气体时拥有很强的抗漂移能力。

卷积层,对于分段之后的单个时间步的输入数据段,可以将其看做一张单通道的图片。通过对该数据段进行多核卷积操作实现对该段数据卷积特征的提取,并将卷积的多个特征向量拼接成一个特征向量。该长向量用于lstm循环层的计算输入。图2为卷积层卷积网络计算示意图,在卷积操作之后通过relu激活函数计算激活值,由于将卷积核的高度设置成与传感器阵列通道数一致,所以激活之后的输出为一维向量,该向量便为该层对对应时间步数据提取出的卷积特征。

lstm循环层,由于本发明提出的模型中有lstm循环神经网络的结构,模型在每个时间步都可以产生输出,即该模型具有多输出的能力。同时在计算过程中随着时间步的前进模型接收到的数据逐渐增多,故而接受到的信息逐渐增多,对气体识别的准确度也随着信息的增多而增大。循环神经网络并非多层感知机那样刚性的记忆所有固定长度的序列,而是通过隐藏状态来存储之前所有时间步中的信息。假设输入数据时存在时间相关的情况,并且在时间步时刻的小批量输入为xt,在该时间步的隐藏层变量为ht。同时引入新的权重参数whh,该权重参数负责和上一时刻的隐藏变量ht-1进行运算,决定在该时间步如何使用上一时刻的隐藏变量,即当前时间步的输入以及上一时间步的隐藏变量共同决定当前时间步的隐藏变量,以及公式(1)是当前时刻隐藏状态的计算公式。

式中ht-1whh即为之前时间步的信息作用在当前时刻的方式。可以看出隐藏变量捕获了当前时间和之前序列的所有历史信息,得到当前时间步的状态,隐藏变量也称为隐藏状态。容易看出上式的中当前时刻的隐藏状态的定义和上一时间步的隐藏状态的定义相同,故而上式的计算方式是循环的,因此这种循环计算的网络结构就被称为循环神经网络。在循环神经网络中参数包含隐藏层的权重wxh,whh,偏差bh,以及输出层的权重whq和偏差bq。该网络的一大特点是在循环神经网络的不同时间步中这些参数是一样的,即在时间上共享参数。所以,循环神经网络的参数量不随时间步的增加而增加。图3展示了在相邻三个时间步上的计算流程,循环神经网络结构在训练期间会出现梯度消失和梯度爆炸的现象,因而其很难学习到序列数据中长期的依赖关系,lstm循环层通过对网络结构的精心设计能够很好的解决这两个问题。

在lstm中最主要的结构是3个门控单元,一个候选记忆细胞,一个记忆细胞和一个隐藏状态,其结构如图4所示。

lstm循环层可以将此刻时间步的输入数据同上一时间步的隐藏层数据相结合计算此刻时间步的输出,图5为lstm循环层的循环计算展开图。图中vt1,vt2……vtn是卷积层对应时间步的输出向量,同时也是lstm循环层的输入向量。在该层中每一个时间步都有对应的输出,意味着每个时间步都会对气体数据进行预测,随着时间步的推移,网络综合的信息越来越多,所以对气体的识别会越来越准确。在相邻时间步之间有一隐藏单元,该隐藏单元为一个向量,该向量负责存储之前所有时间步的信息,该隐藏向量长度越长则其对信息的传递能力就越强。

基于此,本系统便具有了多输出与自纠正的能力,并且在系统的使用时更灵活多变:当使用时只关心某一个时间步的输出时,可以只分析此时间步的输出。若需要tk时刻的识别结果,则只需要x1,x2.........xk时间段的数据作为输入数据,便可以得到tk时刻的结果。运用本发明中的模型可以根据不同时间步的识别率统计选择满足要求的最早的时间步,从而在识别准确性与识别速度都方面都达到要求。

转录层紧跟在lstm循环层之后,该层负责将lstm层输出的标签分布进行softmax格式化,从而将分布转化成各类气体的概率值。softmax的计算公式如下公式(2):

之后从中概率向量中选择最大概率值对应的索引,用此索引作为key从预设的字典中查找对应的气体种类作为预测的最终输出值。图2-6展示了转录层的实现过程。

为了验证本发明提出的模型在气体快速识别方面的优越性,本发明用同样的数据集分别与随机森林算法(rf),梯度提升树算法(gbdt),最近邻算法(knn),支持向量机(svm)以及线性判别分析型算法(lda)进行了实验对比,实验中由于这些算法数据输入和本发明中的模型的数据输入形式存在很大的差别,故而在对这些对比算法做实验时通过选取最佳的采样频率对原始数据进行降采样再将降采样的8通道数据拼接成一个向量作为输入值,并且为了对比不同时间步的实验结果,对比模型在每个时间点上都单独训练模型,经大量的调参之后选取了最优实验结果。除此之外,实验中将未经过数据预处理阶段的卷积循环神经网络模型的实验结果也加入到对比实验中,对比实验结果如图7所示。

从对比实验结果曲线图中可以看出,本发明提出的模型实验结果(图中蓝色曲线)在各个预测时间点上的识别准确率都遥遥领先于其他算法。

实验结果中lda和knn的表现最差,即使到4s的数据作为输入识别准确率还无法达到80%,低于卷积循环神经网络模型0.5s时刻的实验结果,lda属于线性模型,故而其没有对气体数据中非线性关系的学习能力,而knn在预测过程中直接使用样本点之间的距离关系来分类,所以其对变量的缩放非常敏感,同时knn在高维数据上的表现一直是其一大缺点,另外k值得选择很难统筹全局,可能选择的k值对某种类别的判别效果非常好,但是对另外一种类别的判别效果会变差,即knn很难避免在某一区域过拟合,另外的区域欠拟合。

对比实验中svm,gbdt,rf的识别效果总体上处于中间梯队,因为其都拥有处理非线性问题的能力,svm直接采取在高维空间中对样本分类,rf通过随机抽样构建多棵决策树对样本进行识别预测,gbdt利用集成学习的策略依次建立多棵决策树来优化损失函数,但是其学习能力仍然不能使得识别结果达到令人满意的结果。

对比试验中,未经过数据预处理阶段(分段数据未减去均值的方式)的实验结果在初始时刻识别效果极差,随着时间步的推移,识别效果逐渐和svm的效果相当(4s),但是仍然无法达到本发明提出的模型进行中心化的效果,从中可以看出对于本发明提出的卷积循环神经网络,识别效果并不严格依赖于响应的具体数值,而是响应数值的变化能够为该模型的识别提供更多有用的信息。

由以上分析可以得到本发明的两大优点:

1)本发明提出的卷积循环神经网络模型在电子鼻气体快速识别方面有效而准确。

2)相比于其他的各种优秀算法,本发明设计的卷积循环神经网络模型可以单模型实现多个时间步的识别。

凡是属于本发明原理的技术方案均属于本发明的保护范围,对于本领域的技术人员而言,在不脱离本发明的原理的前提下进行的若干改进,这些改进也应视为本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1