基于有监督显式流形学习算法的电子鼻数据挖掘方法

文档序号:6611598阅读:442来源:国知局
专利名称:基于有监督显式流形学习算法的电子鼻数据挖掘方法
技术领域
本发明涉及电子鼻气体检测领域,具体涉及一种基于有监督显式流形学习算法的电子鼻数据挖掘方法。
背景技术
现代电子鼻系统的气体传感器阵列通常包含数十个气味传感器,其中光学型传感器阵列甚至包含成百上千个传感单元,由此阵列获得的气体样本数据的维数相当庞大,直接将该样本数据输入到人工智能算法进行模式判别的效果非常不理想,这主要是因为电子鼻的传感器阵列具有交叉敏感性的特点,即对同一种气体,传感器阵列中的多个单元都会做出响应,这样在降低因个别传感器工作异常影响系统决策风险的同时也增加了数据的冗余度。
电子鼻数据挖掘处理包括特征提取和降维,其中特征提取是对单个传感器获得的数据进行处理,提取能够表征所采集的气体信号的特征量,构成特征值矩阵。目前特征提取方法发展的比较成熟,现有方法完全能满足电子鼻数据特征提取的要求;降维主要是对特征值矩阵进行维数约减。因为电子鼻数据具有特殊性,因此许多传统的降维算法在对维数进行约减的同时,常发生关键信息的丢失,导致电子鼻在具体应用过程中发生误判,无法满足其应用要求。电子鼻作为人工模拟嗅觉系统,为了使系统能够“深刻记忆”某气体的特征,需要大量采集该气体样本,同时为了使系统能够对多种气体进行判别,需要采集多种气体的样本数据供电子鼻系统训练。由此导致用于电子鼻训练的样本数据具有非线性、非均匀分布的特征,传统的数据降维算法像主成分分析((Principal Component Analysis, PCA)属于线性降维方法,对待降维数据整体使用统一的映射处理,导致许多局部结构信息在降维过程中被丢弃,使得电子鼻因关键信息的丢失而做出错误的决策。流形学习算法是一种着眼于局部结构保持的数据降维方法,在进行降维的同时,将原数据的局部结构信息传递给降维后的数据,既降低了数据的冗余度又保留了关键信息,是一种理想的数据降维方法,但传统的流形学习算法在对电子鼻数据进行降维的过程中出现了两个问题I.因为流形学习算法着眼于局部结构保持,因此无法给出显式映射表达式,这导致其只能对电子鼻系统的训练用数据进行降维,而无法对新采集数据进行降维,导致采用流形学习算法的电子鼻系统无法应用到气体检测的实践环节;2.传统的流形学习算法是无监督算法,对电子鼻系统的训练用数据的局部结构进行保持时,没有考虑类内与类间特征值点之间关系的差异,这一细节信息的忽略直接导致电子鼻进行模式判别时出现错误。从目前的国内文献研究中,未曾看到有关使用有监督显式流形学习算法进行电子鼻数据挖掘的报道。

发明内容
本发明所要解决的第一个技术问题就是提供一种基于显式流形学习算法的电子鼻数据挖掘方法,它能够在降维过程中保持数据的局部结构并给出显式映射表达式,使得电子鼻系统能够用于新采集数据的判别。本发明所要解决的第二个技术问题就是提供一种基于有监督显式流形学习算法的电子鼻数据挖掘方法,它能够在降维时考虑到类内和类间特征值点的关系差异,提高电子鼻系统模式判别的正确率。为了解决本发明所提出的第一个技术问题,本发明包括以下步骤步骤I、气体样本的采集
调整实验室温、湿度环境,使得电子鼻系统的各传感器能够正常工作,对不同种类气体中的每一个样本,均进行不少于20次的气体采集实验,获得电子鼻训练用数据;步骤2、气体样本的特征提取对获得的电子鼻训练数据进行特征提取,并构成特征值矩阵X,矩阵X的维数是[mX η],其中m表示特征值点的总数,在数值上等于气体采样实验的总次数,η表示每一个特征值点的维数,由传感器阵列中传感器个数和特征提取方法共同决定,常见的特征提取方法主要包括I、基于传感器原始响应曲线,该类方法主要对气体传感器的响应曲线进行特征提取,常用的特征包括最大值、斜率、响应曲线的积分面积等;2、基于拟合曲线,该类方法首先使用适当的模型拟合原始响应曲线,然后再提取模型参数作为特征,常见的用于电子鼻数据拟合的模型有多项式模型、指数模型、分式函数丰吴型等;3、基于变换域的特征提取方法,首先对原始响应进行适当的变换,然后提取变换系数作为特征,常见的电子鼻数据变换域特征提取方法包括傅里叶变换、小波变换等;步骤3、确定特征值矩阵中各点的近邻确定特征值矩阵中每个点的近邻,常用的确定近邻关系有两种方法I、ε-bal法在以点Xi, i = 1,. . η为圆心,以ε为半径的范围内的所有点都是Xi的近邻;2、k-nearest法离点Xi最近的k个点是Xi的近邻且k < η ;步骤4、计算任意两特征值点的关系如果特征值矩阵X中点\是Xi的近邻点,那么两者之间的关系Wu按照某一规则取一个不为零的正数且Xi与的关系越紧密Wu的值就越大;如果特征值点\不是Xi的近邻点,那么两者之间的关系Wu = O ;步骤5、显式流形学习算法的数据降维Yt=AXt其中,Yt是低维目标矩阵Y的转置形式,矩阵Y的维数是[mX I],m表示点的总数,等于矩阵X中特征值点的总数,I表示每一个点的维数且I < n,A是显式映射系数矩阵,特征值矩阵中的点Xi和点\的近邻关系通过Wu传递给目标矩阵Y中的点yi和点yp常用的近邻关系传递方法如下式所示
权利要求
1.基于显式流形学习算法的电子鼻数据挖掘方法,其特征是,该方法包括以下步骤 步骤1、气体样本的采集 调整实验室温、湿度环境,使得电子鼻系统的各传感器能够正常工作,对不同种类气体中的每一个样本,均进行不少于20次的气体采集实验,获得电子鼻训练用数据; 步骤2、气体样本的特征提取 对获得的电子鼻训练数据进行特征提取,并构成特征值矩阵X,矩阵X的维数是[mXn],其中m表示特征值点的总数,在数值上等于气体采样实验的总次数,η表示每一个特征值点的维数,由传感器阵列中传感器个数和特征提取方法共同决定,常见的特征提取方法主要包括 1、基于传感器原始响应曲线,该类方法主要对气体传感器的响应曲线进行特征提取,常用的特征包括最大值、斜率、响应曲线的积分面积等; 2、基于拟合曲线,该类方法首先使用适当的模型拟合原始响应曲线,然后再提取模型参数作为特征,常见的用于电子鼻数据拟合的模型有多项式模型、指数模型、分式函数模型等; 3、基于变换域的特征提取方法,首先对原始响应进行适当的变换,然后提取变换系数作为特征,常见的电子鼻数据变换域特征提取方法包括傅里叶变换、小波变换等; 步骤3、确定特征值矩阵中各点的近邻 确定特征值矩阵中每个点的近邻,常用的确定近邻关系有两种方法 1、ε-ball法在以点Xi,i = 1,. . η为圆心,以ε为半径的范围内的所有点都是Xi的近邻; 2、k-nearest法离点Xi最近的k个点是Xi的近邻且k< n ; 步骤4、计算任意两特征值点的关系 如果特征值矩阵X中点\是Xi的近邻点,那么两者之间的关系《U按照某一规则取一个不为零的正数且Xi与\的关系越紧密Wu的值就越大;如果特征值点xj不是Xi的近邻点,那么两者之间的关系wi;j = O ; 步骤5、显式流形学习算法的数据降维Yt=AXt 其中,Yt是低维目标矩阵Y的转置形式,矩阵Y的维数是[mXl],m表示点的总数,等于矩阵X中特征值点的总数,I表示每一个点的维数且I < n,A是显式映射系数矩阵,特征值矩阵中的点Xi和点\的近邻关系通过Wu传递给目标矩阵Y中的点yi和点yp常用的近邻关系传递方法如下式所示 其中,Yi和点y3分别是目标矩阵Y中元素且i幸j,若特征值矩阵X中点Xi和\是近邻且两者距离越近,其近邻关系Wiij的值就会越大,此时上式要取最小值,则(yi-yj)2项的值就必须尽量的小,如此,将特征值矩阵中的点Xi和点\的近邻关系传递给了目标矩阵Y中的点Ii和点&,然后通过求解上式所描述的最优化问题得到显式映射系数矩阵A,得到显式映射表达式并完成降维。
2.基于有监督显式流形学习算法的电子鼻数据挖掘方法包括上述全部步骤,并在步骤2后增加一个步骤A 步骤A、考虑类别信息确定特征值矩阵中各点的近邻 将近邻关系的确定限定在特征值矩阵中的同类别点之间进行,如果点\和\来源于同一类气体,则进入步骤3判断&是否是Xi的近邻点;如果点Xi和\来源于不同气体,则跳过近邻关系判断,直接令点Xi和Xj的关系wi;j = O。
全文摘要
本发明涉及一种有监督显式流形学习算法进行电子鼻数据挖掘的方法。其中显式流形学习算法对电子鼻数据进行数据挖掘的方法的步骤包括气体样本的采集、气体样本的特征提取、确定特征值矩阵中各点的近邻、计算任意两特征值点的关系和显式流形算法的数据降维。有监督的显式流形学习算法对电子鼻数据进行数据挖掘包括上述全部步骤并在气体样本的特征提取后增加一步考虑类别信息确定特征值矩阵中各点的近邻。本发明的有益效果为利用显式流形学习算法进行电子鼻数据降维,给出了显式降维表达式;利用有监督流形学习算进行电子鼻数据降维,考虑到了特征值矩阵中不同来源的各点之间的关系差异,这一细节信息的保留是电子鼻系统高判别率的保障。
文档编号G06F17/30GK102890718SQ20121038258
公开日2013年1月23日 申请日期2012年10月10日 优先权日2012年10月10日
发明者田逢春, 贾鹏飞, 樊澍, 冯敬伟, 刘涛, 刘颖, 赵贞贞 申请人:重庆大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1