基于主成分分析的传感器阵列特征选择和阵列优化方法与流程

文档序号:16266237发布日期:2018-12-14 21:56阅读:247来源:国知局
基于主成分分析的传感器阵列特征选择和阵列优化方法与流程

本发明涉及一种传感器阵列特征选择和阵列优化方法,尤其涉及一种基于主成分分析的传感器阵列特征选择和阵列优化方法。

背景技术

目前,在对传感器阵列进行特征选择时,可以寻找适合应用场景的优秀特征,以提高传感器阵列系统的识别性能和鲁棒性。对传感器阵列进行传感器优化,不仅可以降低传感器阵列的成本,而且可以进一步提高传感器阵列的性能。当前通过主成分分析(principlecomponentanalysis,pca)技术对传感器阵列特征选择的方法都是利用pca对原始传感器特征进行变换,在变换域里进行降维和特征选择。这种方法只关注数据方差大小的分布情况,认为方差大的数据方向维度具有较大的信息量,并直接删除了方差小的数据维度。但是,由于数据方差大小与数据的有效分类信息并没有本质的必然联系,数据方差较小的维度同样有可能蕴含了有效分类信息,导致现有的通过pca技术对传感器阵列特征选择的方法效果较差。



技术实现要素:

本发明的目的是提供一种基于主成分分析的传感器阵列特征选择和阵列优化方法,能够进一步提高传感器阵列检测性能,降低传感器阵列的使用成本,对传感器阵列选择起到极大地优化作用。

本发明采用下述技术方案:

基于主成分分析的传感器阵列重要特征选择方法,依次包括以下步骤:

a:对待选的传感器阵列特征提取方法进行识别性能评估,然后根据评估结果,选择若干种传感器阵列特征提取方法,作为本传感器阵列特征提取方法使用;并将所选择的若干种本传感器阵列特征提取方法所对应的传感器阵列特征作为初始特征;

b:根据步骤a中得到若干种初始特征,构成初始特征数据集x=[xi,j]p×n,其中,p代表特征维度,n代表样本个数,i是第i维特征,j是第j个样本,i,j均为自然数;

c:对初始特征数据集x进行标准化后做pca变换,计算标准化后的初始特征数据集中每一维特征的重要程度fk;

d:按照每一维特征的重要程度fk由大到小的顺序,对标准化后的初始特征进行排序,得到排序列表l;

e:按照排序列表l,依次选取排序列表l中前1个特征、前2个特征、……、前d个特征,构成对应的d个待定特征数据集

f:基于算法中使用的分类器,分别评估每一个待定特征数据集在分类器下的识别准确率,对应得到d个识别准确率判决结果;

g:从步骤f中得到的d个识别准确率判决结果中,找到最高的准确率判决结果,则该最高的准确率判决结果所对应的序列表l中的前d个特征即为选定的重要特征。

所述的步骤a中,选取识别率高的前若干种传感器阵列特征作为初始特征;同时,将选取的若干种初始特征所对应的传感器阵列特征提取方法,作为本传感器阵列特征提取方法使用。

所述的步骤c包括以下具体步骤:

c1:对初始特征数据集x划分训练集和测试集;

c2:对训练集中的数据,按照公式(1)进行标准化,最终得到标准化后的初始特征数据集

其中,xi,j是初始特征数据,代表矩阵中的元素即标准化后的初始特征数据,μi是第i维初始特征均值,σi是第i维初始特征标准差;

c3:按照公式(2),对标准化后的初始特征数据集做pca变换;得到经pca变换后的数据集yt×n=[y1,y2,...,yt]t

其中,ai=[ai1,ai2,...,aip]t是第i个主成分方向;t为变换维度,由黄金分割常数确定,t取[0.618p]或者取[0.382p],i为(1,2,…,t)中的任意一个自然数,符号“[]”表示取整;

c4:按照公式(3),对中每一维特征的重要程度fk进行计算。

公式(3)中,下角标k表示中第k维特征,pq是pca算法中第q个主成分的贡献度;公式(4)中的λq是第q个主成分对应的特征值,即的协方差矩阵的第q个最大特征值;aqk是第q个主成分方向aq的第k维分量,|aqk|是aqk的绝对值,||aq||1是aq的1范数。

所述的步骤c1中,采用交叉验证的方式或采用流出的方式进行训练集和测试集划分。

所述的步骤f中,分类器选择svm。

根据权利要求1所述的基于主成分分析的传感器阵列重要特征选择方法得到的阵列优化,还包括步骤h:

h:根据步骤g中挑选出的前d个重要特征,对传感器阵列中的传感器进行分组,分组具体方法为:

选择s种原始特征提取方法,将传感器分为s+1组,分别为:

(第1组)s选传感器组,s选传感器组中s个特征都在d个选定的重要特征中;

(第2组)s-1选传感器组,s-1选传感器组中有s-1个特征在d个选定的重要特征中;

(第3组)s-2选传感器组,s-2选传感器组中有s-2个特征在d个选定的重要特征中;

……

(第s组)1选传感器组,1选传感器组中有1个特征在d个选定的重要特征中;

(第s+1组)0选传感器组,0选传感器组中有s个特征均不在d个选定的重要特征中;

根据系统性能和成本的需要,选择用如下三种方案来构建传感器阵列:

第一种方案:用第1组即s选传感器组来构建传感器阵列,此时构建的传感器阵列中传感器的数目最少,系统成本最低;

第二种方案:用全部被选中特征的传感器组构建传感器阵列,即用第1组到第s组传感器组一起来构建传感器阵列,此时构建的传感器阵列中传感器的数目最多,系统性能最好;

第三种方案:用前t组传感器组来构成传感器阵列,t可以是1到s中的任一值,此时构建的传感器阵列中传感器为系统性能和成本之间平衡的方案。

本发明以原始传感器特征对pca变换空间的贡献度作为评价指标,在原始传感器特征空间内对原始特征进行评价,找到重要的原始特征作为传感器阵列的特征表达,既考虑到数据方差的贡献,又保留了一部分原始传感器特征数据结构,能够起到对传感器阵列特征选择和阵列优化的作用。

附图说明

图1为本发明的流程示意图。

具体实施方式

以下结合附图和实施例对本发明作以详细的描述:

如图1所示,本发明所述的基于主成分分析的传感器阵列重要特征选择方法,依次包括以下步骤:

a:对待选的传感器阵列特征提取方法进行识别性能评估,然后根据评估结果,选择若干种传感器阵列特征提取方法,作为本传感器阵列特征提取方法使用;并将所选择的若干种本传感器阵列特征提取方法所对应的传感器阵列特征作为初始特征。

目前,常用的传感器特征包括最大值、差值、峰面积、最大斜率和相空间等,各种传感器阵列特征均有对应的传感器阵列特征提取方法。为了筛选出对应用场景较为适用的特征,本发明中采用传感器识别性能作为传感器阵列特征评价标准,用于评价各种传感器阵列特征提取方法和传感器阵列特征,以确定合适的本传感器阵列特征提取方法及样本特征。

本实施例中,根据识别率结果,从待选的传感器阵列特征提取方法中,选取识别率高的前若干种传感器阵列特征提取方法,作为本传感器阵列特征提取方法使用。假设样本数据集为d,有m1到m7共7种原始特征提取方法,首先分别使用这7种方法对样本数据集d进行特征提取,得到a1到a7共7个特征数据集。然后根据选定的分类模型c,分别在特征数据集a1到a7上进行识别。由于识别率高的特征就是相对较为合适的原始特征,因此在本发明中,选取识别率较高的前若干种传感器阵列特征作为初始特征;同时,将选取的若干种初始特征所对应的传感器阵列特征提取方法,作为本传感器阵列特征提取方法使用。

b:根据步骤a中得到若干种初始特征,构成初始特征数据集x=[xi,j]p×n,其中,p代表特征维度,n代表样本个数,i是第i维特征,j是第j个样本,i,j均为自然数;

c:对初始特征数据集x进行标准化后做pca变换,计算标准化后的初始特征数据集中每一维特征的重要程度fk;

c1:对初始特征数据集x划分训练集和测试集;

本实施例中,可以采用交叉验证的方式,或采用流出的方式进行训练集和测试集划分。

c2:对训练集中的数据,按照公式(1)进行标准化,最终得到标准化后的初始特征数据集

其中,xi,j是初始特征数据,代表矩阵中的元素即标准化后的初始特征数据,μi是第i维初始特征均值,σi是第i维初始特征标准差;

c3:按照公式(2),对标准化后的初始特征数据集做pca变换;得到经pca变换后的数据集yt×n=[y1,y2,...,yt]t

其中,ai=[ai1,ai2,...,aip]t是第i个主成分方向;t为变换维度,由黄金分割常数确定,t取[0.618p]或者取[0.382p],i为(1,2,…,t)中的任意一个自然数,这里符号“[]”表示取整;

c4:按照公式(3),对中每一维特征的重要程度fk进行计算。

在公式(3)中,下角标k表示中第k维特征,pq是pca算法中第q个主成分的贡献度,其按照公式(4)计算,公式(4)中的λq是第q个主成分对应的特征值,即的协方差矩阵的第q个最大特征值;aqk是第q个主成分方向aq的第k维分量,|aqk|是aqk的绝对值,||aq||1是aq的1范数;

d:按照每一维特征的重要程度fk由大到小的顺序,对标准化后的初始特征进行排序,得到排序列表l;

e:按照排序列表l,依次选取排序列表l中前1个特征、前2个特征、……、前d个特征,构成对应的d个待定特征数据集

本实施例中,第一次选取排序列表l中第1个特征构成对应的待定特征数据集第二次选取排序列表l中第1个特征和第2个特征构成对应的待定特征数据集第三次选取排序列表l中第1个特征、第2个特征和第3个特征构成对应的待定特征数据集按此顺序,第d次选取排序列表l中第1个特征、第2个特征、……、第d个特征构成对应的待定特征数据集

f:基于算法中使用的分类器,分别评估每一个待定特征数据集在分类器下的识别准确率;

本实施例中,分类器可选择svm(支持向量机);遍历d的所有取值,将选取的前1个特征、前2个特征、……、前d个特征所对应的待定特征数据集分别送入分类器svm中进行判决,对应得到d个识别准确率判决结果。

g:从步骤f中得到的d个识别准确率判决结果中,找到最高的准确率判决结果,则该最高的准确率判决结果所对应的序列表l中的前d个特征即为选定的重要特征。

本发明所述的基于主成分分析的传感器阵列优化方法,包括以下步骤:

h:根据步骤g中挑选出的前d个重要特征,对传感器阵列中的传感器进行分组,分组具体方法为:

选择s种原始特征提取方法,将传感器分为s+1组,分别为:

(第1组)s选传感器组,s选传感器组中s个特征都在d个选定的重要特征中;

(第2组)s-1选传感器组,s-1选传感器组中有s-1个特征在d个选定的重要特征中;

(第3组)s-2选传感器组,s-2选传感器组中有s-2个特征在d个选定的重要特征中;

……

(第s组)1选传感器组,1选传感器组中有1个特征在d个选定的重要特征中;

(第s+1组)0选传感器组,0选传感器组中有s个特征均不在d个选定的重要特征中;

根据系统性能和成本的需要,选择用如下三种方案来构建传感器阵列。

第一种方案:用第1组(s选传感器组)来构建传感器阵列,此时构建的传感器阵列中传感器的数目最少,系统成本最低;

第二种方案:用全部被选中特征的传感器组构建传感器阵列,即用第1组到第s组传感器组一起来构建传感器阵列,此时构建的传感器阵列中传感器的数目最多,系统性能最好;

第三种方案:用前t组传感器组来构成传感器阵列,t可以是1到s中的任一值。这是一种在系统性能和成本之间平衡的方案。

与pca技术不同的是,本方法以原始传感器特征对pca变换空间的贡献度作为评价指标,在原始传感器特征空间内对原始特征进行评价,找到重要的原始特征作为传感器阵列的特征表达,既考虑到数据方差的贡献,又保留了一部分原始传感器特征数据结构,能够起到对传感器阵列特征选择和阵列优化的作用。

实施例:现有包含10个传感器的原始传感器阵列(传感器分别编号1到10),要通过气味检测来识别新鲜肉类和腐败肉类。为此,共采集到数据样本600个(其中新鲜肉类样本300个,腐败肉类样本300个),每个数据样本都包含了10个传感器响应曲线。初选最大值、峰面积、最大差值、最大斜率共4种特征提取方法。

a:首先评估各种特征提取方法的性能,即:分别用每一种特征提取方法单独提取特征送入svm分类器进行新鲜肉类和腐败肉类的判别。各方法最好的识别结果为:最大值法的识别率为81%,峰面积法的识别率为75%,最大差值法的识别率为78%,最大斜率法的识别率为61%。由于最大斜率法的识别相对其他3种较低,因此将其排除。

b:用最大值、峰面积、最大差值法对每个传感器响应曲线上提取出特征。每种特征提取方法在一条响应曲线上都提取出1个实数特征,每个数据样本提出的特征可以表示为一个30×1的向量,600个数据样本提取出的初始特征数据集为x=[xi,j]30×600,其中每一行代表一个初始特征变量的观测值,每一列代表一个样本。

c:对初始特征数据集x进行标准化后做pca变换,计算标准化后的初始特征数据集中每一维特征的重要程度fk;

c1:采用10次10折交叉验证的方法随机划分训练集和测试集,即训练集中包括540个样本,测试集中包括60个样本。

c2:对训练集中的数据,按照公式(1)进行标准化,最终得到标准化后的初始特征数据集

c3:按照公式(2),对标准化后的初始特征数据集做pca变换;得到经pca变换后的数据集y19×540=[y1,y2,...,y19]t

c4:按照公式(3),对中每一维特征的重要程度fk进行计算。

d:按照每一维特征的重要程度fk由大到小的顺序,对标准化后的初始特征进行排序,得到排序列表l;

e:按照排序列表l,依次选取排序列表l中前1个特征、前2个特征、……、前30个特征,构成对应的30个待定特征数据训练集

f:基于svm分类器,分别评估每一个待定特征数据集在其对应的测试集上的识别准确率;

g:比较f中30个待定特征数据集的识别率,结果发现最高识别率为94%。该最好结果是由表l中的前15个特征构成的,则该15个特征是本算法选定的适应本检测的重要特征。

h:根据步骤g中挑选出的前15个重要特征,对传感器阵列中的传感器进行分组,情况如下表。

表1各传感器重要特征选择情况

根据系统性能和成本的需要,可以选择用如下三种方案来构建传感器阵列。

第一种方案:用第1组中的2个传感器来构建传感器阵列。经测试,此时用这2个传感器的6个特征可以达到89%的识别率;

第二种方案:用第1组、第2组和第3组中的8个传感器来构建传感器阵列。此时用这8个传感器的15个特征可以达到94%的识别率;

第三种方案:用第1组和第2组中的5个传感器来构建传感器阵列。经测试,此时用这5个传感器的12个特征可以达到92%的识别率。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1