一种模糊协方差矩阵的可能模糊聚类茶叶品种鉴别方法与流程

文档序号:11284034阅读:491来源:国知局
一种模糊协方差矩阵的可能模糊聚类茶叶品种鉴别方法与流程

本发明涉及一种茶叶品种鉴别的方法,具体涉及一种模糊协方差矩阵的可能模糊聚类茶叶品种鉴别方法。



背景技术:

中红外光谱检测技术作为一种快速无损检测技术,近年来应用于食品的检测分析中。中红外光谱的波数范围在4000cm-1~400cm-1之间,大多数的无机化合物和有机化合物的化学键振动的基频均在此区域。不同的分子中官能团、化合物的类别和化合物的立体结构,其红外吸收光谱不尽相同。中红外光谱技术以其方便、快速、高效、无损、低成本等特点成为检测食品和药品的有效检测技术。

聚类的目的是将数据集按照某种相似准则划分为若干个子集。通过聚类方法将大批数据分类为许多本质联系的簇。常见的聚类方法有两种:硬聚类和软(模糊)聚类方法。前者往往应用于聚类边界明显的情况;对于聚类边界不是很清晰的系统采用模糊聚类方法则更为合适。

可能性模糊c-均值聚类(pfcm)必须先运行模糊c-均值聚类(fcm)来计算参数,增加了聚类运算时间。新可能性模糊c-均值聚类(npfcm)聚类方法(武小红,周建江,等.可能性模糊c-均值聚类新算法[j].电子学报,2008.10:1996~2000)解决了pfcm的问题,减少了聚类运算时间同时提高了准确度。但是npfcm聚类方法在处理不规则聚类形状的数据时,使用的是欧氏距离进行计算,聚类准确率会因数据分布的不规则性而受到很大影响,使得聚类结果出现一定的误差。

在使用中红外光谱仪检测采集茶叶的中红外光谱数据后,对数据集聚类时易出现聚类后的数据集呈现不规则的边界,由于npfcm聚类方法采用欧氏距离对分布形状不规则的数据集处理的能力并不理想,因而在处理该类型的茶叶中红外光谱数据时易使准确率降低。本发明在npfcm聚类方法的基础上进行了改进和优化,提出了一种模糊协方差矩阵的可能模糊聚类方法以实现茶叶的品种鉴别。一种模糊协方差矩阵的可能模糊聚类方法在计算聚类时采用了局部自适应距离测度代替了欧氏距离,不仅提高了聚类的准确率而且还减少了聚类运算时间。



技术实现要素:

本发明是针对npfcm聚类方法在聚类分布形状不规则的茶叶红外光谱数据时会存在一定聚类误差的缺陷,提出一种模糊协方差矩阵的可能模糊聚类方法的红外光谱茶叶品种鉴别方法。相比原有的npfcm聚类方法,本发明的一种模糊协方差矩阵的可能模糊聚类方法采用局部自适应距离测度代替欧氏距离,自适应距离测度能通过估算模糊协方差矩阵调整距离测度,从而实现准确聚类不同形状簇数据,能快速有效的聚类茶叶的红外光谱数据,同时可以提高对茶叶品种鉴别的准确率。具有检测速度快,绿色无污染,所需茶叶样本少等优点。

本发明依据的原理:研究表明茶叶的红外漫反射光谱包含了茶叶内部的组分信息,不同品种茶叶所对应的红外漫反射光谱不同。运用主成分分析(pca)压缩茶叶的红外光谱数据,采用线性判别分析(lda)提取红外光谱的鉴别信息,最后用一种模糊协方差矩阵的可能模糊聚类方法鉴别茶叶品种。具体技术方案描述如下:

一种模糊协方差矩阵的可能模糊聚类茶叶品种鉴别方法,包括如下步骤:

步骤一、茶叶样本红外光谱采集:收集若干个品种的茶叶样本,用红外光谱仪获取茶叶样本红外漫反射光谱信息;将茶叶样本分为训练样本和测试样本;设置类别数c,训练样本数nr和测试样本数n;

步骤二、对茶叶样本红外光谱预处理:用多元散射校正msc对茶叶样本红外光谱进行预处理;

步骤三、对茶叶样本红外光谱进行降维处理:利用主成分分析pca将步骤二中获得的茶叶样本红外光谱数据进行压缩;

步骤四、将上述步骤三中获得的茶叶样本红外光谱压缩数据用线性判别分析lda提取鉴别信息后得到包含鉴别信息的训练样本和测试样本数据;

步骤五、对步骤四中包含鉴别信息的测试样本用一种模糊协方差矩阵的可能模糊聚类方法以鉴别测试样本中的茶叶品种。

进一步,所述红外漫反射光谱信息的光谱波数范围为4001.569cm-1~401.1211cm-1,采集茶叶样本的光谱数据为1868维的数据。

进一步,步骤一还包括:采集茶叶的红外漫反射光谱信息过程中保持室内的温度和湿度基本一致。

进一步,c=3。

进一步,步骤五的具体过程包括如下:

(1)初始化:设置权重指数m和p的值,且满足m0(1,+∞)、p∈(1,+∞);d为测试样本的维数;设置迭代次数初始值r=0和最大迭代次数为rmax;设置迭代最大误差参数为ε;对测试样本运行模糊c均值聚类fcm,fcm运行终止后的模糊隶属度和类中心分别作为一种模糊协方差矩阵的可能模糊聚类方法的初始模糊隶属度和初始聚类中心;

(2)计算第r(r=1,2,…,rmax)次迭代时的模糊协方差矩阵sfi,r:

上式中,xk为第k个茶叶红外光谱测试样本,vi,r-1为第r-1次迭代时第i类的类中心(i=1,2,3),uik,r-1为第r-1次迭代时样本xk属于第i类的模糊隶属度,sfi,r是第r次迭代时第i类的模糊协方差矩阵;

(3)计算第r次迭代时的模糊隶属度值uik,r:

上式中为第r-1次迭代时样本xk到类中心vi,r-1的距离,为第r-1次迭代时样本xk到类中心vj,r-1的距离范数(j=1,2,3);

上式中,ai,r是第r次迭代时的第i个聚类中心的范数矩阵;aj,r第r次迭代时的第j个聚类中心的范数矩阵;d为测试样本的维数;vj,r-1为第r-1次迭代时第j类的类中心(j=1,2,3);

(4)计算第r次迭代时的典型值tik,r:

tik,r为第r次迭代时第k个测试样本隶属于第i类的典型值;

(5)计算第r次迭代时的第i类的类中心νi,r:

(6)当(||νi,r-νi,r-1||<ε)或者(r>rmax)时,则计算终止,否则从“(2)计算第r(r=1,2,…,rmax)次迭代时的模糊协方差矩阵sfi,r”重新开始计算;νi,r为第r次迭代时的第i类的类中心值,νi,r-1为第r-1次迭代时的第i类的类中心值;迭代终止后,根据模糊隶属度值和类中心值确定茶叶品种。

本发明的有益效果:

1、与npfcm聚类算法相比较,本发明的一种模糊协方差矩阵的可能模糊聚类算法采用了局部自适应距离测度,解决了npfcm使用欧式距离在处理不规则分布形状的数据集时出现错误聚类问题,提高了了对茶叶数据聚类的准确率。

2、本发明检测速度快,鉴别准确率高,绿色无污染,所需茶叶样本少,可快速实现茶叶品种的鉴别

附图说明

图1是本发明的流程图;

图2是茶叶的红外光谱图;

其中:(a)为正品竹叶青;(b)为劣质竹叶青;(c)为峨眉山毛峰;

图3是msc处理后的茶叶红外光谱图;

图4是茶叶的红外光谱经lda提取鉴别信息后得到的测试样本数据图;

图5是一种模糊协方差矩阵的可能模糊聚类方法产生的模糊隶属度。

具体实施方式

下面结合附图及实施例对本发明作进一步说明。

如图1所示,本发明方法包括如下步骤:

步骤一、茶叶样本红外光谱采集:收集多个品种的茶叶样本,用红外光谱仪获取茶叶样本红外漫反射光谱信息,将光谱信息存储在计算机里。实验过程中保持室内的温度和湿度基本一致;红外漫反射光谱信息的光谱波数范围为4001.569cm-1~401.1211cm-1,采集到每个茶叶样本的光谱是1868维的数据。将茶叶样本分为训练样本和测试样本。设置类别数c(c=3),训练样本数为nr和测试样本数为n。

步骤二、对茶叶样本红外光谱预处理:用多元散射校正(msc)对茶叶样本红外光谱进行预处理。

步骤三、对茶叶样本红外光谱进行降维处理:利用主成分分析(pca)将步骤二中获得的茶叶样本红外光谱数据进行压缩。

步骤四、将上述步骤三中获得的茶叶样本红外光谱压缩数据用线性判别分析(lda)提取鉴别信息后得到包含鉴别信息的训练样本和测试样本数据。

步骤五、对步骤四中包含鉴别信息的测试样本用一种模糊协方差矩阵的可能模糊聚类方法以鉴别测试样本中的茶叶品种。具体过程如下:

(1)初始化:设置权重指数m和p的值,且满足m∈(1,+∞)、p∈(1,+∞);d为测试样本的维数;设置迭代次数初始值r=0和最大迭代次数为rmax;设置迭代最大误差参数为ε。对测试样本运行模糊c均值聚类(fcm),fcm运行终止后的模糊隶属度和类中心分别作为一种模糊协方差矩阵的可能模糊聚类方法的初始模糊隶属度和初始聚类中心;

(2)计算第r(r=1,2,…,rmax)次迭代时的模糊协方差矩阵sfi,r:

上式中,xk为第k个茶叶红外光谱测试样本,vi,r-1为第r-1次迭代时第i类的类中心(i=1,2,3),uik,r-1为第r-1次迭代时样本xk属于第i类的模糊隶属度,sfi,r是第r次迭代时第i类的模糊协方差矩阵。

(3)计算第r次迭代时的模糊隶属度值uik,r:

上式中为第r-1次迭代时样本xk到类中心vi,r-1的距离,为第r-1次迭代时样本xk到类中心vj,r-1的距离范数(j=1,2,3)。

上式中,ai,r是第r次迭代时的第i个聚类中心的范数矩阵;aj,r第r次迭代时的第j个聚类中心的范数矩阵;d为测试样本的维数;vj,r-1为第r-1次迭代时第j类的类中心(j=1,2,3)。

(4)计算第r次迭代时的典型值tik,r:

tik,r为第r次迭代时第k个测试样本隶属于第i类的典型值。

(5)计算第r次迭代时的第i类的类中心νi,r:

(6)当(||νi,r-νi,r-1||<ε)或者(r>rmax)时,则计算终止,否则从“(2)计算第r(r=1,2,…,rmax)次迭代时的模糊协方差矩阵sfi,r”重新开始计算。νi,r为第r次迭代时的第i类的类中心值,νi,r-1为第r-1次迭代时的第i类的类中心值。迭代终止后,根据模糊隶属度值和类中心值确定茶叶品种。

下面结合实例和附图对本发明进一步详细说明。

本发明的一种模糊协方差矩阵的可能模糊聚类的红外光谱茶叶品种鉴别方法适用于对茶叶品种的鉴别。例如:毛尖、竹叶青、龙井、铁观音等茶叶品种的鉴别。因为不同品种茶叶,其内部组分不同,因此漫射红外光谱也有所不同,为实现茶叶品种的鉴别提供了条件。本发明的实施流程图如图1所示。为方便叙述,选取峨眉山茶叶、乐山市优质竹叶青和劣质竹叶青为实验对象。

实施例

步骤一、茶叶样本红外光谱采集:将ftir-7600型傅里叶红外光谱分析仪开机预热1个小时。扫描次数为32,光谱扫描的波数4001.569cm-1~401.1211cm-1,扫描间隔为1.928cm-1,分辨率为4cm-1。三种茶叶样本,峨眉山茶叶、乐山市优质竹叶青和劣质竹叶青。茶叶经研磨粉碎,再用40目筛进行过滤后,各取0.5g分别与溴化钾1:100均匀混合。每个样本取混合物1g进行压膜,然后用光谱仪扫描3次,取3次的平均值作为样本光谱数据。采集环境温度为25℃左右,相对湿度为50%左右,电压为220v。每种茶叶采集32个样本,共获得96个样本。每个样本为一个1868维的数据。每各品种的茶叶样本选取22个为测试集,则测试样本数n为66。剩余10个样本为训练集,则训练样本数nr为30。测试集为待鉴别的茶叶样本,训练集为已知品种的茶叶样本。设置类别数c=3。茶叶样本的红外光谱如图2所示。

步骤二、对茶叶样本红外光谱预处理:用多元散射校正(msc)对茶叶样本红外光谱进行预处理。预处理后的茶叶红外光谱图如图3所示。

步骤三、茶叶样本红外光谱的降维处理:利用主成分分析(pca)将在步骤二中获得的茶叶样本红外光谱数据压缩。因为前14个主成分累计可信度大于98%,所以采用主成分分析方法(pca)将茶叶样本红外光谱进行特征分解得到前14个特征向量和14个特征值。每个特征向量都是1868维的数据,特征值具体如下

λ1=293.91;λ2=129.02;λ3=19.00;λ4=14.88;λ5=6.43;

λ6=3.82;λ7=2.00;λ8=1.43;λ9=1.07;λ10=0.63;

λ11=0.40;λ12=0.32;λ13=0.27;λ14=0.23;

将茶叶样本红外光谱投影到14个特征向量上得到14维的数据,即从1868维压缩到14维。

步骤四、将上述步骤三中获得的茶叶样本红外光谱压缩数据用线性判别分析(lda)提取鉴别信息后得到包含鉴别信息的训练样本和测试样本数据。

鉴别向量数为2,采用线性判别分析(lda)提取步骤三中14维数据的鉴别信息后得到包含鉴别信息的训练样本和测试样本数据,其中测试样本数据如图4所示。

步骤五、对步骤四中包含鉴别信息的测试样本采用一种模糊协方差矩阵的可能模糊聚类方法以鉴别测试样本中的茶叶品种。具体如下:

(1)初始化:设置权重指数m和p的值,且满足m∈(1,+∞)、p∈(1,+∞);d为测试样本的维数;设置迭代次数初始值r=0和最大迭代次数为rmax;设置迭代最大误差参数ε;对测试样本运行模糊c均值聚类(fcm),fcm运行终止后的模糊隶属度和类中心分别作为一种模糊协方差矩阵的可能模糊聚类方法的初始模糊隶属度和初始聚类中心;

初始化的数值设置:由步骤一可知:类别数c=3(即三个类别),测试样本数n=66。设置权重指数m=2,p=2,迭代次数初始值r=0和最大迭代数rmax=100,误差上限值ε=0.00001,测试样本的维数d为2。对步骤四的两组一维测试数据进行模糊c均值聚类(fcm),fcm运行终止后的聚类中心作为一种模糊协方差矩阵的可能模糊聚类方法初始聚类中心,则一种模糊协方差矩阵的可能模糊聚类方法的初始聚类中心为:v1,0=(-0.1580,0.0403),v2,0=(-0.0020,0.0049),v3.0=(0.1194,-0.0056);

(2)计算第r(r=1,2,…,rmax)次迭代时的模糊协方差矩阵sfi,r:

上式中,xk为第k个茶叶红外光谱测试样本,vi,r-1为第r-1次迭代时第i类的类中心(i=1,2,3),uik,r-1为第r-1次迭代时样本xk属于第i类的模糊隶属度,sfi,r是第r次迭代时第i类的模糊协方差矩阵。

(3)计算第r次迭代时的模糊隶属度值uik,r:

上式中为第r-1次迭代时样本xk到类中心vi,r-1的距离,为第r-1次迭代时样本xk到类中心vj,r-1的距离范数(j=1,2,3),vj,r-1为第r-1次迭代时第j类的类中心(j=1,2,3)。

上式中,ai,r是第r次迭代时的第i个聚类中心的范数矩阵;d为测试样本的维数。

(4)计算第r次迭代时的典型值tik,r:

tik,r为第r次迭代时第k个测试样本隶属于第i类的典型值。

(5)计算第r次迭代时的第i类的类中心νi,r:

(6)当(||νi,r-νi,r-1||<ε)或者(r>rmax)时,则计算终止,否则从“(2)计算第r(r=1,2,…,rmax)次迭代时的模糊协方差矩阵sfi,r”重新开始计算。νi,r为第r次迭代时的第i类的类中心值,νi,r-1为第r-1次迭代时的第i类的类中心值。

实验结果:迭代终止时r=64,vi,64为:v1,64=(-0.1645,0.0302);v2,64=(0.0031,0.0051);v3,64=(0.1245,0.0032);迭代终止时模糊隶属度uik,64如图5所示。根据模糊隶属度可得测试样本的鉴别准确率达94%。

上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明,它们并非用以限制本发明的保护范围,凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1