一种模糊线性机器学习的茶叶品种分类方法

文档序号:25042558发布日期:2021-05-14 11:10阅读:116来源:国知局
一种模糊线性机器学习的茶叶品种分类方法

1.本发明涉及模糊线性机器学习以及人工智能领域,具体涉及到一种模糊线性机器学习的茶叶品种分类方法。


背景技术:

2.我国有着悠久的茶文化历史,茶叶中含有的茶多酚、咖啡碱和可溶性固形物等化学成分有益于身体健康。目前,中国的茶叶市场相对混乱,特别是名优茶市场,以次充好和以假乱真的现象比较严重,这既损害了消费者的利益,也不利于中国茶叶品牌的保护。近红外光谱检测技术具有快速、无损的特点,因此,利用近红外光谱技术对茶叶进行快速准确的分类是必要的。基于线性机器学习能够将大量光谱信息进行分类整理,将信息得到简化的优点,故在线性机器学习的基础上利用近红外光谱检测技术对茶叶进行分类。同时,这种技术也可以应用于其他农作物,具有极大的研究意义和价值。
3.近红外光谱是一种介于可见光和中红外光之间的电磁波,波长为750~2500nm之间的光谱区。近红外光谱为分子振动光谱的倍频和组合频谱带,主要指含氢基团的吸收,包含了绝大多数有类型机物组成和分子结构的丰富信息,同时具有无损性、成本低、检测速度快等优点,因此广泛作为一种检测技术应用于农副产品检测领域。根据不同品种茶叶具有不同的近红外光谱,为茶叶分类提供了可能。
4.模糊线性判别分析(flda)在模糊集的基础上,将高维度的空间样本投影到低维度空间上,使得样本按照类内距离最小,类间距离最大规则而实现分类的效果,能够有效地提取样本的鉴别信息。
5.聚类算法分为两大类,第一类算法是硬聚类算法例如k均值聚类算法等,将一个数据集分为不同的类,每个样本只属于某一类。第二类为模糊聚类算法,该算法允许一个样本属于多类,用模糊隶属度来衡量样本隶属于某类的程度。模糊c均值聚类算法(fcm)建立在平方误差最小准则基础上的模糊聚类算法,使某样本在所有类中模糊隶属度之和为1,有效地避免了所有隶属度为0的解,但由于fcm对噪声数据敏感,因此不准确的隶属度会影响聚类中心的位置从而影响模糊隶属度的值,降低了聚类准确率。


技术实现要素:

6.为了解决现有技术中存在的不足,本发明提出了一种模糊线性机器学习的茶叶品种分类方法,通过奇异值分解等计算方法计算变换矩阵,以提取茶叶近红外光谱的鉴别信息;接着采用能够聚类包含噪声数据,使噪声数据具有很小隶属度值,基于p范数距离测度的一种模糊聚类算法以消除噪声数据对聚类的影响。
7.本发明所采用的技术方案如下:
8.一种模糊线性机器学习的茶叶品种分类方法,包括以下步骤:
9.s1,采集待分类茶叶样本的近红外光谱数据;
10.s2,用多元散射校正(msc)对所采集的近红外光谱数据进行校正处理;
11.s3,从s2处理后的近红外光谱数据提取茶叶近红外光谱模糊鉴别信息;
12.s4,建立模糊聚类目标函数和约束条件,采用基于p范数距离测度的模糊聚类方法迭代更新茶叶的模糊隶属度值,根据所得到的模糊隶属度值对茶叶进行分类。
13.进一步,提取茶叶近红外光谱模糊鉴别信息的方法为:
14.s3.1,初始化参数:训练样本数为n1、测试样本数为n2、权重指数为m,类别数为c;
15.s3.2,计算第k个训练样本隶属于第i类的模糊隶属度μ
ik

16.s3.3,一种模糊隶属度μ
ik
计算模糊类间离散度矩阵s
fb
和模糊类内离散度矩阵s
fw
;对糊类间离散度矩阵s
fb
和模糊类内离散度矩阵s
fw
之和进行奇异值分解得到特征矩阵u;
17.s3.4,基于特征矩阵u,计算优化变换矩阵g;
18.s3.5,利用变换矩阵g对分别对第t个测试样本和第k个训练样本进行变换得到和y
k

19.s3.6,利用线性判别分析分别将测试样本和测试样本y
k
转化为测试样本和z
k

20.进一步,所述糊类间离散度矩阵s
fb
和模糊类内离散度矩阵s
fw
表示为:
[0021][0022][0023]
其中,为在权重指数为m的第k个训练样本隶属于第i类的模糊隶属度;为所有训练样本采集的近红外光谱数据的均值,x
k
为第k个训练样本采集到的近红外光谱数据;v
i
指训练样本中第i类茶叶近红外光谱数据的均值,i=1,2,...,c。
[0024]
进一步,所述优化变换矩阵g表示为:
[0025]
g=uqm
[0026]
其中,q表示对矩阵进行特征分解,由非零特征值所对应的特征向量组成的矩阵;m表示对进行特征分解得到的非零特征值所对应的特征向量组成矩阵;且
[0027]
进一步,s3.5中和y
k
分别表示为:y
k
=x
k
g,其中,是基于矩阵g进行变换后待分类的样本数据;y
k
是基于矩阵g进行变换后的训练样本数据。
[0028]
进一步,所述模糊聚类目标函数表示为:
[0029][0030]
其中,j(μ
it
,v
i
)为目标函数,为在权重指数m
f
下第t个测试样本z
t
隶属于第i(1≤i≤c)类的模糊隶属度;η
i
为第i类的参数值,μ
it
为第t个测试样本隶属于第i类的模糊隶属度,γ
i
是第i类的类中心,权重指数m
f

[0031]
进一步,约束条件表示为:指数p>1。
[0032]
进一步,设定迭代次数,根据模糊聚类目标函数和约束条件分别计算模糊隶属度值μ
it
和类中心γ
i
;其中,模糊隶属度表示为:
[0033][0034]
类中心表示为:
[0035][0036]
第i类的参数值η
i
计算如下:
[0037][0038]
其中,在权重指数m下运行模糊c均值聚类(fcm)后得到的第t个测试样本隶属于第i类的模糊隶属度值和v
i,fcm
是运行fcm后得到的类中心。
[0039]
进一步,用傅里叶近红外光谱仪对茶叶样本进行检测,获取茶叶样本近红外漫反射光谱数据。
[0040]
进一步,每个样本采样3次,3次平均值作后续实验样本的数据。
[0041]
本发明的有益效果:
[0042]
本发明所设计的分类方法能够解决传统模糊线性判别分析的小样本问题,通过设计一种模糊线性机器学习的茶叶品种分类方法,通过奇异值分解等计算方法计算变换矩阵,以提取茶叶近红外光谱的鉴别信息。接着采用能够聚类包含噪声数据,使噪声数据具有很小隶属度值,基于p范数距离测度的一种模糊聚类算法以消除噪声数据对聚类的影响。
[0043]
另外,本发明的类方法通过模糊鉴别信息提取方法提取茶叶近红外光谱的鉴别信息,同时将数据空间进行转换。
附图说明
[0044]
图1是本发明的流程图;
[0045]
图2是茶叶的近红外光谱图;
[0046]
图3是多元散射校正后的茶叶近红外光谱图;
[0047]
图4是初始模糊隶属度图;
[0048]
图5是迭代收敛后的模糊隶属度图;
[0049]
图6是带有类中心的测试样本分布图。
具体实施方式
[0050]
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用于解释本发明,并不用于限定本发明。
[0051]
如图1所示的一种模糊线性机器学习的茶叶品种分类方法,包括如下步骤:
[0052]
s1,采集待分类茶叶样本的近红外光谱数据:用傅里叶近红外光谱仪对茶叶样本进行检测,获取茶叶样本近红外漫反射光谱数据,将光谱数据存储在计算机里。
[0053]
采集岳西翠兰、六安瓜片、施集毛峰三种茶叶,每种茶叶各具抽取65个样本,共采集195个样本。所有茶叶经研磨粉粹后经40目筛过滤。在每一个品种的茶叶中,随机称取5g作为一个样本,实验室的温度和相对温度保持不变。antarisⅱ型ft

nir光谱仪开机预热1小时。采用反射积分球模式采集茶叶近红外光谱,每个茶叶样品扫描32次。光谱波长范围是4000~10000cm
‑1,扫描的光谱波数间隔为3.587cm
‑1,采集的茶叶光谱数据维数为1557维。每个样本采样3次,3次平均值作后续实验样本的数据。采集地3种茶叶样本的ft

nir图如图2所示。
[0054]
s2,用多元散射校正(msc)对所采集的近红外光谱数据进行校正处理;校正后的茶叶样本ft

nir图如图3所示。
[0055]
将校正后的近红外光谱数据分成两个部分,每种茶叶各抽43个样本的近红外光谱数据组成茶叶样本训练集,茶叶样本训练集中的近红外光谱数据总数为n1=3*43=129;每种茶叶各剩余的22个样本的近红外光谱数据组成茶叶样本测试集,茶叶样本测试集中的近红外光谱数据总数为n2=3*22=66。
[0056]
s3,提取茶叶近红外光谱模糊鉴别信息,具体步骤如下:
[0057]
s3.1,初始化:训练样本数为n1、测试样本数为n2、权重指数为m,类别数为c;在本实施例中,m=2,c=3。
[0058]
s3.2,计算第k个训练样本隶属于第i(1≤i≤c)类的模糊隶属度μ
ik

[0059][0060]
其中,v
i
指训练样本中第i类茶叶近红外光谱数据的均值,i=1,2,...,c;v
j
为训练样本中第j类茶叶近红外光谱数据的均值,j=1,2,...,c;x
k
为训练样本中第k个茶叶近红外光谱数据,k=1,2,...,n1。基于上式所示,初始模糊隶属度如图4所示。
[0061]
s3.3,计算模糊类间离散度矩阵s
fb
和模糊类内离散度矩阵s
fw

[0062][0063][0064]
其中,为在权重指数为m的第k个训练样本隶属于第i(1≤i≤c)类的模糊隶属
度;为所有训练样本采集的近红外光谱数据的均值,x
k
为第k个训练样本采集到的近红外光谱数据;
[0065]
基于模糊类间离散度矩阵s
fb
和模糊类内离散度矩阵s
fw
分别计算出
[0066][0067][0068]
其中,是新变换的矩阵;u为对模糊类间离散度矩阵与模糊类内离散度矩阵之和进行奇异值分解得到非零特征值所对应的特征向量组成的特征矩阵。
[0069]
s3.4,基于s3.3中得到的u,计算优化变换矩阵g:
[0070]
g=uqm
[0071]
其中,q表示对矩阵进行特征分解,由非零特征值所对应的特征向量组成的矩阵。m表示对进行特征分解得到的非零特征值所对应的特征向量组成矩阵。
[0072]
s3.5,分别对第t(t=1,2,...,n2)个测试样本和第k个训练样本进行如下变换,得到和y
k

[0073][0074]
y
k
=x
k
g
[0075]
其中,是基于矩阵g进行变换后待分类的样本数据;y
k
是基于矩阵g进行变换后的训练样本数据;
[0076]
s3.6,利用线性判别分析(lda)分别将测试样本和测试样本y
k
转化为测试样本和z
k

[0077]
s4,采用基于p范数距离测度的模糊聚类方法对s3.6中的测试样本z
t
进行分类,具体步骤如下:
[0078]
s4.1,建立模糊聚类目标函数:
[0079][0080]
其中,j(μ
it
,v
i
)为目标函数,为在权重指数m
f
下第t个测试样本z
t
隶属于第i(1≤i≤c)类的模糊隶属度;η
i
为第i类的参数值,μ
it
为第t个测试样本隶属于第i类的模糊隶属度,γ
i
是第i类的类中心。权重指数m
f
,这里m
f
=1.6。
[0081]
约束条件:指数p>1。
[0082]
其中,μ
it
为第t个测试样本隶属于第i类的模糊隶属度值。
[0083]
第i类的参数值η
i
计算如下:
[0084][0085]
其中,在权重指数m下运行模糊c均值聚类(fcm)后得到的第t个测试样本隶属于第i类的模糊隶属度值和v
i,fcm
是运行fcm后得到的类中心。迭代次数为100次。
[0086]
s4.2,根据上述目标函数和约束条件分别计算模糊隶属度值μ
it
和类中心γ
i

[0087]
模糊隶属度:
[0088][0089]
类中心:
[0090][0091]
当迭代次数为100次时,根据计算得到的模糊隶属度值对茶叶近红外光谱进行分类。三类茶叶的样本的类中心为图6中三个较大标签所在位置。
[0092]
基于p范数距离测度的模糊隶属度值为图5,测试样本数据分类情况如图6。
[0093]
以上实施例仅用于说明本发明的设计思想和特点,其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施,本发明的保护范围不限于上述实施例。所以,凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰,均在本发明的保护范围之内。
[0094]
以上实施例仅用于说明本发明的设计思想和特点,其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施,本发明的保护范围不限于上述实施例。所以,凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰,均在本发明的保护范围之内。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1