一种白酒图谱的高精度分类识别算法的制作方法

文档序号:16900177发布日期:2019-02-19 17:54阅读:358来源:国知局
一种白酒图谱的高精度分类识别算法的制作方法
本发明涉及数据处理
技术领域
,具体涉及一种白酒图谱的高精度分类识别算法。
背景技术
:近年来,随着中国经济的不断发展不断提高,白酒在人们消费中所占的比重越来越高。我国已经确定形成的白酒香型多达十余种,如浓香型、酱香型、清香型、米香型、芝麻香型、凤香型、药香型、特香型等等。白酒是多种化学成分的混合物,除98%的水和乙醇外,还包括2%的醇、酯、酸、醚类等微量成分,这些微量元素是决定白酒香型的重要物质。随着科学技术的进步,现已发现决定着白酒的香味风格的微量成分约300余种,很多成分能够通过色谱或光谱等技术手段获得能够表示白酒特性的图谱或图像,包括气相色谱法、液相色谱法、气质联用、红外光谱法、电子鼻等方法、目前,在白酒行业,无统一的白酒特性鉴别标准,其划分主要依靠用人体的味觉、视觉等感觉器官判断酒的香型与等级。客观评价主要使用直接法与间接法对白酒的图谱进行分类判别。图谱直接分类判别法,主要对图谱相似度进行计算,通过计算得到的相似度进行分别识别。间接法通过图谱数据进行降维处理,从而实现较少的数据标准描述图谱的特征,通过较少的数据进行分类识别。间接法中主要采用主成分分析对白酒图谱数据进行降维处理,对降维后的数据采用支持向量机进行分类识别。主成分分析主要通过运算将原有的数据变换得到特征维数更少的数据空间,实现冗余数据的简化,然而,白酒中的微量元素以及微量元素之间的比例是决定白酒香型的重要因素,而微量元素在白酒构成中所占比重极小,主成分分析提取的特征主要由比重较大的成分决定,微量元素以及微量元素之间的比例关系映射到特征空间往往是非线性关系,对于非线性关系的特征值采用线性方法聚类并不适用。因此现有方法并不适用于不同香型白酒的精确区分。间接法能实现不同香型、产地、品种的区分,但白酒成分复杂、影响白酒香型的微量元素众多,现用间接法区分能力有限。与本发明相关的现有技术一现有技术一的技术方案主成分分析的实现步骤基于上述主成分分析的基本原理,可以得出主成分分析的计算步骤如下所示:1、数据预处理(1)、将所获得的n个指标(每一指标有m个样品)的一批数据写成一个(m×n)维数据矩阵(2)矩阵a作标准化处理:即对每一个指标分量进行标准化处理从而得到式中,其中,aj为样本均值,sj为样本标准差2、数据主成分特征空间的映射(1)计算样本矩阵的相关系数矩阵r(2)计算r的特征值并由大到小排列λ1,…,λn,即对应的单位正交化特征向量α1,…,αn。(3)选择最大的前k个特征值对的特征向量,构成映射矩阵w=(α1,…αk);(4)计算已标准化的样本数据x通过映射矩阵w在主成分空间的投影y=xw;对投影到主成分空间的样本数据以欧拉距离为判别依据进行分类识别(如采用支持向量机),如主空间的两个点分别为:y1=(y11,…,y1k)、y2=(y21,…,y2k),欧拉距离定义为:现有技术一的缺点上述方法对样本数据直接采用pca提取主要特征信息,通过提取的主要特种能实现香型差异较大的样品酒的区分(如浓香、清香、酱香不同类别之间的区分),但对于香型差异不大(如不同年份浓香白酒),其微量成分与不同微量成分之间构成关系存在非线性关系,却不能有效区分。如图1所示,在第一、二主成分组成的特征空间里,清香型与浓香型能较好的区分,而浓香1与浓香2部分样本混在一起,无法进行有效的区分。另外,在聚类分析中,多采用欧拉距离作为分类的参考量,而欧拉距离受测试误差、环境干扰的影响,容易出现误分。如图2所示,两类香型白酒,其聚类中心分别为b、c。a点应该属于香型1。如果采用欧拉距离作为判别依据,a点分别到香型1聚类中心b与香型2的聚类中心c的距离长度为ab、ac,明显ab>ac,若采用欧拉距离作为判别依据,此时a点被误判为香型2;如果采用余弦角作为聚类分析的依据,a点通过坐标原点0到各类聚类中心的夹角分别为∠aob、∠aoc,此时,∠aob<∠aoc,能正确判断a点属于香型1。技术实现要素:本发明的目的在于解决上述现有技术存在的缺陷,提供一种白酒图谱的高精度分类识别算法,能实现特性微小差异的不同样品酒的区分。本发明采用如下技术方案:一种白酒图谱的高精度分类识别算法,包括以下步骤:步骤1.图谱数据的预处理:(1)将所获得的m个样品白酒图数据,每一个样品白酒包含n个样品数据,写成一个m×n维数据矩阵(2)矩阵a作标准化处理:即对每一个指标分量进行标准化处理,从而得到式中,其中,aj为样本均值,sj为样本标准差步骤2、选定多项式核函数,计算核矩阵的特征值与特征向量(1)选用多项式核函数,k(xi,xj)=(xi×xj+b)a,式中a=2,b=1.5,从而获得核矩阵k(2)计算特征空间对映射数据进行中心化处理后的核矩阵其中,(2)计算的特征值并由大到小排列λ1,…,λn,即对应的单位正交化特征向量α1,…,αn,选择最大的前k个特征值对的特征向量,构成映射矩阵α=(α1,…αk);步骤3.计算已标准化的样本数据x通过映射矩阵α在主成分空间的投影步骤4、对投影到主成分空间的样本数据以欧拉距离为基础采用svm进行分类。步骤5、计算各类的聚类中心到判别阈值t(1)计算各类的聚类中心、各类点与聚类中心的欧拉距离以及欧拉距离的均值和方差;假设某类的有n个样本,其中第i个样本在主成分空间的坐标为yi=[yi1,yi2,,…,yik],则此类的聚类中心坐标为聚类中心坐标值通过下式求得:进一步,可以求出样本到聚类中心的欧拉距离的均值和方差σ;(2)通过欧拉距离的均值和方差σ确定波动较大点的判别阈值t,步骤6、判断各点到聚类中心的欧拉距离是否大于阈值t,如大于t,则该点与奇异,计算该点(假设该点为yg=[yg1,yg2,,…,ygk])到各个聚类中心的余弦角θg;步骤7、选择余弦角最小聚类中心进行聚类,从而实现特性微小差异的不同样品酒间的区分。本发明的有益效果:现有白酒分类方法准确性有限,各品种特征间的微小差异不能准确的判别,本发明能实现特性微小差异的不同样品酒的区分,对白酒的准确鉴定、白酒客观评价标准的建立有极大的推动作用。附图说明图1为白酒图谱主成分聚类分析;图2为欧拉距离与正弦距离示意图;图3为本发明的流程图。具体实施方式为使本发明的目的、技术方案和优点更加清楚,下面本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。如图3所示,本发明的一种白酒图谱的高精度分类识别算法,包括以下步骤:步骤1.图谱数据的预处理:(1)将所获得的m个样品白酒图数据,每一个样品白酒包含n个样品数据,写成一个m×n维数据矩阵(2)矩阵a作标准化处理:即对每一个指标分量进行标准化处理,从而得到式中,其中,aj为样本均值,sj为样本标准差步骤2、选定多项式核函数,计算核矩阵的特征值与特征向量(1)选用多项式核函数,k(xi,xj)=(xi×xj+b)a,式中a=2,b=1.5,从而获得核矩阵k(2)计算特征空间对映射数据进行中心化处理后的核矩阵其中,(3)计算的特征值并由大到小排列λ1,…,λn,即对应的单位正交化特征向量α1,…,αn,选择最大的前k个特征值对的特征向量,构成映射矩阵α=(α1,…αk);步骤3.计算已标准化的样本数据x通过映射矩阵α在主成分空间的投影步骤4、对投影到主成分空间的样本数据以欧拉距离为基础采用svm进行分类。步骤5、计算各类的聚类中心到判别阈值t(1)计算各类的聚类中心、各类点与聚类中心的欧拉距离以及欧拉距离的均值和方差;假设某类的有n个样本,其中第i个样本在主成分空间的坐标为yi=[yi1,yi2,,…,yik],则此类的聚类中心坐标为聚类中心坐标值通过下式求得:进一步,可以求出样本到聚类中心的欧拉距离的均值和方差σ;(2)通过欧拉距离的均值和方差σ确定波动较大点的判别阈值t,步骤6、判断各点到聚类中心的欧拉距离是否大于阈值t,如大于t,则该点与奇异,计算该点(假设该点为yg=[yg1,yg2,,…,ygk])到各个聚类中心的余弦角θg;步骤7、选择余弦角最小聚类中心进行聚类,从而实现特性微小差异的不同样品酒间的区分。测试实验为说明本发明分类的可行性与识别的准确性,选取同一品种不同年份的白酒(年份分别为0、2、3年份各20份样品)进行分类识别。通过声表面波型电子鼻对3种不同年份的酒的图谱特征峰数据进行采集。采用的方法分别为现用的方法技术(如上文所述pca+svm)与本发明识别技术,两种技术正确分类结果的情况如下表所示。从表中可以看出,本发明对同品种不同年份的白酒都实现了正确的划分,而现有方法存在误判。表1不同年代酒的识别正确的个数年份0年2年3年pca+svm181617本发明202020香型差异不大的白酒通过pca降维后,在特征空间往往是线性不可分的,本发明借助核函数的非线性映射方法把数据从原始空间映射到一个高维空间中实现线性区分,从而通过简单的线性判决实现不同香型白酒的区分。特征空间采用的线性判决(如svm)以欧拉距离为判别依据,欧拉距离实际上是两点的直线距离,欧拉距离对测试误差、干扰等较敏感,对于一些波动较大的点往往产生误判。本发明针对此问题对波动较大的点进行检测与识别,进而计算波动点与各类聚类中心的夹角θ,以夹角为依据对波动较大点进行再一次分类判别。最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1