基于类别分析法的近红外光谱物质含量索引方法、设备及介质与流程

文档序号:11407481阅读:372来源:国知局

本发明涉及近红外光谱中的定量分析技术领域,具体涉及基于大数据分析技术,使用基于类别分析法的近红外光谱物质含量索引方法(即不通过传统化学计量学建立回归模型的方法)来预测物质含量信息,从而解决仪器之间的台间差问题。



背景技术:

近红外光(nir)是介于紫外-可见光(uv-vis)和中红外(mir)之间的电磁波,其波长范围为700~2500nm。近红外光能反映含氢基团x—h(如c—h、n—h、o—h等)振动的倍频和合频吸收,不同基团(如甲基、亚甲基、苯环等)或同一基团在不同化学环境中的近红外光吸收波长与强度都有明显差别。因此,近红外光非常适用于含氢有机物质的物化参数测量。基于现代化学计量学方法,近红外光谱既可以用于定量分析也可以用于定性分析。

其中,针对定量分析,该技术应用实施过程中需要前期进行一些必要的准备工作,包括:

(1)具有广泛代表性的定标和预测样品集的收集和成份理化定量分析;

(2)定标和预测样品集的近红外光谱采集和光谱解析;

(3)将物质待测理化成份的与(2)中所采光谱建立回归模型(定标模型);

(4)使用已有定标模型对未知理化成份含量的物质光谱进行实际预测分析。

(2)中,由于制造工艺(同一批仪器,或不同批的仪器,由于制造工艺的细微差别而导致的台间差),环境(仪器受当前环境影响,如温度、湿度等,导致对同一样本获得不同的结果),仪器损耗(由于使用年限及仪器本身的使用损耗,导致不同仪器之间存在台间差)等问题,使得同一型号同一批次的近红外光谱仪,对同一样本所测量的近红外光谱数据都存在差异,即台间差问题。从而导致(3)中由一台仪器建立的定标模型无法直接在其他仪器上使用。

目前,由于使用该技术的组织或个人大多只使用单台或少量近红外光谱仪进行分析模型的建立,因此,有关台间差问题可使用现代化学计量学中的模型传递方法解决。包括:

1.通过变量的筛选、微分、正交信号校正等预处理方法,和在不同环境测量条件下扩充校正模型以及采用稳健回归等方式过滤光谱中的噪声信息,融合多个局部模型,提高模型抗噪声的能力,已达到校正模型较高的可靠性,鲁棒性的目的。

2.通过数学方法(如直接校正算法,分段直接校正算法,shenk’s算法等)建立从机(需使用已有定标模型的仪器)和主机(用于建立定标模型的仪器)所测光谱,模型参数,或预测结果之间的函数关系,由此实现模型传递。

模型传递方法虽广泛地应用到台间差问题上,但普遍存在以下缺点:(1)校正计算量过多,无法实现大量模型转移。(2)需要大量的校正样品,支撑模型传递。(3)缺乏动态变化,一旦仪器校正后,模型已经固定。而仪器随着时间的消耗使模型不再准确。(4)用户参与度低,用户与商家的关系只限于买卖关系。因此,当仪器量剧增时,模型传递的方法很难实现,近红外光谱技术也因而无法大批量推广使用。



技术实现要素:

为了克服现有技术的不足,本发明的目的之一在于提供一种基于类别分析法的近红外光谱物质含量索引方法,其通过对海量样本进行深度挖掘,用类别分析法代替回归分析,从而有效解决台间差问题,实现在不使用模型传递的情况下实现同类仪器间的模型共用。

本发明的目的之二在于提供一种电子设备,其通过对海量样本进行深度挖掘,用类别分析法代替回归分析,从而有效解决台间差问题,实现在不使用模型传递的情况下实现同类仪器间的模型共用。

本发明的目的之三在于提供一种计算机可读存储介质,其通过对海量样本进行深度挖掘,用类别分析法代替回归分析,从而有效解决台间差问题,实现在不使用模型传递的情况下实现同类仪器间的模型共用。

本发明的目的之一采用以下技术方案实现:

一种基于类别分析法的近红外光谱物质含量索引方法,包括以下步骤:

构建仪器画像步骤:通过仪器画像获取特征信息,并将所述特征信息划分多个标签,获取每个标签的标签权重;

含量索引步骤:通过类别分析法创建含量索引表,得到成分含量的分类模型,并根据成分含量的分类模型以及对应的标签权重得到物质成分含量的含量预测值;

梯度预测步骤:根据所述含量预测值建立梯度预测值,推送给用户。

进一步地,所述构建仪器画像步骤包括以下步骤:

步骤11、针对样品中某一种成分的含量,从样品中选取n个样本,并选取m台仪器;

步骤12、通过理化检测获取所述n个样本中该种样品的成分含量,分别记作:y1、y2、…、yn;

步骤13、使用每台仪器对每个样本进行光谱扫描,得到t个标签,每个标签包括n*m个值;

步骤14、对于第1个标签,将扫描每个样本时的特征值作为因变量,将成分含量作为自变量,通过随机方式对数据进行第一训练集和第一测试集的划分;

步骤15、基于第一训练集,使用最小二乘法建立回归模型,使用所述回归模型对第一测试集中的特征值进行计算得到预测的成分含量值;

步骤16、将第一测试集中的预测的成分含量值与对应的真实成分含量进行比较,求出预测标准偏差sep;

步骤17、重复步骤14-16,直至所有的标签对应的预测标准偏差都计算完毕,计算得到的预测标准偏差sep分别记作s1、s2、…、st;

步骤18、通过步骤12计算得到该种样品的成分含量均值y0=(y1+y2+…+yn)/n;

步骤19、结合步骤17和步骤18得到每个标签的标签权重,每个标签的标签权重分别记作w1、w2、…、wt,其中:

步骤110、根据所述标签权重生成该种成本含量的权重向量(w1,w2,…,wt)。

进一步地,所述含量索引步骤包括以下步骤:

步骤21、依据样品的不同条件将样品分为不同类别;所述样品的不同条件包括样品的品种、生长环境、产地、收集时间、供应商、处理方式;

步骤22、对步骤21中所分的第一类别,以仪器画像中的t个标签作为用于含量索引的一系列属性值(a1,a2,…,an),以样品的成分含量作为索引结果的记录值,即所述记录值为y1、y2、…、yn;

步骤23、以步骤22中t个系列属性值(a1,a2,…,an)*t作为自变量,记录值(y1,y2,…,yn)作为因变量,并通过随机的方式对数据进行第二训练集和第二测试集的划分;

步骤24、对于第一个系列属性值,基于第二训练集,建立四种分类模型,该四种分类模型对应的算法分别为k-最邻近法、逻辑回归分类法、支持向量机分类法、随机森林分类法;

步骤25、将这四种算法所创立的分类模型对第二测试集进行类别预测,并计算分类准确率rate1,rate2,rate3,rate4=预测类别正确个数/训练集记录数*100%;

步骤26、重复步骤24-25,直至所有t个标签的分类准确率rate((r1,r2,r3,r4)*t)均计算完毕,定义第一个标签的分类准确率为r11、r21、r31和r41;第二个标签的分类准确率为r12、r22、r32和r42,定义第i个标签的分类准确率为r1i、r2i、r3i和r4i,第t个标签的分类准确率为r1t、r2t、r3t和r4t;

步骤27、通过使用仪器画像中的权重向量,求出准确率最高rmax的分类算法,并将通过准确率最高rmax的分类算法创建的分类模型作为第一种类别所对应最优的样品成分含量的分类模型;其中:

sum([r11,r12,…,r1t]*(w1,w2,…,wt))=r1;

sum([r21,r22,…,r2t]*(w1,w2,…,wt))=r2;

sum([r31,r32,…,r3t]*(w1,w2,…,wt))=r3;

sum([r41,r42,…,r4t]*(w1,w2,…,wt))=r4;

rmax=max(r1,r2,r3,r4);

步骤28、重复步骤22-27,直至求得每个类别所对应最优的样品成分含量的分类模型(crmax1,crmax2,crmax3,…,crmaxt)。

所述梯度预测步骤包括以下步骤:步骤31、对于某类别物质,若存在某成分含量分类模型(crmax1,crmax2,crmax3,…,crmaxt),及标签权重(w1,w2,…,wt),可对未知含量的同类别物质进行光谱采集,得到一系列用于预测仪器画像标签;

步骤32、通过步骤31中的t个分类模型(crmax1,crmax2,crmax3,…,crmaxt)、标签权重(w1,w2,…,wt)与其对应的t个标签,求取t个样品的成分含量对应的类别记录(c1,c2,…,ct),其中:

使用第一个分类模型crmax1对第一个标签进行预测分析,得到第一个标签的类别记录c1,

使用第二个分类模型crmax2对第二个标签进行预测分析,得到第一个标签的类别记录c2,

使用第t个分类模型crmaxt对第t个标签进行预测分析,得到第t个标签的类别记录ct,

步骤33、对所述类别记录进行加权分析,求出类别记录组合,从而获得一组由优至劣的含量预测值ypredict,其中:

ypredict=[c1w1,c2w2,…,ctwt].sort(reverse=true);

该含量预测值ypredict中最好的预测值ybest=max[c1w1,c2w2,…,ctwt];

步骤34、从所述含量预测值ypredict选取前x个值建立梯度预测值yx推送给用户,所述x为用户接收推荐值数量,yx=(y1',y2',…,yx'),其中,y1'为含量预测值ypredict的最大值;y2'为含量预测值ypredict中除y1'外的最大值。

进一步地,所述方法还包括索引优化步骤:依据用户从梯度预测值中选择的特定预测值,对所述含量索引表进行更新;

所述索引优化步骤包括以下步骤:

步骤41、以y0'为记录值,以用户检测时的仪器画像作为系列属性值(a1,a2,…,an),所述y0'为用户从yx=(y1',y2',…,yx')中选择的任意一个;

步骤42、将y0'和系列属性值(a1,a2,…,an)加入到该类别样品的该种成分的记录值和属性值中,重复步骤2,求得对应的分类模型,完成该类别样品的该种成分的仪器画像、分类模型和记录值的更新,更新后可被用于样品成分含量的预测。

本发明的目的之二采用以下技术方案实现:

一种电子设备,包括:一个或多个处理器;存储器;以及一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成有一个或多个处理器执行,所述程序包括用于执行以下方法的步骤:

构建仪器画像步骤:通过仪器画像获取特征信息,并将所述特征信息划分多个标签,获取每个标签的标签权重;

含量索引步骤:通过类别分析法创建含量索引表,得到成分含量的分类模型,并根据成分含量的分类模型以及对应的标签权重得到物质成分含量的含量预测值;

梯度预测步骤:根据所述含量预测值建立梯度预测值,推送给用户。

进一步地,所述构建仪器画像步骤包括以下步骤:

步骤11、针对样品中某一种成分的含量,从样品中选取n个样本,并选取m台仪器;

步骤12、通过理化检测获取所述n个样本中该种样品的成分含量,分别记作:y1、y2、…、yn;

步骤13、使用每台仪器对每个样本进行光谱扫描,得到t个标签,每个标签包括n*m个值;

步骤14、对于第1个标签,将扫描每个样本时的特征值作为因变量,将成分含量作为自变量,通过随机方式对数据进行第一训练集和第一测试集的划分;

步骤15、基于第一训练集,使用最小二乘法建立回归模型,使用所述回归模型对第一测试集中的特征值进行计算得到预测的成分含量值;

步骤16、将第一测试集中的预测的成分含量值与对应的真实成分含量进行比较,求出预测标准偏差sep;

步骤17、重复步骤14-16,直至所有的标签对应的预测标准偏差都计算完毕,计算得到的预测标准偏差sep分别记作s1、s2、…、st;

步骤18、通过步骤12计算得到该种样品的成分含量均值y0=(y1+y2+…+yn)/n;

步骤19、结合步骤17和步骤18得到每个标签的标签权重,每个标签的标签权重分别记作w1、w2、…、wt,其中:

步骤110、根据所述标签权重生成该种成本含量的权重向量(w1,w2,…,wt)。

进一步地,所述含量索引步骤包括以下步骤:

步骤21、依据样品的不同条件将样品分为不同类别;所述样品的不同条件包括样品的品种、生长环境、产地、收集时间、供应商、处理方式;

步骤22、对步骤21中所分的第一类别,以仪器画像中的t个标签作为用于含量索引的一系列属性值(a1,a2,…,an),以样品的成分含量作为索引结果的记录值,即所述记录值为y1、y2、…、yn;

步骤23、以步骤22中t个系列属性值(a1,a2,…,an)*t作为自变量,记录值(y1,y2,…,yn)作为因变量,并通过随机的方式对数据进行第二训练集和第二测试集的划分;

步骤24、对于第一个系列自变量,基于第二训练集,建立四种分类模型,该四种分类模型对应的算法分别为k-最邻近法、逻辑回归分类法、支持向量机分类法、随机森林分类法;

步骤25、将这四种算法所创立的分类模型对第二测试集进行类别预测,并计算分类准确率rate1,rate2,rate3,rate4=预测类别正确个数/训练集记录数*100%;

步骤26、重复步骤24-25,直至所有t个标签的分类准确率rate((r1,r2,r3,r4)*t)均计算完毕,定义第一个标签的分类准确率为r11、r21、r31和r41;第二个标签的分类准确率为r12、r22、r32和r42,定义第i个标签的分类准确率为r1i、r2i、r3i和r4i,第t个标签的分类准确率为r1t、r2t、r3t和r4t;

步骤27、通过使用仪器画像中的权重向量,求出准确率最高rmax的分类算法,并将通过准确率最高rmax的分类算法创建的分类模型作为第一种类别所对应最优的样品成分含量的分类模型;其中:

sum([r11,r12,…,r1t]*(w1,w2,…,wt))=r1;

sum([r21,r22,…,r2t]*(w1,w2,…,wt))=r2;

sum([r31,r32,…,r3t]*(w1,w2,…,wt))=r3;

sum([r41,r42,…,r4t]*(w1,w2,…,wt))=r4;

rmax=max(r1,r2,r3,r4);

步骤28、重复步骤22-27,直至求得每个类别所对应最优的样品成分含量的分类模型(crmax1,crmax2,crmax3,…,crmaxt)。

进一步地,所述程序还包括用于执行以下方法的步骤:

索引优化步骤:依据用户从梯度预测值中选择的特定预测值,对所述含量索引表进行更新;

所述梯度预测步骤包括以下步骤:

步骤31、对于某类别物质,若存在某成分含量分类模型(crmax1,crmax2,crmax3,…,crmaxt),及标签权重(w1,w2,…,wt),可对未知含量的同类别物质进行光谱采集,得到一系列用于预测仪器画像标签;

步骤32、通过步骤31中的t个分类模型(crmax1,crmax2,crmax3,…,crmaxt)、标签权重(w1,w2,…,wt)与其对应的t个标签,求取t个样品的成分含量对应的类别记录(c1,c2,…,ct),其中:

使用第一个分类模型crmax1对第一个标签进行预测分析,得到第一个标签的类别记录c1,

使用第二个分类模型crmax2对第二个标签进行预测分析,得到第一个标签的类别记录c2,

使用第t个分类模型crmaxt对第t个标签进行预测分析,得到第t个标签的类别记录ct,

步骤33、对所述类别记录进行加权分析,求出类别记录组合,从而获得一组由优至劣的含量预测值ypredict,其中:

ypredict=[c1w1,c2w2,…,ctwt].sort(reverse=true);

该含量预测值ypredict中最好的预测值ybest=max[c1w1,c2w2,…,ctwt];

步骤34、从所述含量预测值ypredict选取前x个值建立梯度预测值yx推送给用户,所述x为用户接收推荐值数量,yx=(y1',y2',…,yx'),其中,y1'为含量预测值ypredict的最大值;y2'为含量预测值ypredict中除y1'外的最大值;

所述索引优化步骤包括以下步骤:

步骤41、以y0'为记录值,以用户检测时的仪器画像作为系列属性值(a1,a2,…,an),所述y0'为用户从yx=(y1',y2',…,yx')中选择的任意一个;

步骤42、将y0'和系列属性值(a1,a2,…,an)加入到该类别样品的该种成分的记录值和属性值中,重复步骤2,求得对应的分类模型,完成该类别样品的该种成分的仪器画像、分类模型和记录值的更新,更新后可被用于样品成分含量的预测。

本发明的目的之三采用以下技术方案实现:

一种计算机可读存储介质,其存储用于计算机程序,其中,所述计算机程序使得计算机执行上述的基于类别分析法的近红外光谱物质含量索引方法。

相比现有技术,本发明的有益效果在于:。

为解决以上提到仪器数量剧增时产生的一系列问题,发明一种基于大数据的近红外光谱物质含量索引技术。该发明采取对海量样本进行深度挖掘的思想,用类别分析法代替回归分析,并结合互联网+理念,从而有效解决台间差问题,实现在不使用模型传递的情况下实现同类仪器间的模型共用。

由于仪器处于不同环境,以及仪器自身的内部损耗等诸多问题,模型在检测仪器的整个生命周期都可能是一个动态变化的过程,所以需根据仪器自状况,结合用户反馈信息,建立起一个能自主学习、不断成长的新型光谱检测体系。从而打破企业与用户传统的仪器售卖关系,以光谱检测为渠道,建立起与用户的长期关联,让用户成为平台的使用者兼建设者。

附图说明

图1为本发明提供的基于类别分析法的近红外光谱物质含量索引方法的流程示意图。

具体实施方式

下面,结合附图以及具体实施方式,对本发明做进一步描述,需要说明的是,在不相冲突的前提下,以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。

实施例

请参照图1所示,基于类别分析法的近红外光谱物质含量索引方法的技术主要由仪器画像技术,含量索引技术(通过类别分析法实现),梯度预测技术,索引优化技术组成。

1、仪器画像技术

仪器每进行一次光谱采集工作,都会产生一个仪器画像,每个仪器画像都包含了一系列用于描述此次光谱采集的“标签”,而每个“标签”都代表了计算机去认识和描述仪器的一个角度,即该仪器在不同维度上的特征信息(例如与该仪器相关的光谱数据(最重要)、环境数据、出厂参数、动态参数、地理信息、所有者信息、使用记录、使用反馈记录等)。为仪器打上“标签”可让计算机能够程序化处理与仪器相关的信息,以及通过算法、模型来“理解”仪器,从而实现为每台仪器的每次光谱采集进行定制化预测。

在构建仪器画像时,所能获取的所有特征信息都将作为一个“标签”,该“标签”将在含量索引技术中被应用。每个代表不同特征信息的“标签”都将被赋予一个个性化的权重,该权重将在梯度预测技术中被应用。权重的训练方法如下:

1.1、针对某种样品的某种成分含量,选取有代表性的样本n个,选取仪器m台。

1.2、通过理化检测获取这n个样本该种成分的含量(y1,y2,…,yn)。

1.3、设可获取的“标签”(特征值,如光谱、温度、湿度、…)数量为t个。

1.4、使用每台仪器对每个样品进行光谱扫描,获取t组“标签”,每组n*m个值。

1.5、对于第1组“标签”将扫描每个样品时的特征(m1,m2,…,mn)作为因变量,将成分含量(y1,y2,…,yn)作为自变量,并通过随机的方式对数据进行训练集和测试集的划分。

1.6、基于训练集,使用最小二乘法ls(当“标签”为光谱时,使用偏最小二乘法pls)建立回归模型,使用该回归模型对测试集中的特征值进行计算,得到预测的成分含量值。

1.7、将测试集中被预测出的成分含量值与对应的真实成分含量进行比较,求出预测标准偏差sep。

1.8、重复1.5-1.7,直到t个“标签”的sep(s1,s2,…st)都计算完毕。

1.9、求成分含量均值y0=(y1+y2+…+yn)/n

1.10、对于每个“标签”,权重为:

1.11、生成该种样品成分的权重向量(w1,w2,…,wt)。

1.12、对于不同样品相同成分、不同样品不同成分、相同样品不同的成分,重复1.1-1.11求“标签”权重。

2、含量索引技术

该技术将仪器画像(每次光谱采集时生成一个仪器画像)与被采集光谱的样品成分含量相匹配,建立含量索引表,而建立索引表的工作可由此种仪器的使用者们共同完成。仪器画像及含量索引表的对应关系(数学模型)创建后,需在实践中来不断地完善及优化,丰富其深度及广度,才能让计算机越来越精确地理解仪器画像及物质含量之间关系。

含量索引表的建立方式如下:

2.1、根据样品的品种、生长环境、产地、收集时间、供应商、处理方式等条件对样品分为不同类别。

2.2、对2.1中所分的类别一,以仪器画像中的“标签”(设有t个标签)作为用于索引的一系列属性值,以样品成分含量作为索引结果的记录值。(设有n条记录)

2.3、以2.2中的属性值((a1,a2,…,an)*t组)作为自变量,记录值(y1,y2,…,yn)作为因变量,并通过随机的方式对数据进行训练集和测试集的划分。

2.4、对于第1组自变量,基于训练集,建立四种分类模型m1,m2,m3,m4。

2.5、其中,此处用于建立分类模型的算法为:(m1)k-最邻近法、(m2)逻辑回归分类法、(m3)支持向量机分类法、(m4)随机森林分类法。

2.6、将这四类算法所创立的分类模型对测试集进行类别预测,并计算分类准确率rate1,rate2,rate3,rate4=预测类别正确个数/训练集记录数*100%。

2.7、重复2.4-2.6,直到t个“标签”的rate((r1,r2,r3,r4)*t组)都计算完毕。

2.8、通过使用仪器画像中的权重向量,求出准确率最高(rmax)的分类算法,并将通过该算法创建的模型作为此种物质成分含量的最终的分类模型。

准确率计算方式为:

sum([r11,r12,…,r1t]*(w1,w2,…,wt))=r1

sum([r21,r22,…,r2t]*(w1,w2,…,wt))=r2

sum([r31,r32,…,r3t]*(w1,w2,…,wt))=r3

sum([r41,r42,…,r4t]*(w1,w2,…,wt))=r4

rmax=max(r1,r2,r3,r4)

2.9、对于其余每种类别,重复2.2-2.9,直至求得每个类别所对应最优的样品成分含量的分类模型,并将分类模型定义为(crmax1,crmax2,crmax3,…,crmaxt)。

3、含量索引表的预测方式如下(接上):

3.1、对于某类别物质,若存在某成分含量分类模型(crmax1,crmax2,crmax3,…,crmaxt),及“标签”权重(w1,w2,…,wt)。可对未知含量的同类别物质进行光谱采集,得到一系列用于预测仪器画像“标签”。

3.2、通过t个分类模型与对应的t个“标签”算得t个物质成分含量对应的类别记录(c1,c2,…,ct),具体地:

使用第一个分类模型crmax1对第一个标签进行预测分析,得到第一个标签的类别记录c1,

使用第二个分类模型crmax2对第二个标签进行预测分析,得到第一个标签的类别记录c2,

……

使用第t个分类模型crmaxt对第t个标签进行预测分析,得到第t个标签的类别记录ct。

3.3、对类别记录进行加权分析,求出类别记录组合,从而获得一组由优至劣的含量预测值ypredict。

其中,有:预测值组合,由最大至小排序,ypredict=[c1w1,c2w2,…,ctwt].sort(reverse=true)系统认为最好的预测值,ybest=max[c1w1,c2w2,…,ctwt]若c1,c2,…,ct中有相等值,则将两条记录的权重相加后赋予其中一条记录,并删除另一条记录。

【例】若c3=c4,则(c1w1,c2w2,c3(w3+w4),c5w5,…,ctwt)。

4、梯度预测技术

从实际出发,在索引表中直接给出一个系统认为最精确的记录值是不理智的,样品未知,光谱异常,操作失误,仪器故障等问题都将对预测结果产生严重影响。因此,一组弹性更大的结果要比我们认为精准的单一结果更容易被用户接受。在检测环节,该发明不与传统近红外光谱检测技术类似,即在检测阶段给出一个单一的预测结果,而是一组由优至劣的梯度预测值ypredict(步骤3.3)。

梯度预测的推送步骤如下:

4.1、设梯度预测值ypredict集中有n条记录,已由进行了由优至劣的排序。ypredict=(y1',y2',…,yn'),y1'为系统认为的最优解。

4.2、将排名在前的x个值推送给用户,x为用户接收推荐值数量,可自由设定,建议默认值为10。yx=(y1',y2',…,yx'),y1'为系统认为的最优解。

5、索引优化技术

更进一步说,若用户可以告知系统他更倾向于预测值集合中的哪个结果,能有效协助系统的自主学习,从而使索引表内的数据与模型是可更新的、可不断完善的。

然而,在数据量日益递增的情况下,索引表内的仪器画像,以及与其对应的类别模型和记录值的数量都会愈加庞大,所获取的数据也是良莠不齐。无论是输入错误的信息,无法预知的仪器故障,或是用户随意给出的反馈数据,都会对系统的预测效果及自主学习能力造成影响,因此还需要结合etl技术对数据进行清洗、转换、集成。不涉及相关etl技术,本发明仅针对索引表内无信息错漏的情况。索引优化技术就是通过用户给出的反馈信息对索引表内的仪器画像、类别模型、记录值进行重新训练与更新,用户的每次带反馈检测都会启动索引表内某类别物质的某种成分的动态更新步骤。

索引优化的动态更新步骤如下:

5.1、用户给出反馈,即在预测值集合yx(y1',y2',…,yx')中选择出他认为最好的预测值y0'。

5.2、以y0'作为记录值,以用户检测时的仪器画像(a1,a2,…,at)作为属性值。

5.3、将y0'及(a1,a2,…,at)加入该类别物质的该种成分的记录值集与属性值集中。

5.4、重复类别分析法(第2步),求得对应的分类模型。

5.5、该类别物质的该种成分的仪器画像、类别模型、记录值都已完成更新,可被用于物质含量预测。

上述实施方式仅为本发明的优选实施方式,不能以此来限定本发明保护的范围,本领域的技术人员在本发明的基础上所做的任何非实质性的变化及替换均属于本发明所要求保护的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1