一种基于蒙特卡洛交叉验证的NIRS异常样本的检测方法与流程

文档序号:12177677阅读:来源:国知局

技术特征:

1.一种基于蒙特卡洛交叉验证的NIRS异常样本的检测方法,其特征在于:包括如下步骤:

步骤1:使用组外判定法确定预处理过的光谱数据的最佳主成分,并结合偏最小二乘回归PLSR方法建模得到优化后的PLSR预测模型O-PLSR;

步骤2:判断O-PLSR模型的稳定性;

步骤3:使用蒙特卡洛交叉验证法MCCV随机建立多个O-PLSR模型,识别出强影响点;

步骤4:利用二审判别法判别强影响点中的异常值;

步骤5:剔除异常样本重复MCCV实验,验证异常样本是否剔除完全。

2.根据权利要求1所述的检测方法,其特征在于,所述步骤1具体为:

1.1使用优化后的KS算法选取与校正集和预测集均无交叉的样本M个,仅用来确定最佳主成分;

1.2再次采用优化后的KS算法将剩余的样本按照3:1的比例划分为校正集和预测集;

1.3对所有样本数据进行预处理,其中预处理方法为移动窗口拟和多项式平滑、标准变量变换以及一阶导数之一或其任意组合;

1.4用校正集内所有的样本点以及h个主成分拟合成一个回归方程,并将M个样本点的光谱数据代入拟合好的回归方程,得到M个样本的预测值,将预测值和参考值进行比较,计算得到预测标准差SEP,其中h=1,2,3,...h;

1.5统计使用不同主成分h拟合的回归方程对应求得的SEP值,选取最小的SEP值所对应的主成分为最佳主成分;

1.6使用最佳主成分建立PLSR模型,即O-PLSR模型。

3.根据权利要求1所述的检测方法,其特征在于,所述步骤3具体为:

3.1随机分配校正集与预测集建立多个O-PLSR模型;

3.2计算每个模型的SEP值,并依照这些值从小到大的规则对模型排序;

3.3按照排序后的模型统计每个样本在校正集中出现的累计频率;

3.4将累计频率高于设定比例或者低于另一设定比例的样本定为强影响点。

4.根据权利要求1所述的检测方法,其特征在于,所述步骤4具体为:

4.1利用随机法划分样本集合,得到校正集样本,该校正集样本包含强影响点,使用组外的M个样本作为预测集;

4.2分别将强影响点从校正集中剔除,建立O-PLSR模型,并分别考察模型对校正集与预测集的预测效果,对模型有贡献的强影响点视为正常样本,而对模型无贡献并且产生坏的影响的强影响点判别为异常样本。

5.根据权利要求1所述的检测方法,其特征在于,所述步骤5具体为:

5.1剔除异常样本再次进行MCCV实验,确定强影响点;

5.2对强影响点进行二审判别,检验异常样本是否剔除完全。

6.根据权利要求2所述的检测方法,其特征在于,所述优化后的KS算法是先将依据化学值大小排序后的样本分成N个区间,再对每个子区间使用KS算法划分校正集与预测集。

7.根据权利要求3所述的检测方法,其特征在于,所述累计频率定义为每个样本在模型校正集中出现概率,计算公式如下:

<mrow> <mi>f</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>)</mo> </mrow> <mo>=</mo> <mn>100</mn> <mi>%</mi> <mo>&times;</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>J</mi> </munderover> <msub> <mi>f</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>/</mo> <mi>J</mi> </mrow>

其中i指样本的序号,j为排序后模型的序号,如果样本i出现在模型j的校正集中,fij为1,否则为0,J是所统计的模型数量。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1