基于随机采样一致集的谱图异常样本点检测方法

文档序号:5840296阅读:197来源:国知局
专利名称:基于随机采样一致集的谱图异常样本点检测方法
技术领域
本发明涉及化学计量学多元校正模型数据处理技术领域,特别涉及一种基于随机采样一致集的谱图异常样本点检测方法。
背景技术
随着现代分析仪器的发展,检测信号已由传统的单一数值变化为完整的谱图,甚至是图像。对于光谱数据,维数相对于采集的样本个数来说通常是很高的,此时校正回归问题严重病态,传统的一元单变量校正方法难以对这些数据进行分析,取而代之的是多元校正方法[1]。化学计量学多元校正技术直接利用测量信号,通过降维、特征提取、特征变换以及多元回归技术建立光谱信号与样品浓度之间的定量模型,以实现定量分析。然而,经典的多元校正方法,如多元线性回归、主成分回归、偏最小二乘回归[2_3]通常特别易受异常样本点的影响。一般地,与数据集中大部分样本相比,异常样本就是无关的、或者某种程度上是错误的和不正常的样本。异常样本一般是由仪器故障、采集条件因素、人为操作误差或数据自身缺陷等原因引起的。异常样本的存在会影响模型的质量,导致建立的模型无法反映数据的真实关系,无法得到准确的预测结果。因此,需要剔除异常样本点的影响建立稳健的模型[4]。对于主成分回归,一般采用稳健的协方差估计替代传统的数据协方差矩阵,从而实现稳健的主成分回归。对于偏最小二乘(PLS)回归,不同的稳健PLS模型被提出,如将PLS方法中所涉及到的最小二乘回归方法,部分或全部替换成某种稳健回归方法,如迭代重加权最小二乘(IRLS)、最小中位数平方法(LMS)和截尾最小二乘法(LTS)等;迭代重加权偏最小二乘(IRPLS)方法[5];偏稳健M回归方法[6] ;RSIMPLS方法[7]。还有一类方法通过交叉验证来检测异常样本,如基于留一交叉验证得到每个样本对应的光谱残差或浓度残差,然后判定残差超出某个阈值的样本为异常样本M ;类似地,模特卡罗交叉验证也被用于异常样本检测,该方法首先建立模特卡罗交叉验证模型,然后根据预测误差平方和排序,并统计每个样本在不同模型中的出现频次,最终基于异常样本与正常样本的出现频次差异来判定样本是否异常。然而,基于交叉验证的异常样本检测方法,可能会产生“掩盖”现象,导致无法检测出或错误识别异常样本。稳健的主成分回归或偏最小二乘回归对于数据集中异常样本较多时检测效果较差。基于最大后验概率随机采样一致集[9],进行多元校正异常样本检测,是一种新的方法,它能够通过不断地随机采样,剔除数据中的异常样本,目前还未见成熟的技术与文献。现实应用中的各种复杂情形,如观测条件、操作因素等,均会导致异常样本点的出现。各种不同类型的异常样本点对校正模型的影响程度不同,如何有效消除这些异常样本的影响是化学计量学多元校正技术的一个难题。[l]Martens H, Nas T. Multivariate calibration. Wiley, 1992[2]ffold H. Soft modelling by latent variables:the nonlineariterativepartial least squares approach.Perspectives in Probability andStatistics.
权利要求
1.一种基于随机采样一致集的谱图异常样本点检测方法,其特征在于,包括如下具体步骤 步骤(I):对给定光谱数据X进行稳健主成分分析,检测并消除异常光谱样本点,得到校正样本集X。,记校正样本集X。中样本数目为m。; 步骤(2):在所述步骤(I)中的校正样本集X。上进行随机采样,得到当前的训练集Xs ; 步骤(3):基于所述步骤(2)中的训练集Xs建立多元校正模型,并计算模型预测残量误差Es ; 步骤(4):利用步骤(3)中的多元校正模型和模型预测残量误差Es,评价模型的性能并得出评价得分,并将步骤(I)中的校正样本集X。确定为内点集U。; 步骤(5):重复步骤(2)至步骤(4)N次,其中N定义为自然数,从而得到N个评价得分,选择其中评价得分最高的多元校正模型所对应的校正样本集为最终的内点集um。
2.根据权利要求1所述的基于随机采样一致集的谱图异常样本点检测方法,其特征在于,所述步骤(I)包括如下具体步骤 步骤(11):建立模型X=TPt,其中Ttt1, t2,…,ta]T定义为得分矩阵,Ρ[ρι,ρ2,…,pa]TS义为载荷矩阵,a定义为主成分个数; 步骤(12):利用公式t—i^mediani^,t2,…ta)计算主成分得分向量tp t2,…,ta的中信t ·I 1-°* ^median, 步骤(13):基于步骤(12)中的中值tmedian以及如下公式 Smad=1- 4826median (| I^tmedian |,| t2_tmedian |,…| ta_tmedian |) 计算出数据的中值绝对偏差Smad ; 步骤(14):利用公式计算出每个主成分得分数据与中值之间的误差值Cli,其中i=l,…,m。,剔除Cli ^ 3 X Smad的样本点,得到的数据集为校正样本集X。。
3.根据权利要求2所述的基于随机采样一致集的谱图异常样本点检测方法,其特征在于,所述步骤(2)包括如下具体处理 在校正集X。上进行随机采样,随机地挑选出πι=πιε/2个样本,其中,m定义为正偶数,形成样本子集
4.根据权利要求3所述的基于随机采样一致集的谱图异常样本点检测方法,其特征在于,所述步骤(3)包括如下具体处理 建立浓度值多元校正模型Ys=XsB,并利用公式
5.根据权利要求4所述的基于随机采样一致集的谱图异常样本点检测方法,其特征在于,所述步骤(4)包括如下具体处理 步骤(41):利用公式
全文摘要
本发明公开了一种基于随机采样一致集的谱图异常样本点检测方法,以最大后验概率随机采样一致集为基础,从给定光谱数据入手,通过主成分分析预先剔除部分异常样本得到校正样本集,进行随机采样,建立多元校正模型并评价模型性能,通过多次随机采样,选择合适的样本子集为内点集。本发明所设计的基于随机采样一致集的谱图异常样本点检测方法快速有效、准确度高和适用范围广。
文档编号G01N21/25GK103018177SQ20121051918
公开日2013年4月3日 申请日期2012年12月6日 优先权日2012年12月6日
发明者王海燕, 刘军, 姜久英 申请人:江苏易谱恒科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1