一种海水COD光谱变量特征自适应选择估计方法

文档序号:33123311发布日期:2023-02-01 04:24阅读:43来源:国知局
一种海水COD光谱变量特征自适应选择估计方法
一种海水cod光谱变量特征自适应选择估计方法
技术领域
1.本发明涉及海洋检测技术领域,尤其是一种海水cod光谱变量特征自适应选择估计方法。


背景技术:

2.化学需氧量(chemical oxygen demand)是海洋环境有机物污染的综合评价指标,在海域生态环境质量评价、海区富营养化研究等方面具有重要作用,(uv-vis)紫外-可见光谱法测量cod因为其快捷、连续无污染等优势得到广泛应用,利用待测溶液的吸收光谱同时满足朗伯-比尔定律和吸光度的叠加原理,获得待测物的光谱信息。测量混合溶液中各组分浓度本质是求解多元线性回归,即通过求解多元线性方程组,获得混合溶液中待测组分在每个波长变量处的吸光系数。通常在获得原始光谱信息之后,需要对应的光谱变量信息建模反演出cod浓度信息,全光谱中信息驳杂,使得模型精度与运行速度不可避免的下降,因此解析过程中有效变量选择为关键步骤。
3.但相对于常规水体,海水中环境干扰因素以及光谱叠加干扰机理更加复杂,不同种类的成分在光源下的激发态存在差异,形成的特征峰互不相同并相互影响,如海水中的氯离子、亚硝酸根离子等离子的吸收光谱在相互叠加的同时对紫外波段的目标物质cod光谱产生干扰,导致海水光学传感器的抗干扰能力不佳。面对海水光谱传感器中的局限性,常用的光谱变量选择方法在对于复杂问题,通常受共线性、噪声和波动背景干扰的影响变量的筛选或因密集计算无法遍历全部数据集而陷入局部最优。
4.在海水光谱传感器的工作中,使用传统的多元回归建模时,同时选择了较多的无关信息变量与低信噪比变量,且多变量的选择间的共线性会造成多重交互作用,增加了数据量且可能屏蔽cod相关光谱变量,对模型结果造成影响。基于pls建模时,对相关变量的重要性的判定由权重和载荷解释,当不相关方差在矩阵中占主导地位时,权重和载荷的系数可能与模型的cod预测性能无关。面对不同的海水情况,还需要针对性的对模型变量选择参数进行调整,当仪器安装到自动检测平台上,随着环境的变化,模型参数的调整成为难题。


技术实现要素:

5.为了克服现有技术中存在的上述问题,本发明提出一种海水cod光谱变量特征自适应选择估计方法。
6.本发明解决其技术问题所采用的技术方案是:一种海水cod光谱变量特征自适应选择估计方法,包括如下步骤:步骤1,对原始光谱数据集进行筛选;步骤2,对步骤1筛选出的光谱数据集进行预处理,消除基线漂移和背景干扰并对光谱进行平滑处理;步骤3,对步骤2所得光谱变量进行抽样,每次变量选择结果用二进制表示形成二进制矩阵,并对选中的变量建立偏最小二乘回归模型,记录模型中的交叉验证误差rmsecv;
步骤4,建立新的偏最小二乘回归模型,将步骤3所得的二进制矩阵与交叉验证误差建立对应关系,并统计相关系数矩阵,对相关系数矩阵进行升序排列得到集合v,从集合v中取上四分位数的变量作为含有个变量的初始子集z*;步骤5,设置第一层循环,给定初始参数t和rmsecv接受阈值,参数的更新函数为:,其中, n为第一层循环次数,k为 boltzmann常数,,以初始子集z*为初始状态,利用偏最小二乘对选中的变量进行建模,并采用rmsecv作为评价指标,得到目标函数f(i);步骤6,针对步骤4中集合v进行第二层循环,设置循环次数lk,采用正态分布控制变量数,实现变量的选择与增删操作,最终得到lk个候选变量子集z及每个候选变量子集的rmsecv;步骤7,从步骤6所得的lk个候选变量子集z中选择rmsecv最小的候选变量子集更新步骤5中的初始状态,进行第一层循环,当t=0.1或候选变量子集的rmsecv达到rmsecv接受阈值,则第一层循环结束,输出最优候选变量子集及rmsecv。
7.上述的一种海水cod光谱变量特征自适应选择估计方法,所述步骤3中交叉验证误差rmsecv计算公式为:其中,ci是实际值, 是预测值, n是训练集样本数。
8.上述的一种海水cod光谱变量特征自适应选择估计方法,所述步骤6变量的选择具体为:从均值为、方差为的正态分布中随机选择一个整数,根据约束条件产生一个含有个变量的候选变量子集z。
9.上述的一种海水cod光谱变量特征自适应选择估计方法,所述约束条件具体为:若,则令z=z*;若,则首先对z建立pls模型,记录并比较模型中每个变量的回归系数的值,将个最小回归系数的相关变量从z*中移除,剩余的个变量为候选变量子集z;若,则从v-z*中随机抽取个变量,设置为4,生成一个变量子集t,通过z*和t的组合建立pls模型,保留模型中回归系数最大的个变量,并将其设为候选变量子集z。
10.上述的一种海水cod光谱变量特征自适应选择估计方法,所述步骤5中目标函数计算公式为:
上述的一种海水cod光谱变量特征自适应选择估计方法,所述步骤6变量的增删具体包括:以metropolis接受准则进行变量的保留或剔除。
11.上述的一种海水cod光谱变量特征自适应选择估计方法,所述metropolis接受准则具体为:其中,表示接受解j的概率,f(i)、f(j)分别表示解i、j的目标函数;tn为第一层循环第n次时的取值。
12.本发明的有益效果是,本发明提供一种海洋cod光谱自适应环境对相关光谱变量进行循环收缩择优的方法,不受特定设置变量数的限制,也不受海洋环境干扰的限制,能够现场、自动、实时的获得当前测量海水光谱最佳变量子集,符合目前海洋现场光谱监测仪器cod检测要求。实现海洋光谱传感器现场、智能、实时的光谱数据分析,并提升海洋光谱传感器cod预测性能提升。
附图说明
13.下面结合附图和实施例对本发明进一步说明。
14.图1为本发明流程图;图2本发明实施例所公开的典型的近海海水光谱曲线;图3为一阶导数与s-g滤波之后的对应光谱曲线;图4为变量对模型误差贡献的统计;图5为每次迭代变量的选择数量;图6为每次迭代所选变量的预测均方根误差;图7为最终模型选择的变量。
具体实施方式
15.为使本领域技术人员更好的理解本发明的技术方案,下面结合附图和具体实施方式对本发明作详细说明。
16.本实施例公开了一种海水cod光谱变量特征自适应选择估计方法,如图1所示,包括如下步骤:本实施例所公开的典型的近海海水光谱曲线如图2所示,吸收光谱图是表征海水cod性质的重要手段,为后续数据的选择和处理提供依据。依据朗伯-比尔定律:当一束平行的单色光垂直于均匀的非散射吸光物质时,其吸收度与光吸收物质的浓度和吸收介质厚度成正比。横坐标为光谱仪扫描波段,纵坐标为相应波长变量对应的吸光度,通常在光谱图中,实际海水样本的有效cod吸收特性主要集中在260nm-310nm波段,其主要由苯环官能团作用形成,相应的cod表达特性良好,具有较高的变量选择建模价值。
17.步骤1,使用sample set partitioning based on joint x-y distance(spxy)对原始光谱数据集筛选,通过改善数据的向量空间覆盖能力以增强模型,spxy在样品间距离计算时将x变量和y变量同时考虑在内其距离公式如下:其中,d
x
(p,q)表示计算的x变量空间距离,dy(p,q)表示计算的y变量空间距离,p表示样本集中的第p个样本,q表示样本集中的第q个样本,n表示样本总数,j表示光谱的波长变量数,j表示第j个波长变量点,x
p
(j)表示第p个样本的光谱在第j个波长点的位置,xq(j)表示第q个样本的光谱在第j个波长点的位置,y
p
表示第p个样本对应的浓度位置,yq表示第q个样本对应的浓度位置;步骤2,为了确保样本在x(光谱样本)和y(cod浓度值)空间的具有相同的权重,将d
x
(p,q)和dy(p,q)分别除以它们在数据集中的最大值,标准化的xy的距离公式d
xy
(p,q)为:依次使用一阶导数和s-g平滑对筛选出的光谱数据集进行预处理,消除基线漂移和背景干扰并对光谱进行平滑处理,所得谱线如图3所示,此预处理方法可在消除无信息噪声的同时,提升了光谱的分辨率,同时减少了背景干扰,海水光谱测量的基线也得到了校正,并且在一定程度上减少各变量间的线性相关性。应当结合所测海水的实际情况,因为物质含量和噪音影响的不同,在进行滤波处理时,应对应实测结果对sg窗口宽度进行调整。
18.步骤3,使用蒙特卡洛策略在光谱变量空间进行抽样,每次变量选择的结果用二进制表示,1表示本次选择中变量被选中,0表示本次选择中变量没有被选中,对变量进行大量抽样,并对选中的变量建立偏最小二乘回归模型,记录模型中的交叉验证误差(rmsecv),rmsecv计算公式为:其中,ci是实际值, 是预测值, n是训练集样本数。
19.步骤4,建立新的偏最小二乘回归模型,将步骤3所得的二进制矩阵与交叉验证误差建立对应关系,并统计相关系数矩阵,相关系数小表示该变量对模型误差贡献度小,变量重要性高,对相关系数矩阵进行升序排列得到集合v,从集合v中取上四分位数的变量作为含有个变量的初始子集z*;波长变量对应的最小二乘回归的误差贡献如图4所示,下四分位数( q1 )和上四分位数( q3 )分别由虚线和实线绘制。首先利用随机重采样选取的一组变量建立大量的pls模型。然后,可以得到一个由1和0组成的每一行表示所选变量和未选变量的二进制矩阵,并计算预测误差( rmsecv )并记录在一个向量中,然后建立新pls模型来描
述误差向量与二元矩阵的关系,则模型中变量的回归系数是对变量对误差贡献的估计并可以用来评价变量的信息含量或重要性,该值越小对应的变量越重要。
20.此次选择对海水光谱中的cod信息进行初步筛选,考虑到海水中的复杂成分对cod光谱的干扰与无关信息的影响,通过统计光谱中的变量对模型误差量的贡献,选择出对cod信息重要的光谱变量,同时在建立不同变量组合的过程中,初步削弱了变量间的共线性。
21.设置第一层循环,采用可逆跳跃马尔科夫链蒙特卡洛形式,给定初始参数t和rmsecv接受阈值,在本实施例中,t为100,可根据实际情况调整,当需要增大筛选范围和幅度时可增加t值,参数的更新函数为:其中, n为第一层循环次数,k为 boltzmann常数,令(可自行调整,,为了避免马尔科夫链过短可使其更接近1),以初始子集z*为初始状态,利用偏最小二乘对选中的变量进行建模,并采用rmsecv作为评价指标,rmsec的值越小,对应校正模型的预测能力越好,得到目标函数f(i);目标函数f(i)计算公式为:其中,表示该函数求最小均方根误差(rmsecv)。
22.步骤6,针对步骤4中集合v进行第二层循环,设置循环次数lk为200,采用正态分布控制变量数,实现变量的选择与增删操作,最终得到lk个候选变量子集z及每个候选变量子集的rmsecv;首先从均值为、方差为的正态分布中随机选择一个整数,根据约束条件产生一个含有个变量的候选变量子集z。
23.若,则令z=z*;若,则首先对z建立pls模型,记录并比较模型中每个变量的回归系数的值,将个最小回归系数的相关变量从z*中移除,剩余的个变量为候选变量子集z;若,则从v-z*中随机抽取个变量,设置为4,生成一个变量子集t,通过z*和t的组合建立pls模型,保留模型中回归系数最大的个变量,并将其设为候选变量子集z。
24.变量的增删具体包括:以metropolis接受准则进行变量的保留或剔除。
25.metropolis接受准则具体为:其中,表示接受解j的概率,f(i)、f(j)分别表示解i、j的目标函数;tn为第一层循环第n次时的取值。
26.当f(i)≥f(j)时,即原变量子集的rmsecv不小于新变量子集时,接受新变量子集;
当f(i)《f(j)时,即原变量子集的rmsecv小于新变量子集时,以对应的收缩公式概率接受新子集。
27.以初始子集z*为初始状态并考察该状态的目标函数值f(i) ;然后在当前解的领域中,第二层循环每次以概率选择非局部最优解,并令这个解重复,避免陷入局部最优。
28.步骤7,从步骤6所得的lk个候选变量子集z中选择rmsecv最小的候选变量子集更新步骤5中的初始状态,进行第一层循环,当t=0.1或候选变量子集的rmsecv达到rmsecv接受阈值,则第一层循环结束,输出输出最优的变量波长个数值、对应的变量波长v*及rmsecv。
29.第二层的循环每次结束后保存子集与模型误差,第二层所有循环结束后取出lk次循环中最优解子集z1、变量数和模型误差,更新第一层循环初始子集,令z*=z1,。
30.使用冷却收缩控制第一层循环算法进程与第二层循环解的接受概率p,初始t较大时,对变量的选择范围广,接受新解的概率高;随着第一层循环的迭代,t参数降低,对变量的选择范围缩小,接受新解概率降低。实现算法前期大范围选择,保证搜索范围包含全部光谱数据集,同时避免陷入局部最优,后期进行光谱变量择优。
31.双层自适应收缩算法在每次迭代中自适应选择的变量个数如图5,随着收缩的增加,所选变量的数量呈下降趋势。该算法由上一步产生的解(初始解)开始;在每次迭代中,根据预定义的邻域结构生成到目前为止最好的邻域解,并使用适应度函数进行评估。在改进的过程中(当新解比原解更优)始终被接受,而较差的新解以一定的概率被接受,并由收缩法则和概率公式所决定。
32.图6表示在迭代过程中,每次迭代所选择变量最小二乘建模时对应的均方根误差大小,随着收缩的双层自适应循环过程中所选变量的数量总体呈下降趋势的变化,rmsecv在初期值与波动都较大,这是迭代初期搜索范围广与接受新解能力强的原因。但随着收缩的进程导致均方根误差急剧下降,rmsecv在第25次收缩时达到最小值,多步变量选择在提高性能与全光谱搜索方面显示了其优越性 。
33.图7为自适应方法最终所选择的波长变量。根据图1-图5所示方法和处理步骤,该算法有很强的全局优化搜索能力与变量选择收缩能力,不仅能够接受优解也能够一定程度上接受劣解,这使得比较容易跳出局部最优解从而收敛到全局最优解,同时过拟合现象使得模型更具有稳健性和更精确的识别率。
34.以上实施例仅为本发明的示例性实施例,不用于限制本发明,本发明的保护范围由权利要求书限定。本领域技术人员可以在本发明的实质和保护范围内,对本发明做出各种修改或等同替换,这种修改或等同替换也应视为落在本发明的保护范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1