一种近红外光谱模型的鲁棒性改善方法

文档序号:8359295阅读:148来源:国知局
一种近红外光谱模型的鲁棒性改善方法
【技术领域】
[0001] 本发明属于近红外光谱建模技术领域,具体涉及一种近红外光谱模型的鲁棒性改 善方法。
【背景技术】
[0002] 近红外光谱技术凭借其无损、快速等优点,广泛应用于农业工程、食品分析、环境 监测和水声探测等领域。通过近红外光谱,可以建立回归模型和分类模型分别获取样本的 定量信息和定性信息。目前研宄的焦点大多集中于如何提高模型的预测性能,而对于模型 鲁棒性的改善给予的关注相对较少。鲁棒性是模型对光谱数据中不确定因素的适应性,主 要表现为模型的抗噪能力和泛化能力。光谱建模时,仪器响应的漂移、样本包含噪声或奇异 值、样本不充分等因素都会影响模型的鲁棒性。鲁棒性不足会导致模型应用于不同条件或 受噪声影响的光谱数据时,预测误差成倍增长。这一问题严重限制了红外光谱技术的更广 泛应用和进一步推广。
[0003] 为了改善模型的鲁棒性,一种方法是对训练样本进行预处理,从而剔除异常样本, 但由于缺乏足够的先验知识,这种方法很难执行;另一种方法是对训练样本引入模糊隶属 度,依据样本包含不确定因素的大小、信息的重要性对样本赋予不同的模糊隶属度,通过较 小的模糊隶属度赋值来限制异常样本对模型的影响。目前,尽管有多种隶属度函数构造方 法,但还没有可遵循的一般性准则。如何根据近红外光谱的特性,构造出符合客观实际的模 糊隶属度,从而建立强鲁棒性并具有通用性的模型,使模型在训练样本不充分或测量过程 中的各种噪声影响下仍然能稳定而正常的工作是急需要解决的一个难题。

【发明内容】

[0004] 本发明的目的是提供一种可以自动生成模糊隶属度,进而构建具有强鲁棒性的模 糊支持向量机模型的近红外光谱模型的鲁棒性改善方法。
[0005] 本发明的目的是这样实现的:
[0006] (1)采集样本的漫反射光谱,测定样本的糖度值;
[0007] (2)将光谱样本映射到一个高维的特征空间,寻找样本的最小包含超球,构建光谱 样本的数据域描述函数,引入信任因子和舍弃因子将光谱的训练样本划分为三个区域,通 过映射关系建立数据域描述与概率密度的关联,得到模糊隶属度函数,应用穷举搜索参数 寻优法确定模糊隶属度函数中的四个未知参数:信任因子、舍弃因子、映射度和模糊隶属度 下限,自动生成每个样本的模糊隶属度;
[0008] (3)对样本的近红外光谱、模糊隶属度和糖度数据进行训练,建立模糊支持向量机 模型,与光谱分析中常用的多元线性回归、偏最小二乘回归、支持向量机模型进行对比,检 验丰吴型的鲁棒性。
[0009] 步骤(1)所述采集样本的漫反射光谱,采集波长范围是400-1000nm,采样间隔为 0. 37nm,取四个测试部位的平均光谱作为样本的原始光谱。
[0010] 步骤(2)所述模糊隶属度函数中D(Xi)为光谱数据域描述值,引入信任因子D。和 舍弃因子Dt将光谱的训练样本划分为三个区域:位于D (X J < D。区域的光谱样本,样本具 有极高的可信度并且赋予模糊隶属度为1 ;位于D (Xi) > Dt区域的光谱样本,包含噪声或奇 异点,对应的模糊隶属度为最小值σ ;位于DeS D (X J < Dt,包含噪声或奇异值的概率各不 相同,模糊隶属度与包含噪声或奇异值的概率成正比关系。通过映射关系建立数据域描述 D(X i)与概率密度px (Xi)的关联,由概率密度来表征样本的模糊隶属度,模糊隶属度函数:
【主权项】
1. 一种近红外光谱模型的鲁棒性改善方法,其特征在于: (1) 采集样本的漫反射光谱,测定样本的糖度值; (2) 将光谱样本映射到一个高维的特征空间,寻找样本的最小包含超球,构建光谱样 本的数据域描述函数,引入信任因子和舍弃因子将光谱的训练样本划分为三个区域,通过 映射关系建立数据域描述与概率密度的关联,得到模糊隶属度函数,应用穷举搜索参数寻 优法确定模糊隶属度函数中的四个未知参数:信任因子、舍弃因子、映射度和模糊隶属度下 限,自动生成每个样本的模糊隶属度; (3) 对样本的近红外光谱、模糊隶属度和糖度数据进行训练,建立模糊支持向量机模 型,与光谱分析中常用的多元线性回归、偏最小二乘回归、支持向量机模型进行对比,检验 模型的鲁棒性。
2. 根据权利要求1所述的一种近红外光谱模型的鲁棒性改善方法,其特征在于:步骤 (1) 所述采集样本的漫反射光谱,采集波长范围是400-1000nm,采样间隔为0. 37nm,取四个 测试部位的平均光谱作为样本的原始光谱。
3. 根据权利要求1所述的一种近红外光谱模型的鲁棒性改善方法,其特征在于:步骤 ⑵所述模糊隶属度函数中D(Xi)为光谱数据域描述值,引入信任因子D。和舍弃因子DJf 光谱的训练样本划分为三个区域:位于D(Xi) <D。区域的光谱样本,样本具有极高的可信度 并且赋予模糊隶属度为1 ;位于D(Xi) > Dt区域的光谱样本,包含噪声或奇异点,对应的模 糊隶属度为最小值σ ;位于DeS D(Xi) SDt,包含噪声或奇异值的概率各不相同,模糊隶属 度与包含噪声或奇异值的概率成正比关系。通过映射关系建立数据域描述D(X i)与概率密 度Px (Xi)的关联,由概率密度来表征样本的模糊隶属度,模糊隶属度函数:
式中d是控制映射度的参数。
4. 根据权利要求1所述的一种近红外光谱模型的鲁棒性改善方法,其特征在于:步骤 (2) 所述模糊隶属度函数中四个参数的穷举搜索参数寻优法,首先固定信任因子DC = Dmin 和舍弃因子DT = Dmax,对映射度d和模糊隶属度下限σ执行两维穷举搜索,σ的搜索范围 是[0.10.9],步长0.1;(1的搜索范围是[212 8],乘积为2;固定(1和〇,对1)。和0在施两 维穷举搜索,D。的值选择为使0 %、10 %、20 %、30 %、40 %、50 %的样本模糊隶属度为I ;D#勺 值选择为使〇%、10%、20%、30%、40%、50%的样本模糊隶属度为〇。
【专利摘要】本发明属于近红外光谱建模技术领域,具体涉及一种近红外光谱模型的鲁棒性改善方法。采集样本的漫反射光谱,测定样本的糖度值;将光谱样本映射到一个高维的特征空间,寻找样本的最小包含超球,构建光谱样本的数据域描述函数;对样本的近红外光谱、模糊隶属度和糖度数据进行训练,建立模糊支持向量机模型。本发明引入信任因子和舍弃因子,通过映射关系建立数据域描述和概率密度的关联,这样生成的模糊隶属度能客观的反映光谱数据结构,使得该方法更具有通用性。
【IPC分类】G01J3-44, G01N21-359
【公开号】CN104677498
【申请号】CN201510109849
【发明人】李海森, 高珏, 徐超, 杜伟东
【申请人】哈尔滨工程大学
【公开日】2015年6月3日
【申请日】2015年3月13日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1