一种基于红外光谱的饲料和饲料原料氨基酸含量的预测方法与流程

文档序号:12033186阅读:323来源:国知局

本发明属于饲料原料氨基酸含量的预测技术领域,更具体涉及一种基于红外光谱的饲料和饲料原料氨基酸含量的预测方法,它适用于食品、土壤环境、农业、地理科学等领域中基于光谱反射率数据预测观测对象属性值的研究工作。



背景技术:

畜牧养殖和饲料研发领域中饲料和饲料原料中营养成分(特别是氨基酸含量)的测定是饲料配料中必不可少的常规操作,该过程费时且经济负担大。如何快速、价廉地量化饲料原料中氨基酸含量一直是人们感兴趣的问题。当前预测饲料原料氨基酸含量的主流思想,是对饲料或饲料原料红外光谱反射率与其氨基酸含量的依赖关系进行数学建模。偏最小二乘法被广泛用于该依赖关系的数学建模。

本质上,偏最小二乘法是一种全局线性回归模型。全局线性回归模型工作的前提假设条件是:自变量和响应变量的依赖关系在全局上平稳不变。这实际上违背了自变量和响应变量之间依赖关系的局部变异性。例如,不同区域和品种来源的大宗原料玉米粒氨基酸含量通常具有加大的变异性,这种变异性自然导致玉米粒红外光谱反射率与其氨基酸含量的局部依赖关系不平稳。这很大程度上降低了偏最小二乘法的预测准确性。



技术实现要素:

本发明的目的是在于提供了一种基于红外光谱的饲料和饲料原料氨基酸含量的预测方法,方法易行,操作简便;对饲料原料如米糠金额麦麸氨基酸含量的预测结果表明,与目前广泛使用的偏最小二乘方法的预测结果相比,本发明的预测精度提高了13.5~49.8%。

为了实现上述的目的,本发明采用以下技术措施:

其技术构思是:一种属性相似加权回归算法,包括:特征降维与提取、构建局部加权模型、加权系数求解和预测3部分。该算法充分考虑了饲料或饲料原料红外光谱反射率与饲料或饲料原料主要氨基酸含量的依赖关系的变异性,采用局部属性相似加权方法增强饲料或饲料原料光谱反射率与其氨基酸含量的依赖关系,以提高饲料和饲料原料氨基酸含量的预测精度。

一种基于红外光谱的饲料和饲料原料氨基酸含量的预测方法,其步骤是:

a、特征降维与提取:特征降维与提取是指压缩饲料或原料光谱波段发射率、减少冗余信息的过程。实际应用中不同光谱观测仪器输出的饲料或饲料原料红外光谱波段通常在750nm~2300nm的范围,属高维数据集。由于波段数据维数高且冗余信息多,需要对光谱数据进行降维处理,以提高数据质量、增强后面模型预测准确性。

给定n个饲料或饲料原料观测样本的红外光谱反射率数据集sn及其任意一种氨基酸含量数据集pn;k个待预测饲料或饲料原料点,其已知的红外光谱发反射率数据集sk,其相应氨基酸含量pk未知。红外光谱反射率数据集sn是n行d列矩阵,红外光谱发反射率数据集sk是k行d列矩阵,d<1500;其中每行对应一个观测样本的光谱反射率,每列对所有观测样本的任意一波段上的反射率。氨基酸含量数据集p是n行1列向量。然后将英文用括号

本发明采用雅可比(jaccobi)矩阵特征值和特征向量求解法,实现对高维红外光谱反射率数据集sn和红外光谱发反射率数据集sk的降维处理。首先采用雅可比(jaccobi)矩阵特征值和特征向量求解法,求解红外光谱反射率数据集sn的特征向量χ,χ满足方程(1):

(λi-sn)χ=0(1)

方程(1)λ是矩阵sn的特征值,i是单位矩阵。方程(1)中特征向量χ求解属于矩阵分解领域的常规内容,本发明不做详细说明。

sn的特征向量χ的前l维(l<d)通常代表了矩阵sn的最大变异性,在本发明中l通常取值10。本发明利用公式(1)和(2)实现观测样本红外光谱反射率数据集sn和待预测饲料或饲料原料红外光谱发反射率数据集sk的降维处理公式(1)和(2):

分别对应降维后观测样本和待预测点的最优光谱反射率成分。

b、构建局部加权模型:本发明中局部加权模型的核心是对饲料或饲料原料观测样本的红外光谱反射率和氨基酸含量的局部依赖关系进行拟合。给定任意饲料或饲料原料观测点最优光谱反射率对应氨基酸含量pi,1≤i≤n,本发明用公式(3)拟合该点最优光谱反射率和对应氨基酸含量pi的关系

公式(3)中,β={β0,β1,βj...,β10}是回归系数,是对应观测样本i在最优波段位置j的反射率,1≤j≤10。

c、加权回归系数求解和预测:β是未知的,本发明用加权最小二乘法求解,即公式(4)进行求解:

公式(4)中,是给定样点邻近点对其的影响权重系数,是邻近点的氨基酸含量,是邻近点的在最优波段位置j的反射率。

用公式(5)计算:

公式(5)中,表示样点到其邻近点的距离,按公式(6)计算;α参数取到周边最邻近点20个观测点的距离的平均值。

公式(6)中,t表示矩阵转置计算。

对公式(4)两端求导,可导出回归系数的解的矩阵表达式如下:

公式(7)中,是与样点邻接的20个样本最优光谱反射率组成的20行11列矩阵,矩阵是权重对角矩阵,即每个对角元素值是对应邻近观测点对点的加权影响系数;是与样点邻接的20个样本氨基酸含量组成的列向量。

给定k个待预测饲料或饲料原料点,其最优的红外光谱发反射率数据集则待预测饲料或饲料原料氨基酸含量pk按公式(8)计算:

公式(8)中,是与样点邻接的20个样本最优光谱反射率组成的20行11列矩阵,矩阵是权重对角矩阵,即每个对角元素值是对应邻近观测点对点的加权影响系数;是与样点邻接的20个样本氨基酸含量组成的列向量;为最优的红外光谱发反射率数据集。

本发明与现有技术相比,具有以下优点和效果:

本发明的优点和有益效果在于考虑了饲料或饲料原料红外光谱反射率与饲料或饲料原料主要氨基酸含量的依赖关系的变异性,在预测模型构建中提出了一种局部属性相似加权方法增强饲料或饲料原料光谱反射率与其氨基酸含量的依赖关系,从而实现了饲料和饲料原料氨基酸含量预测精度的提高。与目前广泛使用的偏最小二乘法相比,本发明饲料原料氨基酸的预测精度提高了13.5~49.8%。

具体实施方式

实施例1:

以下实例用于说明本发明,但不用来限制本发明的应用范围。

本实例应用包括:全国不同地区和不同水稻品种米糠样本98个和小麦麦麸样本98个,每个样本包含了已测定的近红外光谱反射率数据(750~1500nm)和8种氨基酸含量(丙氨酸、精氨酸、甘氨酸、异亮氨酸、亮氨酸、赖氨酸、脯氨酸、丝氨酸)数据(见表1)。

本发明通过交叉检验过程以比较本发明提出的属性相似加权回归算法和偏最小二乘方法的性能差异。交叉检验过程,随机抽取25个样本作为测试样本,剩余73个样本作为训练样本;利用训练样本筛选属性相似加权回归算法和偏最小二乘方法的最优模型参数,然后对测试样本的氨基酸含量预测,再比较氨基酸含量预测值与实测值的差异。均方根误差(rmse)和平均相对误差(re)用于评估本发明对氨基酸含量预测的准确性。

表1样本米糠和麦麸8种氨基酸平均含量(mg/g)

一种基于红外光谱的饲料和饲料原料氨基酸含量的预测方法,其步骤是(应用本发明预测实例中米糠和麦麸氨基酸含量的简要过程如下):

a、特征降维与提取:采用雅可比(jaccobi)矩阵特征值和特征向量求解法,按下述公式(1)和公式(2)对米糠/麦麸样本的红外光谱反射率数据进行降维处理,分别输出训练样本和测试样本的最优红外光谱反射率数据(共10维)。输出的10维米糠/麦麸光谱反射率数据集作为自变量数据集,参与下一步数据依赖关系模型构建。

本发明利用公式(1)和(2)实现米糠或麦麸样本红外光谱反射率数据集sn和待预测米糠或麦麸红外光谱发反射率数据集sk的降维处理。分别对应降维后米糠或麦麸样本和待预测点的最优光谱反射率成分。

b、构建局部加权模型和加权回归系数求解及预测:按以下公式(3)对米糠或麦麸训练样本最优光谱反射率数据和氨基酸含量数据的依赖关系进行数学建模,按以下公式(4)~(6)构建预测模型,通过公式(7)计算模型回归系数;结合米糠或麦麸样本的最优光谱反射率数据,用以下公式(8)米糠或麦麸预测样本的氨基酸含量。

公式(3)中,β={β0,β1,βj...,β10}是回归系数,是对应观测样本i在最优波段位置j的反射率,1≤j≤10。

公式(4)中,是给定样点邻近点对其的影响权重系数,是邻近点的氨基酸含量,是邻近点的在最优波段位置j的反射率。

公式(5)中,表示样点到其邻近点的距离,按公式(6)计算;α参数取到周边最邻近点20个观测点的距离的平均值。

对公式(4)两端求导,可导出回归系数的解的矩阵表达式如下:

公式(7)中,是与样点邻接的20个样本最优光谱反射率组成的20行11列矩阵,矩阵是权重对角矩阵,即每个对角元素值是对应邻近观测点对点的加权影响系数;是与样点邻接的20个样本氨基酸含量组成的列向量。

给定k个米糠或麦麸待预测饲料和饲料原料点(实例中k=25),其最优的红外光谱发反射率数据集则待预测米糠/麦麸氨基酸含量pk按公式(8)计算:

c、评估与比较:本发明将本技术对氨基酸预测结果与经典偏最小二乘预测结果进行了比较。均方根误差(rmse)和平均相对误差(re)用于评估和比较两个方法对米糠或麦麸样本氨基酸含量(丙氨酸、精氨酸、甘氨酸、异亮氨酸、亮氨酸、赖氨酸、脯氨酸、丝氨酸)预测的准确性。

表2反映了本发明和偏最小二乘法对25个米糠测试样本8种氨基酸含量预测结果的准确性。从表1可以看出,本发明输出的均方根误差(rmse)的范围为0.12~0.58、平均相对误差范围为7.7~12.1%,小于偏最小二乘输出的相应结果(rmse,0.15~0.95;re,8.9~24.1%),预测精度提高了13.5~49.8%;这证实了本发明比目前广泛使用的偏最小二乘法对氨基酸含量的预测准确性更高。

表2本发明与偏最小二乘法对米糠8种氨基酸含量预测精度比较

表3反映了本发明和偏最小二乘法对25个麦麸测试样本8种氨基酸含量预测结果的准确性。从表3可以看出,本发明输出的均方根误差(rmse)的范围为0.32~0.94、平均相对误差范围为7.5~11.1%,小于偏最小二乘输出的相应结果(rmse,0.45~1.12;re,9.3~15.2%),预测精度提高了19.3~27.0%;这进一步证实了本发明比目前广泛使用的偏最小二乘法对氨基酸含量的预测准确性更高。

表3本发明与偏最小二乘法对麦麸米糠8种氨基酸含量预测精度比较

与传统广泛应用的偏最小二乘法相比,本发明对饲料和饲料原料氨基酸含量的预测精度更高。本发明技术适用于畜牧养殖和饲料研发行业中经济、快速地量化饲料和饲料原料中氨基酸含量。

以上为本发明的最佳实施方式,依据本发明公开的内容,本领域的普通技术人员能够显而易见地想到一些雷同、替代方案,均应落入本发明保护的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1