基于机器学习的人参总皂苷含量预测方法、系统、设备和介质

文档序号:37462905发布日期:2024-03-28 18:46阅读:14来源:国知局
基于机器学习的人参总皂苷含量预测方法、系统、设备和介质

本发明属于基于机器学习的图像处理,具体涉及基于机器学习的人参总皂苷含量预测方法、系统、设备和介质。


背景技术:

1、目前人参总皂苷含量的预测方法主要以近红外漫反射和近红外透射光谱法为主,利用化学计量学方法建模预测。对人参原药材固体样品进行近红外漫反射光谱采集,对人参提取液体样品进行近红外透射光谱采集,获取的近红外光谱数据进行多元散射校正、平滑处理,同时通过高效液相色谱法或比色法测定人参样品中总皂苷的真实含量,最后利用偏最小二乘方法建立近红外光谱的校正模型和预测模型。

2、这些近红外预测方法虽然具有原位、快速检测的特点,但无论是近红外漫反射还是近红外透射采样,所获取的光谱信息仅仅是单个采样点的光谱数据(点采集),即使重复多次、多点采集光谱也不能有效、全面地反映人参整体的光谱信息全貌特征(信息量少),同时重复采样时人为控制因素较大且耗时、耗力,因此利用少量的光谱信息所建立的预测模型的真实性也有待商榷。

3、因此,有必要建立一种基于人参整体的光谱信息全貌特征的人参总皂苷含量预测模型,并基于该预测模型来更准确地预测人参总皂苷含量。


技术实现思路

1、本发明提供了基于机器学习的人参总皂苷含量预测方法、系统、设备和介质,以解决现有技术中的现有预测模型无法反映人参整体的全貌光谱特征进而难以准确反映总皂苷真实含量的难题。

2、在第一个方面,本发明提供了一种基于机器学习的人参总皂苷含量预测模型的构建方法(下文简称“本发明的构建方法”),包括下述步骤:

3、1)获得若干个人参样品的900~1700nm波段的高光谱图像以及所述人参样品的人参总皂苷含量的真实数据;

4、2)对所述若干个人参样品的高光谱图像进行裁剪处理,将裁剪的图像通过镶嵌处理形成一个主体文件,并将所述主体文件的高光谱数据进行反射率校正,将原始图像的遥感影像像元亮度dn值(下文简称dn值)转换为图像的相对反射率r值(下文简称r值);

5、3)对经过反射率校正后的主体文件的高光谱数据基于r值进行感兴趣区域(下文简称roi)提取,生成多个主体文件感兴趣区域;

6、4)将所述多个主体文件感兴趣区域作为样本数据,按比例3:1随机分割为两部分,分别记为建模数据集和验证数据集;

7、5)将所述主体文件感兴趣区域的高光谱数据进行主成分分析(下文简称pca)运算处理,使用协方差矩阵计算,提取反映人参的主体光谱信息的主要特征波段的光谱信息,剔除无用波谱信息;

8、6)根据单波段成像饱和度选取通过主成分分析处理获得的前10个主要波段区间,进行建模波段的选择,从选择的建模波段中选取相关性最高的两个波段的r值的比值作为自变量,以所述人参总皂苷含量的真实数据作为因变量,利用随机分割得到的建模数据集构建一元线性回归模型作为所述人参总皂苷含量预测模型。

9、在本发明中,人参样品的900~1700nm波段的高光谱图像可以通过高光谱成像仪对人参样品扫描并采集900~1700nm波段的数据获得。

10、在本发明的构建方法的一个实施方案中,在步骤2)中所述主体文件的生成可以包括:根据人参形状边缘裁剪每个人参的高光谱图像,裁剪区域外部的部分生成为掩膜文件,将若干个裁剪后的图像进行基于像元的镶嵌合并处理,形成主体文件。

11、在一个实施方案中,反射率校正可以通过下述公式进行:

12、

13、式中,r表示经过校正后的图像的相对反射率,ir表示原始图像的dn值,iw表示白板图像的dn值,ib表示用不透明盖覆盖镜头获得的暗参考图像的dn值。

14、在一个实施方案中,在步骤3)中,感兴趣区域(roi)提取的方法可以为:在人参形状边缘范围以内,利用任意多边形roi提取工具绘制感兴趣区域。

15、在本发明的构建方法的另一个实施方案中,所述自变量可以通过以下步骤选取:对选择的建模波段的r值做比值,计算人参总皂苷含量与各波段比值之间的相关系数绝对值;选取相关系数绝对值的数值最高的两个波段的r值的比值作为自变量。

16、在另一个实施方案中,在步骤6)中所述建模波段的选择可以包括以下步骤:根据单波段成像饱和度选取pca提取的前10个主要波段区间,使用svm算法对所述主体文件感兴趣区域进行监督分类运算,得到人参不同特征的分类结果,并对svm特征分类结果进行统计分析和混淆矩阵精度评价,以统计分析结果中的特征波段标准差为指标进行建模波段的选择,通过比较各特征波段的标准差数值,以标准差数值大于0.1为选取依据,选取前8个备选波段作为主要建模波段,然后从所述主要建模波段中选取相关性最高的两个波段的r值的比值作为自变量。

17、在本发明的构建方法中,r值的比值是指在pca处理后的任意像元上8个不同波段图像所对应的r值的比值。“相关性最高”的判断依据是相关系数的数值最高,如图6中的b2/b1波段比值。对于相关系数的计算方法可以采用excel中的correl函数计算,相关系数绝对值可以采用excel中的abs函数计算。

18、在一个实施方案中,使用svm算法对所述主体文件感兴趣区域进行监督分类运算可以包括以下步骤:

19、s100.对建模数据集中的每一个主体文件感兴趣区域样本,提取主要特征波段对应的人参样品的r值的平均值,作为该主体文件感兴趣区域样本的分类信息;

20、s110.将建模数据集中所有主体文件感兴趣区域样本分为不同的类别,其中来源于同一个人参样品的主体文件感兴趣区域样本分为同一类别;

21、s120.根据建模数据集中各个主体文件感兴趣区域样本所属的类别和各个主体文件感兴趣区域样本的分类信息,构建用于对所有样本分类的支持向量机;

22、s130.在验证数据集上确定每个主体文件感兴趣区域样本的预测类别,根据验证数据集中每个主体文件感兴趣区域样本的实际类别和预测类别,确定分类混淆矩阵,并根据分类混淆矩阵确定当前的支持向量机在不同类别的分类精度;

23、s140.计算当前的支持向量机的总准确率,所述总准确率定义为,验证数据集中支持向量机预测正确的主体文件感兴趣区域样本的数量除以验证数据集中全部主体文件感兴趣区域样本的数量得到的比值;

24、s150.判断总准确率是否大于预设的准确率阈值,如果大于预设的准确率阈值,则进行到s170步骤,如果不大于预设的准确率阈值,则执行步s160步骤;

25、s160.更新建模数据集中主体文件感兴趣区域样本所属的类别,返回至s110,按照更新后的建模数据集中各主体文件感兴趣区域样本的类别,构建新的支持向量机,并继续检验新的支持向量机的总准确率,重复该过程直到获得总准确率大于预设的准确率阈值的支持向量机为止,然后执行s170步骤;

26、s170.将在s150或s160中确定的支持向量机所获得的人参不同特征的分类结果进行统计分析,以统计分析结果中的特征波段标准差为指标进行建模波段的选择。

27、在第二个方面,本发明提供了一种人参总皂苷含量预测方法,包括以下步骤:接收待测人参样品的900~1700nm波段的高光谱图像;对所述待测人参样品的高光谱图像进行裁剪处理,将裁剪的图像通过镶嵌处理形成一个主体文件,并将所述主体文件的高光谱数据进行反射率校正,将原始图像的dn值转换为图像的相对反射率r值,对经过反射率校正后的主体文件的高光谱数据基于r值提取主体文件感兴趣区域,生成多个主体文件感兴趣区域;将所述主体文件感兴趣区域的高光谱数据进行主成分分析运算处理,使用协方差矩阵计算,提取反映人参主体光谱信息的主要特征波段的光谱信息,然后根据单波段成像饱和度选取通过主成分分析获得的前10个主要波段区间,进行建模波段的选择,从选择的建模波段中选取相关性最高的两个波段的r值做比值;将计算得到的r值比值输入到通过根据本发明的构建方法构建的人参总皂苷含量预测模型来预测所述待测人参样品的人参总皂苷含量。

28、在第三个方面,本发明提供了一种人参总皂苷含量预测系统,包括:数据接收模块,所述数据接收模块被配置成接收待测人参样品的900~1700nm波段的高光谱图像;特征提取模块,所述特征提取模块被配置成对所述待测人参样品的高光谱图像进行裁剪处理,将裁剪的图像通过镶嵌处理形成一个主体文件,并将所述主体文件的高光谱数据进行反射率校正,将原始图像的dn值转换为图像的相对反射率r值,对经过反射率校正后的主体文件的高光谱数据基于r值提取主题文件感兴趣区域,生成多个主体文件感兴趣区域;计算模块,所述计算模块被配置成将所述主体文件感兴趣区域的高光谱数据进行主成分分析运算处理,使用协方差矩阵计算,提取反映人参主体光谱信息的主要特征波段的光谱信息,然后根据单波段成像饱和度选取通过主成分分析获得的前10个主要波段区间,进行建模波段的选择,从选择的建模波段中选取相关性最高的两个波段的r值做比值;含量预测模块:所述含量预测模块被配置成将由所述计算模块计算得到的r值比值输入到通过本发明的构建方法构建的人参总皂苷含量预测模型来预测所述待测人参样品的人参总皂苷含量。

29、在第四个方面,本发明提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现本发明的人参总皂苷含量预测方法。

30、在第五个方面,本发明提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本发明的人参总皂苷含量预测方法。

31、在本发明的构建方法中,用于构建人参总皂苷含量预测模型的人参样品可以是来自不同产地、不同品种、不同年龄的人参样品。产地可包括国内常见的产区,例如,吉林省、辽宁省、黑龙江省、山东省等人参、西洋参、高丽参种植区。品种可包括但不限于园参、西洋参、高丽参、林下山参、野山参及其加工品如红参、黑参、大力参等。人参样品的年龄可为3年生至80年生。人参样品的数量一般不少于56个。

32、在一个具体实施方案中,在光谱扫描时,摆放人参样本时要突出每一颗人参样品的特征,不要重叠紧密摆放。光谱扫描条件的一个实例如下:高光谱成像仪的镜头与人参的距离为25~35cm;平台移动速度为3mm/s;积分时间为3ms,帧频为20帧/秒。每个人参样品光谱扫描次数可以为3次。

33、在本发明的构建方法中,在建模波段的选择中,选取前10个波段区间的依据是:经pca处理后的单波段图像可以识别出噪声,前10个波段区间能有效剔除噪声的干扰,涵盖了样品特征的主要波谱信息。

34、与现有技术相比,本发明具有如下有益技术效果:

35、采用通过本发明的构建方法构建的人参总皂苷的预测模型预测人参总皂苷含量,不仅具有原位、快速、准确、无损的特点,而且还具有“面采集”的优势,能有效弥补“点采集”的不足,即单次扫描采集即可获得人参原药材表面全部光谱信息和图像信息,预测结果信息更加全面、具体、形象。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1