一种无花果采收时间点的预测方法

文档序号:25300759发布日期:2021-06-04 13:05阅读:87来源:国知局
1.本公开涉及一种无花果采收时间点的预测方法。
背景技术
::2.公开该
背景技术
:部分的信息仅仅旨在增加对本公开的总体背景的一些理解,而不必然被视为承认或以任何形式暗示该信息构成已经成为本领域一般技术人员所公知的现有技术。3.无花果(ficuscaricalinn.),属于桑科榕属,起源于中东是人类最早种植的植物之一,并且是全世界用于干燥和新鲜食用的重要农作物。无花果富含纤维、多糖、多酚、铁,钾和钙等微量元素的营养水果。无花果果肉柔软,味甜,具有健脾清肠、润肺利咽和提高免疫力等功效。4.目前确定无花果较佳采收时间是主要是根据经验和目测判断,获得的结果缺乏一定的客观性和准确性,难以在现代生产和营销中心应用。随着无花果产业规模化和集约化进程的加快,传统的采收时间点的预测技术已经不能适应无花果产业发展的需求。技术实现要素:5.针对以上
背景技术
:,本公开提出一种无花果采收时间点的预测方法,该预测方法快速、方便和准确。6.具体的,本公开采用以下技术方案:7.在本公开的第一个方面,提供一种关于预测无花果采收时间点的f值预测模型的建立方法,该方法包括以下步骤:8.采用随机森林算法,输入变量为近红外光谱矩阵x,变量x构成cart决策树的特征空间,综合指标f值向量为输出变量y,建立f值预测模型;9.其中,近红外光谱为训练集中无花果预处理后的近红外光谱值;10.综合评价值f是通过以下方法计算得到的:11.对训练集中无花果糖度、单果重、横径、纵径和硬度指标进行主成分分析(pca),统计其成分得分系数矩阵和各成分的贡献率,通过成分得分系数矩阵建立各主成分的计算表达式;12.根据综合评价值函数计算并获得训练集中每个无花果的综合评价值f,其中权数为贡献率fi,记主成分为13.在本公开的第二个方面,提供一种无花果采收时间点的预测方法,该方法包括以下步骤:14.(1)将第一个方面中所述的建立方法获得的f值向量进行最大最小标准化,将f数据范围化到[0,1],则为成熟度(%);计算公式为:[0015]成熟度(%)=(f‑min(f))/(max(f)‑min(f));[0016](2)基于近红外光谱预测待测样品的f值:[0017]测定待测样品的近红外光谱,然后对测定的近红外光谱数据进行预处理,通过所述f值预测模型,获得待测样品的f值;[0018](3)计算待测样品的成熟度:[0019]将步骤(2)中的待测样品的f值代入步骤(1)中所述成熟度的计算公式,获得待测样品的成熟度;[0020](4)以成熟度为输入变量x,预设时间点为输出变量y,采用多项式拟合方法得出无花果采收时间点预测模型,根据此模型可计算并获得无花果采收时间点。[0021]与本发明人知晓的相关技术相比,本公开其中的一个技术方案具有如下有益效果:[0022]本公开采用随机森林算法建立综合评价值f与近红外光谱之间的预测模型,随机森林算法是一种灵活的,便于使用的机器学习算法,在本公开中,即使没有超参数调整,也会产生较好的效果,且具有强大的拟合能力和不易过拟合的性能,算法稳定。[0023]采用拟合得出的多项式对验证集进行预测,得出预测值与真实值的判定系数(拟合优度)接近1,误差较小,表明采用综合评价f值关联生长天数和近红外光谱得到的预测模型能够较好地预测无花果采收时间点。附图说明[0024]构成本公开一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。[0025]图1是无花果的原始光谱。[0026]图2是无花果成熟度和实际生长天数的多项式拟合曲线。[0027]图3是无花果真实生长天数与预测生长天数的散点分布图。具体实施方式[0028]应该指出,以下详细说明都是示例性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属
技术领域
:的普通技术人员通常理解的相同含义。[0029]需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作和/或它们的组合。[0030]正如
背景技术
:所介绍的,目前现有的无花果采收时间点的预测方法存在不准确和不客观等缺点,为了解决如上的技术问题,本公开的基本思路是:先选择一个样本群体,根据样本群体的特征指标‑无花果糖度、单果重、横径、纵径和硬度进行主成分分析,通过主成分分析降维得到个数较少的主成分指标,根据各主成分指标计算特征值f(或称综合指标f值),通过大量试验验证,特征值f与成熟度存在一定线性关系,通过将特征值f进行标准化,将标准化后的特征值f与生长天数进行关联,即可获得成熟度与生长天数的关系;而样本群体的特征指标‑无花果糖度、单果重、横径、纵径和硬度与近红外光谱具有一定的关系,从而建立近红外光谱与特征值f的联系。基于此,在本公开的第一个典型的实施方式中,提供一种关于预测无花果采收时间点的f值预测模型的建立方法,该方法包括以下步骤:[0031]采用随机森林算法,输入变量为近红外光谱矩阵x,变量x构成cart决策树的特征空间,综合指标f值向量为输出变量y,建立f值预测模型;[0032]其中,近红外光谱为训练集中无花果预处理后的近红外光谱值;[0033]综合评价值f是通过以下方法计算得到的:[0034]对训练集中无花果糖度、单果重、横径、纵径和硬度指标进行主成分分析(pca),统计其成分得分系数矩阵和各成分的贡献率,通过成分得分系数矩阵建立各主成分的计算表达式;[0035]根据综合评价值函数计算并获得训练集中每个无花果的综合评价值f,其中权数为贡献率fi,记主成分为[0036]在本公开的一个或一些实施方式中,所述方法基于python的scikit‑learn库进行建模。[0037]在本公开的一个或一些实施方式中,随机森林算法模型中选择基学习器数量为100,随机数种子为0。[0038]在本公开的一个或一些实施方式中,输入变量为近红外光谱矩阵x,矩阵x由m个自变量x1,x2,...,xm组成,m为波长数,变量x构成cart决策树的特征空间;综合指标f值向量为输出变量y,由n个因变量y1,y2,...,yn组成,n为样本个数;n个样本作为训练集数据构成训练样本空间,则训练数据集d为:[0039]d={(x1,y1),(x2,y2),...,(xn,yn)}。在本公开的一个实施例中,m为125,n为252。[0040]在本公开的一个或一些实施方式中,选取939.07‑1025.79nm、1149.68‑1236.40nm、1422.23‑1508.95nm或全波段光谱进行建模。优选的,选择全波段光谱(900‑1700nm)进行建模。[0041]在本公开的一个或一些实施方式中,对近红外光谱进行预处理的方法包括但不限于:未处理(原始)、多元散射校正(msc)、标准正态变量(snv)、baseline、baseline+snv、smoothing、1阶导数+msc、2阶导数+msc。经过验证,smoothing预处理后的全波段光谱结果较好(rp^2=0.8798,rmsep=0.2832)较高的r^2和较低误差,该模型较为优良。[0042]在本公开的一个或一些实施方式中,综合评价值函数为m为选取的主成分数。[0043]在本公开的一个或一些实施方式中,[0044]其中x1为糖度,x2为单果重,x3为纵径,x4为横径,x5为硬度,输入数据需要z_score方法标准化;其中a1i,a2i,a3i,a4i,a5i为成分得分系数矩阵。[0045]在本公开的一个实施例中,将252个无花果样本作为训练集。[0046]在本公开的一个实施例中,总样本数为360个,将样本分为两份,比例为7:3,将70%作为训练集,30%作为测试集。[0047]在本公开的第二个典型的实施方式中,提供一种无花果采收时间点的预测方法,该方法包括以下步骤:[0048](1)将第一个典型的实施方式中所述的建立方法获得的f值向量进行最大最小标准化,将f数据范围化到[0,1],则为成熟度(%);计算公式为:[0049]成熟度(%)=(f‑min(f))/(max(f)‑min(f));[0050](2)基于近红外光谱预测待测样品的f值:[0051]测定待测样品的近红外光谱,然后对测定的近红外光谱数据进行预处理,基于随机森林算法,通过所述f值预测模型,获得待测样品的f值;[0052](3)计算待测样品的成熟度:[0053]将步骤(2)中的待测样品的f值代入步骤(1)中所述成熟度的计算公式,获得待测样品的成熟度;[0054](4)以成熟度为输入变量x,预设时间点(实际生长天数)为输出变量y,采用多项式拟合方法得出无花果采收时间点预测模型,根据此模型可计算并获得无花果采收时间点。[0055]在本公开的一个或一些实施方式中,步骤(2)中,选取939.07‑1025.79nm、1149.68‑1236.40nm、1422.23‑1508.95nm以及全波段光谱(900‑1700nm)四个波段测定待测样品的近红外光谱。优选的,选择全波段光谱(900‑1700nm)测定待测样品的近红外光谱。[0056]在本公开的一个或一些实施方式中,步骤(2)中,对近红外光谱进行预处理的方法包括但不限于:未处理(原始)、多元散射校正(msc)、标准正态变量(snv)、baseline、baseline+snv、smoothing、1阶导数+msc、2阶导数+msc。对测定的近红外光谱数据优先选择采用smoothing进行预处理。[0057]在本公开的一个或一些实施方式中,步骤(4)中,根据每一个样本的成熟度对每个样本设立生长时间,经由实验观测,果实生长至成熟为d天,则设立生长时间点的范围在[10,d],由于成熟度过于低的果实可根据人工判断,则本预测方法采用成熟度>50%的样本,并采用多项式拟合。在本公开的一个实施例中,d优选为60。[0058]进一步的,多项式拟合采用excel完成。[0059]在本公开的一个实施例中,步骤(4)中,无花果采收时间点预测模型y=1.0373x‑32.187,r2=0.8963,rmsep=3.47。[0060]为了使得本领域技术人员能够更加清楚地了解本公开的技术方案,以下将结合具体的实施例详细说明本公开的技术方案。[0061]实施例1[0062]1材料与试验方法[0063]1.1试验材料[0064]无花果取自山东荣成。样本采集后立即送检,光谱扫描完成后立即用质构仪测定无花果质构。然后在‑4℃的低温环境下保存,并于当日完成检测。[0065]1.2光谱采集[0066]使用mirconir近红外光谱仪(美国海洋光学公司)。在测量之前,仪器需预热1小时。测量时于白天正常情况下进行,保证近红外光纤探头尽量与被测无花果样品表面接触,避免表面反射和空气干扰。测量系统采用漫反射模式;对于每个无花果样品,在沿着无花果赤道随机选择的5个不同位置获得光谱,每个位置扫描1000次。因此,每个得到5个数据,并将平均值作为该样品的光谱。[0067]1.3样本的糖度、单果重、横径、纵径和硬度的测定[0068]糖度测量采用手持式糖度计测定,糖度测定时进行3次平行实验,最后取平均值。[0069]单果重测量工具为天平。[0070]横纵经测量工具为普通的游标卡尺。[0071]硬度测定采用质构仪(ta.xtplus型,英国stablemicrosystems公司),使用p100探头。测定的参数设置为:下降速度与测试速度为1.0mm/s,提升速度为1.0mm/s,测试深度30.0mm,记录探入过程中所需的应力(g)。所得质构特征曲线图的最大正峰值为硬度。[0072]2模型方法[0073]2.1f值预测模型[0074]为了消除指标之间的相关影响,减少指标选择的工作量对于其他评价方法,研究使用对所有指标进行pca,并使用综合评价函数计算其综合评价值f,其反映了该主成分包含原始数据的信息量占全部信息量的比重,权数为贡献率,这样确定权数是客观的,合理的,它克服了某些评价方法中认为确定权数的缺陷,通过综合评价值f可很好的评价多个指标。[0075]2.2采收时间点预测模型[0076]本研究采用多项式建立对预设时间点和成熟度之间的关系式。多项式拟合实现简单,通过对阶数的调整,可得到合适的模型。[0077]3数据分析[0078]3.1样本数据[0079]随机森林算法模型总样本数为360个,将样本分为两份,比例为7:3。将70%作为训练集,30%作为测试集(以下建模实验皆在此划分上)。[0080]3.2主成分分析[0081]训练集对糖度、单果重、横径、纵径和硬度指标进行pca,统计其成分得分系数矩阵,各成分的贡献率。通过成分的得分矩阵可建立各主成分的计算表达式,并通过此表达式计算出剩余测试集样本的各主成分。[0082]3.3综合评价值f与成熟度计算[0083]根据综合评价值函数计算综合评价值,其中权数为贡献率fi,记主成分为则综合评价值f计算式为:[0084][0085]由于f值范围有正有负,则将f值向量进行最大最小标准化,将f数据范围化到[0,1],则为成熟度(%)。计算公式为:[0086]成熟度(%)=(f‑min(f))/(max(f)‑min(f))[0087]3.4f值预测模型[0088]研究基于python的scikit‑learn库进行建模。对于随机森林算法,输入变量为近红外光谱矩阵x,矩阵x由m个自变量x1,x2,...,xm组成,m为波长数,变量x构成cart决策树的特征空间;综合指标f值向量为输出变量y,由n个因变量y1,y2,...,yn组成,n为样本个数。针对于本研究,共计样本数360个,由以上分出的训练集70%,预测集30%作为划分。n个样本作为训练集数据构成训练样本空间,则训练数据集d为:[0089]d={(x1,y1),(x2,y2),...,(xn,yn)}[0090]光谱采用多种预处理方法及其组合,原始,msc,snv,baseline,baseline+snv,smoothing,1阶导+msc,2阶导+msc。[0091]3.5时间点拟合模型[0092]根据每一个样本的成熟度对每个样本设立生长时间,经由实验观测,果实生长至成熟为60天,则设立生长时间点的范围在[10,60],由于成熟度过于低的果实可根据人工判断,则本文采用成熟度>50%的样本,并采用多项式拟合。多项式拟合实现简单,直接采用excel完成,将预测出来的f值经公式计算成熟度,以成熟度为输入变量x,预设时间点为输出变量y,使用样本共计231个,其中173个样本作为训练集,剩下的58个作为验证集。(将以上划分的训练集和验证集剔除成熟度<50%的样本后)[0093]4模型评价[0094]使用模型的决定系数r2来衡量模型的拟合优劣,同时使用训练集与实际值的偏差(rmsec)和验证集和实际值的偏差(rmsep)评估模型的性能。均方根误差是预测值与实际值的偏差的平方和样本数n的比值的平方根,用于评价模型的整体性能,均方根误差的计算公式为:[0095][0096]决定r2的计算公式为:[0097][0098]其中ssr是回归平方和,sst是总平方和,是样本预测值,yi是第i个样本的测量值。[0099]5实验结果[0100]5.1近红外光谱波段的选择[0101]图1为光谱波长范围在950‑1700nm所测得的无花果近红外光谱原始图。由图可知,光谱趋势非常相似,主要吸收峰位于970nm、1119.24nm、1459.40nm处,且1459.40nm处较为强烈,三者间存在不同的吸收率。970nm处是由于水和碳水化合物的吸收;1119.24nm属于c‑h键的第二泛音和o‑h键的组合;1459.40nm附近的吸收带对应于与水有关的o‑h键拉伸的第二和第一振动泛音。本研究选取939.07‑1025.79nm,1149.68‑1236.40nm,1422.23‑1508.95nm以及全波段光谱(900‑1700nm)四个波段范围进行建模。[0102]5.2主成分分析[0103]本研究主成分分析使用软件spss22.0,对糖度,单果重,横径,纵径,硬度指标进行pca,主成分1贡献率66.77%,主成分2贡献率25.211%,累计贡献率91.88%,已经能解释大部分变异,则选择前两个主成分,其成分得分系数矩阵为表1:[0104]表1成分得分系数矩阵[0105]成分\指标糖度单果重纵径横径硬度10.2900.2910.2680.216‑0.1112‑0.126‑0.1240.2100.4460.720[0106]由表1可得主成分表达式如下:[0107]pc1=0.290*x1+0.291*x2+0.268*x3+0.216*x4‑0.111*x5[0108]pc2=‑0.126*x1‑0.124*x2+0.210*x3+0.446*x4+0.720*x5[0109](其中x1为糖度,x2为单果重,x3为纵径,x4为横径,x5为硬度,输入数据需要z_score方法标准化)[0110]并通过主成分表达式和综合评价值函数计算得出每个样本的f值。[0111]5.3f值预测结果及成熟度[0112]使用随机森林算法建立f值与光谱不同预处理方式的预测模型,随机森林模型中选择基学习器数量为100,随机数种子为0,结果如表2所示:[0113]表2近红外光谱的预处理方法及结果[0114][0115][0116][0117]由表2对比可得经过smoothing预处理后的结果较好(rp^2=0.8798,rmsep=0.2832)较高的r^2和较低误差,该模型较为优良。[0118]则可将预测出的f值带入标准化公式计算出成熟度。统计f值分布范围为max=1.2758,min=‑1.2502。则由此确定成熟度计算方式为:[0119]成熟度(%)={(f‑(‑1.2502))/(1.2758‑(‑1.2502))}x100%[0120]通过此公式可得出每个预测样本的成熟度。[0121]5.4多项式拟合结果[0122]根据将成熟度>50%的样本的70%的训练集,经多项式拟合得出,得出其拟合的r^2以及多项式的各项系数,经实验得出,多项式次数为1次拟合即可达到很好(y=1.0373x‑32.187,r2=0.8963,rmsep=3.47),拟合如图2所示。[0123]采用拟合得出的多项式对验证集进行预测,得出预测值与真实值的r^2=0.88,误差rmsep=2.78。其真实天数与预测天数的散点分布如图3所示。[0124]6结论[0125]采用拟合得出的多项式对验证集进行预测,得出预测值与真实值的r^2=0.88,误差rmsep=2.78,表明采用综合评价f值关联生长天数和近红外光谱得到的预测模型能够较好地预测无花果采收时间点。[0126]上述实施例为本公开较佳的实施方式,但本公开的实施方式并不受上述实施例的限制,其他的任何未背离本公开的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本公开的保护范围之内。当前第1页1 2 3 当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1