基于m5’模型树实现配方产品的感官指标预测方法

文档序号:6533865阅读:632来源:国知局
专利名称:基于m5’模型树实现配方产品的感官指标预测方法
技术领域
本发明涉及一种数据预测分析的方法流程,具体地是在配方产品的生产过程中建立一种可预测出感官质量指标的方法。
背景技术
现有配方产品的制造行业,如日常消费使用卷烟、食品、香料、食品添加剂等,所采用的配方组分及其比例关系到原料及其成品的质量和等级评定。例如对于卷烟制品,通常是以香型风格、刺激性、劲头等指标来加以评定,以向消费者标明其不同等级。研究配方产品的配方组分与理化和感官指标之间的关系,进而提高产品制造品质、提高等级产品的评定是一项数据处理量较大的工作,一直也是由行业专家进行研究、力求获得内在规律的工艺改进方向。
对于现有配方产品以往的评定工作是依靠行业专家通过现场品尝的方式、凭借个人的感官体验来划分等级、优劣。配方产品的生产企业虽然经过长期的生产管理而积累了一定数量的专家评估数据,但是由于执行质量评定的是个人行为,因而这些评估数据本身不可避免地存在诸多人为因素。如专家在质量评定过程中,会受其本人情绪、身体状况、个人感官喜好、以及感受疲劳程度等因素的干扰,在客观上存在着感觉误差,最终反映在配方产品的等级划分不准确、难以进行生产工艺的进一步提高和优化。而且,组织专家进行质量评估也需较高的费用和大量时间。
现有的改进方案是采用人工神经网络(BP网络)来预测感官指标。但此类BP网络来预测感官指标需要修改的参数较多,对不同的指标要根据其特点选择不同的参数,如隐层单元个数、动量系数、学习率等。在实际应用中,如何估计隐层神经元的数目,一直是确定BP网络结构的困难和关键,而且目前尚无严格的理论依据。另外,形成感官指标的数据构成条件较为复杂,如产地、气候、土壤等因素对于指标数据的影响较大。应对不同的数据建立不同的预测模型,则产生工作量大、调整参数较困难等诸多问题。

发明内容
本发明所述基于M5’模型树实现配方产品的感官指标预测方法,其目的在于解决上述问题和不足而通过构造基本的决策树,然后在剪枝阶段对各节点建立线性回归模型、同时减去部分子树以防止过拟合,最后采用平滑过程降低由样本量较少所造成的模型分段点处的非线性,从而建立能够较准确描述理化数据与各个感官指标之间的相关性模型,以建立体现其内在规律的快捷预测系统。
本发明所述的感官指标预测方法,其核心是将M5’模型树引入预测流程中,以实现配方产品评定专家提供的知识数据与设备机器学习技术相结合。
所谓决策树,是一种应用广泛的机器学习技术(记载参考文献,WITTEN,I.H.,FRANK,E.,1999.DATA MININGPRACTICAL MACHINE LEARNING TOOLS ANDTECHNIQUES WITH JAVA IMPLEMENTATIONS.MORGAN KAUFMANN,SAN FRANCISCO.)。
决策树可以应用于数据分类、以及对于数据的预测。决策树由表示类的叶节点和表示分类条件的内部节点组成。从上至下诱导决策树是一种普遍的处理方法,可使分类过程从一个根节点开始,不断产生子树,直到产生叶结点为止。
由于在解决数值预测(针对连续值的预测)的问题中,是无法应用现行基本的决策树,因此本发明将决策树与线性回归结合起来并生成M5’模型树。
应用M5’模型树的关键在于首先,根据信息增益最大化的原则产生基本的决策树,按对输出影响的显著性找出分裂属性和相应的分裂值;然后,对基本的决策树进行剪枝、防止过拟合;最后,对剪枝模型进行平滑;平滑能够有力地提高预测精度,尤其适用于由少量的训练样本数据所产生的模型树。
M5’模型树,实际是一种分段线性函数。M5’模型树与典型的回归方程一样,其通过一系列的独立变量(称为属性)来预测一个变量的值(称为类)。
以表的形式表示的训练数据可以直接用来构造决策树。在数据表中,每一行(样本)表示为(x1,x2,...xN,y),其中xi表示第N个属性的值,y是类值(目标值)。
对于给定的数据集,典型的线性回归算法只能给出单一的回归等式,但M5’模型树可将样本空间分为边缘相互平行的长方形区域,对每个分区确定一个相应的回归模型。
M5’模型树,在每个内部节点测试某个特定属性的值,在每个叶节点预测类值。当给定一个新的数据样本时,可以用来预测其类值,树从根节点开始解释。在每个内部节点,根据样本某一特定属性值来选择左枝或右枝,当选择的节点是叶节点时,则由叶节点的模型预测输出。
M5’模型树的结构是递归产生的,由整个训练样本集开始。在模型树的每一层,选择最有识别力的属性作为子树的根节点,到达此节点的样本根据其节点属性的值,被分为若干子集。
从统计结果上来讲,能最大限度地减少目标属性集合的方差的属性是最有识别力的。M5’模型树采用方差(VARIANCE)诱导作为启发方法,在叶节点填充常数值作为模型。对离散属性来说,内部节点的每一分枝表示父节点的属性的一种可能取值。对连续的属性,算法将确定一个分段点,从而根据此分段点产生两个分支。对模型树的每个子树,都递归地调用这种构造方法。
当到达某节点的样本的类属性集合的方差或样本个数足够小时,树的构造方法停止,此节点为叶结点。
剪枝(PRUNING)是避免树对训练样本过学习的一种重要方法。可以在构造树的过程中进行剪枝(PRE-PRUNING),或在构造基本的树以后进行剪枝(POST-PRUNING)。
M5’模型树采用后剪枝的方式,在剪枝阶段如果内部节点的线性模型的性能不低于此节点的子树的性能,则将此内部节点变为一个包含线性模型的叶节点。节点的线性模型可能包含的属性仅是其子树的所有属性,是在到达此节点的样本子集上线性回归产生的。
对于平滑过程,M5’模型树是在剪枝后直接进行平滑处理。即将内部节点的线性模型合并到叶节点的模型中。在预测时,当样本从树的根节点到达某叶节点时,仅用叶节点的线性模型预测输出。
将样本的当前预测值与所到达节点的线性模型的预测值联系起来,直到到达根节点。平滑点表达式为p′=np+kqn+k.]]>其中,p′为当前节点传递到父节点的预测值,p是从子节点传递到当前节点的预测值,q是当前节点的线性模型的预测值,n为到达子节点的样本数,k为平滑常数。
对树的叶节点按照编号进行平滑,设当前叶节点为当前节点。如果当前节点的父节点为非空,则用父节点的线性回归模型平滑当前叶节点的线性模型,平滑后模型的属性为当前叶节点当前模型的属性Y是当前节点的父节点模型的属性,第i个属性对应的相关系数表达式是newcoeff[i]=np+kqn+k,]]>其中,n为到达当前节点的样本数,k为平滑常数(通常k=15)。
将当前节点的父节点设为当前节点,继续平滑;如果当前节点的父节点为空,平滑结束,得当前叶节点的平滑模型。
所述的M5’模型树,是由一系列分段线性模型组合起来的全局模型,实现处理配方产品存在的复杂数据与感官指标之间的相关性预测方法所需的非线性。
本发明所述基于M5’模型树实现配方产品的感官指标预测方法,其流程是检测配方产品的原料和成品的各项理化数据、感官指标,组织行业专家对其单料和成品进行评定,并将所得数据记录作为该方法的样本数据集;根据专家的行业经验剔除掉错误或特异的样本数据;根据产地、等级、风格等指标参数,将整理后的数据样本分为若干组样本集;对某组样本集进行数据预处理,包括剔除目标值缺失的样本、填补输入属性值缺失的样本和将离散属性值转换为连续属性值;根据信息增益最大的原则,选择分裂属性和分裂值,由根节点递归地建立基本的决策树;对基本的决策树从叶节点递归地由下到上进行剪枝,直到到达根节点;如果内部节点的线性模型的性能不低于此节点的子树的性能,则将此内部节点变为一个包含线性模型的叶节点;节点的线性模型可能包含的属性仅是其子树的所有属性,是在到达此节点的样本子集上线性回归产生的;在剪枝后直接平滑,将内部节点的线性模型合并到叶节点的模型中;在预测时,当样本从树的根节点到达某叶节点时,仅用叶节点的线性模型预测输出;得到所有原料理化数据与感官指标之间形成的分段线性模型,流程整体结束。
综上所述,本发明所述基于M5’模型树实现配方产品的感官指标预测方法,其优点和有益效果是1、通过应用此类预测方法所建立的预测系统,可以解决现有专家进行评定时受其主观因素所造成的人为影响。
2、应用该类方法更为简单、数据预测速度更快、效率也更高。
3、该方法所建立的相关性模型直观、清晰,可直接解决配方产品的单料和成品质量控制和等级划定。


图1是所述基于M5’模型树实现配方产品的感官指标预测方法流程图。
图2是应用如图1流程进行卷烟香型的建模预测流程图。
具体实施例方式
实施例1,如图1所示,应用所述基于M5’模型树实现配方产品的感官指标预测方法,对于与卷烟香型感官指标相关的理化数据预测流程是检测单料烟、成品烟的理化指标,烟气分析指标,组织行业专家对单料烟和成品烟进行评吸,将所得数据记录作为算法的样本集;根据专家的行业经验剔除错误或特异样本;根据产地、等级、风格等指标将整理后的数据样本分为若干组样本集;对某组样本集进行数据预处理,包括剔除目标值缺失的样本、填补输入属性值缺失的样本和将离散属性值转换为连续属性值;根据信息增益最大的原则,选择分裂属性和分裂值,由根节点递归地建立基本的决策树;对基本的决策树从叶节点递归地由下到上进行剪枝,直到到达根节点。如果内部节点的线性模型的性能不低于此节点的子树的性能,则将此内部节点变为一个包含线性模型的叶节点。节点的线性模型可能包含的属性仅是其子树的所有属性,是在到达此节点的样本子集上线性回归产生的;在剪枝后直接平滑,将内部节点的线性模型合并到叶节点的模型中。在预测时,当样本从树的根节点到达某叶节点时,仅用叶节点的线性模型预测输出;得到所有烟叶理化指标与感官、烟气的分段线性模型。
任务结束。
如图2所示,应用M5’模型树针对卷烟感官指标中的香型与烟气中的CO为例进行相关性预测分析。
香型的M5’模型为总糖<=26.1K<=2.19LM1(88/70.575%)K>2.19K<=3.035Cl<=0.39总氮<=1.85LM2(3/78.187%)总氮>1.85LM3(9/60.543%)Cl>0.39LM4(34/98.289%)K>3.035LM5(16/105.789%)总糖>26.1LM6(94/106.778%),其中,LM1,香型=-0.0131*总糖-0.644*总烟碱+0.0629*施木克值-0.1972*糖碱比+7.5537;LM2,香型=0.0648*总糖-0.3288*总烟碱-0.0671*还原糖+1.4019*总氮-1.3315*Cl+1.6809*K+0.0629*施木克值-0.0806*糖碱比-0.1932*钾氯比+0.6876;LM3,香型=0.0648*总糖-0.3288*总烟碱-0.0671*还原糖+1.2669*总氮-1.3315*Cl+2.1067*K+0.0629*施木克值-0.0806*糖碱比-0.1932*钾氯比+0.0757;LM4,香型=0.1171*总糖-0.4038*总烟碱-0.0671*还原糖+1.5779*总氮-0.7337*Cl+0.3629*K+0.0629*施木克值-0.0578*糖碱比-0.1208*钾氯比+2.4177;LM5,香型=0.1402*总糖-0.156*总烟碱-0.132*还原糖+0.3752*总氮-1.8351*Cl-0.3795*K+0.0629*施木克值-0.0522*糖碱比-0.1156*钾氯比+6.4475;LM6,香型=-0.0198*总糖+0.4856*总烟碱-0.8497*总氮+0.0953*施木克值-0.0099*糖碱比+3.9963。
香型的M5’模型树如图2所示。
由香型M5’模型树所预测的,香型分值以总糖、K、Cl、总氮这四个属性值的不同划分区间,4个指标在不同区域对香型的影响或正或负。
总的来讲,总糖对香型的影响在9项输入属性中最大,表现为总糖值较小和较大时为负相关(香型由浓香向清香转变),中间区域为正相关(香型由清香向浓香转变)。K、总氮基本与香型成正相关、Cl为负相关,可以解释为K促进燃烧、Cl抑制燃烧,燃烧越充分,则香味越浓。
如上所述,即是所述基于M5’模型树实现配方产品的感官指标预测方法。
权利要求
1.一种基于M5’模型树实现配方产品的感官指标预测方法,其特征在于所述方法的流程是,检测配方产品的原料和成品的各项理化数据、感官指标,组织行业专家对其单料和成品进行评定,并将所得数据记录作为该方法的样本数据集;根据专家的行业经验剔除掉错误或特异的样本数据;根据产地、等级、风格等指标参数,将整理后的数据样本分为若干组样本集;对某组样本集进行数据预处理,包括剔除目标值缺失的样本、填补输入属性值缺失的样本和将离散属性值转换为连续属性值;根据信息增益最大的原则,选择分裂属性和分裂值,由根节点递归地建立基本的决策树;对基本的决策树从叶节点递归地由下到上进行剪枝,直到到达根节点;如果内部节点的线性模型的性能不低于此节点的子树的性能,则将此内部节点变为一个包含线性模型的叶节点;节点的线性模型可能包含的属性仅是其子树的所有属性,是在到达此节点的样本子集上线性回归产生的;在剪枝后直接平滑,将内部节点的线性模型合并到叶节点的模型中;在预测时,当样本从树的根节点到达某叶节点时,仅用叶节点的线性模型预测输出;得到所有原料理化数据与感官指标之间形成的分段线性模型。
2.根据权利要求1所述的基于M5’模型树实现配方产品的感官指标预测方法,其特征在于所述的预测方法是将决策树与线性回归结合起来并生成M5’模型树;应用M5’模型树建模时采用后剪枝方式,在剪枝阶段如果内部节点的线性模型的性能不低于此节点的子树的性能,则将此内部节点变为一个包含线性模型的叶节点;节点的线性模型可能包含的属性仅是其子树的所有属性,是在到达此节点的样本子集上线性回归产生的。
3.根据权利要求2所述的基于M5’模型树实现配方产品的感官指标预测方法,其特征在于所述达到当前预测值与当前节点的平滑点预测值p′,满足下述表达式p′=np+kqn+k,]]>其中,p是从子节点传递到当前节点的预测值,q是当前节点的线性模型的预测值,n为到达子节点的样本数,k为平滑常数。
全文摘要
本发明所述基于M5’模型树实现配方产品的感官指标预测方法,其目的在于解决上述问题和不足而通过构造基本的决策树,然后在剪枝阶段对各节点建立线性回归模型、同时减去部分子树以防止过拟合,最后采用平滑过程降低由样本量较少所造成的模型分段点处的非线性,从而建立能够较准确描述理化数据与各个感官指标之间的相关性模型,以建立体现其内在规律的快捷预测系统。所述的感官指标预测方法,其核心是将M5’模型树引入预测流程中,以实现配方产品评定专家提供的知识数据与设备机器学习技术相结合。
文档编号G06F19/00GK1828306SQ20051004247
公开日2006年9月6日 申请日期2005年3月1日 优先权日2005年3月1日
发明者丁香乾, 于树松, 宫会丽, 侯瑞春, 胡瑞, 冯天瑾, 石硕, 尹君华, 杨宁, 于锋 申请人:中国海洋大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1