基于鲁棒回归建模预测烤片烟气苯并芘的方法

文档序号:6622731阅读:269来源:国知局
基于鲁棒回归建模预测烤片烟气苯并芘的方法
【专利摘要】本发明提供一种基于鲁棒回归建模预测烤片烟气苯并芘的方法,通过已有的烤片理化数据和烟气B[a]P数据建立从理化指标项到烟气B[a]P的模型,对于未知烤片烟气B[a]P样本,可以利用其理化成分数据直接预测烤片烟气B[a]P值。本发明省去了由传统化学方式进行卷制、燃烧、捕捉烟气、检测等步骤;同时,采用鲁棒回归模型,可以有效地避免因理化数据或烟气数据中奇异值样本导致的弊端,很大程度上保证模型的健壮性,这点正是鲁棒回归建模优于普通线性回归建模的优点。实践证明,该模型能够有效地预测烤片的烟气B[a]P值,极大地提高检测效率,降低检测成本。
【专利说明】基于鲁棒回归建模预测烤片烟气苯并芘的方法

【技术领域】
[0001] 本发明涉及一种基于鲁棒回归建模预测烤片烟气苯并芘的方法,属于特定计算模 型【技术领域】。

【背景技术】
[0002] 烟草烟气是一种极为复杂的混合物,它是在卷烟抽吸过程中由烟草燃烧、裂解和 蒸馏而产生的。卷烟制品对于人体的危害性是通过燃吸过程而产生的。烟气中的有害成 分主要是在燃烧过程中形成,而烟气的化学特性是随烟叶原料内在化学成分的变化而变化 的。因此,卷烟烟叶原料的化学特性决定了卷烟烟气的化学特性和安全性。苯并芘(以下简 称:B [a]P)是一类具有明显致癌作用的有机化合物,传统的烤片烟气B [a]P数据的获得方 式是检测烤片燃烧后的烟气中的化学成分指标。通过这种方式获得的烟气数据,需要将烤 片卷制成卷烟燃烧后的烟气进行化学检测,检测过程费时费力且检测成本极高。
[0003] 在线性回归建模中,模型是建立在一定假设条件基础上的,例如被观测样本误差 为标准正态分布。如果误差的分布是非对称或者倾向于离群点,那么进行线性回归建模的 假设是不成立的,参数的估计、置信区间以及其他计算的统计量都是不可靠的。这种情况 下,用鲁棒回归进行模型的建立是非常有效的。鲁棒回归建模包含了一种健壮的拟合方法, 与最小二乘法相比,对于数据中小部分的变异没有那么敏感,提高了模型的可信度。
[0004] 鲁棒回归通过为每个数据点赋予一个权值进行建模。加权是自动的并且是重复 的,这个过程叫做自动重加权最小二乘法。在第一阶段,每个样本点被赋予相同的权重,然 后利用普通的最小二乘法计算得到模型系数。在随后的迭代中,每个样本的点都将重新计 算,那些远离模型预测值的样本点将被赋予较低的权重。之后利用经过加权的最小二乘法 计算模型系数。迭代过程将一直进行下去,一直到模型系数在一个设定的范围波动。
[0005] 因此以鲁棒回归建立一种预测模型由烤片理化数据直接获取烟气B[a]P数据的 方法势在必行。


【发明内容】

[0006] 为解决现有技术检测烤片烟气B[a]P数据的过程费时、费力、成本极高等问题,本 发明提出一种基于鲁棒回归建模预测烤片烟气苯并芘的方法。
[0007] 本发明通过已有的烤片理化数据和烟气B[a]P数据建立从理化指标项到烟气 B [a]P的鲁棒回归预测模型,对于未知烤片烟气B [a]P样本,利用其理化成分数据套用模型 直接预测烤片烟气B[a]P值。具体经过下列各步骤: (1) 将已知烤片的理化数据与烟气B [a] P数据对应列出,建立数据样本集; (2) 分别计算步骤(1)所得数据样本集中各理化数据的列向量Xl?xn和烟气B [a] P数 据的列向量y,通过下列公式分别计算各理化数据与烟气B [a]P的线性相关系数r,线性相 关系数r的绝对值大于0.3所对应的该项理化数据即为对烟气B[a]P有重要影响的特征指 标项,作为建模用的输入变量:

【权利要求】
1. 一种基于鲁棒回归建模预测烤片烟气苯并芘的方法,其特征在于经过下列各步骤: (1) 将已知烤片的理化数据与烟气B [a] P数据对应列出,建立数据样本集; (2) 分别计算步骤(1)所得数据样本集中各理化数据的列向量Xl?xn和烟气B [a] P数 据的列向量y,通过下列公式分别计算各理化数据与烟气B [a]P的线性相关系数r,线性相 关系数r的绝对值大于0.3所对应的该项理化数据即为对烟气B[a]P有重要影响的特征指 标项,作为建模用的输入变量:
式中^为某一理化数据的列向量,为烟气B[a]P数据的列向量; (3) 根据不同产地、品种、档次,均匀挑选245个烤片作为训练样本,运用鲁棒回归线性 建模算法,建立烟气B [a] P预测模型,其表达式为下式: F = + Ι? 二+ ? l· w + ft (2) 式中:Y为烟气B[a]P的模型预测值,X为理化数据向量,b为常数项,A为回归系数向 量; (4) 依据步骤(2)选择的特征指标项,将待测烤片的对应理化数据作为输入变量套用至 步骤(3)的预测模型中,即能测算得到待测烤片的烟气B[a]P的模型预测值Y。
2. 根据权利要求1所述的基于鲁棒回归建模预测烤片烟气苯并芘的方法,其特征在 于:所述步骤(1)的理化数据包括总糖、还原糖、烟碱、总挥发碱、总氮、烟碱氮、蛋白质、施 木克值、氮碱比、氯、钾、糖碱比和氨态碱。
3. 根据权利要求1所述的基于鲁棒回归建模预测烤片烟气苯并芘的方法,其特征在 于:所述步骤(3)运用鲁棒回归线性建模算法的步骤如下: (a) 进行局部权重回归拟合:每一次拟合过程只考虑所有拟合点数的一部分,每一个 被拟合点的取值都由与之邻近的局部拟合范围的散步点所决定,在每一个拟合点处都给予 不同的权重系数$,其权重系数在拟合点处为1,局部拟合范围内拟合点的两边各点的权 重系数依次以一定的规则递减至零,超出拟合范围的数据点处的权重均为0,其代数表达式 为:
式中:1^为每个拟合点的权重系数,&为实测值,为计算值; (b) 按下式计算调整残差:
式中:Q为普通最小二乘法的残差,~为残差调整杠杆值,用于降低影响拟合值较大点 处的权重,T为转置; 标准调整残差由下式给出:
式中:K为调整参数,取4. 685 ;s为鲁棒性偏差;MAD是残差的中值绝对偏差; (c) 按下式计算在局部拟合范围内每一点的鲁棒性权重:
(d) 对于式(2),将常数项b纳入到回归系数向量中,则式(2)简化为:
依据权重最小二乘法求解使得下式取最小值的回归系数向量A,并计算在X(l处的^ 值:
式中:J为权重最小二乘法求解的目标函数。
4. 根据权利要求1所述的基于鲁棒回归建模预测烤片烟气苯并芘的方法,其特征在 于:所述步骤(3)的预测模型通过下列各步骤对拟合性能和推广性能进行评价: 根据不同产地、品种、档次,均匀挑选45个与步骤(3)不同的烤片理化数据作为测试样 本,套用至步骤(3)的预测模型中进行性能测试,预测结果需同时满足如下两个条件,即判 定模型性能达到预测要求: A、 测试样本与训练样本的预测平均误差相当,即为下式所示:
式中:errtMin为预测模型对训练样本的平均误差,en^st为预测模型对测试样本的平 均误差; B、 测试样本的预测值与实际值呈显著的线性相关关系,即为下式所示:
式中为测试样本的预测值,y为测试样本的实测值。
5. 根据权利要求3所述的基于鲁棒回归建模预测烤片烟气苯并芘的方法,其特征在 于:所述步骤(d)的鲁棒性权重若其拟合误差未达到下列拟合误差要求时,从步骤(b)开始 迭代计算,直至误差达到要求或达到限定迭代次数为止:
【文档编号】G06F19/00GK104102851SQ201410386226
【公开日】2014年10月15日 申请日期:2014年8月7日 优先权日:2014年8月7日
【发明者】白晓莉, 彭国岗, 段如敏, 吴丽君, 周桂圆, 王保兴, 卢伟, 刘挺 申请人:云南中烟工业有限责任公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1