本发明涉及一种多元统计方法的应用,具体地说,涉及一种改进的偏最小二乘回归法在微生物培养基优化中的应用。
背景技术:
偏最小二乘回归(plsr)是一种新型的多元统计方法,原因是它集合了多元线性回归、主成分分析和典型相关分析的优点,研究表明plsr善于处理常规线性回归无法解决的多重共线性、小样本等问题,且能利用有限的数据,同时进行多自变量对多因变量的回归操作。
然而,另一方面,plsr经常表现出一种过拟合的倾向,原因由提取混杂噪音的潜变量个数较多而导致。过拟合是一种统计学现象,一般指可以非常完美的拟合建模数据,但无法可靠预测新添加的数据,也就是拟合精度高而预测精度差。当前解决plsr过拟合的方法主要集中在如何提取最合适的潜变量个数上面,主要方法有马斯洛统计学方法,赤池信息量准则(aic),贝叶斯信息准则(bic)和交叉验证法(cv),其中cv是最常用的方法。此外,变量筛选可以通过剔除冗余变量与保留有用信息使过拟合的风险成分降低。
技术实现要素:
本发明的目的在于提供一种改进的偏最小二乘回归法在微生物培养基优化中的应用,整合交叉验证和变量筛选的技术以降低plsr潜在的过拟合问题,即首先通过“留一法”交叉验证提取合适数目的潜变量,然后利用基于变量投影重要性(vip)技术的变量筛选方法并结合回归模型决定系数的稳健准则建立简约,稳健,特别是预测精度高的模型。
其具体技术方案为:
一种改进的偏最小二乘回归法在微生物培养基优化中的应用,包括以下步骤:
步骤1.培养基配方基于均匀设计进行设计与配置,并接种热纤梭菌进行培养,然后分别测定生物量(od600)、二糖消耗量、乙醇浓度、乙酸浓度和酸度下降值,并均作为发酵响应。用二次多项式表征培养基均匀设计配比和发酵响应之间的数学关系,并用皮尔逊相关系数法分析培养基配比和发酵响应组合矩阵的相关系数。
步骤2.在步骤1中均匀设计实验数据为基础,通过计算交叉验证的r2数值
其中press(h)是响应向量提取h个潜变量时的预测残差平方和;ss(h-1)是响应向量提取h-1个潜变量的均方误差和。press(h)和ss(h)的计算公式分别为,
其中yi为因变量原始数值;yh1是利用所有样本点提取主成分数目分别为t1,t2...th时进行回归拟合的i个样本点的拟合值;yh(-1)表示剔除i个样本点的建模拟合情况。
步骤3.在步骤2确定提取潜变量的最佳数目之后,建立包含所有预测变量的全模型plsr模型,并给出相应的二次多项式回归方程和对应的决定系数r2。
步骤4.利用vip技术评估原始预测变量对因变量向量的重要程度。vip数值的计算公式如下:
其中p为预测变量数目;th为预测变量矩阵x提取的第h个潜变量;r(y,th)为响应变量和潜变量间的相关系数,表示潜变量对响应变量的解释能力;
步骤5.创建改进的plsr模型以减小全模型潜在的过拟合风险。主要是整合vip变量筛选技术和稳健的判定系数准则,即利用步骤4中筛选的显著性预测变量(vip≥0.8),作为新的输入预测变量,对响应向量进行新一轮的plsr建模,反复循环该过程,直到模型中所有的预测变量都是显著变量。然而,变量选择的一般准则是模型决定系数会随着冗余变量剔除的增加而降低,这将降低模型的拟合精度,甚至影响预测精度,所有必须做出权衡:即预测变量筛选过程在相应的vip数值≥0.8且不严重破坏plsr模型稳健性(决定系数相对下降幅度不超过5%)的情况下停止。建立相应的vip-plsr模型,给出对应的决定系数r2,并建立相应预测变量对响应向量的vip矩阵。并绘图比较plsr全模型和vip模型拟合的相对误差。
步骤6.模型的求解与验证。利用遗传算法对生物量、乙酸浓度、乳酸浓度和乙醇浓度的plsr全模型和vip模型的二次多项式进行求解,得出相应的最优解(培养基最佳预测配比)和最优值(响应变量最佳预测值),分别在各自培养基最佳预测配比条件下,测定相应的响应向量,并考察两种模型预测值与实验值的相对误差,考察两种模型的预测精度,确定vip模型对全模型过拟合风险的降低程度。
与现有技术相比,本发明的有益效果:
本发明提出的vip回归模型建立简约,稳健和预测精度高的模型的有效性。可以进一步推广。
附图说明
图1是六个发酵相应全模型与vip模型预测值与实验值的比较图,其中,图1a生物量(od600),图1b糖耗(纤维二糖),图1c乳酸产量,图1d乙酸产量,图1e乙醇产量和图1f酸度变化值。
图2a为生物量(od600)发酵响应遗传算法(ga)优化结果图;
图2b为乳酸产量发酵响应遗传算法(ga)优化结果图;
图2c为乙酸产量发酵响应遗传算法(ga)优化结果图;
图2d为乙醇产量发酵响应遗传算法(ga)优化结果图。
具体实施方式
下面结合附图和具体实施方案对本发明的技术方案作进一步详细地说明。
实施例利用基于一种改进的plsr的培养基优化策略提高热纤梭菌的乙醇耐受性
1.实验材料与测定方法。热纤梭菌atcc35609耐受株(耐受3%(v/v)的外源乙醇),gs-2培养基为初始培养基,培养方法:60℃厌氧(充入10%co2,5%h2和85%n2维持厌氧环境)静置培养,培养48h后,利用比浊法测定菌体生物量,利用高效色谱法(hplc)测定糖消耗、发酵液乙酸浓度、乳酸浓度和乙醇浓度,以及利用酸度计测定发酵液ph下降情况。
2.均匀设计实验。依据plackett-burman实验,mops、酵母粉、柠檬酸钠和纤维二糖浓度分别设定为5、7、3和10g/l,kh2po4、k2hpo4,尿素和feso4·7h2o浓度分别设定为1、3.5、2g/l和1.25mg/l,初始ph设定为7.4。对三种关键成分mgcl2·6h2o,cacl2·2h2o和半胱氨酸盐酸盐,依据均匀设计表u8(45)安排实验,相应的发酵响应见表1所示。
表1均匀设计(u8(45))和实验结果
ax1,x2和x3分别表示mgcl2·6h2o、半胱氨酸盐酸盐和cacl2·2h2o。下同。
由表1知,均匀设计培养基配比组合重构了细胞代谢网络,导致细胞乙醇耐受性(生物量od600的变化来表征)和糖耗,发酵液酸度情况以及三种关键代谢物都发生了改变。其中5号实验生物量最大,达到3.13±0.142,比初始培养基提高198.38%。这说明培养基优化初步成功,并且可以进行进一步的建模优化。
表2变量间相关系数矩阵
a当|r|≥0.950表明显著相关,并用加粗下划线标识。
b当0.950>|r|≥0.800表示强相关,并用加粗斜体标识。
c当0.800>|r|≥0.500表示中等相关,并用粗体标识。
由表2知,预测变量之间,预测变量与响应变量之间,预测变量与响应变量之间存在多种多重相关性,有些甚至是显著相关的,例如
3.基于交叉验证建立全模型偏最小二乘回归
表3提取plsr潜变量的相关指标
注:press(h)是响应向量提取h个潜变量时的预测残差平方和;ss(h-1)是响应向量提取h-1个潜变量的均方误差和;
由留一法交叉验证结果(表3),直到提取三个潜变量后,
表4发酵响应plsr全模型二次多项式回归方程
a粗体标识vip数值大于等于0.8。
由表4知,6种响应变量拟合效果均很好,除了乙酸的回归模型决定系数略微低于0.95(即为0.945)之外,其余5种响应变量决定系数均超过0.95。考察响应变量的模型预测值与建模实验值的相对误差(图1),发现相应散点均步于“0误差线(zeroerror)”周围,并且相对预测误差均小于3%(±3%error),糖耗相对误差甚至小于1%。
表5plsr全模型vip矩阵
a粗体标识vip数值大于等于0.8。
4.利用vip技术评估原始预测变量对相应向量的重要程度
依据前述vip计算公式和均匀设计数据,计算三种关键培养基成分mgcl2·6h2o(x1),半胱氨酸盐酸盐(x2)和cacl2·2h2o(x3)及其平方项和相应交叉项对发酵响应变量的显著性,易知半胱氨酸盐酸盐(x2),cacl2·2h2o(x3),半胱氨酸盐酸盐平方项
表6plsrvip模型的vip矩阵
注:anot标识非入选预测变量;b倾斜数值表示虽然vip数值小于0.8,但是无法继续下一轮vip建模,否则将引起回归模型决定系数急剧下降。
5.改进的plsr减小全模型的过拟合并提高模型预测精度。
依据回归模型中预测变量尽可能显著(vip数值≥0.8),但又不严重破坏plsr模型稳健性的准则,把表5中筛选的显著性预测变量,作为新的输入预测变量,对响应向量进行新一轮的plsr建模,经过一定轮数的循环,直到模型中所有的预测变量都是显著变量,且回归方程决定系数下降小于5%,相应结果见表6所示。经过有限次vip循环建模后,虽然部分预测变量小于0.8.但也非常接近(分别为0.782,0.766和0.773),并且无法剔除这些预测变量进行下一轮的vip回归建模,因为将引发相应回归模型决定系数的显著下降,只能不得已而求其次。除此之外,绝大部分预测变量的vip数值大于或者等于阈值0.8,所以基本结果是可以接受的。并且可以发现,如果循环次数不为1,那么同一个预测变量的vip数值均发生了变化。此外,经过vip回归建模后,响应变量回归方程的复杂性大大降低,一些不显著的冗余变量被剔除,只留下相应的显著(或接近显著)预测变量(表7),这样模型将更加稳健,并且相应的决定系数,除了y2略有上升之外,均有不同程度的下降,这符合前述预判。此外,简化后的vip模型的拟合精度虽然总体比全模型略微差一些,但是响应变量模型预测值和实验值的相对误差绝大部分都小于3%,极少数位于3%相对误差线外缘(图1)。这说明建立的vip模型相当可靠。
表7发酵响应plsr全模型二次多项式回归方程
6.模型的求解与验证
通过遗传算法对生物量、乙酸浓度、乳酸浓度和乙醇浓度的plsr全模型和vip模型进行求解,相应结果见图2a-图2d所示。易知经过有限次迭代(<150),响应变量预测最优值均获得有效收敛,同时获取相应的培养基最优配比(表8)。四个响应变量的plsr全模型和vip模型均具有相应的最优培养基配比,这证明了对全模型进行简化的必要性和vip模型稳健性,而相应的预测最优值却有一些差异(表8)。而相应的最优培养基配比实验验证表明,vip模型整体预测精度大于全模型,说明该模型泛化能力较好。而乙酸的全模型则有一定程度的过拟合现象,即预测误差大于3%,但是相应的vip模型的预测误差则相对小的多,也就是vip模型可以减低全模型的过拟合风险。
表8基于遗传算法的plsr回归模型优化结果及相应的实验验证数值和相对误差
通过案例证明了本发明提出的vip回归模型建立简约,稳健和预测精度高的模型的有效性。可以进一步推广。
以上所述,仅为本发明较佳的具体实施方式,本发明的保护范围不限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可显而易见地得到的技术方案的简单变化或等效替换均落入本发明的保护范围内。