本发明涉及生物发酵领域,尤其是涉及一种基于机器学习的模型对质粒发酵过程的温度变化进行预测的方法及系统。
背景技术:
1、近年来,许多病毒性传染病已经无法通过传统疫苗预防,例如灭活疫苗和减毒疫苗。dna疫苗的出现改善了这种情况。核酸疫苗的研究已经成为近十几年疫苗研发领域的热点。由于它能够引发体液和细胞免疫反应,同时在生产性、稳定性和储存方面显示出相关的优势,因此它的研究具有深远的意义。随着核酸疫苗研究不断深入,质粒dna作为核酸疫苗的载体也受到了重视。
2、质粒dna发酵工艺与蛋白表达、氨基酸发酵不同,其产量不会随着发酵时间的积累而逐渐增加,而是会随着宿主菌的生理状态变化而波动。质粒属于胞内表达产物,在质粒发酵工艺中,其产量和质量都会受到微观菌体代谢状态和宏观发酵环境的影响。如果受环境刺激而导致代谢水平变化很有可能造成质粒的丢失或复制受阻,从而影响质粒的生产效率。因此为了稳定宿主菌的生理状态,质粒发酵工艺要求更为精确。目前比生长速率和温度被认为是影响质粒产量的关键因素。较低的比生长速率进行培养可获得较高的质粒产量。然而,较高的比生长速率导致细胞分裂速率过快,游离的质粒没有“充足的时间”去进行自我复制,因此会导致单位菌体质粒含量较少甚至质粒丢失。但通过控制比生长速率来生产质粒,对营养供给有很高的要求,营养不足导致代谢强度下降,营养过盛导致代谢旺盛。目前大多数的质粒发酵都是采用变温工艺实现质粒产量的高产,低温进行生物量的积累,高温诱导质粒合成。但升温过程的快慢决定着质粒合成的稳定性以及质粒的超螺旋结构。只有超螺旋结构的质粒才能达到有效的治疗效果。因此,质粒发酵过程温度的精准控制是质粒高产量和高质量的关键。
3、随着机器学习在生物学中的运用,使发酵智能化成为了可能,从而减少了发酵过程控制对人工经验的依靠。截止目前还没有报道机器学习预测变温发酵的过程方法,如果机器学习结合生物学,以现有的发酵数据为数据集,可以合理的预测出变温发酵的过程模型,实现机器代替人工走向发酵智能化,这将避免了人为操作失误而导致的损失,同时还大幅度降低生产成本。
技术实现思路
1、本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于机器学习的质粒发酵变温过程预测方法及系统。
2、本发明的目的可以通过以下技术方案来实现:
3、作为本发明的第一方面,提供一种基于机器学习的质粒发酵变温过程预测方法,其特征在于,所述方法包括如下步骤:
4、对发酵数据进行预处理以构建特征矩阵;
5、基于构建的特征矩阵,进行预测模型算法的选择;
6、对所选的预测模型算法进行超参数优化;
7、对所述特征矩阵进行特征因子分析并建立生物学约束;
8、结合生物学约束,利用所选的预测模型将温度作为预测参数进行整个质粒发酵过程的温度预测。
9、进一步,所述预处理包括对数据进行筛选、清洗、连续化与整合;构建所述特征矩阵的具体步骤包括:
10、收集所要预测变温过程的发酵数据;
11、结合生物学分析挑选所需要的特征参数;
12、对所选择的特征参数进行发酵动力学模型拟合,使特征参数连续并去除测量导致的误差;
13、将相关参数进行整合,构建特征矩阵。
14、进一步,所述发酵数据中包括生物学特征参数:温度、时间、生物量、底物累计消耗量、比生长速率、通气流量、体积、搅拌、氧气消耗速率、二氧化碳释放速率、呼吸商、单位菌体二氧化碳释放速率、单位菌体氧气消耗速率和单位菌体质粒产量。
15、进一步,所述预测模型算法选择具体步骤包括:
16、运用多种不同的机器学习算法对所述的矩阵作为数据集进行建模以预测升温方式;
17、各机器学习算法模型在默认的模型参数下进行k-fold交叉验证;
18、以r2作为结果得分评估模型质量,选取质量最高的模型作为预测模型。
19、进一步,所述机器学习算法包括:
20、梯度提升回归、偏最小二乘回归、随机森林和三种不同核函数的svm:支持向量机-线性核;支持向量机-多项式核与支持向量机径-向基核函数。
21、进一步,所述特征因子分析采用皮尔逊相关系数分析,根据菌体正常的生理代谢水平建立生物学约束。
22、进一步,在预测结束后,将得出的预测模型进行验证,并将其验证实验的发酵数据继续作为样本集继续训练。
23、作为本发明的第二方面,提供一种基于机器学习的质粒发酵变温过程预测系统,其特征在于,所述系统应用如上所述的质粒发酵变温过程预测方法进行变温过程预测,包括:
24、发酵数据预处理模块,用于对发酵数据进行收集、筛选、清洗,采用发酵动力学模型拟合使数据连续化,对数据进行整合后构建特征矩阵;
25、预测模型算法选择模块,基于特征矩阵,运用多种不同的机器学习算法构建模型,对默认参数下的模型进行质量评估,选取质量最高的模型作为预测模型;
26、超参数优化模块,用于对所选的预测模型进行超参数优化;
27、特征因子分析模块,用于对所述特征矩阵采用皮尔逊相关系数对特征因子分析,并建立生物学约束;
28、温度预测模块,用于结合生物学约束,利用所选的预测模型将温度作为预测参数进行整个发酵过程的温度预测。
29、作为本发明的第三方面,提供一种电子设备,包括:
30、一个或多个处理器;
31、存储器,其上存储有一个或多个程序,
32、当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上所述的质粒发酵变温过程预测方法。
33、作为本发明的第四方面,提供一种计算机可读介质,其上存储有计算机程序,
34、所述程序被处理器执行时实现如上所述的质粒发酵变温过程预测方法的步骤。
35、与现有技术相比,本发明具有以下有益效果:
36、(1)本发明将机器学习与生物发酵相结合,以高产质粒批次的发酵数据为样本进行训练,分析每个特征参数之间的相关性,采用监督学习模型对发酵过程温度进行精准预测。本方法实现了质粒发酵变温过程智能化,摆脱对人工发酵经验的依赖,同时避免了人为操作上的失误,提高生产效率,降低生产成本。
37、(2)本发明通过对发酵数据进行发酵动力学模型拟合,一方面可以使离散的发酵数据进行连续化处理,对缺省值进行符合生物学的补充;另一方面可以通过动力学方程的运算更加深入的分析过程参数与菌体生理状态的关系。
38、(3)本发明对选用模型进行超参数优化,可以提高模型低未知样本的鲁邦性,通过调整参数可以进一步提高预测模型的质量,并且可以实现对未知质粒产量的预测。
39、(4)本发明将后续验证实验的发酵数据继续作为样本集继续训练,用于模型建模,进一步提高了模型的质量。
1.一种基于机器学习的质粒发酵变温过程预测方法,其特征在于,所述方法包括如下步骤:
2.根据权利要求1所述的一种基于机器学习的质粒发酵变温过程预测方法,其特征在于,所述预处理包括对数据进行筛选、清洗、连续化与整合;构建所述特征矩阵的具体步骤包括:
3.根据权利要求1所述的一种基于机器学习的质粒发酵变温过程预测方法,其特征在于,所述发酵数据中包括生物学特征参数:温度、时间、生物量、底物累计消耗量、比生长速率、通气流量、体积、搅拌、氧气消耗速率、二氧化碳释放速率、呼吸商、单位菌体二氧化碳释放速率、单位菌体氧气消耗速率和单位菌体质粒产量。
4.根据权利要求1所述的一种基于机器学习的质粒发酵变温过程预测方法,其特征在于,所述预测模型算法选择具体步骤包括:
5.根据权利要求4所述的一种基于机器学习的质粒发酵变温过程预测方法,其特征在于,所述机器学习算法包括:
6.根据权利要求1所述的一种基于机器学习的质粒发酵变温过程预测方法,其特征在于,所述特征因子分析采用皮尔逊相关系数分析,根据菌体正常的生理代谢水平建立生物学约束。
7.根据权利要求1所述的一种基于机器学习的质粒发酵变温过程预测方法,其特征在于,对得出的预测模型进行验证,并将其验证实验的发酵数据继续作为样本集继续训练。
8.一种基于机器学习的质粒发酵变温过程预测系统,其特征在于,所述系统应用如权利要求1-7中任一所述的质粒发酵变温过程预测方法进行变温过程预测,包括:
9.一种电子设备,其特征在于,包括:
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,