一种基于SMILES字符串和基团贡献为广义机器学习模型输入特征以预测离子液体表面张力的方法

文档序号:37425499发布日期:2024-03-25 19:13阅读:12来源:国知局
一种基于SMILES字符串和基团贡献为广义机器学习模型输入特征以预测离子液体表面张力的方法

【】本发明属于化工物理化学与计算化学领域,具体涉及一种基于smiles字符串和基团贡献为广义机器学习模型输入特征以预测离子液体表面张力的方法。

背景技术

0、
背景技术:

1、离子液体是一种由有机阳离子和无机或有机阴离子构成的有机盐,在室温或接近室温时呈现液态状态,因此也被称为室温离子液体。这种特殊类型的液体具有许多显著特性:具有广泛的液态温度范围;其蒸汽压接近于零,几乎不挥发;对许多无机和有机物质具有良好的溶解能力,并具备溶剂和催化剂的双重功能;此外,离子液体的设计灵活性极强等优势特点。这些独特的性质使得离子液体在许多领域中表现出独特的优势,传统有机溶剂难以比拟。近年来,离子液体的研究受到了国际科学界广泛的重视和关注。表面张力是液体(包括固体)表面的基本物理化学特性之一。深入了解离子液体的表面界面性质(包括界面张力)对于更好地研究和揭示离子液体在各个领域的相互作用的内在本质至关重要。它有助于我们认识界面结构,理解界面分子之间的相互作用,对于各种与离子液体相关的工业过程的开发、设计、模拟和工业生产都具有重要意义。

2、使用计算模型作为实验的替代方案在广泛研究和设计新型离子液体中变得越发可取。计算化学和建模研究展现了巨大的潜力,因为它们能够更迅速、更安全、成本更低地支持未来离子液体的设计。特别是,结合人工智能领域的深度学习方法,能够有效地学习数据之间的本质关系,并准确地预测离子液体的表面张力。这种方法使得计算模型成为研究和设计新型离子液体的理想选择。本发明设计了一种基于smiles字符串和基团贡献为广义机器学习模型输入特征以预测离子液体表面张力的方法。

3、本发明利用特征工程构建了高质量数据集并通过smiles字符串和基团贡献为分子描述符作为模型输入,使用网格搜索优化算法优化了深度神经网络模型,以决定系数、均方根误差、平均绝对相对偏差为深度神经网络模型测试结果的三个评价指标。本发明解决实验测定离子液体表面张力过程中操作繁琐和工作量大的难题,并通过shap值的方法来解释开发的深度神经网络模型,可以快速准确地评估离子液体的表面张力。


技术实现思路

0、
技术实现要素:

1、[要解决的技术问题]

2、本发明的目的是提供一种基于smiles字符串和基团贡献为广义机器学习模型输入特征以预测离子液体表面张力的方法,解决实验方法测定离子液体表面张力过程中操作繁琐、费时费力的难题。

3、[技术方案]

4、本发明提供一种基于smiles字符串和基团贡献为广义机器学习模型输入特征以预测离子液体表面张力的方法,利用特征工程构建了高质量数据集并通过smiles字符串和基团贡献为分子描述符作为模型输入,使用网格搜索优化算法优化了深度神经网络模型,得到的模型可用于精准的预测训练数据集以外未知的离子液体的表面张力,在目前离子液体数量庞大但是其表面张力数据缺乏的情况下,可有助于快速的评估和预测离子液体的表面张力。

5、本发明所述的深度神经网络模型其特征是可进行离子液体表面张力的评估和预测,步骤如下:

6、步骤1:收集咪唑类、吡啶类、吡咯类等离子液体表面张力的实验数据,构建离子液体数据库及各个离子液体的smiles格式表示方法。数据库包括289种离子液体的2168个数据点,含82种阳离子,69种阴离子。

7、步骤2:通过特征工程从原始数据集特征中标记选择一部分不符合要求的缺失值、只有单一特征值以及高度线性相关的特征并去除;使用化学信息包rdkit根据分子的smiles表达,计算并生成分子描述符。采用基团贡献方法将离子液体结构分解为一阶、二阶和三阶官能团,每个不同官能团的数量用作预测因子。

8、步骤3:以网格搜索优化算法来优化搭建的深度神经网络模型,主要包括模型中激活函数、优化器、学习率、正则化项、隐藏层数和神经元数量等参数;

9、步骤4:步骤3所述的深度神经网络模型的输入参数input=m×n,m=1,n=406;

10、步骤5:步骤3所述的深度神经网络模型的激活函数为logistic;

11、步骤6:步骤3所述的深度神经网络模型的优化器为lbfgs;

12、步骤7:步骤3所述的深度神经网络模型的学习率为0.001;

13、步骤8:步骤3所述的深度神经网络模型的正则化项为0.65;

14、步骤9:步骤3所述的深度神经网络模型的隐藏层为2;

15、步骤10:步骤3所述的深度神经网络模型的神经元数量为(18,12);

16、步骤11:将步骤1中得到的离子液体数据进行拆分训练集,验证集,测试集,占比0.8:0.1:0.1;

17、步骤12:步骤11中的训练集送入深度神经网络进行学习,验证集用于验证模型准确度和超参数的配置,以测试集的评估评分进行评价表面张力的预测结果。

18、[有益效果]

19、本发明与现有技术相比,具有取下有益效果:

20、(1)本发明的有益效果是基于网格搜索方法优化深度神经网络模型并利用shap值方法计算特征重要性;

21、(2)解决了实验数据缺乏,实验方法测定离子液体表面张力耗时费力的问题;

22、(3)本发明的深度神经网络模型可准确预测训练数据集以外未知离子液体的表面张力数据并关联表面张力与特征间的关系。



技术特征:

1.一种基于smiles字符串和基团贡献为广义机器学习模型输入特征以预测离子液体表面张力的方法,其特征在于实现该方法的步骤包括:

2.根据权利要求1所述的一种基于屏蔽电荷密度描述符的机器学习模型用于预测离子液体中二氧化碳溶解度的方法,其特征在于:离子液体数据库包括6173个离子液体实验数据点,含37种阳离子,21种阴离子。

3.根据权利要求1所述的一种基于smiles字符串和基团贡献为广义机器学习模型输入特征以预测离子液体表面张力的方法,其特征在于:模型的激活函数为logistic、优化器为lbfgs、学习率为0.001、正则化项为0.65、隐藏层数为2,神经元数量为(18,12)。

4.根据权利要求1所述的一种基于smiles字符串和基团贡献为广义机器学习模型输入特征以预测离子液体表面张力的方法,其特征在于:训练集的决定系数为0.994、均方根误差为0.269、平均绝对相对偏差0.36%;测试集的决定系数为0.992、均方根误差为0.773、平均绝对相对偏差0.81%。


技术总结
本发明涉及一种基于SMILES字符串和基团贡献为广义机器学习模型输入特征以预测离子液体表面张力的方法,利用特征工程构建了高质量数据集并通过SMILES字符串和基团贡献为分子描述符作为模型输入,使用网格搜索优化算法优化了深度神经网络模型,实现了离子液体的表面张力预测,训练集的决定系数为0.994、均方根误差为0.269、平均绝对相对偏差0.36%;测试集的决定系数为0.992、均方根误差为0.773、平均绝对相对偏差0.81%。本发明解决实验测定离子液体表面张力过程中操作繁琐和工作量大的难题,并通过SHAP值的方法来解释开发的深度神经网络模型,可以快速准确地评估离子液体的表面张力。

技术研发人员:韩明明,孟凡庆,潘如玉,王媛,郭娟,王英龙
受保护的技术使用者:青岛科技大学
技术研发日:
技术公布日:2024/3/24
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1