一种基于图注意力网络的芳香硝基化合物毒性预测方法

文档序号：36411054发布日期：2023-12-19 00:05阅读：59来源：国知局

本发明涉及化合物毒性预测，特别是一种基于图注意力网络的芳香硝基化合物毒性预测方法。

背景技术：

1、芳香硝基化合物，由于制备容易、价格较低和稳定性好，广泛应用于染料、炸药、农药、香料、医药、塑料、涂料等化学工业生产中，是最大的化工原料。芳香族硝基化合物属中等毒到低毒类，具有免疫毒性、皮肤致敏性、生殖细胞变性、致突变性和致癌性，在工业生产和使用中，主要以废水、粉尘和蒸气等形式污染环境，影响人体健康。本类物质大多能氧化血红蛋白为高铁血红蛋白，使它失去携氧功能，严重时能引起中枢神经系统兴奋症状及其它神经系统症状，如头部沉重、头胀、头晕、头痛、耳鸣、手指麻木、全身乏力等等。因此，为防止芳香族硝基化合物对环境的污染和人体的危害，应该在化合物研发或应用的早期进行其毒性评价。因此，如何及时、快速、准确预测芳香族硝基化合物分子毒性具有重要价值。

2、随着计算机技术和化学生物学技术的迅猛发展，越来越多的统计学方法应用到构建化合物性质预测模型领域。当前主流的分子毒性预测方法为基于定量构效关系(quantitative structure activity relationship，qsar)与机器学习结合的模型来预测分子性质。该方法主要通过分析化合物结构特征与毒性之间的关系，建立与结构相关的毒性预测模型。目前，分子结构特征主要通过第三方化学软件根据优化的化学结构计算分子描述符、分子指纹等分子结构相关变量。经典机器学习算法有随机森林、支持向量机、朴素贝叶斯模型和决策树等，通过简单非线性模型来捕捉结构和分子毒性之间复杂的关系，将输入特征在模型中进行映射进而预测结果。

3、随着深度学习的快速发展，其在计算机辅助药物设计、分子毒性预测等方面逐渐得到广泛应用。duvenaud等提出的基于神经网络的分子指纹的端到端分子性质预测模型。近年来，图神经网络(graph neural networks，gnn)在生物化学领域的应用变得越来越流行，研究表明该模型的性能表现良好，在测试集精度方面要高于传统机器学习方法。

4、传统预测模型存在以下缺点：

5、1)传统机器学习方法只能处理固定大小的输入，学习能力不足；

6、2)需要采用特定化学软件先对化学分子进行3d生成和结构优化；

7、3)需要运用特定化学软件生成和使用特定的分子描述符，不同的化学分子结构优化和分子描述符计算软件会导致生成的分子描述符差异很大，特别是三维及以上分子描述符；同时，描述符在计算的时候本身就需要用一些公式对化合物的性质或结构进行概括，这相当于加大了模型学习的不确定性。

技术实现思路

1、有鉴于此，本发明的目的在于提供一种基于图注意力网络的芳香硝基化合物毒性预测方法，可快速准确预测芳香硝基化合物的急性口服毒性，预测相对误差为0.26，预测准确性接近90％，极大提高化合物结构优化和虚拟筛的效率，可为芳香硝基类化学品生态风险评价和管理提供重要的数据支持。

2、为实现上述目的，本发明采用如下技术方案：一种基于图注意力网络的芳香硝基化合物毒性预测方法，包括以下步骤：

3、步骤1：数据预处理，收集芳香硝基化合物及其毒性数据作为模型数据集，并把化合物分子式转化为图数据，再采用增加自身环回和节点洗牌法进行数据增强；

4、步骤2：建立图卷积神经网络模型，由图卷积边注意力、图卷积、节点信息汇聚三个模块组成；

5、步骤3：实验设置，包括优化器选择、损失函数设计以及学习率设置及其下降策略选择；

6、步骤4：模型评估，采用8种模型评价指标来验证模型的有效性。

7、在一较佳的实施例中，所述步骤1中数据为smiles分子式；smiles分子式通过在化学分子图的深度优先遍历中遇到的符号节点而获得相应的字符串，将分子表示为无信息丢失的完整的分子图结构；在输入图卷积神经网络gcn时，要将smiles分子式转化为图数据，步骤如下：

8、步骤s1：利用深度图学习框架dgl和化学信息学工具rdkit，把待测化合物smiles字符串转化为对应的图数据；

9、一个分子用一个无向图g(v,e)来表示，其中分子中的原子对应节点v，化学键对应边e；提取原子特征包括元素种类、隐含价、价电子、成键、电荷、杂化类型26维信息，边特征包括单键、双键、三键、成环、芳香环、共轭6维信息；如一个smiles分子式:

10、cn1c(＝o)c2＝c(c＝c(c＝c2)[n+]([o-])＝o)c1＝o，经转化获得一张图，其节点数为15，边数为32，每个节点的特征为26维向量，每条边的特征为6维向量，即把每一个分子转为为固定形状的图结构；

11、步骤s2：采用增加自身环回和节点洗牌法进行数据增强；自身环回指的是给每个节点加上自己和自己的环回，让网络能找到和自身的关系；节点洗牌指的是把一个图的节点打乱，但边的位置保持不变。

12、在一较佳的实施例中，步骤2中，图卷积神经网络由图卷积边注意力、图卷积、节点信息汇聚三个模块组成；

13、设图中节点vi在第l层所对应的特征向量为其中n为图节点个数，f为节点的特征维数；定义邻居节点vj对vi的边注意力权重如下：

14、

15、其中，权重矩阵w∈rf′×f，用来对节点的特征进行线性变换，向量为注意力权重向量，||表示向量拼接，leakyrelu为激活函数，eij为计算所得的边注意力系数；

16、接着，按此公式计算节点vi与所有邻居节点的注意力系数，然后用softmax函数对每个注意力系数进行归一化操作，如对eij的归一化：

17、

18、其中，k表示节点i的所有邻居节点；得到节点i与所有邻居节点的归一化权重系数后，通过图注意力层进行节点的信息提取，输出的特征向量计算公式如下：

19、

20、其中σ为激活函数，中遍历的j表示所有与i相邻的节点，输出的节点特征即为经注意力层后提取的信息；

21、经注意力机制获得每个节点的新特征后，再经过四层的图卷积网络，每层网络通过聚合节点邻居的信息来更新节点的特征表示，更新节点信息并拟合化合物毒性数据的公式：

22、

23、其中a为邻接矩阵，d为度矩阵，h为特征矩阵，w为参数矩阵，l为图卷积层数，gelu为激活函数，mlp为多层感知机；

24、在sum_node模块中，模块将会单独聚合图中所有节点的信息输出结果，在sum_dge模块中，模块将会单独聚合图中所有边的信息输出结果,最后融合次两种信息，即可得到分子毒性预测值。

25、在一较佳的实施例中，步骤3中，训练轮次50，优化器使用adamw，学习率设为1e-2，损失函数选用平滑l1损失,学习率下降策略选择余弦退火法；网络训练时,输入图和对应的节点特征与边特征；

26、

27、在一较佳的实施例中，步骤4中，使用平均相对误差mae、决定系数r2、q2f1和q2f2对模型拟合度和对外预测能力进行评价，同时采用5-折交叉验证方法对模型内部稳定性进行评价。各评价指标公式如下：

28、

29、

30、

31、

32、

33、与现有技术相比，本发明具有以下有益效果：

34、本方案提出一种基于图注意力网络的芳香硝基化合物毒性预测方法，仅需提供待测化合物的simles字符串，就可快速准确预测芳香硝基化合物的急性口服毒性，预测相对误差为0.26，预测准确性接近90％，极大提高化合物结构优化和虚拟筛的效率，可为芳香硝基类化学品生态风险评价和管理提供重要的数据支持。

35、本方案包含数据预处理、图卷积神经网络、实验设置与模型评估四分内容。数据预处理模块，包含分子式图转化与数据增强操作，分子式图转化利用深度图学习框架dgl(deep graph library)和化学信息学工具rdkit，把待测化合物smiles字符串转化为对应的图数据，数据增加采用增加自身环回和节点洗牌法。图卷积神经网络由图卷积边注意力(edgegatconv)、图卷积(graphconv)、节点信息汇聚(readout_node)三个模块组成。实验设置包含实验参数设置、损失函数设计。模型评估包含平均相对误差(mae)、决定系数r2、q2f1和q2f2等指标对模型拟合度和对外预测能力进行评价。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈梅妹李灿东杨朝阳王洋
技术所有人：福建中医药大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、司老师：1.制浆造纸 2.植物资源精细化工与化学 3.生物质精炼 4.天然产物化学
2、薛老师：1.CRISPR-Cas系统 2.基因编辑 3.基因修复 4.天然产物合成 5.单分子技术开发与应用
3、戴老师：1.天然药物（中药）合成生物学研究 2.酵母生物学与工程化研究
4、孟老师：1. 基于糖类的抗肿瘤药物的合成和活性评价及糖类疫苗的研制 2.功能糖类的化学酶法合成及构效关系研究 3.多糖及仿生材料功能的开发及应用
5、满老师：1.天然产品的提取分离与活性研究 2.天然产物活性与安全性评价 3.中药组方配伍机制研究
如您是高校老师，可以点此联系我们加入专家库。