基于内嵌双向长短时记忆的循环对抗神经网络分子生成方法及系统

文档序号:36105560发布日期:2023-11-22 07:05阅读:38来源:国知局
基于内嵌双向长短时记忆的循环对抗神经网络分子生成方法及系统

本发明涉及一种基于内嵌双向长短时记忆的循环对抗神经网络分子生成方法及系统。


背景技术:

1、分子结构决定分子的物理性质和化学性质,分子的物理性质和化学性质反映结构。

2、由于分子空间非常巨大,离散,并且与不同类型的分子杂乱无章,因此直接生成所需性质的分子是一个十分巨大的挑战,随着人工智能的发展,人工智能在药物设计上的应用越来越受到人们的关注。相对于传统的计算机辅助分子设计,人工智能在药物设计上的应用更加注重机器对化学数据库信息的自我学习。它能够通过提取和学习数据,避免一部分化合物设计中的试错路径,同时带来全新的结构,打破药物发现的常规结构壁垒。

3、基于深度学习技术的生成模型在药物设计领域具有重要的创新性和应用价值。生成性深度学习指通过学习已知的药物结构和活性信息,能够通过学习已知的药物结构和活性信息,生成具有潜在生物活性的新化合物。生成模型通常基于smiles字符和分子图进行学习,并通过递归神经网络、强化学习、变分自动编码器、生成性对抗性网络以及基于图卷积的模型等方法进行构建。这些模型不仅引起了广泛的关注和报道,而且在药物设计和发现方面具有创新性和实用性。

4、目前的分子生成模型使用了单一的lstm、resnet或者gan模型进行了分子生成。这些模型在分子生成中仅使用了单向的分子信息,因此,在生成分子的有效性、多样性、成功率以及生成所需特定的性质方面仍有改进空间。如何引入双向的上下文信息,并进行特定分子结构的生成将为药物设计和药物先导化学物优化提供指导和帮助。


技术实现思路

1、本发明是为了解决上述现有技术存在的问题而提供一种基于内嵌双向长短时记忆的循环对抗神经网络分子生成方法。

2、本发明所采用的技术方案有:基于内嵌双向长短时记忆的循环对抗神经网络分子生成方法,其特征在于:包括如下步骤:

3、s1:收集有效化学性质的分子

4、根据需求从已知分子数据库中筛选出符合所需要求的分子,并将筛选的分子以smiles格式储存在有效化学分子数据库中;

5、s2:数据集分类

6、将筛选后的分子按照目标性质以及目标结构分成两类数据集,然后将每类数据集内的分子再随机分成测试集和训练集;

7、s3:训练分子

8、设置分子模型,将测试集与训练集内以smiles字符串形式表示的分子映射到jtvae模型的潜在向量空间,以向量形式输入训练集的分子,通过不断的训练分子模型,最终使分子模型能生成保留目标结构且包含目标性质的分子;以向量形式输入测试集的分子,生成最终的分子;

9、s4:解码

10、将映射到jtvae模型的潜在向量空间的分子以smiles字符串形式输出;

11、s5:对分子性质评价,并以分子图的形式可视化分子。

12、进一步地,步骤s2中,

13、所述目标性质包括:可溶性,药物活性,化学反应性;

14、所述目标结构为:苯环数量,脂肪环数量,氢键受体、供体的数量以及期望的分子骨架。

15、进一步地,分子模型使用循环生成对抗网络的对称形式,包括两个对称布置的生成器和两个对称布置的判别器。

16、进一步地,在每个生成器中引入bilstm;

17、判别器采用一层dense层和一层注意力机制的叠加结构,共进行三次叠加。

18、进一步地,分子模型训练结束后,分子以jtvae模型的潜在向量空间形式保存,在解码时,以smiles字符串形式保存。

19、进一步地,对分子性质评价时,是以filters、valid、novelty这3个指标对分子性质进行分析。

20、本发明还公开了一种基于内嵌双向长短时记忆的循环对抗神经网络分子生成系统,包括

21、存储器,用于存储可执行指令;

22、处理器,用于执行所述存储器中存储的可执行指令时,实现上述的基于内嵌双向长短时记忆的循环对抗神经网络分子生成方法;

23、显示器,用于人机交互,查看执行结果,执行结果包括数据预处理生成的数据集、模型训练的结果、分子解码结果、分子评估结果以及分子可视化结果。

24、本发明具有如下有益效果:

25、本发明将bilstm和注意力机制分别嵌入循环对抗神经网络的生成器和判别器形成一个新的分子模型。将bilstm嵌入生成器中,能捕捉序列的上下文信息,可以更好地建模分子的序列特征,提高生成器的对分子结构的表达能力。同时,将bilstm输出经过降维后与输入相连,改善梯度传递,增强模型学习的能力。将注意力机制嵌入判别器中,帮助判别器将注意力集中于关键特征,增强判别能力,引导生成器生成更加逼真和多样的分子。



技术特征:

1. 基于内嵌双向长短时记忆的循环对抗神经网络分子生成方法,其特征在于:包括如下步骤:

2.如权利要求1所述的基于内嵌双向长短时记忆的循环对抗神经网络分子生成方法,其特征在于:步骤s2中,

3.如权利要求1所述的基于内嵌双向长短时记忆的循环对抗神经网络分子生成方法,其特征在于:分子模型使用循环生成对抗网络的对称形式,包括两个对称布置的生成器和两个对称布置的判别器。

4.如权利要求3所述的基于内嵌双向长短时记忆的循环对抗神经网络分子生成方法,其特征在于:在每个生成器中引入bilstm;

5.如权利要求1所述的基于内嵌双向长短时记忆的循环对抗神经网络分子生成方法,其特征在于:分子模型训练结束后,分子以jtvae模型的潜在向量空间形式保存,在解码时,以smiles字符串形式保存。

6.如权利要求1所述的基于内嵌双向长短时记忆的循环对抗神经网络分子生成方法,其特征在于:对分子性质评价时,是以filters、valid、novelty这3个指标对分子性质进行分析。

7.一种基于内嵌双向长短时记忆的循环对抗神经网络分子生成系统,其特征在于:包括:


技术总结
本发明公开了一种基于内嵌双向长短时记忆的循环对抗神经网络分子生成方法及系统,本发明将BiLSTM和注意力机制分别嵌入循环对抗神经网络的生成器和判别器形成一个新的分子模型。将BiLSTM嵌入生成器中,能捕捉序列的上下文信息,可以更好地建模分子的序列特征,提高生成器的对分子结构的表达能力。同时,将BiLSTM输出经过降维后与输入相连,改善梯度传递,增强模型学习的能力。将注意力机制嵌入判别器中,帮助判别器将注意力集中于关键特征,增强判别能力,引导生成器生成更加逼真和多样的分子。

技术研发人员:谢良旭,张春,陆小花,茅荣智,李柏易,尹祚德,常珊,许晓军
受保护的技术使用者:江苏理工学院
技术研发日:
技术公布日:2024/1/16
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1