用于从分子图生成任务相关的结构嵌入的方法和系统与流程

文档序号:36650922发布日期:2024-01-06 23:35阅读:21来源:国知局
用于从分子图生成任务相关的结构嵌入的方法和系统与流程

本发明的示例涉及用于从几何图生成嵌入的方法和系统,包括从分子图生成嵌入,以用于分子相互作用的计算机辅助预测,例如在计算分子设计应用中。


背景技术:

1、分子图是分子物理结构的表示。分子的原子在分子图中表示为顶点,分子的相邻原子之间的化学键在分子图中表示为边。分子(因此分子的分子图)可以表现出局部对称性,这表示分子中存在两个或两个以上亚结构,这些亚结构在局部基础上(例如,基于直接局部键)基本上彼此相同。分子图是几何图的一种类型,与一些其它类型的几何图(例如,社交图)不同,分子图可以具有许多具有非唯一局部连接的非唯一顶点。

2、在药物设计领域和其它生物医学应用中,分子对称性可能很重要。例如,氨基酸可以具有l和d对映异构体,它们是彼此不可叠加的镜像,并且可以具有不同的活性水平。但是,在开发基于机器学习的药物设计技术时,考虑分子图中的局部对称性仍然是一个挑战。

3、因此,提供一种方案,以实现具有局部对称性的几何图(包括分子图)的准确表示,这将是有用的,该准确表示可用作基于机器学习的系统的输入。


技术实现思路

1、在各种示例中,本发明描述了用于生成任务相关的结构嵌入集合以表示具有局部对称性的分子图的方法和系统。表示候选分子的分子图可以由嵌入生成器接收。分子图由顶点集合和边集合定义,其中,图的每个顶点(“图顶点”)表示候选分子的一个原子,图的每个边(“图边”)表示连接候选分子的两个相邻原子的化学键。嵌入生成器处理候选分子的接收到的分子图,生成和输出结构嵌入集合,该结构嵌入集合提供关于分子图中结构连接性的信息。在生成结构嵌入集合的同时,实现物理模型的模块还生成特征集合,表示图顶点(“图顶点”)的物理特征。每个结构嵌入可以与相应的任务相关特征级联,并作为输入数据提供给分类器,该分类器预测候选分子的类别标签,其中,预测类别标签是指示候选分子是活性分子的第一标签或指示候选分子是非活性分子的第二标签。

2、所公开的方法和系统可以使关于化合物结构的信息能够以比一些现有技术更高的准确性和精度编码。所公开的方法和系统可以使经过训练的分类器能够生成候选分子的类别标签的更准确预测(例如,将分子分类为活性分子或非活性分子),这可以用于分子设计应用(例如,用于药物设计)。

3、虽然本发明描述了分子图和分子设计应用背景下的示例,但本发明的示例可以应用于其它领域。例如,数据可以表示为几何图的任何应用,例如与社交网络、城市规划或软件设计有关的应用,都可以受益于本发明的示例。例如,包括顶点集合和边集合的几何图可用于表示社交网络,其中,几何图中的每个顶点是社交网络中的用户,每个边表示用户之间的连接。本发明的方法和系统可用于将关于社交网络的物理结构和社交网络的每个用户的特征的信息编码为可由经过训练的分类器用于对社交网络进行分类的潜在表示。

4、所公开的方法和系统可以作为较大的基于机器学习的系统的一部分应用,或者作为独立的系统应用。例如,所公开的用于生成任务相关的结构嵌入集合的系统可以由自身训练,并且经过训练的系统用于生成任务相关的结构嵌入集合,作为用于训练或输入到单独的基于机器学习的系统(例如,旨在学习和应用化学语言模型的系统)。所公开的用于生成任务相关的结构嵌入集合的系统也可以集成在基于机器学习的较大整体系统中,并与较大系统一起训练。

5、根据本发明的示例性方面,提供了一种用于对候选分子进行分类的方法。所述方法包括:获得表示由顶点集合和边集合定义的分子图的输入数据,所述分子图是所述候选分子的物理结构的表示。所述方法还包括:使用嵌入生成器基于所述输入数据生成任务相关的结构嵌入集合,每个相应的任务相关的结构嵌入包括所述顶点集合中顶点的任务相关的物理特征和表示所述顶点集合中的顶点和所述分子图中的其它顶点之间的结构连接性的结构嵌入。所述方法还包括:使用分类器基于所述任务相关的结构嵌入集合生成所述候选分子的预测类别标签,所述预测类别标签是指示所述候选分子是活性分子的活性类别标签和指示所述候选分子是活性分子的非活性类别标签中的一个。

6、在该方法的上述示例性方面中,使用所述嵌入生成器生成可以包括:使用实现物理模型的模块基于所述输入数据生成特征向量集合,所述特征向量集合表示所述分子图的所述顶点集合的物理特征;使用结构嵌入生成器基于所述输入数据生成结构嵌入集合,所述结构嵌入集合表示所述顶点集合之中的结构连接性;以及将所述特征向量集合中的每个特征向量与所述任务相关的结构嵌入集合中的相应的结构嵌入组合。

7、在所述方法的任何上述示例性方面中,所述结构嵌入集合可以基于良好编辑相似性使用所述结构嵌入生成器生成。

8、在所述方法的任何上述示例性方面中,所述结构嵌入集合可以使用边距层次结构方法生成。

9、在所述方法的任何上述示例性方面中,所述组合可以包括将所述任务相关的特征向量集合中的每个任务相关的特征向量与所述结构嵌入集合中的所述相应的结构嵌入级联。

10、在所述方法的任何上述示例性方面中,所述组合可以包括使用门递归单元(gatedrecurrent unit,gru),将所述任务相关的特征向量集合中的每个任务相关的特征向量与所述结构嵌入集合中所述相应的结构嵌入组合。

11、在所述方法的任何上述示例性方面中,所述方法可以包括:使用解码器从所述任务相关的结构嵌入集合生成所述分子图的重建图邻接矩阵;使用所述解码器计算所述重建图邻接矩阵与所述输入数据中包括的所述分子图的实际图邻接矩阵之间的分子结构重建损失;使用所述解码器反向传播所述分子结构重建损失,以更新所述gru模块和所述结构嵌入生成器的权重;使用所述嵌入生成器基于所述输入数据生成所述任务相关的结构嵌入集合;重复所述生成、所述计算、所述反向传播和所述生成,直到满足收敛条件。有利地,该方法的这一方面改进了由嵌入生成器生成的任务相关的结构嵌入。

12、在所述方法的任何上述示例性方面中,所述方法可以提供:分子结构重建损失可以用作用于训练所述分类器的正则化项。有利地,该方法的这一方面提高了分类器在生成候选分子的预测类别标签方面的性能。

13、在该方法的任何上述示例性方面中,所述物理模型可以是分子对接模型。

14、根据本发明的另一示例性方面,提供了一种用于对候选分子进行分类的设备。所述设备包括处理单元,用于执行指令以使所述设备执行上述任何方法。

15、根据本发明的另一方面,提供了一种计算机可读介质,存储指令,所述指令由设备的处理单元执行时,使所述设备执行上文所述的上述方法。

16、根据本发明的另一方面,提供了一种分子分类模块,包括嵌入生成器和分类器。所述嵌入生成器包括:实现物理模型的模块,所述模块用于:接收表示由顶点集合和边集合定义的分子图的输入数据,所述分子图是所述候选分子的物理结构的表示;基于所述输入数据生成任务相关的特征向量集合,每个相应的任务相关的特征向量表示所述顶点集合中顶点的所述任务相关的物理特征。所述嵌入生成器还包括结构嵌入生成器,用于:接收所述输入数据;基于所述输入数据生成结构嵌入集合,每个结构嵌入表示所述顶点集合中的顶点和所述分子图中的其它顶点之间的结构连接性;组合器,用于将所述任务相关的特征向量集合中的每个任务相关的特征向量与所述结构嵌入集合中的相应结构嵌入组合,以生成所述任务相关的结构嵌入集合。所述分类器用于基于所述任务相关的结构嵌入集合生成所述候选分子的预测类别标签,所述预测类别标签是指示所述候选分子是活性分子的活性类别标签和指示所述候选分子是活性分子的非活性类别标签中的一个。

17、根据本发明的另一方面,提供了一种用于对几何图进行分类的方法。所述方法包括:获得表示由顶点集合和边集合定义的所述几何图的输入数据;使用实现所述嵌入生成器的物理模型的模块,基于所述输入数据生成任务相关的特征向量集合,每个相应的任务相关的特征向量表示所述顶点集合中顶点的所述任务相关的物理特征。所述方法还包括:使用所述嵌入生成器的结构嵌入生成器,基于所述输入数据生成结构嵌入集合,每个结构嵌入表示所述顶点集合中的顶点和所述分子图中的其它顶点之间的结构连接性;将所述任务相关的特征向量集合中的每个任务相关的特征向量与所述结构嵌入集合中的相应结构嵌入组合,以生成所述任务相关的结构嵌入集合;使用分类器基于所述任务相关的结构嵌入集合生成所述几何图的预测类别标签。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1