本技术涉及化学,特别是涉及一种分子生成模型训练方法及装置。
背景技术:
1、蛋白口袋信息是提高整体生成分子的结构合理性和亲和力的关键。对于蛋白口袋结构信息,现有的模型直接对蛋白口袋和配体分子直接建模如[difflinker、targetdiff、pocktomol]。但是这些模型只能只针对特定的任务,比如linker生长、de novo等。针对特定任务的数据集量少,从头训练模型不能够学习到更多的结构信息。而且数据分布和任务模式出现变化,模型就会崩溃。
技术实现思路
1、本技术实施例所要解决的技术问题是提供了一种分子生成模型训练方法及装置,以实现在五种不同的生成场景中具有较好的分子生成效果,能够提高生成分子的合理性。
2、第一方面,本技术实施例提供了一种分子生成模型训练方法,所述方法包括:
3、基于碎片化算法,将分子切分为若干分子片段,并将所述若干分子片段中的相同断点编号进行随机更换,得到数据增强后的分子片段;
4、基于预设分隔符,将打乱顺序的分子片段进行拼接,得到数据增强后的分子片段序列;
5、基于所述分子片段序列对待训练分子生成模型进行预训练,得到预训练分子生成模型。
6、可选地,在所述基于所述分子片段序列对待训练分子生成模型进行预训练,得到预训练分子生成模型之后,还包括:
7、基于预设模型对所述分子进行n种admet性质预测,得到所述分子的admet性质数据,n为正整数;
8、通过双向注意力机制的投射层对所述admet性质数据进行特征编码,得到所述admet性质编码特征;
9、将所述admet性质编码特征作为预训练分子生成模型的特征前缀,与所述分子片段序列的编码特征进行拼接,得到带有admet性质的模型输入特征;
10、基于所述带有admet性质的模型输入特征,对所述预训练分子生成模型进行预训练,得到带有admet性质条件控制的预训练分子生成模型。
11、可选地,在所述基于所述分子片段序列对待训练分子生成模型进行预训练,得到预训练分子生成模型之后,还包括:
12、将蛋白口袋和配体通过具有旋转不变性的3d蛋白编码器映射至蛋白的隐空间上;
13、将映射的蛋白口袋信息通过交叉注意力方式与所述预训练分子生成模型的每一个网络层进行信息融合,并经过训练,得到基于蛋白口袋的分子生成模型。
14、可选地,在在所述基于所述分子片段序列对待训练分子生成模型进行预训练,得到预训练分子生成模型之后,还包括:
15、在指定靶点存在活性配体数据时,基于lora层拟合所述活性配体数据,以对所述预训练分子生成模型进行微调,得到指定靶点的分子生成模型。
16、可选地,在所述基于所述带有admet性质的模型输入特征,对所述预训练分子生成模型进行预训练,得到带有admet性质条件控制的预训练分子生成模型之后,还包括:
17、在蛋白靶点存在活性配体数据和admet数据时,基于lora层拟合所述活性配体数据和所述admet数据,以对所述带有admet性质条件控制的预训练分子生成模型进行微调,得到带有admet性质控制的指定靶点的分子生成模型。
18、可选地,在所述将映射的蛋白口袋信息通过交叉注意力方式与所述预训练分子生成模型的每一个网络层进行信息融合,并经过训练,得到基于蛋白口袋的分子生成模型之后,还包括:
19、在蛋白靶点存在活性配体数据时,基于lora层拟合所述活性配体数据,对所述基于蛋白口袋的分子生成模型进行二次微调,得到带有蛋白口袋控制的指定靶点的分子生成模型。
20、可选地,在所述基于所述分子片段序列对待训练分子生成模型进行预训练,得到预训练分子生成模型之后,还包括:
21、获取给定的分子生成引导字符,及denovo分子生成方式;
22、基于所述预训练分子生成模型根据所述denovo分子生成方式对所述分子生成引导字符进行自回归生成,得到分子生成片段;
23、将所述分子生成片段按照对应的断点序号进行连接,生成目标分子。
24、可选地,在所述基于所述分子片段序列对待训练分子生成模型进行预训练,得到预训练分子生成模型之后,还包括:
25、获取给定的分子片段,及r-group分子生成方式;
26、基于碎片化方法对所述分子片段进行切分,得到子分子片段;
27、基于所述预训练分子生成模型按照所述r-group分子生成方式对所述子分子片段进行处理,以生成目标分子。
28、可选地,在所述基于所述分子片段序列对待训练分子生成模型进行预训练,得到预训练分子生成模型之后,还包括:
29、获取给定的两个分子片段,及linker分子生成方式;
30、基于碎片化方法对所述两个分子片段分别进行切分,得到子分子片段;
31、基于所述预训练分子生成模型按照所述linker分子生成方式对所述子分子片段进行处理,以生成目标分子。
32、可选地,在所述基于所述分子片段序列对待训练分子生成模型进行预训练,得到预训练分子生成模型之后,还包括:
33、获取给定的m个分子片段,及scaffold hopping分子生成方式,m为正整数;
34、基于碎片化方法对所述m个分子片段进行切分,得到子分子片段;
35、基于所述预训练分子生成模型按照所述scaffold hopping分子生成方式对所述子分子片段进行处理,以生成目标分子。
36、可选地,在所述基于所述分子片段序列对待训练分子生成模型进行预训练,得到预训练分子生成模型之后,还包括:
37、获取给定的分子骨架,及side-chain分子生成方式;
38、基于碎片化方法对所述分子骨架进行切分,得到切分分子片段;
39、基于所述预训练分子生成模型对所述切分分子片段进行处理,以生成目标分子。
40、第二方面,本技术实施例提供了一种分子生成模型训练装置,所述装置包括:
41、分子片段获取模块,用于基于碎片化算法,将分子切分为若干分子片段,并将所述若干分子片段中的相同断点编号进行随机更换,得到数据增强后的分子片段;
42、分子片段序列获取模块,用于基于预设分隔符,将打乱顺序的分子片段进行拼接,得到数据增强后的分子片段序列;
43、分子生成模型获取模块,用于基于所述分子片段序列对待训练分子生成模型进行预训练,得到预训练分子生成模型。
44、可选地,所述装置还包括:
45、admet性质数据获取模块,用于基于预设模型对所述分子进行n种admet性质预测,得到所述分子的admet性质数据,n为正整数;
46、编码特征获取模块,用于通过双向注意力机制的投射层对所述admet性质数据进行特征编码,得到所述admet性质编码特征;
47、输入特征获取模块,用于将所述admet性质编码特征作为预训练分子生成模型的特征前缀,与所述分子片段序列的编码特征进行拼接,得到带有admet性质的模型输入特征;
48、预训练分子生成模型获取模块,用于基于所述带有admet性质的模型输入特征,对所述预训练分子生成模型进行预训练,得到带有admet性质条件控制的预训练分子生成模型。
49、可选地,所述装置还包括:
50、蛋白口袋映射模块,用于将蛋白口袋和配体通过具有旋转不变性的3d蛋白编码器映射至蛋白的隐空间上;
51、第一模型获取模块,用于将映射的蛋白口袋信息通过交叉注意力方式与所述预训练分子生成模型的每一个网络层进行信息融合,并经过训练,得到基于蛋白口袋的分子生成模型。
52、可选地,所述装置还包括:
53、第二模型获取模块,用于在指定靶点存在活性配体数据时,基于lora层拟合所述活性配体数据,以对所述预训练分子生成模型进行微调,得到指定靶点的分子生成模型。
54、可选地,所述装置还包括:
55、第三模型获取模块,用于在蛋白靶点存在活性配体数据和admet数据时,基于lora层拟合所述活性配体数据和所述admet数据,以对所述带有admet性质条件控制的预训练分子生成模型进行微调,得到带有admet性质控制的指定靶点的分子生成模型。
56、可选地,所述装置还包括:
57、第四模型获取模块,用于在蛋白靶点存在活性配体数据时,基于lora层拟合所述活性配体数据,对所述基于蛋白口袋的分子生成模型进行二次微调,得到带有蛋白口袋控制的指定靶点的分子生成模型。
58、可选地,所述装置还包括:
59、第一分子生成方式获取模块,用于获取给定的分子生成引导字符,及denovo分子生成方式;
60、第一分子片段获取模块,用于基于所述预训练分子生成模型根据所述denovo分子生成方式对所述分子生成引导字符进行自回归生成,得到分子生成片段;
61、第一目标分子生成模块,用于将所述分子生成片段按照对应的断点序号进行连接,生成目标分子。
62、可选地,所述装置还包括:
63、第二分子生成方式获取模块,用于获取给定的分子片段,及r-group分子生成方式;
64、第二分子片段获取模块,用于基于碎片化方法对所述分子片段进行切分,得到子分子片段;
65、第二目标分子生成模块,用于基于所述预训练分子生成模型按照所述r-group分子生成方式对所述子分子片段进行处理,以生成目标分子。
66、可选地,所述装置还包括:
67、第三分子生成方式获取模块,用于获取给定的两个分子片段,及linker分子生成方式;
68、第三分子片段获取模块,用于基于碎片化方法对所述两个分子片段分别进行切分,得到子分子片段;
69、第三目标分子生成模块,用于基于所述预训练分子生成模型按照所述linker分子生成方式对所述子分子片段进行处理,以生成目标分子。
70、可选地,所述装置还包括:
71、第四分子生成方式获取模块,用于获取给定的m个分子片段,及scaffold hopping分子生成方式,m为正整数;
72、第四分子片段获取模块,用于基于碎片化方法对所述m个分子片段进行切分,得到子分子片段;
73、第四目标分子生成模块,用于基于所述预训练分子生成模型按照所述scaffoldhopping分子生成方式对所述子分子片段进行处理,以生成目标分子。
74、可选地,所述装置还包括:
75、第五分子生成方式获取模块,用于获取给定的分子骨架,及side-chain分子生成方式;
76、第五分子片段获取模块,用于基于碎片化方法对所述分子骨架进行切分,得到切分分子片段;
77、第五目标分子生成模块,用于基于所述预训练分子生成模型对所述切分分子片段进行处理,以生成目标分子。
78、第三方面,本技术实施例提供了一种电子设备,包括:
79、处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一项所述的分子生成模型训练方法。
80、第四方面,本技术实施例提供了一种计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行上述任一项所述的分子生成模型训练方法。
81、与现有技术相比,本技术实施例包括以下优点:
82、本技术实施例中,基于碎片化算法,将分子切分为若干分子片段,并将若干分子片段中的相同断点编号进行随机更换,得到数据增强后的分子片段。基于预设分隔符,将打乱顺序的分子片段进行拼接,得到数据增强后的分子片段序列。基于分子片段序列对待训练分子生成模型进行预训练,得到预训练分子生成模型。本技术实施例通过对分子片段的顺序打乱,并基于预设分隔符将分子片段拼接,这种增强方式可以使模型可以同时实现五种功能的分子生成任务,从而可以在五种不同的生成场景中具有较好的分子生成效果。
83、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本技术。