一种模型训练的方法以及分子结构信息的推荐方法及装置与流程

文档序号:35146456发布日期:2023-08-18 04:01阅读:24来源:国知局
一种模型训练的方法以及分子结构信息的推荐方法及装置与流程

本说明书涉及人工智能领域以及生物工程领域,尤其涉及一种模型训练的方法以及分子结构信息的推荐方法及装置。


背景技术:

1、目前,通过构建具有双功能片段的蛋白降解靶向嵌合体,可以对患者体内致病性蛋白进行有效地清除,所以,具有药效功能的蛋白降解靶向嵌合体的研制正成为一种治疗各种疾病的新的探索方向。

2、而对于这种蛋白降解嵌合体的设计,目前所采用的药物设计,常采用定量构效关系建模筛选出具有药效的未知化学结构。但是这种方式探索出的新的片段结构往往不能和原始的蛋白降解靶向嵌合体构成有效地药物蛋白,并且,这种探索方式的效率往往较低。


技术实现思路

1、本说明书提供一种模型训练的方法以及分子结构信息的推荐方法及装置,以部分的解决现有技术存在的上述问题。

2、本说明书采用下述技术方案:

3、本说明书提供了一种模型训练的方法,包括:

4、获取蛋白降解靶向嵌合体的数据集;

5、根据所述蛋白降解靶向嵌合体的数据集,构建指定蛋白降解靶向嵌合体的三维分子图信息;

6、将所述指定蛋白降解靶向嵌合体的三维分子图信息输入到待训练的预测模型中,以使得到与所述指定蛋白降解靶向嵌合体组合成具有预设药物功能的分子片段的片段信息,作为目标片段信息;

7、根据预测出的所述目标片段信息与所述指定蛋白降解靶向嵌合体对应的标签分子片段的片段信息之间的偏差,对所述预测模型进行训练。

8、可选地,根据所述蛋白降解靶向嵌合体的数据集,构建指定蛋白降解靶向嵌合体的三维分子图信息,具体包括:

9、从所述数据集中选取出指定蛋白降解靶向嵌合体的数据;

10、根据所述指定蛋白降解靶向嵌合体的数据,确定所述指定蛋白降解靶向嵌合体的表征数据,所述表征数据包括:用于表征所述指定蛋白降解靶向嵌合体内原子类型的数据、所述指定蛋白降解靶向嵌合体内各原子在指定坐标系下的坐标、所述指定蛋白降解靶向嵌合体内各原子的原子质量向量、所述指定蛋白降解靶向嵌合体内各原子的核电荷数向量、所述指定蛋白降解靶向嵌合体的分子质量、所述指定蛋白降解靶向嵌合体内的原子数目、所述指定蛋白降解靶向嵌合体的价电子数目、所述指定蛋白降解靶向嵌合体的logp值、所述指定蛋白降解靶向嵌合体的pk值、所述指定蛋白降解靶向嵌合体的分子结构特性数据、所述指定蛋白降解靶向嵌合体的药学特征数据、用于表征所述指定蛋白降解靶向嵌合体的分子结构特征的矩阵数据、所述指定蛋白降解靶向嵌合体中选定的锚点原子的坐标、所述指定蛋白降解靶向嵌合体中选定的锚点原子之间的距离;

11、根据所述指定蛋白降解靶向嵌合体的表征数据,构建所述指定蛋白降解靶向嵌合体的三维分子图信息。

12、可选地,所述预测模型包括编码器以及解码器;

13、将所述指定蛋白降解靶向嵌合体的三维分子图信息输入到待训练的预测模型中,以得到与所述指定蛋白降解靶向嵌合体组合成具有预设药物功能的分子片段的片段信息,作为目标片段信息,具体包括:

14、将所述指定蛋白降解靶向嵌合体的三维分子图信息输入到待训练的预测模型的编码器中,以使所述编码器确定针对所述指定蛋白降解靶向嵌合体内原子间距的嵌入向量,并根据所述嵌入向量,确定所述指定蛋白降解靶向嵌合体的三维分子图特征;

15、将所述三维分子图特征输入到所述解码器中,以得到与所述指定蛋白降解靶向嵌合体组合成具有预设药物功能的分子片段的片段信息,作为目标片段信息。

16、可选地,根据所述嵌入向量,确定所述指定蛋白降解靶向嵌合体的三维分子图特征,具体包括:

17、通过所述编码器,确定针对所述指定蛋白降解靶向嵌合体的注意力权重;

18、通过所述编码器,根据所述注意力权重以及所述嵌入向量,确定针对所述指定蛋白降解靶向嵌合体的不变量特征以及等变量特征;

19、通过所述编码器,根据所述不变量特征以及所述等变量特征,确定所述指定蛋白降解靶向嵌合体的三维分子图特征。

20、可选地,将所述指定蛋白降解靶向嵌合体的三维分子图信息输入到待训练的预测模型中,以得到与所述指定蛋白降解靶向嵌合体组合成具有预设药物功能的分子片段的片段信息,作为目标片段信息,具体包括:

21、将所述指定蛋白降解靶向嵌合体的三维分子图信息输入到待训练的预测模型中,以使所述预测模型根据所述三维分子图信息,预测与所述指定蛋白降解靶向嵌合体组合成具有预设药物功能的多个分子片段的片段信息,作为各候选片段信息;

22、将所述各候选片段信息输入到预设的强化学习模型中,以通过所述强化学习模型,从所述各候选片段信息中选取出目标片段信息。

23、可选地,将所述各候选片段信息输入到预设的强化学习模型中,以通过所述强化学习模型,从所述各候选片段信息中选取出目标片段信息,具体包括:

24、针对每个候选片段信息,将该候选片段信息输入到所述强化学习模型中,以使所述强化学习模型以分子结构的logp值以及分子结构的pk值为基础,确定该候选片段信息的评分;

25、根据每个候选片段信息的评分,从所述各候选候选片段信息中选取出目标片段信息。

26、本说明书提供了一种分子结构信息的推荐方法,包括:

27、获取原始蛋白降解靶向嵌合体的三维分子图信息;

28、将所述原始蛋白降解靶向嵌合体的三维分子图信息输入到预先训练的预测模型,以使所述预测模型根据所述原始蛋白降解靶向嵌合体的三维分子图信息,预测与所述原始蛋白降解靶向嵌合体组合成具有预设药物功能的分子片段的片段信息,所述预测模型是通过上述模型训练的方法训练得到的;

29、根据预测出的所述分子片段的片段信息,向用户进行分子结构信息的信息推荐。

30、可选地,所述方法还包括:

31、将所述原始蛋白降解靶向嵌合体的三维分子图信息与预测出的片段信息对应进行存储。

32、本说明书提供了一种模型训练的装置,包括:

33、获取模块,用于获取蛋白降解靶向嵌合体的数据集;

34、构建模块,用于根据所述蛋白降解靶向嵌合体的数据集,构建指定蛋白降解靶向嵌合体的三维分子图信息;

35、预测模块,用于将所述指定蛋白降解靶向嵌合体的三维分子图信息输入到待训练的预测模型中,以使得到与所述指定蛋白降解靶向嵌合体组合成具有预设药物功能的分子片段的片段信息,作为目标片段信息;

36、训练模块,用于根据预测出的所述目标片段信息与所述指定蛋白降解靶向嵌合体对应的标签分子片段的片段信息之间的偏差,对所述预测模型进行训练。

37、可选地,所述构建模块,用于从所述数据集中选取出指定蛋白降解靶向嵌合体的数据;根据所述指定蛋白降解靶向嵌合体的数据,确定所述指定蛋白降解靶向嵌合体的表征数据,所述表征数据包括:用于表征所述指定蛋白降解靶向嵌合体内原子类型的数据、所述指定蛋白降解靶向嵌合体内各原子在指定坐标系下的坐标、所述指定蛋白降解靶向嵌合体内各原子的原子质量向量、所述指定蛋白降解靶向嵌合体内各原子的核电荷数向量、所述指定蛋白降解靶向嵌合体的分子质量、所述指定蛋白降解靶向嵌合体内的原子数目、所述指定蛋白降解靶向嵌合体的价电子数目、所述指定蛋白降解靶向嵌合体的logp值、所述指定蛋白降解靶向嵌合体的pk值、所述指定蛋白降解靶向嵌合体的分子结构特性数据、所述指定蛋白降解靶向嵌合体的药学特征数据、用于表征所述指定蛋白降解靶向嵌合体的分子结构特征的矩阵数据、所述指定蛋白降解靶向嵌合体中选定的锚点原子的坐标、所述指定蛋白降解靶向嵌合体中选定的锚点原子之间的距离;根据所述指定蛋白降解靶向嵌合体的表征数据,构建所述指定蛋白降解靶向嵌合体的三维分子图信息。

38、可选地,所述预测模型包括编码器以及解码器;

39、所述预测模块具体用于,将所述指定蛋白降解靶向嵌合体的三维分子图信息输入到待训练的预测模型的编码器中,以使所述编码器确定针对所述指定蛋白降解靶向嵌合体内原子间距的嵌入向量,并根据所述嵌入向量,确定所述指定蛋白降解靶向嵌合体的三维分子图特征;将所述三维分子图特征输入到所述解码器中,以得到与所述指定蛋白降解靶向嵌合体组合成具有预设药物功能的分子片段的片段信息,作为目标片段信息。

40、可选地,所述预测模块具体用于,通过所述编码器,确定针对所述指定蛋白降解靶向嵌合体的注意力权重;通过所述编码器,根据所述注意力权重以及所述嵌入向量,确定针对所述指定蛋白降解靶向嵌合体的不变量特征以及等变量特征;通过所述编码器,根据所述不变量特征以及所述等变量特征,确定所述指定蛋白降解靶向嵌合体的三维分子图特征。

41、可选地,所述预测模块具体用于,将所述指定蛋白降解靶向嵌合体的三维分子图信息输入到待训练的预测模型中,以使所述预测模型根据所述三维分子图信息,预测与所述指定蛋白降解靶向嵌合体组合成具有预设药物功能的多个分子片段的片段信息,作为各候选片段信息;将所述各候选片段信息输入到预设的强化学习模型中,以通过所述强化学习模型,从所述各候选片段信息中选取出目标片段信息。

42、可选地,所述预测模块具体用于,针对每个候选片段信息,将该候选片段信息输入到所述强化学习模型中,以使所述强化学习模型以分子结构的logp值以及分子结构的pk值为基础,确定该候选片段信息的评分;根据每个候选片段信息的评分,从所述各候选候选片段信息中选取出目标片段信息。

43、本说明书提供了一种分子结构信息的推荐装置,包括:

44、获取模块,用于获取原始蛋白降解靶向嵌合体的三维分子图信息;

45、预测模块,用于将所述原始蛋白降解靶向嵌合体的三维分子图信息输入到预先训练的预测模型,以使所述预测模型根据所述原始蛋白降解靶向嵌合体的三维分子图信息,预测与所述原始蛋白降解靶向嵌合体组合成具有预设药物功能的分子片段的片段信息,所述预测模型是通过上述模型训练的方法训练得到的;

46、推荐模块,用于根据预测出的所述分子片段的片段信息,向用户进行分子结构信息的信息推荐。

47、可选地,所述装置还包括:

48、存储模块,用于将所述原始蛋白降解靶向嵌合体的三维分子图信息与预测出的片段信息对应进行存储。

49、本说明书提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述模型训练的方法或分子结构信息的推荐方法。

50、本说明书提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述模型训练的方法或分子结构信息的推荐方法。

51、本说明书采用的上述至少一个技术方案能够达到以下有益效果:

52、从上述方法中可以看出,本技术可以通过获取到的数据集,构建出指定蛋白降解靶向嵌合体的三维分子图信息,这一三维分子图信息可以充分的表征出指定蛋白降解靶向嵌合体的分子结构的各种特征,而后,将该三维分子图信息输入到预测模型中后,预测模型会根据三维分子图信息,来预测与指定蛋白降解靶向嵌合体组合成具有预设药物功能的分子片段的片段信息,作为目标片段信息,进而根据预测出的目标片段信息以及与指定蛋白降解靶向嵌合体对应的标签分子片段的片段信息之间的偏差,对预测模型进行训练,使得后续在预测分子结构的过程中,可以通过该预测模型实现快速、准确的分子片段预测,从而提高了分子片段探索的效率以及准确性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1