一种基于蒙特卡洛树搜索的多目标分子生成方法和装置与流程

文档序号:37161037发布日期:2024-02-26 17:30阅读:65来源:国知局
一种基于蒙特卡洛树搜索的多目标分子生成方法和装置与流程

本发明属于基于靶点的分子生成领域,具体涉及一种基于蒙特卡洛树搜索的多目标分子生成方法和装置。


背景技术:

1、基于靶点的分子生成在药物研发和其他化学研究领域具有重要的意义。在药物研发场景中,基于靶点的分子生成能够展示药物与靶点之间的结构和作用机制,为药物分子设计、优化提供数据来源,有助于提高药物研发的成功率,并降低药物研发成本。在其他化学研究领域中,通过了解分子与靶点之间的相互作用,能够为实验室制备更有效的化学品、催化剂提供技术支撑。

2、现有的基于靶点的分子生成方法主要包含两类方法。一种是基于自回归生成模型的多步生成方法,公开号为cn116779060a的专利文献公开了一种基于自回归式模型的药物设计方法,包括:将子词分词算法应用于生物学文本处理,对数据集中的蛋白质与配体信息进行训练,得到蛋白质和配体的分词器,并在此基础上构建自回归模型的分词器;处理并转化数据集中的原始数据为适用于自回归模型的文本形式,再通过所得分词器进行编码,构建自回归模型所需的训练数据集;利用训练数据集训练自回归模型,使其能理解配体的smiles表示,并学习蛋白质与配体之间的相互作用模式;利用训练过的自回归模型生成预测的配体数据,并通过化学信息工具进行后处理,以获得具有具体化学结构的候选配体;对得到的候选配体进行评估和优化,利用化学或生物信息工具进行结构优化和活性预测,以确定有潜力成为有效药物的候选分子。

3、但是该发明仅仅涉及到药物研发领域中生成的分子对于结构和活性方面的优化,忽略了基于靶点的分子生成任务中天然存在的多目标需求例如高可成药性和低毒性。

4、另一种基于靶点的分子生成方法是基于条件生成模型的一步生成方法,公开号为cn111370074a的专利文献公开了一种分子序列的生成方法、装置和计算设备,包括:构建用于生成局部序列的搜索树,初始的局部序列为位于根节点上的空字符;从当前局部序列延伸多个分支,采用当前分子生成模型在每个分支上生成一个完整分子,并计算每个分子得分;选取得分最高的分子序列,若该分子得分大于当前目标得分,则将该分子作为新目标分子,将该分子得分作为新目标得分;确定当前局部序列在新目标分子中的下一字符,以添加该下一字符,以得到新局部序列;将新局部序列设置为当前局部序列,并循环执行上述各步骤,直至没有新目标分子生成、且搜索树的局部序列与最终的目标分子相同为止。

5、但是该发明仅仅涉及到提升分子生成的效率,缺乏同时优化多个分子属性的能力,并不能满足实际的分子生成的多目标需要。


技术实现思路

1、本发明的目的是提供一种基于蒙特卡洛树搜索的多目标分子生成方法和装置,解决了现有技术中基于靶点的分子生成方法不能同时优化多个属性目标的问题。

2、为实现上述发明目的,本发明提供的技术方案如下:

3、第一方面,本发明实施例提供的一种基于蒙特卡洛树搜索的多目标分子生成方法,包括以下步骤:

4、步骤1:将分子碎片作为蒙塔卡洛树的根节点,设定强亲和力阈值;

5、步骤2:将分子碎片和蛋白质序列输入预训练的自回归模型,得到第一概率及其对应的第一层原子符号,根据第一概率计算多目标选择标准,将多目标选择标准大于强亲和力阈值的第一层原子符号作为叶节点,分别拼接到分子碎片后,得到第一层分子碎片;

6、步骤3:分别将第一层分子碎片和蛋白质序列输入预训练的自回归模型,得到第二概率及其对应的第二层原子符号,根据第二概率计算多目标选择标准,将多目标选择标准大于强亲和力阈值的第二层原子符号作为叶节点,分别拼接到第一层分子碎片后,得到第二层分子碎片;

7、步骤4:重复步骤2和步骤3,将分子的评估值反向更新得到叶节点的评估值,辅助多目标选择标准,迭代更新至满足终止条件;依据分子的评估值将非支配的分子加入全局帕累托集合,得到满足用户需求的多目标分子。

8、本发明采用蒙特卡洛树搜索算法,基于已知的分子碎片、带靶点的蛋白质序列和用户多目标属性,首先将分子碎片和蛋白质序列通过预训练的自回归模型,得到蒙特卡洛树第一层原子符号及其概率分布;将分子碎片作为蒙特卡洛树的根节点,根据概率分布,将第一层原子符号拼接到分子碎片后得到第一层分子碎片,再和蛋白质序列一起通过预训练的自回归模型,得到第二层原子符号及其概率分布;再将第二层原子符号拼接到第一层分子碎片后,得到第二层分子碎片。

9、经过多次循环迭代,将得到的完整的分子通过用户给定的目标函数进行表征,得到评估值,逆着蒙特卡洛树的分支,以某一个叶节点出发得到的完整分子的评估值的均值作为该叶节点的评估值,在循环迭代过程中,为了平衡对评估值高的叶节点和具有强亲和力的叶节点的访问,本发明还提出多目标选择标准。经过多次迭代更新,直到满足终止条件。

10、根据最终得到的分子的评估值,将非支配的分子加入全局帕累托集合中,得到满足用户需求的多目标分子。

11、进一步的,所述分子的评估值,是根据满足用户需求的多目标分子的多目标属性,由用户提供目标函数,每个目标函数评估一种目标属性,得到多个分别表征不同目标属性的评估值,计算多个评估值的均值作为分子的评估值。

12、进一步的,所述多目标选择标准用公式表示为:

13、

14、其中,up表示多目标选择标准,wa表示叶节点a的评估值,na表示叶节点a被访问的次数,c表示平衡访问评估值高的叶节点和具有强亲和力的叶节点的常数,p(a|c)表示预训练的自回归模型在当前输入的分子碎片和蛋白质序列下选择叶节点a的概率,n表示蒙特卡洛树搜索的模拟总次数,n和na初始值为1;

15、第一项表示引导蒙特卡洛树搜索算法倾向于访问评估值高的叶节点;第二项表示引导蒙特卡洛树搜索算法倾向于访问具有强亲和力的叶节点。

16、进一步的,所述依据分子的评估值将非支配的分子加入全局帕累托集合,包括:

17、将新生成的分子对应的评估值与全局帕累托集合中的已有分子对应的评估值进行比较,如果新生成的分子对应的评估值高于全局帕累托集合中的已有分子对应的评估值,则新生成的分子为非支配的分子,将新生成的分子加入全局帕累托集合,同时从全局帕累托集合中移除被新生成的分子支配的分子。

18、进一步的,在一次反向更新中,将分子的评估值反向更新到拼接该分子的每个叶节点中;多次反向更新时,某个叶节点的评估值为从该叶节点出发所生成的分子的评估值的均值。

19、进一步的,所述辅助多目标选择标准,表示依据多目标选择标准的第二项,蒙特卡洛树搜索算法最初倾向于访问具有强亲和力的叶节点;当访问到一个已经更新了评估值的叶节点时,叶节点的评估值用于使多目标选择标准的第一项非零,辅助多目标选择标准去平衡访问评估值高的叶节点和具有强亲和力的叶节点。

20、进一步的,所述终止条件,包括:达到预定义的最大蒙特卡洛树生成层数,或最大迭代次数。

21、第二方面,为实现上述发明目的,本发明实施例还提供了一种基于蒙特卡洛树搜索的多目标分子生成装置,包括搜索预备模块、选择模块、拓展模块、更新模块;

22、所述搜索预备模块用于将分子碎片作为蒙特卡洛树的根节点,设定强亲和力阈值;

23、所述选择模块用于将分子碎片和蛋白质序列输入预训练的自回归模型,得到第一概率及其对应的第一层原子符号,根据第一概率计算多目标选择标准,将多目标选择标准大于强亲和力阈值的第一层原子符号作为叶节点,分别拼接到分子碎片后,得到第一层分子碎片;

24、所述拓展模块用于分别将第一层分子碎片和蛋白质序列输入预训练的自回归模型,得到第二概率及其对应的第二层原子符号,根据第二概率计算多目标选择标准,将多目标选择标准大于强亲和力阈值的第二层原子符号作为叶节点,分别拼接到第一层分子碎片后,得到第二层分子碎片;

25、所述更新模块用于重复选择模块和拓展模块,将分子的评估值反向更新得到叶节点的评估值,辅助多目标选择标准,迭代更新至满足终止条件;依据分子的评估值将非支配的分子加入全局帕累托集合,得到满足用户需求的多目标分子。

26、第三方面,为实现上述发明目的,本发明实施例还提供了一种基于蒙特卡洛树搜索的多目标分子生成设备,包括存储器和处理器,所述存储器用于存储计算机程序,所述处理器用于当执行所述计算机程序时,实现第一方面本发明实施例提供的基于蒙特卡洛树搜索的多目标分子生成方法。

27、第四方面,为实现上述发明目的,本发明实施例还提供了一种计算机可读的存储介质,所述存储介质上存储有计算机程序,所述计算机程序使用计算机时,实现第一方面本发明实施例提供的基于蒙特卡洛树搜索的多目标分子生成方法。

28、本发明的有益效果如下:

29、(1)本发明采用蒙特卡洛树搜索算法,将能够拼接在目标分子碎片后的原子符号存放在蒙特卡洛树的每一层叶节点中,叶节点中还存放有概率和评估值数据,其中,预训练的自回归模型提供的概率高低,表征当前原子符号拼接到分子碎片后和蛋白质序列的亲和力强弱;将生成的分子通过用户给定的目标函数,得到用于表征分子目标属性的评估值,最终选取评估值最高的分子作为满足用户多目标属性需求的分子,将生物领域分子生成和计算机领域中的蒙特卡洛树搜索算法结合,具有简单易行、快速有效的优势;

30、(2)在进行蒙特卡洛树搜索过程中,为了提升搜索效率,本发明提出多目标选择标准,用于平衡访问评估值高的叶节点和具有强亲和力的叶节点,具体来说,在蒙特卡洛树搜索过程中,为了得到满足用户需求的分子,在搜索之初倾向于利用第二项访问概率高的叶节点,得到分子之后反向将评估值更新到叶节点中,在后续的搜索更新中,随着叶节点中评估值的升高,多目标选择标准中的第一项指导访问高评估值叶节点,保证构成的目标分子一方面保证了与蛋白质序列的强亲和力,同时也能够满足用户多目标属性的需求。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1