一种基于选择性采样学习的多目标分子优化方法及系统与流程

文档序号：33992386发布日期：2023-04-29 15:50阅读：48来源：国知局

本发明属于生物基因和人工智能药物研究，尤其涉及一种基于选择性采样学习的多目标分子优化方法及系统。

背景技术：

1、在药物分子合成与优化领域中，要保证一款药物的安全性和有效性，则需要确保多项指标达到临床要求，这些指标包括与特定蛋白质靶点结合的活性、药物进入体内的毒性和药物代谢速度等等。在新药研发过程中，首先需要找到苗头化合物，之后会对其进行多指标优化，而这个优化过程往往是专家根据经验来进行，速度较慢并且效率有限，因此如何自动化地进行优化，并高效地提升苗头化合物的各项指标则至关重要。随着机器学习的兴起，ai新药研发这一交叉领域得到了很好的发展，这一领域也涌现了很多关于分子优化的方法。目前常用的方法有基于强化学习的方法和基于蒙特卡洛树搜索的方法，共同点都是关注药物研发中的关键指标，然后使用计算的方法将其变成优化目标并进行模型训练，最终达到优化分子多个指标的目的。

2、基于强化学习的方法通常是将分子表示成基于分子图的图形式。在训练的过程中，模型会将分子子图作为强化学习中的“状态”，对分子子图进行诱导和补全，让生成的分子在关键指标上满足期待，进而完成对分子的优化。但实际上，只要对一个分子进行微小的改造，就可能会让其在活性和毒性等多方面产生巨大的变化。因此，在知道最终分子各项属性的前提下，无法准确地评估中间分子的各项属性，这也就给强化学习这一类的方法带来了很多局限性。

3、基于蒙特卡洛树搜索的方法的核心是将分子表示成一颗搜索树的节点，并使用蒙特卡洛的方法进行搜索，寻找在多指标上均满足要求的分子。然而这类方法的计算量比较大，对计算效率的要求比较高。与此同时，这类方法能够优化和产出的分子数量并不确定，取决于搜索树的实际拓展情况，这种产出结果的不稳定性并不能满足实际的使用需求。

4、因此，上述的现有技术确实有待提出更佳解决方案的必要性。

技术实现思路

1、针对以上现有技术中的不足，提供一种基于选择性采样学习的多目标分子优化方法及系统，该方法及系统不依赖某一种具体的分子生成模型，可迁移性强，能够适配多种分子生成的模型，在多种优化目标下都能达到预期效果；并且该策略还可以灵活调整优化目标，在实际药物研发项目中能适应特异性和多变的业务需求，提高分子生成模型生成分子的多个指标。

2、经过实验以及在不同分子生成模型上的验证，对于一个分子生成模型而言，生成分子的各种属性会与训练数据的各种属性相似。基于这个特点，本发明提出了基于选择性采样学习的多目标分子优化策略，该策略会通过采样和筛选的方法，不断挑选出符合特定优化目标的分子，并让模型学习，从而达到多目标优化的目的。

3、本发明一方面提供了一种基于选择性采样学习的多目标分子优化方法，包括：

4、s1，初始化分子生成模型；

5、s2，基于初始化的分子生成模型进行分子采样，每次分子采样会采样一个批次的分子形成第一分子集；

6、s3，计算第一分子集内每个分子的第一指标、第二指标和第三指标；

7、s4，根据预设好的第一指标阈值、第二指标阈值和第三指标阈值，分别将所述第一指标、第二指标和第三指标与所述第一指标阈值、第二指标阈值和第三指标阈值比较，根据比较结果对所述第一分子集中的每个分子进行过滤，对所述第一指标、第二指标和第三指标均达到第一指标阈值、第二指标阈值和第三指标阈值的标准的分子被保留，所述第一指标、第二指标和第三指标中任一指标没有达到所述第一指标阈值、第二指标阈值和第三指标阈值的标准的分子被丢弃；

8、s5，设定第一分子数量阈值，循环s1-s4，直到过滤后获得的分子数量等于或高于所述第一分子数量阈值后停止所述循环，获得第二分子集；

9、s6，基于第一评价标准再次筛选所述第二分子集获得第三分子集；

10、s7，将第三分子集用于所述分子生成模型的训练和参数更新。

11、优选的，所述第一指标为物化属性，所述第二指标为admet，所述第三指标为活性。

12、优选的，所述第一评价标准为：保留所述第二分子集m1中活性高于整体中位数的分子作为第三分子集。

13、优选的，所述初始化的分子生成模型为图形的深度生成模型dgmg、子图生成的连接树变分自动编码器jtnn、gcpn、mrnn或ps-vae。

14、优选的，所述s1实施前还包括提前使用公开数据集zinc对初始化的分子生成模型进行预训练。

15、优选的，所述方法还包括：

16、s8，在所述分子生成模型的训练和参数更新结束后，使用训练好的所述分子生成模型生成了多个分子，并对所述多个分子进行指标评估。

17、优选的，所述s8包括：

18、s81，确定本次优化实验的优化目标；

19、s82，确定每个优化目标对应的打分函数；

20、s83，使用训练好的所述分子生成模型生成了多个分子，并对所述多个分子基于所述打分函数进行指标评估。

21、本发明的第二方面提供一种基于选择性采样学习的多目标分子优化系统，包括：

22、模型初始化模块(101)，用于初始化分子生成模型；

23、第一分子集生成模块(102)，用于基于初始化的分子生成模型进行分子采样，每次分子采样会采样一个批次的分子形成第一分子集；

24、计算模块(103)，用于计算第一分子集内每个分子的第一指标、第二指标和第三指标；

25、比较过滤模块(104)，用于根据预设好的第一指标阈值、第二指标阈值和第三指标阈值，分别将所述第一指标、第二指标和第三指标与所述第一指标阈值、第二指标阈值和第三指标阈值比较，根据比较结果对所述第一分子集中的每个分子进行过滤，对所述第一指标、第二指标和第三指标均达到第一指标阈值、第二指标阈值和第三指标阈值的标准的分子被保留，所述第一指标、第二指标和第三指标中任一指标没有达到所述第一指标阈值、第二指标阈值和第三指标阈值的标准的分子被丢弃；

26、第二分子集生成模块(105)，用于设定第一分子数量阈值，直到过滤后获得的分子数量等于或高于所述第一分子数量阈值后停止所述循环，获得第二分子集，本实施例将第二分子集记为m1；

27、第三分子集生成模块(106)，基于第一评价标准再次筛选所述第二分子集获得第三分子集；

28、模型训练模块(107)，用于将第三分子集用于所述分子生成模型的训练和参数更新。

29、优选的，所述系统还包括：

30、指标评估模块(108)，用于在所述分子生成模型的训练和参数更新结束后，使用训练好的所述分子生成模型生成了多个分子，并对所述多个分子进行指标评估。

31、本发明的第三方面在于提供基于选择性采样学习的多目标分子优化方法在药物开发中的应用。

32、本发明提供的方法、系统以及应用，具有如下有益的技术效果：

33、本发明创新性地提出了基于选择性采样学习的多目标分子优化策略，克服了传统分子优化方法生成分子数量不稳定、方法的可迁移性差以及优化目标添加的灵活性差等缺点，通过先采样、再过滤最后学习的策略保证了方法的灵活性和普适性，并在实际项目的验证中将生成分子的生物活性提高了两到三个数量级，为新药研发过程中分子优化和改造环节带来了极大的便利和效率的提升，降低了对相关化学领域知识的依赖，具有较高的实用价值。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘勇柳俊宏王鹏磊李欣泽
技术所有人：星希尔生物科技（上海）有限公司
我是此专利的发明人

上一篇：空调器室内机的制作方法
上一篇：一种新型中等位移量有砟铁路梁端跨缝板伸缩装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、司老师：1.制浆造纸 2.植物资源精细化工与化学 3.生物质精炼 4.天然产物化学
2、薛老师：1.CRISPR-Cas系统 2.基因编辑 3.基因修复 4.天然产物合成 5.单分子技术开发与应用
3、戴老师：1.天然药物（中药）合成生物学研究 2.酵母生物学与工程化研究
4、孟老师：1. 基于糖类的抗肿瘤药物的合成和活性评价及糖类疫苗的研制 2.功能糖类的化学酶法合成及构效关系研究 3.多糖及仿生材料功能的开发及应用
5、满老师：1.天然产品的提取分离与活性研究 2.天然产物活性与安全性评价 3.中药组方配伍机制研究
如您是高校老师，可以点此联系我们加入专家库。