一种结合主动学习的多目标优化分子生成方法和系统

文档序号:34860045发布日期:2023-07-23 06:18阅读:77来源:国知局
一种结合主动学习的多目标优化分子生成方法和系统

本发明属于人工智能中的深度学习和主动学习(activate learning,al),更具体地,涉及一种结合主动学习的多目标优化分子生成方法和系统。


背景技术:

1、目前,在药物发现中,找到与靶蛋白具有高亲和力的类药物分子是一项困难且资源昂贵的任务。化学空间中类药的化合物数量可能高达1023~1060,因此在如此广阔的空间搜索具有预期目标的分子是一项极具挑战性的任务,往往需要花费大量的时间和资源。而针对特定疾病,寻找针对特定蛋白质的候选分子的任务更是复杂。目前这项任务是通过大型的化合物筛选实验和药物化学专家的反复合成测试完成的。

2、最近的工作提出利用深度生成模型直接生成具有理想性质的候选药物,从而避免大量的实验工作。然而,大多数工作都集中于生成与单一性质有关的分子,比如计算简单的药物相似性(qed)、脂水分配系数(logp)。由于基于物理的方式计算结合亲和力需要高昂的计算成本,因此很少有工作去生成与靶蛋白具有高亲和力的分子。此外,在实际环境中,药物发现需要综合考虑多种性质,多目标分子设计问题更具有挑战性。

3、以分子表示方式为划分依据,分子生成模型主要分为基于序列的生成模型和基于图的生成模型。基于序列的模型主要使用smiles来描述分子,比如利用基于lstm的cvae或强化学习策略来生成具有特定属性的分子。尽管smiles易于计算机处理,但是它不能捕捉到分子结构的相似性,往往会丢失很多结构信息。而且,为了生成有效的字符串,模型还需要学习与分子结构无关的规则,给模型训练增加不必要的负担。所以基于图的模型更受人青睐。

4、基于图的生成模型通常有顺序生成图和直接生成整个图两种方式。顺序生成将化学规则融入在生成过程中,确保每一步的化学有效性;直接生成可以在最后一步进行有效性检查来筛选有效分子。当前的生成模型生成分子的速度很快,但是无法有效地在其隐空间找到具有目标性质的分子,因此单纯的分子生成模型无法解决分子优化问题。

5、目前用于分子性质优化的方法主要有强化学习、马尔可夫采样或者由高斯过程指导的深度生成模型。但是这些方法需要多次调用性质计算函数,当需要优化的性质(比如结合亲和力)需要大量的计算资源时,会造成训练和生成分子的速度极为缓慢。此外,强化学习的高方差问题也会加大模型训练难度。

6、现有技术一,申请号:cn201911122108.7一种基于对抗模仿学习的药物分子生成方法,包括:构建有效药物分子库;建立改进的药物分子生成模型,包括:设计并实现多任务强化学习模块、设计并实现对抗模仿学习模块;模型预训练;执行药物分子生成流程;生成候选药物分子结果。可有效促进药物分子生化性质的优化并提升模型训练的稳定性,得到更优的药物分子。

7、现有技术二,申请号:cn202080073784.4用于生成针对特定生物靶标具有生物活性的化合物的工作流程,计算机实现的方法可以包括:接收生物靶标的输入;接收用参考化合物训练的生成模型(例如张量强化学习(gentrl)模型或其他模型),其中所述参考化合物包括:一般化合物、调节生物靶标的化合物以及调节生物靶标以外的生物分子的化合物;用生成模型生成生成化合物的结构;基于至少一个标准对生成化合物的结构按优先级排序;通过sammon映射协议处理生成化合物的优先化学结构,以获得命中结构;以及提供命中结构的化学结构。提供一个或多个非暂时性计算机可读介质,其存储有指令,所述指令响应于被一个或多个处理器执行以促使计算机系统执行操作,所述操作包括执行本文所述的计算机方法,以通过生成模型提供生成的命中结构的化学结构。

8、现有技术三,申请号:cn202211513416.4基于图神经网络的特定靶标药物生成方法、装置和maxflow平台,方法包括:获取靶蛋白数据和预成药物分子数,确定目标区域的盒子信息,所述盒子信息包括靶蛋白的位置和大小;将所述靶蛋白数据、预成药物分子数和盒子信息输入到预先训练的受体分子生成模型,以得到候选药物的三维结构;将所述候选药物的三维结构与所述靶蛋白数据进行合并,以得到靶蛋白-药物符合的程序数据库文件的数据结构;其中,所述受体分子生成模型是基于图神经网络利用靶蛋白样本和药物结构样本进行训练得到的。解决了现有技术中特定靶标药物设计困难,药物模型的准确性较差的技术问题。

9、基于上述分析可以看出,当优化目标需要高昂的计算成本时,目前大多数方法都会因此耗费大量资源并且生成分子的速度大大降低。因此,如何在降低计算成本的同时快速探索化学空间,生成具有预期性质的分子仍是一个亟待解决的问题。

10、通过上述分析,现有技术存在的问题及缺陷为:

11、(1)利用深度生成模型直接生成具有理想性质的候选药物的方法大多数集中于生成与单一性质有关的分子,基于物理的方式计算结合亲和力成本高昂。

12、(2)基于序列的模型使用smiles描述分子的方式不能捕捉到分子结构的相似性,往往会丢失很多结构信息,并给模型训练增加不必要的负担。

13、(3)当前的生成模型无法有效地在其隐空间找到具有目标性质的分子,而用于分子优化的模型普遍采用强化学习算法。当计算的性质需要大量的计算资源时就会造成训练和生成分子的速度极为缓慢,加大模型训练难度。


技术实现思路

1、针对现有技术的以上缺陷或改进需求,本发明提供了一种结合主动学习的多目标优化分子生成方法和系统,其目的在于,解决现有深度生成模型直接生成具有理想性质的候选药物的方法由于大多数集中于生成与单一性质有关的分子,导致基于物理的方式计算结合亲和力成本高昂的技术问题,以及基于序列的模型使用smiles描述分子的方式由于不能捕捉到分子结构的相似性,导致会丢失很多结构信息,并给模型训练增加不必要的负担的技术问题,以及现有生成模型由于无法有效地在其隐空间找到具有目标性质的分子,而用于分子优化的模型普遍采用强化学习算法。导致当计算的性质需要大量的计算资源时就会造成训练和生成分子的速度极为缓慢,加大模型训练难度的技术问题。

2、为实现上述目的,按照本发明的一个方面,提供了一种结合主动学习的多目标优化分子生成方法,包括:构建结合主动学习的多目标优化分子生成模型和性质预测模型并进行训练;在训练分子生成模型和性质预测模型后,冻结生成模型编码器和性质预测模型的权重;使用从隐空间z中随机采样后输入到解码器,预测模型将解码器的输出作为输入预测性质;分子生成模型通过预测模型的输出执行相对于隐空间z的梯度下降优化z;将优化后的z再次输入到解码器获取分子图向量,最后通过进行有效性校正得到最终优化分子。

3、优选地,分子生成模型通过预测模型的输出执行相对于隐空间z的梯度下降优化z包括:根据设定目标给出一组性质预测模型(g1,g2,…,gk)和对应权重(w1,w2,…,wk),根据得到的预测结果使用adam优化器对下列损失进行优化:

4、

5、式中,fdec表示解码器,g表示性质预测模型,w表示给定的权重值。

6、优选地,性质预测模型包含依次连接的特征提取网络和全连接网络两部分;

7、其中,特征提取网络的结构为交替连接的三层线性层和三层relu激活层,第一层线性层输入为长度s的分子图向量,输出为长度h1的特征向量;第二层线性层输入为长度为h1的特征向量,输入为长度为h2的特征向量;第三层线性层的输入输出向量的长度均为h2;s为分子图向量长度,长度为38*(10+4*38)=6156;h1,h2为隐含层向量长度,h1大小为1024,h2大小为512;

8、relu激活函数的公式表示如下:

9、relu(x)=max(0,x);

10、全连接网络的结构为一层dropout层与一层线性层,dropout的随机失活比例设置为0.1;线性层输入为h2的特征向量,输出为性质预测结果;

11、优选地,性质预测模型是通过以下步骤训练得到的:

12、(1)将zinc250k数据集作为未标注样本池pu,从中随机抽取一千条分子作为初始训练集dl,随机抽取一千条分子作为独立测试集dtest,从样本池pu中删除已抽取的分子;根据给定目标类型使用不同性质计算方式计算分子性质标签ytrue,再使用训练数据集dl中的分子构建分子向量图;

13、其中关于分子性质计算,采用rdkit包内置函数计算qed值和合成可行性sa分数,采用autodock-gpu计算与靶蛋白的结合亲和力值;

14、(2)将步骤(1)得到的n*s的分子图向量矩阵输入到特征提取网络中,得到n*h特征向量矩阵t;将特征向量矩阵t输入到全连接网络中得到最后的预测性质标签向量y,长度为n,n表示数据数量;

15、(3)根据步骤(2)得到的预测性质标签向量y和真实性质标签向量ytrue计算损失,并利用损失迭代训练生成模型;采用adam优化器,reducelronplateau函数自动更新学习率,最终获得训练好的性质预测模型;

16、其中,使用均方误差损失函数的公式如下:

17、

18、(4)从样本池pu随机抽取pool_num条分子,并使用训练好的生成模型生成五千条通过有效性修正器的合法分子,将分子合并构建未标注数据集du,pool_num大小在qed或sa性质预测模型训练情况下设置为50000,在进行结合亲和力性质预测模型训练情况下设置为5000;对未标注数据集du进行数据处理,获取分子图向量矩阵mu;使用已训练好的性质预测模型对未标注数据集进行预测,获取预测结果y和预测模型倒数第二层神经网络dropout层输出的参数θl,大小为n*h2;

19、(5)将步骤(4)得到的分子图向量矩阵mu和参数矩阵θl输入到主动学习筛选函数中;其中,主动学习筛选函数包括:基于fisher信息优化最大似然估计误差的边界进行过采样,从数据集du中选择2*batch个样本;使用k-means++种子算法对2*batch个样本进行聚类,筛选出batch个样本;batch大小在进行qed或sa性质预测模型训练情况下设置为10000,在进行结合亲和力性质预测模型训练情况下设置为1000;

20、(6)对筛选出的batch个样本进行性质标签计算,并加入到训练集dl中;如果筛选出的样本属于未标注样本池pu中的样本,则从样本池中删除未标注的样本,并重新训练性质预测模型;

21、(7)重复步骤(4)至步骤(6)直到达到停止条件,获得最终训练好的性质预测模型,设置停止条件为重复迭代10次。

22、优选地,筛选函数的实现过程包括:

23、1)利用参数矩阵θl,分别计算未标记数据集du和训练集dl的fisher信息矩阵i,计算公式如下:

24、fisher矩阵计算:

25、

26、

27、

28、式中,f表示已选择的fisher矩阵,初始时f0只包含训练集;

29、2)进行贪婪过采样,向f中添加2*batch个样本,计算公式如下:

30、

31、

32、式中,ds表示过采样筛选出的未标记样本集;

33、3)利用k-means++种子算法,根据ds中样本对应的分子图向量矩阵mu进行聚类操作,筛选出batch个聚类中心作为最终筛选出的样本;

34、利用k-means++算法从样本集中随机选择一个样本作为第一个聚类中心,再从样本集中顺序采样选择k-1个新的聚类中心,其中每个新的聚类中心被选择的概率均与到最近聚类中心的平方距离成正比。

35、按照本发明的另一方面,提供了一种结合主动学习的多目标优化分子生成方法,包括以下步骤:

36、步骤一,获取smiles数据并进行预处理生成邻接矩阵和注释矩阵后合并为分子图向量矩阵;将分子图向量矩阵输入到gvae模型中,训练生成模型;

37、步骤二,分子生成模型训练完毕后,从隐空间采样生成分子,对生成分子进行有效性校正从而得到合法分子;

38、步骤三,根据zinc数据集构建初始标记数据集,训练性质预测模型;

39、步骤四,根据zinc数据集和生成的合法分子构建未标记数据集,将数据处理为分子图向量矩阵后,输入到训练好的预测模型中获得性质预测结果;

40、步骤五,结合fisher信息和k-means++算法的查询函数利用预测模型的最后一层参数和分子结构信息进行筛选,获取高质量的未标记数据;

41、步骤六,标记数据后将数据加入标记数据集,重新训练预测模型,重复步骤四~步骤六直到达到迭代停止条件;

42、步骤七,根据优化条件使用一个或多个训练好的预测器对隐空间进行优化;

43、步骤八,将优化后的隐向量输入到解码器解码生成分子,并对分子进行有效性检查获取最终优化分子。

44、优选地,采用vae模型结构实现分子生成模型,分子生成模型是通过以下步骤训练得到的:

45、(1)处理smiles数据:对zinc250k数据集中的smiles进行规范化操作后转为分子;使用rdkit包构建分子的图表示矩阵,代表原子特征的注释矩阵x和代表键特征的邻接矩阵a;利用大小为n*a的注释矩阵将每一行表示为原子的独热编码,利用大小为n*n*b的邻接矩阵表示每一行和每一列的原子之间是否有键以及键的独热编码;对注释矩阵和邻接矩阵进行维度变换和矩阵拼接操作,获取分子图向量m,大小为n*(a+(n*b));其中,n表示原子的数量,zinc250k数据集最大原子数量为38;a表示为原子类型的数量,包含9种原子类型加上虚拟原子类型0;b表示为键类型的数量,数量为4;

46、(2)将步骤(1)得到的分子图向量m输入到编码器中,获取长度为m的均值向量μ和长度为m的标准差向量σ;

47、(3)将步骤(2)得到的均值向量μ和标准差向量σ,以及利用重参数化技巧从标准正态分布中采样的∈,根据公式z=μ+σ⊙∈获取长度为m的隐变量序列z;

48、(4)将步骤(3)得到的隐变量z输入到解码器进行解码,获取生成的分子图向量

49、(5)计算证据下界损失函数,并利用损失函数迭代训练生成模型;采用adam优化器,最终得到训练好的分子生成模型;

50、其中,损失函数loss为:

51、loss=e[logp(m|z)]-dkl[q(z|m)||p(z)];

52、式中,loss公式前一半表示重建误差,使用交叉熵损失函数实现;后一半表示kl散度;e表示期望值;p(m|z)表示隐变量z的先验分布,代表编码器;q(z|m)表示根据真实分子图向量推导出的隐变量z的后验分布,代表解码器。

53、按照本发明的又一方面,提供了一种结合主动学习的多目标优化分子生成系统,包括:

54、第一模块,用于获取smiles数据并进行预处理生成邻接矩阵和注释矩阵后合并为分子图向量矩阵;将分子图向量矩阵输入到gva e模型中,训练生成模型;

55、第二模块,用于分子生成模型训练完毕后,从隐空间采样生成分子,对生成分子进行有效性校正从而得到合法分子;

56、第三模块,用于根据zinc数据集构建初始标记数据集,训练性质预测模型;

57、第四模块,用于根据zinc数据集和生成的合法分子构建未标记数据集,将数据处理为分子图向量矩阵后,输入到训练好的预测模型中获得性质预测结果;

58、第五模块,用于结合fisher信息和k-means++算法的查询函数利用预测模型的最后一层参数和分子结构信息进行筛选,获取高质量的未标记数据;

59、第六模块,用于标记数据后将数据加入标记数据集,重新训练预测模型,重复第四模块至第六模块直到达到迭代停止条件;

60、第七模块,用于根据优化条件使用一个或多个训练好的预测器对隐空间进行优化;

61、第八模块,用于将优化后的隐向量输入到解码器解码生成分子,并对分子进行有效性检查获取最终优化分子。

62、总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:

63、第一,针对上述现有技术存在的技术问题以及解决该问题的难度,紧密结合本发明的所要保护的技术方案以及研发过程中结果和数据等,详细、深刻地分析本发明技术方案如何解决的技术问题,解决问题之后带来的一些具备创造性的技术效果。具体描述如下:

64、本发明从三个方面提升生成预期性质分子的效果,一方面gvae模型基于图表示学习来提取分子特征,更好地学习分子结构,不容易丢失信息,并且通过有效性修正器来确保生成分子的化学有效性;另一方面,提出将fisher信息矩阵和分子多样性结合的主动学习筛选策略,构建出高质量标注数据集,通过提升性质预测模型的性能来提高分子优化能力;最后,采用limo提出反向优化方法,通过改变输入从而以期望的方式影响输出,优化过程使用性质预测模型,而不是性质计算函数,大大提高了生成具有优化性质分子的速度。

65、本发明提供的结合主动学习的多目标优化分子生成模型,改善现有用于分子优化的生成模型在优化成本昂贵的性质时,耗费过多资源且生成分子速度缓慢的问题,同时提高了多目标优化,即发现与靶蛋白具有高亲和力的类药物分子的成功率,快速探索化学空间。本发明采用基于图的vae模型用于分子生成,有效利用了分子的结构信息。本发明实现了基于费希尔信息(fisher information)和k-means++算法的主动学习筛选策略,构建出信息量丰富且多样化的高质量数据集,通过提升性质预测器性能的方式提高模型分子优化的能力。

66、在本发明的实验中,通过在zinc250k数据集上测试发现在单目标性质优化和多目标性质优化方面均有提升。由于gave作为分子生成模型,能够更好地提取分子结构特征,并采用有效性修正器来确保生成100%有效的分子。以多目标优化为例,本发明优化成功率约提升5%,生成的优化分子亲和力最佳,生成并优化分子速度最快。本发明利用结合fisher信息和分子多样性的主动学习方法构建的高质量数据集有效提升了性质预测模型的性能,最后使用limo反向优化方法来提高分子优化速度,三个方面提高生成预期性质分子的成功率。

67、第二,把技术方案看做一个整体或者从产品的角度,本发明所要保护的技术方案具备的技术效果和优点,具体描述如下:

68、本发明使用了limo提出的反向优化方法并将其与图生成模型结合,通过改变输入从而以期望的方式影响输出,优化过程不需要性质计算函数,提高生成速度。本发明的结合主动学习的多目标优化分子生成方法具有普适性,只需要提供靶蛋白的结构和位置信息,不需要更多的专业知识,适用于各种靶蛋白的亲和力优化问题。本发明提出了结合fisher信息和多样性的主动学习筛选策略,利用fisher信息选择出信息量大的数据,可以让模型更快地学到关键特征,帮助模型更快地收敛,提高模型训练效率,利用分子结构信息来进行k-means++聚类,筛选出多样化数据,可以减少数据冗余,提高模型的泛化能力和鲁棒性。

69、第三,作为本发明的权利要求的创造性辅助证据,还体现在以下几个重要方面:

70、(1)本发明的技术方案转化后的预期收益和商业价值为:

71、本发明采用反向优化技术在当前用于目标优化的分子生成模型中生成优化分子的速度第一,因此本发明的应用可以加速新药的研发过程,从而减少新药研发时间和成本。

72、本发明提出了主动学习查询函数来构建高质量数据集,提高了模型性能和优化成功率;实现了多目标优化方法,可以同时考虑多个目标,如结合亲和力、sa、qed等。因此本发明的应用更贴近现实情况,可以提高新药的质量,减少药物研发的失败率,降低研发成本。

73、(2)本发明的技术方案填补了国内外业内技术空白:

74、本发明首次将fisher信息和基于分子结构的多样性筛选结合起来,同时考虑数据信息量和多样性来构建高质量数据集,将主动学习的先进策略因地制宜地用于分子生成和优化领域。本发明的策略具有普适性,可以在药物领域其他需要降低标注成本的分类任务或回归任务中应用。

75、本发明首次将limo反向优化技术用于图生成模型,利用分子的结构信息确保生成的初始分子的质量,更有利于后续的分子优化,提高了多目标优化的成功率。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1