通过主动学习进行药物优化的制作方法

文档序号:35162021发布日期:2023-08-18 11:38阅读:40来源:国知局
通过主动学习进行药物优化的制作方法

本发明涉及用于化合物(诸如药物)的计算设计的方法和系统。特别地,本发明涉及通过主动学习优化计算模型的方法,该方法用于设计与所选靶分子相互作用的药物,本发明还涉及使用这些系统和方法设计的药物。


背景技术:

1、药物发现是识别候选化合物以进入到药物开发的下一阶段的过程,例如,临床前试验。这些候选化合物需要满足进一步开发的某些标准。现代药物发现涉及初始筛选“命中”化合物的识别和优化。特别地,这些化合物需要相对于所需标准进行优化,这可能包括多种不同生物特性的优化。待优化的特性可以包括例如:针对期望靶标的功效/效力、对非期望靶标的选择性、毒性概率低、以及良好的药物代谢和药物代谢动力学特性(adme)。只有满足特定要求的化合物才能成为可继续药物开发过程的候选化合物。

2、药物发现过程可能涉及在从初始筛选命中到候选化合物的优化过程中制备/合成大量化合物。特别地,对合成的那些化合物进行测量,以确定其特性,如生物活性。然而,可以被作为特定药物发现项目的一部分制备的化合物数量将远远超过可以被合成和测试的化合物数量,可能是几个数量级。因此,对合成化合物的测量结果进行分析,并用于为决定下一步合成哪些化合物提供依据,以最大限度地提高获得具有相对于候选化合物所需的各种标准的进一步改善特性的化合物的可能性。

3、一种或更多种化合物在特定阶段的合成和生物特性(诸如生物活性)的后续测量被称为药物发现过程的设计周期(或迭代)。通常,在过程的每个设计周期都会合成和测试一组化合物,因为这比一次合成和测试一种化合物更有效。然而,可用资源的水平通常意味着在任何给定的设计周期内,可以被合成的一组化合物的数量存在上限。

4、在基于湿实验室的药物发现项目中,在找到候选化合物之前,通常要经过几个设计周期合成数百甚至数千种化合物。这是一个漫长、昂贵且低效的过程:合成一种化合物可能花费数千英镑,平均需要三到五年才能获得一种候选化合物。

5、相对于可以由药品化学家单独进行的分析,计算方法的使用大大提高了可以对已经合成的化合物进行分析的水平。特别地,机器学习(ml)、人工智能(ai)或其他数学方法可用于在超出人类能力的水平上并行评估大量设计参数,以识别参数(例如化合物的结构特征)与期望的特性(例如生物活性水平)之间的关系。然后,数学方法可以使用这些识别的关系来更好地预测哪些化合物相对于候选化合物的所需标准更可能表现出更多数量/水平的期望的生物特性。这意味着此类数学方法可用于减少设计周期的数量,从而减少需要合成的化合物的数量,以获得达到候选化合物所需的期望的特性组合的化合物,从而实现药物发现项目相关的成本和时间的减少。

6、因此,寻找具有多种期望的特性的候选化合物的任务可以被视为是优化问题,目的是使用从先前合成的化合物获得的知识获得具有各种期望的特性的“最佳”化合物。当在药物发现的背景下面对这样的计算优化问题时,要解决多个挑战。

7、一个挑战是化合物群体中的化合物之间的函数关系的类型不是先前已知的。即,描述例如化合物的结构特征与生物特性之间的关系的目标函数的形式是未知的。这意味着在药物发现的背景下,依赖于函数形式的现有知识的一些已知的优化技术可能不合适。

8、另一个挑战是目标函数在输入空间的点处的评估是昂贵的。这是因为合成和测试化合物,即评估成本,既费时又昂贵。照此,来自待近似的目标函数的评估点的训练集可能含有相对较少的点,且在短时间段内大大增加训练集的大小可能不可行。这可能影响可以如何有效地训练近似目标函数的模型,并因此影响这样的模型如何能够进行准确的预测或近似。

9、进一步的挑战是许多已知的优化技术被设计成选择评估未知函数的单个点。然而,如上所述,在药物发现项目中,出于效率的原因,通常的情况是在任何给定的设计周期中选择多种化合物用于进行合成和测试。即,在给定迭代中,多个点需要被同时优化和选择以用于评估。

10、而且,已知的优化技术可以用于优化目标函数的单个参数,即,优化例程具有针对单个目标进行优化。然而,如上所述,通常将存在多个标准,需要针对该多个标准来优化化合物,以便成为合适的候选化合物。即,需要根据所考虑的特定药物发现项目的候选化合物的各种期望的生物特性并行优化函数的多个参数。

11、最后,许多优化例程依赖于目标函数的输入空间是连续的,使得可以使用诸如基于梯度的方法的技术。然而,清楚的是,在药物发现的背景下,输入空间是离散的(其中每种化合物均表示输入空间中的点),因此不能利用依赖于连续输入空间的技术。

12、本发明正是针对这个背景而设置的。


技术实现思路

1、根据本发明的方面,提供了一种用于计算药物设计的方法。该方法包括定义多种化合物的群体,每种化合物具有一种或更多种结构特征。该方法包括定义来自群体的多种特性已知的化合物的训练集。特性可以是化合物的任何相关的物理、化学或生物特性,特性可以被认为包括化合物的生物、生物化学、化学、生物物理、生理和/或药理特性。该方法包括定义多个目标,每个目标定义期望的特性。该方法包括使用化合物的训练集训练贝叶斯统计模型以输出近似群体中的化合物的特性的概率分布作为群体中的化合物的结构特征的目标函数。该方法包括确定来自群体的不在训练集中的多种化合物的子集。该子集是根据采集函数的优化来确定的,该采集函数的优化基于来自经训练的贝叶斯统计模型的概率分布以及基于所定义的多个目标。该方法可以包括选择所确定的子集中的至少一些化合物用于合成和/或用于进行(计算)分子动力学分析/模拟。该选择可以作为药物设计过程的一部分进行以获得具有期望的特性的化合物。方便地,贯穿本公开,化合物的这种特性可以统称为“生物特性”,因此,如本文所使用的,“生物特性”可以包括(化学)化合物的任何相关特性,包括可能更具体地被认为落入生物、生物化学、化学、生物物理、生理和/或药理特性的范围内/与生物、生物化学、化学、生物物理、生理和/或药理特性重叠的这种特性。

2、该方法可以包括:对于目标中的一个或更多个,通过将相应的效用函数应用于来自贝叶斯统计模型的概率分布来映射与相应目标的生物特性相关联的偏好,以获得偏好修改的概率分布。采集函数的优化可以基于偏好修改的概率分布。

3、偏好可以指示相应目标相对于多个目标中的其他目标的优先级。

4、在一些实施例中,对于化合物中的一种的生物特性中的一种,可能的情况是与生物特性的概率分布相关联的较低的不确定性值对应于与相应的生物特性相关联的较大偏好。

5、偏好可以是用户定义的偏好,例如由化学家定义的偏好。

6、效用函数中的一个或更多个可以是分段函数。分段函数可以是分段线性函数。

7、在一些实施例中,优化采集函数可以包括:针对群体中的每种化合物评估采集函数,可选地,将化合物在训练集中排除。可以基于所评估的采集函数值来确定子集。

8、在一些实施例中,基于所定义的多个目标的采集函数的优化可以提供化合物的帕累托最优集(pareto-optimal set)。可以从帕累托最优集中选择用于所确定的子集的多种化合物中的一种或更多种。可能的是,从帕累托最优集中进行的选择是根据用户定义的偏好。

9、来自贝叶斯统计模型的概率分布可以包括:与多个目标中的每个相应目标相关联的每种生物特性的概率分布。

10、方法可以包括:通过将聚合函数应用于来自贝叶斯统计模型的多个概率分布来将多个概率分布映射到一维聚合概率分布。采集函数的优化可以基于聚合概率分布。

11、聚合函数可以包括以下中的一项或更多项:和算子、平均算子、以及积算子。

12、采集函数可以是以下中的至少一个:预期改进函数、改进概率函数、以及置信界限函数。

13、采集函数可以是多维采集函数。在一些实施例中,每个维度可对应于多个目标中的相应目标。可选地,多维采集函数可以是超体积预期改进函数。

14、在一些实施例中,训练贝叶斯统计模型可以包括:调谐贝叶斯统计模型的多个超参数。可选地,调谐超参数可包括:应用最大似然估计技术和交叉验证技术的组合。

15、在一些实施例中,确定多种化合物的子集可以包括:通过基于来自经训练的贝叶斯统计模型的概率分布以及基于所定义的多个目标优化采集函数,来从群体中识别不在训练集中的一种化合物。该方法可以包括重复以下步骤:使用化合物的训练集和一种或更多种所识别的化合物重新训练贝叶斯统计模型;以及,通过基于来自重新训练的贝叶斯统计模型的概率分布以及基于所定义的多个目标优化采集函数,来识别来自群体的不在训练集中的并且不是一种或更多种先前所识别的化合物的一种化合物,直到多种化合物已被识别用于子集。

16、在一些实施例中,重新训练贝叶斯统计模型可以包括:针对贝叶斯统计模型中的一种或更多种所识别的化合物设置一个或更多个伪生物特性值或假生物特性值。

17、伪生物特性值可以根据以下中的一个来设置:克里金信徒(kriging believer)方法;以及经常说谎的人(constant liar)方法。

18、在贝叶斯统计模型中,每种化合物可以被表示为位向量,其中,位指示化合物中存在或不存在相应的结构特征。

19、贝叶斯统计模型可以是高斯过程模型。

20、来自经训练的贝叶斯统计模型的概率分布可以包括指示群体中的化合物的近似生物特性值的后验均值。来自经训练的贝叶斯统计模型的概率分布可包括指示与群体中的近似生物特性值相关联的不确定性的后验方差。

21、在一些实施例中,可以根据利用所描述的计算药物设计方法的药物发现过程或项目的期望策略来修改采集函数的一个或更多个加权参数。

22、期望策略可以包括开发策略和探索策略之间的平衡,开发策略取决于与后验均值相关联的采集函数的加权参数,探索策略取决于与后验方差相关联的采集函数的加权参数。

23、加权参数可以是用户定义的,以设置期望策略。

24、贝叶斯统计模型可以使用指示群体中的化合物对之间的相似性的内核以近似化合物的生物特性。

25、内核可以是谷本(tanimoto)相似性内核。

26、该方法可以包括:合成所确定的子集的所选择的化合物中的至少一些以确定所选择的化合物的生物特性。

27、该方法可以包括:将所合成的化合物添加到训练集以获得更新的训练集。

28、该方法可以包括:使用化合物的更新的训练集来训练更新的贝叶斯统计模型以输出近似目标函数的概率分布;确定来自群体的不在更新的训练集中的多种化合物的新子集,该新子集是根据采集函数的优化来确定的,采集函数的优化取决于来自更新的贝叶斯统计模型的近似的生物特性以及取决于所定义的多个目标;以及在所确定的新子集中选择至少一些化合物用于合成。

29、该方法可以包括合成所确定的新子集的所选择的化合物以确定所选择的化合物的生物特性。

30、该方法可以包括通过将所合成的化合物添加到训练集中来更新训练集。

31、该方法可以包括迭代地执行以下步骤:使用化合物的更新的训练集来训练更新的贝叶斯统计模型以输出近似目标函数的概率分布;确定来自群体的不在更新的训练集中的多种化合物的新子集,新子集是根据采集函数的优化来确定的,采集函数的优化取决于来自更新的贝叶斯统计模型的近似的生物特性以及取决于所定义的多个目标;在所确定的新子集中选择至少一些化合物用于合成;合成所确定的子集的所选择的化合物,以确定所选择的化合物的生物特性;以及将所合成的化合物添加到训练集以获得更新的训练集,直至满足停止条件。

32、停止条件可以包括以下中的至少一个:一种或更多种所合成的化合物实现多个目标,一种或更多种所合成的化合物在相应的多个目标的可接受阈值内,以及已经进行了最大次数的迭代。

33、在一些实施例中,实现多个目标或在相应的多个目标的可接受阈值内的合成化合物可以是具有针对预定靶分子的期望的生物、生物化学、生理和/或药理活性的候选药物或治疗分子。

34、预定靶分子可以是体外和/或体内治疗、诊断或实验测定靶标。

35、候选药物或治疗分子可以用于医学;例如,在用于治疗动物(如人类或非人类动物)的方法中。

36、每个目标可以是用户定义的,例如由化学家定义候选化合物将要满足的期望的标准。

37、在一些实施例中,每个目标包括以下中的至少一个:相应生物特性的期望值、相应生物特性的期望值范围、以及最大化或最小化的相应生物特性的期望值。

38、例如基于在药物设计项目的每个设计周期或迭代中可用于测试化合物的资源水平,可以由用户定义所选择的子集中的化合物的数量。

39、群体中的多种化合物中的每一种的结构特征可以对应于存在于该化合物中的片段。

40、多种化合物的每一种中存在的片段可以表示为分子指纹。可选地,该分子指纹是扩展连通指纹(extended connectivity fingerprint,ecfp),可选地为ecfp0、ecfp2、ecfp4、ecfp6、ecfp8、ecfp10或ecfp12。

41、生物特性可以包括以下中的一种或更多种:活性、选择性、毒性、吸收、分布、代谢、和排泄。

42、根据本发明的另一方面,提供了一种通过上述方法识别的化合物。

43、根据本发明的另一方面,提供了一种存储有指令的非暂时性计算机可读存储介质,该指令在由计算机处理器执行时,使该计算机处理器执行上述方法。

44、根据本发明的另一方面,提供了一种用于计算药物设计的计算设备。计算设备包括输入端,该输入端被布置为接收指示多种化合物的群体的数据,每种化合物具有一种或更多种结构特征。该输入端被布置为接收指示来自该群体的多种生物特性已知的化合物的训练集的数据。该输入端被布置为接收指示多个目标的数据,每个目标定义期望的生物特性。该计算设备包括处理器,该处理器被布置为使用化合物的训练集来训练贝叶斯统计模型以提供近似该群体中的化合物的生物特性的概率分布作为该群体中的化合物的结构特征的目标函数。处理器被布置为确定来自群体的不在训练集中的多种化合物的子集,该子集是根据采集函数的优化来确定的,该采集函数的优化基于来自经训练的贝叶斯统计模型的概率分布以及基于所定义的多个目标。计算设备包括输出端,该输出端被布置为输出所确定的子集。可选地,计算设备被布置为选择所确定的子集中的至少一些化合物用于合成和/或用于执行(计算)分子动力学分析/模拟。可替代地,这可以通过用户选择来进行。可选地,计算设备被布置为执行所述分子动力学分析/模拟。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1