一种分子设计和结构优化方法、系统、装置及存储介质与流程

文档序号:33360404发布日期:2023-03-07 20:37阅读:121来源:国知局
一种分子设计和结构优化方法、系统、装置及存储介质与流程

1.本发明涉及药物化学技术领域,尤其是一种分子设计和结构优化方法、系统、装置及存储介质。


背景技术:

2.药物发现通常面临着成本高、周期长的问题。一个成功的候选药物不仅必须满足生物活性标准,而且必须具有良好的药代动力学等性质,以及无明显毒副作用,并同时具有较好的可合成性。先导物优化阶段通过在先导化合物上做结构改造和修饰来改善上述性质,其基本逻辑是分析构效关系(structure-activity relationship,sar)。在不改变先导化合物的分子母核的情况下,通过综合比较侧链取代基可以得到精确的sar,再逐步调整这些取代基得到性质更优的化合物结构。如果能快速得到与给定分子结构类似的结构数据库,能大大提高先导物优化的效率。目前已有一些方法可以快速生成和给定结构类似的结构数据库,如基于深度学习的生成式模型、基于匹配分子对(matched molecular pairs,mmps)的分析方法,以及一些基于分子图的方法等。
3.但是当前基于深度学习的分子生成方法可以快速探索巨量化学空间,但同时也面临一些问题:如结构类药性不高;可合成性较差;以及由于smiles字符串的序列性质,很难生成保留结构母核的分子;难以分析构效关系;更不易通过自动化的批量合成方法快速制备分子。


技术实现要素:

4.有鉴于此,本发明实施例提供一种分子设计和结构优化方法、系统、装置及存储介质,能够高效实现化合物的结构优化。
5.一方面,本发明的实施例提供了一种分子设计和结构优化方法,包括:
6.获取分子合成砌块数据,建立分子合成砌块数据库;
7.基于先验知识,建立化学反应规则;
8.根据所述化学反应规则对输入分子结构进行结构切分,得到分解片段;所述分解片段包括分子母核和取代基片段;
9.基于所述分解片段,通过所述分子合成砌块数据库的数据得到若干目标结构;
10.基于若干所述目标结构和所述化学反应规则,通过变分自编码器训练并进行结构重组,得到若干目标分子结构;
11.对若干所述目标分子结构进行分子对接和药效参数评价处理,确定目标成药性分子。
12.可选地,还包括:
13.根据所述目标成药性分子,通过数据分析库绘制数据分析结果报表;
14.其中,所述数据分析结果报表包括分子结构、分子描述符、理化性质和构效关系的数据分析结果报表。
15.可选地,所述获取分子合成砌块数据,建立分子合成砌块数据库,包括:
16.基于公共结构数据库,搜集合成砌块结构数据,通过生物化学工具包转成标准化的smi les序列;
17.对所述合成砌块结构数据中的所有分子进行结构准备,以预设格式保存;
18.其中,所述结构准备包括加氢、质子化和生成三维构象。
19.可选地,所述基于先验知识,建立化学反应规则,包括:
20.基于有机化学教科书和文献建立药物合成的化学反应规则;
21.其中,所述化学反应规则通过smarts表达式表示。
22.可选地,还包括:
23.通过编码器、潜空间和解码器构建变分自编码器;
24.其中,所述编码器包括循环神经网络层和全连接层;所述解码器包括循环神经网络层和时间依赖的全连接层。
25.可选地,还包括:
26.通过损失函数对所述变分自编码器的参数进行训练;
27.其中,所述损失函数包括重构损失和正则化损失;所述训练中采用adam随机梯度下降作为优化器、通过xavier初始化方法进行权重初始化和采用早期停止策略。
28.可选地,所述对若干所述目标分子结构进行分子对接和药效参数评价处理,确定目标成药性分子,包括:
29.对若干所述目标分子结构进行结构准备,得到对应的三维构象;
30.根据所述三维构象进行分子对接和亲和力和药效性质排序,得到评价参数;
31.其中,所述评价参数包括对接打分、理化性质、类药性和可合成性;
32.基于所述评价参数,确定目标成药性分子。
33.另一方面,本发明的实施例提供了一种分子设计和结构优化系统,包括:
34.第一模块,获取分子合成砌块数据,建立分子合成砌块数据库;
35.第二模块,基于先验知识,建立化学反应规则;
36.第三模块,根据所述化学反应规则对输入分子结构进行结构切分,得到分解片段;所述分解片段包括分子母核和取代基片段;
37.第四模块,基于所述分解片段,通过所述分子合成砌块数据库的数据得到若干目标结构;
38.第五模块,基于若干所述目标结构和所述化学反应规则,通过变分自编码器训练并进行结构重组,得到若干目标分子结构;
39.第六模块,对若干所述目标分子结构进行分子对接和药效参数评价处理,确定目标成药性分子。
40.另一方面,本发明的实施例提供了一种分子设计和结构优化装置,包括处理器以及存储器;
41.所述存储器用于存储程序;
42.所述处理器执行所述程序实现如前面所述的方法。
43.另一方面,本发明的实施例提供了一种计算机可读存储介质,所述存储介质存储有程序,所述程序被处理器执行实现如前面所述的方法。
44.本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前面的方法。
45.本发明实施例首先获取分子合成砌块数据,建立分子合成砌块数据库;基于先验知识,建立化学反应规则;根据所述化学反应规则对输入分子结构进行结构切分,得到分解片段;所述分解片段包括分子母核和取代基片段;基于所述分解片段,通过所述分子合成砌块数据库的数据得到若干目标结构;基于若干所述目标结构和所述化学反应规则,通过变分自编码器训练并进行结构重组,得到若干目标分子结构;对若干所述目标分子结构进行分子对接和药效参数评价处理,确定目标成药性分子。本发明通过建立化学反应规则,进行输入分子结构的切分,进而结合分子合成砌块数据库通过变分自编码器实现分子重组,使得生成得到的分子具有较好的可合成性,同时容易通过相似的化学反应操作快速制备。并且通过分子对接和药效参数评价处理实现优化筛选,从而最终得到目标成药性分子。本发明能够高效实现化合物的结构优化。
附图说明
46.为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
47.图1为本发明实施例提供的一种分子设计和结构优化方法的流程示意图;
48.图2为本发明实施例提供的一种分子设计和结构优化方法的原理示意图;
49.图3为本发明实施例提供的一种分子设计和结构优化方法的整体流程示意图;
50.图4为本发明实施例提供的化学反应规则的原理示意图;
51.图5为本发明实施例提供的度量化学相似性的原理和流程示意图;
52.图6为本发明实施例提供的分子设计和结构优化产生的分子设计结构的示意图;
53.图7为本发明实施例提供的基于统计学习方法的定量构效关系结果的示意图;
54.图8为本发明实施例提供的分子设计和结构优化产生的化学结构和理化性质数据图;
55.图9为本发明实施例提供的分子设计和结构优化的对接流程和亲和力频率分布直方图;
56.图10为本发明实施例提供的分子设计和结构优化的对接三维构象图。
具体实施方式
57.为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
58.一方面,参照图1,本发明的实施例提供了一种分子设计和结构优化方法,包括:
59.s100、获取分子合成砌块数据,建立分子合成砌块数据库;
60.需要说明的是,一些实施例中,基于公共结构数据库,搜集合成砌块结构数据,通过生物化学工具包转成标准化的smi les序列;对合成砌块结构数据中的所有分子进行结构准备,以预设格式保存;其中,结构准备包括加氢、质子化和生成三维构象。
61.具体地,通过从数据库获取高质量的分子合成砌块(bu i ld ing blocks,bbs)结构。详细步骤为:从各公共结构数据库,搜集合成砌块结构数据,并通过rdkit(rdkit是一个常用的生物化学信息python工具包。它提供了大量对化学分子2d或3d的计算操作,可生成用于机器学习的分子描述符)转成标准化的smi les序列(simp l ified mo lecu l ar input l ine entry system,简化分子线性输入规范,是一种用asci i字符串明确描述分子结构的规范)。同时所有分子通过内部分子准备流程进行结构准备,包括加氢、质子化,并生成三维构象,保存为.sdf格式。其中,公共数据块包括reaxys、pubchem、chembl、zinc等数据库。
62.s200、基于先验知识,建立化学反应规则;
63.需要说明的是,一些实施例中,基于有机化学教科书和文献建立药物合成的化学反应规则;其中,化学反应规则通过smarts表达式表示。
64.具体地,为使生成得到的分子具有好的可合成性,从有机化学教科书和文献建立常见的药物合成反应规则,共得到85条化学反应规则,用smarts表达式表示,存储在字典中。其中,化学反应规则考虑到了常见的药物合成反应类型,包括偶联反应、酯化反应、环加成反应以及成环反应等。每条反应规则用smarts编码,可实现对分子结构根据反应规则进行分解和重组。
65.s300、根据化学反应规则对输入分子结构进行结构切分,得到分解片段;
66.需要说明的是,分解片段包括分子母核和取代基片段;
67.具体地,利用准备的化学反应规则对先导化合物(即输入分子结构)进行结构切分,分解成对药效有关键作用的分子母核和取代基片段。
68.s400、基于分解片段,通过所述分子合成砌块数据库的数据得到若干目标结构;
69.具体地,基于分子母核和取代基片段,从准备的分子合成砌块库中搜索与分解片段类似的结构(即目标结构)。
70.s500、基于若干目标结构和化学反应规则,通过变分自编码器训练并进行结构重组,得到若干目标分子结构;
71.需要说明的是,一些实施例中,还包括:通过编码器、潜空间和解码器构建变分自编码器;其中,编码器包括循环神经网络层和全连接层;解码器包括循环神经网络层和时间依赖的全连接层。
72.具体地,设计变分自编码器(vae)架构构建分子生成模型,vae包含编码器(encoder)、潜空间(l atent space)以及解码器(decoder)。设计的编码器包含两个循环神经网络(rnn)层,以及一个全连接层。通过化学反应规则对给定结构实现分割后,得到对生物活性起关键作用的分子母核和取代基片段。编码器的输入即为分子母核-取代基片段的化学结构信息张量,输出是潜空间的多维概率分布。潜空间是一个高度结构化且连续的高维空间,其特定方向可表示原始数据中有意义的变化轴。因此该潜空间捕捉到原始数据的关键统计信息。vae的解码器也包含两个循环神经网络层,以及一个时间依赖的全连接层。解码器的输入是对潜空间的采样,输出是smi les字符串中每个字符出现的概率。其中,通
过变分自编码器构建的分子生成模型,基于目标结构得到众多和给定结构类似的分子母核和取代基片段(即目标分子结构),此步骤通过化学反应规则对生成结构实现重组,得到与初始输入分子类似的结构。
73.需要说明的是,通过准备的化学反应规则,对分子母核和取代基片段进行结构重组。由于此步考虑到了化学反应规则,使得重组后的分子具有较好的可合成性,以及和给定结构有较好的相似性,从而具有相似的功能性质。相似性通过tan imoto相似性系数衡量,其基于rdkit的ecfp4分子指纹实现。由于分子之间有较好的相似性,有利于建立定量构效关系(qsar)模型,通过分析构效关系,可以比较不同取代基的优劣。另外,由于通过类似的化学反应设计分子,可通过类似的化学反应操作来制备,有利于自动化合成而快速获得实体分子。
74.还需要说明的是,分子生成模型vae,是一种现代化的自编码器,将深度学习的想法与贝叶斯推断结合在一起,可实现将输入分子编码到低维潜在向量空间,然后再通过解码器解码回来。vae将分子数据转换为统计分布的参数,即平均值和方差,然后使用平均值和方差这两个参数从分布中随机采样一个元素,并将这个元素解码到原始输入。这个过程本质上是一个统计过程,具有一定的随机性。这个随机性提高了过程的稳健性,并迫使潜在空间的任何位置都对应有意义的表示,即潜在空间采样的每个点都能解码为有效的输出。
75.一些实施例中,还包括:通过损失函数对变分自编码器的参数进行训练;其中,损失函数包括重构损失和正则化损失;训练中采用adam随机梯度下降作为优化器、通过xavier初始化方法进行权重初始化和采用早期停止策略。
76.具体地,vae的参数通过两个损失函数来进行训练:(1)重构损失(reconstruct ion loss),迫使解码后的分子匹配初始输入;(2)正则化损失(regu l ar izat ion loss),有助于学习具有良好结构的潜在空间,并可以降低在训练数据上的过拟合。
77.vae的训练过程使用adam随机梯度下降作为优化器,其学习率设置为0.0001。在每个rnn层上执行dropout以防止过拟合,其比率(dropout rate)设置为0.001。对所有层使用relu激活函数;权重的初始化使用xavier初始化方法;批大小设置为1024。为进一步防止过拟合,使用早期停止(ear ly stopping)策略。
78.s600、对若干目标分子结构进行分子对接和药效参数评价处理,确定目标成药性分子。
79.需要说明的是,一些实施例中,对若干目标分子结构进行结构准备,得到对应的三维构象;根据三维构象进行分子对接和亲和力和药效性质排序,得到评价参数;其中,评价参数包括对接打分、理化性质、类药性和可合成性;基于评价参数,确定目标成药性分子。
80.具体地,将s500具体实施例中得到的大量和给定化合物结构类似的分子,通过内部分子准备流程进行结构准备,包括加氢、质子化等,生成三维构象后,与生物靶点进行分子对接,对分子进行亲和力和药效性质排序。通过综合考虑对接打分、理化性质、类药性及可合成性等参数,筛选得到最终的具有潜在成药性的分子。其中,通过内部分子对接及药效参数评价方法,对生成得到的分子进行快速亲和力及药效参数排序,从中筛选具有潜在成药性的候选分子,得到比输入参考化合物亲和力更强且药效性质更优的分子结构。
81.需要说明的是,一些实施例中,还包括:根据目标成药性分子,通过数据分析库绘制数据分析结果报表;其中,数据分析结果报表包括分子结构、分子描述符、理化性质和构
效关系的数据分析结果报表。
82.具体地,待所有任务完成后,调用rdkit及pandas、matp lot l ib等数据分析库,直接在jupyter中绘制分子结构、分子描述符、理化性质、构效关系等数据分析结果报表。
83.下面结合具体实施例和附图对本发明的技术方案作进一步说明,应当理解的是,下述为技术方案的解释,而不能看作对本发明的限制。
84.以下实施例采用如图2所示的原理,所用工作流程如图3所示。
85.实施例1
86.针对布鲁顿氏酪氨酸激酶btk的先导化合物结构优化:
87.btk是b细胞受体(bcr)信号转导通路中的关键激酶,在不同类型恶性血液病中广泛表达,参与b细胞的增殖、分化与凋亡过程。为获得性质更优的btk抑制剂结构,首先下载获得该靶点的抑制剂结构及先导化合物。利用准备的化学反应规则对先导化合物进行结构切分,分解成对药效有关键作用的分子母核和取代基片段,如图4所示。从准备的分子合成砌块库中搜索与分解片段类似的结构,再通过变分自编码器训练,得到类似的官能团结构。将分子母核与生成的结构片段基于化学反应规则重组,得到完整的生成分子,与初始输入分子计算结构相似性,如图5所示。重组后得到的完整分子结构如图6所示。同时对搜集的抑制剂,通过统计学习方法,包括随机森林(rf)、支持向量机(svm)以及多层感知机(mlp)等建立定量构效关系(qsar)模型,结果如图7所示。后续再通过qsar模型指导药物设计。
88.实施例2
89.针对环氧合酶cox的抑制剂设计和结构优化
90.环氧合酶(cox),又称为前列腺素内过氧化物合酶(ptgs),是生物体内一种重要的酶,负责形成重要的生物调节剂,包括前列腺素,前列环素和血栓素等。药物抑制cox可以减轻炎症和疼痛症状,其抑制剂主要是非甾体抗炎药。为获得性质优异的cox抑制剂,下载该靶点的三维晶体结构,对已有药物分子塞来昔布通过化学反应规则分解,利用vae生成新的分子结构,如图8所示。将得到的分子与cox靶点进行分子对接,得到分子的三维构象和打分排序,以及对接打分频率分布直方图,如图9所示,保留对接打分《-9的分子作为下一步筛选。保留的部分化学分子结构三维构象如图10所示,与给定参考结构具有较好的相似性。
91.综上,本发明联合使用了化学反应规则和深度学习模型,分子设计阶段考虑到了化学反应规则,使得生成得到的分子具有较好的可合成性,同时容易通过相似的化学反应操作快速制备;以及后续集成了分子对接和药效参数评价模型,可进一步计算生成分子的亲和力和药效参数,从而实现对初始结构的有利改造和优化。最后用户可以通过数据分析模块在jupyter notebook中随时查看和修改任务的执行状态,也能通过图形界面的方式可视化已有的计算和分析结果。本发明的有益效果包括:1.实现了分子合成砌块库的建立,得到了具有不同反应官能团的合成砌块列表;2.实现了基于smarts规则的化学反应规则的建立,保证了设计分子的可合成性,以及易通过自动化设备快速得到实体分子的潜力;3.通过分子对接和药效参数模型,快速得到比参考分子性能更优的结构,同时易于分析构效关系,为药物设计和优化提供洞见,为下一轮迭代提供思路。
92.另一方面,本发明的实施例提供了一种分子设计和结构优化系统,包括:第一模块,获取分子合成砌块数据,建立分子合成砌块数据库;第二模块,基于先验知识,建立化学反应规则;第三模块,根据化学反应规则对输入分子结构进行结构切分,得到分解片段;分
解片段包括分子母核和取代基片段;第四模块,基于分解片段,通过所述分子合成砌块数据库的数据得到若干目标结构;第五模块,基于若干目标结构和化学反应规则,通过变分自编码器训练并进行结构重组,得到若干目标分子结构;第六模块,对若干目标分子结构进行分子对接和药效参数评价处理,确定目标成药性分子。
93.本发明方法实施例的内容均适用于本系统实施例,本系统实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法达到的有益效果也相同。
94.本发明实施例的另一方面还提供了一种分子设计和结构优化装置,包括处理器以及存储器;
95.所述存储器用于存储程序;
96.所述处理器执行所述程序实现如前面所述的方法。
97.本发明方法实施例的内容均适用于本电子设备实施例,本电子设备实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法达到的有益效果也相同。
98.本发明实施例的另一方面还提供了一种计算机可读存储介质,所述存储介质存储有程序,所述程序被处理器执行实现如前面所述的方法。
99.本发明方法实施例的内容均适用于本计算机可读存储介质实施例,本计算机可读存储介质实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法达到的有益效果也相同。
100.本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前面的方法。
101.在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
102.此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
103.所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说
对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-on ly memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
104.在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行装置、装置或设备(如基于计算机的装置、包括处理器的装置或其他可以从指令执行装置、装置或设备取指令并执行指令的装置)使用,或结合这些指令执行装置、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行装置、装置或设备或结合这些指令执行装置、装置或设备而使用的装置。
105.计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(ram),只读存储器(rom),可擦除可编辑只读存储器(eprom或闪速存储器),光纤装置,以及便携式光盘只读存储器(cdrom)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
106.应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行装置执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。
107.在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
108.尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
109.以上是对本发明的较佳实施进行了具体说明,但本发明并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换,这些等同的变形或替换均包含在本发明权利要求所限定的范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1