基于化学反应数据库的有机合成路线设计方法与流程

文档序号:11830710阅读:646来源:国知局

本发明涉及计算机辅助化合物分子设计技术领域,具体涉及一种基于化学反应数据的有机合成路线设计方法。



背景技术:

在新材料、制药、农业科学、护肤品等精细化工领域,在产品研发过程中经常需要去合成各种有机分子。为了能得到需要的目标分子,或者为了达到优化生产路线、降低成本等目的,需要针对目标分子进行有机合成路线的设计。有机合成路线设计难度很大,以往有机合成路线的设计主要依靠研发技术人员自身的知识和经验。但随着当前信息技术的发展,随着不断增长的海量的有机合成知识的数据库的建立,研发技术人员可通过对数据库进行查询来了解目标分子或其相似分子的合成方法,然后结合自己的化学知识和经验进行合成路线设计,可大大减少相关技术人员的工作量和工作时间,有效提高合成工作的效率。目前市场上出现的计算机辅助合成路线设计的软件,其基本原理是首先根据大量化学反应数据提取反应中发生变化的部分(称为反应中心),然后将要合成的目标分子与反应中心进行匹配,然后一步步逆推反应物直到可购买到的化学品原料,从而获得合成目标分子的完整合成反应路线。但上述计算机辅助设计软件仅将反应中心作为匹配基础,运算量大,每一步反应都会有几十乃至上百种不同的可能,整个过程的运算量成指数级别增长,会导致运算时间过长甚至难以进行查询,未考虑化学反应中除反应中心外的化学键、原子、基团也可能会影响反应的进程和结果,经常得到大量的不合理路线,仍需技术人员利用经验和知识进行筛选,还可能会造成一些不必要的实验工作量和经济损失。

专利CN201010106648.9公开了一种基于逆向合成的有机小分子化合物可合成性评价方法,所述方法包括:建立原料数据库、转换规则数据库和固定路线数据库,应用这三个数据库对目标化合物进行逆向合成分析,自动生成有机小分子化合物的 合成路线,在拆分过程中,对逆向合成分析树的生成进行优化处理,预先删减逆向合成分析树中的节点,合成路线生成后,同时对化合物的拆分难度和合成路线的实现难度进行评价。该专利考虑到了反应中心周围化学环境的影响,在提取反应中心时,识别反应位点后将与反应位点中的原子相连的官能团也提取出来,并进行了反应中心的抽象,但未充分考虑周围化学环境的具体影响并据此对周围化学环境进行有效处理,同时,该专利只考虑了从目标分子向原料分子方向的推导,并未进行从原料分子一端向更复杂的可合成的分子的预推导,也未将原料价格因素考虑在内,在利用其数据库进行查询和设计时仍可能会产生大量的不合理路线,甚至由于运算量过大而难以找到合理的路线。



技术实现要素:

为克服现有技术的不足,本发明提供一种化学反应数据库的建立方法,包括如下步骤:

(1)将化学反应数据转换为计算机存储格式后,进行处理获得反应物和产物中原子的一一对应信息;

(2)根据步骤(1)的对应信息,识别反应位点,并将反应位点及与反应位点直接相连、相共轭的原子、化学键、基团及与反应位点间接相连且影响反应的基团作为识别化学反应的信息提取出来,作为反应指纹保存在数据库中;

(3)根据步骤(1)得到的对应信息,判断反应中基团对反应条件的兼容性并将判断结果保存在数据库中,化学反应中,在反应物和产物中都存在的基团对于所述反应条件是兼容的,在反应物中存在但在产物中不存在的基团对于所述反应条件是不兼容的。

步骤(1)中所述的化学反应包括常规化学反应、经典有机人名反应、已公开的其他化学反应、如在学术期刊或专利中报道过的化学反应;所述的化学反应的反应条件、产物分离纯化方法、反应收率等与实现反应有关信息及参考文献也保存在数据库中;

优选的,步骤(1)中所述的处理包括将化学反应中的反应物和产物的化学结构建立映射关系(mapping运算);

优选的,步骤(1)中所述的处理还包括:去掉不影响化学反应中反应物和产物化学结构表示的氢原子,将反应物和产物中芳香环中以凯库勒式表示的化学键转换为相同的离域大π键,即将芳香环的单双键转换为统一的芳香键;

化合物分子结构的计算机存储格式较多,如MOL2、MOL、SDF、MOP、ALC、SMD、RDF等,本领域技术人员可根据实际情况进行上述格式的选择,本发明对此不作限定;

步骤(2)中所述的反应位点包括参与化学反应的原子和/或化学键,包括从反应物到产物的变化中被添加、改变、消失的原子、化学键及原子和化学键的组合;

优选的,步骤(2)中所述的反应指纹包括:参与化学反应的化学键、参与化学反应的原子、与参与化学反应的原子直接相连的原子、与参与化学反应的原子相共轭的化学键及原子、与参与化学反应的原子或与之共轭的化学键直接相连的吸电子基团和给电子基团、与参与反应的原子直接或间接相连的有空间位阻的基团;

步骤(3)中对基团的兼容性判断结果有助于根据反应条件来预测反应物中是否含有不兼容的基团,并据此进行相关合成路线的剔除和优化,避免造成合成反应的失败和损失;

优选的,所述的建立方法还包括将已有的化合物产品作为化合物原料,建立化合物原料数据库,储存在上述化学反应数据库中;所述的已有的化合物产品为现有技术中可通过商业渠道直接购买到的化合物产品;进一步优选的,上述化合物原料数据库中还包括化合物原料的价格、CAS号等信息;

优选的,可根据步骤(2)得到的反应指纹建立反应指纹数据库,储存在上述化学反应数据库中;

优选的,可根据步骤(3)得到的基团兼容性判断结果建立基团兼容性分析数据库,储存在上述化学反应数据库中;

优选的,根据步骤(1)的化学反应,收集化学反应的产物作为可合成的化合物,建立化合物中间体数据库,储存在上述化学反应数据库中;所述的化合物中间体是以已有的化合物产品作为化合物原料通过一步或两步以上所述步骤(1)中的化学反应合成的化合物。

本发明还提供一种上述方法建立的化学反应数据库。

优选的,所述的化学反映数据库包括:化合物原料数据库、反应指纹数据库、基团兼容性分析数据库;进一步优选的,还包括化合物中间体数据库。

本发明还提供一种基于上述化学反应数据库的有机合成路线设计方法,包括如下步骤:

(1)输入目标化合物;

(2)将目标化合物匹配上述数据库中的化学反应产物,将匹配的化学反应输出为精确查找结果;

(3)将目标化合物匹配上述数据库中的反应指纹,得到对应的反应指纹,逆向运算得到合成目标化合物的反应物,将匹配的相应反应指纹的化学反应输出为相似查找结果;

优选的,(4)分别对步骤(2)所述的精确查找结果和步骤(3)所述的近似查找结果进行排序;

优选的,上述的排序的依据包括反应收率、基团的兼容性、合成目标化合物所需的反应步骤数及反应物成本;优选反应收率高、无不兼容性基团、合成目标化合物所需反应步骤少、反应物成本低的结果;上述排序依据还可包括反应条件实现难易程度、产物分离和纯化难度、反应物毒害性等;

所述的目标化合物匹配的基本原理如下:将目标化合物的结构式分解为多个结构指纹,每个指纹由0和1表示,如包含三元环、有氧原子等指纹定义,每个化合物的化学结构可根据指纹定义计算为一个二进制数字,定义了足够多的指纹后,根据这个二进制数字的位操作,可以快速匹配一个化学结构是否包含另一个化学结构(superstructure)或被另一个化学结构包含(substructure)、或完全相等(exact),针对包含关系,须对快速匹配到的两个结构再进行一对一的结构匹配,去除少数不相符的结果。其他可实现化合物结构式匹配的方法也适用于本发明的有机合成路线设计方法,本发明对此不作限定。

步骤(3)中所述的逆向运算为根据反应指纹,将目标化合物的相应原子和化学键进行逆向变换,从化学反应的逆反应方向逐步推导出合成目标化合物所需的反 应物;所述的反应物可为一种或两种以上化合物;所述的逆向运算为一步或两步以上;

优选的,步骤(3)中所述的筛选包括:去除含不合理化学结构的反应、产生副产物的反应的合成路线;所述的不合理化学结构的反应包括反应物不稳定或不可能存在等反应,所述的产生副产物的反应可根据反应位点是否唯一或者是否有选择性来判断;

优选的,步骤(2)和(3)中,从目标化合物开始,在每一次匹配后,提供排序后的匹配结果供选择,进行选择后进入下一步查询和匹配,直到完成整个合成路线的设计;所述的选择包括用户选择和默认选择,用户可对排序的匹配结果进行任意选择;如无用户选择,则进行默认选择,默认选择是根据排序先后进行选择的,优选第一个结果;用户也可输入一个其认为合理的结果进行下一步查询和匹配。

本发明提供的化学反应数据库在提取反应指纹的算法中不仅考虑到了反应位点,还充分考虑到反应位点周围化学环境的影响和反应中基团的兼容性,有助于用户基于上述数据库进行目标化合物分子的有机合成设计时避免了大量不合理的合成路线分支,得到数量有限且合理的合成路线结果;所述的化学反应数据库中包括市售的化合物产品及其价格、CAS号等信息,基于所述化学反应数据库进行有机合成路线设计时考虑到合成成本的因素,有助于得到实际可行的合成路线结果;上述有机合成设计方法在查询匹配时分为精确查找和近似查找,有助于用户区分已有合成路线和设计的合成路线;且用户可参与选择每一步的合成路线的设计,避免了不合理合成路线分支产生,可得到符合用户需求的结果。

具体实施方式

本发明中所述的“目标化合物”为用户想要合成的化合物,其可为现有技术中已存在的化合物,如某种药物中间体或者药物设计中对已知化合物库中筛选出的某个分子,也可为现有技术中不存在的虚拟化合物,如某种具有生物活性的分子的衍生物或者虚拟化合物库中被认为可能会有生物活性的分子。

下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例, 本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例1化学反应数据处理

将如式(1)所示的化学反应导出为RDF标准化学数据格式。其中,原子被表示为节点并编号,原子间的化学键表示为节点间的连接,对反应物和产物的化学结构建立映射关系,去掉不影响反应物和产物化学结构表示的氢原子,将芳香环的单双建转换为统一的芳香键,获得反应物和产物中原子的一一对应信息,如式(2)所示。识别反应位点,提取反应位点及与反应位点直接相连的原子和相共轭的化学键作为反应指纹如式(3)所示。

实施例2合成BOC-L-脯氨酸

基于本发明的化学反应数据库查询和设计BOC-L-脯氨酸的合成路线,精确查找返回13条结果并进行了排序,其中第一条结果为由BOC酸酐和L-脯氨酸反应合成BOC-L-脯氨酸,两种原料均可通过商业渠道直接购买到,如下所示:

实施例3合成药物万乃洛韦

基于本发明的化学反应数据库查询和设计药物万乃洛韦的合成路线,精确查找没有得到结果,但经过相似查找,得到可以由两个市售的原料经过一步反应合成目标化合物的路线,如下所示:

实施例4合成3-喹啉-6-基-丙醛

基于本发明的化学反应数据库查询和设计3-喹啉-6-基-丙醛 (3-quinolin-6-yl-propionaldehyde)的合成路线,精确查找没有得到结果,但经过相似查找,得到可以由两个市售的原料经过一步反应合成目标化合物的路线,如下所示:

实施例5合成7-苄基-3,7-二氮杂双环[3.3.1]壬烷-3-羧酸叔丁酯

基于本发明的化学反应数据库查询和设计7-苄基-3,7-二氮杂双环[3.3.1]壬烷-3-羧酸叔丁酯的合成路线,经过精确查找,得到可以由两个市售的原料经过两步反应进行合成目标化合物的路线,如下所示:

实施例2-5中所述查询和设计结果中,合成路线较短,产率较高,合成目标化合物所需反应物皆可通过商业渠道直接购买到,可极大地减少技术人员的工作量,缩短工作时间,有效提高工作效率。

实施例6合成化合物3-{3-[3-甲基-5-(丙-2-基)-4H-1,2,4-三唑-4-基]-8-氮杂双环[3.2.1]辛-8-基}-1-苯基丙-1-醇

利用ChemPlanner(John Wiley&Sons公司)进行目标化合物的合成路线设计,得到由市售化合物原料经过三步反应合成目标化合物的路线如下:

基于本发明的化学反应数据库查询和设计目标化合物的合成路线,得到的查找结果排序后,第一条结果为由市售化合物原料经过两步反应合成目标化合物的路线如下:

上述两种合成路线相比,后者反应步骤较少,可较大幅度地降低目标化合物的合成成本和时间。

实施例7合成2-[(喹啉-4-基)氨基]乙酰胺

利用ChemPlanner进行目标化合物的合成路线设计,得到由4-卤代喹啉和甘氨酰胺经过一步反应合成目标化合物的路线如下:

基于本发明的化学反应数据库查询和设计目标化合物的合成路线,得到的查找 结果排序后,第一条结果为由4-羟基喹啉和甘氨酰胺经过一步反应合成目标化合物的路线如下:

本发明的化学反应数据库中包含了化合物原料的价格价格、CAS号等信息,基于本发明的化学反应数据库查询和设计目标化合物的合成路线时,对查找结果进行排序的依据包括反应收率、基团的兼容性、反应物成本等,对于反应收率、基团的兼容性相同或相近、反应步骤相同的查找结果,将相对成本较低的合成路线排在前面。

根据本发明的化学反应数据库中保存的4-羟基喹啉和4-卤代喹啉的价格,前者的价格大大低于后者的,分别采用4-羟基喹啉和4-卤代喹啉合成目标化合物的路线反应收率、基团兼容性相似,反应步骤都为一步,因此将采用4-羟基喹啉合成目标化合物的路线排在第一条,其合成成本比利用ChemPlanner设计的合成路线的成本低得多,因而更实际可行。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换等,均应包含在本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1