分子生成模型的训练方法、装置、设备及存储介质与流程

文档序号:29744195发布日期:2022-04-21 20:55阅读:166来源:国知局
分子生成模型的训练方法、装置、设备及存储介质与流程

1.本技术涉及人工智能技术领域,特别涉及一种分子生成模型的训练方法、大环小分子的信息确定方法、装置、设备及存储介质。


背景技术:

2.目前,在研发小分子的药物化合物的过程中,往往会根据疾病对应的靶点,从已有的多种小分子的药物化合物中,筛选出能够与靶点作用的小分子,然后针对筛选出的小分子进行相关的临床实验。而已有的小分子的药物化合物往往是链状结构,其药理活性和选择性较低。因此,需要对小分子的结构进行改造,使其成为大环小分子,从而使研发出的药物具有更好的药效。
3.相关技术中,药物化学家会根据小分子的特性以及相关的药物化学知识,人工设计出能够与小分子结合以构成大环结构的链接器分子,将小分子与该链接器分子结合,从而生成大环小分子。
4.上述技术中,需要人工设计链接器分子,人力成本较高,且耗时长,导致生成大环小分子的效率低下。


技术实现要素:

5.本技术实施例提供了一种分子生成模型的训练方法、大环小分子的信息确定方法、装置、设备及存储介质,该方法能够提升生成大环小分子的效率。该技术方案如下:
6.一方面,提供了一种分子生成模型的训练方法,该方法包括:
7.获取第一样本分子的表达信息和第二样本分子的表达信息,该第一样本分子和该第二样本分子是对同一分子切分得到,该第二样本分子为该分子中可替换的分子片段;
8.将该第一样本分子的表达信息和该第二样本分子的表达信息,输入分子生成模型,得到预测分子的表达信息;
9.基于该预测分子的表达信息和该第二样本分子的表达信息,对该分子生成模型进行训练。
10.一方面,提供了一种大环小分子的信息确定方法,该方法包括:
11.获取第一分子的表达信息;
12.将该第一分子的表达信息,输入分子生成模型,得到第二分子的表达信息,该第二分子为能够与该第一分子结合的小分子;
13.基于该第一分子的表达信息和该第二分子的表达信息,获取大环小分子的表达信息;
14.其中,该分子生成模型基于第一样本分子的表达信息和第二样本分子的表达信息训练得到,该第一样本分子和该第二样本分子是同一分子切分得到,该第二样本分子为该分子中可替换的分子片段。
15.一方面,提供了一种分子生成模型的训练装置,该装置包括:
16.获取模块,用于获取第一样本分子的表达信息和第二样本分子的表达信息,该第一样本分子和该第二样本分子是对同一分子切分得到,该第二样本分子为该分子中可替换的分子片段;
17.生成模块,用于将该第一样本分子的表达信息和该第二样本分子的表达信息,输入分子生成模型,得到预测分子的表达信息;
18.训练模块,用于基于该预测分子的表达信息和该第二样本分子的表达信息,对该分子生成模型进行训练。
19.在一些实施例中,该生成模块包括:
20.获取子模块,用于将该第一样本分子的表达信息,输入该分子生成模型的第一嵌入向量子模型,得到该第一样本分子的嵌入向量;
21.该获取子模块,用于将该第一样本分子的嵌入向量,输入该分子生成模型的编码子模型,得到该第一样本分子的分子结合信息,该分子结合信息用于表示能够与该第一样本分子结合的小分子的特征;
22.该获取子模块,用于将该第二样本分子的表达信息,输入该分子生成模型的第二嵌入子模型,得到该第二样本分子的嵌入向量;
23.生成子模块,用于将该第一样本分子的分子结合信息和该第二样本分子的嵌入向量,输入该分子生成模型的解码子模型,得到该预测分子的表达信息。
24.在一些实施例中,该生成子模块,用于将该第一样本分子的嵌入向量,输入该编码子模型;基于该第一样本分子的嵌入向量和该编码子模型中的多头自注意力单元,提取该第一样本分子中各个原子之间的相关性信息、该第一样本分子中每个原子与每个化学键之间的相关性信息,以得到该第一样本分子的初始分子结合信息;
25.基于该编码子模型的前馈神经网络单元,对该第一样本分子的初始分子结合信息中多个相关性信息进行非线性融合,得到该第一样本分子的分子结合信息。
26.在一些实施例中,该生成模块,用于将该第一样本分子的表达信息、该第二样本分子的表达信息、该第二样本分子的长度和结构信息,输入该分子生成模型,得到该预测分子的表达信息,该结构信息用于表示该第二样本分子中是否包括环结构。
27.在一些实施例中,该训练模块,用于基于该预测分子的表达信息和该第二样本分子的表达信息,获取损失值,该损失值用于表示该预测分子的表达信息和该第二样本分子的表达信息之间的误差;若训练过程未达到训练结束条件,基于该损失值,调整该分子生成模型的网络参数;若该训练过程达到该训练结束条件,输出该分子生成模型。
28.在一些实施例中,该装置还包括切分模块,用于基于匹配分子对算法和该分子的表达信息,确定该分子中可替换的分子片段;基于该分子片段在该分子中的位置,对该分子进行切分,以得到该第一样本分子的表达信息和该第二样本分子的表达信息,该第一样本分子的表达信息和该第二样本分子的表达信息包括该分子的切分位置。
29.一方面,提供了一种大环小分子的信息确定装置,该装置包括:
30.获取模块,用于获取第一分子的表达信息;
31.生成模块,用于将该第一分子的表达信息,输入分子生成模型,得到第二分子的表达信息,该第二分子为能够与该第一分子结合的小分子;
32.该获取模块,用于基于该第一分子的表达信息和该第二分子的表达信息,获取大
环小分子的表达信息;
33.其中,该分子生成模型基于第一样本分子的表达信息和第二样本分子的表达信息训练得到,该第一样本分子和该第二样本分子是同一分子切分得到,该第二样本分子为该分子中可替换的分子片段。
34.在一些实施例中,该生成模块包括:
35.获取子模块,用于将该第一分子的表达信息,输入该分子生成模型的第一嵌入子模型,得到该第一分子的嵌入向量;
36.该获取子模块,用于将该第一分子的嵌入向量,输入该分子生成模型的编码子模型,得到该第一分子的分子结合信息,该分子结合信息用于表示能够与该第一分子结合的小分子的特征;
37.生成子模块,用于将该第一分子的分子结合信息,输入该分子生成模型的解码子模型,得到该第二分子的表达信息。
38.在一些实施例中,该生成子模块,用于将该第一分子的嵌入向量输入该编码子模型;基于该第一分子的嵌入向量和该编码子模型的多头自注意力单元,提取该第一分子中各个原子之间的相关性信息、该第一分子中每个原子与每个化学键之间的相关性信息,以得到该第一分子的初始分子结合信息;
39.基于该编码子模型的前馈神经网络单元,对该第一分子的初始分子结合信息中多个相关性信息进行非线性融合,得到该第一分子的分子结合信息。
40.在一些实施例中,该生成模块,用于将分子长度、分子结构信息和该第一分子的表达信息,输入该分子生成模型,获取该第二分子的表达信息,该分子长度用于表示与该第一分子结合的小分子的长度,该分子结构信息用于表示与该第一分子结合的小分子是否包括环结构。
41.在一些实施例中,该第一分子的表达信息包括该第一分子的第一链接位和第二链接位,该第一链接位和该第二链接位为该第一分子中用于与其他分子结合的原子,该第二分子的表达信息包括该第二分子的第三链接位和第四链接位,该第三链接位和该第四链接位分别为该第二分子中与该第一链接位和该第二链接位结合的原子;
42.该获取模块,用于基于该第一分子的第一链接位和第二链接位、该第二分子的第三链接位和第四链接位,确定该第一分子与该第二分子的结合方式;基于该结合方式,确定大环小分子的化学结构;基于该大环小分子的化学结构,获取该大环小分子的表达信息。
43.一方面,提供了一种计算机设备,该计算机设备包括一个或多个处理器和一个或多个存储器,该一个或多个存储器中存储有至少一条计算机程序,该至少一条计算机程序由该一个或多个处理器加载并执行以实现该分子生成模型的训练方法或大环小分子的信息确定方法。
44.一方面,提供了一种计算机可读存储介质,该计算机可读存储介质中存储有至少一条计算机程序,该至少一条计算机程序由处理器加载并执行以实现该分子生成模型的训练方法或大环小分子的信息确定方法。
45.一方面,提供了一种计算机程序产品,该计算机程序产品包括至少一条计算机程序,该至少一条计算机程序存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该至少一条计算机程序,处理器执行该至少一条计算机程序,使得该计
算机设备实现该分子生成模型的训练方法或大环小分子的信息确定方法。
46.本技术实施例提供的技术方案,通过将已有分子切分得到的第一样本分子的表达信息和第二样本分子的表达信息,输入分子生成模型,得到了模型预测的第一样本分子对应的链接器分子的表达信息,进一步通过预测的表达信息与第二样本分子的表达信息,对模型进行训练,使模型能够准确的生成链接器分子的表达信息,从而使药物研究人员无需人工设计链接器分子,大大提高了生成大环小分子的效率。
附图说明
47.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
48.图1是本技术实施例提供的一种药物研发流程图;
49.图2是本技术实施例提供的一种实施环境示意图;
50.图3是本技术实施例提供的一种分子生成模型的训练方法的流程图;
51.图4是本技术实施例提供的一种大环小分子的信息确定方法的流程图;
52.图5是本技术实施例提供的一种分子生成模型的训练方法的流程图;
53.图6是本技术实施例提供的一种分子生成模型的示意图;
54.图7是本技术实施例提供的一种大环小分子的信息确定方法的流程图;
55.图8是本技术实施例提供的一种分子生成模型的训练装置的结构示意图;
56.图9是本技术实施例提供的一种大环小分子的信息确定装置的结构示意图;
57.图10是本技术实施例提供的一种服务器的结构示意图。
具体实施方式
58.为使本技术的目的、技术方案和优点更加清楚,下面将结合附图对本技术实施方式作进一步地详细描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
59.本技术中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分,应理解,“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系,也不对数量和执行顺序进行限定。
60.为了便于理解本技术实施例的技术过程,下面对本技术实施例所涉及的一些名词进行解释:
61.人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
62.人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层
面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
63.本技术实施例提供的技术方案还能够与云技术相结合,例如,将训练得到的分子生成模型部署在云端服务器。云技术(cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。
64.区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。
65.机器学习(machine learning,ml)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
66.简化分子线性输入规范(simplified molecular input line entry specification,smiles)是一种用ascii字符串来表示分子的化学结构的规范。
67.下面对本技术提出的分子生成模型的训练方法以及大环小分子的信息确定方法的应用场景进行介绍。
68.本技术所提供的方法能够用于小分子药物研发,如图1所示,小分子药物研发主要包括靶点识别与验证(target identification and validation)、化合物筛选与先导物发现(compound screening and lead discovery)、临床前研究(preclinical study)以及临床实现(clinical trials)4个流程。在完成靶点识别与验证之后,药物研究人员会通过得到的靶点,从已有的多种小分子的药物化合物中,筛选出能够与靶点作用的小分子,而筛选得到的小分子往往是链状结构,可能会存在药理活性(pharmacological activity)和选择性(selectivity)低的问题,基于本技术所提出的大环小分子的信息确定方法,能够通过分子生成模型,获取链状分子对应的链接器分子的表达信息,进一步根据链状分子的表达信息和对应的链接器分子的表达信息,获取大环小分子的表达信息,其中,该方法所用到的分子生成模型,能够通过本技术提供的分子生成模型的训练方法得到。因此,通过本技术提供的方法,能够协助药物研究人员,将筛选得到的链状分子改造成大环小分子,大大提高了研发效率,降低了药物研发成本。
69.以下对本技术的实施环境进行介绍,图2是本技术实施例提供的一种实施环境示意图,该实施环境能够用于分子生成模型的训练方法或大环小分子的信息确定方法,如图2所示,该实施环境包括终端201和服务器202,终端201和服务器202之间通过有线或者无线网络相互连接。
70.终端201可以是智能手机、平板电脑、笔记本电脑、台式计算机等,但并不局限于此。在一些实施例中,终端201用于向服务器202提供用于训练分子生成模型所需的相关数
据,如初始化网络参数、模型训练超参数等。
71.服务器202可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。在一些实施例中,服务器202用于执行本技术实施例提供的大环小分子的信息确定方法,和/或用于基于终端201提供的数据,对分子生成模型进行训练。
72.可选地,在训练分子生成模型或确定大环小分子的表达信息的过程中,服务器202承担主要计算工作,终端201承担次要计算工作;或者,服务器202承担次要计算工作,终端201承担主要计算工作;或者,服务器202或终端201分别能够单独承担计算工作。
73.在一些实施例中,上述终端201和服务器202能够作为区块链系统中的节点。
74.为了对更清楚地对本技术所提供的方法进行说明,下面首先对本技术涉及的分子生成模型进行简要的介绍。该分子生成模型的结构基于自然语言处理(natural language processing,nlp)中用于文本生成的seq2seq算法,该分子生成模型包括第一嵌入向量子模型、编码子模型、第二嵌入向量子模型和解码子模型,该第一嵌入向量子模型用于,将编码子模型所需的分子的表达信息转化成向量,以供编码子模型进行处理,得到编码后的信息,该第二嵌入向量子模型用于,将解码子模型所需的分子的表达信息转化成向量,使解码子模型能够根据该向量以及编码后的信息,生成链接器分子的表达信息。可选地,该分子生成模型包括编码子模型、解码子模型以及一个嵌入向量子模型,该嵌入向量子模型能够将编码子模型和解码子模型所需的分子的表达信息转化为向量,使编码子模型和解码子模型能够基于对应的向量,生成链接器分子的表达信息。可选地,该分子生成模型也称为linkertransformer。
75.基于图2所示的实施环境以及上述介绍的分子生成模型,图3是本技术实施例提供的一种分子生成模型的训练方法的流程图,该方法由服务器执行,如图3所示,该实施例包括以下步骤。
76.301、服务器获取第一样本分子的表达信息和第二样本分子的表达信息,该第一样本分子和该第二样本分子是对同一分子切分得到,该第二样本分子为该分子中可替换的分子片段。
77.其中,表达信息用于表示对应样本分子的化学结构。可选地,该表达信息为符合简化分子线性输入规范(smiles)的字符串。
78.其中,用于获取第一样本分子和第二样本分子的分子,为已知的小分子药物化合物。可选地,该分子可以为链状结构的小分子或者大环小分子,本技术实施例对此不作限定。通过对分子进行切分,得到用于训练模型的样本分子对,该样本分子对包括第一样本分子的表达信息和第二样本分子的表达信息。可选地,该第二样本分子也称为第一样本分子的链接器分子。
79.在一些实施例中,第一样本分子的表达信息和第二样本分子的表达信息还包括分子的切分位置。例如,第一样本分子的表达信息为[*:1]c1=cc(c2=cc=nc(nc3=cc([*:2])=c3)=n2)=cc=c1,第二样本分子的表达信息为cn(cccco[*:1])c[*:2],其中,[*:1]和[*:2]表示第一样本分子和第二样本分子中对应的链接位,该链接位指分子中能够与其
他分子结合的原子,该第一样本分子和第二样本分子中对应的链接位也即是分子的切分位置。
[0080]
302、服务器将该第一样本分子的表达信息和第二样本分子的表达信息,输入分子生成模型,得到预测分子的表达信息。
[0081]
其中,该分子生成模型能够获取链接器分子的表达信息,该预测分子为模型预测的第一样本分子的链接器分子。
[0082]
303、服务器基于该预测分子的表达信息和该第二样本分子的表达信息,对该分子生成模型进行训练。
[0083]
在一些实施例中,服务器通过预测分子的表达信息与第二样本分子的表达信息之间的误差,来训练该分子生成模型。
[0084]
本技术实施例提供的技术方案,通过将已有分子切分得到的第一样本分子的表达信息和第二样本分子的表达信息,输入分子生成模型,得到了模型预测的第一样本分子的链接器分子的表达信息,进一步通过预测的表达信息与第二样本分子的表达信息,对模型进行训练,使模型能够准确的生成链接器分子的表达信息,从而使药物研究人员无需人工设计链接器分子,大大提高了生成大环小分子的效率。
[0085]
基于图2所示的实施环境以及上述介绍的分子生成模型,图4是本技术实施例提供的一种大环小分子的信息确定方法的流程图,该方法由服务器执行,如图4所示,该方法包括以下步骤。
[0086]
401、服务器获取第一分子的表达信息。
[0087]
其中,该第一分子为需要进行结构改造的已有小分子药物化合物,该第一分子的表达信息用于表示第一分子的化学结构。
[0088]
在一些实施例中,该第一分子的表达信息还用于表示第一分子的第一链接位和第二链接位,该第一链接位和第二链接位为第一分子中与其他分子结合的原子。
[0089]
402、服务器将该第一分子的表达信息,输入分子生成模型,得到第二分子的表达信息,该第二分子为能够与该第一分子结合的小分子。
[0090]
其中,该分子生成模型基于第一样本分子的表达信息和第二样本分子的表达信息训练得到,该第一样本分子和该第二样本分子是同一分子切分得到,该第二样本分子为该分子中可替换的分子片段。
[0091]
其中,该第二分子能够基于与第一分子结合得到大环小分子,该第二分子的表达信息用于表示第二分子的化学结构。可选地,该第二分子也称为第一分子的链接器分子。
[0092]
在一些实施例中,该第二分子的表达信息还包括第二分子中的第三链接位和第四链接位,该第三链接位和第四链接位分别为第二分子中与第一链接位和第二链接位结合的原子。
[0093]
403、服务器基于该第一分子的表达信息和该第二分子的表达信息,获取大环小分子的表达信息。
[0094]
本技术实施例提供的技术方案,通过将第一分子的表达信息输入分子生成模型,能够在无需人工设计的情况下,得到能够与第一分子结合的第二分子的表达信息,进一步通过第一分子的表达信息和第二分子的表达信息,得到大环小分子的表达信息,从而使药物研究人员能够直接获取到大环小分子的化学结构,大大提升了生成大环小分子的效率。
[0095]
上述图3对应的实施例,是对本技术提供的分子生成模型的训练方法的简要介绍。需要说明的是,在进行模型训练之前,服务器首先获取用于训练模型的样本数据集,该样本数据集包括多个样本分子对,每个样本分子对包括基于同一分子切分得到的第一样本分子的表达信息和第二样本分子的表达信息。在一些实施例中,服务器能够从关联的分子数据库中获取多个已有的分子的表达信息,基于该多个分子的表达信息,对该多个分子进行切分,从而得到样本数据集。可选地,该分子数据库为chembl数据库。
[0096]
示例性地,以任一样本分子对为例,对分子的切分过程进行说明。服务器从关联的分子数据库中获取分子的表达信息,基于该分子的表达信息和匹配分子对算法(matched molecular pairs,mmps),确定该分子中可替换的分子片段,基于该分子片段在分子中的位置,对该分子进行切分,以得到第一样本分子的表达信息和第二样本分子的表达信息。
[0097]
需要说明的是,在本技术实施例中,服务器需要对每个分子进行2次切分,以保证第一样本分子和第二样本分子均包括2个链接位,从而使模型获取的链接器分子,能够与输入的分子结合以形成大环结构。相应地,在该分子为大环小分子的情况下,服务器基于该分子的表达信息和mmps算法,在该分子的大环结构中确定可替换的分子片段,进而对该分子进行切分。在该分子为链状结构的小分子的情况下,服务器基于该分子的表达信息和mmps算法,在该分子中确定可替换的分子片段,并基于该可替换的分子片段的位置,将该分子切分为3个分子片段,将可替换的分子片段作为第二样本分子,基于化学计算工具,将剩余的两个分子片段进行拼接,得到第一样本分子。
[0098]
在分子生成模型的训练过程中,服务器将样本数据集中的多个样本分子对分批输入分子生成模型中,并通过多次迭代的方式来更新该分子生成模型的网络参数,直到满足训练结束条件。下面结合图5,对该分子生成模型的训练方法进行详细介绍。本技术实施例以服务器执行第一次迭代训练为例,对该方法进行说明。图5是本技术实施例提供的一种分子生成模型的训练方法的流程图,如图5所示,该方法包括以下步骤。
[0099]
501、服务器获取第一样本分子的表达信息和第二样本分子的表达信息,该第一样本分子和该第二样本分子是对同一分子切分得到,该第二样本分子为所述分子中可替换的分子片段。
[0100]
在一些实施例中,服务器首先随机从样本数据集中获取一批样本分子对,每个样本分子对包括第一样本分子的表达信息和第二样本分子的表达信息,然后,服务器对该分子生成模型进行初始化,将该分子生成模型的网络参数配置为初始化参数。可选地,批大小为8192。
[0101]
需要说明的是,在本次训练过程不是第一次迭代训练的情况下,则服务器无需对分子生成模型进行初始化,直接基于上一次训练得到的模型,执行本次训练过程。
[0102]
502、服务器基于第一样本分子的表达信息、分子生成模型的第一嵌入向量子模型和编码子模型,获取第一样本分子的分子结合信息,该分子结合信息用于表示能够与第一样本分子结合的小分子的特征。
[0103]
在本技术实施例中,以获取任一样本分子对中第一样本分子的分子结合信息为例进行说明。
[0104]
在一些实施例中,服务器首先将第一样本分子的表达信息,输入第一嵌入向量子模型,得到第一样本分子的嵌入向量,然后将第一样本分子的嵌入向量输入编码子模型,得
到第一样本分子的分子结合信息。需要说明的是,该分子结合信息为向量形式。
[0105]
示例性地,对获取第一样本分子的分子结合信息的过程进行说明。如图6所示,该编码子模型包括多头自注意力单元(multi-head attention)和前馈神经网络单元(feed forward),服务器将该第一样本分子的嵌入向量,输入编码子模型的多头自注意力单元,基于该第一样本分子的嵌入向量和编码子模型的多头自注意力单元,提取第一样本分子中各个原子之间的相关性信息、第一样本分子中每个原子与每个化学键之间的相关性信息,以得到该第一样本分子的初始分子结合信息。其中,任意2个原子之间的相关性信息用于表示该2个原子在第一样本分子中的关联程度,原子之间的相关性信息的取值越大,表示2个原子在第一样本分子中的关联程度越高。任一原子与任一化学键之间的相关性信息用于表示该原子与该化学键在第一样本分子中的关联程度,原子与化学键之间的相关性信息取值越大,表示该原子与化学键在第一样本分子中的关联程度越高。进一步地,服务器基于编码子模型的前馈神经网络单元,对得到的多个相关性信息进行非线性融合,从而得到第一样本分子的分子结合信息。
[0106]
在一些实施例中,服务器将第一样本分子的嵌入向量以及该第一样本分子的第一位置编码,输入编码子模型,得到第一样本分子的分子结合信息,该第一位置编码用于表示第一样本分子的表达信息中每个字符的位置。由于输入了第一位置编码,使输入编码子模型的数据能够更好的表示第一样本分子的化学结构,从而能够提高第一样本分子的分子结合信息的准确率。
[0107]
在一些实施例中,该编码子模型的多头自注意力单元和前馈神经网络单元后面均连接有一个归一化单元,该归一化单元用于对前一个单元的输出数据进行归一化处理,从而避免训练模型时出现梯度消失的问题。
[0108]
在一些实施例中,该分子生成模型包括n个编码子模型,n为大于0的整数,该n个编码子模型为串联结构,第一个编码子模型的输入数据为第一样本分子的嵌入向量,除去第一个编码子模型之外,其他编码子模型的输入数据为前一个编码子模型的输出数据,将最后一个编码子模型的输出数据作为第一样本分子的分子结合信息。可选地,n取值为6。由于每个编码子模型中均包含多头自注意力单元和前馈神经网络单元,因此,通过将n个编码子模型进行串联,能够对第一样本分子的相关性信息进行多次提取和融合,从而使获取的分子结合信息包含了更加丰富的分子信息。
[0109]
503、服务器基于第一样本分子的分子结合信息、第二样本分子的表达信息、分子生成模型的第二嵌入向量子模型和解码子模型,获取该预测分子的表达信息。
[0110]
在本技术实施例中,以获取任一样本分子对的预测分子的表达信息为例进行说明。
[0111]
在一些实施例中,服务器获取预测分子的表达信息的过程为多次迭代的过程,每一次迭代过程用于获取预测分子的表达信息中的一个字符。示例性地,以第i次迭代过程中,获取预测分子的表达信息中第i个字符为例进行说明,i为大于0且小于或等于第二样本分子的表达信息中字符数量的整数。如图6所示,该分子生成模型还包括线性变换子模型以及归一化子模型,服务器首先将第二样本分子的表达信息中前i-1个字符,输入第二嵌入向量子模型,得到该前i-1个字符的嵌入向量,然后将第一样本分子的分子结合信息和该前i-1个字符的嵌入向量,输入解码子模型,得到预测分子的表达信息中第i个字符的解码信息,
基于线性变换子模型和归一化子模型,对该解码信息进行映射,得到多个候选字符对应的概率,每个候选字符的概率指,预测分子的表达信息中第i个字符为对应候选字符的概率,该多个候选字符为预先设定的分子的表达信息中包括的所有字符,将概率最高的候选字符确定为预测分子的表达信息中第i个字符。可选地,该归一化子模型为softmax函数。
[0112]
示例性地,对基于解码子模型,获取预测分子的表达信息中第i个字符的解码信息的过程进行说明。如图6所示,该解码子模型包括多头自注意力单元、多头编码-解码注意力单元(multi-head encoder-decoder attention)和前馈神经网络单元,服务器将第二样本分子的表达信息中前i-1个字符的嵌入向量,输入解码子模型的多头自注意力单元,提取第二样本分子的表达信息中前i-1个字符所包含的相关性信息,将获取到的相关性信息和第一样本分子的分子结合信息,输入多头编码-解码注意力单元,得到预测分子的表达信息中第i个字符的初始解码信息,将该初始解码信息输入解码子模型的前馈神经网络单元,对该解码信息进行非线性变换,得到预测分子的表达信息中第i个字符的解码信息。
[0113]
在一些实施例中,对于上述获取解码信息的过程,服务器将二样本分子的表达信息中前i-1个字符对应的嵌入向量和该前i-1个字符对应的第二位置编码,输入解码子模型,得到预测分子的表达信息中第i个字符的解码信息,该第二位置编码用于表示第二样本分子的表达信息中前i-1个字符的位置。通过输入该第二位置编码,使解码子模型的输入数据中包含了更加丰富的信息,从而使解码子模型能够更加准确的对第一样本分子的分子结合信息进行解码,提升了得到的解码信息的准确率。
[0114]
在一些实施例中,该解码子模型的多头自注意力单元、多头编码-解码注意力单元和前馈神经网络单元后面均连接有一个归一化单元,该归一化单元用于对前一个单元的输出数据进行归一化处理,从而避免训练模型时出现梯度消失的问题。
[0115]
在一些实施例中,该分子生成模型包括n个解码子模型,该n个解码子模型为串联结构,对于上获取第i个字符的解码信息的过程,第一个解码子模型的输入数据为第二样本分子的表达信息中前i-1个字符的嵌入向量和第一样本分子的分子结合信息,除去第一个编码子模型之外,其他编码子模型的输入数据为上一个编码子模型的输出数据和第一样本分子的分子结合信息,服务器将最后一个编码子模型的输出数据作为预测分子的表达信息中第i个字符的解码信息。通过将n个解码子模型串联,能够基于第一样本分子的分子结合信息,对上一个编码子模型的输出数据进行进一步解码,从而使最后一个编码子模型得到的解码信息能够更加准确,以提升得到的表达信息的准确率。
[0116]
需要说明的是,上述步骤502至503,是以通过第一样本分子的表达信息和第二样本分子的表达信息,获取预测分子的表达信息为例进行说明。在一些实施例中,服务器将第一样本分子的表达信息、第二样本分子的表达信息、第二样本分子的长度和结构信息输入分子生成模型,得到该预测分子的表达信息,该结构信息用于表示第二样本分子是否包括环结构。可选地,该结构信息通过ring_1和ring_0表示,ring_1表示第二样本分子包括环结构,ring_0表示第二样本分子不包括环结构,该第二样本分子的长度通过l_num表示,num为大于0的整数,例如,l_8表示第二样本分子的长度为8。
[0117]
示例性地,如图6所示,服务器将该第二样本分子的长度和结构信息拼接在第一样本分子的表达信息之前,基于拼接后的字符串、第一嵌入向量子模型和编码子模型,通过与步骤502同理的方法,获取第一样本分子的分子结合信息,基于第一样本分子的分子结合信
息、第二样本分子的表达信息、第二嵌入向量子模型和解码子模型,通过与步骤503同理的方法,获取预测分子的表达信息。由于模型的输入数据中包括了第二样本分子的长度和结构信息,因此提升了第一样本分子的分子结合信息的准确率,进一步基于该分子结合信息获取预测分子的表达信息,从而能够使获取的预测分子的表达信息与第二样本分子的表达信息之间的误差更小,使模型能够更快的学习生成链接器分子的方法,提升了模型的训练速度。
[0118]
需要说明的是,以上步骤502至503中获取预测分子的表达信息的过程也称为向前计算的过程。
[0119]
需要说明的是,若分子生成模型只包括一个嵌入向量子模型,则上述步骤502至503能够替换为:服务器基于第一样本分子的表达信息、分子生成模型的嵌入向量子模型和编码子模型,获取第一样本分子的分子结合信息,该分子结合信息用于表示能够与第一样本分子结合的小分子的特征。服务器基于第一样本分子的分子结合信息、第二样本分子的表达信息、分子生成模型的嵌入向量子模型和解码子模型,获取该预测分子的表达信息。
[0120]
504、服务器基于预测分子的表达信息和第二样本分子的表达信息,对该分子生成模型进行训练。
[0121]
在一些实施例中,对于一批样本分子对中的任一样本分子对,服务器基于预测分子的表达信息和第二样本分子的表达信息,获取损失值,该损失值用于表示预测分子的表达信息和第二样本分子的表达信息之间的误差。服务器将一批样本分子对的损失值的均值,获取为本次训练过程的目标损失值,若本次训练过程未达到训练结束条件,服务器基于该目标损失值,调整分子生成模型的网络参数,若本次训练过程达到训练结束条件,服务器输出该分子生成模型。可选地,该训练结束条件为目标损失值小于第一阈值,或者,训练迭代次数达到第二阈值。可选地,在训练过程中,将学习率(learning rate)设置为0.001,遗忘率(dropout)设置为0.1,权重衰减系数(weight decay)设置为0.000001将训练时期(epochs)设置为100。
[0122]
示例性地,对更新分子生成模型的网络参数的过程进行说明。服务器基于目标损失值,通过向后计算算法(back forward),获取该分子生成模型中每个网络层的梯度,基于每个网络层的梯度,通过自适应动量估计算法(adaptive moment estimation,adam),更新该分子生成模型的网络参数。
[0123]
本技术实施例提供的技术方案,通过将已有的分子切分得到的第一样本分子的表达信息和第二样本分子的表达信息,输入分子生成模型,得到了模型预测的第一样本分子的链接器分子的表达信息,进一步通过预测的表达信息与第二样本分子的表达信息,对模型进行训练,使模型能够准确的生成链接器分子的表达信息,从而使药物研究人员无需人工设计链接器分子,大大提高了生成大环小分子的效率。
[0124]
下面结合图7,对本技术提供的大环小分子的信息确定方法进行介绍。图7是本技术提供的一种大环小分子的信息确定方法的流程图,如图7所示,该方法由服务器执行,该方法包括以下步骤。
[0125]
701、服务器获取第一分子的表达信息。
[0126]
在一些实施例中,终端提供有分子生成页面,研究人员能够基于该分子生成页面,输入该第一分子的表达信息,终端响应于在该分子生成页面的提交操作,获取第一分子的
表达信息,向服务器发送分子信息获取请求m1,该分子信息获取请求m1携带第一分子的表达信息,该分子信息获取请求m1用于指示返回第一分子对应的大环小分子的表达信息,服务器接收分子信息获取请求m1,获取该分子信息获取请求m1携带的第一分子的表达信息。
[0127]
可选地,研究人员基于该分子生成页面,输入该第一分子的标识,终端向服务器发送分子信息获取请求m2,该分子信息获取请求m2携带第一分子的标识,该分子信息获取请求m2用于指示返回第一分子对应的大环小分子的表达信息,服务器接收该分子信息获取请求m2,获取分子信息获取请求m2中携带的第一分子的标识,基于第一分子的标识,从关联的分子数据库中获取该第一分子的表达信息。
[0128]
702、服务器基于该第一分子的表达信息、分子生成模型的第一嵌入向量子模型和编码子模型,获取该第一分子的分子结合信息,该分子结合信息用于表示能够与该第一分子结合的小分子的特征。
[0129]
在一些实施例中,服务器通过与上述步骤502同理的方法,得到该第一分子的分子结合信息。
[0130]
703、服务器基于该第一分子的分子结合信息、分子生成模型的第二嵌入向量子模型和解码子模型,获取该第二分子的表达信息。
[0131]
在一些实施例中,服务器获取第二分子的表达信息的过程为多次迭代的过程,每一次迭代过程用于获取第二分子的表达信息中的一个字符。示例性地,以第j次迭代过程中,获取第二分子的表达信息中第j个字符为例进行说明,j为大于0的整数。服务器首先将前j-1次迭代过程中,获取的第二分子的表达信息中前j-1个字符,输入第二嵌入向量子模型,得到该前j-1个字符的嵌入向量,然后将第一分子的分子结合信息和该前j-1个字符的嵌入向量,输入解码子模型,得到第二分子的表达信息中第j个字符的解码信息,基于线性变换子模型和归一化子模型,对该解码信息进行映射,得到多个候选字符对应的概率,将概率最高的候选字符确定为该第二分子的表达信息中第j个字符。
[0132]
其中,基于解码子模型,获取第二分子的表达信息中第j个字符的解码信息的过程,与上述步骤503中,获取预测分子的表达信息中第i个字符的解码信息的过程同理,在此不再赘述。
[0133]
需要说明的是,以上步骤702至703,是以通过第一分子的表达信息,获取第二分子的表达信息为例进行说明。在一些实施例中,服务器将分子长度、分子结构信息和第一分子的表达信息,输入分子生成模型,得到第二分子的表达信息。其中,分子长度用于表示与第一分子结合的小分子的长度,分子结构信息用于表示与第一分子结合的小分子是否包括环结构。
[0134]
通过将分子长度和分子结构信息输入分子生成模型,能够控制得到的链接器分子的长度和结构,研究人员能够通过输入不同的分子长度和分子结构信息,得到该第一分子对应的不同结构的链接器分子,进一步通过不同结构的链接器分子,能够得到该第一分子对应的多种大环小分子,研究人员能够选择药理活性以及选择性更好的大环小分子,进行后续的药物临床研究的流程,从而使研发的药品具有更好的药效。
[0135]
需要说明的是,若分子生成模型只包括一个嵌入向量子模型,则上述步骤702至703能够替换为:服务器基于该第一分子的表达信息、分子生成模型的嵌入向量子模型和编码子模型,获取该第一分子的分子结合信息,该分子结合信息用于表示能够与该第一分子
结合的小分子的特征。服务器基于该第一分子的分子结合信息、分子生成模型的嵌入向量子模型和解码子模型,获取该第二分子的表达信息。
[0136]
704、服务器基于第一分子的表达信息和第二分子的表达信息,获取大环小分子的表达信息。
[0137]
在一些实施例中,服务器基于第一分子的表达信息中的第一链接位和第二链接位、第二分子的表达信息中的第三链接位和第四链接位,确定第一分子和第二分子的结合方式,基于该结合方式,确定大环小分子的化学结构,基于该大环小分子的化学结构,获取该大环小分子的表达信息。其中,该结合方式指,基于第一分子的第一链接位和对应的第二分子的第三链接位、第一分子的第二链接位和对应的第二分子的第四链接位,将第一分子和第二分子结合。
[0138]
可选地,服务器通过化学计算工具,如rdkit,实现上述获取大环小分子的表达信息的过程。
[0139]
在一些实施例中,该方法还包括:服务器将获取到的大环小分子的表达信息发送至终端,终端在分子生成页面中显示该大环小分子的表达信息。可选地,服务器将第二分子的表达信息以及大环小分子的表达信息发送至终端,终端在分子生成页面中显示第二分子的表达信息以及大环小分子的表达信息。
[0140]
本技术实施例提供的技术方案,通过将第一分子的表达信息输入分子生成模型,能够在无需人工设计的情况下,得到能够与第一分子结合的第二分子的表达信息,进一步通过第一分子的表达信息和第二分子的表达信息,得到大环小分子的表达信息,从而使药物研究人员能够直接获取到大环小分子的化学结构,大大提升了生成大环小分子的效率。
[0141]
图8是本技术实施例提供的一种分子生成模型的训练装置的结构示意图,如图8所示,该装置包括:获取模块801、生成模块802和训练模块803。
[0142]
获取模块801,用于获取第一样本分子的表达信息和第二样本分子的表达信息,该第一样本分子和该第二样本分子是对同一分子切分得到,该第二样本分子为该分子中可替换的分子片段;
[0143]
生成模块802,用于将该第一样本分子的表达信息和该第二样本分子的表达信息,输入分子生成模型,得到预测分子的表达信息;
[0144]
训练模块803,用于基于该预测分子的表达信息和该第二样本分子的表达信息,对该分子生成模型进行训练。
[0145]
在一些实施例中,该生成模块802包括:
[0146]
获取子模块,用于将该第一样本分子的表达信息,输入该分子生成模型的第一嵌入向量子模型,得到该第一样本分子的嵌入向量;
[0147]
该获取子模块,用于将该第一样本分子的嵌入向量,输入该分子生成模型的编码子模型,得到该第一样本分子的分子结合信息,该分子结合信息用于表示能够与该第一样本分子结合的小分子的特征;
[0148]
该获取子模块,用于将该第二样本分子的表达信息,输入该分子生成模型的第二嵌入子模型,得到该第二样本分子的嵌入向量;
[0149]
生成子模块,用于将该第一样本分子的分子结合信息和该第二样本分子的嵌入向量,输入该分子生成模型的解码子模型,得到该预测分子的表达信息。
[0150]
在一些实施例中,该生成子模块,用于将该第一样本分子的嵌入向量,输入该编码子模型;基于该第一样本分子的嵌入向量和该编码子模型中的多头自注意力单元,提取该第一样本分子中各个原子之间的相关性信息、该第一样本分子中每个原子与每个化学键之间的相关性信息,以得到该第一样本分子的初始分子结合信息;
[0151]
基于该编码子模型的前馈神经网络单元,对该第一样本分子的初始分子结合信息中多个相关性信息进行非线性融合,得到该第一样本分子的分子结合信息。
[0152]
在一些实施例中,该生成模块802,用于将该第一样本分子的表达信息、该第二样本分子的表达信息、该第二样本分子的长度和结构信息,输入该分子生成模型,得到该预测分子的表达信息,该结构信息用于表示该第二样本分子中是否包括环结构。
[0153]
在一些实施例中,该训练模块803,用于基于该预测分子的表达信息和该第二样本分子的表达信息,获取损失值,该损失值用于表示该预测分子的表达信息和该第二样本分子的表达信息之间的误差;若训练过程未达到训练结束条件,基于该损失值,调整该分子生成模型的网络参数;若该训练过程达到该训练结束条件,输出该分子生成模型。
[0154]
在一些实施例中,该装置还包括切分模块,用于基于匹配分子对算法和该分子的表达信息,确定该分子中可替换的分子片段;基于该分子片段在该分子中的位置,对该分子进行切分,以得到该第一样本分子的表达信息和该第二样本分子的表达信息,该第一样本分子的表达信息和该第二样本分子的表达信息包括该分子的切分位置。
[0155]
需要说明的是:上述实施例提供的分子生成模型的训练装置在训练分子生成模型时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的分子生成模型的训练装置与分子生成模型的训练方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
[0156]
图9是本技术实施例提供的一种大环小分子的信息确定装置的结构示意图,如图9所示,该装置包括:获取模块901和生成模块902。
[0157]
获取模块901,用于获取第一分子的表达信息;
[0158]
生成模块902,用于将该第一分子的表达信息,输入分子生成模型,得到第二分子的表达信息,该第二分子为能够与该第一分子结合的小分子;
[0159]
该获取模块901,用于基于该第一分子的表达信息和该第二分子的表达信息,获取大环小分子的表达信息;
[0160]
其中,该分子生成模型基于第一样本分子的表达信息和第二样本分子的表达信息训练得到,该第一样本分子和该第二样本分子是同一分子切分得到,该第二样本分子为该分子中可替换的分子片段。
[0161]
在一些实施例中,该生成模块902包括:
[0162]
获取子模块,用于将该第一分子的表达信息,输入该分子生成模型的第一嵌入子模型,得到该第一分子的嵌入向量;
[0163]
该获取子模块,用于将该第一分子的嵌入向量,输入该分子生成模型的编码子模型,得到该第一分子的分子结合信息,该分子结合信息用于表示能够与该第一分子结合的小分子的特征;
[0164]
生成子模块,用于将该第一分子的分子结合信息,输入该分子生成模型的解码子
模型,得到该第二分子的表达信息。
[0165]
在一些实施例中,该生成子模块,用于将该第一分子的嵌入向量输入该编码子模型;基于该第一分子的嵌入向量和该编码子模型的多头自注意力单元,提取该第一分子中各个原子之间的相关性信息、该第一分子中每个原子与每个化学键之间的相关性信息,以得到该第一分子的初始分子结合信息;
[0166]
基于该编码子模型的前馈神经网络单元,对该第一分子的初始分子结合信息中多个相关性信息进行非线性融合,得到该第一分子的分子结合信息。
[0167]
在一些实施例中,该生成模块902,用于将分子长度、分子结构信息和该第一分子的表达信息,输入该分子生成模型,获取该第二分子的表达信息,该分子长度用于表示与该第一分子结合的小分子的长度,该分子结构信息用于表示与该第一分子结合的小分子是否包括环结构。
[0168]
在一些实施例中,该第一分子的表达信息包括该第一分子的第一链接位和第二链接位,该第一链接位和该第二链接位为该第一分子中用于与其他分子结合的原子,该第二分子的表达信息包括该第二分子的第三链接位和第四链接位,该第三链接位和该第四链接位分别为该第二分子中与该第一链接位和该第二链接位结合的原子;
[0169]
该获取模块901,用于基于该第一分子的第一链接位和第二链接位、该第二分子的第三链接位和第四链接位,确定该第一分子与该第二分子的结合方式;基于该结合方式,确定大环小分子的化学结构;基于该大环小分子的化学结构,获取该大环小分子的表达信息。
[0170]
需要说明的是:上述实施例提供的大环小分子的信息确定装置在确定大环小分子的信息时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的大环小分子的信息确定装置与大环小分子的信息确定方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
[0171]
本公开实施例提供了一种用于执行上述分子生成模型的训练方法或大环小分子的信息确定方法的计算机设备,在一些实施例中,该计算机设备被提供为服务器,图10是本技术实施例提供的一种服务器的结构示意图,如图10所示,该服务器1000可因配置或性能不同而产生比较大的差异,可以包括一个或多个处理器(central processing units,cpu)1001和一个或多个的存储器1002,其中,该一个或多个存储器1002中存储有至少一条程序代码,该至少一条程序代码由该一个或多个处理器1001加载并执行以实现上述各个方法实施例提供的方法。当然,该服务器1000还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器1000还可以包括其他用于实现设备功能的部件,在此不做赘述。
[0172]
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括至少一条程序代码的存储器,上述至少一条程序代码可由处理器执行以完成上述实施例中的分子生成模型的训练方法或大环小分子的信息确定方法。例如,该计算机可读存储介质可以是只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、只读光盘(compact disc read-only memory,cd-rom)、磁带、软盘和光数据存储设备等。
[0173]
在示例性实施例中,还提供了一种计算机程序产品,该计算机程序产品包括至少
一条计算机程序,该至少一条计算机程序存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该至少一条计算机程序,处理器执行该至少一条计算机程序,使得该计算机设备执行上述分子生成模型的训练方法或大环小分子的信息确定方法所执行的操作。
[0174]
在一些实施例中,本技术实施例所涉及的计算机程序可被部署在一个计算机设备上执行,或者在位于一个地点的多个计算机设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算机设备上执行,分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链系统。
[0175]
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,该程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
[0176]
上述仅为本技术的可选实施例,并不用以限制本技术,凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1