反应物分子的预测、模型的训练方法、装置、设备及介质与流程

文档序号:31862043发布日期:2022-10-19 05:38阅读:69来源:国知局
反应物分子的预测、模型的训练方法、装置、设备及介质与流程

1.本技术实施例涉及人工智能技术领域,特别涉及一种反应物分子的预测、模型的训练方法、装置、设备及介质。


背景技术:

2.随着人工智能技术的兴起和快速发展,给定一个产物分子,预测其对应的反应物分子的应用场景越来越广泛,如,化学合成场景、药品制备场景等。
3.相关技术在预测反应物分子时,先根据产物分子获取待补全分子,然后从多个候选结构中确定与待补全分子匹配的结构,将该匹配的结构与待补全分子连接,将连接后得到的分子作为预测的反应物分子。其中,多个候选结构通过对已知的合成反应中的产物分子和反应物分子之间的差异结构进行比对得到。
4.上述反应物分子的预测方法依赖从已知的合成反应中提取的多个候选结构,多个候选结构的泛化能力受限于已知的合成反应,泛化能力较差,适应的场景较为局限,从而容易降低反应物分子的预测可靠性和预测准确性。


技术实现要素:

5.本技术实施例提供了一种反应物分子的预测、模型的训练方法、装置、设备及介质,可用于提高反应物分子的预测可靠性和准确性。所述技术方案如下:
6.一方面,本技术实施例提供了一种反应物分子的预测方法,所述方法包括:
7.获取产物分子;基于所述产物分子,获取至少一个待补全分子;
8.调用目标分子补全模型对所述至少一个待补全分子进行补全,得到至少一个补全结果,基于所述至少一个补全结果获取所述产物分子对应的至少一个反应物分子;
9.其中,所述目标分子补全模型基于样本化合物分子以及样本待补全分子训练得到,所述样本待补全分子通过对所述样本化合物分子中的子结构进行掩码得到。
10.还提供了一种分子补全模型的训练方法,所述方法包括:
11.获取样本化合物分子以及样本待补全分子,所述样本待补全分子通过对所述样本化合物分子中的子结构进行掩码得到;
12.基于所述样本化合物分子、所述样本待补全分子和初始分子补全模型,获取训练损失;基于所述训练损失更新所述初始分子补全模型的模型参数,得到目标分子补全模型。
13.另一方面,提供了一种反应物分子的预测装置,所述装置包括:
14.第一获取单元,用于获取产物分子;基于所述产物分子,获取至少一个待补全分子;
15.补全单元,用于调用目标分子补全模型对所述至少一个待补全分子进行补全,得到至少一个补全结果,基于所述至少一个补全结果获取所述产物分子对应的至少一个反应物分子;
16.其中,所述目标分子补全模型基于样本化合物分子以及样本待补全分子训练得
到,所述样本待补全分子通过对所述样本化合物分子中的子结构进行掩码得到。
17.在一种可能实现方式中,所述补全单元,用于对于所述至少一个待补全分子中的任一待补全分子,基于所述任一待补全分子的原子特征信息,获取所述任一待补全分子对应的补全后的分子的目标原子特征隐变量;基于所述任一待补全分子的化学键连接信息,获取所述任一待补全分子对应的补全后的分子的目标化学键连接隐变量;调用所述目标分子补全模型对所述目标化学键连接隐变量进行变换,得到目标化学键连接信息;对所述目标原子特征隐变量进行变换,得到目标原子特征信息;基于所述目标化学键连接信息和所述目标原子特征信息,获取所述任一待补全分子对应的补全结果。
18.在一种可能实现方式中,所述第一获取单元,用于获取所述产物分子的图结构信息;基于所述图结构信息,预测所述产物分子中的化学键对应的断裂概率,将断裂概率满足参考条件的化学键作为所述产物分子中的断裂化学键;基于所述断裂化学键对所述产物分子进行断键处理,得到所述至少一个待补全分子。
19.还提供了一种分子补全模型的训练装置,所述装置包括:
20.第二获取单元,用于获取样本化合物分子以及样本待补全分子,所述样本待补全分子通过对所述样本化合物分子中的子结构进行掩码得到;
21.第三获取单元,用于基于所述样本化合物分子、所述样本待补全分子和初始分子补全模型,获取训练损失;
22.更新单元,用于基于所述训练损失更新所述初始分子补全模型的模型参数,得到目标分子补全模型。
23.在一种可能实现方式中,所述第三获取单元,用于获取所述样本化合物分子的样本原子特征信息和样本化学键连接信息;基于所述样本化合物分子和所述样本待补全分子之间的差异,获取原子掩码信息和化学键掩码信息;调用所述初始分子补全模型基于所述化学键掩码信息对所述样本化学键连接信息进行逆变换,得到样本化学键连接隐变量;基于所述原子掩码信息对所述样本原子特征信息进行逆变换,得到样本原子特征隐变量;基于所述样本化学键连接隐向量和所述样本原子特征隐向量,获取所述训练损失。
24.在一种可能实现方式中,所述第三获取单元,用于调用所述初始分子补全模型基于所述化学键掩码信息和所述样本化学键连接信息,获取所述样本待补全分子的第一化学键连接信息以及所述子结构的第二化学键连接信息;基于所述第一化学键连接信息对所述第二化学键连接信息进行逆变换,得到所述子结构的化学键连接隐变量;基于所述第一化学键连接信息和所述子结构的化学键连接隐变量,获取所述样本化学键连接隐变量。
25.在一种可能实现方式中,所述第三获取单元,用于基于所述原子掩码信息和所述样本原子特征信息,获取所述样本待补全分子的第一原子特征信息以及所述子结构的第二原子特征信息;基于所述第一原子特征信息对所述第二原子特征信息进行逆变换,得到所述子结构的原子特征隐变量;基于所述第一原子特征信息和所述子结构的原子特征隐变量,获取所述样本原子特征隐变量。
26.在一种可能实现方式中,所述第三获取单元,用于调用所述初始分子补全模型对所述样本待补全分子进行补全,基于补全结果得到预测补全分子;基于所述预测补全分子和所述样本化合物分子之间的差异,获取所述训练损失。
27.在一种可能实现方式中,所述子结构为所述样本化合物分子中的属于候选结构集
的结构,所述候选结构集为可信程度满足选取条件的结构的集合。
28.另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条计算机程序,所述至少一条计算机程序由所述处理器加载并执行,以使所述计算机设备实现上述任一所述的反应物分子的预测方法或分子补全模型的训练方法。
29.另一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条计算机程序,所述至少一条计算机程序由处理器加载并执行,以使计算机实现上述任一所述的反应物分子的预测方法或分子补全模型的训练方法。
30.另一方面,还提供了一种计算机程序产品,所述计算机程序产品包括计算机程序或计算机指令,所述计算机程序或所述计算机指令由处理器加载并执行,以使计算机实现上述任一所述的反应物分子的预测方法或分子补全模型的训练方法。
31.本技术实施例提供的技术方案至少带来如下有益效果:
32.本技术实施例提供的技术方案,反应物分子的预测过程依赖目标分子补全模型实现,目标分子补全模型是基于样本化合物分子和样本待补全分子训练得到的。由于样本待补全分子通过对样本化合物分子中的子结构进行掩码得到,也就是说,目标分子补全模型的训练过程所依据的数据是在样本化合物分子本身的基础上得到的数据,此种训练过程为一种基于样本化合物分子的自监督训练过程,此种自监督训练过程无需关注样本化合物分子是否为已知的合成反应中的化合物,因而此种自监督训练过程并不会受已知的合成反应的限制,利用该训练过程训练得到的目标分子补全模型的泛化能力较强,有利于扩展适应场景,从而有利于提高反应物分子的预测可靠性和预测准确性。
附图说明
33.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
34.图1是本技术实施例提供的一种实施环境的示意图;
35.图2是本技术实施例提供的一种反应物分子的预测方法的流程图;
36.图3是本技术实施例提供的一种产物分子的表示形式的示意图;
37.图4是本技术实施例提供的一种反应物分子预测过程的两个阶段的示意图;
38.图5是本技术实施例提供的一种分子补全模型的训练方法的流程图;
39.图6是本技术实施例提供的一种样本化合物分子中的被掩码的子结构的三种情况的示意图;
40.图7是本技术实施例提供的一种对样本化合物分子中不同的化学键进行切割的示意图;
41.图8是本技术实施例提供的一种初始化学键补全模型的结构示意图;
42.图9是本技术实施例提供的一种初始原子补全模型的结构示意图;
43.图10是本技术实施例提供的一种反应物分子的预测装置的示意图;
44.图11是本技术实施例提供的一种分子补全模型的训练装置的示意图;
45.图12是本技术实施例提供的一种服务器的结构示意图;
46.图13是本技术实施例提供的一种终端的结构示意图。
具体实施方式
47.为使本技术的目的、技术方案和优点更加清楚,下面将结合附图对本技术实施方式作进一步地详细描述。
48.需要说明的是,本技术中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本技术相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本技术的一些方面相一致的装置和方法的例子。
49.在示例性实施例中,本技术实施例提供的反应物分子的预测方法以及分子补全模型的训练方法可应用于各种场景,包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。
50.人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,人工智能企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
51.人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
52.本技术实施例提供的方案涉及人工智能技术中的机器学习技术,机器学习(machine learning,ml)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
53.随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服、车联网、自动驾驶、智慧交通等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
54.图1示出了本技术实施例提供的一种实施环境的示意图。该实施环境可以包括:终端11和服务器12。
55.本技术实施例提供的反应物分子的预测方法可以由终端11执行,也可以由服务器12执行,还可以由终端11和服务器12共同执行,本技术实施例对此不加以限定。对于本技术实施例提供的反应物分子的预测方法由终端11和服务器12共同执行的情况,服务器12承担
主要计算工作,终端11承担次要计算工作;或者,服务器12承担次要计算工作,终端11承担主要计算工作;或者,服务器12和终端11二者之间采用分布式计算架构进行协同计算。
56.本技术实施例提供的分子补全模型的训练方法可以由终端11执行,也可以由服务器12执行,还可以由终端11和服务器12共同执行,本技术实施例对此不加以限定。对于本技术实施例提供的分子补全模型的训练方法由终端11和服务器12共同执行的情况,服务器12承担主要计算工作,终端11承担次要计算工作;或者,服务器12承担次要计算工作,终端11承担主要计算工作;或者,服务器12和终端11二者之间采用分布式计算架构进行协同计算。
57.需要说明的是,反应物分子的预测方法的执行设备与分子补全模型的训练方法的执行设备可以相同,也可以不同,本技术实施例对此不加以限定。
58.可选地,终端11可以是任何一种可与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互的电子产品,例如pc(personal computer,个人计算机)、手机、智能手机、pda(personal digital assistant,个人数字助手)、可穿戴设备、ppc(pocket pc,掌上电脑)、平板电脑、智能车机、智能电视、智能音箱、智能语音交互设备、智能家电、车载终端、vr(virtual reality,虚拟现实)设备、ar(augmented reality,增强现实)设备等。服务器12可以是一台服务器,也可以是由多台服务器组成的服务器集群,或者是一个云计算服务中心。终端11与服务器12通过有线或无线网络建立通信连接。
59.本领域技术人员应能理解上述终端11和服务器12仅为举例,其他现有的或今后可能出现的终端或服务器如可适用于本技术,也应包含在本技术保护范围以内,并在此以引用方式包含于此。
60.本技术实施例提供的反应物分子的预测方法,用于根据给定的产物分子,预测其对应的反应物分子,该预测任务可称为逆合成预测任务,逆合成预测任务对于化学领域以及制药领域等均有着极为重要的意义。传统的逆合成预测任务大多基于合成反应模板实现,例如,首先通过匹配算法从合成反应模板中找到与产物分子匹配的模板,再根据匹配到的模板得到反应物分子。这类方法在逆合成预测任务上取得了一定的效果,但基于合成反应模板的方法有两个比较明显的缺陷:第一个缺陷是基于合成反应模板的方法很难泛化到新的反应类型上,导致合成反应模板需要被频繁更新,而总结模板需要化学专家大量的工作,成本很高;第二个缺陷是合成反应模板只总结了部分分子级别的反应规律,无法抓住全局的正确信息,常常会导致错误的预测。
61.随着深度学习技术的兴起,为了克服基于合成反应模板的方法的缺陷,深度学习模型被广泛应用在逆合成预测任务中,利用深度学习技术能够直接预测产物分子对应的反应物分子,无需与合成反应模板进行匹配。通过深度学习技术能够实现强有力的逆合成预测效果,强有力的逆合成预测效果能够帮助化学专家发现产物分子的可能的合成路径,大大提高新化合物的研发效率,如,产物分子可以为药物分子,则可以大大提高制药产业新药的研发效率。此外,强有力的逆合成预测效果还可以揭示一些隐藏的科学规律,提供新的科学知识,发现新的合成路径乃至新的合成反应。本技术实施例提供的反应物分子的预测方法即为一种基于深度学习技术实现逆合成预测任务的方法。
62.示例性地,逆合成预测任务可以表示为(g
p
→gr
),g
p
=(v
p
,b
p
,a
p
)表示一系列产物分子,gr=(vr,br,ar)表示一系列反应物分子。v
p
代表产物分子g
p
中的原子的集合且集合的
molecular input line entry specification,简化分子线性输入规范)。示例性地,对于生成产物分子的字符串所依据的规范为smiles的情况,产物分子的字符串还可以称为产物分子的smiles表达式。smiles是一种用ascii(american standard code for information interchange,美国信息交换标准代码)字符串明确描述分子结构的规范,每个化合物分子具有与其对应的唯一的smiles表达式。
72.示例性地,对于同一产物分子,可以利用图3中的(1)所示的分子式表示,也可以利用图3中的(2)所示的smiles表达式表示。
73.在步骤202中,基于产物分子,获取至少一个待补全分子。
74.待补全分子是通过对产物分子进行断键处理得到的分子,在一些实施例中,待补全分子还可以称为合成子(synthon)。待补全分子可视为反应物分子在合成产物分子的过程中去掉一些分子结构后得到的分子,在获取至少一个待补全分子后,即可进一步通过对待补全分子进行补全,来预测反应物分子。示例性地,反应物分子去掉的分子结构可以称为离去基团(leaving group)。
75.需要说明的是,基于产物分子获取的待补全分子的数量可能为一个,也可能为多个,这与产物分子的实际情况有关,本技术实施例对此不加以限定。
76.在一种可能实现方式中,基于产物分子,获取至少一个待补全分子的实现过程包括以下步骤2021至步骤2023。
77.步骤2021:获取产物分子的图结构信息。
78.产物分子的图结构信息为用于表征产物分子的图结构的信息,产物分子的图结构可以是将产物分子转换得到的唯一确定的图结构。示例性地,将产物分子中的每个原子视为一个节点,将产物分子中的每个化学键视为一条边,从该角度出发,将产物分子转换为图结构。也就是说,产物分子的图结构为以产物分子中的原子为节点,以产物分子中的化学键为边构建得到的图结构。
79.本技术实施例对产物分子的图结构信息的类型不加以限定,只要能够表征产物分子的图结构即可。示例性地,产物分子的图结构信息包括产物分子的原子特征信息和产物分子的化学键连接信息。示例性地,产物分子的原子特征信息用于对产物分子中的原子的特征进行表征。产物分子的化学键连接信息用于对产物分子中的原子之间的化学键连接情况进行表征。
80.由于产物分子的图结构以产物分子中的原子为节点,以产物分子中的化学键为边,所以产物分子的原子特征信息可视为表征产物分子的图结构中的节点的信息,产物分子的化学键连接信息可视为表征产物分子中的图结构中的边的信息,因此,能够利用产物分子的原子特征信息和产物分子的化学键连接信息来对产物分子的图结构进行表征。接下来,分别介绍产物分子的原子特征信息的获取方式以及产物分子的化学键连接信息的获取方式。
81.产物分子的原子特征信息包括产物分子中的每个原子分别对应的子特征信息,任一原子对应的子特征信息用于对该任一原子的特征进行表征,本技术实施例对任一原子对应的子特征信息的表示方式不加以限定,例如,任一原子对应的子特征信息的表示形式可以为矩阵,也可以为向量等。需要说明的是,不同原子对应的子特征信息的维度相同,该相同的维度可以根据经验设置,也可以根据应用场景灵活调整,本技术实施例对此不加以限
定。示例性地,对于任一原子对应的子特征信息的表示形式为矩阵的情况,产物分子的原子特征信息还可以称为产物分子的原子特征矩阵,该原子特征矩阵中的每行元素均表示一个原子对应的子特征信息。
82.获取每个原子对应的子特征信息的原理相同,本技术实施例以获取任一原子对应的子特征信息的方式为例进行说明。示例性地,获取任一原子对应的子特征信息的方式包括:获取任一原子的属性信息;对该任一原子的属性信息进行特征提取,得到该任一原子对应的子特征信息。任一原子的属性信息用于描述任一原子的属性,任一原子的属性信息根据经验设置,或者根据应用场景灵活调整,示例性地,任一原子的属性信息包括但不限于任一原子的元素信息、价态信息、度信息、是否属于苯环的信息中至少一种。
83.元素信息包括原子在元素周期表的排行、元素的符号表示、相对原子质量中至少一种但不限于此。例如,碳元素在元素周期表中排第6,碳元素的符号表示为c,碳元素的相对原子质量为12.01。价态信息是指原子在产物分子中的价态,价态又称化合价或者原子价,价态是各种元素的一个原子或原子团、基(根)与其他原子相互化合的数目。原子在不同化合物中的价态可能相同,也可能不相同。例如,在co(一氧化碳)中碳的价态为+2价,而在co2(二氧化碳)中碳的价态为+4价。
84.度信息包括连接了该原子的其他原子的数量。例如co2,碳原子与两个氧原子相连接,两个氧原子均分别与碳原子相连接。那么碳原子的度信息可以为2。是否属于苯环的信息用于指示原子是否为构成苯环的原子。
85.在获取任一原子的属性信息后,对该任一原子的属性信息进行特征提取,将提取得到的信息作为该任一原子对应的子特征信息。示例性地,对该任一原子的属性信息进行特征提取的方式可以根据经验设置,例如,调用原子特征提取模型对该任一原子的属性信息进行特征提取。示例性地,原子特征提取模型可以基于样本原子的属性信息以及样本原子的特征标签,通过监督训练的方式训练得到。
86.产物分子的化学键连接信息基于产物分子中的原子之间的化学键连接情况确定。示例性地,产物分子的化学键连接信息还可以称为产物分子的图结构的邻接矩阵。示例性地,产物分子的化学键连接信息为一个n*n*c维的矩阵,其中,n和c均为不小于1的整数,n表示产物分子中的原子的数量,c表示候选化学键类型的数量。候选化学键类型根据经验设置,或者根据应用场景灵活调整,本技术实施例对此不加以限定,示例性地,候选化学键类型涵盖合成反应中常见的化学键类型,例如,候选化学键类型包括但不限于单键、双键、三键、芳香键、离子键、共价键和金属键等。
87.产物分子的化学键连接信息中位于第i行第j列第c深度的元素[i,j,c]的取值表示原子i和原子j之间是否通过类型为c的化学键连接,其中,i和j均为1~n中的任一取值,c为1~c中的任一取值。若[i,j,c]的取值为1,则表示原子i和原子j之间通过类型为c的化学键连接;若[i,j,c]的取值为0,则表示原子i和原子j之间未通过类型为c的化学键连接。产物分子的化学键连接信息能够通过分析产物分子中的原子之间的化学键连接情况(是否通过化学键连接,以及在通过化学键连接时,通过哪种化学键连接)得到。
[0088]
在示例性实施例中,产物分子的图结构信息还可以包括产物分子的化学键特征信息,通过额外考虑化学键特征信息,能够为后续的化学键对应的断裂概率的预测过程提供更多的数据支持,从而提高化学键对应的断裂概率的预测准确性。示例性地,化学键特征信
息包括产物分子中的每个化学键分别对应的子特征信息。
[0089]
示例性地,任一化学键对应的子特征信息的获取方式包括:获取任一化学键的属性信息,对任一化学键的属性信息进行特征提取,得到任一化学键对应的子特征信息。示例性地,任一化学键的属性信息用于描述任一化学键的属性,任一化学键的属性信息可以根据经验设置,或者根据应用场景灵活调整,本技术实施例对此不加以限定。示例性地,任一化学键的属性信息包括但不限于任一化学键的键类型、共轭特征、环键特征、键能、键合距离中的至少一种。
[0090]
键类型表示化学键所属的类型,如单键、双键、三键、芳香键、离子键、共价键和金属键等。共轭特征表示化学键是否共轭。环键特征表示化学键是否为环键的一部分。键能是从能量因素衡量化学键强弱的物理量。一般来说,键能越大,化学键越牢固,化学键越不容易断裂。键合距离是指两个或以上的原子核之间形成化学键所必需的最短距离。
[0091]
在获取任一化学键的属性信息后,对该任一化学键的属性信息进行特征提取,将提取到的信息作为该任一化学键对应的子特征信息。示例性地,对任一化学键的属性信息进行特征提取的方式可以根据经验设置,例如,调用化学键特征提取模型对任一化学键的属性信息进行特征提取。示例性地,化学键特征提取模型可以基于样本化学键的属性信息以及样本化学键的特征标签,通过监督训练的方式训练得到。
[0092]
步骤2022:基于图结构信息,预测产物分子中的化学键对应的断裂概率,将断裂概率满足参考条件的化学键作为产物分子中的断裂化学键。
[0093]
化学键对应的断裂概率用于指示该化学键为在合成反应中形成的化学键的可能性,化学键对应断裂概率与该化学键为在合成反应中形成的化学键的可能性呈正相关关系,也即化学键对应断裂概率越大,说明该化学键为在合成反应中形成的化学键的可能性越大。示例性地,化学键为在合成反应中形成的化学键的可能性越大,根据该化学键对产物分子进行断键处理的可靠程度越大。需要说明的是,产物分子中的化学键对应的断裂概率是指产物分子中的各个化学键分别对应的断裂概率。
[0094]
化学键对应的断裂概率可以基于图结构信息预测得到。产物分子的图结构信息能够指示出产物分子中的化学键的存在情况(存在哪些化学键,以及每个化学键连接的原子的情况等),根据图结构信息能够预测出产物分子中的各个化学键分别对应的断裂概率。在示例性实施例中,基于图结构信息,预测产物分子中的化学键对应的断裂概率的过程可以通过运行预先编写的程序实现,也可以通过调用图神经网络模型实现。
[0095]
本技术实施例以调用图神经网络模型基于图结构信息,预测产物分子中的化学键对应的断裂概率为例进行说明。图神经网络模型为能够对化合物分子的图结构信息进行处理,以预测化合物分子中的化学键对应的断裂概率的模型,也即能够分辨产物分子中的哪些化学键更容易断裂的模型。本技术实施例对图神经网络模型的模型结构不加以限定,示例性地,图神经网络模型可以是任一种基于图的深度学习网络模型,可以设计的简单,也可以设计的复杂。例如,图神经网络模型可以是指图卷积网络(graph convolutional networks,gcn)模型、图注意力网络(graph attention networks,gat)模型、信息传递神经网络(message passing neural network,mpnn)模型等。
[0096]
调用图神经网络模型基于图结构信息,预测产物分子中的化学键对应的断裂概率的过程为图神经网络模型的内部处理过程,与图神经网络模型的模型结构有关,本技术实
施例对此不加以限定。示例性地,调用图神经网络模型基于图结构信息,预测产物分子中的化学键对应的断裂概率的过程包括:调用图神经网络模型基于图结构信息提取产物分子中的化学键的目标特征;基于产物分子中的化学键的目标特征预测产物分子中的化学键对应的断裂概率。化学键的目标特征为预测化学键对应的断裂概率所依据的特征。
[0097]
示例性地,化学键对应的断裂概率可以为1或0,此种情况下,预测化学键对应的断裂概率的过程可视为对化学键进行二分类预测的过程,断裂概率为1表示化学键极有可能为在合成反应中形成的化学键,断裂概率为0表示化学键极小可能为合成反应中形成的化学键。当然,在示例性实施例中,化学键对应的断裂概率还可能为0~1之间的任一概率,本技术实施例对此不加以限定。
[0098]
在确定产物分子中的化学键对应的断裂概率后,能够从产物分子中的化学键中确定出断裂概率满足参考条件的化学键,将断裂概率满足参考条件的化学键作为产物分子中的断裂化学键。断裂化学键即为从产物分子中获取待补全分子所依据的化学键。示例性地,断裂化学键还可以称为反应位点。
[0099]
断裂概率满足参考条件的化学键是指在合成反应中形成的可能性较大的化学键,也即更容易断裂的化学键,根据此种化学键对产物分子进行断键处理的可靠性较高,从而提高获取的待补全分子的可靠性,进而提高预测的反应物分子的可靠性。
[0100]
断裂概率满足参考条件根据经验设置,获取根据应用场景灵活调整,本技术实施例对此不加以限定。在示例性实施例中,断裂概率满足参考条件是指断裂概率不小于概率阈值,概率阈值根据经验设置,或者根据应用场景灵活调整,例如,概率阈值为0.5,或者,概率阈值为0.8等。在示例性实施例中,断裂概率满足参考条件还可以是指断裂概率为各个化学键对应的断裂概率中前l(l为不小于1的整数)大的断裂概率,l的取值根据经验设置,或者根据应用场景灵活调整,例如,l的取值为3,或者l的取值为2等。
[0101]
在示例性实施例中,在调用图神经网络模型基于图结构信息,预测产物分子中的化学键对应的断裂概率之前,需要先训练得到图神经网络模型。在示例性实施例中,训练得到图神经网络模型的过程包括:获取训练化合物分子的图结构信息以及训练化合物分子中的化学键对应的标准断裂概率;调用初始图神经网络模型基于训练化合分子的图结构信息,预测训练化合物分子中的化学键对应的训练断裂概率;基于标准断裂概率和训练断裂概率之间的差异,获取参考损失;基于参考损失更新初始图神经网络模型的模型参数;响应于训练过程满足第一终止条件,将当前训练得到的模型作为训练好的图神经网络模型。
[0102]
满足第一终止条件根据经验设置,或根据应用场景灵活调整,例如,满足第一终止条件可以是指参考损失收敛、参考损失小于第一损失阈值、模型参数的更新次数达到第一次数阈值等。第一损失阈值和第一次数阈值根据经验设置,或者根据应用场景灵活调整,本技术实施例对此不加以限定。
[0103]
训练化合物分子是指能够获知图结构信息以及化学键对应的标准断裂概率的化合物分子,训练化合物分子的数量可能为一个,也可能为多个,本技术实施例对此不加以限定。示例性地,训练化合物分子的图结构信息的获取原理与产物分子的图结构信息的获取原理相同,此处不再加以赘述。示例性地,训练化合物分子的图结构信息可以与训练化合物分子对应存储在数据库中,从而能够从数据库中直接提取训练化合物分子的图结构信息。
[0104]
训练化合物分子中的化学键对应的标准断裂概率为训练化合物分子中的化学键
对应的真实的断裂概率,用于为图神经网络模型的训练过程提供监督信息。示例性地,训练化合物分子中的化学键对应的标准断裂概率也可以称为训练化合物分子中的化学键对应的断裂概率真值(ground-truth)标签。在示例性实施例中,训练化合物分子中的化学键对应的标准断裂概率与训练化合物分子对应存储在数据库中,从而能够从数据库中直接提取训练化合物分子中的化学键对应的标准断裂概率。
[0105]
在示例性实施例中,训练化合物分子为一种通过已知的合成反应合成的分子,此种情况下,训练化合物分子中的化学键对应的标准断裂概率可以通过对训练化合物分子和合成该训练化合物分子的反应物分子进行比对得到。示例性地,通过对训练化合物分子和合成该训练化合物分子的反应物分子进行比对得到训练化合物分子中的化学键对应的标准断裂概率的过程可以为:若产物分子中的原子u和原子v之间通过类型为c的化学键b
uv
相连(可以表示为b
p
[u,v,c]=1,对于某个c),而在合成该训练化合物分子的反应物分子中,原子u和原子v之间不存在任何类型的化学键连接(可以表示为br[u,v,c]=0,对于任意c),则将标产物分子中的原子u和原子v之间的化学键b
uv
对应的标准断裂概率记为1(可以表示为y
uv
=1);若在合成该训练化合物分子的反应物分子中,原子u和原子v之间存在某一类型的化学键连接,则将标产物分子中的原子u和原子v之间的化学键b
uv
对应的标准断裂概率记为0(可以表示为y
uv
=0)。
[0106]
调用初始图神经网络模型基于训练化合分子的图结构信息,预测训练化合物分子中的化学键对应的训练断裂概率的实现原理与调用图神经网络模型基于产物分子的图结构信息,预测产物分子中的化学键对应的断裂概率的实现原理相同,此处不再加以赘述。
[0107]
在获取训练化合物分子中的化学键对应的训练断裂概率之后,基于标准断裂概率和训练断裂概率之间的差异,获取参考损失。本技术实施例对标准断裂概率和训练断裂概率之间的差异的衡量方式不加以限定,示例性地,标准断裂概率和训练断裂概率之间的差异是指标准断裂概率和训练断裂概率之间的交叉熵差异,或者标准断裂概率和训练断裂概率之间的差异是指标准断裂概率和训练断裂概率之间的均方差异等。
[0108]
示例性地,以标准断裂概率和训练断裂概率之间的差异是指标准断裂概率和训练断裂概率之间的交叉熵差异为例,参考损失可以基于公式1计算得到:
[0109][0110]
其中,l表示参考损失;k(k为不小于1的整数)表示训练化合物分子的数量;表示第k(k从1依次取值到k)个训练化合物分子的化学键连接信息;表示根据确定的第k个训练化合物分子中的化学键,通过综合考虑各个训练化合分子中的各个化学键来获取参考损失;y
uv
表示化学键b
uv
对应的标准断裂概率;表示化学键b
uv
对应的训练断裂概率。
[0111]
步骤2023:基于断裂化学键对产物分子进行断键处理,得到至少一个待补全分子。
[0112]
示例性地,基于断裂化学键对产物分子进行断键处理是指断开产物分子中的断裂化学键,将断开产物分子中的断裂化学键后得到的各个分子作为各个待补全分子。需要说明的是,对产物分子进行断键处理可能得到一个待补全分子,也可能得到多个待补全分子,本技术实施例对此不加以限定。
[0113]
示例性地,待补全分子可以表示为其中,h(h为不小于1的整数)表示待补全分子的数量,表示第h(h为1到h中的任一取值)个待补全分子。示例性地,在产物分子(表示为g
p
)的基础上获取待补全分子的过程可视为建模概率分布的过程。
[0114]
示例性地,从产物分子中确定待补全分子的过程可以称为反应位点预测过程,该反应位点预测过程可视为反应物分子预测过程中的第一阶段。示例性地,该第一阶段可以如图4中的(1)所示,产物分子中的断裂化学键的数量为一个,断开该一个断裂化学键后,能够得到两个待补全分子。需要说明的是,图4中的(1)中的两个待补全分子上的虚线圆圈标记的是断裂化学键连接的两个原子。
[0115]
需要说明的是,基于上述步骤2021至步骤2023对产物分子进行断键处理的过程仅为一种示例性实现过程,本技术实施例并不局限于此。在一些实施例中,还可以根据经验从产物分子的化学键中选择断裂化学键,然后基于选择的断裂化学键对产物分子进行断键处理。
[0116]
在步骤203中,调用目标分子补全模型对至少一个待补全分子进行补全,得到至少一个补全结果,基于至少一个补全结果获取产物分子对应的至少一个反应物分子,其中,目标分子补全模型基于样本化合物分子以及样本待补全分子训练得到,样本待补全分子通过对样本化合物分子中的子结构进行掩码得到。
[0117]
示例性地,对样本化合物分子中的子结构进行掩码是指隐藏样本化合物分子中的子结构,在对样本化合物分子中的子结构进行掩码后,无法得知样本化合物分子中的子结构的原本状态。对样本化合物分子中的子结构进行掩码的方式可以根据经验设置,也可以根据实际的应用场景灵活调整,只要能够实现对样本化合物分子中的子结构的隐藏即可。示例性地,对样本化合物分子中的子结构进行掩码的方式可以为利用特定结构替换样本化合物分子中的子结构,也可以为对样本化合分子中的子结构进行遮盖等。示例性地,特定结构是指与真实的化合物分子的结构不同的结构,以便于区分被掩码的部分以及未被掩码的部分。
[0118]
在待补全分子的基础上预测反应物分子的过程通过调用目标分子补全模型实现。目标分子补全模型是基于样本化合物分子和通过对样本化合物分子中的子结构进行掩码得到的样本待补全分子训练得到的。样本待补全分子是在样本化合物分子本身的基础上获取的,基于样本化合物分子和样本待补全分子训练得到目标分子补全模型的过程可视为将样本化合物分子进行掩码操作,训练模型去重构被掩码的部分的过程。此种训练过程为采用自监督学习策略训练模型的过程,在采用自监督学习策略训练模型的过程中,自监督学习任务是在“mask and fill(掩码和填充)”的思想下设计的任务,基本思路是将化合物分子的部分子结构进行掩码操作,然后训练一个分子补全模型去重构该子结构。
[0119]
在采用自监督学习策略进行训练的过程中,模型训练所依据的数据为在样本化合物分子本身的基础上得到的数据,无论样本化合物是否为已知的合成反应中的化合物,均能够用作模型训练所依据的数据,也就是说,模型的训练过程并不会受已知的合成反应的限制,利用此种训练过程训练得到的目标分子补全模型的泛化能力较强,有利于有效适应与各种合成反应相关的反应物分子预测场景,扩展了适应场景,从而有利于提高反应物分
transformations)将复杂的数据概率分布变成常见的简单分布(也可以称为隐变量分布)。假设数据来自于分布x~p
x
(x),隐变量分布为z~pz(z)(一般是高斯分布),通过一连串可逆函数变换使得z=f
θ
(x),整个流程是l为不小于1的整数。基于流的生成模型的目标是最大化对数似然估计对数似然估计logp
θ
(x)的表达式可以结合基于流的生成模型的可逆映射推导得到,如公式2所示:
[0128][0129]
其中,det(
·
)表示矩阵的行列式计算,在高维情况下是一个n
×
n的矩阵,被称为雅可比矩阵,n为z的维度,n为不小于1的整数;p
θ
(z)表示z在参数θ下的概率;p
θ
(x)表示x在参数θ下的概率。
[0130]
基于流的生成模型通常采用耦合层(coupling layer)的网络层设计方案,以兼顾计算效率和模型表示能力,耦合层的输入x与输出z之间的关系如公式3和公式4所示:
[0131]z1:d
=x
1:d
ꢀꢀꢀ
(公式3)
[0132][0133]
其中,公式3表示将输入x的前d(d为不小于1且不大于n的整数)维进行复制,公式4表示将输入x的剩余维度(也即从第d+1维到第n维)进行变换。公式4中的s
θ
(
·
)和t
θ
(
·
)表示两个变换函数,这两个变换函数均用于输出与x
d+1:n
维度相同的变换信息。示例性地,s
θ
(
·
)表示尺度(scale)函数,t
θ
(
·
)表示转换(transformation)函数。

表示矩阵对应位置元素相乘。这样的设计使得能够通过简单的变换上述公式3和公式4进行耦合层的逆运算,从而实现从z到x的逆变换,逆运算基于下述公式5和公式6实现:
[0134]
x
1:d
=z
1:d
ꢀꢀꢀ
(公式5)
[0135][0136]
此耦合层的设计使得雅克比矩阵变成对角矩阵,对角矩阵的行列式计算是对角线元素的乘积,即其中,j表示s
θ
(z
1:d
)中的任一元素。此种情况下,尺度函数和转换函数可以是任意复杂的神经网络而不会增加雅克比矩阵行列式的计算量,从而提高计算效率。
[0137]
在示例性实施例中,对于目标分子补全模型为一种基于流的生成模型的情况,调用目标分子补全模型对任一待补全分子进行补全,得到任一待补全分子对应的补全结果的过程包括以下步骤2031至步骤2034。
[0138]
步骤2031:基于任一待补全分子的原子特征信息,获取任一待补全分子对应的补全后的分子的目标原子特征隐变量;基于任一待补全分子的化学键连接信息,获取任一待补全分子对应的补全后的分子的目标化学键连接隐变量。
[0139]
任一待补全分子的原子特征信息用于表征任一待补全分子中的原子的特征,目标原子特征隐变量用于对任一待补全分子对应的补全后的分子中的原子的特征进行假设。获取任一待补全分子的原子特征信息的原理与获取产物分子的原子特征信息的原理相同,此处不再加以赘述。
[0140]
在示例性实施例中,基于任一待补全分子的原子特征信息,获取任一待补全分子对应的补全后的分子的目标原子特征隐变量的过程包括:从已知概率分布中采样任一待补全分子对应的缺失结构的原子特征隐变量;基于任一待补全分子的原子特征信息和缺失结构的原子特征隐变量,获取目标原子特征隐变量。
[0141]
任一待补全分子对应的缺失结构是指任一待补全分子待补全的结构,缺失结构的原子特征隐变量用于对缺失结构的中的原子的特征进行假设。缺失结构的原子特征隐变量是从已知概率分布中采样得到的,也就是说,缺失结构的原子特征隐变量为服从已知概率分布的变量。
[0142]
已知概率分布为能够确定服从该概率分布的变量对应的概率的任一分布,已知概率分布的类型可以根据经验设置,本技术实施例对此不加以限定,例如,已知概率分布可以是指高斯分布,也可以是指均匀分布等。示例性地,采样缺失结构的原子特征隐变量的方式可以为随机采样。
[0143]
在示例性实施例中,缺失结构的原子特征隐变量和任一待补全分子的原子特征信息的形式均为矩阵,在缺失结构的原子特征隐变量的矩阵和任一待补全分子的原子特征信息的矩阵中,均是一行元素对应一个原子。示例性地,基于任一待补全分子的原子特征信息和缺失结构的原子特征隐变量,获取目标原子特征隐变量的方式可以为:对任一待补全分子的原子特征信息和缺失结构的原子特征隐变量进行纵向拼接,基于拼接得到的矩阵,获取目标原子特征隐变量。
[0144]
示例性地,基于拼接得到的矩阵,获取目标原子特征隐变量的方式可以为:将拼接得到的矩阵作为目标原子特征隐变量。
[0145]
示例性地,基于拼接得到的矩阵,获取目标原子特征隐变量的方式还可以为:若拼接得到的矩阵的维度为第一参考维度,将拼接得到的矩阵作为目标原子特征隐变量;若拼接得到的矩阵的维度小于第一参考维度,将拼接得到的矩阵扩充为第一参考维度的矩阵,将扩充后得到的矩阵作为目标原子特征隐变量。此种方式能够保证目标原子特征隐变量的维度为第一参考维度,从而提高目标原子特征隐变量的规范性。
[0146]
第一参考维度为预先设置的用于约束原子特征方面的信息的维度的参数,第一参考维度可认为是最大反应物分子的原子特征信息的维度,也即本技术实施例认为第一参考维度不小于拼接得到的矩阵的维度。示例性地,将拼接得到的矩阵扩充为第一参考维度的矩阵的过程可以是指:将拼接得到的矩阵置于左上角位置,在其他位置添加0元素,直至得到第一参考维度的矩阵。
[0147]
任一待补全分子的化学键连接信息用于表征任一待补全分子中的原子之间的化学键连接情况,目标化学键连接隐变量用于对任一待补全分子对应的补全后的分子中的原子之间的化学键连接情况进行假设。获取任一待补全分子的化学键连接信息的原理与获取产物分子的化学键连接信息的原理相同,此处不再加以赘述。
[0148]
在示例性实施例中,基于任一待补全分子的化学键连接信息,获取任一待补全分
子对应的补全后的分子的目标化学键连接隐变量的过程包括:从已知概率分布中采样任一待补全分子对应的缺失结构的化学键连接隐变量;基于任一待补全分子的化学键连接信息和缺失结构的化学键连接隐变量,获取目标化学键连接隐变量。
[0149]
缺失结构的化学键连接隐变量用于对缺失结构的中的原子之间的化学键连接情况进行假设。缺失结构的化学键连接隐变量是从已知概率分布中采样得到的,也就是说,缺失结构的化学键连接隐变量为服从已知概率分布的变量。示例性地,采样缺失结构的化学键连接隐变量的方式可以为随机采样。
[0150]
示例性地,缺失结构的化学键连接隐变量能够指示出缺失结构中的原子之间的化学键连接情况(假设的情况),任一待补全分子的化学键连接信息能够指示出任一待补全分子中的原子之间的化学键连接情况(真实的情况),基于缺失结构的化学键连接隐变量和任一待补全分子的化学键连接信息,能够获取一个用于指示缺失结构中原子以及任一待补全分子中的原子(也即补全后的分子中的原子)之间的化学键连接情况(假设的情况)的目标信息,基于该目标信息获取目标化学键连接隐变量。示例性地,目标信息和目标化学键连接隐变量的形式均为矩阵。
[0151]
需要说明的是,补全后的分子中的原子之间的化学键连接情况除包括缺失结构中的原子之间的化学键连接情况以及待补全分子中的原子之间的化学键连接情况外,还包括缺失结果中的原子与补全分子中的原子之间的化学键连接情况。缺失结果中的原子与补全分子中的原子之间的化学键连接情况可以根据经验设置,如,默认缺失结果中的原子与补全分子中的原子之间不存在化学键连接。
[0152]
示例性地,基于目标信息获取目标化学键连接隐变量的方式可以为:将目标信息作为目标化学键连接隐变量。
[0153]
示例性地,基于目标信息获取目标化学键连接隐变量的方式还可以为:若标信息的维度为第二参考维度,将标信息作为目标化学键连接隐变量;若目标信息的维度小于第二参考维度,将目标信息扩充为第二参考维度的矩阵,将扩充后得到的矩阵作为目标化学键连接隐变量。此种方式能够保证目标化学键连接隐变量的维度为第二参考维度,从而提高目标化学键连接隐变量的规范性。
[0154]
第二参考维度为预先设置的用于约束化学键连接方面的信息的维度的参数,第二参考维度可认为是最大反应物分子的化学键连接信息的维度,也即本技术实施例认为第二参考维度不小于目标信息的维度。示例性地,将目标信息扩充为第二参考维度的矩阵的过程可以是指:将目标信息置于左上角位置,在其他位置添加0元素,直至得到第二参考维度的矩阵。
[0155]
步骤2032:调用目标分子补全模型对目标化学键连接隐变量进行变换,得到目标化学键连接信息。
[0156]
目标化学键连接信息用于表征任一待补全分子对应的补全后的分子中的原子之间的化学键连接情况,对目标化学键连接隐变量进行变换,得到目标化学键连接信息的过程是指根据任一待补全分子对应的补全后的分子中的原子之间的化学键连接情况的假设信息,预测任一待补全分子对应的补全后的分子中的原子之间的化学键连接情况的表征信息的过程。
[0157]
示例性地,调用目标分子补全模型对目标化学键连接隐变量进行变换,得到目标
化学键连接信息的实现过程包括:调用目标分子补全模型基于目标化学键连接隐变量,获取任一待补全分子的参考化学键连接信息和缺失结构的参考化学键连接隐变量;基于任一待补全分子的参考化学键连接信息对缺失结构的参考化学键连接隐变量进行变换,得到缺失结构的参考化学键连接信息;基于任一待补全分子的参考化学键连接信息和缺失结构的参考化学键连接信息,获取目标化学键连接信息。
[0158]
在示例性实施例中,目标化学键连接隐变量为第二参考维度的矩阵,基于目标化学键连接隐变量获取任一待补全分子的参考化学键连接信息的方式为:将目标化学键连接隐变量中用于指示任一待补全分子中的原子之间的化学键连接情况的信息保持不变,将其他信息置为0,得到任一待补全分子的参考化学键连接信息。此种方式下获取的任一待补全分子的参考化学键连接信息同样为第二参考维度的矩阵。
[0159]
在示例性实施例中,基于目标化学键连接隐变量获取缺失结构的参考化学键连接隐变量的方式为:将目标化学键连接隐变量中用于指示缺失结构中的原子之间的化学键连接情况的信息保持不变,将其他信息置为0,得到缺失结构的参考化学键连接隐变量。此种方式下获取的缺失结构的参考化学键连接隐变量同样为第二参考维度的矩阵。
[0160]
示例性地,基于任一待补全分子的参考化学键连接信息对缺失结构的参考化学键连接隐变量进行变换,得到缺失结构的参考化学键连接信息的实现方式可以为:基于任一待补全分子的参考化学键连接信息,获取第一参考变换信息;利用第一参考变换信息对缺失结构的参考化学键连接隐变量进行变换,得到缺失结构的参考化学键连接信息。示例性地,第一参考变换信息可以基于至少一个变换函数(如,公式6中涉及的s
θ
(
·
)变换函数和t
θ
(
·
)变换函数)获取。
[0161]
示例性地,利用第一参考变换信息对缺失结构的参考化学键连接隐变量进行变换,得到缺失结构的参考化学键连接信息的实现过程可以利用公式6表示,其中,利用x
d+1:n
表示缺失结构的参考化学键连接信息,利用t
θ
(z
1:d
)和s
θ
(z
1:d
)表示基于z
1:d
获取的第一参考变换信息,利用z
1:d
表示任一待补全分子的参考化学键连接信息,利用z
d+1:n
表示缺失结构的参考化学键连接隐变量。需要说明的是,变换不会改变信息的维度,也即缺失结构的参考化学键连接隐变量的维度与缺失结构的参考化学键连接信息的维度相同。
[0162]
示例性地,任一待补全分子的参考化学键连接信息和缺失结构的参考化学键连接信息均为第二参考维度的矩阵,基于任一待补全分子的参考化学键连接信息和缺失结构的参考化学键连接信息,获取目标化学键连接信息的方式可以为:将任一待补全分子的参考化学键连接信息和缺失结构的参考化学键连接信息中的对应位置的元素相加,将相加后得到的矩阵作为目标化学键连接信息。示例性地,还可以将任一待补全分子的参考化学键连接信息和缺失结构的参考化学键连接信息之间的笛卡尔乘积作为目标化学键连接信息。
[0163]
示例性地,目标分子补全模型包括目标化学键补全模型,该步骤2032可以通过调用目标分子补全模型中的目标化学键补全模型实现,也即调用目标分子补全模型中的目标化学键补全模型对目标化学键连接隐变量进行变换,得到目标化学键连接信息。
[0164]
目标化学键补全模型能够将某一分子的化学键连接隐变量变换成该分子的化学键连接信息。其中,某一分子的化学键连接隐变量用于对该分子中的原子之间的化学键连接情况进行假设,某一分子的化学键连接信息用于表征该分子中的原子之间的化学键连接情况,也就是说,目标化学键补全模型的输入为分子中的原子之间的化学键连接情况的假
设信息,输出为分子中的原子之间的化学键连接情况的表征信息。
[0165]
示例性地,目标化学键补全模型为一种可逆模型,也就是说,目标化学键补全模型存在逆模型。目标化学键补全模型的逆模型能够将某一分子的化学键连接信息逆变换成该分子的化学键连接隐变量。也就是说,目标化学键补全模型的逆模型的输入为分子中的原子之间的化学键连接情况的表征信息,输出为分子中的原子之间的化学键连接情况的假设信息。
[0166]
目标化学键补全模型是通过对初始化学键补全模型进行训练得到的,目标化学键补全模型的模型结构与初始化学键补全模型的模型结构相同,目标化学键补全模型的模型结构可以参见图5所示的实施例中介绍的初始化学键补全模型的模型结构,此处暂不赘述。
[0167]
步骤2033:调用目标分子补全模型对目标原子特征隐变量进行变换,得到目标原子特征信息。
[0168]
目标原子特征信息用于表征任一待补全分子对应的补全后的分子中的原子的特征,对目标原子特征隐变量进行变换,得到目标原子特征信息的过程是指根据任一待补全分子对应的补全后的分子中的原子的特征的假设信息,预测任一待补全分子对应的补全后的分子中的原子的特征的表征信息的过程。
[0169]
示例性地,调用目标分子补全模型对目标原子特征隐变量进行变换,得到目标原子特征信息的实现过程包括:调用目标分子补全模型基于目标原子特征隐变量,获取任一待补全分子的参考原子特征信息和缺失结构的参考原子特征隐变量;基于任一待补全分子的参考原子特征信息对缺失结构的参考原子特征隐变量进行变换,得到缺失结构的参考原子特征信息;基于任一待补全分子的参考原子特征信息和缺失结构的参考原子特征信息,获取目标原子特征信息。
[0170]
在示例性实施例中,目标原子特征隐变量为第一参考维度的矩阵,基于目标原子特征隐变量获取任一待补全分子的参考原子特征信息的方式为:将目标原子特征隐变量中用于指示任一待补全分子中的原子的特征的信息保持不变,将其他信息置为0,得到任一待补全分子的参考原子特征信息。此种方式下获取的任一待补全分子的参考原子特征信息同样为第一参考维度的矩阵。
[0171]
在示例性实施例中,基于目标原子特征隐变量获取缺失结构的参考原子特征隐变量的方式为:将目标原子特征隐变量中用于指示缺失结构中的原子的特征的信息保持不变,将其他信息置为0,得到缺失结构的参考原子特征隐变量。此种方式下获取的缺失结构的参考原子特征隐变量同样为第一参考维度的矩阵。
[0172]
示例性地,基于任一待补全分子的参考原子特征信息对缺失结构的参考原子特征隐变量进行变换,得到缺失结构的参考原子特征信息的实现方式可以为:基于任一待补全分子的参考原子特征信息,获取第二参考变换信息;利用第二参考变换信息对缺失结构的参考原子特征隐变量进行变换,得到缺失结构的参考原子特征信息。示例性地,第二参考变换信息可以基于至少一个变换函数(如,公式6中涉及的s
θ
(
·
)变换函数和t
θ
(
·
)变换函数)获取。
[0173]
示例性地,利用第二参考变换信息对缺失结构的参考原子特征隐变量进行变换,得到缺失结构的参考原子特征信息的实现过程可以利用公式6表示,其中,利用x
d+1:n
表示缺失结构的参考原子特征信息,利用t
θ
(z
1:d
)和s
θ
(z
1:d
)表示基于z
1:d
获取的第二参考变换信
息,利用z
1:d
表示任一待补全分子的参考原子特征信息,利用z
d+1:n
表示缺失结构的参考原子特征隐变量。需要说明的是,变换不会改变信息的维度,也即缺失结构的参考原子特征隐变量的维度与缺失结构的参考原子特征的维度相同。
[0174]
示例性地,任一待补全分子的参考原子特征信息和缺失结构的参考原子特征信息均为第一参考维度的矩阵,基于任一待补全分子的参考原子特征信息和缺失结构的参考原子特征信息,获取目标原子特征信息的方式可以为:将任一待补全分子的参考原子特征信息和缺失结构的参考原子特征信息中的对应位置的元素相加,将相加后得到的矩阵作为目标原子特征信息。示例性地,还可以将任一待补全分子的参考原子特征信息和缺失结构的参考原子特征信息之间的笛卡尔乘积作为目标原子特征信息。
[0175]
在示例性实施例中,对目标原子特征隐变量进行变换的过程需要考虑目标化学键连接信息的约束,以保证变换过程的可靠性。此种情况下,需要基于目标化学键连接信息,获取目标原子特征隐变量对应的约束信息,然后调用目标原子补全模型在约束信息的约束下对目标原子特征隐变量进行变换。
[0176]
示例性地,在约束信息的约束下对目标原子特征隐变量进行变换的差异性过程体现在基于任一待补全分子的参考原子特征信息对缺失结构的参考原子特征隐变量进行变换,得到缺失结构的参考原子特征信息的过程中,也即,对缺失结构的参考原子特征隐变量进行变换所依据的除了包括任一待补全分子的参考原子特征信息外,还包括约束信息。
[0177]
本技术实施例对获取目标原子特征隐变量对应的约束信息的方式不加以限定,可以根据经验设置,也可以根据应用场景灵活调整。示例性地,获取目标原子特征隐变量对应的约束信息的方式可以为将目标化学键连接信息作为目标原子特征隐变量对应的约束信息。示例性地,获取目标原子特征隐变量对应的约束信息的方式还可以为对目标化学键连接信息进行标准化处理,得到目标原子特征隐变量对应的约束信息。对目标化学键连接信息进行标准化处理用于提高目标化学键连接信息的规范性,标准化处理的方式可以根据经验设置,或者根据应用场景灵活调整,本技术实施例对此不加以限定。例如,标准化处理可以调用图标准化(graph normalization,简称graphnorm)模块实现。
[0178]
示例性地,目标分子补全模型包括目标原子补全模型,该步骤2033可以通过调用目标分子补全模型中的目标原子补全模型实现,也即调用目标分子补全模型中的目标原子补全模型对目标原子特征隐变量进行变换,得到目标原子特征信息。
[0179]
目标原子补全模型能够将某一分子的原子特征隐变量变换成该分子的原子特征信息。其中,某一分子的原子特征隐变量用于对该分子中的原子的特征进行假设,某一分子的原子特征信息用于表征该分子中的原子的特征,也就是说,目标原子补全模型的输入为分子中的原子的特征的假设信息,输出为分子中的原子的特征的表征信息。
[0180]
示例性地,目标原子补全模型为一种可逆模型,也就是说,目标原子补全模型存在逆模型。目标原子补全模型的逆模型能够将某一分子的原子特征信息逆变换成该分子的原子特征隐变量。也就是说,目标原子补全模型的逆模型的输入为分子中的原子的特征的表征信息,输出为分子中的原子的特征的假设信息。
[0181]
目标原子补全模型是通过对初始原子补全模型进行训练得到的,目标原子补全模型的模型结构与初始原子补全模型的模型结构相同,目标原子补全模型的模型结构可以参见图5所示的实施例中介绍的初始原子补全模型的模型结构,此处暂不赘述。
[0182]
步骤2034:基于目标化学键连接信息和目标原子特征信息,获取任一待补全分子对应的补全结果。
[0183]
任一待补全分子对应的补全结果为能够确定任一待补全分子对应的补全后的分子的结果,目标化学键连接信息能够指示出任一待补全分子对应的补全后的分子中的原子之间的化学键连接情况,目标原子特征信息能够指示出任一待补全分子对应的补全后的分子中的原子的特征,根据补全后的分子中的原子之间的化学键连接情况以及补全后的分子中的原子的特征即可唯一确定一个补全后的分子。因此,能够基于目标化学键连接信息和目标原子特征信息,获取任一待补全分子对应的补全结果。
[0184]
示例性地,基于目标化学键连接信息和目标原子特征信息,获取任一待补全分子对应的补全结果的方式可以为:将包括目标化学键连接信息和目标原子特征信息的信息作为任一待补全分子对应的补全结果。
[0185]
示例性地,基于目标化学键连接信息和目标原子特征信息,获取任一待补全分子对应的补全结果的方式还可以为:基于目标化学键连接信息和目标原子特征信息,确定任一待补全分子对应的分子式或者图结构,将分子式或者图结构作为任一待补全分子对应的补全结果。
[0186]
示例性地,基于步骤2031至步骤2034获取任一待补全分子对应的补全结果的过程可以表示为:
[0187]
输入:目标原子补全模型的逆模型和目标化学键补全模型的逆模型其中,as和bs为任一待补全分子gs的原子特征信息和化学键连接信息,和为任一待补全分子中的缺失结构的原子特征隐变量和化学键连接隐变量;为补全后的分子的目标原子特征隐变量;为补全后的分子的目标化学键连接隐变量;
[0188]
1、//获取待处理信息该待处理信息包括补全后的分子的目标原子特征隐变量和目标化学键连接隐变量
[0189]
2、//调用目标化学键补全模型对目标化学键连接隐变量进行变换,得到目标化学键连接信息br[0190]
3、//基于graphnorm模块对目标化学键连接信息br进行标准化处理,得到约束信息
[0191]
4、//调用目标原子补全模型在约束信息的约束下对目标原子特征隐变量进行变换,得到目标原子特征信息ar[0192]
输出:补全结果gr=(ar,br)。
[0193]
示例性地,基于流的生成模型的输入是待补全分子gs=(vs,bs,as),输出是补全后的分子(也即反应物分子)gr=(vr,br,ar)。vs、bs和as分别表示待补全分子的原子集合、化学键连接信息和原子特征信息,vr、br和ar分别表示反应物分子的原子集合、化学键连接信息
和原子特征信息。示例性地,基于流的生成模型为一种非自回归的生成模型,能够一次性生成补全结果,相比于自回归式的生成模型,生成速度更快,用于提高反应物分子预测的效率。
[0194]
需要说明的是,上述步骤2031至步骤2034仅以目标分子补全模型为一种基于流的生成模型为例,介绍了调用目标分子补全模型对任一待补全分子进行补全的实现过程,本技术实施例并不局限于此。在一些实施例中,目标分子补全模型也可以为其他类型的生成模型,如,变分自编码器(vae)生成模型和生成对抗模型(gan)等,本技术实施例对此不加以限定。当然,在一些实施例中,目标分子补全模型还可以卷积神经网络模型等。在目标分子补全模型的不同情况下,调用目标分子补全模型对任一待补充分子进行补全,得到该任一待补全分子对应的补全结果的过程也有所不同,本技术实施例在此不再一一介绍。
[0195]
示例性地,调用目标分子补全模型对任一待补充分子进行补全,得到该任一待补全分子对应的补全结果的过程可以为:调用目标分子补全模型提取任一待补全分子的特征;基于任一待补全分子的特征预测任一待补全分子对应的补全后的分子的特征;基于任一待补全分子对应的补全后的分子的特征,获取该任一待补全分子对应的补全结果。
[0196]
示例性地,对至少一个待补全分子进行补全的过程可视为反应物分子预测过程中的第二阶段。在该第二阶段中,在第一阶段得到的待补全分子的基础上,添加原子和化学键,将待补全分子补全(或者称为还原)为原来的反应物分子。这一阶段的操作可认为是在建模概率分布可以当成条件生成问题来解决。其中,gr表示反应物分子。如前文描述,本技术实施例假设了一个待补全分子对应一个反应物分子,则需要建立的概率分布可以表示为其中,表示对应的反应物分子,表示第h(h为不小于1的整数)个待补全分子。示例性地,该第二阶段如图4中的(2)所示,调用目标分子补全模型分别对两个待补全分子进行补全,得到产物分子对应的两个反应物分子。
[0197]
本技术实施例提供的反应物分子的预测方法,反应物分子的预测过程依赖目标分子补全模型实现,目标分子补全模型是基于样本化合物分子和样本待补全分子训练得到的。由于样本待补全分子通过对样本化合物分子中的子结构进行掩码得到,也就是说,目标分子补全模型的训练过程所依据的数据是在样本化合物分子本身的基础上得到的数据,此种训练过程为一种基于样本化合物分子的自监督训练过程,此种自监督训练过程无需关注样本化合物分子是否为已知的合成反应中的化合物,因而此种自监督训练过程并不会受已知的合成反应的限制,利用该训练过程训练得到的目标分子补全模型的泛化能力较强,有利于扩展适应场景,从而有利于提高反应物分子的预测可靠性和预测准确性。
[0198]
本技术实施例提供了一种分子补全模型的训练方法,该方法可应用于上述图1所示的实施环境。该分子补全模型的训练方法由计算机设备执行,该计算机设备可以为终端11,也可以为服务器12,本技术实施例对此不加以限定。如图5所示,本技术实施例提供的分子补全模型的训练方法包括如下步骤501和步骤502。
[0199]
在步骤501中,获取样本化合物分子以及样本待补全分子,样本待补全分子通过对样本化合物分子中的子结构进行掩码得到。
[0200]
样本化合物分子为对初始分子补全模型训练一次所依据的化合物分子,样本化合物分子的数量可能为一个,也可能为多个,本技术实施例对此不加以限定。示例性地,样本
化合物分子可以从任一包括化合物分子的数据集中提取得到。示例性地,包括化合物分子的数据集可以为包括已知的合成反应的数据集,也可以为不包括已知的合成反应的数据集,本技术实施例对此不加以限定。也就是说,样本化合物分子的获取灵活性较高,不局限于包括已知的合成反应的数据集,从而有利于提高训练得到的模型的泛化能力。示例性地,由于模型的训练过程无需依据样本化合物的标签,所以,包括化合物的数据集可以为无标签的数据集。
[0201]
在获取样本化合物分子后,可以获取样本化合物分子对应的样本待补全分子,样本待补全分子通过对样本化合物分子中的子结构进行掩码得到。示例性地,对样本化合物分子中的子结构进行掩码是指隐藏样本化合物分子中的子结构,在对样本化合物分子中的子结构进行掩码后,无法得知样本化合物分子中的子结构的原本状态。对样本化合物分子中的子结构进行掩码的方式可以根据经验设置,也可以根据实际的应用场景灵活调整,只要能够实现对样本化合物分子中的子结构的隐藏即可。示例性地,对样本化合物分子中的子结构进行掩码的方式可以为利用特定结构替换样本化合物分子中的子结构,也可以为对样本化合分子中的子结构进行遮盖等。示例性地,特定结构是指与真实的化合物分子的结构不同的结构,以便于区分被掩码的部分以及未被掩码的部分。
[0202]
样本化合物分子中的子结构是指样本化合物分子中的一部分,本技术实施例对样本化合物分子中的被掩码的子结构的复杂程度不加以限定,示例性地,样本化合物分子中的被掩码的子结构可以为样本化合物分子中的一个原子,也可以为样本化合物分子中的一个化学键,也可以为样本化合物分子中的一个由至少一个原子和至少一个化学键构成的结构等。
[0203]
示例性地,样本化合物分子中的被掩码的子结构为样本化合物分子中的一个原子的情况可以如图6中的(1)所示,样本化合物分子中的被掩码的子结构为样本化合物分子中的一个化学键的情况可以如图6中的(2)所示,样本化合物分子中的被掩码的子结构为样本化合物分子中的一个由至少一个原子和至少一个化学键构成的结构的情况可以如图6中的(3)所示。在图6中,问号标记的以及被遮挡的部分即为被掩码的子结构。
[0204]
在示例性实施例中,对于样本化合物分子中的被掩码的子结构为样本化合物分子中的一个原子或样本化合物分子中的一个化学键的情况,对初始分子补全模型进行训练的过程可视为基于单原子或单化学键的重构任务对初始分子补全模型进行训练的过程,基于单原子或单化学键的重构任务为较为简单的任务,有利于提高模型训练的收敛速度。示例性地,基于单原子或单化学键的重构任务对初始分子补全模型进行训练可视为多分类问题,该多分类问题用于预测被掩码的单原子或单化学键的类别。
[0205]
在示例性实施例中,由至少一个原子和至少一个化学键构成的结构可以称为子图,对于样本化合物分子中的被掩码的子结构为样本化合物分子中的一个由至少一个原子和至少一个化学键构成的结构的情况,对样本化合物进行掩码的级别可称为子图级别,此种级别的掩码有利于提高模型的补全能力。
[0206]
示例性地,样本化合物分子中被掩码的子结构的可以根据经验从样本化合物分子中选定。例如,可以从样本化合物分子中任选一个中心原子,从该中心原子进行g(g为不小于0的整数)跳,将g跳覆盖到的子结构作为样本化合物分子中被掩码的子结构。此种选定样本化合物分子中被掩码的子结构的方式较为简单。
[0207]
示例性地,样本化合物分子中被掩码的子结构还可以通过参考候选结构集从样本化合物分子中选定。此种情况下,样本化合物分子中被掩码的子结构为样本化合物中的属于候选结构集的结构。属于候选结构集的结构是指构成候选结构集的一个结构。候选结构集为可信程度满足选取条件的结构的集合。可信程度满足选取条件的结构是指可信程度较高的结构,通过参考可信程度较高的结构从样本化合物分子中选定被掩码的子结构,有利于提高被掩码的子结构的合理性,避免整体结构的崩坏,进而提高模型的补全性能。
[0208]
可信程度满足选取条件根据经验设置,或者根据应用场景灵活调整,本技术实施例对此不加以限定。在示例性实施例中,可信程度满足选取条件的结构可以包括已知的合成反应中的产物分子与反应物分子之间的差异结构。已知的合成反应可以从逆合成数据集中提取,逆合成数据集可以根据经验选定,例如,逆合成数据集为uspto-50k数据集,该数据集中包含5万个逆合成反应,每个逆合成反应均为一个已知的合成反应。
[0209]
在示例性实施例中,可信程度满足选取条件的结构还可以包括motif(可以称为基序,是构成任一种特征序列的基本结构)、出现频率大于频率阈值的官能团以及根据brics(一种拆分分子的算法)对参考分子进行拆分得到的结构等。示例性地,出现频率可以是在某些文章或期刊中出现的频率,也可以是在逆合成数据集中出现的频率等。参考分子可以根据经验选定。
[0210]
示例性地,候选结构集还可以称为子结构词典。子结构词典的构建方式可以灵活选定,只要保证内部的结构为可信程度满足选取条件的结构即可。不同的构建方式下,子结构词典中的结构的平均大小以及平均出现频率等可能有所不同。
[0211]
示例性地,对于样本化合物分子中的被掩码的子结构为样本化合物中的属于候选结构集的结构的情况,获取样本待补全分子的实现过程可以为:从样本化合物分子中任选一个化学键,切割该化学键,得到两个结构,将两个结构中的原子数量较小的结构与候选结构集进行匹配,若匹配成功(也即该原子数量较小的结构属于候选结构集),则确定该原子数量较小的结构的切割方案合理,将该原子数量较小的结构作为样本化合物分子中的被掩码的子结构,对该被掩码的子结构进行掩码,得到样本待补全分子。示例性地,若匹配失败(也即该原子数量较小的结构不属于候选结构集),则重新选取化学键进行切割。此种实现过程可以称为基于分子切割(molecular decomposition)获取样本待补全分子的过程。此种分子切割能够保证被掩码的子结构以及剩下的部分都保留有意义的结构,降低补全(或称为重构)难度。
[0212]
示例性地,选取同一样本化合物分子中不同的化学键进行切割,得到的原子数量较小的结构有所不同,例如,如图7所示,若选取样本化合物分子中的化学键1进行切割,则得到的原子数量较小的结构如701所示;若选取样本化合物分子中的化学键2进行切割,则得到的原子数量较小的结构如702所示。
[0213]
需要说明的是,对于同一样本化合物分子,在不同的掩码方案下,可以得到不同的待补全分子,该样本化合物分子和每个待补全分子均可以构成一个数据对(pair),本技术实施例中的模型训练过程是在数据对的基础上进行的。也就是说,本技术实施例中的样本待补全分子是指样本化合物分子对应的任一待补全分子。
[0214]
在步骤502中,基于样本化合物分子、样本待补全分子和初始分子补全模型,获取训练损失;基于训练损失更新初始分子补全模型的模型参数,得到目标分子补全模型。
[0215]
训练损失用于为初始分子补全模型的模型参数的更新提供监督信息,基于样本化合物分子、样本待补全分子和初始分子补全模型获取训练损失的实现方式与初始分子补全模型的类型有关,本技术实施例对此不加以限定。
[0216]
在一种可能实现方式中,基于样本化合物分子、样本待补全分子和初始分子补全模型获取训练损失的实现方式包括以下步骤5021至步骤5025。
[0217]
步骤5021:获取样本化合物分子的样本原子特征信息和样本化学键连接信息。
[0218]
样本化合物分子的样本原子特征信息用于对样本化合物分子中的原子的特征进行表征,样本化合物分子的样本化学键连接信息用于对样本化合物分子中的原子之间的化学键连接情况进行表征。获取样本化合物分子的样本原子特征信息和样本化学键连接信息的原理与图2所示的实施例中获取产物分子的原子特征信息和化学键连接信息的原理相同,此处不再加以赘述。在示例性实施例中,样本化合物分子的样本化学键连接信息为第一参考维度的矩阵,样本化合物分子的样本原子特征信息为第二参考维度的矩阵。
[0219]
步骤5022:基于样本化合物分子和样本待补全分子之间的差异结构,获取原子掩码信息和化学键掩码信息。
[0220]
原子掩码信息用于指示样本化合物分子中的原子的掩码情况(如,哪些原子被掩码,哪些原子没有被掩码),化学键掩码信息用于指示样本化合物分子中的原子之间的化学键的掩码情况(如,哪些化学键被掩码,哪些化学键没有被掩码)。由于样本待补全分子是通过对样本化合物中的子结构进行掩码得到的,所以,通过比对样本化合物分子和样本待补全分子之间的差异结构,可以确定原子掩码信息和化学键掩码信息。
[0221]
示例性地,原子掩码信息与样本原子特征信息的维度相同,如,均为第二参考维度的矩阵。原子掩码信息中的任一位置的元素的取值用于指示样本原子特征信息中位于相同位置的元素的掩码情况,如,若原子掩码信息中的任一位置的元素的取值为0,则指示样本原子特征信息中位于相同位置的元素的掩码情况为被掩码;若原子掩码信息中的任一位置的元素的取值为1,则指示样本原子特征信息中位于相同位置的元素的掩码情况为没有被掩码。
[0222]
示例性地,化学键掩码信息与样本化学键连接信息的维度相同,如,均为第一参考维度的矩阵。化学键掩码信息中的任一位置的元素的取值用于指示样本化学键连接信息中位于相同位置的元素的掩码情况,如,若化学键掩码信息中的任一位置的元素的取值为0,则指示样本化学键连接信息中位于相同位置的元素的掩码情况为被掩码;若化学键掩码信息中的任一位置的元素的取值为1,则指示样本化学键连接信息中位于相同位置的元素的掩码情况为没有被掩码。
[0223]
步骤5023:调用初始分子补全模型基于化学键掩码信息对样本化学键连接信息进行逆变换,得到样本化学键连接隐变量。
[0224]
样本化学键连接隐变量用于对样本化合物分子中的原子之间的化学键连接情况进行假设。初始分子补全模型为一种可逆模型,既能够将分子的化学键连接隐变量变换为分子的化学键连接信息,也能够将分子的化学键连接信息逆变换为分子的化学键连接隐向量。由于在模型的训练过程中,样本化合物分子的样本化学键连接信息为已知的较为准确的信息,所以,调用初始分子补全模型实现对样本化学键连接信息的逆变换。
[0225]
在一种可能实现方式中,调用初始分子补全模型基于化学键掩码信息对样本化学
键连接信息进行逆变换,得到样本化学键连接隐变量的过程包括以下步骤1至步骤3。
[0226]
步骤1:调用初始分子补全模型基于化学键掩码信息和样本化学键连接信息,获取样本待补全分子的第一化学键连接信息以及子结构的第二化学键连接信息。
[0227]
第一化学键连接信息用于表征样本待补全分子中的原子之间的化学键连接情况,第二化学键连接信息用于表征被掩码的子结构中的原子之间的化学键连接情况。由于化学键掩码信息能够指示出样本化合物分子中的原子之间的化学键掩码情况,被掩码的化学键即为被掩码的子结构中的原子之间的化学键,没有被掩码的化学键即为样本待补全分子中的原子之间的化学键,所以基于化学键掩码信息和样本化合物分子的样本化学键连接信息,能够获取样本待补全分子的第一化学键连接信息以及子结构的第二化学键连接信息。
[0228]
示例性地,基于化学键掩码信息和样本化学键连接信息,能够获取样本待补全分子的第一化学键连接信息以及子结构的第二化学键连接信息的方式可以为:将样本化学键连接信息中的与化学键掩码信息指示的没有被掩码的化学键相关的信息保留,将其他信息置为0,得到第一化学键连接信息;将样本化学键连接信息中的与化学键掩码信息指示的被掩码的化学键相关的信息保留,将其他信息置为0,得到第二化学键连接信息。此种方式下,第一化学键连接信息的维度和第二化学键连接信息的维度均与样本化学键连接信息的矩阵相同,如,均为第一参考维度的矩阵。
[0229]
步骤2:基于第一化学键连接信息对第二化学键连接信息进行逆变换,得到子结构的化学键连接隐变量。
[0230]
子结构的化学键连接隐变量用于对子结构中的原子之间的化学键连接情况进行假设,示例性地,子结构的化学键连接隐变量为一种服从已知概率分布的变量,已知概率分布根据经验设置,或者根据应用场景灵活调整,例如,已知概率分布为高斯分布,或者为均匀分布等。
[0231]
在示例性实施例中,基于第一化学键连接信息对第二化学键连接信息进行逆变换,得到子结构的化学键连接隐变量的实现过程包括:基于第一化学键连接信息,获取第一样本变换信息;利用第一样本变换信息对第二化学键连接信息进行逆变换,得到子结构的化学键连接隐变量。示例性地,第一样本变换信息可以基于至少一个变换函数(如,s
θ
(
·
)变换函数和t
θ
(
·
)变换函数)获取。需要说明的是,逆变换不会改变信息的维度,也即子结构的化学键连接隐变量的维度与第二化学键连接信息的维度相同。
[0232]
步骤3:基于第一化学键连接信息和子结构的化学键连接隐变量,获取样本化学键连接隐变量。
[0233]
示例性地,第一化学键连接信息和子结构的化学键连接隐变量均为第一参考维度的矩阵,基于第一化学键连接信息和子结构的化学键连接隐变量,获取样本化学键连接隐变量的方式可以为:将第一化学键连接信息和子结构的化学键连接隐变量中的对应位置的元素相加,将相加后得到的矩阵作为样本化学键连接隐变量。示例性地,还可以将第一化学键连接信息和子结构的化学键连接隐变量之间的笛卡尔乘积作为样本化学键连接隐变量。
[0234]
示例性地,获取样本化学键连接隐变量的过程可以基于下述公式7和公式8实现:
[0235][0236]
[0237]
其中,和表示第一化学键连接信息;表示第二化学键连接信息;和表示第一样本变换信息;表示基于第一样本变换信息对第二化学键连接信息进行逆变换的运算方式;表示子结构的化学键连接隐变量。和为样本化学键连接隐变量的两个组成部分。示例性地,公式7用于将样本待补全分子的第一化学键连接信息保持不变,公式8用于将被掩码的子结构的第二化学键连接信息变换到服从高斯分布的隐变量。s
θ
和t
θ
可以采用神经网络结构,如,图神经网络结构。
[0238]
示例性地,初始分子补全模型包括初始化学键补全模型,初始化学键补全模型为一种基于流的生成模型,也即初始化学键补全模型用于基于流的生成方式补全化学键连接信息。示例性地,初始分子补全模型还可以称为初始synthon flow(合成子流)模型,初始化学键补全模型还可以称为初始synthon bond flow(合成子化学键流,简称sb flow)模型。
[0239]
初始化学键补全模型为一种可逆模型,初始化学键补全模型的逆模型与初始化学键补全模型的关系为:初始化学键补全模型的逆模型的输入为初始化学键补全模型的输出,初始化学键补全模型的逆模型的输出为初始化学键补全模型的输入。示例性地,初始化学键补全模型的输入和输出的信息的维度相同。示例性地,初始化学键补全模型的输入为分子中的原子之间的化学键连接情况的假设信息,输出为分子中的原子之间的化学键连接情况的表征信息,也就是说,初始化学键模型的逆模型的输入为分子中的原子之间的化学键连接情况的表征信息,输出为分子中的原子之间的化学键连接情况的假设信息。
[0240]
由于当前的输入信息为样本化学键连接信息(也即样本化合物分子中的原子之间的化学键连接情况的表征信息),所以,该步骤5023可以通过调用初始分子补全模型中的初始化学键补全模型的逆模型实现。也就是说,调用初始分子补全模型中的初始化学键补全模型的逆模型基于化学键掩码信息对样本化学键连接信息进行逆变换,得到样本化学键连接隐变量。
[0241]
示例性地,初始化学键补全模型包括至少一个化学键补全模块,各个化学键补全模块的结构相同,本技术实施例以初始化学键补全模型包括一个化学键补全模块为例进行说明。
[0242]
示例性地,初始化学键补全模型的结构可以如图8所示,初始原子补全模型包括挤压(squeeze)模块、标准化处理(actnorm)模块、可逆卷积(invertible convolution)模块、分裂/掩码(split/mask)模块、仿射耦合(affine coupling)模块以及至少一个变换信息获取模块。示例性地,任一变换信息获取模块包括卷积子模块、标准化处理(batchnorm)子模块和激活(relu)子模块。在图8中,变换信息获取模块的数量为l(l为不小于1的整数)个,可逆卷积模块的卷积核为1*1,任一变换信息获取模块中的卷积子模块的卷积核为3*3。示例性地,挤压模块用于将输入的化学键连接信息的维度进行变换;标准化处理模块用于对信息进行标准化处理;可逆卷积模块用于对化学键连接信息中的种类维度进行重排;分裂/掩码模块用于基于化学键掩码信息将样本化合物的样本化学键连接信息拆分成两个部分(第一化学键连接信息和第二化学键连接信息);仿射耦合模块用于实现对第二化学键连接信
息的逆变换;l个变换信息获取模块用于获取第一样本变换信息。
[0243]
示例性地,在图8所示的初始化学键补全模型的结构下,获取样本化学键连接隐变量的过程可以为:将化学键掩码信息mb和样本化学键连接信息br输入初始化学键补全模型,依次经过挤压模块、标准化处理模块、可逆卷积模块和分裂/掩码模块的处理,得到第一化学键连接信息和第二化学键连接信息利用l个变换信息获取模块(每个变换信息获取模块均包括卷积子模块、标准化处理子模块和激活子模块)对第一化学键连接信息进行处理,能够得到第一样本变换信息和然后由仿射耦合模块利用第一样本变换信息和对第二化学键连接信息进行逆变换,得到子结构的化学键连接隐变量基于第一化学键连接信息和子结构的化学键连接隐变量得到样本化学键连接隐变量
[0244]
需要说明的是,图8所示的初始化学键补全模型的结构仅为一种示例性举例,本技术实施例并不局限于此。也就是说,初始化学键补全模型的结构还可以包括更多或更少的模块。
[0245]
在示例性实施例中,基于化学键掩码信息对样本化学键连接信息进行逆变换可以是直接基于化学键掩码信息对样本化学键连接信息进行逆变换,也可以是指基于化学键掩码信息对处理后的化学键连接信息进行逆变换,其中,处理后的化学键连接信息可以通过调用glow模块(一种信息处理模块)对样本化学键连接信息进行处理得到。
[0246]
步骤5024:调用初始分子补全模型基于原子掩码信息对样本原子特征信息进行逆变换,得到样本原子特征隐变量。
[0247]
样本原子特征隐变量用于对样本化合物分子中的原子的特征进行假设。初始分子补全模型为一种可逆模型,既能够将分子的原子特征隐变量变换为分子的原子特征信息,也能够将分子的原子特征信息逆变换为分子的原子特征隐向量。由于在模型的训练过程中,样本化合物分子的样本原子特征信息为已知的较为准确的信息,所以,调用初始分子补全模型实现对样本原子特征信息的逆变换。
[0248]
在一种可能实现方式中,调用初始分子补全模型基于原子掩码信息对样本原子特征隐变量进行逆变换,得到样本原子特征隐变量的过程包括以下步骤a至步骤c。
[0249]
步骤a:调用初始分子补全模型基于原子掩码信息和样本原子特征信息,获取样本待补全分子的第一原子特征信息以及子结构的第二原子特征信息。
[0250]
第一原子特征信息用于表征样本待补全分子中的原子的特征,第二化学键连接信息用于表征被掩码的子结构中的原子的特征。由于原子掩码信息能够指示出样本化合物分子中的原子的掩码情况,被掩码的原子即为被掩码的子结构中的原子,没有被掩码的原子即为样本待补全分子中的原子,所以基于原子掩码信息和样本化合物分子的样本原子特征,能够获取样本待补全分子的第一原子特征信息以及子结构的第二原子特征信息。
[0251]
示例性地,基于原子掩码信息和样本原子特征信息,能够获取样本待补全分子的第一原子特征信息以及子结构的第二原子特征信息的方式可以为:将样本原子特征信息中的与原子掩码信息指示的没有被掩码的原子相关的信息保留,将其他信息置为0,得到第一原子特征信息;将样本原子特征信息中的与原子掩码信息指示的被掩码的原子相关的信息
保留,将其他信息置为0,得到第二原子特征信息。此种方式下,第一原子特征信息的维度和第二原子特征信息的维度均与样本原子特征信息的矩阵相同,如,均为第二参考维度的矩阵。
[0252]
步骤b:基于第一原子特征信息对第二原子特征信息进行逆变换,得到子结构的原子特征隐变量。
[0253]
子结构的原子特征隐变量用于对子结构中的原子的特征进行假设,示例性地,子结构的原子特征隐变量为一种服从已知概率分布的变量,已知概率分布根据经验设置,或者根据应用场景灵活调整,例如,已知概率分布为高斯分布,或者为均匀分布等。
[0254]
在示例性实施例中,基于第一原子特征信息对第二原子特征信息进行逆变换,得到子结构的原子特征隐变量的实现过程包括:基于第一原子特征信息,获取第二样本变换信息;利用第二样本变换信息对第二原子特征信息进行逆变换,得到子结构的原子特征隐变量。示例性地,第二样本变换信息可以基于至少一个变换函数(如,s
θ
(
·
)变换函数和t
θ
(
·
)变换函数)获取。需要说明的是,逆变换不会改变信息的维度,也即子结构的原子特征隐变量的维度与第二原子特征信息的维度相同。
[0255]
在示例性实施例中,基于第一原子特征信息对第二原子特征信息进行逆变换的过程需要考虑样本化学键连接信息的约束,以保证逆变换过程的可靠性。此种情况下,需要基于样本化学键连接信息,获取样本约束信息,然后基于第一原子特征信息和样本约束信息对第二原子特征信息进行逆变换,得到子结构的原子特征隐变量。此种情况下,第二样本变换信息通过综合考虑第一原子特征信息和样本约束信息得到。
[0256]
本技术实施例对获取样本约束信息的方式不加以限定,可以根据经验设置,也可以根据应用场景灵活调整。示例性地,获取样本约束信息的方式可以为将目样本化学键连接信息作为样本约束信息。示例性地,获取样本约束信息的方式还可以为对样本化学键连接信息进行标准化处理,得到样本约束信息。对样本化学键连接信息进行标准化处理用于提高样本化学键连接信息的规范性,标准化处理的方式可以根据经验设置,或者根据应用场景灵活调整,本技术实施例对此不加以限定。例如,标准化处理可以调用图标准化模块实现。
[0257]
步骤c:基于第一原子特征信息和子结构的原子特征隐变量,获取样本原子特征隐变量。
[0258]
示例性地,第一原子特征信息和子结构的原子特征隐变量均为第二参考维度的矩阵,基于第一原子特征信息和子结构的原子特征隐变量,获取样本原子特征隐变量的方式可以为:将第一原子特征信息和子结构的原子特征隐变量中的对应位置的元素相加,将相加后得到的矩阵作为样本原子特征隐变量。示例性地,还可以将第一原子特征信息和子结构的原子特征隐变量之间的笛卡尔乘积作为样本原子特征隐变量。
[0259]
示例性地,获取样本原子特征隐变量的过程可以基于下述公式9和公式10实现:
[0260][0261][0262]
其中,和表示第一原子特征信息;表示样本约束信息;表示第二
原子特征信息;和表示第二样本变换信息;表示基于第二样本变换信息对第二原子特征信息进行逆变换的运算方式;示子结构的原子特征隐变量。和为样本原子特征隐变量的两个组成部分。
[0263]
示例性地,公式9用于将样本待补全分子的第一原子特征信息保持不变,公式10用于将被掩码的子结构的第二原子特征信息变换到服从高斯分布的隐变量,公式10将第一原子特征信息和基于样本化学键连接信息br获取的样本约束信息作为输入条件。s
θ
和t
θ
可以采用神经网络结构,如,图神经网络结构,s
θ
和t
θ
的输出维度均与第二原子特征信息的维度相同,s
θ
和t
θ
的处理逻辑可以利用公式11表示:
[0264][0265]
其中,ha表示s
θ
或t
θ
函数的输出结构(也即或);ma∈{0,1}表示原子掩码信息,用于将非样本待补全分子(也即被掩码的子结构)的原子特征信息掩码成零,将样本待补全分子的原子特征信息保持不变。ma的维度与样本原子特征信息的维度相同,ma中包括样本原子特征信息中的每个元素分别对应的掩码值,示例性地,对于所有的j(j为任一原子对应的子特征信息的各个维度中的任一维度),如果va∈vs,则ma[a,j]=1,否则ma[a,j]=0。其中,va∈vs表示原子a为样本待补全分子中的原子构成的原子集vs中的一个原子,m[a,j]表示原子a对应的子特征信息中第j个维度对应的元素的掩码值。
[0266]
表示第一原子特征信息,能够在ma的基础上,通过ma⊙ar
运算得到。表示基于样本化学键连接信息获取的样本约束信息中与化学键类别i相关的信息,i为不小于1且不大于c的整数,c(c为不小于1的整数)为候选化学键类型的数量。graphconv()表示图神经网络结构;wi和w0表示图神经网络结构的参数。
[0267]
示例性地,初始分子补全模型包括初始原子补全模型,初始原子补全模型为一种基于流的生成模型,也即初始原子补全模型用于基于流的生成方式补全原子特征信息。示例性地,初始原子补全模型还可以称为初始synthon graph flow(合成子图结构流,简称sg flow)模型。
[0268]
初始原子补全模型为一种可逆模型,初始原子补全模型的逆模型与初始原子补全模型的关系为:初始原子补全模型的逆模型的输入为初始原子补全模型的输出,初始原子补全模型的逆模型的输出为初始原子补全模型的输入。示例性地,初始原子补全模型的输入和输出的信息的维度相同。示例性地,初始原子补全模型的输入为分子中的原子的特征的假设信息,输出为分子中的原子的特征表征信息,也就是说,初始化学键模型的逆模型的输入为分子中的原子的特征的表征信息,输出为分子中的原子的假设信息。
[0269]
由于当前的输入信息为样本原子特征信息(也即样本化合物分子中的原子的特征的表征信息),所以,该步骤5024可以通过调用初始分子补全模型中的初始原子补全模型的逆模型实现。也就是说,调用初始分子补全模型中的初始原子补全模型的逆模型基于原子
掩码信息对样本原子特征信息进行逆变换,得到样本原子特征隐变量。
[0270]
示例性地,初始原子补全模型包括至少一个原子补全模块,各个原子补全模块的结构相同,本技术实施例以初始原子补全模型包括一个原子补全模块为例进行说明。
[0271]
示例性地,初始原子补全模型的结构可以如图9所示,初始原子补全模型包括标准化处理(actnorm)模块、分裂/掩码(split/mask)模块、仿射耦合(affine coupling)模块、图标准化(graphnorm)模块以及变换信息获取模块。示例性地,变换信息获取模块包括至少一个参考处理模块和一个多层感知机(mlp)模块,任一参考处理模块包括图卷积子模块、标准化处理(batchnorm)子模块和激活(relu)子模块。在图9中,参考处理模块的数量为l(l为不小于1的整数)个,分裂/掩码模块用于基于原子掩码信息将样本化合物的样本原子特征信息拆分成两个部分(第一原子特征信息和第二原子特征信息);标准化处理模块用于在每一个批次(batch)内针对矩阵的每一行进行标准化操作;仿射耦合模块用于实现对第二原子特征信息的逆变换;变换信息获取模块用于获取第二样本变换信息。
[0272]
示例性地,在图9所示的初始原子补全模型的结构下,获取样本原子特征隐变量的过程可以为:将原子掩码信息ma和样本原子特征信息ar输入初始原子补全模型,依次经过标准化处理模块和分裂/掩码模块的处理,得到第一原子特征信息和第二原子特征信息通过图标准化模块对样本化学键连接信息br进行标准化处理,得到样本约束信息利用包括l个参考处理模块(每个参考处理模块均包括图卷积子模块、标准化处理子模块和激活子模块)和一个mlp模块的变换信息获取模块对第一原子特征信息和样本约束信息进行处理,能够得到第二样本变换信息和然后由仿射耦合模块利用第二样本变换信息和对第二原子特征信息进行逆变换,得到子结构的原子特征隐变量基于第一原子特征信息和子结构的原子特征隐变量得到样本原子特征隐变量
[0273]
需要说明的是,图9所示的初始原子补全模型的结构仅为一种示例性举例,本技术实施例并不局限于此。也就是说,初始原子补全模型的结构还可以包括更多或更少的模块。
[0274]
步骤5025:基于样本化学键连接隐变量和样本原子特征隐变量,获取训练损失。
[0275]
训练损失用于衡量样本化学键连接隐变量和样本原子特征隐变量的预测质量。训练损失越大,说明样本化学键连接隐变量和样本原子特征隐变量的预测质量越差,也即说明初始分子补全模型的性能越差;训练损失越小,说明样本化学键连接隐变量和样本原子特征隐变量的预测质量越好,也即说明初始分子补全模型的性能越好。
[0276]
在示例性实施例中,基于样本化学键连接隐变量和样本原子特征隐变量,获取训练损失的实现过程包括:基于样本化学键连接隐变量和第一样本变换信息,获取第一似然函数值;基于样本原子特征隐变量和第二样本变换信息,获取第二似然函数值;基于第一似然函数值和第二似然函数值,获取目标似然函数值;将与目标似然函数值呈负相关关系的数值作为训练损失。例如。将目标似然函数值的相反数作为训练损失,或者,将目标似然函数值的对数值的相反数作为训练损失等。
[0277]
第一似然函数值用于衡量在给定样本化学键连接隐变量的基础上,调用初始化学
键补全模型得到样本化学键连接信息的概率,示例性地,第一似然函数值可以基于下述公式12计算得到:
[0278][0279]
其中,表示第一似然函数值;br表示样本化学键连接信息;表示样本化学键连接隐变量;表示样本化学键连接隐变量的概率;是一个行列式,表示第一似然函数值的对数值与样本化学键连接隐变量的概率的对数值之间的差异,基于第一样本变换信息计算得到。
[0280]
第二似然函数值用于衡量在给定样本原子特征隐变量的基础上,调用初始化学键补全模型得到样本原子特征信息的概率,示例性地,第二似然函数值可以基于下述公式13计算得到:
[0281][0282]
其中,表示第二似然函数值;表示样本原子特征隐变量的概率;表示在的约束下得到的样本原子特征信息;表示在的约束下得到的样本原子特征隐变量;表示样本约束信息;是一个行列式,表示第二似然函数值的对数值与样本原子特征隐变量的概率的对数值之间的差异,基于第二样本变换信息计算得到。
[0283]
示例性地,基于第一似然函数值和第二似然函数值,获取目标似然函数值的过程如公式14所示:
[0284][0285]
其中,gr表示样本化合物分子;br表示样本化学键连接信息;表示样本原子特征信息;表示第一似然函数值;表示第二似然函数值;表示目标似然函数值。
[0286]
示例性地,获取目标似然函数值的过程可以如下所示:
[0287]
输入:样本化合物分子的信息gr=(ar,br)和其对应的掩码信息m(包括原子掩码信息和化学键掩码信息),初始原子补全模型的逆模型和初始化学键补全模型的逆模型其中,ar表示样本原子特征信息,br表示样本化学键连接信息;
[0288]
1、//利用glow模块(一种信息处理模块)对样本化学键连接信息br进行处理,得到处理后的化学键连接信息
[0289]
2、//调用初始化学键补全模型的逆模型基于处理后的化学键连接信息获取化学键连接隐变量此过程考虑了掩码信息m中化学键掩码信息
[0290]
3、//基于化学键连接信息以及行列式获取第一似然函数值
[0291]
4、/利用graphnorm模块(一种图标准化模块)对样本化学键连接信息br进行标准化处理,得到样本约束信息
[0292]
5、//调用初始原子补全模型的逆模型基于样本原子特征信息ar和样本约束信息获取原子特征隐变量此过程考虑了掩码信息m中的原子掩码信息
[0293]
6、//基于原子特征隐变量以及行列式获取第二似然函数值
[0294]
7、//将包括原子特征隐变量和化学键连接隐变量的信息作为样本隐变量
[0295]
8、//基于第一似然函数值和第二似然函数值获取目标似然函数值的对数值
[0296]
输出:
[0297]
需要说明的是,基于步骤5021至步骤5025获取训练损失的过程仅为一种示例性实现过程,本技术实施例并不局限于此。在示例性实施例中,基于样本化合物分子、样本待补全分子和初始分子补全模型获取训练损失的实现方式还可以为:调用初始分子补全模型对样本待补全分子进行补全,基于补全结果得到预测补全分子;基于预测补全分子和样本化合物分子之间的差异,获取训练损失。
[0298]
调用初始分子补全模型对样本待补全分子进行补全的实现过程参见图2所示的实施例中步骤203,此处不再加以赘述。基于调用初始分子补全模型对样本待补全分子进行补全得到的补全结果,能够得到预测补全分子,该预测补全分子为初始分子补全模型预测的样本待补全分子对应的补全后的分子。样本化合物分子为样本待补全分子对应真实的补全后的分子,基于预测补全分子和样本化合物分子之间的差异,能够获取用于为初始分子补全模型的模型参数更新提供监督信息的训练损失。
[0299]
本技术实施例对衡量两个分子之间的差异的方式不加以限定,示例性地,基于两个分子中的原子的差异(原子数量的差异、原子类型的差异、原子特征的差异等)和化学键之间的差异(化学键数量的差异,化学键类型的差异、化学键特征的差异等),确定两个分子
之间的差异。示例性地,提取两个分子分别对应的分子特征,将两个分子特征之间的差异作为两个分子之间的差异。示例性地,可以通过调用分子特征提取模型提取两个分子分别对应的分子特征。示例性地,两个分子特征为相同维度的向量或矩阵,可以基于两个分子特征中的对应位置的元素之间的差异确定两个分子特征之间的差异。示例性地,也可以计算两个分子特征之间的相似度,将与相似度呈负相关关系的数值(如,相似度的相反数)作为两个分子特征之间的差异。
[0300]
无论哪种情况,在获取训练损失后,基于训练损失更新初始分子补全模型的模型参数。示例性地,基于训练损失更新初始分子补全模型的模型参数的过程可以基于梯度下降法实现,也即,基于训练损失获取初始分子补全模型的模型参数的更新梯度,基于更新梯度更新初始分子补全模型的模型参数。示例性地,对于基于步骤5021至步骤5025获取训练损失的情况,基于训练损失更新初始分子补全模型的模型参数的过程也可以是指基于训练损失更新初始分子补全模型的逆模型的过程。
[0301]
示例性地,模型训练过程为迭代过程,在基于训练损失更新初始分子补全模型的模型参数后,得到训练一次的分子补全模型;判断当前训练过程是否满足目标终止条件,若当前训练过程满足目标终止条件,则可以将训练一次的分子补全模型作为目标分子补全模型;若当前训练过程不满足目标终止条件,则可以参考步骤501和步骤502的方式获取新的训练损失,然后利用新的训练损失对当前得到的分子补全模型的模型参数进行更新,以此类推,直至当前训练过程满足目标终止条件,将满足目标终止条件时得到的分子补全模型作为目标分子补全模型。需要说明的是,获取新的训练损失所依据的样本化合物分子以及样本待补全分子可以部分或完全改变,也可以不改变。
[0302]
满足目标终止条件根据经验设置,或者根据应用场景灵活调整,本技术实施例对此不加以限定。在示例性实施例中,满足目标终止条件可以是指训练损失收敛、训练损失小于第二损失阈值、模型参数的更新次数达到第二次数阈值等。第二损失阈值和第二次数阈值可以根据经验设置,也可以根据应用场景灵活调整,本技术实施例对此不加以限定。
[0303]
在示例性实施例中,训练得到目标分子补全模型的过程可以为一种课程学习(curriculum learning)的过程,此种情况下,可以构造从易到难的任务逐步对分子补全模型进行训练。示例性地,任务的难度可以基于样本化合物分子中被掩码的子结构的复杂程度或者样本化合物分子中被掩码的子结构掩码比例(masking ratio)来衡量。若样本化合物分子中被掩码的子结构的复杂程度较低或者样本化合物分子中被掩码的子结构掩码比例较低,则模型能够接收到的信息较多,分子补全任务较容易;若样本化合物分子中被掩码的子结构的复杂程度较高或者样本化合物分子中被掩码的子结构掩码比例较高,则模型能够接收到的信息较少,分子补全任务较困难。通过从易到难的任务逐步对分子补全模型进行训练,可以逐步提高分子补全模型的训练效果。当然,在一些实施例中,也可以直接利用复杂的任务(如,在子图级别的掩码方案下构建的任务)对分子补全模型进行训练,本技术实施例对此不加以限定。
[0304]
示例性地,对于通过从易到难的任务逐步对分子补全模型进行训练的情况,满足目标终止条件还可以是指基于难度最大的任务对分子补全模型训练完毕。示例性地,基于任一难度的任务对分子补全模型训练是指基于该任一难度对应的样本数据(如,与该任一难度匹配的样本化合物分子及其对应的样本待补全分子)对分子补全模型训练。基于任一
难度的任务对分子补全模型训练完毕可以是指在基于该任一难度对应的样本数据对分子补全模型进行训练的过程中,损失达到收敛,或者损失小于某一损失阈值,再或者训练次数达到某一次数阈值等。
[0305]
在示例性实施例中,训练得到目标分子补全模型的过程还可以为先预训练再微调的过程,其中,预训练所依据的样本数据基于任一个无标签的化合物分子数据集中的化合物分子得到,微调所依据的样本数据基于已知的合成反应中的产物分子得到。此种情况下,满足目标终止条件可以是指分子补全模型微调完毕,如,在基于微调所依据的样本数据对分子补全模型进行训练的过程中,损失达到收敛,或者损失小于某一损失阈值,再或者训练次数达到某一次数阈值等。
[0306]
需要说明的是,模型训练过程中所利用的一些常见参数,如,学习率、迭代周期(epoch)以及批次大小(batch size)等均可以根据经验设置,或者根据计算机设备的计算能力、应用场景等灵活调整,本技术实施例对此不加以限定。
[0307]
本技术实施例提供的分子补全模型的训练过程,可以先在一个无标签的大数据集上进行预训练,该操作间接地进行了数据增广,扩充了更多可利用的有效信息,从而能够提高分子补全模型的泛化能力,能够适应更广泛的反应物分子预测场景,从而提高反应物分子的预测可靠性和预测准确性。由于预训练的分子补全任务与反应物分子预测过程中的待补全分子的补全任务非常相关,所以在预训练后,可以在包括已知的合成反应的数据集(如,逆合成数据集)的基础上对分子补全模型进行微调,以使模型会具备更强的泛化能力。示例性地,反应物分子预测过程中的待补全分子的补全任务可以认为是一般性的分子补全任务的一些特例。
[0308]
示例性地,本技术实施例使用基于图表示的分子重构作为自监督学习任务,在方案能够扩展以往的分子自监督学习任务,将“mask and fill”的思想更好的应用到图结构数据领域。将自监督学习策略应用于反应物分子的预测领域,将模型在分子大数据集上进行自监督任务(如分子结构补全)的学习,进而在逆合成数据集进行微调,最终可以通过给定的产物分子直接预测出反应物分子,进而推导合成路径。此种方式训练得到的模型可提升反应物分子的预测能力,突破数据瓶颈,泛化能力更强。此外,本技术实施例可以使用基于流的生成模型实现分子的补全,基于流的生成模型是非自回归的生成模型,可以一次性生成,相比自回归模型生成效率更高,推断速度更快,能够达到相近或更高的预测准确率,并且基于流的生成模型可以给出预测结果的似然函数值,有更好的可解释性。
[0309]
本技术实施例提供的分子补全模型的训练方法,基于样本化合物分子和样本待补全分子对初始分子补全模型进行训练。由于样本待补全分子通过对样本化合物分子中的子结构进行掩码得到,也就是说,分子补全模型的训练过程所依据的数据是在样本化合物分子本身的基础上得到的数据,此种训练过程为一种基于样本化合物分子的自监督训练过程,此种自监督训练过程无需关注样本化合物分子是否为已知的合成反应中的化合物,因而此种自监督训练过程并不会受已知的合成反应的限制,利用该训练过程训练得到的目标分子补全模型的泛化能力较强,有利于扩展适应场景,从而有利于提高反应物分子的预测可靠性和预测准确性。
[0310]
参见图10,本技术实施例提供了一种反应物分子的预测装置,该装置包括:
[0311]
第一获取单元1001,用于获取产物分子;基于产物分子,获取至少一个待补全分
子;
[0312]
补全单元1002,用于调用目标分子补全模型对至少一个待补全分子进行补全,得到至少一个补全结果,基于至少一个补全结果获取产物分子对应的至少一个反应物分子;
[0313]
其中,目标分子补全模型基于样本化合物分子以及样本待补全分子训练得到,样本待补全分子通过对样本化合物分子中的子结构进行掩码得到。
[0314]
在一种可能实现方式中,补全单元1002,用于对于至少一个待补全分子中的任一待补全分子,基于任一待补全分子的原子特征信息,获取任一待补全分子对应的补全后的分子的目标原子特征隐变量;基于任一待补全分子的化学键连接信息,获取任一待补全分子对应的补全后的分子的目标化学键连接隐变量;调用目标分子补全模型对目标化学键连接隐变量进行变换,得到目标化学键连接信息;对目标原子特征隐变量进行变换,得到目标原子特征信息;基于目标化学键连接信息和目标原子特征信息,获取任一待补全分子对应的补全结果。
[0315]
在一种可能实现方式中,第一获取单元1001,用于获取产物分子的图结构信息;基于图结构信息,预测产物分子中的化学键对应的断裂概率,将断裂概率满足参考条件的化学键作为产物分子中的断裂化学键;基于断裂化学键对产物分子进行断键处理,得到至少一个待补全分子。
[0316]
本技术实施例提供的反应物分子的预测装置,反应物分子的预测过程依赖目标分子补全模型实现,目标分子补全模型是基于样本化合物分子和样本待补全分子训练得到的。由于样本待补全分子通过对样本化合物分子中的子结构进行掩码得到,也就是说,目标分子补全模型的训练过程所依据的数据是在样本化合物分子本身的基础上得到的数据,此种训练过程为一种基于样本化合物分子的自监督训练过程,此种自监督训练过程无需关注样本化合物分子是否为已知的合成反应中的化合物,因而此种自监督训练过程并不会受已知的合成反应的限制,利用该训练过程训练得到的目标分子补全模型的泛化能力较强,有利于扩展适应场景,从而有利于提高反应物分子的预测可靠性和预测准确性。
[0317]
参见图11,本技术实施例提供了一种分子补全模型的训练装置,该装置包括:
[0318]
第二获取单元1101,用于获取样本化合物分子以及样本待补全分子,样本待补全分子通过对样本化合物分子中的子结构进行掩码得到;
[0319]
第三获取单元1102,用于基于样本化合物分子、样本待补全分子和初始分子补全模型,获取训练损失;
[0320]
更新单元1103,用于基于训练损失更新初始分子补全模型的模型参数,得到目标分子补全模型。
[0321]
在一种可能实现方式中,第三获取单元1102,用于获取样本化合物分子的样本原子特征信息和样本化学键连接信息;基于样本化合物分子和样本待补全分子之间的差异,获取原子掩码信息和化学键掩码信息;调用初始分子补全模型基于化学键掩码信息对样本化学键连接信息进行逆变换,得到样本化学键连接隐变量;基于原子掩码信息对样本原子特征信息进行逆变换,得到样本原子特征隐变量;基于样本化学键连接隐向量和样本原子特征隐向量,获取训练损失。
[0322]
在一种可能实现方式中,第三获取单元1102,用于调用初始分子补全模型基于化学键掩码信息和样本化学键连接信息,获取样本待补全分子的第一化学键连接信息以及子
结构的第二化学键连接信息;基于第一化学键连接信息对第二化学键连接信息进行逆变换,得到子结构的化学键连接隐变量;基于第一化学键连接信息和子结构的化学键连接隐变量,获取样本化学键连接隐变量。
[0323]
在一种可能实现方式中,第三获取单元1102,用于基于原子掩码信息和样本原子特征信息,获取样本待补全分子的第一原子特征信息以及子结构的第二原子特征信息;基于第一原子特征信息对第二原子特征信息进行逆变换,得到子结构的原子特征隐变量;基于第一原子特征信息和子结构的原子特征隐变量,获取样本原子特征隐变量。
[0324]
在一种可能实现方式中,第三获取单元1102,用于调用初始分子补全模型对样本待补全分子进行补全,基于补全结果得到预测补全分子;基于预测补全分子和样本化合物分子之间的差异,获取训练损失。
[0325]
在一种可能实现方式中,子结构为样本化合物分子中的属于候选结构集的结构,候选结构集为可信程度满足选取条件的结构的集合。
[0326]
本技术实施例提供的分子补全模型的训练装置,基于样本化合物分子和样本待补全分子对初始分子补全模型进行训练。由于样本待补全分子通过对样本化合物分子中的子结构进行掩码得到,也就是说,分子补全模型的训练过程所依据的数据是在样本化合物分子本身的基础上得到的数据,此种训练过程为一种基于样本化合物分子的自监督训练过程,此种自监督训练过程无需关注样本化合物分子是否为已知的合成反应中的化合物,因而此种自监督训练过程并不会受已知的合成反应的限制,利用该训练过程训练得到的目标分子补全模型的泛化能力较强,有利于扩展适应场景,从而有利于提高反应物分子的预测可靠性和预测准确性。
[0327]
需要说明的是,上述实施例提供的装置在实现其功能时,仅以上述各功能单元的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元完成,即将设备的内部结构划分成不同的功能单元,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
[0328]
在示例性实施例中,还提供了一种计算机设备,该计算机设备包括处理器和存储器,该存储器中存储有至少一条计算机程序。该至少一条计算机程序由一个或者一个以上处理器加载并执行,以使该计算机设备实现上述任一种反应物分子的预测方法或分子补全模型的训练方法。该计算机设备可以为服务器,也可以为终端。接下来,对服务器和终端的结构分别进行介绍。
[0329]
图12是本技术实施例提供的一种服务器的结构示意图,该服务器可因配置或性能不同而产生比较大的差异,可以包括一个或多个处理器(central processing units,cpu)1201和一个或多个存储器1202,其中,该一个或多个存储器1202中存储有至少一条计算机程序,该至少一条计算机程序由该一个或多个处理器1201加载并执行,以使该服务器实现上述各个方法实施例提供的反应物分子的预测方法或分子补全模型的训练方法。当然,该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器还可以包括其他用于实现设备功能的部件,在此不做赘述。
[0330]
图13是本技术实施例提供的一种终端的结构示意图。该终端可以是:pc、手机、智能手机、pda、可穿戴设备、ppc、平板电脑、智能车机、智能电视、智能音箱、智能语音交互设
备、智能家电、车载终端、vr设备、ar设备。终端还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
[0331]
通常,终端包括有:处理器1501和存储器1502。
[0332]
处理器1501可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器1501可以采用dsp(digital signal processing,数字信号处理)、fpga(field-programmable gate array,现场可编程门阵列)、pla(programmable logic array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1501也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称cpu(central processing unit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器1501可以集成有gpu(graphics processing unit,图像处理器),gpu用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器1501还可以包括ai(artificial intelligence,人工智能)处理器,该ai处理器用于处理有关机器学习的计算操作。
[0333]
存储器1502可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器1502还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器1502中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器1501所执行,以使该终端实现本技术中方法实施例提供的反应物分子的预测方法或分子补全模型的训练方法。
[0334]
在一些实施例中,终端还可选包括有:外围设备接口1503和至少一个外围设备。处理器1501、存储器1502和外围设备接口1503之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1503相连。具体地,外围设备包括:射频电路1504、显示屏1505、摄像头组件1506、音频电路1507和电源1508中的至少一种。
[0335]
外围设备接口1503可被用于将i/o(input/output,输入/输出)相关的至少一个外围设备连接到处理器1501和存储器1502。在一些实施例中,处理器1501、存储器1502和外围设备接口1503被集成在同一芯片或电路板上;在一些其他实施例中,处理器1501、存储器1502和外围设备接口1503中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
[0336]
射频电路1504用于接收和发射rf(radio frequency,射频)信号,也称电磁信号。射频电路1504通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1504将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路1504包括:天线系统、rf收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等。射频电路1504可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2g、3g、4g及5g)、无线局域网和/或wifi(wireless fidelity,无线保真)网络。在一些实施例中,射频电路1504还可以包括nfc(near field communication,近距离无线通信)有关的电路,本技术对此不加以限定。
[0337]
显示屏1505用于显示ui(user interface,用户界面)。该ui可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1505是触摸显示屏时,显示屏1505还具有采集在显示屏1505的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处
理器1501进行处理。此时,显示屏1505还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏1505可以为一个,设置在终端的前面板;在另一些实施例中,显示屏1505可以为至少两个,分别设置在终端的不同表面或呈折叠设计;在另一些实施例中,显示屏1505可以是柔性显示屏,设置在终端的弯曲表面上或折叠面上。甚至,显示屏1505还可以设置成非矩形的不规则图形,也即异形屏。显示屏1505可以采用lcd(liquid crystal display,液晶显示屏)、oled(organic light-emitting diode,有机发光二极管)等材质制备。
[0338]
摄像头组件1506用于采集图像或视频。可选地,摄像头组件1506包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及vr(virtual reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件1506还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
[0339]
音频电路1507可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器1501进行处理,或者输入至射频电路1504以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1501或射频电路1504的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路1507还可以包括耳机插孔。
[0340]
电源1508用于为终端中的各个组件进行供电。电源1508可以是交流电、直流电、一次性电池或可充电电池。当电源1508包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。
[0341]
在一些实施例中,终端还包括有一个或多个传感器1509。该一个或多个传感器1509包括但不限于:加速度传感器1510、陀螺仪传感器1511、压力传感器1512、光学传感器1513以及接近传感器1514。
[0342]
加速度传感器1510可以检测以终端建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器1510可以用于检测重力加速度在三个坐标轴上的分量。处理器1501可以根据加速度传感器1510采集的重力加速度信号,控制显示屏1505以横向视图或纵向视图进行用户界面的显示。加速度传感器1510还可以用于游戏或者用户的运动数据的采集。
[0343]
陀螺仪传感器1511可以检测终端的机体方向及转动角度,陀螺仪传感器1511可以与加速度传感器1510协同采集用户对终端的3d动作。处理器1501根据陀螺仪传感器1511采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变ui)、拍摄时的图像稳定、游戏控制以及惯性导航。
[0344]
压力传感器1512可以设置在终端的侧边框和/或显示屏1505的下层。当压力传感器1512设置在终端的侧边框时,可以检测用户对终端的握持信号,由处理器1501根据压力
传感器1512采集的握持信号进行左右手识别或快捷操作。当压力传感器1512设置在显示屏1505的下层时,由处理器1501根据用户对显示屏1505的压力操作,实现对ui界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
[0345]
光学传感器1513用于采集环境光强度。在一个实施例中,处理器1501可以根据光学传感器1513采集的环境光强度,控制显示屏1505的显示亮度。具体地,当环境光强度较高时,调高显示屏1505的显示亮度;当环境光强度较低时,调低显示屏1505的显示亮度。在另一个实施例中,处理器1501还可以根据光学传感器1513采集的环境光强度,动态调整摄像头组件1506的拍摄参数。
[0346]
接近传感器1514,也称距离传感器,通常设置在终端的前面板。接近传感器1514用于采集用户与终端的正面之间的距离。在一个实施例中,当接近传感器1514检测到用户与终端的正面之间的距离逐渐变小时,由处理器1501控制显示屏1505从亮屏状态切换为息屏状态;当接近传感器1514检测到用户与终端的正面之间的距离逐渐变大时,由处理器1501控制显示屏1505从息屏状态切换为亮屏状态。
[0347]
本领域技术人员可以理解,图13中示出的结构并不构成对终端的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
[0348]
在示例性实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有至少一条计算机程序,该至少一条计算机程序由计算机设备的处理器加载并执行,以使计算机实现上述任一种反应物分子的预测方法或分子补全模型的训练方法。
[0349]
在一种可能实现方式中,上述计算机可读存储介质可以是只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、只读光盘(compact disc read-only memory,cd-rom)、磁带、软盘和光数据存储设备等。
[0350]
在示例性实施例中,还提供了一种计算机程序产品,该计算机程序产品包括计算机程序或计算机指令,该计算机程序或计算机指令由处理器加载并执行,以使计算机实现上述任一种反应物分子的预测方法或分子补全模型的训练方法。
[0351]
需要说明的是,本技术所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号,均为经用户授权或者经过各方充分授权的,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如,本技术中涉及到的产物分子等是在充分授权的情况下获取的。
[0352]
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
[0353]
以上所述仅为本技术的示例性实施例,并不用以限制本技术,凡在本技术的原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1