一种基于生成对抗网络的氟化液结构预测方法及装置与流程

文档序号:33713722发布日期:2023-04-01 02:31阅读:68来源:国知局
一种基于生成对抗网络的氟化液结构预测方法及装置与流程

1.本发明属于分子结构预测技术领域,具体涉及一种基于生成对抗网络的氟化液结构预测方法及装置。


背景技术:

2.传统空气冷却技术是目前应用最广泛、应用设施最完善的技术,由于空气单位体积热容量低的特性,其最大散热能力仅达37w/cm2,相较于峰值热流密度高达80~200w/cm2的服务器cpu芯片来说,散热能力明显不足。在此背景下,液体冷却技术备受关注。相比于空气冷却,液冷技术,如氟化液,的能力大幅提升。其具有高能效、高可靠、高密度、低门槛、低噪声的明显优势。


技术实现要素:

3.为寻找或发现高性能、满足多需求的散热型氟化液分子结构的问题,在本发明的第一方面提供了一种基于生成对抗网络的氟化液结构预测装置,包括:获取模块,用于获取多个氟化液化合物的分子信息,并根据其构建数据集;所述分子信息包括名称、分子结构、沸点、凝固点、分子量和临界压力;预处理模块,用于将每个氟化液化合物的分子信息编码为第一特征向量;生成对抗网络,用于将多个第一特征向量映射为特征空间,并从特征空间中随机采样,得到一个或多个第二特征向量;以及将第一特征向量和第二特征向量解码为氟化液化合物的分子信息,并判别生成的分子信息是否属于所述数据集;训练模块,用于根据所述数据集和预设损失函数对所述生成对抗网络进行训练,直至所述生成对抗网络的损失函数值达到预设阈值,完成训练;预测模块,用于利用训练完成的生成对抗网络,生成不属于所述数据集的氟化液化合物的分子信息。
4.在本发明的一些实施例中,所述生成对抗网络包括:第一分支网络,用于将多个第一特征向量映射为特征空间,并从特征空间中随机采样,得到一个或多个第二特征向量;以及将第二特征向量解码为氟化液化合物的分子信息,并判别所述分子信息是否属于所述数据集;第二分支网络,用于将第一特征向量解码为氟化液化合物的分子信息,并判别所述分子信息是否属于所述数据集。
5.进一步的,所述第一分支网络包括:编码器,用于将多个第一特征向量映射为特征空间;第一解码器,用于将第一特征向量解码为氟化液化合物的分子信息;判别器,用于判别第一解码器生成的分子信息是否属于所述数据集。
6.进一步的,所述第二分支网络包括:第二解码器,用于从特征空间中随机采样一个或多个第二特征向量,并将每个第二特征向量解码为氟化液化合物的分子信息;判别器,用于判别第二解码器生成的分子信息是否属于所述数据集。
7.进一步的,所述生成对抗网络的损失函数通过如下方法计算:
8.l=α1l
adv
+α2l
recover
-α3l
style

9.其中,l
adv
为第一分支网络的对抗损失,l
recover
为第二分支网络的对抗损失,l
style
表示由第一特征向量生成的分子信息与由第二特征向量分子信息之间的损失,α1、α2、α3为对应损失的权重系数。
10.在上述的实施例中,所述预处理模块将所述分子信息中的分子结构编码为smiles字符串,以及将第一特征向量编码为32维向量。
11.本发明的第二方面,提供了一种基于生成对抗网络的氟化液结构预测方法,包括:获取多个氟化液化合物的分子信息,并根据其构建数据集;所述分子信息包括名称、分子结构、沸点、凝固点、分子量和临界压力;将每个氟化液化合物的分子信息编码为第一特征向量;通过生成对抗网络,将多个第一特征向量映射为特征空间,并从特征空间中随机采样,得到一个或多个第二特征向量;以及将第一特征向量和第二特征向量解码为氟化液化合物的分子信息,并判别生成的分子信息是否属于所述数据集;根据所述数据集和预设损失函数对所述生成对抗网络进行训练,直至所述生成对抗网络的损失函数值达到预设阈值,完成训练;利用训练完成的生成对抗网络,生成不属于所述数据集的氟化液化合物的分子信息。
12.本发明的第三方面,提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明在第二方面提供的基于生成对抗网络的氟化液结构预测方法。
13.本发明的第四方面,提供了一种计算机可读介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现本发明在第二方面提供的基于生成对抗网络的氟化液结构预测方法。
14.本发明的有益效果是:
15.本发明提供的双分支生成对抗网络生成器和鉴别器网络不单独使用smiles字符串作为输入,而是从gan提取特征的隐藏层随机采样n维向量,并融入氟化液分子的性能。这使模型能够专注于优化采样,而不必担心smiles语法问题,并使生成的结构更加稳定。采用了多种损失函数加权求和的方式使gan网络训练更快,解决了生成对抗网络常出现的模式崩溃、梯度消失及梯度震荡不下降等问题,并设计了lstyle loss,使生成的新分子结构各不相同,可防止网络为了达到最低loss仅生成特定结构的问题。本发明采用了新型判别器,鉴别器生成结果不仅仅是是/否的二分类,还会对输入进行性质预测的多通道多维度的向量。使网络同时实现新分子结构生成及其性质预测的功能。
附图说明
16.图1为本发明的一些实施例中的基于生成对抗网络的氟化液结构预测装置的基本结构示意图;
17.图2为本发明的一些实施例中的氟化液化合物的分子信息示意图;
18.图3为本发明的一些实施例中的生成对抗网络的结构原理示意图;
19.图4为本发明的一些实施例中的smiles字符串编码或加码的原理示意图;
20.图5为本发明的一些实施例中的基于生成对抗网络的氟化液结构预测装置预测氟化液结构的原理示意图;
21.图6为本发明的一些实施例中的生成对抗网络与现有生成对抗网络训练效果对比
图;
22.图7为本发明的一些实施例中的氟化液化合物的分子结构示意图之一;
23.图8为本发明的一些实施例中的氟化液化合物的分子结构示意图之二;
24.图9为本发明的一些实施例中的氟化液化合物的分子结构示意图之三;
25.图10为本发明的一些实施例中的基于生成对抗网络的氟化液结构预测方法的具体流程示意图;
26.图11为本发明的一些实施例中的电子设备的结构示意图。
具体实施方式
27.以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
28.参考图1和图5,在本发明的第一方面,提供了一种基于生成对抗网络的氟化液结构预测装置1,包括:获取模块11,用于获取多个氟化液化合物的分子信息,并根据其构建数据集;所述分子信息包括名称、分子结构、沸点、凝固点、分子量和临界压力;预处理模块12,用于将每个氟化液化合物的分子信息编码为第一特征向量;生成对抗网络13,用于将多个第一特征向量映射为特征空间,并从特征空间中随机采样,得到一个或多个第二特征向量;以及将第一特征向量和第二特征向量解码为氟化液化合物的分子信息,并判别生成的分子信息是否属于所述数据集;训练模块14,用于根据所述数据集和预设损失函数对所述生成对抗网络进行训练,直至所述生成对抗网络的损失函数值达到预设阈值,完成训练;预测模块15,用于利用训练完成的生成对抗网络,生成不属于所述数据集的氟化液化合物的分子信息。
29.可以理解,生成对抗网络又称为生成型对抗网络(generative adversarial network,gan),其至少包括一个生成器g(generator)和一个判别器d(discriminator),每个生成器用于根据数据集中的样本生成相应风格或模式的虚拟样本;每个判别器用于判别每个虚拟样本的真实性(是否来源于数据集的真实样本)。
30.在本发明的一些实施例中,获取模块11可由用户输入或获取化合物名字,通过互联网途径收集相关化合物及其性质,以电子表格或其他数据存储格式存储在数据库中;例如,剑桥晶体结构数据库the cambridge crystallographic data centre(ccdc),chemspider、chemsub online等。
31.参考图2,其示出了本公开中涉及氟化液化合物的分子信息一种展示形式,其包括了每个氟化液化合物的名称(代号)、沸点、凝固点、分子量和临界压力、蒸汽压、密度、膨胀系数、比热、介电常数等20个维度的分子信息;可以理解,图中示出的分子信息仅为示意,本领域技术人员为了满足需求的氟化液化合物的分子信息,可以对上述涉及的分子信息进行增删,以获得更优的氟化液化合物的分子结构。
32.参考图4,在本发明的一些实施例中,预处理模块12,用于将每个氟化液化合物的分子信息编码为第一特征向量;具体地,将分子结构编码成网络可以处理的smiles字符串。smiles字符串可与01编码互相映射,完成编码、解码过程。其中smile的编码规则可参考表1;
33.在本发明的一些实施例中,所述生成对抗网络13包括:第一分支网络,用于将多个
第一特征向量映射为特征空间,并从特征空间中随机采样,得到一个或多个第二特征向量;以及将第二特征向量解码为氟化液化合物的分子信息,并判别所述分子信息是否属于所述数据集;第二分支网络,用于将第一特征向量解码为氟化液化合物的分子信息,并判别所述分子信息是否属于所述数据集。
34.参考图3,图中示出了生成对抗网络13的一种形式,其包括了一个encoder、两个编码器(decoder)和一个判别器(discriminator),其中:第一分支网络包括:编码器,用于将多个第一特征向量映射为特征空间;第一解码器(位于图3右下的解码器),用于将第一特征向量解码为氟化液化合物的分子信息;判别器,用于判别第一解码器生成的分子信息是否属于所述数据集。
35.进一步的,所述第二分支网络包括:第二解码器(位于图3中部的解码器),用于从特征空间中随机采样一个或多个第二特征向量,并将每个第二特征向量解码为氟化液化合物的分子信息;判别器,用于判别第二解码器生成的分子信息是否属于所述数据集。
36.具体地,参考图3与图5,编码器用于提取数据集中氟化液分子特征映射到特征空间h,同时氟化液分子所含性能会以特征向量形式融入编码器。对于特征空间h,第一解码器用于还原特征形成原分子,保证特征空间h中包含所需的所有特征。噪声会输入第二解码器,同时从h中随机采样同时输入第二解码器以生成新的分子结构。第二解码器,这样可以保证生成的分子符合氟化液分子特性。随后解码器生成的新分子结构与数据集中的分子同时传入判别器。判别器判定输入为新分子还是原数据集所有分子。当判别器无法判断输入的新分子是否为原数据集中的分子时,第二解码器生成的新分子即为可能的新型氟化液。
37.需要说明的是,每个编码器或解码器通常是由神经网络经过多轮训练完成,因此,本公开的生成对抗网络的训练过程也可理解为多个神经网络通过损失函数达到收敛时的过程。
38.在本公开中采用了多种损失函数加权求和的方式使gan网络训练更快,解决了模式崩溃、梯度消失及梯度震荡不下降等问题。具体地,
39.l=α1l
adv
+α2l
recover
-α3l
style
40.l
adv
为常规的生成对抗网络公式,l
recover
为第一解码器的损失(loss),解码出的分子结构与编码器输入的分子结构一致。l
style
为确保我们构造的新分子结构各不相同。其loss表达式为:l
style
=abs(d(h1)-d(h2)),d(h1)表示从特征空间随机采样结果。当采样结果不同时,第二解码器输出结果需不同,可以预防生成器模式崩溃,即无论网络如何训练,结果相同,以保证loss小。
41.参考图6,其示出了一般gan与本公开中的gan经过多轮训练的损失变化趋势,其中本技术为训练过程中生成器(平滑曲线)loss下降的趋势。横坐标为训练轮数。蓝色为普通生成对抗网络lossadv的训练过程,可看到,蓝线在0.7周围震荡,无法下降,即网络无法学会真实数据的分布,模型欠拟合。黄线为我们提出的gan,可以看到loss平稳下降。训练1万圈,loss下降至0.1左右,已为最佳状态。
42.可以理解,这种方法与以前的gan方法的区别在于,生成器(生成网络)和鉴别器(鉴别网络)不单独使用smiles字符串作为输入,而是从gan提取特征的隐藏层随机采样n维向量,并融入氟化液分子的性能。这使模型能够专注于优化采样,而不必担心smiles语法问题,并使生成的结构更加稳定。
43.参考图7至图9,其示出了利用本公开中的基于生成对抗网络的氟化液结构预测装置1寻找到的3个氟化液化合物的分子结构图,其中:
44.o=c(c(f)(f)c(f)(f)f)c(c(=o)c(f)(f)c(f)(f)f)(c(f)(f)f)c(f)(f)f(图7的分子1);
45.cc(c(=o)c(f)(f)c(f)(f)f)(c(f)(f)f)c(f)(f)c(f)(f)(图8的分子2);
46.o=c(c(f)(f)c(f)(f)f)c(f)(c(f)(f)c(f)(f)f)c(f)(f)c(f)(f)f(图9的分子3);上述3个氟化液的分子性质(信息)如下表:
[0047][0048][0049]
实施例2
[0050]
参考图10,本发明的第二方面,提供了一种基于生成对抗网络的氟化液结构预测方法,包括:s100.获取多个氟化液化合物的分子信息,并根据其构建数据集;所述分子信息包括名称、分子结构、沸点、凝固点、分子量和临界压力;s200.将每个氟化液化合物的分子信息编码为第一特征向量;s300.通过生成对抗网络,将多个第一特征向量映射为特征空间,并从特征空间中随机采样,得到一个或多个第二特征向量;以及将第一特征向量和第二特征向量解码为氟化液化合物的分子信息,并判别生成的分子信息是否属于所述数据集;s400.根据所述数据集和预设损失函数对所述生成对抗网络进行训练,直至所述生成对抗网络的损失函数值达到预设阈值,完成训练;s500.利用训练完成的生成对抗网络,生成不属于所述数据集的氟化液化合物的分子信息。
[0051]
进一步的,在步骤s200中,所述将每个氟化液化合物的分子信息编码为第一特征向量包括:将所述分子信息中的分子结构编码为smiles字符串,以及将第一特征向量编码为32维向量。
[0052]
实施例3
[0053]
参考图11,本发明的第三方面,提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明在第二方面的基于生成对抗网络的氟化液结构预测方法。
[0054]
电子设备500可以包括处理装置(例如中央处理器、图形处理器等)501,其可以根据存储在只读存储器(rom)502中的程序或者从存储装置508加载到随机访问存储器(ram)503中的程序而执行各种适当的动作和处理。在ram503中,还存储有电子设备500操作所需的各种程序和数据。处理装置501、rom 502以及ram 503通过总线504彼此相连。输入/输出(i/o)接口505也连接至总线504。
[0055]
通常以下装置可以连接至i/o接口505:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置506;包括例如液晶显示器(lcd)、扬声器、振动
器等的输出装置507;包括例如硬盘等的存储装置508;以及通信装置509。通信装置509可以允许电子设备500与其他设备进行无线或有线通信以交换数据。虽然图11示出了具有各种装置的电子设备500,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。图11中示出的每个方框可以代表一个装置,也可以根据需要代表多个装置。
[0056]
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置509从网络上被下载和安装,或者从存储装置508被安装,或者从rom502被安装。在该计算机程序被处理装置501执行时,执行本公开的实施例的方法中限定的上述功能。需要说明的是,本公开的实施例所描述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开的实施例中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、rf(射频)等等,或者上述的任意合适的组合。
[0057]
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个计算机程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:
[0058]
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的实施例的操作的计算机程序代码,程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c++、python,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)——连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
[0059]
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用
于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。需要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0060]
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1