获取分子表示数据的方法及分子属性获取方法

文档序号:30576378发布日期:2022-06-29 09:26阅读:209来源:国知局
获取分子表示数据的方法及分子属性获取方法

1.本公开涉及量子物理技术领域,尤其涉及一种获取分子表示数据的方法及分子属性获取方法。


背景技术:

2.可视媒体是承载视觉信息的媒体类型。传统的可视媒体包括图形、图像、视频等形式,随着虚拟现实技术的发展,三维模型也成为了常见的可视媒体类型。无论哪种可视媒体类型,均通过利用视觉这种人类最为倚赖的感知方式,极大限度地提高人们对事物的理解程度,并由此衍生出了多种热门应用,例如自动驾驶、数字孪生等。
3.目前,常见的可视媒体主要针对宏观事物,利用视觉感知信息,进行理解与分析。作为普遍存在人们身边周围的单元,针对分子的可视化研究也日趋火热。由于分子作为微观世界的成员,其体积太小,无法被人眼直接观察到,因此如何将微观的东西变成可视的东西,同时保留微观世界的一些特性,是将微观分子表示为可视模型并在此基础上对其进行理解与分析所需要解决的主要问题。
4.针对分子的表示,目前比较主流的方法包括字符串表示和图表示,特别是后者随着图神经网络的发展,取得了非常显著的成绩。但这些表示均建立在对分子的宏观抽象表示上,是以宏观视角对微观世界的简化,丢失了微观世界的特性,难以准确描述分子在微观世界中的物理形态。
5.有一些工作试图建立分子的三维模型,如rna蛋白质预测或晶体分子预测。前者通常是包含数千原子的大分子,由于其原子数量足够多,对分子进行原子-level的建模就已经足够,无需探索更小尺度例如单个原子的微观物理结构。后者的性质则取决于晶体本身的规则网格结构而非单个分子结构。而针对非晶体小分子构建三维模型,往往缺乏对微观世界的准确表示,而且容易陷入训练过程中依赖大量计算资源的困境。
6.如果能够建立一种微观可视模型,帮助从视觉感知上去理解与分析非晶体小分子的结构信息,提高对非晶体小分子的理解程度,同时避免训练过程中的过大计算资源开销,可以有效提升诸多相关领域的进展,如新药物生成、新材料发现等等。这些领域目前面临着共同的瓶颈,即需要一个用于筛选的现有分子数据库。而在实验室中要构造一个用于特定目标的先导分子是一项困难的任务。通过事先预测备选分子的属性,可以降低对分子数据库的依赖,从而提高构造满足要求分子的效率。


技术实现要素:

7.为了解决上述技术问题中的至少一个,本公开提供了一种基于分子结构信息获取分子表示数据的方法,及分子属性获取方法。
8.根据本公开的一个方面,提供一种基于分子结构信息获取分子表示数据的方法,包括:
9.对于组成分子的各个原子,获取单个原子外层的各个电子轨道结构数据,并生成
基于波函数表示的各个电子轨道结构数据,将所述波函数表示的各个电子轨道结构数据作为原子结构数据;
10.在组成分子的单个原子的体素空间内,将基于波函数表示的各个电子轨道结构数据进行组合,形成基于波函数的原子卷积核,所述基于波函数的原子卷积核反映原子的物理结构;
11.在组成分子的所有原子的整个体素空间内,对构成分子的各个原子,通过各个原子对应的所述基于波函数的原子卷积核进行卷积操作,分子的各个原子经对应的所述基于波函数的原子卷积核卷积操作后,生成基于体素的可视化分子表示数据;
12.其中,所述体素空间,指在三维空间建立坐标系,将分子的几何中心作为原点,通过pca提取坐标系的三个轴方向,将分子旋转至各个轴,空间中原子对应的位置为一个单元,各个单元包含一个向量,向量长度与原子种类对应,且每个向量表示对应的原子种类的周围电子云在所述位置上的概率分布。
13.根据本公开至少一个实施方式的基于分子结构信息获取分子表示数据的方法,所述原子的外层电子轨道数量为两层时,基于波函数表示的各个电子轨道结构数据包括:
[0014][0015][0016]
其中,各个表达式含义如下:
[0017]
r,表示第i层电子轨道的电子p到原子核p0的距离,r的取值为||p,p0||,i取值为1或2;
[0018]
z,表示原子的核电荷数;
[0019]
a0,取值为一个常数。
[0020]
根据本公开至少一个实施方式的基于分子结构信息获取分子表示数据的方法,所述原子的外层电子轨道数量为两层时,所述基于波函数的原子卷积核表示为:
[0021][0022]
其中,各个表达式含义如下:
[0023]
(x,y,z),表示各个原子在体素空间坐标;
[0024]
ψi,波函数形式表示的各个电子轨道,i取值为1或2;
[0025]
l,表示电子层数,l取值为1或2;
[0026]
r,表示第i层电子轨道的电子p到原子核p0的距离。
[0027]
根据本公开至少一个实施方式的基于分子结构信息获取分子表示数据的方法,所述各个原子的基于波函数的原子卷积核进行卷积操作,包括:
[0028][0029]
其中,各个表达式的含义如下:
[0030]
p,表示分子中的原子;
[0031]
δ
x
,δy,δz:分别原子p三个坐标轴方向的偏移量。
[0032]
根据本公开的又一个方面,提供一种分子属性获取方法,包括:
[0033]
将待预测属性的分子通过上述所述方法生成基于体素的可视化分子表示数据;
[0034]
将所述基于体素的可视化分子表示数据输入分子属性预测网络,进行分子属性预测,所述分子属性预测网络经预先训练获得;
[0035]
分子属性预测网络输出所述待预测属性的分子的属性。
[0036]
根据本公开至少一个实施方式的分子属性获取方法,所述分子属性预测网络的组成包括:
[0037]
所述分子属性预测网络基于神经网络组成,包括多个卷积操作层和多个池化操作层;
[0038]
所述分子属性预测网络包括平均通道池化层,所述平均通道池化层使得各个体素在所有通道的平均值作为体素的值;
[0039]
其中,所述通道反应原子在空间的分布情况,所述通道不同时,反应不同原子在空间的分布情况。
[0040]
根据本公开至少一个实施方式的分子属性获取方法,所述分子属性预测网络的训练过程包括:
[0041]
初始化属性预测网络的参数;
[0042]
将数据集划分为训练集、验证集合测试集;
[0043]
将训练集中包括基于体素的可视化分子表示数据及分子属性作为输入,输入至分子属性预测网络进行训练;
[0044]
分别通过验证集、测试集的数据进行验证和测试;
[0045]
通过平均绝对误差评价分子属性预测网络的训练效果,反复训练、验证,直至达到预期训练指标。
[0046]
根据本公开至少一个实施方式的分子属性获取方法,所述基于体素的可视化分子表示数据经过归一化处理,以保证基于体素的可视化分子表示数据的各个原子在输入所述分子属性预测网络时具有统一的尺寸规格。
[0047]
根据本公开至少一个实施方式的分子属性获取方法,所述分子属性预测网络获得的分子属性包括旋转常数、偶极矩、各向同性极化率中的至少一个属性。
[0048]
根据本公开至少一个实施方式的分子属性获取方法,所述基于体素的可视化分子经过扩散策略处理,所述扩散策略中,通过以数字零或其他正整数作为扩散系数对所述分子中的各个原子进行扩散。
附图说明
[0049]
附图示出了本公开的示例性实施方式,并与其说明一起用于解释本公开的原理,其中包括了这些附图以提供对本公开的进一步理解,并且附图包括在本说明书中并构成本说明书的一部分。
[0050]
图1是根据本公开的一个实施方式的基于分子结构信息获取分子表示数据的方法流程示意图。
[0051]
图2根据本公开的一个实施方式的获取分子属性的方法流程示意图。
[0052]
图3是根据本公开的一个实施方式的分子属性预测网络训练方法流程示意图。
[0053]
图4是根据本公开的一个实施方的分子属性预测网络结构示意图。
[0054]
图5是根据本公开的又一个实施方式的分子属性预测网络结构示意图。
[0055]
图6是根据本公开的一个实施方式的基于分子结构信息获取分子表示数据的装置结构示意图。
[0056]
图7是根据本公开的一个实施方式的分子属性获取装置结构示意图。
[0057]
附图标记说明
[0058]
1000 基于分子结构信息获取分子表示数据的装置
[0059]
2000 分子属性获取装置
[0060]
1002 原子结构数据获取模块
[0061]
1004 卷积核生成模块
[0062]
1006 可视化分子表示数据获取模块
[0063]
1008 分子属性预测模块
[0064]
1100 总线
[0065]
1200 处理器
[0066]
1300 存储器
[0067]
1400 其他电路。
具体实施方式
[0068]
下面结合附图和实施方式对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施方式仅用于解释相关内容,而非对本公开的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本公开相关的部分。
[0069]
需要说明的是,在不冲突的情况下,本公开中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本公开的技术方案。
[0070]
除非另有说明,否则示出的示例性实施方式/实施例将被理解为提供可以在实践中实施本公开的技术构思的一些方式的各种细节的示例性特征。因此,除非另有说明,否则在不脱离本公开的技术构思的情况下,各种实施方式/实施例的特征可以另外地组合、分离、互换和/或重新布置。
[0071]
在附图中使用交叉影线和/或阴影通常用于使相邻部件之间的边界变得清晰。如此,除非说明,否则交叉影线或阴影的存在与否均不传达或表示对部件的具体材料、材料性质、尺寸、比例、示出的部件之间的共性和/或部件的任何其它特性、属性、性质等的任何偏好或者要求。此外,在附图中,为了清楚和/或描述性的目的,可以夸大部件的尺寸和相对尺寸。当可以不同地实施示例性实施例时,可以以不同于所描述的顺序来执行具体的工艺顺序。例如,可以基本同时执行或者以与所描述的顺序相反的顺序执行两个连续描述的工艺。此外,同样的附图标记表示同样的部件。
[0072]
当一个部件被称作“在”另一部件“上”或“之上”、“连接到”或“结合到”另一部件时,该部件可以直接在所述另一部件上、直接连接到或直接结合到所述另一部件,或者可以存在中间部件。然而,当部件被称作“直接在”另一部件“上“、“直接连接到”或“直接结合到”另一部件时,不存在中间部件。为此,术语“连接”可以指物理连接、电气连接等,并且具有或不具有中间部件。
[0073]
本实施方式使用的术语是为了描述具体实施例的目的,而不意图是限制性的。如这里所使用的,除非上下文另外清楚地指出,否则单数形式“一个(种、者)”和“所述(该)”也意图包括复数形式。此外,当在本说明书中使用术语“包含”和/或“包括”以及它们的变型时,说明存在所陈述的特征、整体、步骤、操作、部件、组件和/或它们的组,但不排除存在或附加一个或更多个其它特征、整体、步骤、操作、部件、组件和/或它们的组。还要注意的是,如这里使用的,术语“基本上”、“大约”和其它类似的术语被用作近似术语而不用作程度术语,如此,它们被用来解释本领域普通技术人员将认识到的测量值、计算值和/或提供的值的固有偏差。
[0074]
图1是根据本公开的一个实施方式的基于分子结构信息获取分子表示数据的方法流程示意图。
[0075]
如图1所示,基于分子结构信息获取分子表示数据的方法s100,包括以下步骤。
[0076]
在步骤s102中,对于组成分子的各个原子,获取单个原子外层的各个电子轨道结构数据,并生成基于波函数表示的各个电子轨道结构数据,将波函数表示的各个电子轨道结构数据作为原子结构数据。原子的外层电子轨道数量为两层时,基于波函数表示的各个电子轨道结构数据包括:
[0077][0078][0079]
其中,各个表达式含义如下:r,表示第i层电子轨道的电子p到原子核p0的距离,r的取值为||p,p0||,i取值为1或2;z,表示原子的核电荷数;a0,取值为一个常数。该波函数体现了电子轨道的性质,内层轨道较窄,外层轨道较宽。另外,该波函数还体现了随着核电荷数的增长,对各层电子轨道所造成的衰减(shrinking)效果。在本实施方式中,对于2层内的原子的数据,可以使用的qm9数据集中只包含5种原子类型:h、c、n、o、f,这些原子类型的电子轨道均不超过两层。
[0080]
在步骤s104中,在组成分子的单个原子的体素空间内,将基于波函数表示的各个电子轨道结构数据进行组合,形成基于波函数的原子卷积核,基于波函数的原子卷积核反映原子的物理结构。原子的外层电子轨道数量为两层时,基于波函数的原子卷积核表示为:
[0081][0082]
其中,各个表达式含义如下:(x,y,z),表示各个原子在体素空间坐标;ψi,波函数形式表示的各个电子轨道,i取值为1或2;l,表示电子层数,l取值为1或2;r,表示第i层电子轨道的电子p到原子核p0的距离。该基于波函数的原子卷积核(kernel)反映了原子的物理结构,这是通过同时考虑到了电子和核电荷数的影响来实现的。
[0083]
在步骤s106中,在组成分子的所有原子的整个体素空间内,对构成分子的各个原子,通过各个原子对应的基于波函数的原子卷积核进行卷积操作,分子的各个原子经对应的基于波函数的原子卷积核卷积操作后,生成基于体素的可视化分子表示数据。其中,体素空间,指在三维空间建立坐标系,将分子的几何中心作为原点,通过pca提取坐标系的三个
轴方向,将分子旋转至各个轴,空间中原子对应的位置为一个单元,各个单元包含一个向量,向量长度与原子种类对应,且每个向量表示对应的原子种类的周围电子云在位置上的概率分布。具体实施中,各个原子的基于波函数的原子卷积核进行卷积操作,包括:
[0084][0085]
其中,各个表达式的含义如下:p,表示分子中的原子;p(x,y,z),表示原子p在3d空间坐标系的位置;δ
x
,δy,δz:分别原子p三个坐标轴方向的偏移量。
[0086]
根据量子物理理论,原子作为分子的组成部分,其自身包含位于中心的原子核p0,和围绕原子核运动的若干电子。其中,原子核的体积很小,相比原子可以忽略。电子在原子核外按照不同的能级分布在不同的轨道之中,在原子核周围形成一个球形区域,称之为电子云,电子云的疏密程度表示电子在不同区域出现的概率。当使用一个点来表述原子时,往往指的是原子核位置,或者说是原子中心位置。而实际上对于分子而言,本质上是不同原子中的电子的运动状态发生了改变形成了化学键,从而组合成一个分子,因此,通过表示原子内电子的分布情况可以更好的反映分子内原子之间的相互关系。原子所对应的球形区域,也就是电子云的弥漫范围,其半径主要由两个因素影响:电子层数和核电荷数。一般来说,电子层数越多,核电荷数越小,原子半径越大,也就是电子弥漫的范围越大。
[0087]
通过本实施方式的基于分子结构信息获取分子表示数据的方法获取的分子表示数据,具有以下技术优势。本实施方式获取的分子表示数据,显著改善了分子表示的效果,更好地模拟了原子物理模型。本实施方式的波函数的原子卷积核(wave transform kernel)反应了不同原子的电子层数和核电荷数对原子半径的影响。而逐通道的卷积操作(convolution operation)有效地编码了多个相同类型原子在同一个体素中的干涉关系。该模型通过建模核电荷数与电子层数对原子半径的影响,不仅表达了不同原子类型之间的区别,而且一定程度上反应了原子之间的相互关系,所以能够获得对于分子的更准确表示。
[0088]
图5是,新模型显著改善了分子表示的效果,通过更好地模拟了原子物理模型。其中,波函数的原子卷积核(wave transform kernel)反应了不同原子的电子层数和核电荷数对原子半径的影响。而逐通道的卷积操作(convolution operation)有效地编码了多个相同类型原子在同一个体素中的干涉关系。该模型通过建模核电荷数与电子层数对原子半径的影响,不仅表达了不同原子类型之间的区别,而且一定程度上反应了原子之间的相互关系,所以能够获得对于分子的更准确表示。
[0089]
图2是根据本公开至少一个实施方式的分子属性获取方法流程示意图。
[0090]
如图2所示,分子属性获取方法s200,包括以下步骤。
[0091]
在步骤s202中,将待预测属性的分子通过上述方法生成基于体素的可视化分子表示数据。
[0092]
在步骤s204中,将基于体素的可视化分子表示数据输入分子属性预测网络,进行分子属性预测,分子属性预测网络经预先训练获得。
[0093]
在步骤s206中,分子属性预测网络输出待预测属性的分子的属性,分子的属性包括多个。本实施方式中,分子属性预测网络获得的分子属性包括旋转常数、偶极矩、各向同性极化率中的至少一个属性。
[0094]
图3是根据本公开的一个实施方式的分子属性预测网络训练方法流程示意图。
[0095]
如图3所示,分子属性预测网络的训练方法s300,包括以下步骤。
[0096]
在步骤s302中,初始化属性预测网络的参数。本实施方式中,均采用批量训练的方法,每一批包含8个分子的属性数据。学习速率设置为1e-2,使用adadelta优化算法对模型进行训练,使用batch normalization和dropout(dropout ratio=0.5)防止过拟合。
[0097]
在步骤s304中,将数据集划分为训练集、验证集合测试集。本实施方式中,使用qm9数据集进行训练,该数据集包含133885个分子的几何信息和其物理属性。本实施方式针对数据集中每个分子的15个属性进行预测,属性包括分子的旋转常数、偶极矩、各向同性极化率等。数据集按照8:1:1的比例划分为训练集、验证集和测试集。由于属性之间范围不同且正负不定,使用反正切运算对全部属性值进行归一化处理。
[0098]
在步骤s306中,将训练集中包括基于体素的可视化分子表示数据及分子属性作为输入,输入至分子属性预测网络进行训练。
[0099]
在步骤s308中,分别通过验证集、测试集的数据进行验证和测试,验证集和测试集中分别包括基于体素的可视化分子表示数据及分子属性。
[0100]
在步骤s310中,通过平均绝对误差评价分子属性预测网络的训练效果,反复训练、验证和测试,直至达到预期训练指标。在本实施方式中,以分子属性预测结果作为评价目标,在分子属性预测网络所输出的1024-dim向量的基础上,再使用一个包含15个结点的全连接层作为输出层,每个结点输出针对一个属性的回归结果。使用平均绝对误差(mae)作为网络性能的评价指标。
[0101]
本实施方式中,训练运行的机器软件和硬件系统型号如下:centos 7withcpu e5-2620v4@2.10ghz,2nvidia geforce gtx 1080ti gpus(22gb memory in total)。
[0102]
在上述步骤s306中,基于体素的可视化分子表示数据还可以经过归一化处理,以保证基于体素的可视化分子表示数据的各个原子在输入分子属性预测网络时具有统一的尺寸规格。本实施方式中,对比使用不同的norm策略对分子体素进行处理之后对分子属性预测任务的影响。由于数据集中分子的大小和形状各不相同,占据的体素空间大小也不同,需要对不同分子的体素进行一个归一化处理,来保证每个原子在输入进网络之前统一成一样的尺寸。第一种策略从体素角度出发,针对所占空间不及标准大小一半的体素,将分子扩大成两倍,然后再进行补0填充。第二种策略直接将分子体素填充成标准输入大小,不对分子进行缩放操作。第三种策略从分子角度出发,先将分子缩放至标准大小,然后进行体素划分以及相应维度上的补0。实验结果如表二所示。
[0103]
表二:不同归一化策略验证结果
[0104]
norm策略train maevalid maetime(s)10.12996520.130725710.97920.12984420.13021369.04730.12998100.130910710.977
[0105]
从表二实验结果可以看出,对分子进行缩放会损失一部分准确度。这是由于分子的大小以及原子之间的距离对于其属性一定的影响,缩放会弱化分子尺寸所携带的部分信息。同时norm策略也会影响diffusion的效果,会导致部分信息超出边界而丢失。
[0106]
在上述步骤s306中,基于体素的可视化分子还可以经过扩散策略处理,扩散策略
中,通过以数字零或其他正整数作为扩散系数对分子中的各个原子进行扩散。在本实施方式中,首先比较当使用不同的原子扩散策略来表示原子所弥漫的范围时,对于分子属性预测任务的影响。在该实验中,共使用五种不同的原子扩散策略。其中,第一种策略不对原子进行任何扩散,也就是每个原子只占据其中心所在的体素。对于使用高斯平滑扩散的情况,将扩散系数设为1和4,以比较其不同效果。此外,还比较了另外一种扩散方法,该方法同样对用于原子扩散的高斯卷积核进行了修改,但其所使用的新的核函数未能有效体现原子的空间结构特性。实验结果如表一所示。
[0107]
表一:不同扩散方法验证结果
[0108][0109][0110]
本实施方式中,随机选取了数个分子,并使用不同的扩散策略来获取其分子在三维空间中的形态。从实验结果可以发现,使用不同扩散参数的高斯平滑扩散和acs17扩散的mae相当。即对于分子表示来说,原子扩散是连续信息。在不改变原子的空间结构情况下,简单调节扩散系数并不能提高对其进行各项任务的精度。
[0111]
图5是根据本公开的一个实施方式的分子属性预测网络结构示意图。
[0112]
如图5所示,分子属性预测网络的组成包括以下各个部分。
[0113]
分子属性预测网络基于神经网络组成,包括多个卷积操作层和多个池化操作层。平均通道池化层,平均通道池化层使得各个体素在所有通道的平均值作为体素的值。通道反应原子在空间的分布情况,通道不同时,反应不同原子在空间的分布情况。
[0114]
图4和图5是根据本公开的至少一个实施方式的分子属性预测网络结构示意图。如图4所示,a网络结构示意图。图如5所示,b网络结构示意图。a网络、b网络分别包含多个卷积层和多个池化层。另外,b网络还具有acp层(平均通道池化层),所述平均通道池化层使得各个体素在所有通道的平均值作为体素的值
[0115]
本实施方式中,选取a网络、b网络、voxelnet及vismola+b作为分子属性预测网络结构,通过将分子进行归一化处理、扩散处理,对比在不同网络下的分子
[0116]
本实施方式中,选取了schnet以及acs17中的方法作为对比试验,前者是比较成熟的图结构网络,对比不同表示方法对于分子属性预测的影响,后者是基于体素的三维卷积网络,使用修改的高斯卷积核对分子进行扩散,通过连续的卷积层提取特征。另外本实施方式对提出的两个网络进行了对比实验,用来比较空间与电子属性对属性预测的影响。本实施方式还将两个网络进行了合并尝试,从两方面共同影响分子属性预测结果。
[0117]
网络train maevalid maetrain time(s)voxelnet0.12785530.128198620.634vismol a0.12984420.13021369.356
vismol b0.13027920.13102728.084vismol a+b0.13224490.132412328.270
[0118]
从实验结果可以看出,vismol与voxelnet相比,通过depthwise convolution(深度卷积)减少了参数量,从而缩短了训练时间,同时在准确度上并没有损失太多。通过对比本实施方式提出的两个网络,证明了从电子角度处理分子体素的有效性。
[0119]
实验1和实验2均使用a网络。
[0120]
实验1、不同的扩散(diffusion,本公开其他部分简写diff,所指相同)策略,中心点不扩散、高斯1、高斯4、wave、vismol。
[0121]
第一组:每个原子占据一个体素。
[0122]
第二组:对每个原子进行高斯1扩散至多个体素。
[0123]
第三组:对每个原子进行高斯4扩散至多个体素。
[0124]
第四组:对每个原子进行wave扩散至多个体素。
[0125]
第五组:对每个原子进行vismol扩散至多个体素。
[0126]
上述实验1可知:第一、不同扩散(diffusion)策略的对分子属性预测精度不同。第二、不同扩散策略对于属性预测任务的影响不同。
[0127]
实验2、不同的norm策略,对于体积不同的分子,如何构造32x32x32的输入。
[0128]
第一组:进一步细分每个voxel,再选取32x32x32作为输入。
[0129]
例1:分子占据原空间15x13x9,则将原来尺寸0.1a的voxel进一步分为0.05a,则分子占据空间变为30x26x18,然后填充至32x32x32。
[0130]
例2:分子占据原空间16x24x8,填充至32x32x32。
[0131]
第二组:直接填充至32x32x32。
[0132]
例1:分子占据原空间15x13x9,则直接填充至32x32x32。
[0133]
例2:分子占据原空间16x24x8,填充至32x32x32。
[0134]
第三组:根据三个维度计算新的尺寸,并重新划分体素。
[0135]
例1:分子占据原空间15x13x9,x轴最长,则计算新的尺寸为l=1a*15/32=0.47a,按照0.047a划分体素,分子占据空间变为32x28x20,然后填充至32x32x32。
[0136]
例2:分子占据原空间16x24x8,y轴最长,则计算新的尺寸为l=1a*24/32=0.75a,按照0.075a划分体素,分子占据空间变为22x32x11,然后填充至32x32x32。
[0137]
从上述各组实验2可知:第一、不同归一化(norm)策略的分子属性预测精度不同。第二、不同norm策略的训练速度不同。第三、用于填充的补零数量3《1《2,过多的补零可能影响收敛速度,使得训练轮数增加,但猜测2的精度最好,因为2不改变分子的缩放比例。
[0138]
实验3,属性预测结果,可以与经典ml,voxelnet,不同参数、策略的3d-lenet网络进行对比。
[0139]
第一组:采用经典ml回归方法。
[0140]
第二组:采用vxoelnet(即现有技术acs17方法)使用连续的三维卷积提取特征。
[0141]
第三组:第五组diff+第一组cellsize+第二组norm+a网络。
[0142]
第四组:第三组方法+b网络。
[0143]
第五组:第三组方法+a+b网络。
[0144]
从上述实验3可知:给出不同方法的属性预测精度。不同方法的训练速度。分析:预
期3的精度好于4,以证明对分子中电子分布进行学习的有效性;b网络的有效性;a与b网络的组合方式有待未来探索。
[0145]
图6是根据本公开的一个实施方式的基于分子结构信息获取分子表示数据的装置结构示意图。
[0146]
如图6所示,基于分子结构信息获取分子表示数据的装置1000包括以下组成部分。
[0147]
原子结构数据获取模块1002,对于组成分子的各个原子,获取单个原子外层的各个电子轨道结构数据,并生成基于波函数表示的各个电子轨道结构数据,将波函数表示的各个电子轨道结构数据作为原子结构数据。
[0148]
卷积核生成模块1004,在组成分子的单个原子的体素空间内,将基于波函数表示的各个电子轨道结构数据进行组合,形成基于波函数的原子卷积核,基于波函数的原子卷积核反映原子的物理结构。
[0149]
可视化分子表示数据获取模块1006,在组成分子的所有原子的整个体素空间内,对构成分子的各个原子,通过各个原子对应的基于波函数的原子卷积核进行卷积操作,分子的各个原子经对应的基于波函数的原子卷积核卷积操作后,生成基于体素的可视化分子表示数据。
[0150]
需要说明的是,本装置的实施方式中,各个模块的具体实施细节与本公开提供的基于分子结构信息获取分子表示数据的方法一致,此处不再赘述。
[0151]
图7是根据本公开的一个实施方式的分子属性获取装置结构示意图。
[0152]
如图7所示,分子属性获取装置2000包括以下组成部分。
[0153]
原子结构数据获取模块1002,卷积核生成模块1004,可视化分子表示数据获取模块1006,以及分子属性预测模块1008。分子属性预测模块1008接收可视化分子表示数据获取模块1006生成的基于分子结构信息获取分子表示数据,输出分子属性。原子结构数据获取模块1002,卷积核生成模块1004,可视化分子表示数据获取模块1006图6中一致,此处不再赘述。另外,本装置各个模块的实施细节,与对应的方法一致,此处不再赘述。
[0154]
图6至图7示出了采用处理系统的硬件实现方式的装置示例图。该装置可以包括执行上述流程图中各个或几个步骤的相应模块。因此,可以由相应模块执行上述流程图中的每个步骤或几个步骤,并且该装置可以包括这些模块中的一个或多个模块。模块可以是专门被配置为执行相应步骤的一个或多个硬件模块、或者由被配置为执行相应步骤的处理器来实现、或者存储在计算机可读介质内用于由处理器来实现、或者通过某种组合来实现。
[0155]
该硬件结构可以利用总线架构来实现。总线架构可以包括任何数量的互连总线和桥接器,这取决于硬件的特定应用和总体设计约束。总线1100将包括一个或多个处理器1200、存储器1300和/或硬件模块的各种电路连接到一起。总线1100还可以将诸如外围设备、电压调节器、功率管理电路、外部天线等的各种其他电路1400连接。
[0156]
总线1100可以是工业标准体系结构(isa,industry standard architecture)总线、外部设备互连(pci,peripheral component)总线或扩展工业标准体系结构(eisa,extended industry standard component)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,该图中仅用一条连接线表示,但并不表示仅有一根总线或一种类型的总线。
[0157]
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括
一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本公开的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本公开的实施方式所属技术领域的技术人员所理解。处理器执行上文所描述的各个方法和处理。例如,本公开中的方法实施方式可以被实现为软件程序,其被有形地包含于机器可读介质,例如存储器。在一些实施方式中,软件程序的部分或者全部可以经由存储器和/或通信接口而被载入和/或安装。当软件程序加载到存储器并由处理器执行时,可以执行上文描述的方法中的一个或多个步骤。备选地,在其他实施方式中,处理器可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行上述方法之一。
[0158]
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,可以具体实现在任何可读存储介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。
[0159]
就本说明书而言,“可读存储介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。可读存储介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(ram),只读存储器(rom),可擦除可编辑只读存储器(eprom或闪速存储器),光纤装置,以及便携式只读存储器(cdrom)。另外,可读存储介质甚至可以是可在其上打印程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序,然后将其存储在存储器中。
[0160]
应当理解,本公开的各部分可以用硬件、软件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。
[0161]
本技术领域的普通技术人员可以理解实现上述实施方式方法的全部或部分步骤是可以通过程序来指令相关的硬件完成,的程序可以存储于一种可读存储介质中,该程序在执行时,包括方法实施方式的步骤之一或其组合。
[0162]
此外,在本公开各个实施方式中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个可读存储介质中。存储介质可以是只读存储器,磁盘或光盘等。
[0163]
在本说明书的描述中,参考术语“一个实施方式/方式”、“一些实施方式/方式”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施方式/方式或示例描述的具体特征、结构、材料或者特点包含于本技术的至少一个实施方式/方式或示例中。在本说明书中,对上述术语的示意性表述不必须的是相同的实施方式/方式或示例。而且,描述的具体
特征、结构、材料或者特点可以在任一个或多个实施方式/方式或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施方式/方式或示例以及不同实施方式/方式或示例的特征进行结合和组合。
[0164]
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本技术的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
[0165]
本领域的技术人员应当理解,上述实施方式仅仅是为了清楚地说明本公开,而并非是对本公开的范围进行限定。对于所属领域的技术人员而言,在上述公开的基础上还可以做出其它变化或变型,并且这些变化或变型仍处于本公开的范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1