分子特征的提取及三维定量构效关系的计算方法及装置与流程

文档序号:23546512发布日期:2021-01-05 21:00阅读:238来源:国知局
分子特征的提取及三维定量构效关系的计算方法及装置与流程

本发明涉及数据处理领域,具体涉及一种分子特征的提取及三维定量构效关系的计算方法及装置。



背景技术:

定量构效关系(qsar),是使用某种数学模型来描述分子结构与某种分子的生物活性之间的关系。qsar的基本假设是分子的结构信息包含了与其物理、化学及生物等性质相关的信息,而再通过这些理化性质进而决定该化合物的生物活性。因此化合物的分子结构信息与生物活性也有一定程度的相关。具体的,二维定量构效关系(2dqsar)有hansch方法、free-wilson方法。基于分子构象的进行qsar预测的称为三维定量构效关系(下文称3d-qsar)。

现有技术中有根据分子化合物的smiles编码及其原子坐标,确定分子化合物的qsar的拟合值;也有将分子表达为图结构,并经由图卷积神经网络(gcn)提取特征矩阵;但是上述方法只能根据大量的分子二维坐标对神经网络进行训练,导致提取出的分子特征表达分子的结构信息较为片面。



技术实现要素:

因此,本发明要解决的技术问题在于克服现有技术中的提取出的分子特征表达分子的结构信息较为片面的缺陷,从而提供一种分子特征的提取及三维定量构效关系的计算方法及装置。

根据第一方面,本发明实施例提供了一种分子特征的提取方法,包括:获取分子的第一特征矩阵,所述第一特征矩阵用以表征所述分子的初始特征维度以及原子数目;根据所述第一特征矩阵以及预设图卷积神经网络模型,生成所述分子的第二特征矩阵;所述第二特征矩阵用以表征所述分子的第一特征维度以及原子数目;根据预设正方体像素模型以及所述第二特征矩阵,生成第三特征矩阵,所述第三特征矩阵用以表征所述分子中各原子在空间坐标系的坐标信息以及第一特征维度;根据所述第三特征矩阵以及预设三维图卷积神经网络模型,生成第四特征矩阵,所述第四特征矩阵用以表征所述分子中各原子在空间坐标系的坐标信息以及第二特征维度;根据所述第三特征矩阵以及所述第四特征矩阵,计算生成用以表征所述分子特征的第五特征矩阵;或根据所述第四特征矩阵,计算生成用以表征所述分子特征的第五特征矩阵。

结合第一方面第一实施方式,在第一方面第一实施方式中,所述获取分子的第一特征矩阵,具体包括:获取分子中的多个原子及原子数目;根据预设编码方式将各原子编码,生成各原子对应的编码向量;根据各编码向量,确定分子的初始特征维度;根据所述原子数目以及初始特征维度,确定所述分子的第一特征矩阵。

结合第一方面,在第一方面第二实施方式中,所述根据预设正方体像素模型以及所述第二特征矩阵,生成第三特征矩阵的步骤中,包括:将所述预设正方体像素模型划分为多个三维像素;当所述原子在所述三维像素的中心时,将所述原子填充至所述三维像素,并确定所述原子在空间坐标系的坐标信息。

结合第一方面,在第一方面第三实施方式中,该方法还包括:根据第一维度参数确定所述第一特征维度,根据第二维度参数确定第二特征维度。

根据第二方面,本发明实施例提供了一种分子三维定量构效关系的计算方法,包括:获取分子的计算层次参数;根据所述计算层次参数确定分子的目标特征矩阵,所述目标特征矩阵是通过多个计算单元生成的,所述计算单元用于执行如第一方面或第一方面任一实施方式所述的分子特征的提取方法;根据预设的全联接层函数,将所述目标特征矩阵转换为一维特征矩阵;根据所述一维特征矩阵,计算生成所述分子的三维定量构效关系值。

根据第三方面,本发明实施例提供了一种分子特征的提取装置,包括:第一特征矩阵获取模块,用于获取分子的第一特征矩阵,所述第一特征矩阵用以表征所述分子的初始特征维度以及原子数目;第二特征矩阵获取模块,用于根据所述第一特征矩阵以及预设图卷积神经网络模型,生成所述分子的第二特征矩阵;所述第二特征矩阵用以表征所述分子的第一特征维度以及原子数目;第三特征矩阵获取模块,用于根据预设正方体像素模型以及所述第二特征矩阵,生成第三特征矩阵,所述第三特征矩阵用以表征所述分子中各原子在空间坐标系的坐标信息以及第一特征维度;第四特征矩阵获取模块,用于根据所述第三特征矩阵以及预设三维图卷积神经网络模型,生成第四特征矩阵,所述第四特征矩阵用以表征所述分子中各原子在空间坐标系的坐标信息以及第二特征维度;第五特征矩阵获取模块,用于根据所述第三特征矩阵以及所述第四特征矩阵,计算生成用以表征所述分子特征的第五特征矩阵;或根据所述第四特征矩阵,计算生成用以表征所述分子特征的第五特征矩阵。

根据第四方面,本发明实施例提供了一种分子三维定量构效关系的计算装置,包括:计算层次参数获取模块,用于获取分子的计算层次参数;目标特征矩阵确定模块,用于根据所述计算层次参数确定分子的目标特征矩阵,所述目标特征矩阵是通过多个计算单元生成的,所述计算单元用于执行第一方面或第一方面任一实施方式所述的分子特征的提取方法;转换模块,用于根据预设的全联接层函数,将所述目标特征矩阵转换为一维特征矩阵;计算模块,用于根据所述一维特征矩阵,计算生成所述分子的三维定量构效关系值。

根据第五方面,本发明实施例提供了一种计算机设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行如第一方面或第一方面任一实施方式所述的分子特征的提取方法的步骤或者第二方面所述的分子三维定量构效关系的计算方法的步骤。

根据第六方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面或第一方面任一实施方式所述的分子特征的提取方法的步骤或者第二方面所述的分子三维定量构效关系的计算方法的步骤。

本发明技术方案,具有如下优点:

本发明提供了一种分子特征的提取及三维定量构效关系的计算方法及装置,其中,该分子特征的提取方法包括:获取分子的第一特征矩阵;根据第一特征矩阵以及预设图卷积神经网络模型,生成分子的第二特征矩阵;根据预设正方体像素模型以及第二特征矩阵,生成第三特征矩阵;根据第三特征矩阵以及预设三维图卷积神经网络模型,生成第四特征矩阵;根据第三特征矩阵以及第四特征矩阵,计算生成用以表征分子特征的第五特征矩阵;或根据第四特征矩阵,计算生成用以表征分子特征的第五特征矩阵。通过实施本发明,解决了现有技术中存在的只能根据分子二维坐标对神经网络进行训练,导致提取出的分子特征较为片面的问题,可以使用表征分子键的连接关系的三维图结构直接训练神经网络模型,且需要的数据量较少,可以全面的表征分子的结构信息。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例中分子特征的提取方法的一个具体示例的流程图;

图2为本发明实施例中分子特征的提取方法的计算第五特征矩阵的一个流程图;

图3为本发明实施例中分子特征的提取方法的计算第五特征矩阵的另一个流程图;

图4为本发明实施例中分子三维定量构效关系的计算方法的一个具体示例的流程图;

图5为本发明实施例中分子三维定量构效关系的计算方法的另一个具体示例的流程图;

图6为本发明实施例中分子三维定量构效关系的计算方法中计算单元的示意图;

图7为本发明实施例中分子特征的提取装置的一个具体示例的原理框图;

图8为本发明实施例中分子三维定量构效关系的计算装置的一个具体示例的原理框图;

图9为本发明实施例中计算机设备的一个具体示例图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。

在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,还可以是两个元件内部的连通,可以是无线连接,也可以是有线连接。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。

此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

现有的相关技术中,可以通过计算不同的探针分子与化合物之间的相互作用,并根据上述相互作用在不同位置坐标的能量值,获得分子场数据。继而基于计算力场、几何形状等统计量,比较确定qsar预测值。

而随着科技的发展,在当前算力得到释放的情况下,统计学建模思想可以与计算机行业中的深度学习进行融合,并应用于图像、语音、语言、控制等领域。进一步地,由于小分子化合物独特的结构表达方式,因此可以将深度学习应用于计算机辅助药物设计领域,基于上述背景,本发明提供了一种分子特征的提取及三维定量构效关系的计算方法及装置,目的是通过数据拟合,全面地提取小分子结构中的信息,并将上述信息应用于活性预测、结构预测以及分子的3d-qsar预测等各方面。

本发明实施例提供了一种分子特征的提取方法,如图1所示,该方法包括:

步骤s11:获取分子的第一特征矩阵,所述第一特征矩阵用以表征所述分子的初始特征维度以及原子数目;在本实施例中,分子的第一特征矩阵可以例如是[n,mi],其中,n为分子中各原子数目,上述各原子可以例如是c、n、o、f、p、s、cl、br、i,mi可以是分子的初始特征维度,上述初始特征维度确定过程可以是:当以one-hot编码方式对分子进行编码时,可以将分子中的c原子,编码为[1,0,0,0,0,0,0,0,0];n原子编码为[0,1,0,0,0,0,0,0,0];i原子编码为[0,0,0,0,0,0,0,0,1]。此时,c原子、n原子以及i原子对应的小分子化合物的特征维度可以是9,也就是说,初始特征维度可以是9。

其次,根据第一特征矩阵以及预设图卷积神经网络模型,生成分子的第二特征矩阵。在本实施例中,根据生成的第一特征矩阵将小分子化合物输入至预设图卷积神经网络模型(gcn),生成第二特征矩阵[n,mo],上述模型是可以根据小分子化合物的初始二维结构进行训练的模型。

步骤s12:根据第一特征矩阵以及预设图卷积神经网络模型,生成分子的第二特征矩阵;第二特征矩阵用以表征所述分子的第一特征维度以及原子数目。

在本实施例中,分子可以是任意小分子化合物;分子的第二特征矩阵可以是根据原始的小分子化合物经过图卷积神经网络模型训练后的特征矩阵,第二特征矩阵的形状可以例如是[n,mo],其中,n可以表示小分子化合物中的各原子数目,小分子中会包含多种原子,例如,c、n、o、f、p、s、cl、br、i,n就可以表示上述各原子的数量;m可以表示小分子化合物的特征维度,mo可以表示第一特征维度;当以one-hot编码方式对小分子进行编码时,生成的编码向量的长度即为特征维度。在通过图卷积神经网络模型训练小分子化合物时,此时对应的编码向量的长度可以根据用户输入的第一维度参数确定,也就是说,第二特征矩阵中的第一特征维度可以例如是根据用户输入的第一维度参数确定。

步骤s13:根据预设正方体像素模型以及第二特征矩阵,生成第三特征矩阵,第三特征矩阵用以表征分子中各原子在空间坐标系的坐标信息以及第一特征维度。

在本实施例中,预设正方体像素模型可以是长宽高均为的正方体,所述正方体可以被切分成p*p*p的三维像素;例如,可以是长宽高均为的正方体,所述正方体可以被切分成32*32*32的三维像素,此时,对应的每一像素点的分辨率即为根据只具备二维结构的小分子化合物,也就是小分子的第二特征矩阵,通过3d采样以及mmff优化,对小分子进行三维空间内的采样后,生成对应小分子的三维构象信息。

具体地,当小分子经过三维空间采样后,会被限制于上述长宽高均为的正方体中,此时小分子的三维构象信息就是上述正方体模型。当确定小分子中某原子中心在上述正方体的任意像素点内,对应像素点填充对应原子的特征信息,继而根据正方体的结构信息,确定对应原子在空间坐标系内的坐标信息,即为(x,y,z)。具体地,第三特征矩阵可以是(x,y,z,mo),也就是将小分子的二维结构转换为三维结构。

步骤s14:根据第三特征矩阵以及预设三维图卷积神经网络模型,生成第四特征矩阵,第四特征矩阵用以表征分子中各原子在空间坐标系的坐标信息以及第二特征维度。

在本实施例中,根据生成的第三特征矩阵将小分子化合物输入至预设三维图卷积神经网络模型(3d-ccn),上述模型是可以根据小分子化合物的三维结构进行训练的模型,生成第四特征矩阵;具体地,第四特征矩阵可以是[x,y,z,me],其中,n表示小分子化合物的各原子数目,me可以表示第二特征维度,通过上述预设三维图卷积神经网络模型机型进行训练时,根据获取到的第二维度参数,确定第二特征维度;上述第二维度参数可以是用户输入的,也就是根据用户指令确定的。

步骤s15:根据第三特征矩阵以及第四特征矩阵,计算生成用以表征分子特征的第五特征矩阵;或根据第四特征矩阵,计算生成用以表征分子特征的第五特征矩阵。

作为本发明一个可选的实施方式,如图2所示,可以根据第四特征矩阵[x,y,z,me],提取第四特征矩阵对应正方体像素模型中的各像素点中的原子特征,继而根据原始顺序排列各原子,生成第五特征矩阵[n,me]。

具体地,原始顺序可以是根据输入的分子的第一特征矩阵中的原子顺序确定的。进一步的,第一特征矩阵中的原子顺序的确定是根据分子数据库中的分子文件所存的顺序确定的,或者说,分子文件所存的顺序也可以是随机;但是需要保持特征矩阵中的原子排列顺序的一致。

作为本发明一个可选的实施方式,如图3所示,基于在上述确定第五特征矩阵的过程中,由于大量特征参数以及深层神经网络结构会导致梯度消失或爆炸问题,为了保证最终训练的结果优于多层gcn训练模型,因此可以根据第三特征矩阵以及第四特征矩阵,计算生成第五特征矩阵。具体地,可以叠加第三特征矩阵(x,y,z,mo),以及第四特征矩阵[x,y,z,me],进而将叠加之后得到第三特征矩阵与第四特征矩阵之和,对应正方体像素模型中的各像素点中的原子特征,根据原始顺序排列各原子,生成第五特征矩阵[n,me]。通过融合gcn并加入残差信息,实现了深层网络层跨层传递梯度值,减小了逐层传递中所出现的梯度消失或爆炸的问题,也解决了单纯使用三维像素和3d-cnn网络难以训练的问题,减少训练数据需求,并增加训练效率。

本发明提供了一种分子特征的提取方法,包括:获取分子的第一特征矩阵;根据第一特征矩阵以及预设图卷积神经网络模型,生成分子的第二特征矩阵;根据预设正方体像素模型以及第二特征矩阵,生成第三特征矩阵;根据第三特征矩阵以及预设三维图卷积神经网络模型,生成第四特征矩阵;根据第三特征矩阵以及第四特征矩阵,计算生成用以表征分子特征的第五特征矩阵;或根据第四特征矩阵,计算生成用以表征分子特征的第五特征矩阵。通过实施本发明,解决了现有技术中存在的只能根据分子二维坐标对神经网络进行训练,导致提取出的分子特征较为片面的问题,可以使用表征分子键的连接关系的三维图结构直接训练神经网络模型,且需要的数据量较少,可以全面的表征分子的结构信息。

作为本发明一个可选的实施方式,上述步骤s11,获取分子的第一特征矩阵的步骤中,具体包括:

首先,获取分子中的多个原子及原子数目;在本实施例中,分子化合物都是由多种原子组成的,需要获取构成分子的原子种类以及对应数目。

然后,根据预设编码方式将各原子编码,生成各原子对应的编码向量;在本实施例中,预设编码方式可以是one-hot编码方式,例如,当上述分子中存在c原子、n原子以及i原子时,将各原子按照one-hot编码方式进行编码,将分子中的c原子,编码向量为[1,0,0,0,0,0,0,0,0];n原子编码向量为[0,1,0,0,0,0,0,0,0];i原子编码向量为[0,0,0,0,0,0,0,0,1]。

然后,根据各编码向量,确定分子的初始特征维度;在本实施例中,初始特征维度可以是分子中各原子对应的编码向量的长度值。例如,根据上述步骤中编码生成的c原子、n原子以及i原子对应的多个编码向量,可以确定各编码向量的长度均为九,因此,分子的初始特征维度可以是9,具体地,本发明对编码向量的长度并不做具体限定,也就是说,初始特征维度可以是根据实际应用场景具体确定。

然后,根据原子数目以及初始特征维度,确定分子的第一特征矩阵。在本实施例中,可以根据各原子的数目确定n;继而生成分子的第一特征矩阵[n,mi]。

本发明实施例提供的一种分子特征的提取方法,通过结合分子中各原子的编码向量的长度,确定小分子化合物的特征维度,继而可以根据预设图卷积神经网络模型训练生成的第二特征矩阵,此时对应的第一特征维度可以是根据用户输入的特征维度参数确定的,可以减少训练数据的需求,较好地保证训练的收敛效果以及速度,提高训练效率。

作为本发明一个可选的实施方式,上述步骤s12,根据预设正方体像素模型以及第二特征矩阵,生成第三特征矩阵的步骤中,包括:

首先,将预设正方体像素模型划分为多个三维像素;在本实施例中,预设正方体像素模型可以是长宽高均为的正方体,所述正方体可以被切分成p*p*p的三维像素,也就是将正方体切分为多个三维像素点;例如,可以是长宽高均为的正方体,所述正方体可以被切分成32*32*32的三维像素,此时,对应的每一三维像素点的分辨率为

其次,当原子在三维像素的中心时,将原子填充至三维像素,并确定原子在空间坐标系的坐标信息。在本实施例中,当确定小分子中某原子中心在上述正方体的任意三维像素点内时,可以将对应三维像素点填充对应原子的特征信息,继而根据正方体的结构信息,确定对应原子在空间坐标系内的坐标信息,即为(x,y,z)。

作为本发明一个可选的实施方式,该分子特征的提取方法,还包括:根据第一维度参数确定第一特征维度,根据第二维度参数确定第二特征维度。当第一特征矩阵经过gcn训练生成第二特征矩阵时,第一特征矩阵中的初始特征维度会根据用户设置的第一维度参数进行对应改变,生成第二特征矩阵;其中,第一维度参数可以是根据用户需求确定的,也可以是用户直接输入的。当第三特征矩阵经过3d-ccn训练生成第四特征矩阵时,第三特征矩阵中的第二特征维度会根据用户设置的第二维度参数进行对应改变,生成第四特征矩阵;其中,第二维度参数可以是根据用户需求确定的,也可以是用户直接输入的。

本发明实施例还提供了一种分子三维定量构效关系的计算方法,如图4及图5所示,包括:

步骤s21:获取分子的计算层次参数;在本实施例中,计算层次参数可以是计算的次数,上述计算层次参数可以是用户直接输入的,也可以是根据实际应用场景确定的。

步骤s22:根据计算层次参数确定分子的目标特征矩阵,目标特征矩阵是通过多个计算单元生成的,计算单元用于执行如上述实施例所述的分子特征的提取方法;在本实施例中,计算单元可以是3dgcn-cell,当计算层次参数为1,此时需执行一次上述实施例中步骤s11-s15的步骤过程,也就是执行一个3dgcn-cell;当计算层次参数为n,此时需执行上述实施例中步骤s11-s15的过程n次,也就是执行n个3dgcn-cell。此时,第一个3dgcn-cell输出结果,也就是第一次生成的第五特征矩阵,即为第二个3dgcn-cell的输入量,进而循环n次,直至生成目标特征矩阵。

步骤s23:根据预设的全联接层函数,将目标特征矩阵转换为一维特征矩阵;在本实施例中,全联接层函数可以是图5所示的dense函数,根据预设设置的全联接层函数,可以将目标矩阵转换为一维特征矩阵。

步骤s24:根据一维特征矩阵,计算生成分子的三维定量构效关系值。在本实施例中,分子的三维定量构效关系值可以是output值,也就是根据一维的目标特征矩阵,计算生成分子的3d-qsar值。

示例性地,以下结合一些具体示意图,详细描述上述3dgcn-cell的执行过程,如图6所示:

计算单元的输入(input)可以是分子的二维结构,即为第一特征矩阵[n,mi],也就是[featurematrix(2d)];将上述分子的二维结构输入至预设图卷积神经网络模型(gcn)中,生成第二特征矩阵,再经由预设正方体像素模型,完成分子结构的二维结构向三维结构的转换,生成第三特征矩阵,可以是[featurematrix(3d)];继而将第三特征矩阵输入至预设三维涂图卷积神经网络模型(3d-cnn)中,生成第四特征矩阵;最后叠加第三特征矩阵以及第四特征矩阵,对应预设正方体像素模型中的各像素点中的原子特征,根据原始顺序排列各原子,生成第五特征矩阵,完成三维矩阵到三维矩阵的转换,生成输出值(output)。

示例性地,可以根据上述实施例所述的方法预测小分子的3d-qsar的值。训练分子数据可以是小分子的活性值,以nm为单位,截取范围可以是1nm~100um,根据上述截取范围的log对数,进行归一化处理,生成训练分子数据的3d-qsar的值。其中,训练样本可以是提取于chembl的有活性值的数据。

示例性地,可以根据图5所示的完整网络结构或者以上述分子三维定量构效关系的计算方法中的计算单元(3dgcn-cell)为基础单元,搭建其他网络,提取小分子的特征矩阵,可以用于预测小分子-蛋白质复合物活性、小分子构象排序打分、小分子结构/构象预测等在内的其他目标的任务。

本发明实施例提供的一种分子三维定量构效关系的计算方法,包括:获取分子的计算层次参数;根据计算层次参数确定分子的目标特征矩阵,目标特征矩阵是通过多个计算单元生成的;根据预设的全联接层函数,将目标特征矩阵转换为一维特征矩阵;根据一维特征矩阵,计算生成分子的三维定量构效关系值。通过实施本发明,可以解决相关技术中存在的仅仅根据二维结构,表征分子的结构较为片面的缺陷,进而还解决了相关技术中存在的由于表达分子结构较为片面,进而计算出的分子三维定量构效关系值存在误差的问题,可以使用表征分子键的连接关系的三维图结构直接训练神经网络模型,且需要的数据量较少,可以全面的表征分子的结构信息,计算较为精确的分子三维定量构效关系值。

本发明实施例还提供了一种分子特征的提取装置,如图7所示,该装置包括:

第一特征矩阵获取模块31,用于获取分子的第一特征矩阵,所述第一特征矩阵用以表征所述分子的初始特征维度以及原子数目;详细实施内容可参见上述方法实施例中步骤s11的相关描述。

第二特征矩阵获取模块32,用于根据所述第一特征矩阵以及预设图卷积神经网络模型,生成所述分子的第二特征矩阵;所述第二特征矩阵用以表征所述分子的第一特征维度以及原子数目;详细实施内容可参见上述方法实施例中步骤s12的相关描述。

第三特征矩阵获取模块33,用于根据预设正方体像素模型以及第二特征矩阵,生成第三特征矩阵,第三特征矩阵用以表征分子中各原子在空间坐标系的坐标信息以及第一特征维度;详细实施内容可参见上述方法实施例中步骤s13的相关描述。

第四特征矩阵获取模块34,用于根据第三特征矩阵以及预设三维图卷积神经网络模型,生成第四特征矩阵,第四特征矩阵用以表征分子中各原子在空间坐标系的坐标信息以及第二特征维度;详细实施内容可参见上述方法实施例中步骤s14的相关描述。

第五特征矩阵获取模块35,用于根据第三特征矩阵以及第四特征矩阵,计算生成用以表征分子特征的第五特征矩阵;或根据第四特征矩阵,计算生成用以表征分子特征的第五特征矩阵。详细实施内容可参见上述方法实施例中步骤s15的相关描述。

本发明实施例提供了一种分子特征的提取装置,包括:第一特征矩阵获取模块31,用于获取分子的第一特征矩阵;第二特征矩阵获取模块32,用于根据第一特征矩阵以及预设图卷积神经网络模型,生成分子的第二特征矩阵;第三特征矩阵获取模块33,用于根据预设正方体像素模型以及第二特征矩阵,生成第三特征矩阵;第四特征矩阵获取模块34,用于根据第三特征矩阵以及预设三维图卷积神经网络模型,生成第四特征矩阵;第五特征矩阵获取模块35,用于根据第三特征矩阵以及第四特征矩阵,计算生成用以表征分子特征的第五特征矩阵;或根据第四特征矩阵,计算生成用以表征分子特征的第五特征矩阵。通过实施本发明,解决了现有技术中存在的只能根据分子二维坐标对神经网络进行训练,导致提取出的分子特征较为片面的问题,可以使用表征分子键的连接关系的三维图结构直接训练神经网络模型,且需要的数据量较少,可以全面的表征分子的结构信息。

本发明实施例还提供了一种分子三维定量构效关系的计算装置,如图8所示,包括:

计算层次参数获取模块41,用于获取分子的计算层次参数;详细实施内容可参见上述方法实施例中步骤s21的相关描述。

目标特征矩阵确定模块42,用于根据计算层次参数确定分子的目标特征矩阵,目标特征矩阵是通过多个计算单元生成的,计算单元用于执行上述实施例所述的分子特征的提取方法;详细实施内容可参见上述方法实施例中步骤s22的相关描述。

转换模块43,用于根据预设的全联接层函数,将目标特征矩阵转换为一维特征矩阵;详细实施内容可参见上述方法实施例中步骤s23的相关描述。

计算模块44,用于根据一维特征矩阵,计算生成分子的三维定量构效关系值。详细实施内容可参见上述方法实施例中步骤s24的相关描述。

本发明实施例提供的一种分子三维定量构效关系的计算装置,包括:计算层次参数获取模块41,用于获取分子的计算层次参数;目标特征矩阵确定模块42,用于根据计算层次参数确定分子的目标特征矩阵,目标特征矩阵是通过多个计算单元生成的;转换模块43,用于根据预设的全联接层函数,将目标特征矩阵转换为一维特征矩阵;计算模块44,用于根据一维特征矩阵,计算生成分子的三维定量构效关系值。通过实施本发明,可以解决相关技术中存在的仅仅根据二维结构,表征分子的结构较为片面的缺陷,进而还解决了相关技术中存在的由于表达分子结构较为片面,进而计算出的分子三维定量构效关系值存在误差的问题,可以使用表征分子键的连接关系的三维图结构直接训练神经网络模型,且需要的数据量较少,可以全面的表征分子的结构信息,计算较为精确的分子三维定量构效关系值。通过融合gcn与3d-cnn,在利用深度学习提取小分子特征时,可以融合邻接键的信息和3d空间信息,得到较为精确的结果。

本发明实施例还提供了一种计算机设备,如图9所示,该计算机设备可以包括处理器51和存储器52,其中处理器51和存储器52可以通过总线或者其他方式连接,图7中以通过总线连接为例。

处理器51可以为中央处理器(centralprocessingunit,cpu)。处理器51还可以为其他通用处理器、数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现场可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。

存储器52作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本发明实施例中的分子特征的提取方法以及分子三维定量构效关系的计算方法对应的程序指令/模块(例如,图7所示的第一特征矩阵获取模块31、第二特征矩阵获取模块32、第三特征矩阵获取模块33、第四特征矩阵获取模块34、第五特征矩阵获取模块35以及图8所示的计算层次参数获取模块41、目标特征矩阵确定模块42、转换模块43、计算模块44)。处理器51通过运行存储在存储器52中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及数据处理,即实现上述方法实施例中的分子三维定量构效关系的计算方法。

存储器52可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器51所创建的数据等。此外,存储器52可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器52可选包括相对于处理器51远程设置的存储器,这些远程存储器可以通过网络连接至处理器51。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

所述一个或者多个模块存储在所述存储器52中,当被所述处理器51执行时,执行如图1及图2所示实施例中的分子特征的提取方法或分子三维定量构效关系的计算方法。

上述计算机设备具体细节可以对应参阅图1以及图4所示的实施例中对应的相关描述和效果进行理解,此处不再赘述。

可选地,本发明实施例还提供了一种非暂态计算机可读介质,非暂态计算机可读存储介质存储计算机指令,计算机指令用于使计算机执行如上述实施例中任意一项描述的分子特征的提取方法或分子三维定量构效关系的计算方法,其中,存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory,rom)、随机存储记忆体(randomaccessmemory,ram)、快闪存储器(flashmemory)、硬盘(harddiskdrive,缩写:hdd)或固态硬盘(solid-statedrive,ssd)等;存储介质还可以包括上述种类的存储器的组合。

显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1