获取分子特征描述的方法、装置及存储介质与流程

文档序号:29623776发布日期:2022-04-13 13:55阅读:159来源:国知局
获取分子特征描述的方法、装置及存储介质与流程

1.本技术涉及计算机辅助制药领域,尤其涉及一种获取分子特征描述的方法、装置及存储介质。


背景技术:

2.分子特征描述,通常指的是分子在某一方面性质的度量,包含分子的物理化学性质以及根据分子结构通过各种算法推导出来的数值指标,比如:分子质量、环个数、氢键供受体个数、分子形状表述等。分子特征描述需要预先设计,只有选择了与目标性质具有相关性的描述,才可能获得合理的模型。从数据属性上,分子特征描述通常难以直接用于深度神经网络的搭建。目前,尽管已经存在一些具有物理意义明确的分子特征描述,例如库伦矩阵(cm)、键包(bob)、原子位置平滑重叠(soap)、原子中心对称函数(acsf)和变形的径像函数等。然而,由于不仅可能存在经验性的超参数,而且由此建立的机器学习模型依然需要较大的参数空间以及与之对应的大量训练集数据,因此并不适合用于深度神经网络。


技术实现要素:

3.为解决或部分解决相关技术中存在的问题,本技术提供一种获取分子特征描述的方法、装置及存储介质,该技术方案能够快速获取分子特征描述,以用于对深度神经网络的训练。
4.本技术第一方面提供一种获取分子特征描述的方法,包括:
5.获取目标分子的结构特征值;
6.基于最小slater基组和所述目标分子的结构特征值,求取重叠矩阵;
7.基于所述重叠矩阵,采用半经验量子力学方法求解所述目标分子作为量子系统时的波函数系数;
8.根据所述波函数系数,求解所述目标分子作为量子系统时的密度矩阵;
9.对所述最小slater基组正则化,得到变换矩阵;
10.根据所述密度矩阵和变换矩阵,获取所述目标分子的特征描述。
11.本技术第二方面提供一种获取分子特征描述的装置,包括:
12.第一获取模块,用于获取目标分子的结构特征值;
13.第一计算模块,用于基于最小slater基组和所述目标分子的结构特征值,求取重叠矩阵;
14.第二计算模块,用于基于所述重叠矩阵,采用半经验量子力学方法求解所述目标分子作为量子系统时的波函数系数;
15.第三计算模块,用于根据所述波函数系数,求解所述目标分子作为量子系统时的密度矩阵;
16.正则化模块,用于对所述最小slater基组正则化,得到变换矩阵;
17.第二获取模块,用于根据所述密度矩阵和变换矩阵,获取所述目标分子的特征描
述。
18.本技术第三方面提供一种电子设备,包括:
19.处理器;以及
20.存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如上所述的方法。
21.本技术第四方面提供一种存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如上所述的方法。
22.从上述本技术提供的技术方案可知,在获取目标分子的结构特征值后,基于最小slater基组求取重叠矩阵,并且基于求取的重叠矩阵,采用半经验量子力学方法求解目标分子作为量子系统时的波函数系数。由于是基于最小slater基组,而且采用半经验量子力学方法求解目标分子作为量子系统时的波函数系数,其过程是非自洽的即仅需单轮的矩阵本征值求解进行计算,因此能够大幅降低计算消耗,快速目标分子的特征描述,从而在用于对深度神经网络进行训练时降低训练成本并提升训练效率。
23.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本技术。
附图说明
24.通过结合附图对本技术示例性实施方式进行更详细的描述,本技术的上述以及其它目的、特征和优势将变得更加明显,其中,在本技术示例性实施方式中,相同的参考标号通常代表相同部件。
25.图1是本技术实施例示出的获取分子特征描述的方法的流程示意图;
26.图2是本技术实施例示出的键长键角r
hoh
=100.04
°
的水分子结构示意图;
27.图3是本技术实施例示出的键长键角r
hoh
=103.49
°
的水分子结构示意图;
28.图4是本技术实施例示出的获取分子特征描述的装置的结构示意图;
29.图5是本技术实施例示出的电子设备的结构示意图。
具体实施方式
30.下面将参照附图更详细地描述本技术的实施方式。虽然附图中显示了本技术的实施方式,然而应该理解,可以以各种形式实现本技术而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本技术更加透彻和完整,并且能够将本技术的范围完整地传达给本领域的技术人员。
31.在本技术使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本技术。在本技术和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
32.应当理解,尽管在本技术可能采用术语“第一”、“第二”、“第三”等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,
在不脱离本技术范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本技术的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
33.在进行计算机辅助药物设计的过程中,分子特征描述通常指的是分子在某一方面性质的度量,包含分子的物理化学性质以及根据分子结构通过各种算法推导出来的数值指标,例如分子质量、环个数、氢键供受体个数以及分子形状表述等。分子特征描述需要预先设计,只有选择了与目标性质具有相关性的描述,才可能获得合理的模型。从数据属性上,分子特征描述通常难以直接用于深度神经网络的搭建。相关技术中,尽管已经存在一些具有物理意义明确的分子特征描述,例如库伦矩阵(cm)、键包(bob)、原子位置平滑重叠(soap)、原子中心对称函数(acsf)和变形的径像函数等。然而,由于不仅可能存在经验性的超参数,而且由此建立的机器学习模型依然需要较大的参数空间以及与之对应的大量训练集数据,因此并不适合用于深度神经网络。
34.针对上述问题,本技术实施例提供一种获取分子特征描述的方法,能够速获取分子特征描述,在用于对深度神经网络进行训练时降低训练成本并提升训练效率。
35.以下结合附图详细描述本技术实施例的技术方案。
36.参见图1,是本技术实施例示出的获取分子特征描述的方法的流程示意图,该方法主要包括步骤s101至步骤s106,详细说明如下:
37.步骤s101:获取目标分子的结构特征值。
38.在本技术实施例中,目标分子的结构特征值可以是位于第i个基函数χ
slater,i
和第j个基函数χ
slater,j
上属于目标分子的电子之间的空间相对位置r
ij
,其中,第i个基函数χ
slater,i
和第j个基函数χ
slater,j
为最小slater基组的基函数。由于r
ij
是由分子的结构确定的参数,因此,当得到目标分子的结构即可获知r
ij
。需要说明的是,上述的电子之间的空间相对位置r
ij
,既可以是属于目标分子的同一原子的电子之间的空间相对位置,又可以是属于目标分子的不同原子的电子之间的空间相对位置。
39.步骤s102:基于最小slater基组和目标分子的结构特征值,求取重叠矩阵。
40.相应于目标分子的结构特征值可以包括位于第i个基函数χ
slater,i
和第j个基函数χ
slater,j
上属于目标分子的目标原子的电子之间的空间相对位置r
ij
这一实施例。作为本技术的一个实施例,基于最小slater基组和目标分子的结构特征值,求取重叠矩阵可以是:以空间相对位置r
ij
为积分变量,对第i个基函数χ
slater,i
和第j个基函数χ
slater,j
的乘积进行积分,得到重叠矩阵的元素s
ij
,即s
ij
=∫χ
slater,i
χ
slater,j
dr
ij
。随着i和j不同或者χ
stater,i
、χ
slater,j
和/或r
ij
的不同,可以求得不同的元素s
ij
,从而得到重叠矩阵s。
41.步骤s103:基于重叠矩阵,采用半经验量子力学方法求解目标分子作为量子系统时的波函数系数。
42.在本技术实施例中,半经验量子力学方法可以是扩展的huckel方法(eht),即一种非自洽的半经验量子力学方法。需要说明的是,亦可以可使用自洽的huckel方法(包括最小基和常规基组)或其它半经验量子力学方法和高斯基组(sto-3g)相结合,例如dftb、am1、pm7等来求解目标分子作为量子系统时的波函数系数,以下仅以eht为例进行说明。
43.具体地,作为本技术一个实施例,基于重叠矩阵,采用半经验量子力学方法求解目
标分子作为量子系统时的波函数系数可以是:按照公式计算半经验量子力学方法中单电子哈密顿矩阵h的元素h
ij
,再按照公式hc=sce求解目标分子作为量子系统时的波函数系数c,此处,k为经验参数,a为原子编号,s
ij
为重叠矩阵s的元素,e为单电子哈密顿矩阵h的本征矩阵经对角化得到的本征矢对应能量矩阵。不同于通常的eht求解单电子哈密顿矩阵h的过程是自洽的而需要多轮迭代求解,本技术计算半经验量子力学方法中单电子哈密顿矩阵h的元素h
ij
属于非自洽的半经验量子力学方法,因而能够大幅降低计算量消耗。
44.步骤s104:根据波函数系数,求解目标分子作为量子系统时的密度矩阵。
45.具体地,可以首先对目标分子作为量子系统时的波函数系数c进行共轭转秩操作得到然后,按照公式求解目标分子作为量子系统时的密度矩阵d,此处,λ为轨道占据矩阵。
46.步骤s105:对最小slater基组正则化,得到变换矩阵。
47.变换矩阵可以将目标分子作为量子系统时的密度矩阵d变换为另一矩阵形式。一种方法是使用占据数加权对称正交化方法对最小slater基组进行正则化,得到变换矩阵t,即,记最小slater基组为{χ
slater
},则通过{χ
slater
}
t
=t{χ
slater
},即可求解得到变换矩阵t。需要说明的是,除了使用占据数加权对称正交化方法对最小slater基组进行正则化,得到变换矩阵t之外,还可以使用施密特正交化方法等其他正则化方法对最小slater基组进行正则化。此外,对最小slater基组进行占据数加权对称正交化方法的正则化得到变换矩阵t可以使得目标分子的结构能够满足旋转不变性。
48.步骤s106:根据密度矩阵和变换矩阵,获取目标分子的特征描述。
49.具体而言,根据密度矩阵和变换矩阵,获取目标分子的特征描述可以通过步骤s1061至步骤s1063,说明如下:
50.步骤s1061:采用变换矩阵t,按照公式对密度矩阵d进行变换,得到变换后密度矩阵d
t
,其中,表示变换矩阵t的逆矩阵进行共轭转秩操作。
51.步骤s1062:按照公式计算目标分子中编号为a的原子的电荷qa作为目标分子的第一特征描述,其中,为变换后密度矩阵d
t
的元素,za为编号为a的原子的有效核电荷。
52.步骤s1063:按照公式计算目标分子中编号为a的原子与编号为b的原子之间的键级bo
ab
作为目标分子的第二特征描述。
53.显然,无论是电荷qa还是键级bo
ab
,都具有明确的物理意义,因而不仅可以为基于分子或晶体结构的图卷积神经网络提供目的意义明确的边描述,而且还可以降低分子或晶体的深度神经网络的参数空间和训练集数量,这对提升神经网络的训练效率或降低训练成本非常有利。
54.下面以图2示出的键长键角r
hoh
=100.04
°
的水分子结构作为目
标分子为例,给出上述本技术的技术方案在获取其分子特征描述过程中的波函数系数和密度矩阵等,以及最后求取的原子的电荷和键级等分子特征描述。
55.图2示出的水分子作为量子系统时的波函数系数c为:
[0056][0057][0058]
图2示出的水分子作为量子系统时的密度矩阵d为:
[0059][0060]
变换矩阵t为:
[0061][0062]
变换后密度矩阵d
t
为:
[0063][0064]
最后得到的得到电荷qa为:
[0065]
qa=[qo,qh,qh]=[-0.366,0.183,0.183]
[0066]
以及键级bo
ab
为:
[0067][0068][0069]
将图2示出的分子结构进行调整,即调整为键长变为键角r
hoh
=103.49
°
,如图3所示,给出上述本技术的技术方案在获取其分子特征描述过程中的波函数系数和密度矩阵等,以及最后求取的原子的电荷和键级等分子特征描述如下:
[0070]
图3示出的水分子作为量子系统时的波函数系数c为:
[0071][0072]
图3示出的水分子作为量子系统时的密度矩阵d为:
[0073][0074]
变换矩阵t为:
[0075]075][0076]
变换后密度矩阵d
t
为:
[0077][0078]
最后得到的得到电荷qa为:
[0079]
qa=[qo,qh,qh]=[-0.347,0.182,0.166]
[0080]
以及键级bo
ab
为:
[0081][0082]
从上述图1示例的技术方案可知,在获取目标分子的结构特征值后,基于最小
slater基组求取重叠矩阵,并且基于求取的重叠矩阵,采用半经验量子力学方法求解目标分子作为量子系统时的波函数系数。由于是基于最小slater基组,而且采用半经验量子力学方法求解目标分子作为量子系统时的波函数系数,其过程是非自洽的即仅需单轮的矩阵本征值求解进行计算,因此能够大幅降低计算消耗,快速目标分子的特征描述,从而在用于对深度神经网络进行训练时降低训练成本并提升训练效率。
[0083]
与前述应用功能实现方法实施例相对应,本技术还提供了一种获取分子特征描述的装置、电子设备及相应的实施例。
[0084]
参见图4是本技术实施例示出的获取分子特征描述的装置的结构示意图。为了便于说明,仅仅示出与本技术实施例相关的部分。图4示例的装置可以包括第一获取模块401、第一计算模块402、第二计算模块403、第三计算模块404、正则化模块405和第二获取模块406,说明如下:
[0085]
第一获取模块401,用于获取目标分子的结构特征值;
[0086]
第一计算模块402,用于基于最小slater基组和目标分子的结构特征值,求取重叠矩阵;
[0087]
第二计算模块403,用于基于重叠矩阵,采用半经验量子力学方法求解目标分子作为量子系统时的波函数系数;
[0088]
第三计算模块404,用于根据波函数系数,求解目标分子作为量子系统时的密度矩阵;
[0089]
正则化模块405,用于对最小slater基组正则化,得到变换矩阵;
[0090]
第二获取模块406,用于根据密度矩阵和变换矩阵,获取目标分子的特征描述。
[0091]
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不再做详细阐述说明。
[0092]
从图4示例的装置可知,在获取目标分子的结构特征值后,基于最小slater基组求取重叠矩阵,并且基于求取的重叠矩阵,采用半经验量子力学方法求解目标分子作为量子系统时的波函数系数。由于是基于最小slater基组,而且采用半经验量子力学方法求解目标分子作为量子系统时的波函数系数,其过程是非自洽的即仅需单轮的矩阵本征值求解进行计算,因此能够大幅降低计算消耗,快速目标分子的特征描述,从而在用于对深度神经网络进行训练时降低训练成本并提升训练效率。
[0093]
可选地,上述示例的目标分子的结构特征值包括位于第i个基函数χ
slater,i
和第j个基函数χ
slater,j
上属于目标分子的目标原子的电子之间的空间相对位置r
ij
,第i个基函数χ
slater,i
和第j个基函数χ
slater,j
为最小slater基组的基函数。
[0094]
可选地,图4示例的第一计算模块402可以包括积分单元,用于以位于第i个基函数χ
slater,i
和第j个基函数χ
slater,j
上属于目标分子的目标原子的电子之间的空间相对位置r
ij
为积分变量,对第i个基函数χ
slater,i
和第j个基函数χ
slater,j
的乘积进行积分,得到重叠矩阵的元素s
ij

[0095]
可选地,图4示例的第二计算模块403可以包括矩阵元素计算单元和波函数系数计算单元,其中:
[0096]
矩阵元素计算单元,用于按照公式
[0097][0098]
计算半经验量子力学方法中单电子哈密顿矩阵h的元素h
ij
,其中,k为经验参数,a为原子编号,s
ii
为重叠矩阵s的元素;
[0099]
波函数系数计算单元,用于按照公式hc=sce求解目标分子作为量子系统时的波函数系数c,其中,e为单电子哈密顿矩阵h的本征矩阵经对角化得到的本征矢对应能量矩阵。
[0100]
可选地,图4示例的第三计算模块404可以包括共轭转秩计算单元和密度矩阵计算单元,其中:
[0101]
共轭转秩计算单元,用于对波函数系数c进行共轭转秩操作得到
[0102]
密度矩阵计算单元,用于按照公式求解目标分子作为量子系统时的密度矩阵d,其中,λ为轨道占据矩阵。
[0103]
可选地,图4示例的正则化模块405可以包括对称正交化单元,用于使用占据数加权对称正交化方法对最小slater基组进行正则化,得到变换矩阵t。
[0104]
可选地,图4示例的第二获取模块406可以包括矩阵变换单元、第一特征描述计算单元和第二特征描述计算单元,其中:
[0105]
矩阵变换单元,用于采用变换矩阵t,按照公式对密度矩阵d进行变换,得到变换后密度矩阵d
t
,其中,表示变换矩阵t的逆矩阵进行共轭转秩操作;
[0106]
第一特征描述计算单元,用于按照公式计算目标分子中编号为a的原子的电荷qa作为目标分子的第一特征描述,其中,为变换后密度矩阵d
t
的元素,za为编号为a的原子的有效核电荷;
[0107]
第二特征描述计算单元,用于按照公式计算目标分子中编号为a的原子与编号为b的原子之间的键级bo
ab
作为目标分子的第二特征描述。
[0108]
参见图5,是本技术实施例示出的电子设备的结构示意图。该电子设备500包括存储器510和处理器520。
[0109]
处理器520可以是中央处理单元(central processing unit,cpu),还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0110]
存储器510可以包括各种类型的存储单元,例如系统内存、只读存储器(rom),和永久存储装置。其中,rom可以存储处理器520或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中,永久性存储装置采用
大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中,永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备,例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外,存储器510可以包括任意计算机可读存储媒介的组合,包括各种类型的半导体存储芯片(dram,sram,sdram,闪存,可编程只读存储器),磁盘和/或光盘也可以采用。在一些实施方式中,存储器510可以包括可读和/或写的可移除的存储设备,例如激光唱片(cd)、只读数字多功能光盘(例如dvd-rom,双层dvd-rom)、只读蓝光光盘、超密度光盘、闪存卡(例如sd卡、min sd卡、micro-sd卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。
[0111]
存储器510上存储有可执行代码,当可执行代码被处理器520处理时,可以使处理器520执行上文述及的方法中的部分或全部。
[0112]
此外,根据本技术的方法还可以实现为一种计算机程序或计算机程序产品,该计算机程序或计算机程序产品包括用于执行本技术的上述方法中部分或全部步骤的计算机程序代码指令。
[0113]
或者,本技术还可以实施为一种存储介质,包括非暂时性机器可读存储介质、计算机可读存储介质或机器可读存储介质,其上存储有可执行代码(或计算机程序、或计算机指令代码),当可执行代码(或计算机程序、或计算机指令代码)被电子设备(或电子设备、服务器等)的处理器执行时,使处理器执行根据本技术的上述方法的各个步骤的部分或全部。
[0114]
以上已经描述了本技术的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1