一种简化偏最小二乘预测细胞色素p450酶cyp1a2抑制剂的抑制浓度的方法

文档序号:8543907阅读:364来源:国知局
一种简化偏最小二乘预测细胞色素p450酶cyp1a2抑制剂的抑制浓度的方法
【技术领域】
[0001]本发明涉及一种简化偏最小二乘预测细胞色素P450酶CYP1A2抑制剂的抑制浓度的方法,属于化学计量学和化学信息学的交叉领域。
【背景技术】
[0002]细胞色素酶系由一群基因超家族编码的酶蛋白所组成。细胞色素p450是由血红蛋白-巯基盐所组成的超家族,广泛存在于动物,真核有机体,植物,真菌和细菌中,是必不可少的结构酶。细胞色素P450超家族的命名以CYP代表细胞色素P450,其后更有数字和字母,依次为家族、亚(或次)家族和酶个体三级。CYPlA亚族主要包括CYPlAl和CYP1A2。研宄表明CYP1A2主要参与多环芳烃和芳香胺类化合物的代谢。此外,CYP1A2参与了多种药物的代谢并且在一些前致癌物和毒性物质的体内活动中也起到重要作用。于是对CYP1A2更进一步的研宄可用于评价一些临床药物的治疗效果以及对一些药物的设计提供帮助。由于通过实验验证会耗费大量的时间和成本,因此近几年开展以QSAR方法建立模型对未知化合物进行准确预测逐渐成为热点。
[0003]偏最小二乘法(PLS)作为一个多元线性回归方法,其主要目的是要建立一个线性模型,其采用得分因子作为原始预测变量线性组合的依据,并且得分因子之间必须线性无关,必须使用提取因子的方法从数据中提取因子计算出得分矩阵,权重矩阵建立回归模型。当自变量存在严重多重相关性的条件下,偏最小二乘法(PLS)则存在无法满足运算要求的可能。

【发明内容】

[0004]本发明要解决的技术问题是克服现有的缺陷,提供了一种简化偏最小二乘预测细胞色素P450酶CYP1A2抑制剂的抑制浓度的方法,该方法准确有效、预测准确率高、模型稳定。
[0005]为了解决上述技术问题,本发明提供了如下的技术方案:
一种简化偏最小二乘(SMPLS)预测细胞色素P450酶CYP1A2抑制剂的抑制浓度的方法,包括如下步骤,
1)样本集的收集、处理及优化
收集细胞色素P450抑制剂分子的结构以及相对应的抑制浓度,对收集的每个抑制剂分子进行结构优化;
2)抑制剂分子描述符的构建
输入优化之后的细胞色素P450抑制剂分子结构,计算出与其对应的分子描述符值,每个抑制剂分子包括若干个变量;
每个抑制剂分子包括1666个描述符值,其中有原子极化率,原子的范德华力,原子质量和原子电负性等; 3)抑制剂分子描述符数据集的初步筛选删除对矩阵没有意义的描述符,降低冗余度;
即删除某一列变量全为“O”的描述符,降低冗余度。
[0006]4)抑制剂分子描述符数据集的重新标度
将经过初步筛选的抑制剂分子描述符利用matlab工具,采用Standardizat1n这个函数将抑制剂分子描述符的数据映射到一个较小的范围,大约在[_6,6]之间;
standardizat1n函数是一个将数据标准化的函数,实验中将大小差距大的数据用standardizat1n函数处理会得到一个差距较小的数据矩阵,而_6?6是一个范围,,但其中有几个数据特别小(8.060288576680109e-04,这是其中一个),但这样的数据不超过十个。因为还要对描述符进行一个筛选,因此这几个较小的数据对整个实验的影响可以忽略不计;
5)抑制剂分子描述符数据集的划分
将步骤2)至4)处理后的抑制剂分子描述符数据集,利用kennard-stoneOiS)方法将数据集分为训练集和测试集;
6)建立模型
用细胞色素P450抑制剂分子结构即就是用步骤2)至4)处理之后的抑制剂描述符与其对应的抑制浓度建立关系模型,即QSAR模型;
7)预测细胞色素P450酶CYP1A2抑制剂的抑制浓度
根据所述步骤5)所得的测试集与所述步骤6)所建立的QSAR模型来预测细胞色素P450抑制剂的抑制浓度;
在上述方案的基础上,步骤I) 一共收集52个细胞色素P450抑制剂分子的结构以及相对应的抑制浓度,利用Gauss1n view画出每个抑制剂分子的结构,通过Gauss1n03中密度泛函理论(DFT)采用B3LYP的方法以及6-31G基组对抑制剂分子结构进行优化直到Gauss1n03中的四个条件达到收敛时才算完成优化任务,四个条件分别为Maximum Force(最大力,力也就是梯度),Maximum Displacement (最大位移),Rms Force (梯度的方根),Rms Displacement (位移的方根
[0007]在优化抑制剂分子结构的时候必须使上面的四个条件达到收敛,是因为如果Maximum Force很大,说明尚未接近极小点,优化未完成。如果Maximum Displacement很大,说明优化的分子结构不稳定。而Rms Force和Rms Displacement是方根,可以理解为Maximum Force和Maximum Displacement的平均值。总而言之就是四个条件达到收敛时优化的分子结构达到最稳定,能量最低。
[0008]在上述各方案的基础上,步骤2)分子描述符的计算是采用在线药物分子描述符计算软件E-Dragon完成。
[0009]在上述各方案的基础上,步骤3)抑制剂分子描述符数据集的初步筛选的过程为: Ca)删除对矩阵没有意义的描述符,降低冗余度,即剔除大部分描述符为“O “的变量。
[0010](b)选择某一变量对应不同的样本时具有较大的方差,表征的信息量大,在统计分析中才会显著;
(c)相关性较高的变量说明该变量包括了另一变量含有的信息,相关性较高的变量同时引入模型,会导致预测结果变差,应剔除二者之一; (d)剔除化合物的活性/性质和变量相关性极差的变量;
Ce)使用逐步多元和无用信息变量结合的方法挑选最终的描述符。
[0011]在上述各方案的基础上,步骤5)样本集按照kennard-stone (KS)方法以4:1的比例将样本集分为训练集和预测集。
[0012]KS算法在一定程度上避免了校正样本集合分布不均匀的问题。主要分四个步鄹:第一步:首先计算两两样本之间的距离,选择距离最大的两个样品。第二步:然后分别计算剩余的样本与已选的两个样本之间的距离。第三步:对于每个剩余样本而言,其与已选样品之间的最短距离被选择,然后选择这些最短距离中相对最长的距离所对应的样本,作为第三个样品。第四步:重复步骤三直到所选的样品的个数等于事先确定的数目为止。
[0013]在上述各方案的基础上,步骤6)根据步骤5)划分的训练集,采用SMPLS方法用细胞色素P450抑制剂分子结构,即就是用步骤2)至4)处理之后的抑制剂描述符与其对应的抑制浓度建立关系模型,即QSAR模型。
[0014]建立的QSAR模型必须使用抑制剂描述符与其对应的抑制剂浓度建立模型,而抑制剂描述符则是通过步骤2)计算,步鄹3)和4)挑选从而得到最终的描述符。限定最终使用的描述符必须是通过步鄹3)和4)所挑选的,使用的训练集必须是步鄹5)所划分的。
[0015]在上述各方案的基础上,步骤7)将步骤5)所得的测试集代入步骤6)中所建立的关系模型中,得到对应的细胞色素P450抑制剂分子的抑制浓度的预测值。
[0016]用步骤6)所建立好的模型,将步骤5)所划分的测试集代入模型中进行预测,将预测出来的抑制剂浓度与原始的实验数据进行对比,观察预测结果,必须要限定按照这个顺序的步骤进行,否则会得出错误的实验结论。
[0017]本发明的有益效果:
本发明是一种简化偏最小二乘(SIMPLS)参数选择方法,该方法利用偏最小二乘法(PLS)具有在自变量存在严重多重相关性的条件下也能够进行回归建模的基础上对偏最小二乘回归(PLS)组分进行了进一步的估计和简化的特点,其与偏最小二乘法在运算步骤中相比缺少了矩阵的求逆和奇异值的分解而直接得到了回归系数。通过细胞色素P450抑制剂的结构与其对应的抑制浓度建立关系模型,对其抑制剂的抑制浓度进行准确预测。该方法有效的提高了预测质量和效率。在抑制剂开发初期,通过计算机输入抑制剂分子结构,基于SIMPLS方法,完成对其抑制剂浓度的预测,可以有效的减少后期抑制剂开发的风险,较低研发的成本。通过对所建立的模型进行评价,计算得到训练集和预测集相关系数r分别为0.9006,0.9225。均方根误差分别为0.2757,0.3622。验证了该方法的有效性,本发明的预测准确率可达90%,模型更稳定。
【附图说明】
[0018]附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是用简化偏最小二乘(SMPLS)法预测细胞色素酶P450CYP1A2抑制剂的抑制浓度的方法流程图;
图2是用简化偏最小二乘(SMPLS)法预测细胞色素P450(CYP1A2)抑制剂的抑制浓度结果图; 图3
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1