一种简化偏最小二乘预测细胞色素p450酶cyp1a2抑制剂的抑制浓度的方法_2

文档序号:8543907阅读:来源:国知局
是用简化偏最小二乘(SMPLS)法预测细胞色素P450(CYP1A2)抑制剂的抑制浓度残差图。
【具体实施方式】
[0019]以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
[0020]实施例1
一种简化偏最小二乘((SMPLS)预测细胞色素P450酶CYP1A2抑制剂的抑制浓度的方法,具体实施步骤:
1、样本集的建立:
一共收集5 2个细胞色素P45O抑制剂分子的结构以及相对应的抑制浓度,利用Gauss1nview画出每个抑制剂分子的结构,通过Gauss1n03中密度泛函理论(DFT)采用B3LYP方法以及6-31G基组对化合物结构进行优化直到Gauss1n 03中的四个条件达到收敛时才算完成优化任务,四个条件分别为Maximum Force (最大力,力也就是梯度),MaximumDisplacement (最大位移),Rms Force (梯度的方根),Rms Displacement (位移的方根);
2、抑制剂分子描述符集的建立:
建模不能直接拿抑制剂分子的结构进行建模必须将结构装换为能代表抑制剂分子物理、化学等性质的描述符。将优化好的52个细胞色素P450抑制剂分子结构以.sdf或者.mol2格式保存。把52个.sdf或者.mol2格式的细胞素色P450抑制剂分子导入在线软件 E-Dragon (http://www.vcclab.0rg/lab/edragon/start, html)分别计算。E-Dragon软件可以提供1666个描述符且被分为20类,它不仅可以计算最简单的原子类型、官能团和片段数,最主要的是可以计算出拓扑和几何描述符。因此最终得到52*1666个分子描述符值。这些描述符可以用于评估分子结构-活性或者结构-性质的关系,以及对相似性的分析和分子数据库的高通量筛选;
3、抑制剂分子描述符数据集的初步筛选
将E-Dragon软件计算得出的1666个分子描述符通过以下几个步骤进行筛选:
(i )剔除大部分描述符为“O “的变量;
(? )选择某一变量对应不同的样本具有较大方差的描述符,表征的信息量大,在统计分析中才会显著;
(iii)相关性较高的变量说明该变量包括了另一变量含有的信息,相关性较高的变量同时引入模型,会导致预测结果变差,应剔除二者之一;
(iv)剔除化合物的活性/性质和变量相关性极差的变量。此时得到1230个分子描述符;
(V )接着使用逐步多元和无用信息变量结合的方法挑选描述符,在此过程中观察描述符之间的相关系数最高时作为最终的数据,最后得到24个描述符即就是52*24个描述符
4、抑制剂分子描述符数据集的重新标度
将筛选得到的24个抑制剂分子描述符使用matlab工具,采用Standardizat1n这个函数将抑制剂分子描述符的数据进行一个标准化处理,映射到一个较小的范围,大约在[-6,6]之间; 5、抑制剂分子描述符数据集的划分
将52个抑制剂分子按照kennard-stone (KS)方法以4:1的比例将分为训练集(41个化合物)和预测集(11个化合物);
6、建立模型
根据步骤5)所述的训练集,建立抑制剂分子结构和抑制剂分子浓度之间的关系模型。在实验室中将抑制剂浓度转换为浓度的负对数是为了避免不同抑制剂间浓度相差较大造成的误差。
[0021]具体为根据步骤5)所述的训练集,采用SMPLS方法用细胞色素P450抑制剂分子结构,即就是用步骤2)至4)处理之后的抑制剂描述符与其对应的抑制浓度建立关系模型,即QSAR模型;
7、预测细胞色素P450酶CYP1A2抑制剂的抑制浓度
将步骤5)所述的测试集带到步骤6)所述的建立关系模型中得到对应的抑制剂的预测浓度,对所建模型进行评价,计算得到到训练集和预测集相关系数r分别为0.9006,0.9225,均方根误差分别为0.2757,0.3622。
[0022]实验结果参考图1-3,其中,
图1中的IC5tl是指抑制剂的半抑制浓度,pic 5(l=-logIC5(l。
[0023]图3为残差图,纵坐标表示残差值,横坐标表示抑制剂浓度预测值。从纵坐标观察所有样本均在[1,-1]之间,说明此方法得到的残差较小,残差小则说明模型的系统误差较小。
[0024]最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
【主权项】
1.一种用简化偏最小二乘预测细胞色素P450酶CYP1A2抑制剂的抑制浓度的方法,其特征在于:包括如下步骤, 1)样本集的收集、处理和优化; 收集细胞色素P450抑制剂分子的结构以及相对应的抑制浓度,对收集的每个抑制剂分 子进行结构优化; 2)抑制剂分子描述符的构建 输入优化之后的细胞色素P450抑制剂分子结构,计算出与其对应的分子描述符值,每 个抑制剂分子包括若干个变量; 3)抑制剂分子描述符的初步筛选 删除对矩阵没有意义的描述符,降低冗余度; 4)抑制剂分子描述符数据集的重新标度 将经过初步筛选的抑制剂分子描述符利用matlab工具,采用Standardizat1n这个函数将 抑制剂分子描述符的数据映射到一个范围内,所述范围为-6?6之间; 5)抑制剂分子描述符数据集的划分 将步骤2)至4)处理后的抑制剂分子描述符数据集,利用kennard-stone方法将 数据集分为训练集和测试集; 6)建立模型 用细胞色素P450抑制剂分子结构即就是用步骤2)至4)处理之后的抑制剂描述符与 其对应的抑制浓度建立关系模型,即QSAR模型; 7)预测细胞色素P450酶CYP1A2抑制剂的抑制浓度 根据所述步骤5)所得的测试集与所述步骤6)所建立的QSAR模型来预测细胞色 素P450抑制剂的抑制浓度。
2.根据权利要求1所述的简化偏最小二乘预测细胞色素P450酶CYP1A2抑制剂的抑制浓度的方法,其特征在于:所述步骤I)中收集52种细胞色素P450抑制剂分子及与其相对应的抑制浓度。
3.根据权利要求1所述的简化偏最小二乘预测细胞色素P450酶CYP1A2抑制剂的抑制浓度的方法,其特征在于:所述步骤2)中分子描述符的计算是采用在线药物分子描述符计算E-Dragon完成。
4.根据权利要求1所述简化偏最小二乘预测细胞色素P450酶CYP1A2抑制剂的抑制浓度的方法,其特征在于:所述步骤3)中分子描述符的初步筛选,采用以下具体步骤: (i)删除对矩阵没有意义的描述符,降低冗余度; (ii)选择某一变量对应不同的样本时具有较大的方差,表征的信息量大,在统计分析中才会显著; (iii)相关性较高的变量说明该变量包括了另一变量含有的信息,相关性较高的变量同时引入模型,会导致预测结果变差,应剔除二者之一; (iv)剔除化合物的活性/性质和变量相关性极差的变量; (V)使用逐步多元和无用信息变量结合的方法挑选最终的描述符。
5.根据权利要求1所述的简化偏最小二乘预测细胞色素P450酶CYP1A2抑制剂的抑制浓度的方法,其特征在于:所述步骤5)中数据集的划分,将数据集用kennard-stone方法按照4:1的比例划分为训练集和测试集。
6.根据权利要求1所述的简化偏最小二乘预测细胞色素P450酶CYP1A2抑制剂的抑制浓度的方法,其特征在于:所述步骤7)中所述的预测过程,将步骤5)所得测试集代入步骤6)所述的关系模型中,得到对应细胞色素P450抑制剂分子的抑制浓度的预测值。
【专利摘要】本发明公开了一种简化偏最小二乘预测细胞色素P450酶CYP1A2抑制剂的抑制浓度的方法,包括如下步骤:1)样本集的收集、处理及优化;2)抑制剂分子描述符的构建;3)抑制剂分子描述符的初步筛选;4)抑制剂分子描述符数据集的重新标度;5)抑制剂分子描述符数据集的划分;6)建立QSAR模型;7)预测细胞色素P450酶CYP1A2抑制剂的抑制浓度。本发明利用偏最小二乘法(PLS)具有在自变量存在严重多重相关性的条件下也能够进行回归建模的基础上对偏最小二乘回归(PLS)的组分进行进一步的估计和简化,得到简化后的偏最小二乘法(SIMPLS)对细胞色素P450抑制剂的抑制浓度进行准确预测。
【IPC分类】G06F19-00
【公开号】CN104866710
【申请号】CN201510234047
【发明人】卢小泉, 张苗, 陈晶, 王世霞, 关志强, 马琴
【申请人】西北师范大学
【公开日】2015年8月26日
【申请日】2015年5月8日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1