一种快速虚拟筛选人体小肠易吸收药物的方法_3

文档序号:8319431阅读:来源:国知局
-水分配系数分布在-3~8之间,小肠吸 收率在80%以上。将上述文件保存成SMILES格式文件。
[0031] 二、变量预处理
[0032] 利用Dragon和⑶K二种描述符计算软件,输入(1)中处理后的包含388个分子 的SMILES文件,计算二种不同类型的描述符。计算后描述符中存在大量的常量或共线性高 变量。采取以下方法处理:首先对化学描述符归一化处理X s= (X i-xmin)/(Xmax-Xmin),其中, Xs为归一化后描述符的值,Xi为描述符原始值,Xmax与Xmin分别表示最大与最小的描述符 值.利用以上方法,将描述符值归一到0到1之间,同时记录每个描述符的最小值X min和最 大值Xmax。随后,删除信息含量低(标准偏差<〇.〇〇1)的描述符。若两个描述符的相关性 大于0. 90,则随机删除其中一个,经预处理后,分别得到121个⑶K描述符、722个Dragon 描述符。
[0033] 三、重量变量筛选及构建线性模型
[0034] 通过R软件中的随机森林方法,对上述二组数据构建初步模型。随机森林方法对 建模数据中变量的重要性进行排名。取占化合物个数的10 %以内的数字作为提取重要描述 符个数的上限。例如本数据集中有388个化合物,提取的描述符变量个数不应该超过39个 (:^洲乂⑴^二別"经四舍五入后的值^此处取重要度排名前⑴的描述符做示例说明。
[0035] 3. 1利用随机森林法对Dragon描述符的重要性排序,前10名最重要描述符及相应 重要度数值如表1所不。
[0036] 表1基于Dragon描述符的重要度排名前10位变量及性质
[0037]
【主权项】
1. 一种快速虚拟筛选人体小肠易吸收药物的方法,其特征在于,包括w下步骤: 一、 化合物小肠吸收数据库的优化;将已有的化合物分子结构及其小肠吸收率数值收 集形成化合物小肠吸收数据库,对化合物数据的结构与活性进行优化,得到具有准确小肠 吸收率的单一化合物,该些化合物的分子量集中在50~500之间; 二、 描述符计算与变量预处理;将步骤一中得到的文件内容输入,利用不同的化合物描 述符计算软件,计算不同类型的描述符,计算后描述符中存在大量的常量或共线性高的变 量,首先对化学描述符归一化处理义,=^1-义。1。^知。。,-义。1。),其中,义,为归一化后描述符的 值,X为描述符原始值,Xm"与Xmi。分别表示最大与最小的描述符值,通过上述公式将描述 符值归一到0到1之间,同时记录每个描述符的最小值Xmi。和最大值X m",删除标准偏差小 于0. 001的描述符,若两个描述符的相关性大于0. 90,则删除其中一个; =、重要变量筛选及线性模型构建;基于步骤一中得到的化合物活性数据和步骤二中 计算的结构描述符数据利用变量筛选方法,对每个类型描述符变量依重要性大小进行排 序,挑选部分重要描述符,W化合物的小肠吸收率为因变量,采用多元线性回归方法构建的 预测化合物小肠吸收率的线性方程模型,对于每种类型的描述符,构建一组多元线性回归 方程; 四、预测新型化合物的人小肠吸收率:新型化合物分子结构按照步骤一中的结构优化 方法优化,按步骤二中的软件计算新型化合物的化学结构描述符,依据步骤二中记录每种 描述符的最小值Xmi。和最大值X ,对新型化合物的描述符进行归一化处理,最终依步骤S 选取的重要描述符,将新化合物中对应描述符的数值代入步骤=构建的多元线性回归方 程,计算出活性,即该新型化合物的人小肠吸收率预测值,同时,将不同线性方程的预测值 平均,即是新型化合物分子的最终小肠吸收预测值。
2. 根据权利要求1所述的快速虚拟筛选人体小肠易吸收药物的方法,其特征在于:所 述步骤一中对化合物数据的结构与活性进行优化是指;剔除有机金属化合物、混合物,消除 顺反异构,消除化合物结构手性碳结构,将剩余的所有化合物结构都标准化,经过排序,对 于小肠吸收率相同的重复化合物保留一个,对于吸收率数值不同的重复化合物,根据其重 复个数,若重复数目为2,计算两重复化合物小肠吸收率的平均值M,若I S1-MI /M > 0. 20,贝。 表示活性值差异大,舍弃该化合物,若I S1-MI/M在0. 20 W内,则W平均值M为该化合物实 际小肠吸收率;若重复化合物数目为3个或超过3个,则采用狄克逊Dixon检验法,剔出异 常值后,对剩余小肠吸收值取平均值代表该化合物实际的小肠吸收率,S1表示两化合物中 一个的吸收率。
3. 根据权利要求1所述的快速虚拟筛选人体小肠易吸收药物的方法,其特征在于:所 述不同类型的描述符是指;各种依据有机化合物的分子结构计算其相关参数的结构描述 符,包括一维、二维、立维的化学结构描述符。
4. 根据权利要求1所述的快速虚拟筛选人体小肠易吸收药物的方法,其特征在于:所 述变量筛选方法包括简单的逐步回归到复杂的机器学习方法,可W针对所有描述符的重要 性进行定量化排序的变量筛选方法。
5. 根据权利要求1所述的快速虚拟筛选人体小肠易吸收药物的方法,其特征在于:所 述挑选部分重要描述符是指:依据描述符重要性排序,从最重要描述符进行始挑选,其最终 用于构建多元线性回归模型的描述符个数不超过建模化合物数目的10%。
6. 根据权利要求1所述的快速虚拟筛选人体小肠易吸收药物的方法,其特征在于:所 述步骤二经预处理后,得到388个具有准确小肠吸收率的单一化合物。
7. 根据权利要求1所述的快速虚拟筛选人体小肠易吸收药物的方法,其特征在于: 所述步骤二中采用化agon和CDK两种描述符计算软件,所述步骤S中利用随机森林法 进行经变量筛选,选取10个重要的Dragon描述符为自变量,W化合物的小肠吸收率为 因变量,构建线性方程模型,公式1巧=1. 126(±0. 0743)+1. 145(±0. 196)*TPSA(Tot )-0. 339(±0. 143)地y-0. 338(±0. 0936)冲03[N-0]+0. 00850(±0. 176)*n〇-〇. 0624(± 0. 0935) *AL0GP-0. 326 (±0. 0920) *0-057+0. 330 (±0. 315) *nR0H+0. 741 (±0. 274) *T(N ..0)+0. 495 (±0. 252)*T〇). . 0)-0. 803 (±0. 299)*0-056,拟合误差为 0. 163,选取 10 个 重要的CDK描述符为自变量,W化合物的小肠吸收率为因变量,构建线性模型,公式2: y = 1. 070(±0. 0521)*-1. 090(±0. 293)*TopoPSA-0. 800(±0. 186)*n皿Don-0. 742(± 0. lll)*MDE0-ll+0. 515(±0. 211)*n皿Acc-0. 0570(±0. 151)*ldis. sOH+1. 118(±0. 268 )*WTPT-4-0. 0434 (±0. 0820)村LogP-1. 390 (±0. 356) *ATScl-〇. 0401 (±0. 0413) *ldis. aaNH+0. 388(±0. 296)*WTPT-3。
【专利摘要】本发明公开了一种快速虚拟筛选人体小肠易吸收药物的方法,包括以下步骤一、化合物小肠吸收数据库的优化;二、变量预处理;三、重量变量筛选及构建线性模型;四、新型化合物小肠吸收率预测。本发明依据上述重要结构参数,建立人体小肠内药物吸收的线性统计预测模型,将新型化合物的结构参数代入模型中,计算候选药物小分子的人体小肠吸收率,判断新型分子是否适合作为临床上口服药物使用,相比复杂的机器学习模型,本发明建立的线性统计模型原理简单,方便使用,计算工作量少,适合做前导药物小分子的大规模筛选。
【IPC分类】G06F19-00
【公开号】CN104636619
【申请号】CN201510069837
【发明人】朱祥伟
【申请人】青岛农业大学
【公开日】2015年5月20日
【申请日】2015年2月10日
当前第3页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1