用于发现中药活性成分及其作用靶点的网络药理学方法

文档序号:6399435阅读:1412来源:国知局
专利名称:用于发现中药活性成分及其作用靶点的网络药理学方法
技术领域
本发明涉及计算机辅助药物设计领域,特别涉及一种基于化合物和蛋白质相似性、用于发现中药活性成分及其作用靶点的网络药理学方法。
背景技术
中药具有多成分、多靶点协同整体作用的特点,各个成分和靶点之间的关系所呈现的其实是一种复杂的网状结构。但是,长久以来,中药研发基本上都是把药物作为单一扰动因素,并以此为基础研究其与生物应答系统的关系(“点一系统”),不能很好地反映中药干预系统与生物应答系统之间的交互关系(“系统一系统”),使之难以明确中药的药效物质群并进行复方的配伍优化。而且,大多数中药研发所采用的基于化学成分分离和简单的活性成分筛选相结合的方法,难以真正阐释中药的科学内涵。近年来出现的网络药理学,突破了传统“单药物,单靶点”药物研发模式的瓶颈,并提供了一种基于“多药物,多靶点”相互作用关系的药物研发新模式和新思路,这与中药的多成分、多靶点、多途径等特点正好吻合,因此,借鉴网络药理学的理念和方法进行中药研发,有可能为中药药效物质基础研究和相应靶点发现等带来前所未有的机遇。而且,放眼全球还可以发现,由于in silico技术的应用,世界范围内的药物研发费用减少了约一半左右,所以,in silico技术的投入在整个药物研发的投入上所占比例也越来越大,到 2016 年将达 20% 左右(1.M.Kapetanovic, Chemi co-bio logical interactions,2008.171 (2),p.165-176)。特别是在临床前研究阶段,使用计算机辅助药物设计手段进行药物虚拟筛选和优化设计可以大幅度降低费用并提高效率。但是,目前in silico技术在中药研发中所占的比重还非常低,其应用价值还不能很好体现。在进行传统实验之前,如果能够发展和推广使用in silico技术、并选择与中药的特点较为吻合的理念和模式进行评价筛选,对于中药现代化将有着重大意义。

发明内容
本发明的目的是针对中药多成分、多靶点协同整体作用的特点,提供一种结合网络建模技术、基于化合物和蛋白质相似性、用于发现中药活性成分(化合物)及其作用靶点(蛋白质)的方法,以提高中药活性成分及其作用靶点的筛选准确率和效率。一种用于发现中药活性成分及其作用靶点的网络药理学方法,包括:(A)收集用于构建训练集的化合物、蛋白质(潜在的作用靶点)和它们之间的相互作用数据;该步骤中收集的化合物和作为潜在靶点的蛋白质取自于Drugbank数据库。(B)分别获取所述化合物的分子结构和所述蛋白质的氨基酸序列;该步骤中化合物的分子结构和蛋白质的氨基酸序列均从Drugbank数据库获取,其中化合物的分子结构为SDF格式;(C)根据所述化合物的分子结构计算化合物的分子描述符,根据所述蛋白质的氨基酸序列计算蛋白质的特征描述符;
(D)根据所述分子描述符和特征描述符以及两者之间的相互作用数据构建训练集;(E)基于所构建的训练集,使用机器学习方法建立化合物和蛋白质相互作用预测模型;(F)对需要预测的中药,收集其已知的化合物成分,计算所述化合物成分的分子描述符,连同步骤(C)中得到的蛋白质的特征描述符构建预测集;(G)使用所述预测模型对所述预测集进行预测,所述的预测结果表示化合物和蛋白质之间是否存在相互作用;(H)根据步骤(G)得到的模型预测结果构建化合物和蛋白质相互作用网络;(I)通过对所述网络分析,得到需要预测的中药的潜在活性成分和相应靶点。为便于计算,作为优选,步骤(C)中所述分子描述符可选择通过Dragon软件计算得到;所述特征描述符通过PseAAC工具(伪氨基酸组成工具,Pseudo Amino AcidComposition,可参考文献 HB Shen & KC Chou, Analytical Biochemistry, 2008, 373 (2), p.386 - 388)工具计算得到。为提高预测精度和预测过程的稳定性,作为优选,所述步骤(C)中得到分子描述符后,对得到的每一个分子描述符进行如下判断,若满足如下条件之一则剔除该分子描述符:(O该分子描述符中含有无效值;(2)该分子描述符中零值比例大于设定比例;(3)该分子描述符的标准差小于设定标准差。所述步骤(D)中,根据所述分子描述符和特征描述符构建训练集时:其中的独立变量为计算获得的分子描述符和特征描述符,因变量为化合物和蛋白质之间的相互作用关系,具体构建步骤为:(I)根据步骤(A)中的相互作用数据做如下判断:如果一个化合物和一个蛋白质之间存在着已知的相互作用关系,那么对应的因变量值为阳性(positive);如果一个化合物和一个蛋白质之间未发现有已知的相互作用关系,对应的因变量值为阴性(negative);(2)所有存在相互作用关系的化合物和蛋白质构成阳性样本,而阴性样本则从未发现存在相互作用关系的化合物和蛋白质比对中随机产生,并使阳性样本和阴性样本的数据比例保持为1:0.8-1.5。步骤(E)中,所述机器学习方法为逻辑回归方法(logistic regression)。所述步骤(H)中,根据步骤(G)得到的模型预测结果构建化合物和蛋白质相互作用网络时:对于预测结果大于设定阈值时,把相应的化合物和蛋白质作为网络节点,将该化合物和蛋白质用一条边连接,当所有被预测的存在相互作用的化合物和蛋白质比对都被连接起来,网络的构建即完成。为提高预测准确率,作为优选,所述步骤(I)中,对所述网络分析时:对每个网络节点上的连接边变数进行判断,当连接边变数大于设定值时,保留该网络节点;反之删除该网络节点以及与该网络节点相连的边;最后得到需要预测的中药的潜在活性成分和相应靶点的网络。本发明的有益效果体现在:(I)使用逻辑回归方法建立预测模型,为预测化合物和蛋白质的相互作用关系提供了一种快速的建模和预测方法;
(2)通过构建网络模型并进行网络分析,并选择那些连接数大的的节点作为候选目标,能够大大提高最终的预测准确率。这是因为,所构建的网络是基于逻辑回归模型所预测的化合物和蛋白质的相互作用结果进行整合的,网络中的那些节点,其连接数越大,就意味着它们与其他化合物或蛋白质产生相互作用的可能性越大,因此选中这些节点能够增加命中的概率,从而提高预测准确率。(3)与基于传统实验的方法相比,本发明能够大幅度提高对中药活性成分和相应靶点进行虚拟筛选和预测的效率。


图1为基于本发明的用于发现中药活性成分及其作用靶点的网络药理学方法预测获得的川芎的活性成分和相应靶点的网络图;其中,D7为胆碱,D20为十七碳酸乙酯,D21为异十七碳酸乙酯,D22为异十八碳酸乙酯,D23为硬脂酸乙酯,D24为棕榈酸乙酯,D25为十五碳酸乙酯,D27为十六烷酸(棕榈酸),D32为十六烷酸甲酯(棕榈酸甲酯),D34为十五碳酸甲酯,D56为三甲胺,T183为血管内皮生长因子,T791为尿激酶型纤溶酶原激活物表面受体,T870为粒细胞集落刺激因子受体,T3817为QlqC,T3823为细胞因子受体共同Y链,T6174为核糖体蛋白。
具体实施例方式为使本发明的目的、实施方案和优点更加清楚明白,这里结合具体实施例子作进一步的详细说明,以下是使用该方法预测一种常用于活血行气、祛风止痛的中药——川芎的活性成分和相应靶点的例子。A、收集构建训练集的化合物(药物)、蛋白质和它们之间的相互作用数据。DrugBank3.0 数据库(C.Knox et al., Nucleic Acids Research, 2011 39 (supplI),p.D1035-D1041)以XML格式文件提供了 1000多个美国FDA已批准药物和5000多个试验药物的信息、这些药物已知的作用靶点(蛋白质)的信息、以及这些药物和蛋白质之间的相互作用关系信息。下载包含全部药物及蛋白质信息的XML文件以用于构建训练集。B、分别获取上述化合物的分子结构和蛋白质的氨基酸序列。另从DrugBank数据库下载所有药物(化合物)所对应的SDF格式的分子结构,并从步骤(A)中下载的XML文件中提取所有蛋白质的序列。C、分别计算化合物的分子描述符和蛋白质的特征描述符。使用Dragon软件来计算化合物的2D分子描述符,共929个;同时,剔除掉那些含有无效值、零值过多(例如>90%)和标准差过小(例如〈0.5)的描述符,最后剩下368个2D分子描述符。使用PseAAC工具来计算蛋白质的特征描述符,共30个。D、根据化合物的分子描述符和蛋白质的特征描述符构建训练集。训练集的样本由化合物和蛋白质的组合构成,其中的独立变量包括通过Dragon软件计算获得的368个分子描述符和通过PseAAC计算获得的30个蛋白质特征描述符,而因变量是化合物和蛋白质之间的相互作用关系。根据步骤(A)下载的相互作用数据判断,如果一个化合物和一个蛋白质之间存在着已知的相互作用关系,那么对应于因变量的值为阳性(1,positive);否则,如果一个化合物和一个蛋白质之间未发现有相互作用关系,那么对应于因变量的值为阴性(0,negative)。所有存在相互作用关系的化合物和蛋白质比对用于产生阳性样本,而阴性样本则从未发现存在相互作用关系的化合物和蛋白质比对中随机产生,并使阳性样本和阴性样本的数据比例保持为1:1。对训练集数据进行归一化处理,使所有数值都处于
之间。E、建立化合物和蛋白质相互作用预测模型。基于所构建的训练集,使用逻辑回归方法建立预测模型,并通过使用java版本的 Iiblinear 软件包(R.E.Fan, The Journal of Machine Learning Research, 2008 (9),P1871-1874.)来实现。训练参数:-s, Solver 类型使用 Ll-regularized logistic regression (L1R_LR);-c,惩罚参数设置为I;其他参数使用缺省值。F、收集中药的已知化合物成分,计算相应的特征描述符并构建预测集。从文献和数据库中收集川芎的化合物成分,利用Dragon软件计算化合物成分的2D分子描述符,只留下那些与步骤(C)中相一致的分子描述符,其余全部剔除,以保证与训练集分子描述符个数一致。与(A)步骤中从Drugbank下载获得的蛋白质进行整合。与步骤(D)类似,预测集的样本由待预测的中药化合物和已知蛋白质的组合构成,其中的独立变量包括通过Dragon软件计算并处理后获得的368个分子描述符和通过PseAAC计算获得的30个蛋白质特征描述符。G、使用建立的预测模型对预测集进行预测。通过使用步骤(E)中建立的预测模型对预测集进行预测,并设置Iiblinear软件包中的概率选项参数(_b)为I (缺省为0),代表使用概率大小来表示预测值,分布在
之间。值越接近O则表示无相互作用的概率越大,而值越接近I则表示存在相互作用的概率越大。记录所获得的化合物和蛋白质的相互作用结果。H、根据预测结果构建化合物和蛋白质相互作用网络。根据步骤(G)中所预测获得的化合物和蛋白质的相互作用结果,从大到小进行排序。对于预测值> 0.8的相互作用结果,把相应的化合物和蛋白质比对作为网络节点用于构建相互作用网络。如果一个化合物和某个蛋白质被预测为存在相互作用,那么就把这个化合物和蛋白质加入网络并用一条边来连接,当所有被预测为存在相互作用的化合物和蛋白质比对都被连接起来,网络的构建随即完成。1、通过网络分析,发现中药的潜在活性成分和相应靶点。基于所构建的网络,根据所构建的网络节点的连接数(degree)进行判断,这里选择连接数大于9的节点并生成新的子网络,即获得川芎的潜在活性成分和相应靶点的网络图(见图1)。显然,其网络节点由待预测中药的化合物和潜在的靶点(蛋白质)构成。J、结果验证根据本实施例方法所预测的结果如图1可以看出,川芎的潜在活性成分可能包括:异十七碳酸乙酯D21、十五碳酸乙酯D25、硬脂酸乙酯D23、十五碳酸甲酯D34、胆碱D7、三甲胺D56、十七碳酸乙酯D20、十六烷酸甲酯D32、十六烷酸D27、棕榈酸乙酯D2、异十八碳酸乙酯D22。这些成分当中含有大量的挥发油。而通过文献查证可知,挥发油是川芎的重要活性成分(谢秀琼等,时珍国医国药,200718 (6),p.1508-1510)。
此外,如图1所示,川芎的潜在作用靶点包括:尿激酶型纤溶酶原激活物表面受体(Urokinase plasminogen activator surface receptor, UPAR) T791,粒细胞集落剌激因子受体(Granulocyte colony-stimulating factor receptor, GC SFR) T870,QlqC (Complement Clq subcomponent subunit C) T3817,血管内皮生长因子(Vascularendothelial growth factorA,VEGF) T183,细胞因子受体共同 γ 链(Cytokine receptorcommon gamma chain,γ c)T3823,核糖体蛋白质(50S ribosomal protein L32,rpmF)T6174。而通过查阅文献发现,UPAR (Harvey W.Smith et al., Nature ReviewsMolecular Cell Biology,201011 (I).p.23-36)、GCSFR (Barbara A.Katzenback etal.,Developmental and Comparative Immunology, 201236(I), p.199_207)、VEGF(HuaMenget al., The American Journal of Chinese Medicine,200836(3),p.541 - 554)、γ c (AKume et al., Bone Marrow Transplantation (2002) 30,p.113 - 118)等都是曾被报道过的川芎的作用靶点。由此可见,所预测的6个靶点中至少有4个可以通过文献获得验证。因此,通过本发明来发现中药潜在的活性成分和作用靶点,非常适宜对中药的活性成分和作用靶点进行虚拟筛选。
权利要求
1.一种用于发现中药活性成分及其作用靶点的网络药理学方法,其特征在于,包括: (A)收集用于构建训练集的化合物、蛋白质和它们之间的相互作用数据; (B)分别获取所述化合物的分子结构和所述蛋白质的氨基酸序列; (C)根据所述化合物的分子结构计算化合物的分子描述符,根据所述蛋白质的氨基酸序列计算蛋白质的特征描述符; (D)根据所述分子描述符和特征描述符以及两者之间的相互作用数据构建训练集; (E)基于所构建的训练集,使用机器学习方法建立化合物和蛋白质相互作用预测模型; (F)对需要预测的中药,收集其已知的化合物成分,计算所述化合物成分的分子描述符,连同步骤(C)中得到的蛋白质的特征描述符构建预测集; (G)使用所述预测模型对所述预测集进行预测; (H)根据步骤(G)得到的模型预测结果构建化合物和蛋白质相互作用网络; (I)通过对所述网络分析,得到需要预测的中药的潜在活性成分和相应靶点。
2.根据权利要求1所述的用于发现中药活性成分及其作用靶点的网络药理学方法,其特征在于,步骤(C)中所述分子描述符通过Dragon软件计算得到;所述特征描述符通过PseAAC工具计算得到。
3.根据权利要 求1或2所述的用于发现中药活性成分及其作用靶点的网络药理学方法,其特征在于,所述步骤(C)中得到分子描述符后,对得到的每一个分子描述符进行如下判断,若满足如下条件之一则剔除该分子描述符: (O该分子描述符中含有无效值; (2)该分子描述符中零值比例大于设定比例; (3)该分子描述符的标准差小于设定标准差。
4.根据权利要求1所述的用于发现中药活性成分及其作用靶点的网络药理学方法,其特征在于,所述步骤(D)中,根据所述分子描述符和特征描述符构建训练集时:其中的独立变量为计算获得的分子描述符和特征描述符,因变量为化合物和蛋白质之间的相互作用关系,具体构建步骤为: (O根据步骤(A)中的相互作用数据做如下判断:如果一个化合物和一个蛋白质之间存在着已知的相互作用关系,那么对应的因变量值为阳性;如果一个化合物和一个蛋白质之间未发现有已知的相互作用关系,对应的因变量值为阴性; (2)所有存在相互作用关系的化合物和蛋白质构成阳性样本,而阴性样本则从未发现存在相互作用关系的化合物和蛋白质比对中随机产生,并使阳性样本和阴性样本的数据比例保持为1:0.8-1.5。
5.根据权利要求1所述的用于发现中药活性成分及其作用靶点的网络药理学方法,其特征在于,步骤(E)中,所述机器学习方法为逻辑回归方法。
6.根据权利要求1所述的用于发现中药活性成分及其作用靶点的网络药理学方法,其特征在于,所述步骤(H)中,根据步骤(G)得到的模型预测结果构建化合物和蛋白质相互作用网络时: 对于预测结果大于设定阈值时,把相应的化合物和蛋白质作为网络节点,将该化合物和蛋白质用一条边连接,当所有被预测的存在相互作用的化合物和蛋白质比对都被连接起来,网络的构建即完成。
7.根据权利要求6所述的用于发现中药活性成分及其作用靶点的网络药理学方法,其特征在于,所述步骤(I)中,对所述网络分析时:对每个网络节点上的连接边变数进行判断,当连接边变数大于设定值时,保留该网络节点;反之删除该网络节点以及与该网络节点相连的边;最后得到需要预 测的 中药的潜在活性成分和相应靶点的网络。
全文摘要
本发明公开了一种用于发现中药活性成分及其作用靶点的网络药理学方法,包括收集可用于构建训练集的化合物和蛋白质,并根据化合物的分子结构和蛋白质的氨基酸序列分别计算特征描述符;基于化合物和蛋白质的特征描述符构建训练集,并使用机器学习方法建立化合物和蛋白质相互作用的预测模型;对需要预测的中药,收集其已知的化合物成分,计算特征描述符并构建预测集;使用建立的模型对预测集进行预测,并把预测获得的相互作用结果高于给定阈值的化合物和蛋白质用于构建网络;网络节点的连接数较大的化合物和蛋白质即为潜在活性成分和作用靶点。本发明可以提高中药活性成分和作用靶点发现的准确率和效率。
文档编号G06F19/16GK103150490SQ201310054028
公开日2013年6月12日 申请日期2013年2月20日 优先权日2013年2月20日
发明者黄剑平, 范骁辉 申请人:浙江大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1