一种基于牵连犯罪原则和网络拓扑结构特征的药物-靶标相互作用识别方法

文档序号:9397083阅读:614来源:国知局
一种基于牵连犯罪原则和网络拓扑结构特征的药物-靶标相互作用识别方法
【技术领域】
[0001] 本发明属于计算机辅助药物设计技术领域。更具体地,涉及一种基于牵连犯罪原 则和网络拓扑结构特征的药物-靶标相互作用识别方法。
【背景技术】
[0002] 新药研究与开发一直是一个费时、费力的过程。据估计一个新药上市平均要花费 数十亿美元和十多年时间。近年来新药研发的成功率一直呈下降趋势,造成这种现象的一 个主要原因是药物-靶标相互作用信息地缺乏。大部分药物都是生物活性小分子,主要通 过与靶标蛋白质的相互作用阻断异常的生物过程发挥疗效。因此,识别药物-靶标相互作 用一直是药物研发的重要部分,识别药物-靶标相互作用不仅可以减少研发成本和时间, 而且有助于阐明药物活性机制。
[0003] 在药物-靶标相互作用识别模型的构建中,蛋白质与药物靶标相互作用对的合 理、有效表征是影响模型预测性能的关键。采用蛋白质一级结构描述符和药物分子指纹描 述符表征药物-靶标相互作用对是一种简单的方法,通过该方法,药物-靶标相互作用对可 以表征为一个高维特征向量,但是该方法没有考虑生物网络的整体性和鲁棒性等特点。因 此,近年来研究人员提出了基于网络的药物-靶标相互作用识别方法,但是该方法仅把药 物-靶标相互作用模拟为二部图,没有考虑到蛋白质与蛋白质以及药物与药物之间的相互 作用,而且仅把蛋白质和药物考虑为一个单纯的点,忽略了物理化学等性质。因此,提出全 新的药物-靶标相互作用表征方法,并发展自动、可靠的药物-靶标相互作用识别方法具有 重大的理论和实际应用意义。

【发明内容】

[0004] 本发明要解决的技术问题是克服现有新药研发中药物-靶标相互作用识别技术 的缺陷和不足,提供一种新的简单、合理、高效的药物-靶标相互作用标准方法一一网络拓 扑结构特征,在网络拓扑结构特征的基础上,利用随机森林算法构建模型对药物-靶标相 互作用进行识别研究,有望应用于新药研究和计算机辅助药物设计等领域。该表征方法不 仅包含药物指纹描述符和蛋白质一级结构描述符信息,而且还包含了网络拓扑结构信息, 预测结果明显优于现有文献报道结果。
[0005] 本发明的目的是提供一种基于牵连犯罪原则和网络拓扑结构特征的药物-靶标 相互作用识别方法。
[0006] 本发明另一目的是提供该方法的应用。
[0007] 本发明上述目的通过以下技术方案实现:
[0008] -种基于牵连犯罪原则和网络拓扑结构特征的药物-靶标相互作用识别方法,包 括以下步骤:
[0009] SI.构建药物-靶标相互作用组网络
[0010] SlL从现有数据库收集人类蛋白质与蛋白质相互作用数据和药物-靶标相互作 用数据;
[0011] S12.基于相互作用数据,构建包含蛋白质-蛋白质相互作用子网络、药物-靶标相 互作用子网络和药物-药物关系子网络的综合药物-靶标相互作用组网络;
[0012] S2.表征药物-靶标相互作用对
[0013] S21.基于蛋白质一级序列信息和药物小分子结构信息,分别计算其一级结构描述 符和药物分子指纹描述符,结合相互作用信息,对网络节点和边加权;
[0014] S22.基于加权的节点和边信息,采用牵连犯罪原则和图论分别计算网络中蛋白质 和药物小分子的网络拓扑结构特征,网络拓扑结构特征通过下式计算:
[0017] 式中,Dd⑴和Dj⑴分别表示药物分子d和邻居药物分子j的第i个节点权重;
[0018] Ed, j是药物分子d和j的边权重;
[0019] Pp⑴和Pj⑴分别是蛋白质p和其邻居蛋白质j的第i个节点权重;
[0020] Ep,j是蛋白质p和邻居j的边权重;
[0021] N是药物分子d或者蛋白质p的邻居总数;
[0022] S23.基于蛋白质和药物小分子的网络拓扑结构特征,提出药物d-靶标p的相互作 用对网络拓扑结构特征,其表示如下:
[0023] DPmhp = DNTFiPPNTFr
[0024] 式中,?表示正交求和;最终,药物-靶标相互作用对被表征为一个2791维的特 征向量;
[0025] S3.采用随机森林算法构建预测模型,预测潜在药物-靶标相互作用,为新药设计 和病理机制研究提供理论参考。
[0026] 具体地,步骤SI 1所述现有数据库为DrugBank数据库和HIPPIE数据库。
[0027] 步骤S12所述子网络中,每一个定点表示蛋白质或者药物小分子;如果两个蛋白 质或者药物-靶标具有相互作用,则用一条边连接这两个顶点;如果两个药物小分子具有 共同的蛋白质靶标,则用一条边连接。
[0028] 步骤S21所述一级结构描述符是一个1767维特征向量,包括:氨基酸组成、二肽组 成、各种自相关描述符以及组成、转变和分布描述符;所述分子指纹描述符是一个1024维 的二进制特征向量,"1"表示药物分子具有某一种特定分子结构,"〇"表示没有。
[0029] 作为一种具体的可实施方案,步骤Sl构建药物-靶标相互作用组网络的具体方法 为:
[0030] (1)从HIPPIE数据库收集人类蛋白质相互作用信息,去除自相互作用、重复相互 作用以及相互作用得分为〇的相互作用;根据蛋白质获得号,从UniprotKB/Swiss-Prot数 据库获取蛋白质序列信息,计算氨基酸组成、二肽组成、自相关描述符和组成、转变和分布, 获得蛋白质一级结构描述符,基于收集的信息,构建节点和边加权的人类蛋白质-蛋白质 相互作用子网络;其中,节点权重是蛋白质一级结构描述符,边权重是蛋白质相互作用得 分;
[0031] (2)从DrugBank数据库收集药物-靶标相互作用信息,废除靶标不属于人类的 相互作用数据,根据药物小分子结构信息,采用PaDEL-Descriptor软件计算分子指纹描述 符,构建药物-靶标相互作用子网络;其中,药物节点权重是分子结构描述符,靶标节点权 重是蛋白质一级结构描述符,如果药物和靶标分子发生相互作用,则用一条边连接。
[0032] (3)根据(2)获得的药物-靶标相互作用数据,构建药物-药物关系子网络;如果 两个药物分子具有相同的靶标蛋白质,则用一条边连接;根据两个药物的靶标蛋白质的数 目和公共蛋白质的数目,计算边权重,节点权重是分子指纹描述符;
[0033] (4)根据蛋白质的获得号和药物分子在DrugBank数据库中的ID号,合并三个子网 络,构建融合的药物-靶标相互作用组网络。
[0034] 构建得到的药物-靶标相互作用组网络包含:240300条边和17695个节点;其中, 153749条边表示蛋白质-蛋白质相互作用,77713条边表示药物-药物关系,8838条表示药 物-靶标相互作用;在所有的节点中,14086个是蛋白质,3609个是药物小分子。
[0035] 作为一种具体的可实施方案,步骤S2表征药物-靶标相互作用对的具体方法为:
[0036] (1)对于一个药物d和靶标蛋白质p的相互作用,通过药物-靶标相互作用组网络 查找药物d的邻居药物小分子,考虑邻居分子的拓扑结构信息,节点权重和边权重信息,采 用下式计算药物d的网络拓扑结构特征:
[0038] (2)查找靶标蛋白质p的邻居蛋白质分子,考虑靶标蛋白质p的网络拓扑结构以及 节点和边权重,采用下式计算靶标蛋白质P的网络拓扑结构特征:
[0040] (3)同时考虑药物d和靶标蛋白质p网络拓扑结构信息,通过下式表征药物-靶标 相互作用对:
[0041] DPNTFk = DNTF];? PNTFp。
[0042] 本发明的方法在实际应用时,步骤Sll收集具有较高可信度的相互作用信息,根 据收集到的信息,步骤S12构建可靠的蛋白质-蛋白质相互作用子网络、药物-靶标相互作 用子网络和药物-药物关系子网络。
[0043] 进一步地,步骤S2基于有效的蛋白质一级结构描述符和药物分子指纹描述符,结 合相互作用信息,对网络节点和边加权,在此基础上提出合理、有效的网络拓扑结构特征用 以表征药物-靶标相互作用。
[0044] 最后,步骤S3优化随机森林算法参数、构建高精度预测模型,所述随机森林算法 的参数如下:森林中树的数目设置为1〇〇,叶节点选择变量的数目设置为总变量数目的平 方根。
[0045] 另外,上述基于牵连犯罪原则和网络拓扑结构特征的药物-靶标相互作用识别方 法在新药研发和/或计算机辅助药物设计中的应用,也在本发明的保护范围之内。具体是 应用于识别药物-靶标相互作用。
[0046] 本发明通过大量研究和探索,提出了新的药物-靶标相互作用表征方法一一网络 拓扑结构特征,该表征方法不仅包含了蛋白质一级结构和药物小分子结构信息,而且还包 括了生物网络拓扑结构信息,将其与随机森林算法相结合,建立了药物-靶标相互作用识 别新方法。基于构建的数据集,进行了 10-折交叉验证实验,并与现有文献报道的方法进行 了比较,结果显示,本发明方法的预测结果显著优于文献的方法,表明了本发明方法的有
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1