一种基于通路的特异性组合药物靶标检测方法

文档序号:532813阅读:904来源:国知局
专利名称:一种基于通路的特异性组合药物靶标检测方法
一种基于通路的特异性组合药物靶标检测方法所属领域本发明涉及一种药物靶标检测方法,特别涉及一种基于通路的特异性组合药物靶标检测方法。
背景技术
研制创新药物增强药物疗效有赖于特异性药物靶标检测。由于历史、 经济及社会观念等原因所造成的研发投入的不足,我国创新药物研制水平相比国外总体比较落后,药品的来源长期依赖于仿制和进口,比如有关统计表明我国每年需进口药品达40 亿美元以上。更加糟糕的是,在我国加入WTO以后,受低关税的驱使,大量的国外药品开始纷纷涌入我国的药品市场,不仅严重影响到了我国人民的健康和用药安全问题,也对我国医药产业的生存和发展提出了严峻挑战。受知识产权的限制,如何检测出具有较好特异性的药物靶标严重制约着我国制药业发展。发展高效的药物靶标检测方法促进创新药物的研制已经成为我国医药产业发展的面临的首要问题之一。传统的药物靶标检测方法通常借助具有显著药理作用的药物,通过在分子水平上的药理学分析,最终筛选出药物靶标。比如在专利数据库检索中,我们就找到一条这样的药物靶标检测方法,它是由同济大学的储茂泉发明,被称作“量子点纳米荧光探针联合生物芯片寻找中药靶点的方法”(授权专利号为ZL200610024566. 3)。然而,这种基于药理的药物靶标方法受现有药物种类和数量严重制约。随后,人们考虑使用具有药理作用的化合物替代已知药物进行基于药理的药物靶标检测。但总的来说,由于受规模、速度和耗费等因素的限制,这种基于药理的药物靶标检测方法很难实现药物靶标的大规模和高效率检测。20世纪90年代出现的基因芯片技术使得人类获得了检测生物体内成千上万条基因表达含量的能力。最近几年,基因芯片技术日臻成熟,已经成为医学、药学等学科的基本科研工具和手段,有力地推动了生物科技、医疗等产业发展与创新。特别地,基因芯片技术也使得基于机理的药物靶标发现成为现实。很多国内外的制药公司已纷纷投入巨资开展基于基因芯片的药物靶标检测方法研究。一个著名的案例是史克公司通过发展一种基于基因芯片的方法发现了一个治疗骨质疏松的药物祀标,即Cathepsin K。早期的,由于认识的不足,人们主要侧重于单分子药物靶标的检测。近年来,生命现象的复杂性使得人们逐渐认识到一种生物表型的出现往往涉及到多个基因,直至多个具有不同生物功能的通路。作为一种基本生物功能模块,通路协同工作,共同驱动了生物表型的实现。人们开始采用通路的方式进行特异性组合药物靶标检测。当前,基于通路的特异性组合药物靶标检测已经成为药物靶标检测方法的研究焦点,其主要思路可简述如下首先利用基因芯片技术获得生物体内基因表达图谱;然后通过研究通路的活动行为与表型间关联关系来进行特异性组合药物靶标的检测。在国内、国际论文数据库中,可以检索到近100篇相关论文。总的来说,现有的方法可以划分为下面三种类型(I)基于差异表达基因计数的方法该类方法属于最早的一类方法,其主要工作过程如下首先对通路中各单个基因随表型的表达差异显著性进行判别,统计出通路中的差异表达基因的数目,然后使用 Fisher’ s exact (FE)或x 2等假设检验方法估计该数目相对于随机背景下的统计显著性。该类方法的主要缺点在于其需要首先人为给定一个基因差异表达的阈值以确定通路中差异表达基因的数目。可想而知,不同阈值的选择将导致不同的特异性组合药物靶标检测结果。这种检测的不确定性难以从生物学上进行解释,以至于该类方法实际应用性不强。(2)基于单基因差异性组合的方法该类方法不需要对通路中差异表达基因进行判别,而只是在统计出每个基因的表达差异统计量之后,通过组合这些统计量检测通路作为特异性组合药物靶标的特异性信号。因此,该类方法能够克服第一类方法中单基因阈值难以选择的缺陷。较早的,Subramanian等人使用通路中基因秩统计量,结合加权KS变换方法检测通路的特异性信号[Subramanian et al, Gene Set enrichment analysis A knowledge-based approach for interpreting genome-wide expression profiles, PNAS,vol.102, no. 43, pp. 15545-15550, 2005] o Efron等人采用通路基因t-statistics的均值组合方式构建了 maxmean组合差异统计量,实现了同时从Shift和Scale两个方面对特异性组合药物革巴标检测[Efron Bradley and Tibshirani Robert, On testing the significance of sets of genes, The Annals of Applied Statistics, vol. 1,no. 1,pp. 107-129,2007]。特别的,在该类方法中最具代表性的是Oron等人提出的GSEAlm方法[Oron et al. , Gene set enrichment analysis using linear models and diagnostics,Bioinformatics, vol. 24, no. 22, pp. 2586-2591,2008] 0该方法采用了著名的J-G统计量组合方式对通路中每个基因的t-statistics值进行组合,进而建立了更为有效的基于通路的特异性组合药物靶标检测方法。上述三个方法有一个共同点是都隐含地将基因划分为通路内和外两个组别。最近, Sartor 等人[Sator et al. , LRpath a logistic regression approach for identifying enriched biological groups in gene expression data,Bioinformatics,vol. 25,no. 2, pp. 211-217,2009]提出对这种基因划分进行显式地标记,然后在通过建立一种广义线性回归模型进行特异性组合药物靶标检测。该方法被称作LRpath方法。(3)基于基因整合效应的方法该类方法强调如何利用基因间的关联关系信息来刻画通路的差异表达特性,在建模通路中基因整合效应的基础上来进行基于通路的特异性组合药物靶标检测。比如,Nettleton等人提出的基于非参数多变量分析的检测方法 [Nettleton et al. ,Identification of differentially expressed gene categories in microarray studies using nonparametric multivariate analysis. Bioinformatics, vol. 24, no. 2,PP. 192-201,2008]。该类方法中最具代表性的是Geoman等人提出的 Globaltest 方法[Goeman et al. , A global test for groups of genes testing association with a clinical outcome, vol. 20, no. I, pp. 93-99, 2004]。该方法首先使用一种广义线性回归模型来建模通路中基因的整合效应,然后基于该整合效应定义通路特异性信号,最后根据通路的特异性信号的强度检测出特异性组合药物靶标。在以上三类方法中,第一类方法属于最早的一类方法,简单直观,但其检测效果受很多因素的影响,并且在实际应用中的稳定性和可靠性不好。相比第一类方法,第二类方法不需要预先选择一个单基因阈值,同时由于能够进一步考虑基因的差异表达细节,获得了较第一类方法更好的特异性组合药物靶标检测性能。相比第一、二类方法,第三类方法将整个通路中的基因作为一个整体,通过利用基因间广泛存在的关联关系建模通路中基因的整合效应,提高了特异性组合药物靶标的检测3/10 页
性能。然而,第三类方法的一个主要缺陷是难以克服通路中少数弱特异性基因所带来的噪声问题。从生物学上来看,由于一个基因可能具有多种功能,并参与多个基因通路,因此,即使是同一条特异性基因通路,也并不是其中所有的基因都被具有较强的特异性。另外,每个基因的特异性也受到包括基因表达检测信号强度以及检测过程系统性的误差等多种不可预见因素的影响。第三类方法往往强制假设通路中所有基因都具有显著的特异性。显然这种假设是不合理的,忽略了非显著性基因或检测误差等有关因素所引起的噪声问题,削弱了特异性组合药物靶标检测能力。特别针对第三类检测方法的缺陷,本发明基于通路的特异性组合药物靶标检测方法发明并应用一种 gbLR(generalization-based Logistic regression)模型来进行特异性组合药物靶标的检测,较好地克服了特异性组合药物靶标检测的小样本问题,具有更好的稳定性和实用性。发明内容本发明的目的是克服现有药物靶标检测方法中的不足,通过构建一种基于推广性反馈的通路特异性信号检测模型(gbLR),提出了一种新的基于通路的特异性组合药物靶标检测方法。本发明的方法不仅具有处理小样本问题的能力,而且检测精度也有大幅提高。相比现有方法,该方法提高了药物靶标检测的可靠性、实用性和精度。本发明的目的是这样实现的,一种基于通路的特异性组合药物靶标检测方法,包括A、使用基因芯片进行基因表达数据采集用户使用基因芯片进行组织样本的基因表达含量检测,通过对基因芯片上基因杂交信号的扫描,得到进一步处理的基因表达谱数据;基因表达数据包括标准基因表达谱数据和阳性基因表达谱数据,其中,标准基因表达数据为正常组织样本的基因表达谱数据,相应的组织样本标签为O的数值;阳性基因表达谱数据为阳性组织样本的基因表达谱数据,相应的组织样本标签为大于O的数值;B、通路数据库构建从KEGG、文本文献等生物知识资源中收集通路信息,建立通路数据库,其中的每一条通路给出了一个潜在的特异性组合药物靶标;C、通路表达谱构建从所采集的基因表达谱数据中提取通路中每个基因的表达水平,建立组织样本的通路表达谱;D、构建特异性组合药物靶标检测训练集和测试集将组织样本的标签归一化为一个分布在
上的变量,并以k(k彡2) I的比例分割所有组织样本为训练集和测试集,为了保证不同标签下的组织样本在训练集和测试集中均衡分布,要求具有相同标签的组织样本在训练集和测试集中的比例也为k I ;E、基于gbLR的通路特异性信号检测模块通路表达谱对包括阳性组织样本在内的所有组织样本标签的回归显著性反映了通路作为特异性组合药物祀标的特异性。gbLR (generalization-based Logitic Regression)通路特异性模型使用通路表达谱回归组织样本标签并引入回归推广性反馈来检测通路的特异性信号,具有更可靠的检测性能。gbLR方法描述如下首先,依据IRWLS (Iteratively Reweight Least Square)方法,从通路表达谱中
6随机抽取P个基因作为预测因子,使用训练集组织样本构建L = 100个如下罗切斯特回归模型,j) = e^/(l + e^),其中,e = 2. 718为数学常数,x为组织样本的ρ个基因的表达谱,
3为罗切斯特回归模型的线性回归系数J为组织样本的标签估计;假设训练样本的数目为N,通路表达谱中的基因数目为m,在每个罗切斯特回归模型构建中,随机抽取通路表达谱中的P个基因作为预测因子,P可取为O. 5Xmin(N,m),其中 min表示取最小值函数。然后,采用下式迭代求解罗切斯特回归模型的线性回归系数,
权利要求
1.一种基于通路的特异性组合药物靶标检测方法,其特征在于所述方法采用基于 gbLR的通路特异性信号检测模块检测特异性组合药物靶标,方法的步骤是A、使用基因芯片进行基因表达数据采集使用基因芯片进行组织样本的基因表达含量检测,通过扫描基因芯片上基因杂交信号,得到进一步处理的基因表达谱数据,基因表达数据包括标准基因表达谱数据和阳性基因表达谱数据;B、通路数据库构建从KEGG生物知识资源中收集通路信息,建立通路数据库,其中的每一条通路给出了一个潜在的特异性组合药物靶标;C、通路表达谱构建从采集的基因表达谱数据中提取通路中每个基因的表达水平,建立组织样本的通路表达谱;D、构建特异性组合药物靶标检测训练集和测试集将组织样本的标签归一化为一个分布在
上的变量,并以k I的比例分割所有组织样本为训练集和测试集,为了保证不同标签下的组织样本在训练集和测试集中均衡分布,要求具有相同标签的组织样本在训练集和测试集中的比例也为k I ;E、基于gbLR的通路特异性信号检测模块使用通路表达谱回归组织样本标签并引入回归推广性反馈来检测通路的特异性信号, 包括基于gbLR的通路特异性信号检测模块中,对每一个通路给出一个潜在的特异性组合药物靶标,循环执行下面例程a、构建组织样本标签的罗切斯特回归模型,从通路中随机抽取P个基因作为预测因子,在训练集上建立组织样本标签的罗切斯特回归模型,其中,P取为O. 5Xmin (N, m),N为训练样本的数目、m为通路表达谱中的基因数目、min表示取最小值函数,重复L次,构建L 个组织样本标签的罗切斯特回归模型j) = /(I+ ^x),其中,X为组织样本的P个基因表达谱、#为罗切斯特回归模型的线性回归系数、j)为组织样本的标签估计、e为数学常数;b、估计所有组织样本的标签,基于所建立的组织样本标签的罗切斯特回归模型 j) = ^x/(l + ^x),对所有训练集和测试集中的组织样本的标签进行回归估计;C、计算罗切斯特回归模型负对数显著性,基于训练集和测试集中组织样本的标签真实值与估计值计算罗切斯特回归模型的P-Value负对数显著性,是对每一个罗切斯特回归模型,用所有组织样本估计其F统计量的p-Value值pV,然后依据pV计算罗切斯特回归模型的p-Value负对数显著性为Iv = -IoglO (pV);d、获取通路特异性信号,L次循环结束后,通过基于L个组织样本标签罗切斯特回归模型的通路特异性检测,对所获得L个p-Value负对数显著性取中值,作为通路的特异性信号;F、特异性组合药物靶标辨识采用罗切斯特回归模型p-value负对数显著性阈值t,将步骤E所得到的通路特异性信号与该阈值t进行比较当通路特异性信号大于阈值t时,则判定通路为特异性组合药物靶标,否则拒绝作为特异性组合药物祀标。
2.根据权利要求I所述一种基于通路的特异性组合药物靶标检测方法,其特征是A步骤中,所述基因表达数据包括标准基因表达谱数据和阳性基因表达谱数据,其中,标准基因表达谱数据为正常组织样本的基因表达谱数据,相应的组织样本标签为O的数值,阳性基因表达谱数据为阳性组织样本的基因表达谱数据,相应的组织样本标签为大于O的数值。
3.根据权利要求I所述一种基于通路的特异性组合药物靶标检测方法,其特征是D步骤中,所述将组织样本的标签归一化为一个分布在
上的变量,并以k I的比例分割所有组织样本为训练集和测试集,其中k > 2。
4.根据权利要求I所述的一种基于通路的特异性组合药物靶标检测方法,其特征是E 步骤中,所述重复L次,构建L个组织样本标签的罗切斯特回归模型,j) = /(I+ x),是使用IRWLS方法构建,其中的L >50,罗切斯特回归模型的线性回归系数^通过反复迭代进行估计,直至赤池信息量不再减少。
5.根据权利要求I所述的一种基于通路的特异性组合药物靶标检测方法,其特征是F步骤中,所述采用罗切斯特回归模型p-value负对数显著性阈值t,其中的t为.1.3( = -IoglO (O. 05)) O
全文摘要
本发明公开了一种基于通路的特异性组合药物靶标检测方法,该方法由五个执行过程和一个核心检测模块所组成,即使用基因芯片进行基因表达数据采集、通路数据库构建、通路表达谱构建、特异性组合药靶检测训练集和测试集构建、基于gbLR的通路特异性信号检测模块、以及特异性组合药靶辨识。在基于gbLR的通路特异性信号检测模块中,使用gbLR模型引入回归推广性反馈,并融合多次的局部特异性信号检测结果来避免非显著特异性噪声干扰,提高了通路特异性信号检测精度和可靠性。相比现有方法,本发明方法使用gbLR模型,克服了通路特异性信号检测中的小样本问题,并不受现有药物的限制,提供了一种较为可靠、精确、实用的药物靶标检测方法。
文档编号C12Q1/68GK102586418SQ20111039628
公开日2012年7月18日 申请日期2011年12月2日 优先权日2011年12月2日
发明者王红强, 郑春厚, 陈鹏 申请人:中国科学院合肥物质科学研究院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1