用于诊断结核病的方法与流程

文档序号:15078654发布日期:2018-08-03 09:59阅读:922来源:国知局

本发明是在政府支持下在美国国立卫生研究院(National Institutes of Health)授予的合同LM007033、AI109662和AI057229下进行的。政府对本发明享有一定的权利。

技术领域

本发明一般涉及用于诊断结核病的方法。具体来说,本发明涉及可用于检测活动性结核病并区分活动性结核病与潜伏性结核病以及其它肺病和传染病的生物标记物。

背景

结核病(TB)是一个全球公共卫生问题,并且在2013年有900万新感染和150万人死亡(Global Tuberculosis Programme,World Health Organization.Global tuberculosis report.Geneva,Switzerland:World Health Organisation;2012卷)。尽管在诊断和治疗方面取得了进展,但仍然存在很大的疾病负担。TB难以准确诊断;诸如结核菌素皮肤测试和干扰素γ释放测定(IGRA)的传统方法不能区分潜伏性TB(LTB)和活动性TB(ATB),并且在HIV阳性患者中的灵敏度较低2。尽管Xpert MTB/RIF测定已显著提高了诊断能力,但其遭受在HIV阳性患者中的准确度降低,并且不能用于监测治疗响应(Steingart等,(2014)Cochrane Database Syst.修订版1:CD009593;Friedrich等,(2013)Lancet Respir.Medl:462-470)。此外,其依赖于诱导痰,所述诱导痰可能难以从症状改善后的成人或从儿科患者随时获得。因此,目前的方法可通过准确的、HIV恒定型血液基的诊断和治疗响应测试来补充。

几项研究已经使用外周血中微阵列-基全基因组表达谱研究了宿主对结核病感染的响应。然而,迄今为止这些研究的结果尚未转化为临床实践,主要原因在于泛化性差。例如,为了将ATB与其它疾病(OD)或LTB(REF Nature和PloS Medicine)以及在儿童和成人中区分开来,已经提出了具有最小重叠的不同基因标签(Anderson等(2014)N.Engl.J.Med.370:1712-1723;Kaforou等(2014)J.Infect 69增刊1:S28-31)。这些研究中的许多现在已经存放在可公开访问的数据库(例如NIH基因表达综合数据库(NIH Gene Expression Omnibus)(GEO))中,此允许所述研究的进一步分析和重复使用。

本领域仍需要针对结核病的可区分潜伏性和活动性疾病的灵敏且特异性的诊断测试以及监测对治疗的响应的更好方法。

概要

本发明涉及生物标记物用于诊断结核病的用途。具体来说,发明人已经发现了可用于检测活动性结核病并区分活动性结核病与潜伏性结核病以及其它肺病和传染病的生物标记物。这些生物标记物可单独地或与一种或多种其它生物标记物或相关临床参数组合用于结核病的预后、诊断或治疗监测。

在一个方面,本发明包括用于诊断和治疗疑似患有结核病的患者的方法,所述方法包括:a)从患者获得生物样品;b)测量生物样品中在患有活动性结核病的患者中过表达的一组基因以及在患有活动性结核病的患者中低表达的一组基因的表达水平,其中在患有活动性结核病的患者中过表达的所述一组基因包含一种或多种选自由以下各项组成的组的基因:AIM2、ALDH1A1、ANKRD22、ASGR1、BATF2、BRSK1、C5、CD274、CNDP2、C1QB、DUSP3、FAM26F、FAM111A、GBP1、GBP2、GBP4、GBP5、GPBAR1、HLA-DMA、KCNJ2、LHFPL2、MOV10、P2RY14、PRPS2、PSMB9、PSME2、RARRES3、SCO2、TAP2、TAPBPL、USF1、VAMP5和WDFY1,并且在患有活动性结核病的患者中低表达的所述一组基因包含一种或多种选自由以下各项组成的组的基因:AP1M1、ARHGEF18、BANK1、BLK、CD79A、CD79B、COL9A2、EML4、FNBP1、GNG7、HLA-DOB、IL27RA、KLF2、MAP7、MCM5、NOV、ORAI1、OSBPL10、OXSR1、PITPNC1、PNOC、PPIA、PPM1H、RBBP7、RNF44、SWAP70、SYTL1、TATDN2、TPK1和TRIM28;和c)通过结合对照受试者的相应参考值范围分析每一生物标记物的表达水平来诊断患有活动性结核病的患者,其中与对照受试者的参考值范围相比在患有活动性结核病的患者中过表达的所述一组基因的表达水平增加与对照受试者的参考值范围相比在患有活动性结核病的患者中低表达的所述一组基因的表达水平降低的组合,指示患者患有活动性结核病;和d)如果患者被诊断患有活动性结核病,则向患者施用有效量的至少一种抗生素。

在某些实施方案中,在患有活动性结核病的患者中过表达的所述一组基因以及在患有活动性结核病的患者中低表达的所述一组基因是选自由以下各项组成的组:a)在患有活动性结核病的患者中过表达的包含GBP5和DUSP3的一组基因,以及在患有活动性结核病的患者中低表达的包含KLF2的一组基因;b)在患有活动性结核病的患者中过表达的包含GBP6、HLA-DMA和TAPBPL的一组基因,以及在患有活动性结核病的患者中低表达的包含TPK1、CD79B和AP1M1的一组基因;c)在患有活动性结核病的患者中过表达的包含ANKRD22、ASGR1和C5的一组基因,以及在患有活动性结核病的患者中低表达的包含OXSR1的一组基因;d)在患有活动性结核病的患者中过表达的包含BATF2、RARRES3和ALDH1A1的一组基因,以及在患有活动性结核病的患者中低表达的包含ORAI1、RBBP7和HLA-DOB的一组基因;e)在患有活动性结核病的患者中过表达的包含VAMP5、PSME2和USF1的一组基因,以及在患有活动性结核病的患者中低表达的包含TATDN2、CD79A和COL9A2的一组基因;f)在患有活动性结核病的患者中过表达的包含GBP2、FAM111A和BRSK1的一组基因,以及在患有活动性结核病的患者中低表达的包含FNBP1、MAP7和IL27RA的一组基因;g)在患有活动性结核病的患者中过表达的包含WDFY1的一组基因,以及在患有活动性结核病的患者中低表达的包含EML4、BANK1和PITPNC1的一组基因;h)在患有活动性结核病的患者中过表达的包含GBP1和GPBAR1的一组基因,以及在患有活动性结核病的患者中低表达的包含OSBPL10、NOV和MCM5的一组基因;i)在患有活动性结核病的患者中过表达的包含CD274、SCO2和KCNJ2的一组基因,以及在患有活动性结核病的患者中低表达的包含GNG7和PPM1H的一组基因;j)在患有活动性结核病的患者中过表达的包含AIM2、GBP4和PRPS2的一组基因,以及在患有活动性结核病的患者中低表达的包含PNOC和RNF44的一组基因;k)在患有活动性结核病的患者中过表达的包含PSMB9、CNDP2、TAP2和FAM26F的一组基因,以及在患有活动性结核病的患者中低表达的包含ARHGEF18、SWAP70和SYTL1的一组基因;和l)在患有活动性结核病的患者中过表达的包含LHFPL2、MOV10、C1QB和P2RY14的一组基因,以及在患有活动性结核病的患者中低表达的包含TRIM28、BLK和PPIA的一组基因。

在另一实施方案中,本发明包括用于诊断和治疗患者的结核病的方法,所述方法包括:a)从患者获得生物样品;b)测量生物样品中GBP5、DUSP3和KLF2生物标记物的表达水平;c)通过结合生物标记物的相应参考值范围分析每一生物标记物的表达水平来诊断患有结核病的患者,其中GBP5和DUSP3生物标记物的表达水平与对照受试者的生物标记物的参考值范围相比增加与KLF2生物标记物的表达水平与对照受试者的生物标记物的参考值范围相比降低的组合指示患者患有活动性结核病;和d)如果患者被诊断患有活动性结核病,则向患者施用有效量的至少一种抗生素。

在另一实施方案中,所述方法进一步包括如本文所述测定患者的TB评分,其中与对照受试者的参考值范围相比,患者的TB评分更高指示患者患有活动性结核病。

参考值范围可代表在一名或多名未患活动性结核病的受试者(例如,健康受试者、未感染受试者或患有潜伏性结核病的受试者)的一个或多个样品中发现的一种或多种生物标记物的表达水平。或者,参考值范围可代表在一名或多名患活动性结核病的受试者的一个或多个样品中发现的一种或多种生物标记物的表达水平。在某些实施方案中,将来自受试者的生物样品中生物标记物的表达水平与患有潜伏性或活动性结核病或其它肺病或传染病的受试者的参考值进行比较。

可用于治疗结核病的抗生素包括(但不限于)乙胺丁醇(ethambutol)、异烟肼(isoniazid)、吡嗪酰胺(pyrazinamide)、利福布丁(rifabutin)、利福平(rifampin)、利福喷汀(rifapentine)、阿米卡星(amikacin)、卷曲霉素(capreomycin)、环丝氨酸(cycloserine)、乙硫异烟胺(ethionamide)、左氧氟沙星(levofloxacin)、莫西沙星(moxifloxacin)、对氨基水杨酸(para-aminosalicylic acid)和链霉素(streptomycin)。

可使用如本文所述的本发明方法来确定患者是否患有活动性结核病并将活动性结核病的诊断与潜伏性结核病以及其它肺病或传染病区分开来。另外,可使用生物标记物的表达水平来评价疾病严重程度,其中在患有活动性结核病的患者中过表达的一组基因(例如GBP5和DUSP3)的表达水平增加以及在患有活动性结核病的患者中低表达的一组基因(例如KLF2)的表达水平降低与结核病感染恶化相关;并且在患有活动性结核病的患者中过表达的一组基因(例如GBP5和DUSP3)的表达水平降低以及在患有活动性结核病的患者中低表达的一组基因(例如KLF2)的表达水平增加与从活动性结核病中恢复相关。或者,可使用TB评分来评价疾病严重程度,其中TB评分增加与结核病感染恶化相关,并且TB评分降低与从活动性结核病中恢复相关。

在某些实施方案中,生物样品包括血液、痰液或免疫细胞(例如单核细胞或巨噬细胞)。

可通过(例如)微阵列分析、聚合酶链式反应(PCR)、逆转录酶聚合酶链式反应(RT-PCR)、RNA印迹(Northern blot)或基因表达系列分析(SAGE)来检测生物标记物多核苷酸(例如编码转录物)。

在另一实施方案中,测量生物标记物的表达水平包括测量以下各项的量:第一体外复合物,其包含与包含GBP5生物标记物基因序列的核酸杂交的第一标记探针;第二体外复合物,其包含与包含DUSP3生物标记物基因序列的核酸杂交的第二标记探针;以及第三体外复合物,其包含与包含KLF2生物标记物基因序列的核酸杂交的第三标记探针,以测定生物样品中GBP5、DUSP3和KLF2生物标记物的表达水平。

在另一实施方案中,本发明包括用于监测治疗患者体内结核病感染所用的疗法的功效的方法,所述方法包括:a)在患者经历所述疗法之前从患者获得第一生物样品,并且在患者经历所述疗法之后获得第二生物样品;b)测量第一生物样品和第二生物样品中GBP5、DUSP3和KLF2生物标记物的表达水平;和c)结合生物标记物的相应参考值范围分析GBP5、DUSP3和KLF2生物标记物的表达水平,其中与第一生物样品中GBP5、DUSP3和KLF2生物标记物的表达水平相比第二生物样品中GBP5和DUSP3生物标记物的表达水平降低以及KLF2生物标记物的表达水平增加指示患者的结核病感染正在改善,并且与第一生物样品中GBP5、DUSP3和KLF2生物标记物的表达水平相比第二生物样品中GBP5和DUSP3生物标记物的表达水平增加以及KLF2生物标记物的表达水平降低指示患者的结核病感染正在恶化或对疗法没有响应。

在另一实施方案中,本发明包括用于监测治疗患者体内结核病感染所用的疗法的功效的方法,所述方法包括:a)在患者经历所述疗法之前从患者获得第一生物样品并且在患者经历所述疗法之后获得第二生物样品;b)测量第一生物样品和第二生物样品中GBP5、DUSP3和KLF2生物标记物的表达水平;和c)基于第一生物样品和第二生物样品中GBP5、DUSP3和KLF2生物标记物的表达水平计算TB评分,其中第二生物样品的TB评分低于第一生物样品的TB评分指示患者的结核病感染正在改善,并且第二生物样品的TB评分高于第一生物样品的TB评分指示患者的结核病感染正在恶化或对疗法没有响应。

在另一实施方案中,本发明包括用于区分活动性结核病与潜伏性结核病的方法,所述方法包括:a)从患者获得生物样品;b)测量GBP5、DUSP3和KLF2生物标记物的表达水平;和c)结合所述生物标记物的相应参考值范围分析GBP5、DUSP3和KLF2生物标记物的表达水平,其中GBP5、DUSP3和KLF2生物标记物的表达水平与患有活动性结核病的受试者的参考值范围的相似性指示患者患有活动性结核病,并且其中GBP5、DUSP3和KLF2生物标记物的表达水平与患有潜伏性结核病的受试者的参考值范围的相似性指示患者患有潜伏性结核病。

在另一实施方案中,本发明包括监测受试者体内的结核病感染的方法,所述方法包括:a)测量来自受试者的第一生物样品中GBP5、DUSP3和KLF2生物标记物的表达水平,其中第一生物样品是在第一时间点从受试者获得的;b)测量来自受试者的第二生物样品中GBP5、DUSP3和KLF2生物标记物的表达水平,其中第二生物样品是在第二时间点(即,稍后)从受试者获得的;和c)将第一生物样品中生物标记物的表达水平与第二生物样品中生物标记物的表达水平相比较,其中与第一生物样品中生物标记物的表达水平相比第二生物样品中GBP5和DUSP3生物标记物的表达水平降低以及KLF2生物标记物的表达水平增加指示患者的结核病感染正在改善,并且与第一生物样品中生物标记物的表达水平相比第二生物样品中GBP5和DUSP3生物标记物的表达水平增加以及KLF2生物标记物的表达水平降低指示患者的结核病感染正在恶化。

在另一实施方案中,本发明包括监测受试者体内的结核病感染的方法,所述方法包括:a)测量来自受试者的第一生物样品中GBP5、DUSP3和KLF2生物标记物的表达水平,其中第一生物样品是在第一时间点从受试者获得的;b)测量来自受试者的第二生物样品中GBP5、DUSP3和KLF2生物标记物的表达水平,其中所述第二生物样品是在第二时间点从受试者获得的;和c)基于第一生物样品和第二生物样品中GBP5、DUSP3和KLF2生物标记物的表达水平计算TB评分,其中第二生物样品的TB评分低于第一生物样品的TB评分指示患者的结核病感染正在改善,并且第二生物样品的TB评分高于第一生物样品的TB评分指示患者的结核病感染正在恶化。

在另一实施方案中,本发明包括用于区分活动性结核病与潜伏性结核病的方法,所述方法包括:a)从患者获得生物样品;b)测量生物样品中GBP5、DUSP3和KLF2生物标记物的表达水平;和c)结合每一生物标记物的相应参考值范围分析每一生物标记物的表达水平,其中GBP5、DUSP3和KLF2的表达水平与患有活动性结核病的受试者的参考值范围的相似性指示患者患有活动性结核病,并且其中GBP5、DUSP3和KLF2的表达水平与患有潜伏性结核病的受试者的参考值范围的相似性指示患者患有潜伏性结核病。

在另一实施方案中,本发明包括用于治疗疑似患有结核病的患者的方法,所述方法包括:a)根据本文所述的方法接收关于患者的诊断的信息;和b)如果患者具有阳性结核病诊断,则向患者施用治疗有效量的至少一种抗生素(例如,利福平、异烟肼、吡嗪酰胺或乙胺丁醇)。治疗后,所述方法可进一步包括监测患者对治疗的响应。

在另一实施方案中,本发明包括用于治疗疑似患有结核病的患者的方法,所述方法包括:a)根据本文所述的方法诊断患者;和b)如果患者具有阳性结核病诊断,则向患者施用治疗有效量的至少一种抗生素(例如,利福平、异烟肼、吡嗪酰胺或乙胺丁醇)。

在另一实施方案中,本发明包括包含GBP5、DUSP3和KLF2生物标记物的生物标记物组。

在另一方面中,本发明包括用于诊断受试者体内的结核病的试剂盒。试剂盒可包括容器,其用于容纳从疑似患结核病的人类受试者中分离的生物样品;至少一种特异性检测结核病生物标记物的试剂;以及印刷说明书,其用于使所述试剂与生物样品或生物样品的一部分响应以检测生物样品中至少一种结核病生物标记物的存在或量。所述试剂可被包装在单独的容器中。试剂盒可进一步包括一种或多种对照参考样品和试剂,所述对照参考样品和试剂用于如本文所述进行PCR或微阵列分析以检测生物标记物。

在某些实施方案中,试剂盒包括用于检测包含用于诊断结核病的多种生物标记物的生物标记物组的多核苷酸的试剂,其中一种或多种生物标记物是选自由GBP5多核苷酸、DUSP3多核苷酸和KLF2多核苷酸组成的组。在一个实施方案中,试剂盒包括用于检测包含GBP5、DUSP3和KLF2生物标记物的生物标记物组的生物标记物的试剂。

在某些实施方案中,试剂盒包括用于分析多种生物标记物多核苷酸的微阵列。在一个实施方案中,试剂盒包括微阵列,所述微阵列包含与GBP5多核苷酸杂交的寡核苷酸、与DUSP3多核苷酸杂交的寡核苷酸和与KLF2多核苷酸杂交的寡核苷酸。

在另一实施方案中,试剂盒包括用于检测在患有活动性结核病的患者中过表达的一组基因以及在患有活动性结核病的患者中低表达的一组基因的表达水平的试剂,所述一组基因选自由以下各项组成的组:a)在患有活动性结核病的患者中过表达的包含GBP5和DUSP3的一组基因,以及在患有活动性结核病的患者中低表达的包含KLF2的一组基因;b)在患有活动性结核病的患者中过表达的包含GBP6、HLA-DMA和TAPBPL的一组基因,以及在患有活动性结核病的患者中低表达的包含TPK1、CD79B和AP1M1的一组基因;c)在患有活动性结核病的患者中过表达的包含ANKRD22、ASGR1和C5的一组基因,以及在患有活动性结核病的患者中低表达的包含OXSR1的一组基因;d)在患有活动性结核病的患者中过表达的包含BATF2、RARRES3和ALDH1A1的一组基因,以及在患有活动性结核病的患者中低表达的包含ORAI1、RBBP7和HLA-DOB的一组基因;e)在患有活动性结核病的患者中过表达的包含VAMP5、PSME2和USF1的一组基因,以及在患有活动性结核病的患者中低表达的包含TATDN2、CD79A和COL9A2的一组基因;f)在患有活动性结核病的患者中过表达的包含GBP2、FAM111A和BRSK1的一组基因,以及在患有活动性结核病的患者中低表达的包含FNBP1、MAP7和IL27RA的一组基因;g)在患有活动性结核病的患者中过表达的包含WDFY1的一组基因,以及在患有活动性结核病的患者中低表达的包含EML4、BANK1和PITPNC1的一组基因;h)在患有活动性结核病的患者中过表达的包含GBP1和GPBAR1的一组基因,以及在患有活动性结核病的患者中低表达的包含OSBPL10、NOV和MCM5的一组基因;i)在患有活动性结核病的患者中过表达的包含CD274、SCO2和KCNJ2的一组基因,以及在患有活动性结核病的患者中低表达的包含GNG7和PPM1H的一组基因;j)在患有活动性结核病的患者中过表达的包含AIM2、GBP4和PRPS2的一组基因,以及在患有活动性结核病的患者中低表达的包含PNOC和RNF44的一组基因;k)在患有活动性结核病的患者中过表达的包含PSMB9、CNDP2、TAP2和FAM26F的一组基因,以及在患有活动性结核病的患者中低表达的包含ARHGEF18、SWAP70和SYTL1的一组基因;和1)在患有活动性结核病的患者中过表达的包含LHFPL2、MOV10、C1QB和P2RY14的一组基因,以及在患有活动性结核病的患者中低表达的包含TRIM28、BLK和PPIA的一组基因。

在另一方面中,本发明包括诊断系统,其包括用于存储数据的存储组件(即,存储器),其中所述存储组件具有用于确定存储在其中的患者的诊断的指令;用于处理数据的计算机处理器,其中所述计算机处理器耦合至所述存储组件并且被配置以执行存储在所述存储组件中的指令,以便接收患者数据并且根据算法分析患者数据;和用于显示关于患者的诊断的信息的显示组件。存储组件可包括用于计算TB评分的指令,如本文所述(参见实施例1)。另外,存储组件可进一步包括用于进行多元线性判别分析(LDA)、接受者操作特征(ROC)分析、主组分分析(PCA)、集成数据挖掘方法、微阵列细胞特异性显著性分析(csSAM)或多维蛋白质鉴别技术(MUDPIT)分析的指令。

在某些实施方案中,本发明包括用于诊断疑似患有结核病的患者的计算机实现的方法,计算机进行步骤包括:a)接收所输入的患者数据,所述数据包含来自患者的生物样品中的多个结核病生物标记物的水平的值;b)分析多个结核病生物标记物的水平并且与结核病生物标记物的相应参考值范围进行比较;c)基于结核病生物标记物的水平计算患者的TB评分;d)基于TB评分的值确定患者是否患有结核病;和e)显示关于患者的诊断的信息。

在某些实施方案中,所输入的患者数据包含来自患者的生物样品中的至少3种结核病生物标记物的水平的值。例如,所输入的患者数据可包含GBP5多核苷酸、DUSP3多核苷酸和KLF2多核苷酸的水平的值。

在其它实施方案中,所输入的患者数据包含在患有活动性结核病的患者中过表达的一组基因以及在患有活动性结核病的患者中低表达的一组基因的表达水平的值,所述一组基因是选自由以下各项组成的组:a)在患有活动性结核病的患者中过表达的包含GBP5和DUSP3的一组基因,以及在患有活动性结核病的患者中低表达的包含KLF2的一组基因;b)在患有活动性结核病的患者中过表达的包含GBP6、HLA-DMA和TAPBPL的一组基因,以及在患有活动性结核病的患者中低表达的包含TPK1、CD79B和AP1M1的一组基因;c)在患有活动性结核病的患者中过表达的包含ANKRD22、ASGR1和C5的一组基因,以及在患有活动性结核病的患者中低表达的包含OXSR1的一组基因;d)在患有活动性结核病的患者中过表达的包含BATF2、RARRES3和ALDH1A1的一组基因,以及在患有活动性结核病的患者中低表达的包含ORAI1、RBBP7和HLA-DOB的一组基因;e)在患有活动性结核病的患者中过表达的包含VAMP5、PSME2和USF1的一组基因,以及在患有活动性结核病的患者中低表达的包含TATDN2、CD79A和COL9A2的一组基因;f)在患有活动性结核病的患者中过表达的包含GBP2、FAM111A和BRSK1的一组基因,以及在患有活动性结核病的患者中低表达的包含FNBP1、MAP7和IL27RA的一组基因;g)在患有活动性结核病的患者中过表达的包含WDFY1的一组基因,以及在患有活动性结核病的患者中低表达的包含EML4、BANK1和PITPNC1的一组基因;h)在患有活动性结核病的患者中过表达的包含GBP1和GPBAR1的一组基因,以及在患有活动性结核病的患者中低表达的包含OSBPL10、NOV和MCM5的一组基因;i)在患有活动性结核病的患者中过表达的包含CD274、SCO2和KCNJ2的一组基因,以及在患有活动性结核病的患者中低表达的包含GNG7和PPM1H的一组基因;j)在患有活动性结核病的患者中过表达的包含AIM2、GBP4和PRPS2的一组基因,以及在患有活动性结核病患者中低表达的包含PNOC和RNF44的一组基因;k)在患有活动性结核病的患者中过表达的包含PSMB9、CNDP2、TAP2和FAM26F的一组基因,以及在患有活动性结核病的患者中低表达的包含ARHGEF18、SWAP70和SYTL1的一组基因;和l)在患有活动性结核病的患者中过表达的包含LHFPL2、MOV10、C1QB和P2RY14的一组基因,以及在患有活动性结核病的患者中低表达的包含TRIM28、BLK和PPIA的一组基因。

在另一方面中,本发明包括包含至少一种体外复合物的组合物,所述复合物包含与包含生物标记物GBP5、DUSP3或KLF2基因序列的核酸杂交的标记探针,所述标记探针与所述生物标记物GBP5、DUSP3或KLF2基因序列或其补体杂交,其中所述核酸是从患有结核病的患者中提取的,或者是从患有结核病的患者提取的核酸的扩增产物。探针可用任何类型的标记可检测地标记,所述标记包括(但不限于)荧光标记、生物发光标记、化学发光标记、比色标记或同位素标记(例如稳定的痕量同位素或放射性同位素))。在某些实施方案中,组合物处于检测装置(即,能够检测标记探针的装置)中。

在一个实施方案中,本发明包括组合物,所述组合物包含第一体外复合物,其包含与包含生物标记物GBP5基因序列的核酸杂交的第一标记探针;第二体外复合物,其包含与包含生物标记物DUSP3基因序列的核酸杂交的第二标记探针;和第三体外复合物,其包含与包含生物标记物KLF2基因序列的核酸杂交的第三标记探针。

在另一方面中,本发明包括用于诊断患者的结核病的方法。所述方法包括:a)从患者获得生物样品;b)使来自生物样品的至少一种生物标记物GBP5、DUSP3或KLF2核酸或所述生物标记物核酸的扩增产物与至少一种能够检测至少一种包含生物标记物GBP5、DUSP3或KLF2基因序列的核酸的标记探针接触,所述标记探针能够与生物标记物GBP5、DUSP3或KLF2基因序列或其补体杂交;c)测量至少一种包含与包含生物标记物GBP5、DUSP3或KLF2基因序列的核酸杂交的标记探针的体外复合物,以确定生物样品中至少一种生物标记物核酸的表达水平;和d)分析至少一种生物标记物核酸的表达水平,其中与对照受试者的生物标记物核酸的参考值范围相比,至少一种包含GBP5或DUSP3基因序列的生物标记物核酸的表达水平增加指示患者患有活动性结核病,或者与对照受试者的生物标记物核酸的参考值范围相比,包含KLF2基因序列的生物标记物核酸的表达水平降低指示患者患有活动性结核病。

在另一实施方案中,所述方法包括测量以下各项的量:第一体外复合物,其包含与包含生物标记物GBP5基因序列的核酸杂交的第一标记探针;第二体外复合物,其包含与包含生物标记物DUSP3基因序列的核酸杂交的第二标记探针;以及第三体外复合物,其包含与包含生物标记物KLF2基因序列的核酸杂交的第三标记探针,以确定生物样品中包含GBP5、DUSP3和KLF2基因序列的生物标记物核酸的表达水平,其中与对照受试者的生物标记物核酸的参考值范围相比,包含GBP5和DUSP3基因序列的生物标记物核酸的表达水平增加以及包含KLF2基因序列的生物标记物核酸的表达水平降低指示患者患有活动性结核病。

鉴于本文的公开内容,本领域技术人员将容易想到本发明的这些和其它实施方案。

附图简述

图1A-1D示出了多队列分析和三-基因集。图1A示出了多队列分析流程的示意图。图1B-1D示出了在前向搜索中导出的三个基因中的每一个的森林图,所述三个基因包括GBP5(图1B)、DUSP3(图1C)和KLF2(图1D)。

图2A-2F示出了发现数据集中的三-基因集的表现。图2A-2C示出了发现队列中的ROC曲线,其示出了相对于ATB患者的HC(图2A)、LTB(图2B)和OD(图2C)。健康患者未纳入多队列分析中,但在此处予以示出。图2D和图2F示出了验证队列中的ROC曲线。图2D示出了四个验证数据集,其将健康对照与活动性TB进行比较。图2E示出了四个验证数据集,其将潜伏性TB与活动性TB进行比较。图2F示出了三个验证数据集,其将其它疾病与活动性TB进行比较。具有患者层面数据的小提琴绘图示于图5、图6和图8中。

图3示出了验证数据集中单一全局测试截止点的建立。示出了样品层面归一化的基因评分以及组的TB评分分布。小提琴图内的棒指示内四分位数;白色短划线是中位数。通过将每一数据集内的基因中心化至其全局平均值,可建立跨多个数据集的单一截止点。

图4A-4C示出了在GSE37250(图4A)、GSE39939(图4B)和GSE39940(图4C)中,基于HIV状态,针对OD对ATB的诊断能力没有显著差异。在GSE37250中,HIV阳性患者的LTB对ATB的ROC AUC从0.96降低到0.89。

图5A-5D示出了纵向验证数据集中三-基因集的表现。四个验证数据集(包括Cliff组合(图5A)、GSE40553(图5B)、GSE56153(图5C)和GSE62147(图5D))检查了治疗和恢复期间的活动性TB患者。所有四个数据集都示出了在治疗的情况下三-基因集的恢复。图5C示出了GSE56153,其还包括健康对照;治疗后TB评分返回到正常(威尔科克森P=治愈病例与HC之间的NS)。图5D示出了GSE62147,其还检查活动性非洲分枝杆菌(M.africanum)感染。

图6A-6C示出了发现数据集中三-基因集的表现。图6A-6C分别示出了GSE19491、GSE32750和GSE42834的小提琴图;相对于ATB的所有比较都显著(威尔科克森p<1e-10)。健康患者未纳入多队列分析中,但在此处予以示出。

图7A-7D示出了发现数据集GSE19491(图7A和图7C)和GSE42834(图7B和图7D)中按疾病类型分类的‘其它疾病’类别。

图8A-8E示出了验证数据集GSE28623(图8A)、GSE34608(图8B)、GSE39940(图8C)、GSE39939(图8D)和GSE41055(图8E)的小提琴图。

图9示出了GSE25534中的TB评分,其利用双通道阵列,其中基因表达值代表阵列上两个样品之间的相对值。此处,正性TB评分意味着阵列上ATB样品的TB评分大于阵列上的对照(健康或LTB)样品。因此,给定阵列的正性TB评分可对照所述对照样品将所述ATB样品正确地分类。因此,小提琴图指示除一个样品以外的所有样品都可通过三-基因集正确地分类。与其它双通道阵列研究一样,GSE25534含有技术复制,其在本文有显示。

图10示出了HC对ATB的联合发现和验证数据集中单一全局测试截止点的建立。示出了样品层面归一化的基因评分以及组的TB评分分布。图10(上图)示出了尚未重新中心化至其全局平均值的基因。图10(下图)示出了已通过减去每一基因的数据集平均值与全局平均值之间的差异重新中心化至其全局平均值的基因。应注意,每一基因都维持其在数据集内的分布。

图11示出了LTB对ATB的联合发现和验证数据集中单一全局测试截止点的建立。示出了样品层面归一化的基因评分以及组的TB评分分布。图11(上图)示出了尚未重新中心化至其全局平均值的基因。图11(下图)示出了已通过减去每一基因的数据集平均值与全局平均值之间的差异重新中心化至其全局平均值的基因。应注意,每一基因都维持其在数据集内的分布。

图12示出了OD对ATB的联合发现和验证数据集中单一全局测试截止点的建立。示出了样品层面归一化的基因评分以及组的TB评分分布。图12(上图)示出了尚未重新中心化至其全局平均值的基因。图12(下图)示出了已通过减去每一基因的数据集平均值与全局平均值之间的差异重新中心化至其全局平均值的基因。应注意,每一基因都维持其在数据集内的分布。

图13A和图13B示出了GSE50834的结果,其将HIV阳性患者的PBMC与具有HIV/TB共感染的那些PBMC相比较。图13A示出了三-基因集示出了两个组之间的显著差异,其中(图13B)ROC AUC为0.85。

图14A-14C示出了在GSE19491数据集中,TB评分不受(图14A)BCG疫苗接种状态或(图14B)TB耐药性状态(两种情况的威尔科克森p=NS)的影响,但(图14C)随X射线疾病严重程度而增加(JT测试p<0.01)。

图15A-15D示出了根据(图15A和图15B)痰液和(图15C和图15D)BAL涂片和培养结果的GSE19491中ATB患者的TB评分。许多患者都在不同数字之间重叠;ATB患者都不会既有阴性痰液培养又有阴性BAL培养。在任何组之间都不存在涂片或培养阳性的显著效应(威尔科克森p=NS)。

图16A和图16B示出了GSE63548的结果,其比较了健康对照与患有肺外淋巴结TB感染的患者之间的淋巴结组织。三-基因集示出了(图16A)两组之间的显著差异,其中(图16B)ROC AUC为0.98。

图17A和图17B示出了所有公共可用的TB基因表达数据集中的Anderson等(N.Engl.(2014)J.Med.370:1712-1723)的诊断基因集的汇总性ROC图。箭头标示发现数据集(GSE39940)。图17A示出了潜伏性TB对活动性TB;图17B示出了其它疾病对活动性TB。如在原始论文中一样,利用算术平均值的差异来测试基因集。

图18A和图18B示出了所有公共可用的TB基因表达数据集中的Berry等(Nature(2010)466:973-977)的诊断基因集的汇总性ROC图。箭头标示发现数据集(GSE19491(图18A)潜伏性TB对活动性TB;(图18B)其它疾病对活动性TB。如在原始论文中一样,使用在GSE19491中建立的K最近邻分类机对每一数据集进行测试。根据得票计数阈值建立ROC曲线。GSE41055被列为‘NA’,因为所有得票都将两个种类指派为LTB,因此不能进行阈值处理。

图19A和图19B示出了所有公共可用的TB基因表达数据集中的Bloom等(PLoS One(2013)8:e70630)的诊断基因集的汇总性ROC图。箭头标示发现数据集(GSE42834)。图19A示出了潜伏性TB对活动性TB;图19B示出了其它疾病对活动性TB。如在原始论文中一样,使用在GSE42834中建立的支持向量机模型使用144-转录物集中的基因测试每一数据集。

图20A和图20B示出了所有公共可用的TB基因表达数据集中的Kaforou等(J.Infect(2014)69增刊1:S28-31)的诊断基因集的汇总性ROC图。箭头标示发现数据集(GSE37250)。图20A示出了潜伏性TB对活动性TB;图20B示出了其它疾病对活动性TB。如在原始论文中一样,用每一数据集中的算术平均值的差异来测试基因集。

图21A和图21B示出了所有公共可用的TB基因表达数据集中的Verhagen等(BMC(2013)Genomics 14:74)的诊断基因集的汇总性ROC图。箭头标示发现数据集(GSE41055)。图21A示出了潜伏性TB对活动性TB;图21B示出了其它疾病对活动性TB。如在原始论文中一样,使用10-基因集对照在GSE41055中建立的随机森林模型对每一数据集进行测试。

图22A和图22B示出了使用根据样品归一化的评分示出三-基因集(如正文中所述)。图22A示出了潜伏性TB对活动性TB;图22B示出了其它疾病对活动性TB。提供此图以允许比较三-基因集和方法与先前已报道的其它基因集和方法的泛化性。

图23A和图23B示出了公共可用的分选细胞基因表达谱中(图23A)所有266种差异表达的基因和(图23B)3种诊断性基因的富集曲线。Y轴示出了与平均值的标准偏差。与其它细胞类型相比,M1巨噬细胞显著富集两个基因集(p<0.05)。

图24A和图24B示出了针对一系列(图24A)α和(图24B)β使用Kester和Buntinx的方法构建的实例ROC曲线,其示出了改变不同参数对ROC曲线形状与AUC的效应。对于汇总性ROC曲线,α和β是从来自贡献数据集的随机效应模型中计算出来的。

详述

除非另有说明,否则本发明的实践将采用在本领域技术内的常规的医学、化学、生物化学、重组DNA技术和免疫学方法。所述技术在文献中有充分的解释。例如参见Clinical Tuberculosis(P.Davies、S.Gordon和G.Davies编,CRC Press;第5版,2014);Tuberculosis(W.Rom和S.Garay编,LWW,第二版,2003);Handbook of Tuberculosis:Clinics,Diagnostics,Therapy,and Epidemiology(S.Kaufmann和P.van Helden编,Wiley-Blackwell,2008);Handbook of Experimental Immunology,第I-IV卷(D.M.Weir和C.C.Blackwell编,Blackwell Scientific Publications);A.L.Lehninger,Biochemistry(Worth Publishers,Inc.,现行版);Sambrook等,Molecular Cloning:A Laboratory Manual(第3版,2001);Methods In Enzymology(S.Colowick和N.Kaplan编,Academic Press,Inc.)。

本文(无论是上文还是下文)所引用的所有出版物、专利和专利申请都以引用的方式整体并入本文中。

I.定义

在描述本发明时,将采用以下术语,并且打算如下所示进行定义。

必须注意,如在本说明书和所附权利要求中所用的,除非内容另有明确指示,否则单数形式“一个/种(a、an)”和“所述”包括复数个指示物。因此,例如,所提及的“生物标记物”包括两种或更多种生物标记物的混合物等。

术语“约”特别是在提及给定量时旨在涵盖±5%的偏差。

“生物标记物”在本发明的上下文中是指与取自对照受试者(例如,具有阴性诊断的人、正常或健康受试者或未感染受试者)的相当样品相比,在取自患有结核病的患者的样品中差异表达的生物化合物,例如多核苷酸或多肽。生物标记物可以是可被检测和/或定量的核酸、核酸片段、多核苷酸或寡核苷酸。结核病生物标记物包括包含来自基因或基因的RNA转录物的核苷酸序列的多核苷酸,所述基因包括(但不限于)GBP5、DUSP3、KLF2、AIM2、ALDH1A1、ANKRD22、ASGR1、BATF2、BRSK1、C5、CD274、CNDP2、C1QB、FAM26F、FAM111A、GBP1、GBP2、GBP4、GPBAR1、HLA-DMA、KCNJ2、LHFPL2、MOV10、P2RY14、PRPS2、PSMB9、PSME2、RARRES3、SCO2、TAP2、TAPBPL、USF1、VAMP5、WDFY1、AP1M1、ARHGEF18、BANKl、BLK、CD79A、CD79B、COL9A2、EML4、FNBP1、GNG7、HLA-DOB、IL27RA、MAP7、MCM5、NOV、ORAI1、OSBPL10、OXSR1、PITPNC1、PNOC、PPIA、PPM1H、RBBP7、RNF44、SWAP70、SYTL1、TATDN2、TPK1和TRIM28;以及其表达产物,包括鸟苷酸结合蛋白5、双特异性磷酸酶3、Kruppel样因子2、干扰素诱导的蛋白质AIM2(黑色素瘤缺乏因子2)、醛脱氢酶1家族成员A1、锚蛋白重复结构域22、去唾液酸糖蛋白受体1、碱性亮氨酸拉链ATF样转录因子2、BR丝氨酸/苏氨酸激酶1、补体C5、CD274(程序性细胞死亡1配体1)、CNDP二肽酶2、补体C1q亚组分亚基B、具有序列相似性的家族26成员F(蛋白质FAM26F)、具有序列相似性的家族111成员A(蛋白质FAM111A)、鸟苷酸结合蛋白1、鸟苷酸结合蛋白2、鸟苷酸结合蛋白4、G蛋白偶联的胆汁酸受体1、主要组织相容性复合体II类DMα、钾电压门控通道亚家族J成员2、脂肪瘤HMGIC融合伴侣样2、Mov10 RISC复合体RNA解旋酶、嘌呤能受体P2Y14、磷酸核糖焦磷酸合成酶2、蛋白酶体亚基β9、蛋白酶体激活蛋白亚基2、视黄酸受体应答蛋白3、SCO2、细胞色素c氧化酶装配蛋白、转运蛋白2、ATP结合盒亚家族B成员、TAP结合蛋白样蛋白(tapasin相关蛋白质)、上游转录因子1、囊泡相关膜蛋白5、含WD重复和FYVE结构域1、衔接蛋白相关蛋白复合体1ul亚基、Rho/Rac鸟嘌呤核苷酸交换因子18、具有锚蛋白重复的B细胞支架蛋白1、BLK原癌基因Src家族酪氨酸激酶、CD79a分子、CD79b分子、IX型胶原蛋白α2链、棘皮动物微管相关蛋白样4、形成素结合蛋白1、G蛋白亚基γ7、主要组织相容性复合体II类Doβ、介白素27受体亚基α、微管相关蛋白7、微染色体维持复合体组分5、肾母细胞瘤过表达蛋白质(胰岛素样生长因子结合蛋白9)、ORAI钙释放激活钙调节剂1、氧固醇结合蛋白样10蛋白、氧化应激应答蛋白1、磷脂酰肌醇转移蛋白、细胞质1、前原痛蛋白、肽基脯氨酰异构酶A、蛋白磷酸酶、Mg2+/Mn2+依赖型1H、RB结合蛋白质7、染色质重塑因子、环指蛋白44、SWAP切换B细胞复合体70kDa亚基、突触结合蛋白样1蛋白质、含有TatD DNase结构域的2蛋白质、硫胺素焦磷酸激酶1和含三分基序28蛋白(转录中介因子1-β)。

术语“多肽”和“蛋白质”是指氨基酸残基的聚合物,并且不限于最小长度。因此,所述定义内包括肽、寡肽、二聚体、多聚体等。所述定义涵盖全长蛋白质与其片段。所述术语还包括多肽的表达后修饰,例如糖基化、乙酰化、磷酸化、羟基化、氧化等。

术语“多核苷酸”、“寡核苷酸”、“核酸”和“核酸分子”在本文中用于包括任何长度的核苷酸的聚合形式,核糖核苷酸或脱氧核糖核苷酸。此术语仅指分子的主要结构。因此,所述术语包括三链、双链和单链DNA以及三链、双链和单链RNA。其还包括修饰(例如通过甲基化和/或通过加帽)和多核苷酸的未修饰形式。更具体来说,术语“多核苷酸”、“寡核苷酸”、“核酸”和“核酸分子”包括多聚脱氧核糖核苷酸(含有2-脱氧-D-核糖),多聚核糖核苷酸(含D-核糖)和为嘌呤或嘧啶碱基的N-或C-糖苷的任何其它类型的多核苷酸。在术语“多核苷酸”、“寡核苷酸”、“核酸”与“核酸分子”之间在长度上没有预期的区别,并且这些术语可互换使用。

短语“表达水平”是指丰度被定量测量的mRNA或蛋白质的表达。

短语“差异表达”是指与对照受试者或未感染受试者相比,取自患有(例如)结核病的患者的样品中存在的生物标记物的量和/或频率的差异。例如,生物标记物可以是与对照受试者的样品相比,在结核病患者的样品中以升高水平或降低水平存在的多核苷酸。或者,生物标记物可以是与对照受试者的样品相比,在结核病患者样品中以更高频率或更低频率检测到的多核苷酸。生物标记物可能在数量、频率或两个方面有差异。

如果一个样品的多核苷酸的量与另一样品的多核苷酸的量在统计学上显著不同,则多核苷酸在所述两个样品之间是差异表达的。例如,如果所存在的多核苷酸比另一样品中存在的多核苷酸多至少约120%、至少约130%、至少约150%、至少约180%、至少约200%、至少约300%、至少约500%、至少约700%、至少约900%或至少约1000%,或者如果所述多核苷酸在一个样品中可检测到而在另一样品中不可检测到,则多核苷酸在两个样品中是差异表达的。

或者或另外,如果在罹患结核病的患者的样品中检测到多核苷酸的频率在统计学上显著高于或低于对照样品,则多核苷酸在两组样品中是差异表达的。例如,如果与另一组样品相比,在一组样品中多核苷酸被检测到的频率大或被观察到的频率小至少约120%、至少约130%、至少约150%、至少约180%、至少约200%、至少约300%、至少约500%、至少约700%、至少约900%或至少约1000%,则多核苷酸在两组样品中是差异表达的。

“相似度值”是代表所比较的两个事物之间的相似度的数值。例如,相似度值可以是指示使用特定表型相关生物标记物的患者表达谱与一个或多个对照样品中生物标记物的参考值范围或参考表达谱之间的总体相似度的数值(例如与“活动性结核病”表达谱或“潜伏结核病”表达谱的相似度)。相似度值可表示为相似度度量(例如相关性系数),或者可简单地表示为患者样品与对照样品或参考表达谱中的生物标记物水平之间的表达水平差异或表达水平差异的总和。

术语“受试者”、“个体”和“患者”在本文中可互换使用,并且指需要诊断、预后、治疗或疗法的任何哺乳动物受试者,特别是人类。其他受试者可包括牛、狗、猫、天竺鼠、兔、大鼠、小鼠、马等。在一些情况下,本发明的方法可用于实验动物、兽医应用和疾病动物模型的研发,所述动物模型包括(但不限于)啮齿动物(包括小鼠、大鼠和仓鼠)和灵长类动物。

如本文所用,“生物样品”是指从受试者中分离的组织、细胞或流体的样品,包括(但不限于)例如血液、血沉棕黄层、血浆、血清、免疫细胞(例如单核细胞或巨噬细胞)、痰液、粪便物、尿液、骨髓、胆汁、脊髓液、淋巴液、皮肤样品、皮肤、呼吸道、肠道和泌尿生殖道的外部分泌物、眼泪、唾液、乳汁、器官、活体组织切片,并且还包括体外细胞培养成分(包括(但不限于)由培养基(例如重组细胞)和细胞组分中细胞和组织的生长产生的条件培养基)的样品。

生物标记物的“测试量”是指存在于被测样品中的生物标记物的量。测试量可以是绝对量(例如,μg/ml)或相对量(例如信号的相对强度)。

生物标记物的“诊断量”是指受试者样品中与结核病诊断相一致的生物标记物的量。诊断量可以是绝对量(例如,μg/ml)或相对量(例如,信号的相对强度)。

生物标记物的“对照量”可以是与生物标记物的测试量相比较的任何量或量的范围。例如,生物标记物的对照量可以是没有结核病的人的生物标记物的量。对照量可以是绝对量(例如,μg/ml)或相对量(例如信号的相对强度)。

术语“抗体”涵盖多克隆和单克隆抗体制剂,以及包括杂交抗体、改变的抗体、嵌合抗体和人源化抗体的制剂,以及:杂交(嵌合)抗体分子(例如参见Winter等(1991)Nature 349:293-299;和美国专利No.4,816,567);F(ab′)2和F(ab)片段;Fv分子(非共价异二聚体,例如参见Inbar等(1972)Proc Natl Acad Sci USA 69:2659-2662;和Ehrlich等(1980)Biochem 19:4091-4096);单链Fv分子(sFv)(例如参见Huston等(1988)Proc NatlAcad Sci USA 85:5879-5883);二聚体和三聚体抗体片段构建体;微抗体(minibody)(例如参见Pack等(1992)Biochem 31:1579-1584;Cumber等(1992)J Immunology 149B:120-126);人源化抗体分子(例如参见,Riechmann等(1988)Nature 332:323-327;Verhoeyan等(1988)Science 239:1534-1536;和1994年9月21日公布的英国专利公开No.GB2,276,169);以及从所述分子获得的任何功能片段,其中所述片段保留亲本抗体分子的特异性结合性质。

预期用于本发明中的“可检测部分”、“可检测标记”或“标记”包括能够检测的任何分子,包括(但不限于)荧光剂,化学发光剂、发色团、放射性同位素、稳定痕量同位素、酶、酶底物、酶辅因子、酶抑制剂、半导体纳米粒子、染料、金属离子、金属溶胶、配体(例如生物素、链霉亲和素或半抗原)等。可检测的标记包括(但不限于)荧光染料,例如荧光素、藻红蛋白、Cy-3、Cy-5、别藻蓝蛋白、DAPI、德克萨斯红(Texas Red)、若丹明(rhodamine)、俄勒冈绿(Oregon green)、萤光黄(Lucifer yellow)等;绿色荧光蛋白(GFP)、红色荧光蛋白(DsRed)、青色荧光蛋白(CFP)、黄色荧光蛋白(YFP)和角海葵属(Cerianthus)橙色荧光蛋白(cOFP);酶,例如碱性磷酸酶(AP)、β-内酰胺酶、氯霉素乙酰转移酶(CAT)、腺苷脱氨酶(ADA)、氨基糖苷磷酸转移酶(neor,G418r)、二氢叶酸还原酶(DHFR)、潮霉素B磷酸转移酶(HPH)、胸苷激酶(TK)、lacZ(编码β半乳糖苷酶)和黄嘌呤鸟嘌呤磷酸核糖转移酶(XGPRT)、β-葡糖醛酸酶(gus)、胎盘碱性磷酸酶(PLAP)、分泌性胚胎碱性磷酸酶(SEAP)和萤火虫或细菌萤光素酶(LUC)。酶标签与其同源底物一起使用。所述术语还包括已知荧光强度的颜色编码的微球体(例如参见,由Luminex(Austin,TX)生产的具有xMAP技术的微球体;含有(例如)含有量子点颜色的不同比率和组合的量子点纳米晶体(例如由Life Technologies(Carlsbad,CA)生产的Qdot纳米晶体)的微球体;玻璃涂覆的金属纳米颗粒(例如参见由Nanoplex Technologies,Inc.(Mountain View,CA)生产的SERS纳米标签;条码材料(例如参见亚微米大小的带条纹金属棒,例如由Nanoplex Technologies,Inc.生产的纳米条码);带有彩色条码的编码微粒(例如参见由Vitra Bioscience,vitrabio.com生产的CellCard);和具有数字全息代码图像的玻璃微粒(例如参见由Illumina(San Diego,CA)生产的CyVera微珠)。与许多与本发明的实践相关的标准程序一样,本领域技术人员将会知道可使用的其它标记。

如本文所用的“诊断”一般包括确定受试者是否可能受到给定疾病、病症或功能障碍的影响。本领域技术人员通常基于一个或多个诊断指标(即生物标记物、其存在、不存在或指示疾病、病症或功能障碍存在或不存在的量)作出诊断。

如本文所用的“预后”通常是指预测临床病况或疾病的可能病程和结果。患者的预后通常是通过评价指示疾病的有利或不利病程或结果的疾病的因素或症状来进行。应了解术语“预后”不一定是指能以100%的准确度预测病况的病程或结果。相反,本领域技术人员将会了解,术语“预后”是指将出现某一病程或结果的概率增加;也就是说,在与未展现给定病况的个体相比时,在展现所述给定病况的患者中更可能出现病程或结果。

“基本上纯化的”是指从其天然环境中取出并被分离或分开并且至少约60%、优选约75%并且最优选约90%不含其天然缔合的其它组分的核酸分子或蛋白质。

如本文所用,术语“探针”或“寡核苷酸探针”是指含有与存在于靶标核酸分析物(例如生物标记物)中的核酸序列互补的核酸序列的如上文所定义的多核苷酸。探针的多核苷酸区可由DNA和/或RNA和/或合成的核苷酸相似物组成。探针可被标记以检测靶标序列。此类标记可存在于5’末端、3’末端、5’末端与3’末端和/或内部。

术语“扩增子”是指PCR反应或其它核酸扩增过程(例如,连接酶链式反应(LGR)、基于核酸序列的扩增(NASBA)、转录介导的扩增(TMA)、Q-β扩增、链置换扩增或靶标介导的扩增)的被扩增核酸产物。视用于扩增的技术而定,扩增子可包含RNA或DNA。

术语“杂交(hybridize和hybridization)”是指在核苷酸序列之间形成复合物,所述核苷酸序列足够互补以经由沃森-克里克(Watson-Crick)碱基配对形成复合物。

应当了解,杂交序列无需具有完美的互补性即可提供稳定的杂交体。在许多情况下都将会形成稳定的杂交体,其中少于约10%的碱基错配,忽略四个或更多个核苷酸的环。因此,如本文所用,术语“互补”是指寡核苷酸在测定条件下与其“补体”形成稳定双链体,通常其中存在约90%或更高的同源性。

术语“选择性地检测(selectively detects或selectively detecting)”是指使用寡核苷酸(例如引物或探针)检测生物标记物核酸,所述寡核苷酸能够通过(例如)扩增和/或结合至生物标记物核酸的至少一部分来检测特定生物标记物核酸,但在适当的杂交条件下不扩增和/或结合至来自其它核酸的序列。

II.进行本发明的模式

在详细描述本发明之前,应当了解,本发明不限于特定的配方或工艺参数,因为所述配方或工艺参数当然可变化。还应当了解的是,本文所使用的术语仅出于描述本发明的特定实施方案的目的,而并非旨在限制。

尽管在本发明的实践中可使用许多与本文所描述的那些相似或等效的方法和材料,但本文描述了优选的材料和方法。

本发明是基于可用于诊断结核病的生物标记物的发现。具体来说,本发明人已经示出了GBP5、DUSP3和KLF2生物标记物以及其它生物标记物可用于检测活动性结核病,并且可用于区分活动性结核病与潜伏性结核病以及其它肺病和传染病并且监测对结核病治疗的响应(参见实施例1)。

为了进一步了解本发明,下文更详细地论述了与结核病相关的已经鉴别的生物标记物,以及在结核病的预后、诊断或治疗监测中使用所述生物标记物的方法。

A.生物标记物

可用于实践本发明的生物标记物包括包含来自基因或基因的RNA转录物的核苷酸序列的多核苷酸,所述基因包括(但不限于)GBP5、DUSP3、KLF2、AIM2、ALDH1A1、ANKRD22、ASGR1、BATF2、BRSK1、C5、CD274、CNDP2、C1QB、FAM26F、FAM111A、GBP1、GBP2、GBP4、GPBAR1、HLA-DMA、KCNJ2、LHFPL2、MOV10、P2RY14、PRPS2、PSMB9、PSME2、RARRES3、SCO2、TAP2、TAPBPL、USF1、VAMP5、WDFY1、AP1M1、ARHGEF18、BANK1、BLK、CD79A、CD79B、COL9A2、EML4、FNBP1、GNG7、HLA-DOB、IL27RA、MAP7、MCM5、NOV、ORAI1、OSBPL10、OXSR1、PITPNC1、PNOC、PPIA、PPM1H、RBBP7、RNF44、SWAP70、SYTL1、TATDN2、TPK1和TRIM28;以及其表达产物,包括鸟苷酸结合蛋白5、双特异性磷酸酶3、Kruppel样因子2、干扰素诱导的蛋白质AIM2(黑色素瘤缺乏因子2)、醛脱氢酶1家族成员A1、锚蛋白重复结构域22、去唾液酸糖蛋白受体1、碱性亮氨酸拉链ATF样转录因子2、BR丝氨酸/苏氨酸激酶1、补体C5、CD274(程序性细胞死亡1配体1)、CNDP二肽酶2、补体C1q亚组分亚基B、具有序列相似性的家族26成员F(蛋白质FAM26F)、具有序列相似性的家族111成员A(蛋白质FAM111A)、鸟苷酸结合蛋白1、鸟苷酸结合蛋白2、鸟苷酸结合蛋白4、G蛋白偶联的胆汁酸受体1、主要组织相容性复合体II类DMα、钾电压门控通道亚家族J成员2、脂肪瘤HMGIC融合伴侣样2、Mov10 RISC复合体RNA解旋酶、嘌呤能受体P2Y14、磷酸核糖焦磷酸合成酶2、蛋白酶体亚基β9,蛋白酶体激活蛋白亚基2、视黄酸受体应答蛋白3、SCO2、细胞色素c氧化酶装配蛋白、转运蛋白2、ATP结合盒亚家族B成员、ATP结合蛋白样蛋白(tapasin相关蛋白)、上游转录因子1、囊泡相关膜蛋白5、含WD重复和FYVE结构域1、衔接蛋白相关蛋白复合体1ul亚基、Rho/Rac鸟嘌呤核苷酸交换因子18、具有锚蛋白重复的B细胞支架蛋白1、BLK原癌基因Src家族酪氨酸激酶、CD79a分子、CD79b分子、IX型胶原蛋白α2链、棘皮动物微管相关蛋白样4、形成素结合蛋白1、G蛋白亚基γ7、主要组织相容性复合体II类DOβ、介白素27受体亚基α、微管相关蛋白7、微染色体维持复合体组分5、肾母细胞瘤过表达蛋白质(胰岛素样生长因子结合蛋白9)、ORAI钙释放激活钙调节剂1、氧固醇结合蛋白样10蛋白、氧化应激应答蛋白1、磷脂酰肌醇转移蛋白、细胞质1、前原痛蛋白、肽基脯氨酰异构酶A、蛋白磷酸酶、Mg2+/Mn2+依赖型1H、RB结合蛋白7、染色质重塑因子、环指蛋白44、SWAP切换B细胞复合体70kDa亚基、突触结合蛋白样1蛋白、含有TatD DNase结构域的2蛋白质、硫胺素焦磷酸激酶1和含三分基序28蛋白(转录中介因子1-β)。这些生物标记物的差异表达与结核病相关,并且因此这些生物标记物的表达谱可用于诊断结核病并区分活动性结核病与潜伏性结核病以及其它肺病和传染病。

因此,在一个方面,本发明提供了用于诊断受试者体内的结核病的方法,所述方法包括测量源自疑似患有结核病的受试者的生物样品中多种生物标记物的水平,以及分析生物标记物的水平,以及与生物标记物的相应参考值范围进行比较,其中所述生物样品中的一种或多种生物标记物与对照样品中的一种或多种生物标记物的差异表达指示所述受试者患有结核病。当分析生物样品中的生物标记物的水平时,用于比较的参考值范围可代表在一名或多名未患活动性结核病的受试者(例如,健康受试者、未感染的受试者或患有潜伏性结核病的受试者)的一个或多个样品中发现的一种或多种生物标记物的水平。或者,参考值范围可代表在一名或多名患有活动性结核病的受试者的一个或多个样品中发现的一种或多种生物标记物的水平。在某些实施方案中,将来自受试者的生物样品中的生物标记物的水平与患有潜伏性或活动性结核病或其它肺病或传染病的受试者的参考值进行比较。

从待诊断的受试者获得的生物样品通常是血液、痰液或免疫细胞(例如单核细胞或巨噬细胞),但可以是来自含有表达的生物标记物的体液、组织或细胞的任何样品。如本文所用,“对照”样品是指生物样品,例如未患病的体液、组织或细胞。也就是说,对照样品是从正常或非主动感染的受试者(例如已知未患活动性结核病的个体)获得的。生物样品可通过常规技术从受试者获得。例如,可通过静脉穿刺获得血液,并且可根据本领域熟知的方法通过手术技术获得固体组织样品。

在某些实施方案中,使用一组生物标记物来诊断结核病。任何大小的生物标记物组都可用于本发明的实践中。用于诊断结核病的生物标记物组通常包含至少3种生物标记物且至多30种生物标记物,包括其间的任何数量的生物标记物,例如3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30种生物标记物。在某些实施方案中,本发明包括包含至少3种、或至少4种、或至少5种、或至少6种、或至少7种、或至少8种、或至少9种、或至少10种、或至少11种或更多种生物标记物的生物标记物组。虽然较小的生物标记物组通常较经济,但较大的生物标记物组(即,多于30种生物标记物)具有提供更详细信息的优点,并且也可用于本发明的实践中。

在某些实施方案中,本发明包括用于诊断结核病的一组生物标记物,所述生物标记物包含一种或多种包含来自基因或基因的RNA转录物的核苷酸序列的多核苷酸,所述基因选自由GBP5、DUSP3和KLF2组成的组。在一个实施方案中,生物标记物组包含GBP5多核苷酸、DUSP3多核苷酸和KLF2多核苷酸。

在某些实施方案中,使用TB评分来诊断结核病。TB评分是通过以下方式来计算:从与生物标记物的对照参考值相比过表达的所有被测量的生物标记物的表达水平的平均值中减去与生物标记物的对照参考值相比低表达的所有被测量的生物标记物的表达水平的平均值。与对照受试者的参考值范围相比,受试者的TB评分更高指示受试者患有活动性结核病(参见实施例1)。

本文所描述的方法可用于确定患者是否应当治疗结核病。例如,如果基于生物标记物表达谱或TB评分患者具有阳性结核病诊断,则选择患者用于结核病的治疗,如本文所述。

在一个实施方案中,本发明包括治疗患有结核病的受试者的方法,所述方法包括:a)根据本文所述的方法诊断患有结核病的受试者;和b)如果受试者具有阳性结核病诊断,则向受试者施用治疗有效量的至少一种抗生素。

在另一实施方案中,本发明包括治疗疑似患有结核病的受试者的方法,所述方法包括:a)根据本文所述的方法接收关于受试者的诊断的信息;和b)如果患者具有阳性结核病诊断,则向受试者施用治疗有效量的至少一种抗生素。

可用于治疗结核病的抗生素包括(但不限于)乙胺丁醇、异烟肼、吡嗪酰胺、利福布丁、利福平、利福喷汀、阿米卡星、卷曲霉素、环丝氨酸、乙硫异烟胺、左氧氟沙星、莫西沙星、对氨基水杨酸和链霉素。通常,同时施用几种抗生素来治疗活动性结核病,而施用单一抗生素来治疗潜伏性结核病。治疗可能会持续至少一个月或几个月,最长一年或两年或更长时间,此视结核病感染是活动性的还是潜伏性的而定。对于严重的结核病感染,通常需要更长时间的治疗,特别是在感染变得耐抗生素性的情况下。潜伏结核病可在更短的时间内(通常4到12个月)得到有效治疗,以防止结核病感染变成活动性。可筛选其感染为耐抗生素性的受试者以确定抗生素敏感性以便鉴别将根除结核病感染的抗生素。另外,也可施用皮质类固醇药物来减少由活动性结核病造成的炎症。

如本文所述,本发明的方法也可用于确定受试者的预后并且可用于监测患有结核病的受试者的治疗。本发明人已经示出了某些生物标记物(例如GBP5和DUSP3)的基因表达水平的增加和其它生物标记物(例如KLF2)的基因表达水平的降低与疾病严重程度相关(例如参见实施例1和2以及表6)。因此,医师可通过测量来自患者的生物样品中生物标记物的水平来监测疾病的进展。例如,与以前的GBP5、DUSP3和KLF2基因的表达水平(例如,在早期收集的生物样品中)相比,GBP5和DUSP3基因表达水平的降低和KLF2基因表达水平的增加指示与先前的GBP5、DUSP3和KLF2基因的表达水平(例如,在早期收集的生物学样品中)相比,受试者的疾病正在改善或已经改善,而GBP5和DUSP3基因表达水平的增加和KLF2基因表达水平的降低指示受试者的疾病已经恶化或正在恶化。所述恶化可能指示结核病感染是耐药的,并且需要交替的治疗方案。

或者或另外,可使用TB评分来评价疾病严重程度,其中TB评分增加与结核病感染恶化相关并且TB评分降低与从活动性结核病中恢复相关。

本文所述的用于患有结核病的受试者的预后或诊断的方法可用于如下个体中:尚未诊断(例如预防性筛查)或已被诊断或疑似患有结核病(例如,显示一个或更多个特征性症状)、或具有发展结核病的风险(例如,有遗传倾向或存在一种或多种发育、环境或行为风险因素)。例如,可通过本文所阐述的方法来筛选具有一种或多种风险因素的患者,所述患者包括(但不限于)被免疫阻抑、具有免疫缺陷、老年的、疑似已经暴露于感染结核病的受试者或具有肺病症状的患者。所述方法还可用于检测潜伏或活动性结核病感染或评价疾病的严重程度。所述方法还可用于检测结核病对预防性或治疗性治疗或其它干预措施的响应。所述方法可进一步用于帮助医师确定患者的预后(例如,恶化、现状、部分恢复或完全恢复)以及适当的作用过程,使得进一步治疗或观察或者使得患者从医疗护理中心出院。

在一个实施方案中,本发明包括用于区分活动性结核病与潜伏性结核病的方法。所述方法包括:获得来自患者的生物样品并测量生物样品中GBP5、DUSP3和KLF2生物标记物的表达水平。每一生物标记物的表达水平都是结合每一生物标记物的相应参考值范围分析的。GBP5、DUSP3和KLF2生物标记物的表达水平与患有活动性结核病的受试者的参考值范围的相似性指示患者患有活动性结核病,而GBP5、DUSP3和KLF2生物标记的表达水平与患有潜伏结核病的受试者的参考值范围的相似性指示患者患有潜伏性结核病。

在另一实施方案中,本发明包用于括监测治疗患者体内结核病所用的疗法的功效的方法。所述方法包括:结合生物标记物的相应参考水平,在患者经历疗法之前和之后分析源于患者的生物样品中的GBP5、DUSP3和KLF2生物标记物的水平。患者中GBP5和DUSP3生物标记物水平的增加和KLF2生物标记物水平的降低指示患者的病况正在恶化,并且受试者中GBP5和DUSP3生物标记物的水平降低和KLF2生物标记物的水平增加指示患者的病况正在改善。可将来自患者的生物样品中的GBP5、DUSP3和KLF2生物标记的水平与潜伏结核病或活动性结核病(例如,在不同程度的疾病严重程度下)的生物标记物的参考水平进行比较以评价患者的结核病感染的严重程度。

在另一实施方案中,本发明包括评价用于治疗患者体内结核病的药剂的效应的方法。所述方法包括:在利用所述药剂处理患者之前和之后分析源于患者的生物样品中的GBP5、DUSP3和KLF2生物标记物的水平,以及将GBP5、DUSP3和KLF2生物标记物的水平与生物标记物的相应参考水平进行比较。

在另一实施方案中,本发明包括用于诊断和治疗疑似患有结核病的患者的方法,所述方法包括:a)从患者获得生物样品;b)测量生物样品中在患有活动性结核病的患者中过表达的一组基因和在患有活动性结核病的患者中低表达的一组基因的表达水平,其中在患有活动性结核病的患者中过表达的所述一组基因包含一种或多种选自由以下各项组成的组的基因:AIM2、ALDH1A1、ANKRD22、ASGR1、BATF2、BRSK1、C5、CD274、CNDP2、C1QB、DUSP3、FAM26F、FAM111A、GBP1、GBP2、GBP4、GBP5、GPBAR1、HLA-DMA、KCNJ2、LHFPL2、MOV10、P2RY14、PRPS2、PSMB9、PSME2、RARRES3、SCO2、TAP2、TAPBPL、USF1、VAMP5和WDFY1,并且在患有活动性结核病的患者中低表达的所述一组基因包含一种或更多种选自由以下各项组成的组的基因:AP1M1、ARHGEF18、BANK1、BLK、CD79A、CD79B、COL9A2、EML4、FNBP1、GNG7、HLA-DOB、IL27RA、KLF2、MAP7、MCM5、NOV、ORAI1、OSBPL10、OXSR1、PITPNC1、PNOC、PPIA、PPM1H、RBBP7、RNF44、SWAP70、SYTL1、TATDN2、TPK1和TRIM28;和c)通过结合对照受试者的相应参考值范围分析每一生物标记物的表达水平来诊断患有活动性结核病的患者,其中对照受试者的参考值范围相比在患有活动性结核病的患者中过表达的所述一组基因的表达水平与增加与对照受试者的参考值范围相比在患有活动性结核病的患者中低表达的所述一组基因的表达水平降低的组合,指示患者患有活动性结核病;和d)如果患者被诊断患有活动性结核病,则向患者施用有效量的至少一种抗生素。

在某些实施方案中,在患有活动性结核病的患者中过表达的所述一组基因和在患有活动性结核病的患者中低表达的所述一组基因选自由以下各项组成的组:a)在患有活动性结核病的患者中过表达的包含GBP5和DUSP3的一组基因,以及在患有活动性结核病的患者中低表达的包含KLF2的一组基因;b)在患有活动性结核病的患者中过表达的包含GBP6、HLA-DMA和TAPBPL的一组基因,以及在患有活动性结核病的患者中低表达的包含TPK1、CD79B和AP1M1的一组基因;c)在患有活动性结核病的患者中过表达的包含ANKRD22、ASGR1和C5的一组基因,以及在患有活动性结核病的患者中低表达的包含OXSR1的一组基因;d)在患有活动性结核病的患者中过表达的包含BATF2、RARRES3和ALDH1A1的一组基因,以及在患有活动性结核病的患者中低表达的包含ORAI1、RBBP7和HLA-DOB的一组基因;e)在患有活动性结核病的患者中过表达的包含VAMP5、PSME2和USF1的一组基因,以及在患有活动性结核病的患者中低表达的包含TATDN2、CD79A和COL9A2的一组基因;f)在患有活动性结核病的患者中过表达的包含GBP2、FAM111A和BRSK1的一组基因,以及在患有活动性结核病的患者中低表达的包含FNBP1、MAP7和IL27RA的一组基因;g)在患有活动性结核病的患者中过表达的包含WDFY1的一组基因,以及在患有活动性结核病的患者中低表达的包含EML4、BANK1和PITPNC1的一组基因;h)在患有活动性结核病的患者中过表达的包含GBP1和GPBAR1的一组基因,以及在患有活动性结核病的患者中低表达的包含OSBPL10、NOV和MCM5的一组基因;i)在患有活动性结核病的患者中过表达的包含CD274、SCO2和KCNJ2的一组基因,以及在患有活动性结核病的患者中低表达的包含GNG7和PPM1H的一组基因;j)在患有活动性结核病的患者中过表达的包含AIM2、GBP4和PRPS2的一组基因,以及在患有活动性结核病的患者中低表达的包含PNOC和RNF44的一组基因;k)在患有活动性结核病的患者中过表达的包含PSMB9、CNDP2、TAP2和FAM26F的一组基因,以及在患有活动性结核病的患者中低表达的包含ARHGEF18、SWAP70和SYTL1的一组基因;和l)在患有活动性结核病的患者中过表达的包含LHFPL2、MOV10、C1QB和P2RY14的一组基因,以及在患有活动性结核病的患者中低表达的包含TRIM28、BLK和PPIA的一组基因。

B.检测和测量生物标记物

应当了解,样品中的生物标记物可通过本领域已知的任何适合的方法来测量。生物标记物表达水平的测量可以是直接的或间接的。例如,RNA或蛋白质的丰度水平可直接定量。或者,可通过测量cDNA、扩增的RNA或DNA的丰度水平或通过测量指示生物标记物表达水平的RNA、蛋白质或其它分子(例如代谢物)的量或活性来间接测定生物标记物的量。用于测量样品中生物标记物的方法具有许多应用。例如,可测量一种或多种生物标记以辅助结核的诊断,以确定对于受试者适当的治疗,以监测受试者对治疗的响应,或以鉴别调节生物标记物的体内或体外表达的治疗性化合物。

检测生物标记物多核苷酸

在一个实施方案中,通过测量生物标记物的多核苷酸水平来测定生物标记物的表达水平。特定生物标记物基因的转录物水平可根据存在于生物样品中的mRNA或由其衍生的多核苷酸的量来测定。多核苷酸可通过多种方法来检测和定量,所述方法包括(但不限于)微阵列分析、聚合酶链式反应(PCR)、逆转录酶聚合酶链式反应(RT-PCR)、RNA印迹和基因表达系列分析(SAGE)。例如参见Draghici Data Analysis Tools for DNA Microarrays,Chapman and Hall/CRC,2003;Simon等Design and Analysis of DNA Microarray Investigations,Springer,2004;Real-Time PCR:Current Technology and Applications,Logan、Edwards和Saunders编,Caister Academic Press,2009;Bustin A-Z of Quantitative PCR(IUL Biotechnology,第5期),International University Line,2004;Velculescu等(1995)Science 270:484-487;Matsumura等(2005)Cell.Microbiol.7:11-18;Serial Analysis of Gene Expression(SAGE):Methods and Protocols(Methods in Molecular Biology),Humana Press,2008;其以引用的方式整体并入本文中。

在一个实施方案中,使用微阵列来测量生物标记物的水平。微阵列分析的优点在于可同时测量每一生物标记物的表达,并且可特别设计微阵列以提供特定疾病或病况(例如结核病)的诊断表达谱。

微阵列是通过选择包含多核苷酸序列的探针并且然后将所述探针固定到固体载体或表面来制备。例如,探针可包含DNA序列、RNA序列或DNA和RNA的共聚物序列。探针的多核苷酸序列还可包含DNA和/或RNA相似物或其组合。例如,探针的多核苷酸序列可以是基因组DNA的完整或部分片段。探针的多核苷酸序列也可以是合成的核苷酸序列,例如合成的寡核苷酸序列。探针序列可体内酶促合成、体外酶促合成(例如通过PCR)或体外非酶促合成。

用于本发明方法中的探针优选固定到固体载体上,所述固体载体可以是多孔或无孔的。例如,探针可以是在多核苷酸的3′或5′端共价连接到硝化纤维素膜或尼龙膜或滤膜的多核苷酸序列。所述杂交探针在本领域中是公知的(例如参见Sambrook等,Molecular Cloning:A Laboratory Manual(第3版,2001)或者,固体载体或表面可以是玻璃或塑料表面。在一个实施方案中,根据由表面上固定有多核苷酸(例如DNA或DNA模拟物)群体或者RNA或RNA模拟物群体的固相组成的探针微阵列来测量杂交水平。固相可以是无孔的或可选的多孔材料(例如凝胶)。

在一个实施方案中,微阵列包含具有结合(例如杂交)位点或“探针”的有序阵列的载体或表面,所述位点或探针各自代表一种本文所述的生物标记物。优选地,微阵列是可寻址的阵列,并且更优选地是可按位置寻址的阵列。更具体来说,阵列的每一探针优选位于固体载体上的已知预定的位置,使得每一探针的一致性(即,序列)可根据其在阵列中(即,在载体或表面上)的位置来确定。每一探针优选在单一位点共价连接到固体载体。

微阵列可以多种方式制成,其中几种在下面有描述。然而,它们是生产的,微阵列共有某些特征。所述阵列具有可重现性,容许产生给定阵列的多个拷贝,并且可很容易地相互比较。优选地,微阵列由在结合(例如,核酸杂交)条件下稳定的材料制成。微阵列通常很小,例如在1cm2与25cm2之间;然而,也可使用更大的阵列,例如筛选阵列。优选地,微阵列中给定的结合位点或一组独特的结合位点将特异性地结合(例如杂交)到细胞中单一基因的产物(例如结合到特定mRNA或源自其的特定cDNA)。然而,一般来说,其它相关或相似的序列将与给定的结合位点交叉杂交。

如上文所述,特定多核苷酸分子特异性杂交的“探针”含有互补的多核苷酸序列。微阵列的探针通常由不超过1,000个核苷酸的核苷酸序列组成。在一些实施方案中,阵列的探针由10到1,000个核苷酸的核苷酸序列组成。在一个实施方案中,探针的核苷酸序列的长度在10-200个核苷酸的范围内,并且是一个生物体物种的基因组序列,从而存在多个其序列与此类生物体物种的基因组互补并且因此能够与其杂交的不同探针,依序地铺盖全部或部分基因组。在其它实施方案中,探针的长度范围为10-30个核苷酸,长度范围为10-40个核苷酸,长度范围为20-50个核苷酸,长度范围为40-80个核苷酸,长度范围为50-150个核苷酸,长度范围为80-120个核苷酸,或者长度为60个核苷酸。

探针可包含对应于生物体基因组的一部分的DNA或DNA“模拟物”(例如,衍生物和相似物)。在另一实施方案中,微阵列的探针是互补的RNA或RNA模拟物。DNA模拟物是由亚基构成的聚合物,所述亚基能够与DNA特异性地进行沃森-克里克样杂交,或与RNA特异性地杂交。可在碱基部分、在糖部分或在磷酸骨架(例如硫代磷酸酯)处修饰核酸。

可通过(例如)基因组DNA或克隆序列的聚合酶链式反应(PCR)扩增获得DNA。优选地基于将使得扩增基因组DNA的特定片段的已知基因组序列来选择PCR引物。本领域众所周知的计算机程序可用于设计具有所需特异性和最佳扩增性质的引物,例如Oligo 5.0版(National Biosciences)。典型地,微阵列上的每一探针的长度将在10个碱基与50,000个碱基之间,通常在300个碱基与1,000个碱基之间。PCR方法在本领域中是公知的,并且描述于(例如)Innis等编的PCR Protocols:A Guide To Methods And Applications,Academic Press Inc.,San Diego,Calif.(1990)中;其以引用的方式整体并入本文中。本领域技术人员将会明了,受控机器人系统可用于分离和扩增核酸。

用于生成多核苷酸探针的替代的优选方式是(例如)使用N-膦酸酯或亚磷酰胺化学来合成合成的多核苷酸或寡核苷酸(Froehler等,Nucleic Acid Res.14:5399-5407(1986);McBride等,Tetrahedron Lett.24:246-248(1983))。合成序列的长度通常在约10个与约500个碱基之间,更通常在约20个与约100个碱基之间,并且其长度最优选在约40个与约70个碱基之间。在一些实施方案中,合成核酸包括非天然碱基,例如(但不限于)肌苷。如上所述,核酸相似物可用作杂交的结合位点。适合的核酸相似物的实例是肽核酸(例如参见Egholm等,Nature 363:566-568(1993);美国专利No.5,539,083)。

优选使用考虑结合能、碱基组成、序列复杂性、交叉杂交结合能和二级结构的算法来选择探针。参见2001年1月25日公布的Friend等的国际专利公开WO 01/05935;Hughes等,Nat.Biotech.19:342-7(2001)。

本领域技术人员还将认识到,阵列上应当包括阳性对照探针(例如已知与靶标多核苷酸分子中的序列互补且可杂交的探针)和阴性对照探针(例如已知不与靶标多核苷酸分子中的序列互补且不可杂交的探针)。在一个实施方案中,沿阵列的周边合成阳性对照。在另一实施方案中,跨整个阵列在对角线条带中合成阳性对照。在又一个实施方案中,每一探针的反向补体在探针位置旁边合成以用作阴性对照。在另一实施方案中,使用来自其它生物体物种的序列作为阴性对照或“掺入”对照。

探针连接到固体载体或表面,所述载体或表面可由(例如)玻璃、塑料(例如聚丙烯,尼龙)、聚丙烯酰胺、硝化纤维素、凝胶或其它多孔或无孔材料制成。一种将核酸连接到表面的方法是通过在玻璃板上印刷进行,如通常由Schena等,Science 270:467-470(1995)所阐述。此方法尤其可用于制备cDNA的微阵列(也参见DeRisi等,Nature Genetics 14:457-460(1996);Shalon等,Genome Res.6:639-645(1996);和Schena等,Proc.Natl.Acad.Sci.U.S.A.93:10539-11286(1995);其以引用的方式整体并入本文中)。

制造微阵列的第二种方法产生高密度寡核苷酸阵列。已知使用用于原位合成的光刻技术(参见Fodor等,1991,Science 251:767-773;Pease等,1994,Proc.Natl.Acad.Sci.U.S.A.91:5022-5026;Lockhart等,1996,Nature Biotechnology 14:1675;美国专利No.5,578,832、5,556,752和5,510,270;其以引用的方式整体并入本文中)或用于快速合成和沉积限定的寡核苷酸的其它方法(Blanchard等,Biosensors&Bioelectronics 11:687-690;其以引用的方式整体并入本文中)在表面上的限定位置产生含有与限定序列互补的数千个寡核苷酸的阵列的技术。当使用这些方法时,在诸如衍生的玻璃载玻片的表面上直接合成具有已知序列的寡核苷酸(例如60聚体)。通常,所产生的阵列是冗余的,且每一RNA具有数个寡核苷酸分子。

也可使用制备微阵列的其它方法,例如通过掩蔽进行(Maskos和Southern,1992,Nuc.Acids Res.20:1679-1684;其以引用的方式整体并入本文中)。原则上,可以使用任何类型的阵列,例如尼龙杂交膜上的斑点印迹(参见Sambrook等,Molecular Cloning:A Laboratory Manual,第3版,2001)。然而,如本领域技术人员将会认识到,通常将优选非常小的阵列,因为杂交体积将会更小。

微阵列也可借助于用于寡核苷酸合成的喷墨打印装置使用例如以下文献中所描述的方法和系统来制造:Blanchard,美国专利No.6,028,189;Blanchard等,1996,Biosensors and Bioelectronics 11:687-690;Blanchard,1998,Synthetic DNA Arrays in Genetic Engineering,第20卷,J.K.Setlow编,Plenum Press,New York,第111-123页;其以引用的方式整体并入本文中。具体来说,所述微阵列中的寡核苷酸探针是通过将个别核苷酸碱基连续沉积于高表面张力溶剂(例如碳酸亚丙酯)的“微滴”中而在(例如)玻璃载玻片上以阵列形式合成。微滴具有小体积(例如,100pL或更少,更优选50pL或更少)并且在微阵列上彼此分离(例如通过疏水域)以形成圆形表面张力孔,所述孔界定阵列要素(即不同探针)的位置。通过此喷墨方法制造的微阵列通常具有高密度,优选具有每1cm2至少约2,500个不同探针的密度。多核苷酸探针是在多核苷酸的3′或5′端共价连接到载体。

可通过微阵列分析测量的生物标记物多核苷酸可以是表达的RNA或由其衍生的核酸(例如cDNA或由并入RNA聚合酶启动子的cDNA衍生的扩增RNA),包括天然存在的核酸分子以及合成的核酸分子。在一个实施方案中,靶标多核苷酸分子包含RNA,包括(但不限于)总细胞RNA、聚(A)+信使RNA(mRNA)或其一部分、细胞质mRNA或从cDNA转录的RNA(即,cRNA;例如参见Linsley&Schelter,1999年10月4日提交的美国专利申请09/411,074或美国专利5,545,522、5,891,636或5,716,785)。用于制备总RNA和聚(A)+RNA的方法在本领域中是公知的,并且通常描述于(例如)Sambrook等,Molecular Cloning:A Laboratory Manual(第3版,2001)中。可相继使用硫氰酸胍溶解和CsCl离心(Chirgwin等,1979,Biochemistry 18:5294-5299)、基于硅胶的管柱(例如RNeasy(Qiagen,Valencia,Calif.)或StrataPrep(Stratagene,La Jolla,Calif.))或使用苯酚和氯仿(如Ausubel等编,1989,Current Protocols In Molecular Biology,第III卷,Green Publishing Associates,Inc.,John Wiley&Sons,Inc.,New York,第13.12.1-13.12.5页中所述)从所关注细胞中提取RNA。例如,通过用寡聚dT纤维素或者通过总细胞RNA的寡聚dT引发的逆转录进行选择来选择聚(A)+RNA。可通过本领域已知的方法、例如通过与ZnCl2一起温育对RNA进行片段化以生成RNA片段。

在一个实施方案中,从取自结核病患者的样品中分离总RNA、mRNA或由其衍生的核酸。可使用归一化技术来富集在特定细胞中差表达的生物标记物多核苷酸(Bonaldo等,1996,Genome Res.6:791-806)。

如上所述,生物标记物多核苷酸可在一个或多个核苷酸处被可检测地标记。本领域已知的任何方法可用于标记靶标多核苷酸。优选地,此标记沿着RNA的长度均匀地并入标记,并且更优选地,所述标记以很高的效率进行。例如,多核苷酸可通过寡聚dT引发的逆转录进行标记。可在逆转录中使用随机引物(例如9聚体)以在全长的多核苷酸上均匀地并入所标记核苷酸。或者,可将随机引物与PCR方法或基于T7启动子的体外转录方法结合使用以便扩增多核苷酸。

可检测标记可以是发光标记。例如,荧光标记、生物发光标记、化学发光标记和比色标记可用于实施本发明。可使用的荧光标记包括(但不限于)荧光素、磷光体、罗丹明或聚次甲基染料衍生物。另外,可使用市售荧光标记,包括(但不限于)荧光亚磷酰胺(例如FluorePrime(Amersham Pharmacia,Piscataway,N.J.)、Fluoredite(Miilipore,Bedford,Mass.)、FAM(ABI,Foster City,Calif.))和Cy3或Cy5(Amersham Pharmacia,Piscataway,N.J.)。或者,可检测标记可以是放射性标记的核苷酸。

在一个实施方案中,来自患者样品的生物标记物多核苷酸分子与参考样品的相应多核苷酸分子是差异标记的。参考可包含来自正常生物样品(即,对照样品,例如来自未患结核病的受试者的血液)或来自结核病参考生物样品(例如来自患有结核病的受试者的血液)的多核苷酸分子。

选择核酸杂交和洗涤条件以使靶标多核苷酸分子与阵列的互补多核苷酸序列特异性结合或特异性杂交,优选地与其互补DNA位于其中的特定阵列位点特异性结合或特异性杂交。使含有位于其上的双链探针DNA的阵列优选经受变性条件以在与靶标多核苷酸分子接触之前使DNA单链化。含有单链探针DNA(例如合成的寡聚脱氧核糖核酸)的阵列可能需要在与靶标多核苷酸分子接触前变性,以(例如)去除由于自身互补序列而形成的发夹或二聚体。

最佳杂交条件将取决于探针和靶标核酸的长度(例如寡聚体对多于200个碱基的多核苷酸)和类型(例如RNA或DNA)。本领域技术人员将会了解,随着寡核苷酸变短,可能需要调整其长度以实现相对均匀的熔解温度以获得满意的杂交结果。核酸的特异(即严格)杂交条件的一般参数在以下参考文献中有描述:Sambrook等,Molecular Cloning:A Laboratory Manual(第3版,2001)和Ausubel等,Current Protocols In Molecular Biology,第2卷,Current Protocols Publishing,New York(1994)。Schena等的cDNA微阵列的典型杂交条件为:在65℃下在5×SSC加0.2%SDS中杂交4小时,随后在25℃下在低严格洗涤缓冲液(1×SSC加0.2%SDS)中洗涤,随后在25℃下在更严格的洗涤缓冲液(0.1×SSC加0.2%SDS)中洗涤10分钟(Schena等,Proc.Natl.Acad.Sci.U.S.A.93:10614(1993))。有用的杂交条件在以下参考文献中也有提供:例如Tijessen,1993,Hybridization With Nucleic Acid Probes,Elsevier Science Publishers B.V;和Kricka,1992,Nonisotopic Dna Probe Techniques,Academic Press,San Diego,Calif。特别优选的杂交条件包括在探针的平均解链温度或附近的温度下(例如在51℃以内,更优选在21℃以内)在1M NaCl、50mM MES缓冲液(pH 6.5)、0.5%肌氨酸钠和30%甲酰胺中进行杂交。

当使用荧光标记的基因产物时,优选地可通过扫描共焦激光显微镜检测微阵列的每一位点处的荧光发射。在一个实施方案中,对于所用的两种荧光团中的每一种,使用适当的激发线进行单独的扫描。或者,可使用允许在对两种荧光团特异的波长下同时进行样品照射的激光,并且可同时分析来自两种荧光团的发射(参见Shalon等,1996,“A DNA microarray system for analyzing complex DNA samples using two-color fluorescent probe hybridization,”Genome Research 6:639-645,其出于所有目的以引用的方式整体并入本文中)。可使用带有计算机控制的X-Y载物台和显微镜物镜的激光荧光扫描仪来扫描阵列。使用多线型混合气体激光可实现两种荧光团的依序激发,并且所发射的光可通过波长分开并且可用两个光电倍增管来检测。荧光激光扫描装置描述于Schena等,Genome Res.6:639-645(1996)以及本文引用的其它参考文献中。或者,可使用由Ferguson等,Nature Biotech.14:1681-1684(1996)描述的光纤束来同时监测大量位点处的mRNA丰度水平。

在一个实施方案中,本发明包括微阵列,所述微阵列包含与GBP5多核苷酸杂交的寡核苷酸、与DUSP3多核苷酸杂交的寡核苷酸和与KLF2多核苷酸杂交的寡核苷酸。

多核苷酸还可通过其它方法来分析,所述方法包括(但不限于)RNA印迹、核酸酶保护测定、RNA指纹图谱、聚合酶链式反应、连接酶链式反应、Qbeta复制酶、等温扩增法、链置换扩增、基于转录的扩增系统、核酸酶保护(S1核酸酶或RNA酶保护测定)、SAGE以及国际公开No.WO 88/10315和No.WO 89/06700以及国际申请No.PCT/US87/00880和No.PCT/US89/01025中所公开的方法;所述专利以引用的方式整体并入本文中。

可使用标准RNA印迹测定根据本领域的普通技术人员已知的常规RNA杂交技术来确定RNA转录物大小、鉴别交替剪接的RNA转录物以及样品中mRNA的相对量。在RNA印迹中,首先通过在变性条件下的琼脂糖凝胶中进行电泳按照大小来分离RNA样品。接下来将RNA转移到膜上,使其交联并且与标记的探针进行杂交。可使用非同位素或高放射性活性比的放射性标记探针,包括随机引发、缺口翻译或PCR生成的DNA探针、体外转录的RNA探针和寡核苷酸。另外,可使用仅具有部分同源性的序列(例如来自不同物种的cDNA或可能含有外显子的基因组DNA片段)作为探针。含有全长单链DNA或所述DNA序列的片段的标记探针(例如放射性标记的cDNA)可以是至少20个、至少30个、至少50个或至少100个连续核苷酸长。探针可通过本领域技术人员已知的许多不同方法中的任何一种进行标记。这些研究最常用的标记是放射性元素、酶、暴露于紫外光时发出荧光的化学物质等。许多荧光材料是已知的并且可用作标记。这些包括(但不限于)荧光素、若丹明、金胺、德克萨斯红、AMCA蓝和萤光黄。特定的检测材料是在山羊中制备的抗兔抗体,并且经由异硫氰酸酯与荧光素偶联。蛋白质也可用放射性元素或酶来标记。放射性标记可通过任何目前可用的计数程序进行检测。可使用的同位素包括(但不限于)3H、14C、32p、35S、36C1、35Cr、57Co、58Co、59Fe、90y、125I、131I和186Re。酶标记同样有用,并且可通过目前使用的比色法、分光光度法、荧光分光光度法、电流法或气体定量法技术中的任何一种来检测。酶是通过与桥接分子(例如碳化二亚胺、二异氰酸酯、戊二醛等)反应与所选颗粒偶联。可使用本领域技术人员已知的任何酶。所述酶的实例包括(但不限于)过氧化物酶、β-D-半乳糖苷酶、脲酶、葡萄糖氧化酶加过氧化物酶和碱性磷酸酶。美国专利No.3,654,090、No.3,850,752和No.4,016,043以其公开的替代标记材料和方法为例来提及。

核酸酶保护测定(包括核糖核酸酶保护测定与S1核酸酶测定)可用于检测和定量特定的mRNA。在核酸酶保护测定中,反义探针(用例如放射性标记的或非同位素标记的)在溶液中与RNA样品杂交。杂交后,单链未杂交的探针和RNA被核酸酶降解。使用丙烯酰胺凝胶来分离剩余的受保护片段。通常,溶液杂交比基于膜的杂交更为有效,并且与印迹杂交的20-30μg最大值相比,其可容纳高达100μg的样品RNA。

核糖核酸酶保护测定是最常见类型的核酸酶保护测定,其需要使用RNA探针。寡核苷酸和其它单链DNA探针只能用于含S1核酸酶的测定中。单链反义探针通常必须与靶RNA完全同源以防止核酸酶裂解探针:靶标杂交体。

也可使用系列分析基因表达(SAGE)来确定细胞样品中的RNA丰度。例如参见Velculescu等,1995,Science 270:484-7;Carulli等,1998,Journal of Cellular Biochemistry Supplements 30/31:286-96;其以引用的方式整体并入本文中。SAGE分析不需要特殊的检测装置,并且是同时检测大量转录产物表达的优选分析方法之一。首先,从细胞中提取聚A+RNA。接下来,使用生物素化寡聚(dT)引物将RNA转化为cDNA,并且用四碱基识别限制酶(Anchoring Enzyme:AE)处理,从而产生在3′末端含有生物素基团的AE处理的片段。接下来,将AE处理的片段与链霉亲和素一起温育以进行结合。将结合的cDNA分成两部分,并且接下来将每一部分连接到不同的双链寡核苷酸附接体(接头)A或B。这些接头由以下各项构成:(1)具有与通过锚定酶作用形成的突出部分的序列互补的序列的突出单链部分,(2)用作标记酶(TE)的IIS型限制酶(在距离识别位点不超过20bp的预定位置处裂解)的5′核苷酸识别序列,和(3)用于构建PCR特异性引物的足够长度的额外序列。接头连接的cDNA可使用标签酶来裂解,并且仅仅保留接头连接的cDNA序列部分,其以短链序列标签的形式存在。接下来,使来自两种不同类型接头的短链序列标签的池彼此连接,随后使用对接头A和B特异的引物进行PCR扩增。因此,获得呈包含两个毗邻序列标签(双标签)结合到接头A和B的无数序列的混合物形式的扩增产物。用锚定酶处理扩增产物,并且游离的双标签部分在标准链联反应中连接到链中。接下来克隆扩增产物。克隆核苷酸序列的确定可用于获得恒定长度的连续双标签的读出。接下来可根据克隆的核苷酸序列和序列标签的信息来鉴别对应于每一标签的mRNA的存在。

也可使用定量逆转录酶PCR(qRT-PCR)来确定生物标记物的表达谱(例如参见美国专利申请公开No.2005/0048542A1;其以引用的方式整体并入本文中)。通过RT-PCR进行基因表达剖析的第一步是将RNA模板逆转录成cDNA,随后在PCR反应中进行其指数扩增。两种最常用的逆转录酶是禽类成髓细胞瘤病毒逆转录酶(AMV-RT)和莫洛尼鼠白血病病毒逆转录酶(Moloney murine leukemia virus reverse transcriptase,MLV-RT)。逆转录步骤通常使用特异性引物、随机六聚体或寡聚dT引物来引发,此视环境和表达剖析的目标而定。例如,可遵循制造商的说明使用GeneAmp RNA PCR试剂盒(Perkin Elmer,Calif.,USA)对所提取的RNA进行逆转录。然后可将衍生的cDNA用作后续PCR反应中的模板。

尽管PCR步骤可使用各种热稳定的DNA依赖性DNA聚合酶,但其通常采用Taq DNA聚合酶,所述聚合酶具有5′-3′核酸酶活性,但缺乏3′-5′校对核酸内切酶活性。因此,TAQMAN PCR通常利用Taq或Tth聚合酶的5′-核酸酶活性来水解与其靶标扩增子结合的杂交探针,但可使用具有等同5′核酸酶活性的任何酶。使用两种寡核苷酸引物来生成典型的PCR反应的扩增子。设计第三个寡核苷酸或探针来检测位于两种PCR引物之间的核苷酸序列。所述探针不能通过Taq DNA聚合酶延伸,并且可用报道荧光染料和猝灭剂荧光染料来标记。当两种染料在探针上紧密靠在一起定位时,来自报道染料的任何激光诱导的发射都被猝灭染料猝灭。在扩增反应期间,Taq DNA聚合酶以模板依赖性方式裂解探针。所得探针片段在溶液中解离,并且来自所释放报道染料的信号没有第二荧光团的猝灭效应。对于合成的每一新分子,释放一个报道染料分子,并且检测未猝灭的报道染料为数据的定量解释提供了基础。

可使用诸如ABI PRISM 7700序列检测系统(Perkin-Elmer-Appli ed Biosystems,Foster City,Calif.,USA)或Lightcycler(Roche Mole cular Biochemicals,Mannheim,Germany)的市售设备进行TAQMAN RT-PCR。在一个优选的实施方案中,在诸如ABI PRISM 7700序列检测系统的实时定量PCR装置上运行5′核酸酶程序。所述系统由热循环仪、激光、电荷耦合装置(CCD)、照相机和计算机组成。所述系统包括运行仪器和分析数据的软件。5′核酸酶测定数据最初表示为Ct或阈值循环。在每一循环中记录荧光值并且其代表在扩增反应中扩增到所述点的产物的量。荧光信号首次记录为统计显著的点是阈值循环(Ct)。

为了使误差和样品间差异的影响减至最少,通常使用内部标准进行RT-PCR。理想的内部标准在不同组织间以恒定水平表示,并且不受实验处理的影响。最常用于使基因表达型式归一化的RNA是管家基因甘油醛-3-磷酸-脱氢酶(GAPDH)和β肌动蛋白的mRNA。

RT-PCR技术的最新变化是实时定量PCR,其经由双标记的荧光探针(即TAQMAN探针)来测量PCR产物积累。实时PCR与定量竞争性PCR兼容,其中每一靶标序列的内部竞争者用于归一化,并且与使用含于样品内的归一化基因或用于RT-PCR的管家基因的定量比较性PCR兼容。其它细节参见(例如)Held等,Genome Research 6:986-994(1996)。

生物标记物数据的分析

可通过多种方法分析生物标记物数据以鉴别生物标记物并确定测试表达谱与参考表达谱之间生物标记物的所观察表达水平差异的统计学显著性,以便评价患者是患有潜伏性结核病还是活动性结核病还是一些其它肺病或传染病。在某些实施方案中,通过一种或多种方法分析患者数据,所述方法包括(但不限于)多变量线性判别分析(LDA)、接受者操作特征(ROC)分析、主组分分析(PCA)、集成数据挖掘方法、微阵列显著性分析(SAM)、微阵列细胞特异性显著性分析(csSAM)、密度归一化事件的生成树进展分析(SPADE)和多维蛋白质鉴别技术(MUDPIT)分析。(例如参见Hilbe(2009)Logistic Regression Models,Chapman&Hall/CRC Press;McLachlan(2004)Discriminant Analysis and Statistical Pattern Recognition.Wiley Interscience;Zweig等(1993)Clin.Chem.39:561-577;Pepe(2003)The statistical evaluation of medical tests for classification and prediction,New York,NY:Oxford;Sing等(2005)Bioinformatics 21:3940-3941;Tusher等(2001)Proc.Natl.Acad.Sci.U.S.A.98:5116-5121;Oza(2006)Ensemble data mining,NASA Ames Research Center,Moffett Field,CA,USA;English等(2009)J.Biomed.Inform.42(2):287-295;Zhang(2007)Bioinformatics 8:230;Shen-Orr等(2010)Journal of Immunology 184:144-130;Qiu等(2011)Nat.Biotechnol.29(10):886-891;Ru等(2006)J.Chromatogr.A.1111(2):166-174,Jolliffe Principal Component Analysis(Springer Series in Statistics,第2版,Springer,NY,2002);Koren等(2004)IEEE Trans Vis Comput Graph 10:459-470;其以引用的方式整体并入本文中)。

C.试剂盒

在又一方面,本发明提供了用于诊断结核病的试剂盒,其中所述试剂盒可用于检测本发明的生物标记物。例如,所述试剂盒可用于检测本文所述的任何一种或多种生物标记物,所述生物标记物在结核病患者和健康或未感染受试者的样品中差异表达。所述试剂盒可包括一种或多种用于检测生物标记物的试剂、用于容纳从疑似患有结核病的人类受试者分离的生物样品的容器;和使试剂与生物样品或生物样品的一部分反应以检测生物样品中至少一种结核病生物标记物的存在或量的印刷说明书。所述试剂可被包装在单独的容器中。所述试剂盒可进一步包括一种或多种对照参考样品和用于进行免疫测定或微阵列分析的试剂。

在某些实施方案中,试剂盒包括用于测量至少三种所关注生物标记物的水平的试剂。例如,试剂盒可包括用于检测包含GBP5多核苷酸、DUSP3多核苷酸和KLF2多核苷酸的组的生物标记物的试剂。另外,试剂盒可包括用于检测一个以上生物标记物组(例如两个或三个生物标记物组)的试剂,所述生物标记物组可单独使用或以任何组合一起使用和/或与用于诊断结核病的临床参数组合使用。

在某些实施方案中,试剂盒包括用于分析多种生物标记物多核苷酸的微阵列。包括在试剂盒中的示例性微阵列包含与GBP5多核苷酸杂交的寡核苷酸、与DUSP3多核苷酸杂交的寡核苷酸和与KLF2多核苷酸杂交的寡核苷酸。

试剂盒可包括一个或多个含在试剂盒中的组合物的容器。组合物可以是液体形式或可冻干。用于组合物的适合容器包括(例如)瓶子、小瓶、注射器和试管。容器可由多种材料(包括玻璃或塑料)形成。该试剂盒还可包含包装插页,所述包装插页含有关于诊断结核病的方法的书面说明书。

本发明的试剂盒具有许多应用。例如,所述试剂盒可用于确定受试者是患有潜伏结核病还是活动性结核病还是一些其它肺病或传染病,并且可用于监测对治疗的响应。在另一实例中,所述试剂盒可用于确定患者是否应利用(例如)抗生素来治疗结核病。在另一实例中,试剂盒可用于监测患有结核病的患者的治功效果。在另一实例中,试剂盒可用于鉴别在体外或体内动物模型中调节一种或多种生物标记物的表达的化合物,以确定治疗效果。

在另一实施方案中,试剂盒包括用于检测在患有活动性结核病的患者中过表达的一组基因以及在患有活动性结核病的患者中低表达的一组基因的表达水平的试剂,所述基因是选自由以下各项组成的组:a)在患有活动性结核病的患者中过表达的包含GBP5和DUSP3的一组基因,以及在患有活动性结核病的患者中低表达的包含KLF2的一组基因;b)在患有活动性结核病的患者中过表达的包含GBP6、HLA-DMA和TAPBPL的一组基因,以及在患有活动性结核病的患者中低表达的包含TPK1、CD79B和AP1M1的一组基因;c)在患有活动性结核病的患者中过表达的包含ANKRD22、ASGR1和C5的一组基因,以及在患有活动性结核病的患者中低表达的包含OXSR1的一组基因;d)在患有活动性结核病的患者中过表达的包含BATF2、RARRES3和ALDH1A1的一组基因,以及在患有活动性结核病的患者中低表达的包含ORAI1、RBBP7和HLA-DOB的一组基因;e)在患有活动性结核病的患者中过表达的包含VAMP5、PSME2和USF1的一组基因,以及在患有活动性结核病的患者中低表达的包含TATDN2、CD79A和COL9A2的一组基因;f)在患有活动性结核病的患者中过表达的包含GBP2、FAM111A和BRSK1的一组基因,以及在患有活动性结核病的患者中低表达的包含FNBP1、MAP7和IL27RA的一组基因;g)在患有活动性结核病的患者中过表达的包含WDFY1的一组基因,以及在患有活动性结核病的患者中低表达的包含EML4、BANK1和PITPNC1的一组基因;h)在患有活动性结核病的患者中过表达的包含GBP1和GPBAR1的一组基因,以及在患有活动性结核病的患者中低表达的包含OSBPL10、NOV和MCM5的一组基因;i)在患有活动性结核病的患者中过表达的包含CD274、SCO2和KCNJ2的一组基因,以及在患有活动性结核病的患者中低表达的包含GNG7和PPM1H的一组基因;j)在患有活动性结核病的患者中过表达的包含AIM2、GBP4和PRPS2的一组基因,以及在患有活动性结核病的患者中低表达的包含PNOC和RNF44的一组基因;k)在患有活动性结核病的患者中过表达的包含PSMB9、CNDP2、TAP2和FAM26F的一组基因,以及在患有活动性结核病的患者中低表达的包含ARHGEF18、SWAP70和SYTL1的一组基因;和1)在患有活动性结核病的患者中过表达的包含LHFPL2、MOV10、C1QB和P2RY14的一组基因,以及在患有活动性结核病的患者中低表达的包含TRIM28、BLK和PPIA的一组基因。

D.诊断系统和计算机诊断结核病的方法

在另一方面中,本发明包括用于诊断疑似患有结核病的患者的计算机实现的方法。计算机进行包括以下各项的步骤:接收所输入的患者数据,所述数据包含来自所述患者的生物样品中的一种或多种结核病生物标记物的水平的值;分析一种或多种结核病生物标记物的水平并且与结核病生物标记物的相应参考值范围进行比较;计算患者的TB评分;计算患者患结核病的概率;以及显示关于患者的诊断的信息。在某些实施方案中,输入的患者数据包含来自患者的生物样品中多种结核病生物标记物的水平的值。

在某些实施方案中,所输入的患者数据包含在患有活动性结核病的患者中过表达的一组基因和在患有活动性结核病的患者中低表达的一组基因的表达水平的值,所述基因是选自由以下各项组成的组:a)在患有活动性结核病的患者中过表达的包含GBP5和DUSP3的一组基因,以及在患有活动性结核病的患者中低表达的包含KLF2的一组基因;b)在患有活动性结核病的患者中过表达的包含GBP6、HLA-DMA和TAPBPL的一组基因,以及在患有活动性结核病的患者中低表达的包含TPK1、CD79B和AP1M1的一组基因;c)在患有活动性结核病的患者中过表达的包含ANKRD22、ASGR1和C5的一组基因,以及在患有活动性结核病的患者中低表达的包含OXSR1的一组基因;d)在患有活动性结核病的患者中过表达的包含BATF2、RARRES3和ALDH1A1的一组基因,以及在患有活动性结核病的患者中低表达的包含ORAI1、RBBP7和HLA-DOB的一组基因;e)在患有活动性结核病的患者中过表达的包含VAMP5、PSME2和USF1的一组基因,以及在患有活动性结核病的患者中低表达的包含TATDN2、CD79A和COL9A2的一组基因;f)在患有活动性结核病的患者中过表达的包含GBP2、FAM111A和BRSK1的一组基因,以及在患有活动性结核病的患者中低表达的包含FNBP1、MAP7和IL27RA的一组基因;g)在患有活动性结核病的患者中过表达的包含WDFY1的一组基因,以及在患有活动性结核病的患者中低表达的包含EML4、BANK1和PITPNC1的一组基因;h)在患有活动性结核病的患者中过表达的包含GBP1和GPBAR1的一组基因,以及在患有活动性结核病的患者中低表达的包含OSBPL10、NOV和MCM5的一组基因;i)在患有活动性结核病的患者中过表达的包含CD274、SCO2和KCNJ2的一组基因,以及在患有活动性结核病的患者中低表达的包含GNG7和PPM1H的一组基因;j)在患有活动性结核病的患者中过表达的包含AIM2、GBP4和PRPS2的一组基因,以及在患有活动性结核病的患者中低表达的包含PNOC和RNF44的一组基因;k)在患有活动性结核病的患者中过表达的包含PSMB9、CNDP2、TAP2和FAM26F的一组基因,以及在患有活动性结核病的患者中低表达的包含ARHGEF18、SWAP70和SYTL1的一组基因;和1)在患有活动性结核病的患者中过表达的包含LHFPL2、MOV10、C1QB和P2RY14的一组基因,以及在患有活动性结核病的患者中低表达的包含TRIM28、BLK和PPIA的一组基因。

在另一方面中,本发明包括用于进行如所描述的计算机实现的方法的诊断系统。诊断系统可包括计算机,所述计算机包括处理器、存储组件(即,存储器)、显示组件以及通常存在于通用计算机中的其它组件。存储组件存储处理器可访问的信息,包括可由处理器执行的说明书以及可由处理器检索、操纵或存储的数据。

存储组件包括用于确定受试者的诊断的指令。例如,存储组件包括用于基于生物标记物表达水平计算受试者的TB评分的指令,如本文所述(参见实施例1)。另外,存储组件可进一步包括用于进行以下各项的指令:多元线性判别分析(LDA)、接受者操作特征(ROC)分析、主组分分析(PCA)、集成数据挖掘方法、微阵列细胞特异性显著性分析(csSAM)或多维蛋白质鉴别技术(MUDPIT)分析。计算机处理器耦合到存储组件,并被配置以执行存储在存储组件中的指令,以便接收患者数据并根据一个或多个算法分析患者数据。显示组件显示关于患者诊断的信息。

存储组件可以是能够存储处理器可访问的信息的任何类型,例如硬驱动器、存储卡、ROM、RAM、DVD、CD-ROM、USB快闪驱动器、可写入和只读存储器。处理器可以是任何公知的处理器,例如来自英特尔公司的处理器。或者,处理器可以是专用控制器,例如ASIC。

指令可以是由处理器直接(例如机器代码)或间接(例如脚本)执行的任何指令集。就此来说,术语“指令”、“步骤”和“程序”在本文中可互换使用。指令可以目标代码形式存储以供处理器直接处理,或以任何其它计算机语言存储,所述计算机语言包括根据需要解释或预先编译的独立源代码模块的脚本或集合。

数据可根据指令由处理器检索、存储或修改。例如,虽然诊断系统不受任何特定数据结构的限制,但数据可以呈具有多个不同字段和记录、XML文档或平面文件的表格形式的关系数据库存储在计算机寄存器中。数据也可以任何计算机可读的格式(例如但不限于二进制值、ASCII或Unicode)来格式化。此外,数据可包含足以鉴别相关信息的任何信息,例如数字、描述性文本、专有代码、指针、对存储在其它存储器(包括其它网络位置)中的数据的引用或通过函数用于计算相关数据的信息。

在某些实施方案中,处理器和存储组件可包括可或可不存储在相同的物理外壳内的多个处理器和存储组件。例如,一些指令和数据可存储在可移动CD-ROM上,而其它指令和数据可存储在只读计算机芯片内。部分或全部指令和数据可存储在物理上远离处理器但仍可被处理器访问的位置中。相似地,处理器实际上可包括可或可不并行操作的一组处理器。

在一个方面,计算机是与一个或多个客户端计算机连通的服务器。每台客户端计算机都可配置为与服务器相似,具有处理器、存储组件和指令。每台客户计算机可以是旨在供个人使用、具有通常见于个人计算机中的所有内部组件的个人计算机,所述内部组件例如中央处理单元(CPU)、显示器(例如显示由处理器处理的信息的监测器)、CD-ROM、硬驱动器、用户输入装置(例如鼠标、键盘、触摸屏或麦克风)、扬声器、调制解调器和/或网络接口装置(电话、电缆或其它),并且所有所述组件都用于将这些元件彼此连接并允许其彼此连通(直接或间接)。此外,根据本文所描述的系统和方法的计算机可包括能够处理指令并且将数据传输到人类和其它计算机(包括缺乏本地存储能力的网络计算机)以及自人类和其它计算机传输数据的任何装置。

尽管客户端计算机可包括全尺寸个人计算机,但当与能够经由诸如因特网的网络与服务器无线交换数据的移动装置结合使用时,所述系统和方法的许多方面都会特别有利。例如,客户端计算机可以是无线激活的PDA,例如黑莓手机、苹果iPhone、安卓手机或其它可联网移动手机。在这方面,用户可使用小键盘、袖珍键盘、触摸屏或任何其它用户输入构件来输入信息。计算机可具有用于接收无线信号的天线。

服务器和客户端计算机能够进行直接和间接连通(例如经由网络)。应了解典型的系统可包括大量连接的计算机,并且每一不同的计算机位于网络的不同节点处。网络和居间节点可包括装置和连通方案的各种组合,所述方案包括因特网、万维网、内联网,虚拟专用网络、广域网、本地网络、手机网络、使用一个或多个公司专有的通信方案的专用网络、以太网(Ethernet)、WiFi和HTTP。所述连通可通过任何能够向其它计算机或自其它计算机传输数据的装置(例如调制解调器(例如拨号或电缆)、网络和无线接口)来实现,。服务器可能是网络服务器。

尽管当如上所述传输或接收信息时获得了某些优点,但所述系统和方法的其它方面不限于任何特定的信息传输方式。例如,在一些方面中,可经由诸如磁盘、磁带、快闪驱动器、DVD或CD-ROM的媒体发送信息。在其它方面中,可以非电子格式传输信息并将其手动输入到系统中。再另外,尽管一些功能被指示为发生在服务器上并且其它功能发生在客户端上,但所述系统和方法的多个方面可由具有单一处理器的单一计算机来实现。

III.实验

以下是用于进行本发明的具体实施方案的实施例。所述实施例仅用于说明的目的,并且并非意图以任何方式限制本发明的范围。

已经努力确保所用的数字(例如量、温度等)的准确性,但当然应当允许一些实验误差和偏差。

实施例1

用于诊断肺结核病的全基因组表达的多队列分析

引言

活动性结核病(ATB)很难诊断,特别是在与潜伏性TB(LTB)以及其它肺病和传染病(OD)相比时。有效地监测TB治疗响应也很困难。我们使用三个公共可用的外周血全基因组表达数据集来发现三-基因标签,所述标签可将ATB患者与患有LTB或OD的那些患者区分开来。我们进一步验证了所述标签的诊断能力,以从由9个国家的儿童与成人构成的七个独立队列中分离ATB与健康对照、LTB和OD。在四个纵向队列中治疗的ATB患者中三-基因集的表达下降,并且未被HIV感染状态、细菌耐药性或BCG疫苗接种所干扰。总体来说,我们的整合多队列分析产生了三-基因集,所述基因集可稳健地诊断ATB,这在多个独立队列中得到了广泛验证,并且所述基因集在诊断和治疗响应监测方面具有广泛的临床应用。

方法

我们假设来自异源ATB患者群体的基因表达数据跨越多个年龄、国家和纳入准则的整合将产生一组保守基因,所述保守基因指示ATB在队列间具有极佳泛化性。使用系统搜索,我们鉴别了13个公共可用的数据集,所述数据集由符合纳入准则的2,484个患者样品构成(表1)(Anderson等(2014)N.Engl.J.Med.370:1712-1723;Kaforou等,(2014)J.Infect.69增刊1:S28-31;Berry等,(2010)Nature 466:973-977;Bloom等,(2013)PLoS One 8:e70630;Verhagen等,(2013)BMC Genomics 14:74;Maertzdorf等,(2011)PLoS One 6:e26938;Ottenhoff等,PLoS One 7:e45839;Maertzdorf等,(2012)Proc.Natl.Acad.Sci.USA 109:7853-7858;Bloom等,(2012)PLoS One 7:e46191;Cliff等,(2013)J.Infect.Dis.207:18-29;Wu等,(2014)Biomed.Res.Int.2014:895179;Cai等,(2014)PLoS One 9:e92340;Dawany等,(2014)PLoS One 9:e89925;Tientcheu等,(2015)Genes Immun.16(5):347-355)。我们将我们之前所述的多队列分析框架(Khatri等,(2013)J.Exp.Med.210:2205-2221;Sweeney等,(2015)Sci.Transl.Med.7:287ra271;Li等,(2014)Acta Neuropathol.Commun.2:93)应用于由1,023个全血样品(LTB=236,OD=491,ATB=296)构成的这些数据集中的三个(GSE19491(成人,Berry等,(2010)Nature 466:973-977)、GSE37250(成人,Kaforou等,(2014)J.Infect.69增刊1:S28-31)和GSE42834(成人,Bloom等,(2013)PLoS One 8:e70630)以比较LTB或OD患者与ATB患者(图1A)。患有OD的样品包括类肉瘤病、肺部和非肺部感染、自身免疫疾病和肺癌患者。我们鉴别出在FDR≤1%和效应大小>1.5倍下与LTB和OD相比在ATB中266个基因显著差异表达(158个过表达和108个低表达)(表2)。我们应用了贪婪前向搜索(Sweeney等,(2015)Sci.Transl.Med.7:287ra271)以获得针对诊断能力最佳化的一组基因,从而产生三-基因集(GBP5、DUSP3、KLF2;图1B)。如所预期,在发现数据集中,三-基因集将ATB与健康对照(HC)(AUC为0.96和1.0,平均灵敏度为0.93,平均特异度为0.97)、LTB(AUC为0.93和0.93,平均灵敏度为0.88,平均特异度为0.85)和OD(平均AUC为0.88,范围为0.84-0.92;平均灵敏度为0.82,平均特异度为0.79)区分开来(图2A-2C;图6)。表3示出了各个数据集的测试特征(灵敏度、特异度、NPV、PPV和准确度)。图7中示出了按疾病种类对‘其它疾病’类别的分类。除了类肉瘤病(AUC=0.79)以外,在所有种类的其它疾病(AUC≥0.85)之间TB评分都表现良好,此可能是这两种疾病常见的干扰素响应的结果(Maertzdorf等,(2012)Proc.Natl.Acad.Sci.USA 109:7853-7858)。

接下来,我们验证了10个独立临床TB基因表达数据集中的三-基因集,包括4种类型的比较:(1)HC相对于ATB、(2)LTB相对于ATB、(3)OD相对于ATB和(4)ATB的纵向治疗/恢复。几个验证数据集包括多个患者种类(即HC、LTB和ATB);在所述情况下,我们将每一患者种类分开地与相同数据集中的ATB组进行比较,其中ATB始终被定义为培养阳性或涂片阳性病例。

存在四个比较HC患者与ATB患者的独立数据集(GSE28623(成人,Maertzdorf等,(2011)PLoS One 6,e26938)、GSE34608(成人,Maertzdorf等,(2012)Proc.Natl.Acad.Sci.USA 109:7853-7858)、GSE41055(儿童,Verhagen等,(2013)BMC Genomics 14:74)和GSE56153(成人,Ottenhoff等,(2012)PLoS One 7:e45839);总HC=82,ATB=91;表1)。尽管在这些数据集中临床异源性显著(包括年龄、原籍国和纳入准则),但所有数据集中ATB患者的评分都显著高于HC(威尔科克森P<0.05),其中平均AUC为0.92(范围为0.75-1.0,平均灵敏度为0.86,平均特异度为0.81;图2D;图8;表4中的各个数据集测试特征)。在利用双通道阵列设计的第五数据集GSE25534(成人,Maertzdorf等(2011)Genes Immun.12:15-22)中,尽管不可构建ROC曲线,但所述三-基因集可对健康样品相对于ATB样品进行完美分类(N=25,图9)。因此,我们的三-基因集可成功地将来自HC的ATB患者区分开来。

存在四个比较LTB与ATB患者的独立数据集(GSE28623(Maertzdorf等,(2011)PLoS One 6:e26938)、GSE39939(儿童,Anderson等,(2014)N.Engl.J.Med.370:1712-1723)、GSE39940(儿童,Anderson等,同上)和GSE41055(Verhagen等,(2013)BMC Genomics 14:74);总LTB=102,ATB=194;表1)。所有数据集中ATB患者的TB评分都高于LTB患者(威尔科克森P<0.05)。四个队列具有0.93的平均AUC(范围为0.84-0.97;平均灵敏度为0.87,平均特异度为0.85;图2E和图8;表4中的各个数据集测试特征)。此外,在GSE25534(具有双通道阵列)中,所述三-基因集以97%的准确度对LTB样品相对于ATB样品进行分类(N=38,图9)。这些结果提供了强有力的证据证明所述三-基因集可将ATB与LTB分开。

存在三个比较OD患者与ATB患者的独立数据集(GSE34608(Maertzdorf等,(2012)Proc.Natl.Acad.Sci.USA 109:7853-7858)、GSE39939(Anderson等(2014)N.Engl.J.Med.370:1712-1723)、GSE39940(Anderson等,同上);总OD=251,ATB=154;表1)。在这些队列中,‘其它疾病’类别主要包括肺炎患者,但也包括慢性肺病(例如类肉瘤病、非肺部感染或恶性肿瘤)患者。在所有数据集中,ATB患者的TB评分相较于OD患者更高(威尔科克森P<0.05)。三个队列的平均AUC为0.83(范围为0.75-0.91;平均灵敏度为0.65,平均特异度为0.74;图2F;图8;表4中的各个数据集测试特征)。即使在将ATB与OD分开困难的情况下,三-基因集也表现良好。

针对上述每一比较所报告的测试特征针对每一数据集使用不同的TB评分阈值以使给定数据集内的联合特异度和灵敏度最大化。然而,‘现实世界’的临床应用将需要单一阈值,所述单一阈值可普遍适用于所有患者(而不是针对不同的队列使用不同的阈值)。一个现实世界的应用也会针对所有队列中的所有患者使用单一技术。相比之下,在我们的研究中,基于多种微阵列技术利用不同的处理方法来剖析队列。因此,队列之间基因表达的本底水平显著不同。因此,为了以更‘现实世界’的方式评价TB评分的表现,我们构建了全局表达矩阵,其中将每一类型比较的所有数据集合并成单一矩阵,并且然后测试所有数据集中对于单一全局截止值的TB评分。由于各种微阵列技术差异测量每一基因的基线表达值,我们校正了数据集中每一基因的平均表达水平以匹配全局平均值,使得保留了给定基因的数据集内分布。因此,我们能够评价用于每一比较的单一全局ROC AUC,并且从最佳截止值估算测试特征。在所有数据集中使用全局截止值的AUC为:在所有验证数据集中,HC相对于ATB,AUC为0.90(灵敏度为0.85,特异度为0.93),LTB相对于ATB,AUC为0.88(灵敏度为0.80,特异度为0.86),并且OD相对于ATB,AUC为0.84(灵敏度为0.81,特异度为0.74)(图3)。在图10-12中示出了平均缩放的效应以及将发现数据集纳入全局表达矩阵中的效应。这些结果显示,即使我们实施全局阈值,我们的基因标签也能够维持来自HC、LTB和OD队列的ATB患者的准确分配。

接下来,我们检查了几种干扰因素(HIV共感染、TB耐药性和培养状态、疾病严重程度和BCG疫苗接种)对三-基因集的影响。在包括具有或没有HIV共感染的ATB患者的三个数据集(GSE37250、GSE39939和GSE39940)中,在具有或没有HIV共感染的情况下OD相对于ATB的TB评分AUC没有差异(图4A-4C)。在GSE37250中,在具有HIV共感染的情况下,LTB相对于ATB的TB评分AUC有所下降,但两个组的AUC保持较高(HIV阴性AUC 0.97;HIV阳性AUC0.89)。另外,一个数据集GSE50834检测了来自具有和没有TB共感染的HIV阳性患者的PBMC;这里,TB评分的AUC为0.85,但不包括非HIV感染的队列(图13)。

在GSE19491中,检查了除HIV以外的混杂因素,由于BCG疫苗接种状态或Mtb耐药性,TB评分没有差异。另外,TB评分与如通过胸部放射线摄影术所定义的疾病严重程度(J-T测试,p<0.001)呈正相关(图14)。培养状态的作用在儿童中较显著。两个儿科数据集GSE39939和GSE41055包括培养阴性活动性TB患者队列。在这些数据集中,培养阴性ATB的TB评分显著低于培养阳性ATB(P<0.05;图8)。然而,在GSE19491中,在患有培养阳性ATB的成人中,涂片阳性程度或来自痰液或BAL的阴性培养物(当另一种为阳性时)不影响TB评分(图15)。这些结果表明,儿童中经由TB评分的阳性ATB分类可能对ATB具有高度特异性,但可能对培养阴性的ATB儿童不灵敏。

接下来,我们检查了在治疗期间纵向剖析ATB患者的四个数据集(Cliff组合数据集(Cliff等,(2013)J.Infect.Dis.207:18-29)、GSE40553(Bloom等,(2012)PLoS One 7,e46191)、GSE56153(Ottenhoff等,(2012)PLoS One 7:e45839)和GSE62147(Tientcheu等,(2015)Genes Immun.16(5):347-355);表1)。四个数据集中的每一个都跟踪ATB患者长达6或12个月。在每一数据集中,随着治疗进展,TB评分示出了显著的降低趋势(图5,表5中的回归模型)。此外,大多数患者随着时间的推移显示个别的降低趋势。在GSE56153中,恢复期患者的TB评分与HC的那些TB评分没有差异(威尔科克森P>0.05)。在GSE62147中,还检查了患有由非洲分枝杆菌引起的ATB的患者;在这里,TB评分也随着治疗而下降。这些结果表明,TB评分可能是临床治疗响应的有用生物标记物,并且可潜在地鉴别出治疗无应答者,但在这里无应答者都不可用于研究。

所有上述数据集都检查了肺活动性TB;一个问题是三-基因集是否也可用于肺外TB的诊断。一个数据集GSE63548比较TB感染的淋巴结组织与来自健康对照的淋巴结(D-2087,Transcriptomic and Proteomic profiling of lymph node tissue infected with Mycobacterium tuberculosis.美国微生物学会第114次会议(2014));这里,TB评分具有0.98的ROC AUC(图16)。然而,由于此研究是在实际的淋巴结组织而不是外周血中进行的,因此将有必要进行进一步的工作来评估TB评分在肺外TB中的效用。

我们的分析中所使用的几项研究先前已经鉴别出用于诊断ATB患者的转录物或基因集(Anderson等,(2014)N.Engl.J.Med.370:1712-1723;Kaforou等,(2014)J.Infect.69增刊1:S28-31;Berry等,(2010)Nature 466:973-977;Bloom等,(2013)PLoS One 8:e70630;Verhagen等,(2013)BMC Genomics 14:74)。然而,这些基因集或含有大量的基因,或不可泛化,或者两种情况兼而有之。我们测试了来自5个研究的8个先前公布的诊断基因集的在此处所检查的所有数据集中区分OD和LTB与ATB的能力(图17-22)。每一基因集都是使用其原始论文中描述的方法在所有数据集中测试的;对于需要模型(如k最近邻(Berry等,同上)或支持向量机(Bloom等,同上))的方法,使用整个原始发现队列构建模型,并且然后在其它独立队列中进行测试。在独立验证数据集中,大多数基因集的区分能力显著下降。当比较基本诊断能力时,只有来自Kaforou等((J.Infect(2014)69增刊1:S28-31)的两基因集的表现与我们的三-基因集一样好。然而,Kaforou等的两-基因集含有71个基因(仅包括我们的基因中的一个,DUSP3),此妨碍了所述两-基因集在资源有限环境中的临床应用;相比之下,我们的三-基因集可被最佳化为低成本平台。

最后,我们研究了在来自25种不同类型免疫细胞的公共可用的全基因组表达谱中266种重要基因的完整集与诊断性三-基因集的表达。两种基因集都示出了在M1巨噬细胞中统计学显著的富集(P<0.05)(图23)。由于在干扰素γ(IFNγ)处理后巨噬细胞极化为M1,因此这些发现可证实IFNγ在宿主对ATB的响应中的作用。因此,三-基因集可洞察宿主对活动性肺TB的响应。

讨论

减少结核病全球负担的关键要求是诊断和监测治疗响应的更好工具。在这里,我们使用跨越各个年龄段、注册国家和纳入准则由1,023个患者全血样品构成的三个所公布TB基因表达数据集的多队列分析,以发现与LTB和OD相比在ATB中统计学差异表达的基因。我们鉴别了三-基因集,并且在另外10个由1,461个样品组成的独立全血数据集中进行了验证,以证明所述三-基因集可稳健地诊断ATB相对于健康对照、潜伏性TB以及对HIV状态和BCG疫苗接种恒定的其它疾病,并且与ATB严重程度显著相关。

其他人已经提出了几种TB诊断性基因集;这里使用的五个数据集是用一组或多组诊断基因集公布的。当比较这些所公布的基因标签时,其间的重叠最小。另外,更大的基因集没有更好的泛化或诊断能力。依赖于机器学习模型的单一研究发现分析易于过度拟合,并且因此遭受缺乏泛化性(表6和图17-22)。每一基因集都是使用其原始描述的模型使用其原始数据集的所有数据来测试的。因此,AUC的这些比较是对各种基因集和模型的现实世界验证的合理估计。总体来说,与所有其它已公布的TB基因集相比,我们的基因集是简约的(只有三个基因),可在多个临床组中利用单一测试将OD和LTB两者与ATB区分开,并且在独立的外部数据集中表现良好。

我们提供了强有力的证据证明我们的三-基因集解决了ATB诊断中的一些重大挑战。首先,所述三-基因集是基于外周血的,并且因此其临床应用不需要复杂的程序或患者产生足够的痰液。其次,我们的三-基因集在儿童(需要更有效且准确的诊断的目标群体)中诊断培养阳性ATB方面表现良好。我们应注意,三-基因集无法诊断培养阴性的儿科ATB患者(但测试的PPV仍可能具有显著的临床益处)。最后,HIV状态未改变三-基因集对于OD相对于ATB比较的诊断能力,并且尽管对于LTB相对于ATB,HIV+患者的AUC更低,但所述AUC仍然很高(0.97HIV-,0.89HIV+)。通过解决现有TB诊断的这些临床挑战,三-基因集将成为当前TB诊断方法的有用临床辅助手段。

另一关键且未满足的需求是能够对TB治疗响应进行定量监测。目前TB治疗所用新药的临床试验中的标准需要在治疗后等待两年才能观察到复发率。改善的监测技术可能允许更早地鉴别出无响应者。三-基因集随着疾病严重程度的增加而增加,并且随着治疗时间的减少而减少(在治疗结束时恢复到与健康对照相同的水平),并且各数据集之间具有非常相似的系数(TB评分每周下降0.02到0.05)。跨多个数据集的此一致性表明使用我们的三-基因集可检测与‘标准’治疗响应的偏差,并且可显著更早地鉴别出治疗无应答者。TB评分与疾病严重程度的相关性还表明,可能将所述测试用于新药试验的预测性富集策略(Temple(2010)Clin.Pharmacol.Ther.88:774-778)。因此,利用三-基因集来改善TB药物试验具有诱人的可能性,其需要进一步的研究。

三-基因集的小尺寸在其最终的临床应用中将会很重要,相对于更大的基因集可降低成本和复杂性。在另外的靶标情况下,多重PCR的难度可能会成倍地增加,但可并行运行小集合。例如,Cepheid的GeneXpert MTB/RIF测定测量5个基因座的表达,并且每一筒柱的成本在10美元到20美元之间25。使用此测定(测量三-基因集的测定)作为近似基准在商业最佳化之后可能能以相似的成本提供。

最后,众所周知天然免疫响应和肺驻留巨噬细胞在建立TB感染中的重要性(Dorhoi等,(2014)Semin.Immunol.26:533-542)。然而,仍然缺乏对宿主对分枝杆菌响应期间所涉及的特定细胞机制的了解。我们在此已经鉴别了宿主对ATB响应的基因,所述基因与先天免疫细胞、特别是M1巨噬细胞高度相关。已知三种基因在免疫调节和感染响应中起作用。GBP5响应于病原菌而促进装配AIM2与NLRP3发炎体装配两者(Shenoy等,(2012)Science 336:481-485;Meunier等,(2015)Nat.Immunol.16:476-484)。DUSP3是JNK与ERK信号传导两者的已知调节剂(Ishibashi等,(1992)Proc.Natl.Acad.Sci.USA 89:12170-12174;Alonso等,(2001)J.Biol.Chem.276:4766-4771)。已经显示KLF2响应于细菌刺激在巨噬细胞中下调;此外,敲低/敲除研究已经示出了降低的KLF2导致促炎性表型(Mahabeleshwar等(2012)J.Biol.Chem.287:1448-1457;Das等(2012)Curr.Mol.Med.12:113-125;Lingrel等,(2012)Circ Res 110:1294-1302)。对这三种基因的其它假设驱动的研究将更好地洞察对TB感染期间的全身与局部免疫响应,并且可帮助设计更有效的治疗剂和疫苗。

可以证明,我们的研究的一个弱点在于全局ROC需要平均值的重新中心化来适应通过不同技术进行的基线基因表达测量的变化。然而,此类中心化证明有道理,因为在三-基因集的现实世界应用中,利用全局平均值的相同技术可用于所有队列中。此外,当三-基因集减少到靶标测定时,可将当前公共数据映射到最终临床平台的本底基因表达水平,以便利用公共数据设定最佳截止值以供未来诊断。因此,虽然最佳截止值在最终的商业形式中可能会发生变化,但我们的结果示出,三-基因集可作为利用单一截止值的临床测试来开发用于诊断ATB。

总体来说,本文提供的数据示出,我们的三-基因集可稳健地诊断ATB。三-基因集可改善临床诊断和治疗响应监测。其以全血为基础并且对多种临床干扰因素是稳健的。三-基因集的简约性应当易于翻译成临床实践,并且在经常诊断出结核病的严峻环境中可证实成本效益。

方法

此研究的目的是分析多个基因表达数据集,以鉴别使用先前描述的整合多队列分析框架可将患有ATB的患者与患有LTB或OD的那些患者稳健地分开的一组基因(Khatri等,(2013)J.Exp.Med.210:2205-2221;Sweeney等,(2015)Sci.Transl.Med.7:287ra271;Chen等,(2014)Cancer Res 74:2892-2902)。

我们搜索了两个公共基因表达微阵列存储库(NIH GEO和ArrayExpress),用于匹配以下任何搜索术语的所有人类基因表达数据集:结核病、TB和mycobact[通配符]。我们保留了检查全血中活动性肺结核病感染临床队列的数据集以供进一步研究,并且所排除的仅检查疫苗响应的数据集仅在细胞培养物中进行、使用芯片上双样品阵列或在除全血以外的组织中进行。其余13个数据集含有来自10个国家的成人与儿科患者的2,396个样品(表1)。

GEO中的两个基因表达数据集(GSE19491和GSE 42834)含有多个子队列。对于这些数据集,我们去除了非全血样品,如下将其余样品归一化,并且然后作为单一队列进行处理。一对数据集(GSE31348和GSE36238)是来自Cliff等(J.Infect.Dis.(2013)207:18-29)的单一临床队列;下载原始的CEL文件并且将gcRMA一起归一化,以制成在手稿中称作“Cliff组合的”单一队列。所有的affymetrix数据集都是从原始数据重新归一化的gcRMA。以非归一化的形式下载所有的非affymetrix阵列,使用正态指数方法来校正本底,并且然后进行分位数归一化(R package limma,Smyth,G.Bioinformatics and Computational Biology Solutions Using R and Bioconductor(编辑Carey V、Gentleman R、Dudoit S、Irizarry R和Huber W(编))第397-420页(Springer,New York,2005))。在使用前对所有数据进行log2转换。我们下载了来自2015年1月9日的最新SOFT文件的GEO的所有探针到基因的映射。

我们进行了多队列分析,其比较LTB或OD患者相对于ATB患者中的基因表达。我们使用三个数据集(GSE19491、GSE37250和GSE42834)作为发现数据集,并应用了两种元分析方法:(1)组合效应大小(赫氏g(Hedges’g))和(2)使用费歇尔对数和法(Fisher’s sum of logs method)组合p值(图1A);然后经由本杰明-霍赫贝格方法(Benjamini-Hochberg method)将两种校正为FDR。我们将差异表达的显著性阈值设定为FDR<1%和效应大小>1.5倍(在非对数空间中)。

对于任何给定的基因集,我们将TB评分定义如下:对于数据集内的样品,目标基因的表达值以平均值为中心(以减少数据集之间的缩放因数)。然后从上调的基因的平均表达中减去下调的基因的平均表达,以产生每一样品的单一‘TB评分’。然后使用ROC曲线直接测试此TB评分的诊断能力。

如先前所述进行前向搜索(Sweeney等(2015)Sci.Transl.Med.7:287ra271),并且对TB评分的计算方式做了轻微的修改,如上文所述。简单来说,将具有最佳区分能力的单一基因作为起点,并且然后在每一后续步骤中,将加权AUC(每一数据集的AUC总和乘以所述数据集中的样品数)中具有最佳可能增加的基因添加到所述一组基因中,直到进一步的添加都不会使加权的AUC增加超过某一阈值量(此处为0.005*N)。前向搜索始终仅最佳化发现数据集,使得验证数据集是真正独立的测试。

为了进行验证,小提琴图示出了患者样品的所有子集中给定数据集的TB评分。小提琴图误差棒示出了四分间距,因为其不能被假定为在组内具有正态分布。所有ROC曲线都示出了在给定数据集内与ATB患者的比较。

通过将三-基因集的表达水平结合到所有测试数据集的单一矩阵中来构建全局ROC(仅验证,图3,或者发现和验证,图10-12)。在重新缩放的情况下,在所有样品中获得每一基因的全局平均值,并且然后从每一数据集内的平均值中减去,使得每一数据集内的每一基因具有与所有其它数据集相同的平均值。此方法仍然保留了数据集内样品之间基因的相对差异,如图10-12所示。应注意,在同一微阵列类型上运行的数据集(如GSE37250、GSE39939、GSE39940和GSE42834,都在GPL10558(Illumina HumanHT-12 V4)上运行)之间不存在大的预缩放差异(pre-scaling difference)。计算最佳全局截止值以使灵敏度和特异度最大化(约登法(Youden method))。

在测试其它组的诊断基因或转录物集时,总会将转录物汇总为基因。对于所有样品,将给定数据集中缺失的基因设为零。在每一情况下,基因集都是根据其原始描述的模型进行测试的,由我们使用整个发现数据集进行重构。在提供多个基因集的手稿中,测试了具有最佳原始诊断能力的基因集(例如,Kaforou等,同上),提供了用于对于OD、LTB或两者测试ATB的五个基因集;我们仅使用OD和LTB的最佳标签)。计算先前基因集的汇总性ROC(下文所描述),包括发现与验证数据集。

根据Kester和Buntinx(Kester等(2000)Med.Decis.Making 20:430-439)构建汇总性ROC曲线,所述方法并入整个ROC曲线的信息,而不是依靠单一汇总点(Q*)。简单来说,将每一ROC曲线建模为其在每一截止点的灵敏度和特异度的逻辑斯谛函数(logistic function);使用加权线性回归估算ROC曲线的参数(α和β),并且利用具有置换的10,000次重复的自举来估算误差。使用随机效应模型组合汇总性α和β参数,其中从自举传入误差。然后对汇总α和β进行重新转换以构建汇总性ROC曲线(图24)。上部和下部汇总性ROC置信区间各自用β上的上限和下限来构建,反映了曲线偏度的不确定性。使用梯形法利用1000个点来计算汇总曲线的AUC。

简单来说,为了测试来自已知分选细胞的基因表达型式中的基因标签,我们聚集了来自几种免疫细胞类型的公共基因表达数据,并且然后计算每一细胞类型基因组中的相关TB评分,如先前所述(Sweeney等(2015)Sci.Transl.Med.7:287ra271)。

使用威尔科克森秩和测试进行组间TB评分比较。除非另有说明,否则将显著性水平设定为双尾P<0.05。所有的计算(computation和calculation)都是以用于统计计算的R语言(第3.0.2版)进行。核心多队列分析代码可以以称为“MetaIntegrator”的R包获得。

表1.所有匹配纳入准则的数据集的汇总表(全血,临床活动性肺TB)。

表2.在多队列分析中发现所有所列示基因都显著(q<0.01,ES>1.5倍),所述基因是根据绝对汇总效应大小来分选的。

表3.发现数据集中自动阈值(最大灵敏度+特异度)下的测试参数。分开计算每一数据集的阈值,并且然后根据所得到的患者分类来生成测试统计量。PPV,阳性预测值,NPV,阴性预测值。

发现-HC相对于ATB

发现-LTB相对于ATB

发现-OD相对于ATB

表4.验证数据集中自动阈值(最大灵敏度+特异度)下的测试参数。分开计算每一数据集的阈值,并且然后根据所得到的患者分类来生成测试统计量。PPV,阳性预测值,NPV,阴性预测值。

验证-HC相对于ATB

验证-LTB相对于ATB

验证-OD相对于ATB

表5.TB评分关于治疗时间(按周计)的线性回归。所有四个数据集都示出随时间的显著降低。Cliff组合

GSE40553

GSE56153

GSE62147

实施例2

肺结核病的另外诊断性基因集的推导

为了鉴别另外的诊断基因集,我们实现了递归贪婪前向搜索,从而在算法的结论中,将所得到的诊断基因集从可能的重要基因集中移除,并且再次运行所述算法。第一基因集被用于进一步验证,但注意到其它基因集在发现队列中表现相似(表6)。

尽管已经说明和描述了本发明的优选实施方案,但应当了解,在不背离本发明的精神和范围的情况下可作出各种改变。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1