活性与潜伏性结核分枝杆菌感染的血液转录签名的制作方法

文档序号:6002799阅读:194来源:国知局
专利名称:活性与潜伏性结核分枝杆菌感染的血液转录签名的制作方法
技术领域
本发明总的来说涉及结核分枝杆菌(Mycobacterium tuberculosis)感染的领域,并且更具体地涉及用于在治疗之前、期间和之后,诊断、预后和监测活性结核分枝杆菌感染和疾病进展的方法、试剂盒和系统,所述疾病表现为潜伏性的或无症状的。
背景技术
不限制本发明的范围的前提下,将其背景结合结核分枝杆菌感染的鉴定和治疗进行描述。 肺结核(PTB)是结核分枝杆菌(M. tuberculosis)引起的全世界发病和死亡的主要的和增长的原因。然而,感染了结核分枝杆菌的多数个体保持无症状,将感染保持在潜伏形式,并认为该潜伏状态是通过主动免疫应答维持的(WH0;Kaufmann,SH&McMichael, AJ. , Nat Med, 2005)0这受到报道的支持,所述报道显示使用抗-TNF抗体治疗患克罗恩病(Crohn’s Disease)或者类风湿关节炎(Rheumatoid Arthritis)的患者,引起自身免疫症状的改善,然而另ー个方面在事先接触结核分枝杆菌(Keane)的患者中引起TB的再活化。对结核分枝杆菌的免疫应答是多因子的,并包括遗传学上确定的宿主因子,如Thl轴的TNF和IFN-Y以及IL-12 (综述于Casanova, Ann Rev; Newport)。然而,来自成年人肺TB患者的免疫细胞可以产生IFN-Y、IL-12和TNF,并且IFN-Y疗法不帮助改善疾病(综述于Reljic, 2007, J Interferon&CytRes.,27,353-63),说明了更广泛数量的宿主免疫因子牵涉到抗结核分枝杆菌的保护以及潜伏性保持中。因此,在潜伏性与活性TB中所诱导的宿主因子的认识可以提供关于免疫应答的信息,所述免疫应答可以控制结核分枝杆菌的感染。PTB的诊断由于多种原因可能很困难并且有问题。首先,通过显微镜检查(涂布阳性)来证明典型的结核分枝杆菌在痰中的存在仅有50-70%的灵敏性,并且阳性诊断要求通过培养分离结核分枝杆菌,这可能花费长达8周。此外,ー些患者的痰是涂布阴性的,或者不能产生痰,故需要通过支气管镜检查法这种侵入性操作进行额外的取样。由于PTB的诊断中的这些限制,有时涂布阴性的患者要测试結核菌素(PPD)皮肤反应性(曼托试验)。然而,結核菌素(PB))皮肤反应性不能区分BCG接种、潜伏性的或者活性的TB。针对这个问题,已经开发了证明对特异性结核分枝杆菌抗原的免疫反应性的检测,所述抗原在BCG中不存在。然而,通过在Y干扰素释放检测(IGRA)中通过血细胞产生IFN-Y而测量的对这些结核分枝杆菌抗原的反应性并不将潜伏性疾病与活性疾病区分开。在临床上,当使用pro经皮内激发患者,在没有活性疾病的临床症状或体征或者放射学显示的情况下具有IGRA阳性结果时,通过延迟型高度灵敏反应来定义潜伏性TB。潜伏性的/潜在的肺結核(TB)的再活化表现出具有向其他个体传播的风险的主要健康危害,因此反映潜伏性的和活性的TB患者的区别的生物标记物在疾病控制中将是有用的,尤其是由于抗分枝杆菌的药物治疗是困难的,并且可以导致严重的副作用。多数的感染了结核分枝杆菌的个体保持无症状的,据估计全世界三分之一的人口潜伏地被该细菌感染,这为该疾病的传播提供了极大的库。对于描述为潜伏地被感染的人中,5-15%将在其一生中发展出活性的TB疾病7’8。因此,潜伏性TB患者代表在临床上不同的分类,从大部分会終生保持无症状的患者,到那些会进展到疾病再激活的患者9。潜伏性TB的诊断仅仅基于免疫致敏作用的迹象,一般地基于对结核分枝杆菌抗原的皮肤反应,该测试的特异性受到对非致病性分枝杆菌的阳性反应的影响,所述的非致病性分枝杆菌包括疫苗BCG。更近的检测测定血细胞针对特定的结核分枝杆菌抗原(IGRA)分泌的IFN- Y,其较少地遇到此问题,但是和皮肤测试一祥,其不能将潜伏性疾病与活性疾病区分开,也不能清楚地识别那些可以进展为活性疾病的患者 ' 识别出那些最具有再激活风险的人,将帮助进行靶向的预防性治疗,这一点是重要的,由于抗分枝杆菌药物治疗漫长并且可以导致严重的副作用。因此,迫切需要用于诊断、治疗和接种的新型工具,但是开发这些的努力受限于对TB复杂的潜在致病性了解不完全。

发明内容
本发明包括相对于健康的对照,用于识别潜伏性的与活性的结核(TB)患者的方法·和试剂盒。在一个实施方案中,使用微阵列分析血液的差异性的和相反的免疫签名来測定、诊断、跟踪和治疗潜伏性的与活性的结核(TB)患者。本发明首次提供了区分TB感染异质性的能力,该能力可以用于測定哪些具有潜伏性TB的个体应该由于活性和不是潜伏性/无症状性TB感染而给予抗分枝杆菌化学疗法。在一个实施方案中,本发明包括了预测表现为潜伏性的/无症状的活性结核分枝杆菌感染的方法,所述的方法包括从怀疑感染了结核分枝杆菌的患者获得患者的基因表达数据集;将该患者的基因表达数据集分成与结核分枝杆菌感染相关的ー个或多个基因模块;并且将ー个或多个基因模块中的每ー个的患者的基因表达数据集与来自也分成了相同基因模块的非患者的基因表达数据集相比;其中在ー个或多个基因模块的患者的基因表达数据集中,基因表达的整体上升或者下降指示了活性的结核分枝杆菌感染而不是潜伏性的/无症状的结核分枝杆菌感染。在ー个方面,该方法还包括使用測定的比较基因产物信息来制定至少ー种诊断、预后或者治疗方案的步骤。在另ー个方面,该方法还可以包括将具有潜伏性TB的患者与活性TB的患者区分的步骤。在ー个方面,患者的基因表达数据集来自全血、外周血液单核细胞或者唾液中的至少ー个中的细胞。在另ー个方面,将患者的基因表达数据集和至少 10、20、40、50、70、80、90、100、125、150、200、250、300、350 或者 393 个选自表2中基因的基因进行比较。在另ー个方面,将患者的基因表达数据集和至少10、20、40、50、70、80、90、100、125、150、200 个模块 Ml. 3, M2. 8、Ml. 5, M2. 6, M2. 2 和 M3. I 进行比较。在另ー个方面,与结核分枝杆菌感染相关联的基因模块选自模块Ml. 3、模块M2. 8、模块Ml. 5、模块M2. 6、模块M2. 2和模块3. I。在另ー个方面,与结核分枝杆菌感染相关联的基因模块是根据以下变化来进行选择的在B-细胞相关的基因中上升,在T细胞相关的基因中下降,在骨髓相关的基因中上升,在嗜中性粒细胞相关的转录物和干扰素诱导基因(IFN)中上升。在另ー个方面,患者的疾病状态进ー步通过患者肺部的放射学分析来測定。在另ー个方面,该方法还包括在患者经治疗后测定经治疗的患者的基因表达数据集并测定经治疗的患者的基因表达数据集是否已经恢复到正常的基因表达数据集,从而确定该患者是否已经被治疗的步骤。在另ー个实施方案中,本发明是用于在怀疑感染了结核分枝杆菌的患者中区分活性的和潜伏性的结核分枝杆菌感染的方法,该方法包括从得自具有活性的结核分枝杆菌感染的第一临床组中获得第一基因表达数据集,从得自具有潜伏性的结核分枝杆菌感染患者的第二临床组中获得第二基因表达数据集,以及从得自未感染个体的临床组中获得第三基因表达数据集;产生基因簇(gene cluster)数据集,所述的基因簇数据集包括在第一、第二和第三数据集的任意两者之间基因的差异表达;并且确定指示了潜伏性感染、活性感染或者健康的独特表达/代表性模式,其中所述的患者基因表达数据集包括从模块Ml. 3、M2. 8、Ml. 5、M2. 6、M2. 2 和 M3. I 的至少ー个中获得的至少 6、10、20、40、50、70、80、90、100、125,150或200个基因。在再一个实施方案中,本发明是用于在怀疑感染结核分枝杆菌的患者中诊断感染的试剂盒,所述的试剂盒包括用于从患者获得患者基因表达数据集的基因表达检测器,其中所表达的基因得自患者的全血;以及能够将基因表达数据集和事先定义的与结核分枝杆菌感染相关联的基因模块数据集进行比较的处理器,并且所述的处理器能区分感染的和未感染的患者,其中全血证实了与匹配的未感染患者相比,在一个或多个转录基因表达模块中多核苷酸水平的总体变化,从而区分活性的和潜伏性的结核分枝杆菌感染。在ー个方面,患者的基因表达数据集得自外周血液单核细胞。在另ー个方面,将患者的基因表达数据集 和至少 10、20、40、50、70、80、90、100、125、150、200、250、300、350 或者 393 个选自表 2 中基因的基因进行比较。在另ー个方面,将所述的患者基因表达数据集和至少10、20、40、50、70、80、90、100、125、150、200 个模块 Ml. 3,M2. 8,Ml. 5,M2. 6,M2. 2 和 M3. I 进行比较。在另ー个方面,与结核分枝杆菌相关联的基因模块选自模块Ml. 3、模块M2. 8、模块Ml. 5、模块M2. 6、模块M2. 2和模块3. I。在另ー个方面,与结核分枝杆菌相关联的基因模块是根据以下变化来进行选择的在B-细胞相关的基因中下降,在T细胞相关的基因中下降,在骨髓相关基因中上升,在嗜中性粒细胞相关的转录物和干扰素诱导基因(IFN)中上升。在另ー个方面,所述的基因选自 PDL-I、CASP5、CR1、CASP5、TLR5、MAPK14、STX11、BCL6 和 C5。本发明的另ー个实施方案是用于诊断具有活性的和潜伏性的结核分枝杆菌感染的患者的系统,该系统包括用于从患者获得患者基因表达数据集的基因表达检测器,其中所表达的基因得自患者的全血;以及能够将基因表达数据集和事先定义的与结核分枝杆菌感染相关联的基因模块数据集进行比较的处理器,并且所述的处理器能区分感染的和未感染的患者,其中全血证实了与匹配的未感染患者相比,在一个或多个转录基因表达模块中多核苷酸水平的总体变化,从而区分活性的和潜伏性的结核分枝杆菌感染,其中所述的基因模块数据集包括模块Ml. 3,M2. 8,Ml. 5,M2. 6,M2. 2和M3. I中的至少ー个。在ー个方面,将患者的基因表达数据集和至少 10、20、40、50、70、80、90、100、125、150、200、250、300、350或者393个选自表2中基因的基因进行比较。在另ー个方面,将所述的患者基因表达数据集和至少 10、20、40、50、70、80、90、100、125、150、200 个模块 Ml. 3、M2. 8、Ml. 5、M2. 6、M2. 2和M3. I进行比较。在另ー个方面,与结核分枝杆菌感染相关联的基因模块选自模块Ml. 3、模块M2. 8、模块Ml. 5、模块M2. 6、模块M2. 2和模块3. I。在另ー个方面,与结核分枝杆菌感染相关联的基因模块是根据以下变化来进行选择的在B-细胞相关的基因中下降,在T细胞相关的基因中下降,在骨髓相关基因中上升,在嗜中性粒细胞相关的转录物和干扰素诱导基因(IFN)中上升。在另ー个方面,所述的基因选自roL-l、CASP5、CRl、CASP5、TLR5、MAPK14、STX1UBCL6 和 C5。


为了更完全地理解本发明的特征和优点,在此參考本发明的详述以及所附的图,并且其中图Ia到lc。活性TB的独特全血转录签名。热カ图(heatmap)的各列代表了单个的基因,并且每ー栏代表了单个的參与者。在整个纸张上转录物的丰度是由图的底部的颜色尺度来指示的(红色,高的;黄色,中间的;蓝色,低的)。(Ia)通过分层聚类组织在训练集中的393个最显著地差别表达的基因。(Ib)使用在同一个基因树中排列的相同的393个转录物列表来分析来自独立的测试集中的数据,所述分析通过Spearman相关进行分层聚类,所述的Spearman相关使用表示为各个底部的色块的产生条件树的平均距离法(沿着热カ图的上水平边缘)和研究分组(即临床表型)。(Ic)如前文所述地分析了南非招募的独立验证集。
图2a到2c :活性TB的转录签名与疾病的放射照相程度相关联。三名独立的临床医师在不知悉其他数据的情况下,评价了训练集和独立的测试集中各个患者的胸部射线照片(图9a)。(2a)在独立的测试集中,对于每位具有活性TB的患者显示了 393个转录物的图谱。举例说明了晩期疾病,中度疾病、轻微疾病和没有疾病。(2b,2c)根据疾病的放射照相程度对图谱进行分组,并且使用Kruskal-Wallis ANOVA来比较各组的平均“与健康的分子距离”(另外的方法),所述比较使用Dunn的多重比较事后检验来对各组之间进行比较
(氺林=ρ〈0· 0001)。图3a到3d。活性TB的转录签名在成功的处理中被減少。(3a)具有活性TB (活性的)的7名患者在抗分枝杆菌治疗起始后的2个月和12个月重新取样,并且与来自独立的测试集中的健康对照(对照,n=12)进行比较。(3b)在开始抗分枝杆菌治疗后2个月和12个月时间的胸部放射照相,显示了 7名患者中的2名患者(标记为“4”或“7”)。这些个体的图谱在前文中显示,所述图谱通过相同的多种指示剂进行标记。(3c)计算了各个患者在各个时间点的“与健康的分子距离”,并且利用Spearman相关使用治疗起始后的时间进行了比较。(3d)使用Friedman检验比较了各个时间点的平均“与健康的分子距离”,所述Friedman检验使用Dunn的多重比较事后检验来对时间点之间进行比较。水平线表明了中值、第5个和第95个百分位。图4a到4e。活性TB的全血转录签名反映了细胞组成的明显变化和基因表达的绝对水平上的变化。(4a)活性TB与健康对照相比的基因表达在事先设定的模块框架中作图。点的密度代表了对于各个模块而言,显著差异表达的转录物的比例(红色=提高,蓝色=降低,转录物丰度)。此前通过无偏向的文献分析来确定的功能判读(interpretation)通过在下方的顔色代码的网格指示(4b),来自试验集健康对照(对照)和活性TB患者(活性的)的全血通过流式细胞法分析⑶3+⑶4+和⑶3+⑶8+T细胞以及⑶19+⑶20+B细胞。误差线=中值。(4c)来自试验集对照(对照)和活性TB患者(活性的)全血通过流式细胞法分析⑶14+的单核细胞、⑶14+CD16+的炎症单核细胞和⑶16+的嗜中性粒细胞(neutrophil)。误差线=中值。(4d)在此处显示了干扰素信号传导途径的Ingenuity Pathways分析典型途径,各个基因产物使用对应于其功能的符号来识别(说明在右側),并且在训练集的活性TB患者中过度代表的转录物显示为红色阴影。(4e)来自健康对照(对照)和具有活性肺TB (活性的)的CXCLlO的血清水平。使用双侧Mann-Whitney检验进行统计比较。水平线表明了各组的平均值,侧线表明了 95%的置信区间。图4f和4g。活性TB的独特全血86种基因转录签名与其他疾病是有区别的。(4f) TB和其他疾病的患者中86种基因签名的比较,其针对其自身的对照进行归ー化;患者为TB (训练,n=13 ;对照,n=12),TB (SA,n=20 ;对照=12),A 群链球菌(Str印;n=23 ;对照=12),葡萄球菌(Staph ;n=40 ;对照=12), Still 病(Still,s ;n=31 ;对照=22),成年人(SLE ;n=29 ;对照=16)以及儿科的SLE (pSLE ;n=49 ;对照=11)。(4g)在TB患者中治疗2和12个月后,86种基因签名的表达水平。图4h。TB (试验集)和不同疾病的基因表达(疾病对健康对照),其在预先限定的模块框架中作图。点密度(红色,提高;蓝色,降低)表明了转录物的丰度。图5a和5b。活性TB中干扰素可诱导的基因表达。在来自活性TB (5a)的全血样本中干扰素可诱导基因(5a)转录物丰度;和来自测试集血液的分离的血液白细胞群中的表达(5b)。基因丰度/表达表示为与健康对照的中值相比(像图I中进行标记)。在测试集·和分开的群中中显示的数字对应于个体患者。图6a到6d。TOLl (⑶274)在活性TB患者的全血中是过多的,这主要地是由于其被嗜中性粒细胞过表达。(6a)在活性TB患者(活性的)和健康对照(对照)(或潜伏性的南非)中TOLl的丰度(相对于所有样本的中值进行归一化)。还显示了在来自代表性患者和对照的全血白血球中I3DLl的几何平均荧光强度(MFI)。MFI水平与TOLl的表达谱通过箭头连接。图像显示了,从11 11名活性TB患者和11名健康对照中得到的合并的MFI数据(误差线=平均值±95%CI)。(6b)不同细胞亚群的TOLl的MFI (蓝色),与总白细胞(红色)和总细胞的同种型对照(緑色)进行比较。显示了对照和患者。图像显示了,从相同数量的活性TB患者和健康对照中得到的合并的MFI数据(误差线=平均值±95%CI)。(6c)显示了在富集的细胞亚群中4名对照和7名活性TB患者的TOLl表达,所述的PDL表达相对于所有的样本中值进行归ー化。(6d)在7名活性TB患者(活性的)的全血中的I3DLl丰度在抗分枝杆菌治疗后0、2和12个月时显示,其与试验集中的12名健康对照(对照)进行比较。图7a到7c。训练、试验和验证集的形成。各个队列不仅是独立招募而,而且RNA加工和微阵列分析的所有阶段也都是完全独立地进行的。(7a)训练集队列在伦敦,UK的招募;(7b)独立的试验集队列在伦敦,UK的招募;(7c)独立的验证集队列在南非,开普敦的招募。图8a到8d。患者图谱的分层聚类。(8a)将训练集的1836种转录物表达谱通过Spearman相关进行无人监瞀的分层聚类,所述Spearman相关以其平均距离产生条件树(沿着热カ图的上边缘)。这些患者聚类可以与临床和人ロ统计參数进行比较,所述參数显示在位于沿着热カ图的下边缘的每个图谱下方的块中。在图的底部提供了关键词。根据距离均勻划分聚类。(8b)通过Pearson相关性使用平均距离对测试集的393个转录物表达图谱进行聚类。(8c)根据Pearson相关性使用平均距离对验证集的393个转录物表达图谱进行聚类。(8d和8e)在验证集中仅22到34岁的393个转录物患者表达谱。图9a到9c。活性TB的转录签名和疾病的放射照相程度的比较。(9a)用于根据疾病的程度将胸部放射照片进行分级的分类方案。(9b)训练集中全部13名活性TB患者的393个转录物表达谱,以及在诊断时拍摄的相对应的胸部放射照片,两者均根据按照所述分类方案的X-射线分级法进行分组。对于给定的患者,表达谱和放射照片给予相同的数字指示符号。(9c)试验集中全部21名活性TB患者的393个转录物表达谱和胸部放射照片。图IOa到10d。活性TB的全血转录签名反映了细胞组成中的独特变化以及基因表达绝对水平的变化。在预先设定的模块框架中将活性TB的基因表达相对于健康对照进行作图。点的密度代表了对于各个模块,显著差异表达的转录物的比例(红色=提高的,蓝色=降低的,转录丰度)。此前通过无偏向的文献分析来确定的功能判读通过在主图4顔色代码化的网格指示。在此证实了在训练集(IOa)中,提高(红色)或者降低(蓝色)的各个模块中的基因的百分比;(IOb)测试集;(IOc)验证集(SA)。(IOd)对各个患者在基线预治疗(O个月)和开始抗分枝杆菌治疗后的第2个月和第12个月,计算了健康的加权分子距离。个体患者的编号对应于图3a到3d中所显示的那些。
图Ila到11c。活性TB患者和対照的血液中淋巴细胞的分析。(Ila)显示了用于从试验集的健康对照和活性TB患者的全血中分析T细胞和B细胞的流式细胞法选择通过策略。面板顶部的列显示了用于确定在随后的选择通过中使用的淋巴细胞FSC/SSC选择通过的后部选择通过策略。最初设置了大的FSC/SSC选择通过(左侧的面板)和随后分析CD45vs⑶3。选择通过了⑶45⑶3 (中间面板)并测定的它们的FSC/SSC图谱(右侧的面板)。该图谱随后用于确定合适的淋巴细胞FSC/SSC选择通过(參见第二行,左侧的面板)。这ー后部选择通过程序也在CD45+CD19+(B细胞)的选择通过中进行,从而确保这些细胞被包括在淋巴细胞选择通过中(未显示)。面板的第二行显示了用于识别T细胞群的选择通过策略。设置了淋巴细胞FSC/SSC的选择通过,并且评估这些细胞的⑶45 vs.⑶3 (从左第二个面板)。随后选择通过⑶45+细胞,并且评估⑶3 vs⑶8。选择通过⑶3+T细胞,并且评估⑶4和⑶8的表达。随后选择通过⑶4+和⑶8+的亚集。第3-6行显示了用于限定T细胞记忆亚集的选择通过策略。评估在第2行中选择通过的⑶4和⑶8T细胞的⑶45RA vs CCR7的表达,以及基于同种型対照的四分之一集(第5和6行)来定义原态的(⑶45RA+CCR7+)、中央记忆(CD45RA-CCR7+)、效应子记忆(CD45RA—CCR7-),以及在CD8+T细胞的情况下,最终分化的效应(⑶45RA+CCR7_)T细胞。也评价了这些亚集的⑶62L的表达。面板底部的行显示了用于选择通过B细胞的策略。设置了淋巴细胞FSC/SSC的选择通过,并且评价了细胞的⑶45 vs⑶19。选择通过了细胞⑶45+,并且评价了⑶19和⑶20。B细胞定义为CD19+CD20+。(Ilb)为了得到T细胞记忆群,来自11名测试集的健康对照(对照)和9名测试集活性TB患者(活性的)的全血通过多參数流式细胞法分析。图Ila中显示了完整的流式细胞选择通过策略。曲线图显示了所有的个体的原态、中间记忆(TCM)、效应子记忆(TEM)和最终分化效应子(TD,仅⑶8+T细胞)细胞亚集的百分比(顶部的行,各个组中),以及各个细胞亚集中的细胞数量(XlO6Ail)(底部的行,各个组)。各个符号代表了个体患者。水平线代表了中值。(Ilc)基因(i)在来自活性TB (训练、测试和验证集)的全血样本中的T细胞转录物丰度;
(ii)在来自测试集血液中的分离的血液淋巴细胞群中的表达。基因丰度/表达是以与健康对照的中值(如图I中所标出的)进行对比显示的。在试验集中显示的数字和分开的群对应于个体患者。图12a到12c。活性TB患者和対照的血液中髓样细胞的分析。(12a)显示了用于从测试集的健康对照和活性的TB患者的全血中分析单核细胞和嗜中性粒细胞的流式细胞选择通过策略。设置了大FSC/SSC选择通过(顶部的行,左侧的面板),随后分析⑶45 vs⑶14。选择通过了细胞⑶45+ (中间的面板),并且评价⑶14 vs⑶16。单核细胞定义为⑶14+,炎症单核细胞定义为⑶14+⑶16+,并且嗜中性粒细胞定义为⑶16+。在图中还显示了用于评估⑶16+嗜中性粒细胞和表达⑶16的NK细胞之间可能重叠的选择通过策略。设置了大的FSC/SSC选择通过,从而通过嗜中性粒细胞和NK细胞两者。(12b)随后评估了⑶45+细胞的⑶16 vs⑶56 (NK细胞标物)。⑶16+嗜中性粒细胞表达高水平的⑶16而非⑶56 (如同种型对照作图,底部的面板所显示的)。⑶56+NK细胞表达中等水平的⑶16,并且不和⑶16hi细胞重叠。⑶56+CD16int细胞和⑶16hi细胞具有不同的FSC/SSC特征。(12c)髓样基因(i)在来自活性TB患者(训练、测试和验证集)的全血样本中的转录物丰度;以及(^)在来自测试集血液的分离的血液淋巴细胞群中的表达。基因丰度/表达是以健康对照的中值比较来显示的(如图I中所标记的)。在试验集中显示的数字和分开的群对应于个体患者。图13a和13b。393个转录物签名的Ingenuity Pathways分析。(13a)各个典型生物途径显著地过表达的可能性(按照Fischer精确检验计算的p_值的对数,进行了Benjamini-Hochberg多重测试矫正)是由橙色的方块指示的。实心的有色条代表了包含存在于分析的基因列表中的途径(以粗体在各个条的右侧边缘给出)的基因总数的百分比。条的颜色指示了那些在训练集的活性TB患者以及与此相比健康対照的全血中转录物的丰 度。(13b)在此显示了 12名健康对照和13名具有活性TB的患者的干扰素a _2a(IFN_a 2a)和干扰素Y (IFN-Y)的血清水平,所述的健康对照和患者用于训练集微阵列分析。对于任ー细胞因子,使用双侧Mann-Whitney检验在各组之间未观察到显著性差异。水平线指示了各组的平均值,以及侧线指示了 95%的置信区间。图14a和14b。来自个体的健康对照和具有活性TB的患者的全血和细胞亚群中PDLl (⑶274)的表达。(14a)通过流式细胞法来分析来自11名测试集健康对照(对照)和11名测试集活性TB患者(活性的)的全血中的I3DLl的表达。设置了大的FSC/SSC选择通过,从而通过全部的白细胞,并且TOLl的几何平均荧光强度(MFI)(用红色表示)与所评估的同种型对照(緑色)进行比较。将各个活性TB患者在不同日进行分析,健康对照按小组(从左边开始,样本I和2,3和4,6-8以及9-11 一起运行,5单独运行)进行分析并且各组中的样本公用ー个同种型对照。(14b)在a部分中,来自相同的11名测试集健康对照(对照)和11名试验集活性TB患者(活性的)的血液的细胞亚群也通过流式细胞法分析I3DLl的表达。细胞亚群如图6b中所限定的,并且将TOLl的MFI (红色)与作图的同种型对照(緑色)进行比较。图15a_f。放大显示了训练集的393个转录谱,在图的右部列出了基因符号,所述的转录谱根据研究组进行排序。关键的转录物用更大的字突出显示。在各个图的左部显示了整个的基因树及热力图以及黑色长方形标记的放大的区域。转录物的相对丰度在图的底部以颜色尺度指示(如图I所示的)。图16a到16是比较了对照、潜伏性的和活性的多种基因的热カ图,所述的基因列于热カ图的右手侧。图17a到17c是在表中所列出的多个训练集、测试集和验证集的统计结果的表,SP性别ヽ来源国家和对于多种断裂的种族レヒ^^^セ又)。图18a到18c是在表中所列出的多个训练集、测试集和验证集的统计结果的表格,即TST、BCG接种和剪切状态的测试结果
图19是总结了样本的多种来源之间的训练集、测试集和验证集的特异性和灵敏度结果的表格。发明描述尽管在下文详细地讨论了本发明不同实施方案的制备和应用,应该理解本发明提供了多种可实施的发明构思,所述构思能够在多种具体的环境下体现。在此讨论的具体实施方案仅仅为了说明产生和应用本发明的具体方式,而不限制本发明的范围。为了便于理解本发明,以下定义了多个术语。在此定义的术语具有本发明相关领域的普通技术人员通常所理解的含义。术语如“ー个(a/an)”、“ー种(a/an)”和“该”不意图仅指单数的实体,而包括一般的类,该类中具体的实例可能使用作为说明。本文使用的该术语用于描述本发明的具体实施方案,然而其使用不限制本发明,除非在权利要求中指出。除非另外限定,本文使用的所有技术及科学术语具有本发明所属领域的技术人员所一般地理解的含义。随后的參考文献为技术人员提供了在本发明中所使用的多个术语的一般定义Singleton等人,Dictionary of Microbiology and Molecular Biology(2d ed. 1994);The·Cambridge Dictionary of Science and Technology(Walker ed. , 1988);The Glossary ofGenetics, 5TH ED. , R. Rieger 等人(eds.), Springer Verlag (1991);以及 Hale&Marham, TheHarper Collins Dictionary of Biology (1991)。在本领域中不同的生物化学和分子生物学方法是公知的。例如,分离和纯化核酸的方法详细描述于WO 97/10365 ;W0 97/27317 ;Laboratory Techniques in Biochemistryand Molecular Biology!Hybridization with Nucleic Acid Probes,Part I. Theoryand Nucleic Acid Preparation, (P. Tij ssen, ed. ) Elsevier, N. Y. (1993)的第三章;Sambrook等人,Molecular Cloning:A Laboratory Manual, Cold Spring Harbor Press, N.Y. , (1989);以及 Current Protocols in Molecular Biology, (Ausubel, F. M 等人,eds.)John ffiley&Sons, Inc. , New York (1987-1999),包括附录。生物信息学定义如本文所使用的,“对象”指任意目标项目或者信息(通常是文本的,包括名词、动词、形容词、副词、短语、句子、符号、数字符号等等)。因此,对象是能够构成关系的任何事物,以及能够获得、鉴定和/或从源中捜索的任何事物。“对象”包括但不限于目标实体,如基因,蛋白质,疾病,显型,机理,药物等等。在ー些方面中,如下文进ー步所描述地,对象可能为数据。如本文所使用的,“关系”指在同一単元(如短语、句子、文本的两行或更多行、段落、网页的部分、页面、杂志、论文、书籍等等)中共同出现的对象。其可能为文本、符号、数字及其组合。如本文所使用的,“元数据内容”指根据数据源中的文本组织的信息。元数据可能包括标准的元数据(如都柏林核心元数据)或者可能是标本特异的。元数据格式的实例包括但不限于,用于图书馆目录的机器可读目录(MARC)记录,源描述格式(RDF)以及可扩展标记语言(XML)。元对象可能人工产生或者通过自动化的信息提取运算法则产生。如本文所使用的,“引擎”指实施其他程序的核心或关键功能的程序。例如引擎可以为操作系统或者应用程序中的中心程序,其调节其他程序的全部操作。术语“引擎”还可能指包括可以改变的运算法则的程序。例如可以设计知识发掘引擎,从而其确定关系的方式可能变化,从而反映确定和排序关系的新规则。如本文所使用的,“语义分析”指表示相似概念的词之间的关系的确定,如通过去除后缀或者添加部分或者通过采用同义词词典。“统计分析”指基于计算各项目(词、词根、词干、元语法、短语等等)发生数量的技木。在不限定对象的集中,用于不同的上下文的相同 短语可能代表不同的概念。对短语共同出现的统计分析可能帮助分析语义含糊。“语法分析(Syntactic analysis)”可以用于通过词类分析进ー步地减少模糊。如本文使用的,更一般地将ー种或多种该分析称作“语法分析(lexical analysis)”。“人工智能(Al)”指某些方法,通过该方法,非人的设备如计算机实施人认为值得注意的或者“智能的”任务。实例包括鉴定图片,理解ロ语词汇或者书写的文字,以及解决问题。术语如“数掘”、“数据集”及“信息”通常可交換地与使用,“信息”和“知识”也是如此。如本文所使用的,“数据”是最基础的単元,其为依据试验的測量或测量的集。收集数据以构成信息,但是它基本上独立于此,且可以组合成数据集,即数据的集。于此相对,信息得自目标,如数据(単元)可能在种族、性别、身高、体重及饮食方面收集,用于发现与心血管疾病风险有关的变量的目的。然而,相同的数据可能用于开发食谱或者产生关于饮食偏好的“信息”,所谓饮食偏好即这样的可能性,在超级市场中特定的产品具有更高的销售可能性。如本文所使用的,术语“数据库”是原始的或者收集的数据的储存库,甚至在数据领域中能找到不同的信息方面。数据库可能包括一个或多个数据集。一般地将数据库进行组织从而能访问、管理并更新(例如,该数据库是动态的)其内容。术语“数据库”及“源”也能在本发明中交換地使用,这是由于数据和信息的原始来源是数据库。然而“源数据库”或者“源数据” 一般地指数据,例如,输入到系统中用于鉴定对象及确定关系的无结构的文本和/或有结构的数据。源数据库可能是或者可能不是关系数据库。然而,系统数据库通常包括关系数据库或者某种等效类型的数据库,其储存对象之间的关系的相关数值。如本文所使用的,“系统数据库”及“关系数据库”可替换地使用,并指数据的ー个或多个集,所述集组织为包括数据的ー套表格,其中的数据组合于预先设定的种类。例如,数据库表可能包括列(例如,属性)所设定的ー个或多个种类,而数据库的行可能包括对于列所设定的种类而言独特的对象。因此,对象如基因的性质可能具有其存在、缺失、和/或该基因表达水平的列。关系数据库的一行可能也指“ー个集”,并通常地通过其各列的数值定义。关系数据库的情况中的“域”是ー系列有效的数值,例如列可能包括的领域。如本文所使用的,“知识域”指研究的领域,在该领域中系统是可操作的,例如,所有的生物医学数据。应该指出从几个域中合并数据是有益的,例如,生物医学数据及工程数据,这是由于不同的数据有时候能将对于只熟悉ー个领域或者探索/研究(ー个域)的平常人无法放在一起的事物进行联系。“分布的数据库”指可能在网络上不同点中分布或者复制的数据库。如本文所使用的,“信息”指数据集,其可能包括数字、字母、数字的集合、字母的集合或由数据的集合导致或者得到的结论。“数据”则为測量或者统计量,并且为信息的基本単元。“信息”可能还包括其他类型的数据,如词语、符号、文字,如无结构的自由的文字、编码等等。“知识”被松散地定义为信息的集合,其提供对于系统的充分的理解,从而为原因和效果进行建摸。为了延伸前述的实例,对于人口特征、性别和此前的购买的信息可以用于发展用于食物销售的区域市场战略,而关于国籍的信息可能由购买者用作产品进ロ的指导方针。重要的是,需指出在数据、信息和知识之间没有严格的界限;这三种术语有时认为是等价的。一般地,数据来自测试,信息来自关联,而知识来自建模。如本文所使用的,“程序”或者“计算机程序” 一般地指句法单元,其符合特定的编程语言的规则并包括声明文件和陈述或者说明,可分成“代码段”,其被需要用于解决或者执行特定的功能、任务以及问题。编程语言一般地是用于表达程序的人工语言。如本文所使用的,“系统”或者“计算机系统” 一般地指一台或多台计算机,外部设备以及进行数据处理的软件。“用户”或者“系统操作者”一般地包括通过“用户设备”(如计算机,无线设备等),为了数据处理和信息交换而使用计算机网络的人。“计算机”一般地是能够进行实质上的计算的功能性单元,其包括无人为干涉下的多种算术运算和逻辑操作。如本文所使用的,“应用软件”或者“应用程序”一般地指对于应用问题的解决特异性的软件或者程序。“应用问题” 一般地是由终端用户提交,其解决需要信息处理。 如本文所使用的,“自然语言”指其规则基于现有的使用而不特别地规定的语言,如英语、西班牙语或者中文。如在此所使用的,“人工语言”指其规则在其使用前明确地建立的语言,如计算机编程语言,诸如C、C++、JAVA、BASIC、FORTRAN或者COBOL。如本文所使用的,“统计关联性”指使用一种或者多种排序方案(0/E比率、强度等等),其中如果比随机几率预期其发生显著地更加频繁,则确定关系是统计相关的。如本文所使用的,术语“共同调节的基因”或者“转录模块”可交换地使用,指特定基因的成组的基因表达谱(如与特定的基因序列相关的信号数值)。各个转录模块在两部分关键的数据之间建立联系,即文献检索部分和得自基因微阵列的实际试验的基因表达数值数据。选入转录模块的基因集基于对基因表达数据的分析(前述的模块选取运算法则)。不教了此外的步骤的有 Chaussabel, D. &Sher, A. Mining microarray expression data byliterature profiling. Genome Biol 3, RESEARCH0055 (2002), (http://genomebiology.com/2002/3/10/research/0055)相关的部分在此引入作为参考以及得自感兴趣的疾病或者症状的表达数据,所述疾病或者症状如系统性红斑狼疮、关节炎,淋巴瘤,癌,黑色素瘤,急性感染,自身免疫性疾病,自身炎症性疾病等)。下表中列出了用于得到文献检索部分或者对转录模块有贡献的关键词的实例。技术人员应意识到在其他情况下能容易地选择其他术语,如具体的癌症、具体的感染性疾病、移植等等。例如,与T细胞活化有关的那些基因的基因和信号以“M 2. 8”的模块ID描述于下文,其中特定的关键词(如淋巴瘤、T-细胞、CD4、CD8、TCR、胸腺、淋巴、IL2 )用于确定关键的T-细胞相关的基因,如T-细胞表面标记物(⑶5、⑶6、⑶7、⑶26、⑶28、⑶96 );由淋巴谱系细胞表达的分子(淋巴毒素β、IL2诱导的T细胞激酶、TCF7 ;以及T细胞分化蛋白mal、GATA3、STAT5B)。随后,整个模块通过将来自患者群体的这些基因的数据建立联系(不管平台、存在/缺失和/或上调或者下调)从而产生转录模块。在一些情况下,基因表达谱并不匹配(在此时)这些疾病症状的任何具体的基因簇和数据,然而在“未确定的”模块中发现了特定的生理通路(例如cAMP信号转导、锌指蛋白、细胞表面标记物等等)。实际上,基因表达数据集可能用于在与关键词检索匹配之前,提取具有协调的表达的基因,即任意数据集可能在与第二个数据集交叉引用之前相互关联。表I.转录模块
权利要求
1.ー种用于检测表现为潜伏性的/无症状的活性结核分枝杆菌感染的方法,所述的方法包括 从怀疑感染了潜伏性的/无症状的结核分枝杆菌的患者获得患者的基因表达数据集; 将该患者的基因表达数据集分成与结核分枝杆菌感染相关的ー个或多个基因模块;并且 将ー个或多个基因模块中的每ー个的患者的基因表达数据集与来自也分类为相同基因模块的非患者的基因表达数据集相比;其中在ー个或多个基因模块的患者的基因表达数据集中,基因表达的整体上升或者下降指示了活性的结核分枝杆菌感染而不是潜伏性的/无症状的结核分枝杆菌感染。
2.权利要求I所述的方法,其还包括使用測定的比较基因产物信息来制定至少ー种诊断、预后或者治疗方案的步骤。
3.权利要求I所述的方法,其还包括将具有潜伏性TB的患者与活性TB患者区分的步骤。
4.权利要求I所述的方法,其中患者的基因表达数据集得自从全血、外周血液单核细胞或者唾液的至少ー种中获得的细胞。
5.权利要求I所述的方法,其中将患者基因表达数据集和至少10、20、40、50、70、80、90、100、125、150、200、250、300、350或者393个选自表2中基因的基因进行比较。
6.权利要求I所述的方法,其中将患者基因表达数据集和至少10、20、40、50、70、80、90、100、125、150、200 个模块 Ml. 3, M2. 8、Ml. 5, M2. 6, M2. 2 和 M3. I 进行比较。
7.权利要求I所述的方法,其中与结核分枝杆菌感染相关联的基因模块选自模块Ml. 3、模块M2. 8、模块Ml. 5、模块M2. 6、模块M2. 2和模块3. I。
8.权利要求I所述的方法,其中与结核分枝杆菌感染相关联的基因模块是根据以下变化来进行选择的在B-细胞相关的基因中上升,在T细胞相关的基因中下降,在骨髓相关的基因中上升,在嗜中性粒细胞相关的转录物和干扰素诱导基因(IFN)中上升。
9.权利要求I所述的方法,其中患者的疾病状态进ー步通过患者肺部的放射学分析来測定。
10.权利要求I所述的方法,其还包括在治疗患者后測定经治疗的患者基因表达数据集,并且測定经治疗的患者基因表达数据集是否已经恢复到正常的基因表达数据集,从而确定该患者是否已经被治疗的步骤。
11.ー种用于预测表现为潜伏性的/无症状的结核分枝杆菌感染是否将会变为活性结核分枝杆菌感染的方法,该方法包括 从得自具有活性的结核分枝杆菌感染的第一临床组中获得第一基因表达数据集,从得自具有潜伏性的结核分枝杆菌感染患者的第二临床组中获得第二基因表达数据集,以及从得自未感染个体的临床组中获得第三基因表达数据集; 产生基因簇数据集,所述的基因簇数据集包括在第一、第二和第三数据集的任意两者之间基因的差异表达;并且 确定指示了潜伏性感染、活性感染或者健康的独特表达/代表性模式,其中所述的患者基因表达数据集包括从模块Ml. 3,M2. 8、M I. 5,M2. 6,M2. 2和M3. I的至少ー个中的基因中获得的至少6、10、20、40、50、70、80、90、100、125、150或200个基因,其中在ー个或多个基因模块的患者基因表达数据集中,基因表达的整体上升或者下降指示了活性的结核分枝杆菌感染而不是潜伏性的/无症状的结核分枝杆菌感染。
12.一种用于在怀疑感染结核分枝杆菌的患者中诊断感染的试剂盒,所述的试剂盒包括 用于从患者获得患者基因表达数据集的基因表达检测器,其中所表达的基因得自患者的全血;以及 能够将基因表达数据集和事先定义的与结核分枝杆菌感染相关联的基因模块数据集进行比较的处理器,并且所述的处理器区分感染的和未感染的患者,其中全血证实了与匹配的未感染患者相比,在一个或多个转录基因表达模块中多核苷酸水平的总体变化,从而区分活性的/无症状的结核分枝杆菌感染。
13.权利要求12所述的试剂盒,其中患者的基因表达数据集得自外周血液单核细胞。
14.权利要求12所述的试剂盒,其中将患者的基因表达数据集和至少10、20、40、50、70、80、90、100、125、150、200、250、300、350或者393个选自表2中基因的基因进行比较。
15.权利要求12所述的试剂盒,其中将所述的患者基因表达数据集和至少10、20、40、50、70、80、90、100、125、150、200 个模块 Ml. 3, M2. 8、Ml. 5, M2. 6, M2. 2 和 M3. I 进行比较。
16.权利要求12所述的试剂盒,其中与结核分枝杆菌感染相关联的基因模块选自模块Ml. 3、模块M2. 8、模块Ml. 5、模块M2. 6、模块M2. 2和模块3. I。
17.权利要求12所述的试剂盒,其中与结核分枝杆菌感染相关联的基因模块是根据以下变化来进行选择的在B-细胞相关的基因中下降,在T细胞相关的基因中下降,在骨髄相关的基因中上升,在嗜中性粒细胞相关的转录物和干扰素诱导基因(IFN)中上升。
18.权利要求12所述的试剂盒,其中所述的基因选自roL-l、CASP5、CRl、CASP5、TLR5、MAPK14、STX11、BCL6 和 C5。
19.一种检测表现为潜伏性的/无症状的活性结核分枝杆菌感染的系统,该系统包括 用于从患者获得患者基因表达数据集的基因表达检测器,其中所表达的基因得自患者的全血;以及 能够将基因表达数据集和事先定义的与结核分枝杆菌感染相关联的基因模块数据集进行比较的处理器,并且所述的处理器区分具有处于进展为疾病的风险的潜伏性结核分枝杆菌感染的患者,其中全血证实了与匹配的未感染患者相比,在一个或多个转录基因表达模块中多核苷酸水平的总体变化,从而区分具有处于进展为疾病的风险的潜伏性结核分枝杆菌感染的患者,其中所述的基因模块数据集包括模块Ml. 3、M2. 8、Ml. 5、M2. 6、M2. 2和M3. I中的至少ー个。
20.权利要求19所述的系统,其中将患者的基因表达数据集和至少10、20、40、50、70、80、90、100、125、150、200、250、300、350或者393个选自表2中基因的基因进行比较。
21.权利要求19所述的系统,其中将所述的患者基因表达数据集和至少10、20、40、50、70、80、90、100、125、150、200 个模块 Ml. 3、M2. 8、Ml. 5, M2. 6, M2. 2 和 M3. I 进行比较。
22.权利要求19所述的系统,其中与结核分枝杆菌感染相关联的基因模块选自模块Ml. 3、模块M2. 8、模块Ml. 5、模块M2. 6、模块M2. 2和模块3. I。
23.权利要求19所述的系统,其中与结核分枝杆菌感染相关联的基因模块是根据以下变化来进行选择的在B-细胞相关基因中的下降,在T细胞相关基因中的下降,在骨髓相关基因中的上升,在嗜中性粒细胞相关转录物和干扰素诱导基因(IFN)中的上升。
24.权利要求19所述的系统,其中所述的基因选自TOL-1、CASP5、CRUCASP5、TLR5、MAPK14、STX11、BCL6 和 C5。
25.一种用于在治疗性试剂试验中监测疗效的方法,所述方法包括 从怀疑感染了结核分枝杆菌的患者获得患者的基因表达数据集; 将该患者的基因表达数据集分成与结核分枝杆菌感染相关的ー个或多个基因模块;并且 将该患者的基因表达数据集分成与结核分枝杆菌感染相关的ー个或多个基因模块;并且 将ー个或多个基因模块中的每ー个的患者的基因表达数据集与来自非患者的基因表达数据集相比; 使用所述治疗性试剂治疗患者;并且 測定治疗性试剂是否将患者基因表达谱改变成非患者的基因表达数据集;其中在ー个或多个基因模块的患者的基因表达数据集中,基因表达的整体上升或者下降指示了活性的结核分枝杆菌感染而不是潜伏性的/无症状的结核分枝杆菌感染。
全文摘要
本发明包括用于在怀疑感染了结核分枝杆菌的患者中区分活性和潜伏性的结核分枝杆菌感染的方法、系统和试剂盒,所述的方法包括以下步骤从怀疑感染了结核分枝杆菌的患者中得到患者基因表达数据集;将所述的患者基因数据集分类到一个或多个与结核分枝杆菌感染关联的基因模块;并且将一个或多个基因模块中每一个的所述患者基因表达数据集与来自非患者的基因表达数据集进行比较;其中一个或者多个基因模块的患者基因表达数据集中基因表达总量的提高和降低表明了活性的结核分枝杆菌感染。
文档编号G01N33/15GK102844444SQ201080062710
公开日2012年12月26日 申请日期2010年8月19日 优先权日2009年11月30日
发明者J·F·班彻罗, D·肖萨贝尔, A·奥加拉, M·贝里, O·M·康 申请人:贝勒研究院, 医学研究理事会, 国家健康服务信托基金保健帝国理工学院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1