用于使生物标志产物水平与疾病相关联的方法和装置的制作方法

文档序号:1647796阅读:1503来源:国知局
专利名称:用于使生物标志产物水平与疾病相关联的方法和装置的制作方法
技术领域
本发明的公开内容涉及用于使相应于受试者中生物标志产物水平的数 据与受试者的疾病状态相关联的装置和试剂盒以及基于计算机的方法。
背景
在美国结肠直肠癌是排名第二的癌症相关死亡的原因(ll)。每年大约有 150,000人诊断患有结肠直肠癌,差不多有60,000人死于该疾病。在得到诊断 的那些人中,由于当癌症较不可能治疗时才检测到大多数的癌症,因此大约 一半的人预计在五年内死亡。对于那些在早期就检测到癌症的人,五年生存 率可大于90%。美国癌症学会推荐所有年龄在50岁及以上的美国人都要定期 进行结肠直肠癌篩查。不幸的是,由于现有筛查技术被认为是太昂贵和/或太 具侵入性或有时准确性不够,因此在该人群中只有一部分筛查了该疾病。
大多数结肠直肠癌起始于称为息肉的小的、非癌的(良性)细胞团块。随 着时间过去,这些息肉中的某些变成癌性的。随着个体变老,息肉发生率也 随之提高。估计在50%的超过60岁的人中具有至少 一块息肉。
鉴定包括息肉在内的一种或多种结肠直肠病理的意义在于某些类型的 息肉是癌性的或指示发展为癌症的危险增加。已经表明除去某些亚型的息肉 明显地减少了得结肠直肠癌的危险。因此,针对包括息肉和/或息肉的某些亚 型在内的一种或多种结肠直肠病理进行筛查测试以便及早除去或避免不必 要的操作,应该会显著地减低结肠直肠癌的发病率(12)并减少目前医疗体系 的费用。
目前所使用的鉴定息肉的筛查技术包括l)大便潜血测试(FOBT); 2)可
屈乙状结肠镜检查;3)双重对比钡剂灌肠法(DCBE);和4)结肠镜检查。有 时组合使用两种或更多种的这些测试。现行推荐用于筛查50岁以上和被认为 是一般危险人群一部分的男性结肠直肠癌的标准包括每年进行一次FOBT, 每5年进行一次乙状结肠镜检查,每10年进行一次结肠镜检查和每5年进行1 次DCBE。对于一位或多位家庭成员患有结肠直肠癌的高危人群,推荐在进 行FOBT或乙状结肠镜检查之后每2年进行一次结肠镜检查。
这些测试每一种都有明显的缺点。尽管FOBT测试是非侵入性的操作, 但在测试之前需要重大饮食规定且有其他限制,并且灵敏度低。乙状结肠镜 检查和结肠镜检查由于它们涉及管腔的直接显像,因此更灵敏,但是,乙状 结肠镜检查仅提供部分显像,而已知结肠镜检查漏过约12%的晚期腺癌。乙 状结肠镜检查和结肠镜检查都是高侵入性的操作,其导致高水平的不适,使 得许多个体选择不去经历这些推荐的筛查操作。乙状结肠镜检查和结肠镜检
查还是昂贵的,并且有可能由于经历该操作而发生并发症。
因此,需要最小侵入的改良测试,使得容许进行更广泛的人群测试以指 示一种或多种结肠直肠病理的存在,并确保更长时间地坚持推荐的方案。迄 今为止,尽管有此需要,但在鉴定用于测试结肠直肠病理的有效分子生物标 志中的进步仍然非常之小。最近的成果集中于基于DNA的生物标志方法(参 见例如Shuber等的美国专利申请公开号2005-0260638Al;或Lofton-Day等的 WO2005/001142)。
因此,供用于结肠直肠病理的非侵入性测试之用的生物标志的鉴定满足 了本领域为时甚久的需要。
发明概述
与本领域现有技术对比,在此描述的发明鉴定了之前未与结肠直肠病理 关联的生物标志,其基因表达水平单独或组合测定,以及任选地应用公式以 将该水平转换为量度,从而给出结肠直肠病理可能性的指示。
本发明披露了新的结肠直肠病理特异性生物标志,如血液特异性生物标 志,以及供检测结肠直肠病理如癌变前病理和癌性病理之用的方法、组合物 和试剂盒。该应用可通过本文中进一步描述和举例说明的多种方式实现。
根据本发明的一方面,提供了 一种在测试受试者中检测一种或多种结肠 直肠病理的方法,该方法包括(a)提供代表来自测试受试者的样品中一种
或多种生物标志中每一种生物标志的一种或多种产物水平的数据;和(b)确 定数据是否表征(i)具有一种或多种结肠直肠病理的受试者,或(ii)不具有 一种或多种结肠直肠病理的受试者;从而提供测试受试者具有所述一种或多 种结肠直肠病理概率的指示。
根据本发明的另 一个方面,提供了 一种用于在测试受试者中检测一种或 多种结肠直肠病理的基于计算机的方法,该方法包括将代表分离和/或衍生 自测试受试者的样品中一种或多种生物标志中每一种生物标志的产物水平 的数据输入计算机,其中所述生物标志是选自BCNP1 、 CD163 、 CDA、 MS4A1 、 BANK1和MCG20553的基因;和让计算机确定数据是否表征(i)具有一种 或多种结肠直肠病理的受试者,或(ii)不具有一种或多种结肠直肠病理的受 试者;从而提供测试受试者具有所述一种或多种结肠直肠病理概率的指示。
根据本发明的又一方面,提供了一种计算机可读介质,包含用于确定数 据是否表征(i)具有一种或多种结肠直肠病理的受试者,或(ii)不具有一种 或多种结肠直肠病理的受试者,所述数据代表了分离和/或衍生自测试受试者 的样品中一种或多种生物标志中每一种生物标志的一种或多种产物水平,其 中生物标志是选自BCNP1、 CD163、 CDA、 MS4A1、 BANK1和MCG20553 的基因,从而提供测试受试者具有所述一种或多种结肠直肠病理概率的指示 的指令。
根据本发明的还一方面,提供了 一种用于提供测试受试者具有一种或多 种结肠直肠病理概率的指示的计算机系统,该计算机系统包括处理器;和配 置有使所述处理器提供给用户所述指示的指令的存储器,其中所述指令包括 确定数据是否表征(i)具有一种或多种结肠直肠病理的受试者,或(ii)不具 有一种或多种结肠直肠病理的受试者,所述数据代表了分离或衍生自测试受 试者的样品中 一种或多种生物标志中每一种生物标志的一种或多种产物水 平,其中生物标志是选自BCNP1、 CD163、 CDA、 MS4A1 、 BANK1和 MCG20553的基因;从而提供测试受试者具有所述一种或多种结肠直肠病理 概率的指示。
根据下述本发明优选的实施方案中进一步的特征,样品中的产物是 RNA。
根据所描述的优选的实施方案中更进一步的特征,样品中的产物是 RNA,而所述数据代表衍生自所述RNA的cDNA、 EST和/或PCR产物的水平。
根据本发明的又一个方面,提供了一种包含、包装并含有一种或多种引 物组的试剂盒,其中每组引物能通过选择性扩增与生物标志的一种或多种
RNA产物互补的多核苷酸的至少一部分而产生扩增产物,其中所述生物标志 是选自BCNP1、 CD163、 CDA、 MS4A1、 BANK1和MCG20553的基因;并 且其中每组所述引物组选择性针对不同的生物标志。
根据下述本发明优选的实施方案中进一步的特征,互补的多核苷酸选自 总RNA、 mRNA、 DNA、 cDNA和EST。
根据所描述的优选的实施方案中更进一步的特征, 一种或多种生物标志 是至少两种生物标志。
根据所描述的优选的实施方案中更进一步的特征,每种探针能与扩增产 物的有义链或反义链选择性杂交。
根据所描述的优选的实施方案中更进一步的特征,试剂盒进一步包含选 自热稳定的聚合酶、逆转录酶、三磷酸脱氧核苷酸、三磷酸核苷酸和酶緩 冲剂的两种或更多种组分。
根据所描述的优选的实施方案中更进一步的特征,试剂盒进一步包含指 令编码的计算机可读介质,所述指令用于确定数据是否表征(i)具有一种 或多种结肠直肠病理的受试者,或(ii)不具有一种或多种结肠直肠病理的受 试者,所述数据代表了分离和/或衍生自测试受试者的样品中扩增产物的水 平,从而提供测试受试者具有所述一种或多种结肠直肠病理概率的指示。
根据所描述的优选的实施方案中更进一步的特征,确定数据是否表征 (i)具有一种或多种结肠直肠病理的受试者,或(ii)不具有一种或多种结肠直 肠病理的受试者,包括基于(i)代表具有所述一种或多种病理的参照人群的 每个受试者中每种生物标志的一种或多种产物水平的数据集,和(ii)代表不 具有所述一种或多种病理的参照人群的每个受试者中每种生物标志的一种 或多种产物水平的数据集,对所述数据应用公式。
根据所描述的优选的实施方案中更进一步的特征,确定数据是否表征 (i)具有一种或多种结肠直肠病理^受试者,或(ii)不具有一种或多种结肠直 肠病理的受试者,包括确定数据是否与(i)代表具有所述一种或多种病理的 受试者的参照人群的每个受试者中每种生物标志的一种或多种产物水平的 数据集,或(ii)代表不具有所述结肠直肠病理的受试者的参照人群的每个受 试者中每种生物标志的一种或多种产物水平的数据集更有关联。
根据所描述的优选的实施方案中更进一步的特征,公式具有形式V = C + SPiXi,其中V是指示测试受试者具有结肠直肠病理概率的值,Xj是样品中 所述生物标志的第i种生物标志的产物水平,卩i是系数,以及C是常数。
根据所描述的优选的实施方案中更进一步的特征,公式具有形式V = C 十邓ij(Xi/Xj),其中V是指示测试受试者具有结肠直肠病理概率的值,X是所 述生物标志的第i种生物标志的产物水平,Xj是样品中所述生物标志的第j种 生物标志的产物水平,在此第i种生物标志不同于第j种生物标志,(3ij是系数 以及,C是常数。
根据所描述的优选的实施方案中更进一步的特征,公式通过选自逻辑斯 谛回归、线性回归、神经网络和主成分分析的方法导出。
根据所描述的优选的实施方案中更进一步的特征,样品选自血液、淋巴 和淋巴样组织。
根据所描述的优选的实施方案中更进一步的特征,样品选自血清减少的 血液的样品、红细胞减少的血液的样品、血清减少且红细胞减少的血液的样 品、溶解的血液的未分级细胞的样品、和分级血液的样品。
根据本发明的另 一方面,提供了 一种包含两种或更多种分离的多核苷酸 的集合的组合物,其中每种分离的多核苷酸与选自表2中所列的生物标志的 生物标志选择性杂交,以及其中所述组合物用于测定至少两种生物标志的表 达水平。
根据下述本发明优选的实施方案中进一步的特征,每种分离的多核苷酸 与选自膜结合转录因子蛋白酶位点1(MBTPS1); MGC45871; muskelin 1 (MKLN1); nipped-B同系物(NIPBL);酰基肽水解酶(APEH); FLJ23091; MGC40157;和蛋白磷酸酶1调节亚基2 (PPP1R2)的生物标志选择性杂交;以
根据本发明的又一方面,提供了 一种包含两种或更多种分离的多核苷酸 的集合的组合物,其中每种分离的多核苷酸与(a)选自表2中所列的生物标志 的生物标志的RNA产物,和/或(b)与(a)互补的多核苷酸序列选择性杂交,
根据下述本发明优选的实施方案中进一步的特征,每种分离的多核苷酸 与(a)选自膜结合转录因子蛋白酶位点1(MBTPS1); MGC45871; muskelin 1 (MKLN1); nipped-B同系物(NIPBL);酰基肽水解酶(APEH); FLJ23091;
MGC40157;和蛋白磷酸酶1调节亚基2 (PPP1R2)的生物标志的RNA产物;和 /或(b)与(a)互补的多核苷酸序列选择性杂交,其中所述组合物用于测定至 少两种生物标志的RNA表达水平。
根据本发明的又一方面,提供了一种包含两种或更多种分离的多核苷酸 的集合的组合物,其中每种分离的多核苷酸与(a)表3中所列的RNA^列;和 /或(b)与(a)互补的多核苷^列选择性杂交。
根据本发明的另 一方面,提供了 一种包含两组或更多组如表4和/或表6 中所列的生物标志特异性引物集的集合的组合物。
根据本发明的又一方面,提供了一种包含两种或更多种表4中所列的多 核苷酸探针的组合物。
根据下述本发明优选的实施方案中进一步的特征,多核苷酸可用于定量 RT-PCR (QRT誦PCR)。
才艮据所描述的优选的实施方案中更进一步的特征,分离的多核苷酸包括 单链或双链RNA。
根据所描述的优选的实施方案中更进一步的特征,分离的多核苷酸包括 单链或双链DNA。
根据本发明的又一方面,提供了一种包含两种或更多种分离的蛋白的集 合的组合物,其中每种分离的蛋白选择性结合选自表2中所列的生物标志的 生物标志的蛋白产物,以及其中所述组合物用于测定至少两种生物标志的表 达水平。
根据下述本发明优选的实施方案中进一步的特征,每种分离的蛋白选择 性结合选自膜结合转录因子蛋白酶位点1(MBTPS1); MGC45871; muskelin 1 (MKLN1); nipped-B同系物(N1PBL);酰基肽水解酶(APEH); FLJ23091; MGC40157;和蛋白磷酸酶1调节亚基2 (PPP1R2)的生物标志的蛋白产物;以 及其中所述组合物用于测定至少两种生物标志的表达水平。
根据所描述的优选的实施方案中更进一步的特征,分离的蛋白选自表5 中所列的蛋白。
根据所描述的优选的实施方案中更进一步的特征,分离的蛋白是配体。 根据所描述的优选的实施方案中更进一步的特征,配体是抗体或其片段。
根据所描述的优选的实施方案中更进一步的特征,抗体是单克隆抗体。
根据本发明的另 一方面,提供了 一种诊断或检测个体中 一种或多种结肠
病理的方法,包括(a)测定个体样品中选自表2所列的生物标志的一种或多 种生物标志的RNA产物水平;和(b)与对照比较样品中RNA产物的水平,其 中在个体和对照之间检测到RNA产物差异表达指示在所述个体中存在一种 或多种结肠病理。
根据下述本发明优选的实施方案中进一步的特征,所述诊断或检测个体 中一种或多种结肠病理的方法包括(a)测定个体样品中选自表2所列的生物 标志的一种或多种生物标志的RNA产物水平;和(b)与对照比较样品中RNA 产物的水平,进一步包括(a)测定来自个体的样品中选自膜结合转录因子蛋 白酶位点1(MBTPS1); MGC45871; muskelin 1 (MKLN1); nipped-B同系物 (NIPBL);酰基肽水解酶(APEH); FLJ23091; MGC40157;和蛋白磷酸酶l 调节亚基2 (PPP1R2)的一种或多种生物标志的RNA产物水平;和(b)与对照 比较样品中RNA产物的水平,其中在个体和对照之间检测到RNA产物差异表 达指示在所述个体中存在一种或多种结肠病理。
根据所描述的优选的实施方案中更进一步的特征,样品包括全血。 根据所描述的优选的实施方案中更进一步的特征,样品包括一滴全血。 根据所描述的优选的实施方案中更进一步的特征,样品包括已溶解的血液。
根据所描述的优选的实施方案中更进一步的特征,在测定步骤之前,所 述方法包括从样品中分离RNA。
才艮据所描述的优选的实施方案中更进一步的特征,测定RNA产物水平的 步骤包括使用定量RT-PCR (QRT-PCR)。
根据所描述的优选的实施方案中更进一步的特征,QRT-PCR包括与一种 或多种RNA产物或其互补物杂交的杂交引物。
根据所描述的优选的实施方案中更进一步的特征,引物长度为15-25个 核苷酸。
根据所描述的优选的实施方案中更进一步的特征,测定一种或多种RNA 产物中每种RNA产物水平的步骤包括将相应于一种或多种转录物的第 一 多 种分离的多核苷酸与包含第二多种分离的多核苷酸的阵列杂交。
根据所描述的优选的实施方案中更进一步的特征,第一多种分离的多核 普酸包括RNA、 DNA、 cDNA、 PCR产物或EST。
才艮据所描述的优选的实施方案中更进一步的特征,阵列包含多种分离的
多核苷酸,其包括RNA、 DNA、 cDNA、 PCR产物或EST。
根据所描述的优选的实施方案中更进一步的特征,阵列上第二多种分离 的多核苷酸包括相应于表2的一种或多种生物标志的多核苷酸。
才艮据所描述的优选的实施方案中更进一步的特征,对照来源于不具有一 种或多种结肠病理的个体。
根据本发明的另 一方面,提供了 一种用于诊断或检测一种或多种结肠病 理的试剂盒,其包括任何一种组合物和使用说明书。
根据本发明的又一方面,提供了一种用于诊断或检测一种或多种结肠病 理的试剂盒,包含(a)至少两组生物标志特异性引物,其中每组生物标志 特异性引物产生与选自表2的独一无二的生物标志互补的双链DNA;其中所 述组的每种第一引物含有能与互补于生物标志之一的RNA、 cDNA或EST选 择性杂交以形成延伸产物的序列,以及所述组的每种第二引物能与所述延伸 产物选择性杂交;(b)具有逆转录酶活性的酶;(c)具有热稳定的DNA聚合 酶活性的酶,和(d)标记手段;其中每一引物组用于检测测试受试者中生物 标志的定量表达水平。
根据下述本发明优选的实施方案中进一步的特征,用于诊断或检测一种 或多种结肠病理的试剂盒包含(a)至少两组生物标志特异性引物,其中每 组生物标志特异性引物产生与选自表2的独一无二的生物标志互补的双链 DNA;以及酶,进一步包含(a)至少两组生物标志特异性引物,其中每组生 物标志特异性引物产生与选自膜结合转录因子蛋白酶位点1(MBTPS1); MGC45871; muskelin 1 (MKLN1); nipped-B同系物(NIPBL);酰基肽水解酶 (APEH); FLJ23091; MGC40157;和蛋白磷酸酶1调节亚基2 (PPP1R2)的独 一无二的生物标志互补的双链DNA;其中所述引物组的每种第一引物含有能 与互补于生物标志之一的RNA、 cDNA或EST选择性杂交以形成延伸产物的 序列,以及所述引物组的每种第二引物能与所述延伸产物选择性杂交;(b)具 有逆转录酶活性的酶;(c)具有热稳定的DNA聚合酶活性的酶,和(d)标记 手段;其中每一引物组用于检测测试受试者中生物标志的定量表达水平。
根据本发明的又一方面,提供了 一种用于诊断或才企测个体中一种或多种 结肠病理的方法,包括(a)测定来自个体的样品中选自表2所列的生物标志 的一种或多种生物标志的蛋白产物水平;和(b)与对照比较样品中蛋白产物
的水平,其中在个体和对照之间检测到蛋白产物差异表达指示在所述个体中 存在一种或多种结肠病理。
根据下述本发明优选的实施方案中进一步的特征,用于诊断或检测个体 中一种或多种结肠病理的方法包括测定来自个体的样品中选自表2所列的生 物标志的一种或多种生物标志的蛋白产物水平,进一步包括测定来自个体的
样品中选自膜结合转录因子蛋白酶位点1(MBTPS1); MGC45871; muskelin 1 (MKLN1); nipped-B同系物(NIPBL);酰基肽水解酶(APEH); FLJ23091; MGC40157;和蛋白磷酸酶1调节亚基2 (PPP1R2)的一种或多种生物标志的蛋 白产物水平;和(b)与对照比较样品中蛋白产物的水平,其中在个体和对照 之间检测到蛋白产物差异表达指示在所述个体中存在一种或多种结肠病理。
根据所描述的优选的实施方案中更进一步的特征,使用抗体或其片段测 定蛋白产物的水平。
根据所描述的优选的实施方案中更进一步的特征,抗体选自表5中所列 的抗体组。
根据所描述的优选的实施方案中更进一步的特征,抗体是单克隆抗体。 根据本发明的另 一方面,提供了 一种包含两种或更多种分离的多核苷酸 的集合的组合物,其中每种分离的多核苷酸与选自表12中所列的生物标志的 生物标志选择性杂交,以及其中所述组合物用于测定至少两种生物标志在血 液中的表达水平。
根据本发明的又一方面,提供了一种用于诊断或检测一种或多种结肠病 理的试剂盒,包括任何一种包含两种或更多种分离的蛋白集合的组合物和使 用说明书。
本发明成功地解决了目前所知方法的缺点,具体来说经由替代组织如血 液中生物标志分析提供了有效的和非侵入性的检测结肠直肠病理如癌变前 病理和癌性病理的方法。
根据下列详细描述,本发明的其他特征和优点将显而易见。然而,应当 理解的是所给出的用于指示本发明优选的实施方案的详细描述和具体的实 施例仅用作为举例说明,因为根据该详细描述,在本发明精神和范围内的各 种改变和修饰对于本领域技术人员而言是显而易见的。
附图简述
本发明现在将联系附图来进行描述,其中
图l显示了用于实施本文所述某些方法的例示性计算机系统。
图2比较了如实施例2中所述从来自23名没有已鉴定的结肠直肠息肉的 对照和22名具有结肠直肠息肉的受试者的血清消减、红细胞消减的血液分离 得到RNA并进行杂交得到的基因表达谱。具有结肠直肠息肉的患者可具有一 种或多种亚型的息肉,包括增生(Hyperplastic);管状腺瘤;绒毛状腺瘤;管 形绒毛状腺瘤;增生(Hyperplasia);高度发育异常和结肠直肠癌;基因表达 语依据86种显著(尸<0.001)差异表达基因的表达聚类。如灰度所示,有些个体 被错误归类(即在适宜方框下以不同灰度显示),视为离群值(outlier)。每栏 表示单个样品的基因表达谱,每行表示每份样品中单个基因的表达水平。行
内每条带的颜色表示基因表达的相对水平(灰度代表表达水平,表达由低到 高)。来自图2的所得基因表显示于表1。
图3显示了选自如实施例5中所述使用微阵列分析表现出统计学显著的
血液mRNA水平。在50名诊断为具有结肠直肠病理(即一种或多种亚型的结 肠直肠息肉)的患者(n-50)与78名诊断为没有结肠直肠病理的对照个体(n-78) 之间测试了QRT-PCR结果。使用了基于比较(Ct)法的倍数变化。使用 Mann-Whitney检验来进行两组之间的统计学分析。f值小于0.05的结果视为统 计学显著的,表明与所测试mRNA水平对应的基因在两种患者人群(有结肠 直肠病理的患者与无结肠直肠病理的患者)之间差异表达。框内的线表示中 值。框标出了第25到第75百分位的区间。撑杆表示第10到第90百分位的区间。 *表示第10百分位和第卯百分位以外的数据点。
图4描绘了从图3中所测试和显示的八种生物标志物的配对的组合中选 择的生物标志物组合的ROC曲线。实验细节描述于实施例5。测试4l中所 鉴定的生物标志物选出的一组生物标志物的组合,以确定这些组合能够比个 别地使用表l生物标志物更有效地在受检者中筛查一种或多种结肠直肠病 理。如实施例3中所述进行QRT-PCR以测量表1中选出的个别生物标志物组的 RNA产物的水平。通过将逻辑斯谛回归分析应用于所选组合的QRT-PCR结果 并为所得逻辑斯谛回归方程(Logit函数)确定ROC曲线来测试所选生物标志 物组合。小图(A)-所测试数据集之一(AJ36h)的逻辑斯谛函数的ROC曲线 (ROC面积0.72)。此函数由WEKA中的Simple Logistic算子返回(ROC面积
0.66 )。
图5描绘了对选自表12中描绘的基因、实施例8中进一步描述的9种基因 的所有可能组合的分析的图形输出结果。显示了1种、2种、3种、4种、5种、 6种、7种、8种和所有9种基因的每种可能组合的ROC面积、灵敏度(特异性 设为90%阈值时)和特异性(灵敏度设为90%阈值时)的图形描绘。进一步 细节描述于实施例8。
图6描绘了对实施例11中进一步描述的6种基因的所有可能组合的分析 的图形输出结果。显示了1种、2种、3种、4种、5种和所有6种实施例11中所 示基因的每种可能组合的ROC面积、灵敏度(特异性设为90%阈值时)和特 异性(灵敏度设为90%阈值时)的图形描绘。
附表简述
表l (在CD-R中提供)显示了鉴定为在来自具有或没有一种或多种任何 类型结肠直肠息肉的个体的样品中差异表达的基因,其中息肉可以包括一种 或多种以下亚型的息肉增生(Hyperplastic);管状腺瘤;绒毛状腺瘤;管形 绒毛状腺瘤;增生(Hyperplasia);高度增生和癌症。该表提供了Hugo基因名 称(第2栏)、符号和基因座联系ID;人RNA和蛋白质编号;p值(表现观察 到的差异表达的统计学显著性,通过测量所示生物标志物编码的RNA来测 定)和具有一种或多种类型的结肠直肠病理的个体的平均测量水平与没有结 肠直肠病理的个体的平均测量水平之间的倍数变化的度量。第l栏是 AffySpotID,第2栏是基因符号,第3栏是基因ID,第4栏是p值,第5栏是人 RNA编号,第6栏是人蛋白质编号,第7栏是倍数变化,第8栏是基因说明。
表2是表1中所列基因的一个选集。该表提供了基因符号、基因座联系ID、 和基因说明。该表还包括p值(表现观察到的差异表达的统计学显著性)、 Mann-Whitney值(它是有和无结肠直肠病理的差异样品的统计学显著性的另 一种度量)、具有息肉的个体的平均测量水平与没有息肉的个体的平均测量 水平之间的倍数变化的度量、及具有结肠直肠病理的个体与没有结肠直肠病 理的个体之间差异表达的方向。
表3提供了鉴定为在来自有或无结肠直肠息肉的个体的样品中差异表达 的多种生物标志物的人RNA编号和人蛋白质编号。该表提供了基因符号和基 因说明。 表4提供了可用于在本发明中测量表2中所公开的生物标志物的RNA产
物的引物和TaqMan⑧^:针例子的一个选集。
表5提供了表2中所鉴定的基因的蛋白质产物的商品化抗体的说明。 表6显示了如实施例3中所述用于进行RT-PCR以测量来自有或无一种或
多种息肉的个体的样品中来自表2的基因(生物标志物)的RNA产物的差异
表达的引物序列。该表还提供了对应于所测试生物标志物的基因符号和RNA编号。
表7提供了如实施例5中所述用于对所选生物标志物测试存在结肠直肠 息肉的能力的患者表型信息的汇总。列出了各参数,包括样本量、性别、年 龄和息肉亚型(通过病理报告确定)。
表8列出了用于如实施例5中所述测试结肠直肠息肉之存在的所选分类 器,这些分类器用于所选的八种生物标志物MBTPS1、 MGC45871、 MKLN1、 NIPBL、 APEH、 MGC40157、 PPP1R2、 FLJ23091的相应数据,得到了0.72 的ROC面积。八种所选基因的QRT-PCIl基因显示于图3。
表9提供了实施例5中所述盲试在应用由表8中所示分类器构成的公式时 的结果。
表10列出了可用于鉴定用于预防或治疗一种或多种形式的结肠直肠病 理的化合物的报道基因和报道基因产物的特性。
表ll (在CD-R中提供)显示了如实施例2所述使用微阵列鉴定为在来自 具有"高风险息肉"的个体较之没有高风险息肉(即具有低风险息肉或根本没 有病理)的个体的样品中差异表达的基因。该表提供了基因名称、基因ID、 代表性人RNA编号,还提供了p值、倍数变化(归入具有高风险息肉的个体 的平均值较之具有低风险息肉的个体的平均值)、及高风险息肉个体和低风 险息肉个体二者的变异系数(标准化强度除以平均标准化强度的标准偏差)。 第l栏是AffySpotID,第2栏是倍数变化,第3栏是p值,第4栏是CV(变异系 数)(高风险息肉),第5栏是CV (低风险息肉),第6栏是基因ID,第7栏是 HUGO基因符号,第8栏是人RNA编号,第9栏是基因说明。
表12显示了在来自具有结肠直肠癌的个体和没有结肠直肠癌的个体的 样品中通过QRT-PCR测试了差异表达的48种生物标志物。这48种生物标志物 是使用QRT-PCR测试的。该表提供了每种生物标志物的基因符号、基因座联 系ID、和基因说明。该表还包括p值(表现观察到的差异表达的统计学显著
性)、具有结肠直肠癌的个体的平均测量水平与没有结肠直肠癌的个体的平 均测量水平之间的倍数变化的度量、及具有结肠直肠癌与没有结肠直肠癌的 个体之间差异表达的方向。
表13提供了表12中鉴定为在来自有或无结肠直肠癌的个体的样品中差 异表达的多种生物标志物的人RNA编号和人蛋白质编号。该表提供了基因符 号和基因说明。
表14提供了可用于如实施例6、 7、 8或9中所述测量表12中所公开的生物 标志物的一种或多种RNA产物的引物和TaqMan⑧探针例子的一个选集。
表15提供了用于测量表12中所鉴定的生物标志物的蛋白质产物的商品
化抗体的索引。
表16显示了用于表12中所述基因以定量生物标志物的一种或多种RNA 产物的引物的一个选集。
表17显示了实施例ll中所使用的引物和TaqMan⑧探针。
发明详述
(A)综述
在一个方面中,本发明披露了生成公式/分类器的方法,所述公式/分类 器能应用于相应于所选择的生物标志组合的一种或多种产物的水平的数据 以将测试受试者分类为具有一种或多种结肠直肠病理或一种或多种结肠直 肠病理亚型。还披露的是其产物水平可用于检测受试者一种或多种结肠直肠 病理或一种或多种结肠直肠病理亚型的生物标志。还披露的是包含用于将公 式应用于代表生物标志产物水平的数据以便检测受试者一种或多种结肠直 肠病理的指令的计算机可读介质。还披露的是一种配置有通过将公式应用于 生物标志产物数据的指令以提供给用户测试受试者具有一种或多种结肠直 肠病理概率的指示的计算机系统。
本发明提供了能与RNA生物标志产物特异性杂交以便能定量该生物标 志产物的生物标志产物配体。以本领域技术人员所知道的多种方法中的任何 一种,生物标志产物配体可使直接和/或间接定量得以实现。能与生物标志 RNA产物或由其衍生的多核普酸特异性杂交的生物标志产物配体可具有多 种组成中的任何一种。例如,生物标志产物如生物标志RNA产物的特异性配 体可以是多核苷酸(如与RNA产物或由其衍生的多核苷酸的至少一部分互补
的多核苷酸)或多肽(如特异于RNA产物或由其衍生的多核苦酸的至少一部分 的抗体或亲和力选择的多肽)。在一个实施方案中,所披露的多核苷酸和/或 多肽配体是能与生物标志RNA产物和/或多核苷酸产物特异性和/或选择性杂 交以便定量其的探针。上述探针包括在诸如定量实时PCR(QRT-PCR)中有用 的以及可以例如与SYBR⑧Green或用TaqMan 或Molecular Beacon技术使用 的那些探针。在一个实施方案中,可用作核酸探针的多核苷酸能点样在阵列 上以测定分离或衍生自测试受试者的生物标志RNA产物或由其衍生的多核 苦酸的水平。在另一个实施方案中,设想了可用于测定RNA产物的表达的阵 列。
在另 一个实施方案中,所披露的多核苷酸配体是能特异性扩增生物标志组。
进一步披露的是筛选所鉴定的生物标志的产物来筛选用于治疗或预防 一种或多种结肠直肠病理的治疗乾的方法。
还提供了可用于检测并监测所鉴定的生物标志和生物标志组合的产物
的差异基因表达的多核苷酸和/或多肽配体的试剂盒,其是包括容许指示测试 受试者具有一种或多种结肠直肠病理概率的计算机可读介质的试剂盒。还提 供了产生用于测试一种或多种结肠直肠病理的公式的方法。
进一步披露的是测定/监测生物标志产物水平以筛选用于治疗或预防一 种或多种结肠直肠病理的治疗靶。还提供了产生用于检测测试受试者一种或 多种结肠直肠病理的公式的方法。
还披露的是通过产生分类器来测定生物标志组合的方法。通过将一种或 多种数学模型应用于代表参照人群间生物标志的RNA和/或蛋白产物表达水 平的数据,从而生成分类器,所述参照人群包括具有一种或多种结肠直肠病 理或一种或多种其亚型的受试者,以及不具有一种或多种结肠直肠病理的受 试者。分类器可单独或组合使用来生成可用于检测受试者具有一种或多种结 肠病理亚型概率的公式。还披露的是基于曲线下面积(AUC)、灵敏度和/或特 异性进一步选择分类器的方法。 一种或多种经选择的分类器可用于生成公 式,随后可选择包含于该公式中的分类器。通过测量样品中生物标志的一种 或多种RNA产物和/或一种或多种蛋白产物的水平以及使用由所述测量产生 的数据输入数学模型从而生成分类器。注意到用于产生用于生成公式的数据
的方法没有必要与为诊断目的自测试受试者产生用于包括在公式内的数据 的方法相同。
本发明的其他方面披露于此。
(B)定义
除非另有说明,本发明的实施将使用为本领域技术人员所熟悉的分子生 物学技术、微生物学技术和重组DNA技术。上述技术在文献中得到了充分解 释。参见i口 Sambrook, Fritsch & Maniatis, 1989, Molecular Cloning: A Laboratory Manual,第2版;Oligonucleotide Synthesis (M.J. Gait,编,1984); Nucleic Acid Hybridization (B.D. Hames & S丄Higgins,编,1984); A Practical Guide to Molecular Cloning (B. Perbal, 1984);以及丛书,Methods in Enzymology (Academic Press, Inc.); Short Protocols In Molecular Biology, (Ausubel等,编,1995)。所有在本文上下文中所提及的专利、专利申请和出 版物以其全文在此并入作为参考。
对在下列书面描述中所使用的专用术语提供了如下定义。
如本文中所使用的,"5'末端"指由mRNA的第一个核苷酸起始的至多最 初1000个核苷酸或l/3的mRNA的mRNA末端(其中全长mRNA不包括聚腺苷 酸尾)。基因的"5'区"指位于基因的5'末端之内或位于基因的5'末端的多核苷酸 (双链或单链),包括但不限于5'非翻译区(如果存在的话)以及基因的5'蛋白编 码区。5'区的长度不短于8个核香酸,也不长于1000个核芬酸。5'区其他可能 的长度包括]旦不限于IO、 20、 25、 50、 100、 200、 400和500个核苷酸。
如本文中所使用的。"3'末端"指至多最后1000个核苷酸或l/3的mRNA的 mRNA末端,这里3'末端核苷酸是连接聚腺苷酸尾(如果存在的话)的编码或非 翻译区的末端核苷酸。换句话说,mRNA的3'末端不包括聚腺苷酸尾(如果存 在的话)。基因的"3'区"指位于基因的3'末端之内或位于基因的3'末端的多核苷 酸(双链或单链),包括但不限于3'非翻译区(如果存在的话)以及基因的3'蛋白 编码区。3'区的长度不短于8个核苷酸,也不长于1000个核苷酸。3'区其他可 能的长度包括但不限于10、 20、 25、 50、 100、 200、 400和500个核苷酸。
如本文中所使用的,基因的"内部编码区"指位于如本文所定义的基因的 5'区和3'区之间的多核苷酸(双链或单链)。"内部编码区"的长度不短于8个核 苷酸,也不长于1000个核苷酸。"内部编码区"其他可能的长度包括但不限于10、 20、 25、 50、 100、 200、 400和500个核苷酸。5'、 3'和内部区是不相重 叠的,且可以是但无需是连续的,以及可以但无需合计等于相应基因的全长。
如本文中所使用的,多肽"氨基末端"区指位于mRNA分子的5'末端之内 或位于mRNA分子的5'末端的多核苷,列(双链或单链)编码的多肽序列。如 本文中所使用的,"氨基末端"区指由多肽的第一个氨基酸起始的至多最初 300个氨基酸或1/3的多肽的多肽氛基末端。多肽"氨基末端"区的长度不短于3 个氨基酸,也不长于350个氨基酸。多肽的"氨基末端"区的其他可能的长度 包括但不限于5、 10、 20、 25、 50、 100和200个氨基酸。
如本文中所使用的,多肽"羧基末端,,区指指位于mRNA分子的3'末端之 内或位于mRNA分子的3'末端的多核苷酸序列(双链或单链)编码的多肽序列。 如本文中所使用的,"羧基末端"区指由多肽的最后一个氨基酸起始的至多 300个氨基酸或l/3的多肽的多肽羧基末端。"3'末端"不包括聚腺苷酸尾,如 果存在的话。多肽"羧基末端"区的长度不短于3个核苷酸,也不长于350个核 苷酸。多肽"羧基末端"区的其他可能的长度包括但不限于5、 10、 20、 25、 50、 100和200个氨基酸。
如本文中所使用的,多肽的"内部多肽区"指位于如本文所定义的多肽的 氨基末端区和羧基末端区之间的多肽序列。多肽的"内部多肽区"的长度不短 于3个核苷酸,也不长于350个氨基酸。多肽的"内部多肽区"的其他可能的长 度包括但不限于5、 10、 20、 25、 50、 100和200个氨基酸。多肽的氨基末端、 羧基末端和内部多肽区是不相重叠的,且可以是但无需是连续的,以及可以 但无需合计等于相应多肽的全长。
如本文所使用的,当用于核酸序列时,术语"扩增"指从模板核酸产生 一个或多个拷贝的特定核酸序列的过程,在某些实施方案中,通过聚合i^! 式反应的方法实现该过程(Mullis和Faloona, 1987, Methods Enzymol., 155:335)。"聚合酶链式反应"或"PCR"指用于扩增特定的模板核酸序列的方 法。在某些实施方案中,PCR反应包含一系列重复的温度循环并通常在50-100 pl的体积中进行。PCIL良应中所进行的循环数可包括15、 20、 25、 30、 35、 40、 45、 50、 55或60个循环。反应混合物包含dNTP(四种脱氧核苷酸dATP、 dCTP、 dGTP和dTTP中的每一种)、引物、緩冲液、DNA聚合酶和核酸模板。 PCR^应可包含提供一组多核苷酸引物,其中第 一 引物包含与核酸模板序列 的一条链中的区域互补的序列并引发互补链的合成,及第二引物包含与靶核
酸序列的另一条链中区域互补的序列并引发互补链的合成,和在容许(i)扩 增需要的引物退火至包含于模板序列中的靶核酸序列,(ii)延伸引物,其中 核酸聚合酶合成了引物延伸产物的PCR循环步骤的条件下使用核酸聚合酶 作为模板依赖性聚合剂扩增核酸模板序列。"一组多核苷酸引物"或"一组PCR 引物,,或"一组引物,,可包含两条、三条、四条或更多条引物。在某些实施方 案中,可使用一引物组进行嵌套式PCR,其中笫一亚组引物用于扩增单一产 物,然后使用与第一亚组引物的产物杂交的第二亚组引物以扩增更小的产 物。在一个实施方案中,在PCR^应中外切PfUDNA聚合酶用于扩增核酸模 板。其他的扩增方法包括但不限于连接酶链式反应(LCR)、基于多核苷酸特 异性的扩增(NSB A)或任何其他本领域已知的方法。
在一个方面中,"阵列"包括一组特异性的採:针,如完全或部分和/或连续 或不连续地相应于基因组DNA表达区域的寡核苷酸和/或cDNA(如EST);其 中探针位于支持物上。在一个实施方案中,探针可相应于本发明的生物标志 RNA产物的内部编码区的5,末端或3,末端。当然,可用作为靶或探针的一种 基因的5,末端与另 一种基因的3,末端组合的混合物能获得相同或相似的生物 标志RN A产物水平测量结果。
如本文中所使用的,参比蛋白质剂的"类似物,,包括任何与参比蛋白质剂 具有类似或相同的功能、但不包含与参比蛋白质剂相似或相同的氨基酸序列 和/或与参比蛋白质剂具有相似或相同的结构的蛋白质剂。与第二蛋白质剂具 有相似的氨基酸序列的蛋白质剂是如下的至少一种(a)具有与第二蛋白质 剂的氨基酸序列具有至少30%、至少35%、至少40%、至少45%、至少50%、 至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、 至少90%、至少95%或至少99%同一性的氨基酸序列的蛋白质剂;(b)为在严 格条件下与编码第二蛋白质剂的核苷酸序列的至少一个区段杂交的核苷酸
序列所编码的蛋白质剂,其中该区段具有至少5个连续的氨基酸残基、至少 IO个连续的氨基酸残基、至少15个连续的氨基酸残基、至少20个连续的氨基 酸残基、至少25个连续的氨基酸残基、至少40个连续的氨基酸残基、至少50 个连续的氨基酸残基、至少60个连续的氨基酸残基、至少70个连续的氨基酸 残基、至少80个连续的氨基酸残基、至少90个连续的氨基酸残基、至少IOO 个连续的氨基酸残基、至少125个连续的氨基酸残基或至少150个连续的氨基 酸残基的长皮;和(c)为与编码第二蛋白质剂的核苷酸序列具有至少30%、
至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、 至少70%、至少75%、至少80%、至少85%、至少90%、至少95%或至少99% 同一性的核苷酸序列所编码的蛋白质剂。与第二蛋白质剂具有相似的结构的
蛋白质剂指与第二蛋白质剂具有相似的二级、三级或四级结构的蛋白质剂。 可通过本领域技术人员所知的方法测定蛋白质剂的结构,包括但不限于肽测 序、X-射线晶体学、核磁共振、圓二色性和晶体电子显微镜学。
为确定两条氨基酸序列或两条核酸序列的同 一性百分数,对序列进行最 优比较结果的比对(如为了与第二氨基酸或核酸序列进行最优比对,可在第 一氨基酸或核酸序列的序列中导入缺口)。然后比较处于相应氨基酸位置或 核苷酸位置处的氨基酸残基或核苷酸。当第一序列中的位置为处于第二序列 中相应位置处的相同的氨基酸残基或核苷酸所占据时,则在该位置上这两个 分子是相同的。两条序列之间的同一性百分数是这两条序列享有的相同位置 数目的函数(即%同一性=相同的重叠位置的数目/总的位置数目xl00%)。 在一个实施方案中,两条序列是相同长度的。
还可使用数学算法实现两条序列之间的同一性百分数的确定。用于两条 序列比较的数学算法的 一个优选的、非限制性的例子是Karlin和Altschul, 1990, Proc. Natl. Acad. Sci. U.S.A. 87:2264-2268,改良于Karlin和Altschul, 1993, Proc. Natl. Acad. Sci. U.S.A. 90:5873-5877的算法。上述算法被掺入 Altschul等,1990, J. Mol. Biol. 215:403的NBLAST和XBLAST程序中。可使用 NBLAST核香酸程序参数集如得分-IOO、字长42进行BLAST核苷酸搜索以 获得与本发明的核酸分子同源的核苷酸序列。可使用XBLAST程序参数集如 得分=50、字长二3进行BLAST蛋白搜索以获得与本发明的蛋白分子同源的氨 基酸序列。为了比较目的,如Altschul等,1997, Nucleic Acids Res. 25:3389-3402中所述的可利用缺口 BLAST来获得缺口比对。可选地, PSI-BLAST可用于执行检测分子之间远缘关系的迭代搜索(同前)。当利用 BLAST 、缺口 BLAST和PSI-Blast程序时,可使用各自程序(如XBLAST和 NBLAST)的缺省参数(参见如NCBI网站)。另 一个用于序列比较的优选的、非 限制性的数学算法的例子是Myers和Miller, 1988, CABIOS 4:11-17的算法。上 述算法被掺入作为GCG序列比对软件包一部分的ALIGN程序(2.0版)中。当利 用ALIGN程序比较氨基酸序列时,可使用PAM120权重残基表、12的缺口长 度罚分和4的缺口罚分。
可使用与上述那些容许缺口或不容许缺口的技术所类似的技术确定两 条序列之间的同一性百分数。在计算同一性百分数中,通常只将确切的匹配 计算在内。
如本文中所使用的,在非蛋白质分子上下文中的术语"类似物"指与第一 有机或无机分子具有相似或相同的功能且在结构上与第一有机或无机分子 相似的第二有机或无机分子。术语"类似物"包括其核心结构与第一分子相同 或密切相似但具有化学或物理修饰的分子。术语"类似物"包括可连接至其他 原子或分子的第一分子的共聚物。在本文中"生物学活性类似物,,和"类似物,, 可互换使用以覆盖显示与第一有机或无机分子实质上相同的激动或拮抗效 应的有机或无机分子。
如本文中所使用的,"核苷酸类似物"指其中戊糖和/或一个或多个磷酸酯 为其各自的类似物所取代的核苷酸。例证性的磷酸酯类似物包括但不限于烷 基膦酸酯、曱基膦酸酯、氨基磷酸酯、磷酸三酯、卣代磷酸酯、二硫代磷酸
酯、硒代磷酸酯、二硒代磷酸酯、疏代苯胺磷酸酯(phosphoroanilothioates)、 苯胺磷酸酯(phosphoroanilidates)、氨基磷酸酯、二羟硼基磷酸酯 (boronophosphates)等,包括任何締合的抗衡离子,如果存在的话。也包括在 "核普酸类似物"的定义中的是能聚合为多核普酸类似物的核碱基(nucleobase) 单体,其中DNA/RNA磷酸酯和/或糖磷酸酯主链为不同类型的连接(linkage) 所取代。进一步包括在"核苷酸类似物"中的是其中核碱基部分为非常规的(即 不同于G、 A、 T、 U或C任何一种)核碱基部分的核苷酸。 一般来说,非常规 的核碱基会具有与存在于相邻反方向多核苷酸链上的至少一种核碱基部分 形成氢键或提供非相互作用的、非干扰的碱基的能力。
术语"抗体"还包括抗体的抗原结合片段。如本文中所使用的,术语抗体 的"抗原结合片段"(或简称为"抗体部分"或"片段,,)指保留与本发明的生物标 志的基因之一所编码的多肽特异性结合能力的全长抗体的一种或多种片段。 包含于术语抗体的"抗原结合片段"中的结合片段的例子包括(i) Fab片段,一 种由VL、 VH、 CL和CH1结构域组成的单价片段;(ii)F(ab,)2片段, 一种包含 在铰链区通过二硫桥相连的两个Fab片段的二价片段;(iii)由VH和CH1结构 域组成的Fd片段;(iv)由抗体单臂的VL和VH结构域组成的Fv片段,(v) dAb 片段(Ward等,(1989)Nature 341:544-546),其由VH结构域组成;和(vi)分离 的互补决定区(CDR)。
此外,尽管Fv片段的两个结构域(VL和VH)为分离的 基因所编码,但使用重组方法通过合成接头可将它们连接,所述接头能使它
们形成单条蛋白链,其中VL和VH结构域配对形成单价分子(称为单链 Fv(scFv);参见如Bird等(1988) Science 242:423-426;和Huston等(1988) Proc. Natl. Acad. Sci. USA 85:5879-5883)。上述单链抗体也意图包含在术语抗 体的"抗原结合片段"中。使用本领域技术人员所知的常规技术能获得这些抗 体片段,并能以与完整抗体相同的方式筛选这些片段的效用。在某些实施方 案中,抗体是单特异性抗体如单克隆抗体或其抗原结合片段。术语"单特异 性抗体"指一种针对特定靶如表位显示单一结合特异性和亲和力的抗体。该
术语包括如在本文中所使用的指单一分子组成的抗体或其片段的制备物的 "单克隆抗体"或"单克隆抗体组合物"。
如本文中所使用的,涉及阵列的术语"附上"和"点样"可包括将核酸或蛋 白质剂沉积或定位在基质上以形成核酸或蛋白阵列的过程。在一个实施方案 中,被点样的物质是通过共价键、氬键或离子相互作用附于或定位在阵列上。
如本文中所使用的,术语"生物标志"指其产物可被测定并与疾病关联的 基因。生物标志指编码一种或多种以可测量的不同水平存在于分离和/或衍生 自具有病理的受试者及不具有该病理的受试者的相应样品中的产物(如未剪 接的RNA、 mRNA和/或多肽)的基因。生物标志可以是被转录为RNA产物的 DNA分子。可选地,生物标志可以是翻译成蛋白产物或逆转录为DNA产物 的RNA分子。
如本文中所使用的,"血液核酸样品,,或"血液多核苷酸样品,,指来源于血 液的多核苷酸,并可包括分离和/或衍生自全血、血清减少的全血、溶解的血 液(红细胞消减的血液)、离心的溶解的血液(血清消减的、红细胞消减的血 液)、血清消减的全血或外周血淋巴细胞(PBL)、来自血液的珠蛋白减少的 RNA或任何本领域技术人员应当理解的可能的血液级分的多核苷酸。血液多 核苷酸样品可指RNA、 mRNA或相应于mRNA的核酸,如衍生自分离自所述 样品的RNA的cDNA或EST。血液多核苷酸样品还可包括衍生自RNA、 mRNA或cDNA的PCR产物。
如本文中所使用的,术语"公式"包括一种或多种分类器或分类器的组 合,其中术语分类器用于描述数学模型的输出。
如本文中所使用的,术语"结肠直肠病理"包括一种或多种类型或亚型的 直肠和/或结肠病理中的任何一种。"结肠直肠病理,,包括癌变前息肉、癌性息
肉、处于变成癌性危险中的息肉、和未知癌症相关状态的息肉。应当理解的 是有时根据本发明实施方案的受试者在任一时刻可具有一种或多种结肠直 肠病理,每种病理可以是相同或不同类型或亚型的息肉。可才艮据不同方法中 的任何一种对结肠直肠病理分类,例如根据本领域中所知的方法。在一个实 施方案中,如本领域所应理解的,"息肉"或"结肠直肠息肉"包括细胞和/或组 织的异常生长,和/或可在结肠或直肠中突出的细胞和/或组织的生长。如本
领域技术人员应当理解的,可根据包括息肉形态学;息肉发展为癌性息肉的 危险等在内的多种因素对息肉进行进一步定义。在一个实施方案中,息肉可 分类为不同的亚型,包括增生性的(Hyperplastic);管状腺瘤(Tubular Adenoma);绒毛状腺瘤(Villous Adenoma);管形绒毛状腺瘤(Tubulovillous Adenoma);增生(Hyperplasia);高级发育异常(High Grade Dysplasia);和癌症。 对于任何一个个体和/或息肉,均可适用一种或多种息肉亚型描述。在另一个
实施方案中,(7)结肠直肠癌也可^:再分类为不同的类型。在又一个实施方案 中,可根据一种类别中多种参数的任何一种将一种或多种所列亚型集中在一 起。可选地,可根据多种参数的任何一种对一种或多种所列亚型进行进一步 亚分类。在又一个实施方案中,可才艮据一种类别中多种参数的任何一种将一 种或多种所列亚型集中在一起。可选地,可根据多种参数的任何一种对一种 或多种所列亚型进行进一步亚分类。例如,在一个实施方案中,可根据腺瘤
息肉直径进一步分类管状腺瘤息肉。例如,具有大于lmm、 2mm、 3mm、 4mm、 5mm、 6mm、 7mm、 8mm、 9mm、 10mm、 llmm、 12mm、 13mm、 14mm或 15mm直径的腺瘤息肉是可能存在。在又一个例子中,根据所应了解的疾病 进展可对结肠直肠癌作进一步再分类。例如,可使用Duke或改良的Duke分 期系统对结肠直肠癌再分类。改良的Duke分期系统将结肠直肠癌分组为不同 的四期A-D。 A期指肿瘤透入结肠和/或肠的粘膜,但不更进一步穿透。Bl期 指肿瘤透入但不贯穿结肠和/或肠壁的固有肌层(肌层)。B2期指肿瘤已透入并 贯穿结肠和/或肠壁的固有肌层。Cl期肿瘤透入,但不贯穿结肠和/或肠壁的 固有肌层;在淋巴结中存在结肠直肠癌的病理证据。C2期肿瘤透入并贯穿肠 壁的固有肌层;但在淋巴结中存在结肠直肠癌的病理证据。最后,D期指肿 瘤已从淋巴结扩散到其他器官。在又一个实施方案中,可使用TNM分期系统 对结肠直肠癌再分类。根据TNM分期系统,分为四期,I-IV期,每一期都反 映了关于肿瘤、结节和转移的状况。肿瘤被再分为如下Tl:肿瘤侵入粘膜
下层,T2:肿瘤侵入固有肌层,T3:肿瘤通过固有肌层侵入浆膜下层,或侵 入结肠周或直肠周组织,以及T4:肿瘤直接侵入其他器官或结构,和/或穿 孔。结节再分为如下NO指没有局部淋巴结转移。Nl指l-3个局部淋巴结转 移。N2指4个或更多个局部淋巴结转移。转移分为如下MO指没有远端转移, 以及M1指出现远端转移。因此,对于I期,根据TNM系统,肿瘤可分类为 T1N0M0或T2N0M0;癌症已开始扩散但仍处于衬里(inner lining)中。II期是 T3N0M0或T4 NOMO;癌症已扩散到邻近结肠或直肠的其他器官,但尚未到 达衬里。III期包括所有的T、 N1-2和M0;癌症已扩散到淋巴结,但没有扩散 到身体远端。IV期包括任何T、任何N和M1;癌症是转移性的且已扩散到其 他器官如肺或肝。
如本文中所使用的,术语"高风险息肉"指被认为处于更高危险的发展为 癌症或已是本领域技术人员所应当理解的癌性的那些息肉亚型,包括易于成 癌的息肉或癌倾向的息肉和癌性息肉,而"低风险息肉"则包括所有其他类型 的息肉。例如,70-90%的结肠直肠癌起因于腺瘤性息肉,因此其被认为是高 风险息肉。腺瘤性息肉可进一步分为下述亚型,包括管状腺瘤,已提出有 大约4%的可能性发展为恶性肿瘤;管形绒毛状腺瘤,已提出有大约16%的可 能性发展为恶性肿瘤;以及绒毛状腺瘤,已提出有大约21%的可能性发展为 恶性肿瘤。此外,高级发育异常具有增加的恶性潜能。在一个实施方案中,"高 风险息肉,,的息肉是管形绒毛状腺瘤、绒毛状腺瘤、高级发育异常和管状腺 瘤,并且还包括癌性息肉,包括那些是癌性的并有局限性的息肉以及那些已 导致在外周血中散布的息肉。在该实施方案中,"低风险息肉"包括任何其他 的息肉形态学。在另一个实施方案中,"高风险息肉"的息肉是管形绒毛状腺 瘤、绒毛状腺瘤、高级发育异常和管状腺瘤,且不包括已是癌性的息肉。息 肉大小还与发展为癌症的危险相关。例如,直径大于10mm的息肉被认为是 大息肉并具有更大的发展为恶性肿瘤的潜能。直径大于2cm的息肉有50。/。的 变成恶性肿瘤的概率。参见Zauber (2004) Gastroenterology; 126(5): 1474。在 另一个实施方案中,"高风险息肉,,包括管形绒毛状腺瘤、绒毛状腺瘤、高级 发育异常和管状腺瘤,其中管状腺瘤息肉的直径大于10mm,其他的息肉形 态学则被认为是"低风险息肉"。
如本文中所使用的,术语"化合物"和"试剂(agent)"可互换使用。 如本文中所使用的,术语"对照"或"对照样品"可包括分离和/或衍生自已
被_渗断为具有一种或多种结肠直肠病理,包括具有一种或多种息肉或具有一
种或多种息肉亚型;不具有结肠直肠病理;不具有息肉;或不具有一种或多 种息肉亚型的受试者或一组受试者的一种或多种样品。术语对照或对照样品 还可指来源于一个或多个受试者的一种或多种样品的数据汇编。
关于DNA的"编码区"指编码RNA的DNA。
关于RNA的"编码区"指编码蛋白的RNA。
如本文中所使用的,关于一种或多种生物标志的术语"数据",或术语"生 物标志数据"通常指反映样品中生物标志产物的绝对和/或相对丰度(水平)的 数据。如本文中所使用的,涉及一种或多种生物标志的术语"数据集"指代表 参照受试者人群中一组生物标志的一种或多种生物标志产物的每一种水平 的一组数据。数据集可用于生成本发明的公式/分类器。根据一个实施方案, 数据集无需包含参照人群每一个体一组生物标志的每一生物标志产物的数 据。例如,当在数据集的上下文中用于公式时,"数据集"可指代表在一个或 多个参照人群中每一个体的每一生物标志产物水平的数据,但应当理解的是 还可指代表在每一所述的一个或多个参照人群中99%、 95%、 90%、 85%、 80%、 75%、 70%或更少的个体的每一生物标志产物水平的数据,并且"数据 集"仍可应用公式。
如本文中所使用的,在蛋白质剂(如蛋白、多肽、肽和抗体)上下文中的 术语"衍生物"指包含已通过导入氨基酸残基取代、缺失和/或添加而改变的氨 基酸序列的蛋白质剂。如本文中所使用的,术语"衍生物"还指已被修饰的蛋 白质剂,即通过任何类型的分子与该蛋白质剂共价附着。例如,但不限于可 通过如糖基化、乙酰化、聚乙二醇化、磷酸化、酰胺化、通过已知的保护/ 封闭基团的衍生化、蛋白水解切割、连接到细胞配体或其他蛋白等修饰抗体。 可使用本领域技术人员已知的技术通过化学修饰产生蛋白质剂衍生物,所述 技术包括但不限于特异性化学切割、乙酰化、甲酰化、衣霉素的代谢合成等。 此外,蛋白质剂衍生物可含有一个或多个非典型氨基酸。蛋白质剂衍生物具 有与衍生它的蛋白质剂相似的或相同的功能。
如本文中所使用的,在非蛋白质衍生物上下文中的术语"衍生物"指基于 第 一有机或无机分子的结构所形成的第二有机或无机分子。有机分子的衍生 物包括但不限于如通过添加或消除羟基、曱基、乙基、羧基或胺基所修饰的 分子。有机分子还可被酯化、烷基化和/或磷酸化。
如本文中所使用的,涉及结肠直肠病理的术语"检测"、"诊断,,和"筛选,, 指确定测试受试者具有一种或多种结肠直肠病理可能性(概率)的过程,并包 括传统的医学诊断技术以及为本发明的一个或多个方面所包含的检测方法。 用于检测结肠直肠病理的传统医学诊断技术包括体检和病史、医学评价以及
适当的实验室检测,其可包括FOBT、乙状结肠镜检查和结肠镜检查。在一 个实施方案中,"结肠直肠病理的诊断"指在如下两项选择之间作出判断如 (i)个体具有结肠直肠病理或一种或多种结肠直肠病理亚型、或一种或多种 息肉和(ii)个体不具有结肠直肠病理或一种或多种息肉或一种或多种息肉亚 型。在另一个实施方案中,诊断可包括对个体是否可被鉴定为具有或不具有 结肠直肠病理无法作出具有足够把握度的判断的选择。在一上下文中,"足 够的把握度"考虑到了任何限制——如技术、装置或测量中的限制,这里由 于存在限制,结果处于表明该检测是不确定的范围内。表明该检测是不确定 的范围则取决于所使用的装置、试剂和技术的具体限制。在另一上下文中, "足够的把握度"取决于医学上所要求的检测灵敏度和/或特异性。更具体来 说,足够的把握度包括大于50%的灵敏度和/或特异性、大于60%的灵敏度和 /或特异性、大于70%的灵敏度和/或特异性、大于80%的灵敏度和/或特异性、 大于卯%的灵敏度和/或特异性、和100%的灵敏度和/或特异性。
如本文中所使用的,"正常的"指不具有结肠直肠病理的个体或个体组。 在某些实施方案中,利用常规诊断方法确定所述个体或个体组不具有结肠直 肠病理的诊断。在某些实施方案中,所述个体或个体组没有被诊断出任何其 他疾病。根据本发明,"正常的,,还指分离自正常个体的样品并包括分离自 正常个体的血液、总RNA或mRNA。取自正常个体的样品可包括取自在取样 时不具有结肠直肠病理的个体的样品。
如本文中所使用的,术语"差异表达,,指一种或多种生物标志的产物表达 水平的差异。举例来说,术语"差异表达"可指来自具有一种或多种结肠直肠 病理的受试者的样品和来自不具有一种或多种结肠直肠病理的受试者的样 品之间的一种或多种生物标志的RNA水平差异。可通过直接或间接测量"差 异表达,,的量或水平来确定生物标志RNA产物水平的差异。"差异表达"还可 包括在样品或参照人群之间为本发明的生物标志所编码的蛋白的不同水平。 可根据具有或不具有一种或多种结肠直肠病理的参照受试者/人群之间一种 或多种生物标志产物水平的比率来确定"差异表达",其中比率不等于l.O。人
群之间的差异表达可作为p值的函数被确定为统计显著。当利用p值来确定统
计显著性时,生物标志,p值优选小于0.2。在另一个实施方案中,当p值小于 0.15、 0.1、 0.05、 0.01、 0.005、 O.OOOl等时,生物标志被鉴定为差异表达。 当基于比率确定差异表达时,如果第一样品中表达水平与第二样品中表达水 平的比率大于或小于l.O,则生物标志产物是差异表达的。举例来说,大于l.O 的比率例如包括大于l.l、 1.2、 1.5、 1.7、 2、 3、 4、 10、 20等的比率。小于 1.0的比率例如包括小于0.9、 0.8、 0.6、 0.4、 0.2、 0.1、 0.05等的比率。在另 一个本发明的实施方案中,如果第一人群表达水平平均值与第二人群表达水 平平均值的比率大于或小于l.O,则生物标志产物是差异表达的。大于1.0的 比率例如包括大于l.l、 1.2、 1.5、 1.7、 2、 3、 4、 10、 20等的比率,以及小 于1.0的比率例如包括小于0.9、 0.8、 0.6、 0.4、 0.2、 0.1、 0.05等的比率。在 另 一个本发明的实施方案中,如果第 一样品中其表达水平与第二人群的平均 值的比率大于或小于l.O,并包括例如大于l.l、 1.2、 1.5、 1.7、 2、 3、 4、 10、 20的比率,小于1例如0.9、 0.8、 0.6、 0.4、 0.2、 0.1、 0.05的比率,则生物标 志产物是差异表达的。
"升高的差异表达"或"上调"指与对照相比,生物标志产物水平高至少 10%或更多,例如20%、 30%、 40%、或50%、 60%、 70°/。、 80%、 90%或更 多,和/或是其l.l倍、1.2倍、1.4倍、1.6倍、1.8倍或更多。
"降低的差异表达"或"下调"指与对照相比,生物标志产物水平低至少 10%或更多,例如20%、 30%、 40%、或500/。、 60%、 70%、 80%、 90%或更 多,和/或是其0.9倍、0.8倍、0.6倍、0.4倍、0.2倍、O.l倍或更少。
例如,上调或下调的基因包括与正常个体相比,在分离自特征在于具有 一种或多种结肠直肠病理的个体的血液中分别具有升高或降低的表达产物 (如mRNA或蛋白)水平的基因。在另一个例子中,上调或下调的基因包括与 分别具有不同类型的结肠直肠病理或不同结肠直肠病理集合的个体相比,在 分离自具有一种类型的结肠直肠病理或结肠直肠病理集合的个体的血液中 分别具有升高或降低的表达产物(如mRNA或蛋白)水平的基因。
例如,上调的基因包括与对照样品相比在测试样品中具有升高的生物标 志产物水平的基因。
如本文中所使用的,术语"差示杂交"指与不具有所述针对互补核酸靶的 特性的、分离和/或衍生自第二个体的核酸或其衍生物的杂交的定量水平相比,在具有针对互补核酸靶的特性的、分离和/或衍生自来自第一个体的样品 的核酸或其衍生物的杂交定量水平中存在差异。"差示杂交"意指第一样品与 第二样品的杂交水平的比率不等于l.O。例如,第一样品与第二样品与靶的杂
交水平的比率大于l.l、 1.2、 1.5、 1.7、 2、 3、 4、 10、 20或小于1,例如0.9、 0.8、 0.6、 0.4、 0.2、 0.1、 0.05。如果杂交在一种样品中是可检测的而在另一 种样品中是不可检测的,则也存在差示杂交。
如本文中所使用的,术语"药效"指药物的效果。 一般通过已用药物进行 治疗或正在用药物进行治疗的患者的临床响应来测定"药效"。如果药物达到 期望的临床结果,例如改变反映本文中所述的一种或多种结肠直肠病理的基 因表达和基因表达样式,则认为其具有高度的有效性。被吸收的药物的量可 用于预测患者的响应。 一般MJ'j是随着药物剂量的增加,患者中所见到的效 果随之增强,直至达到最大期望效果为止。如果在达到最高点之后给予更多 的药物,则副作用通常会增加。
如本文中所使用的,术语"有效量"指足以减緩或阻止一种或多种结肠直 肠病理进展和/或严重性;阻止一种或多种结肠直肠病理发生/发展、复发或 发作;或增强或改善另一治疗的预防或治疗效果的化合物的量。
如本文中所使用的,在蛋白质剂上下文中的术语"片段,,指包含另 一 多肽 或蛋白的氨基酸序列的至少5个连续的氨基酸残基,至少10个连续的氨基酸 残基,至少15个连续的氨基酸残基,至少20个连续的氨基酸残基,至少25个 连续的氣基酸残基,至少40个连续的氨基酸残基,至少50个连续的氨基酸残 基,至少60个连续的氨基酸残基,至少70个连续的氨基酸残基,至少连续的 80个氨基酸残基,至少连续的90个氨基酸残基,至少连续的100个氨基酸残 基,至少连续的125个氩基酸残基,至少150个连续的氨基酸残基,至少连续 的175个氨基酸残基,至少连续的200个氨基酸残基,或至少连续的250个氨 基酸残基的氨基^列的肽或多肽。在一个特定的实施方案中,蛋白或多肽 片段保留至少一种该蛋白或多肽的功能。在另一个实施方案中,蛋白或多肽 片段保留至少两种、三种、四种或五种该蛋白或多肽的功能。在某些实施方 案中,抗体片段保留与抗原免疫特异性结合的能力。
如本文中所使用的,术语"融合蛋白"指包含第一蛋白或多肽或其功能性 片段、类似物或衍生物的氨基酸序列和异源蛋白、多肽或肽(即不同于第一 蛋白或其片段、类似物或衍生物的第二蛋白或多肽或其片段、类似物或衍生
物)的氨基酸序列的多肽。在一个实施方案中,融合蛋白包含被融合至异源 蛋白、多肽或肽的预防剂或治疗剂。才艮据该实施方案,异源蛋白、多肽或肽 可以是或可以不是不同类型的预防剂或治疗剂。
如本文中所使用的,本发明的"基因,,可包括在血液中表达的基因、在血 液和非血液组织中表达的基因、在血液中差异表达的基因、在非血液细胞中 表达的基因、在非造血起源的细胞中表达的基因、在血液中存在的特定亚型 细胞包括淋巴细胞、粒细胞、白细胞、嗜碱细胞中表达的基因等。基因可以 是免疫应答基因或与免疫应答无关的基因。具体来说,免疫应答基因是在控 制细胞应答外来抗原的主要组织相容性复合体中的基因。本发明的基因还可 包括应答于导入外周血的外来抗原而被差异调节的基因。
如本文中所使用的,"基因表达样式"或"基因表达i普"指包括2、 3、 4、 5、 6、 7、 8、 9、 10、 11、 12、 13、 14、 15、 16、 17、 18种或更多种或所有的本 发明生物标志在内的两种或更多种本发明生物标志的表达水平的样式。可由 使用任何已知技术的本发明生物标志产物表达水平的测量结果来确定基因 表达样式或基因表达谱。例如,用于测量本发明生物标志RNA产物的表达的 技术包括基于PCR的方法(包括逆转录-PCR、 PCR、 QRT-PCR)和不基于PCR 的方法以及微阵列分析。用于测量本发明生物标志蛋白产物水平的技术包括 密度测定western印迹和ELISA分析。
如本文中所使用的,术语"与......杂交"或"杂交"指序列与互补核酸特异
性非共价结合相互作用,例如在耙核酸序列与阵列上核酸成员之间的相互作 用。
如本文中所使用的,术语"免疫球蛋白"指由一条或多条实质上为免疫球 蛋白基因所编码的多肽组成的蛋白。公认的人免疫球蛋白基因包括k、 X、 a(IgAl和IgA2)、 y(IgGl、 IgG2、 IgG3、 IgG4)、 S、 e和(i恒定区基因,以及无 数的免疫球蛋白可变区基因。全长免疫球蛋白"轻链"(约25Kd或214个氨基酸) 为位于NH2-末端的可变区基因(约110个氨基酸)和位于COOH-末端的k或人恒 定区基因所编码。全长免疫球蛋白"重链"(约50 Kd或446个氨基酸)同样地为 可变区基因(约116个氨基酸)和其他上述恒定区基因之一如Y基因(编码约330 个氨基酸)所编码。
如本文中所使用的,当涉及治疗性处理时,术语"联合"指使用多于一种 类型的治疗(如多于一种的预防剂和/或治疗剂)。术语"联合"的使用并不限制其中施用于受试者的治疗(如预防剂和/或治疗剂)的顺序。第 一治疗(如第 一预
防剂或治疗剂)可在施用第二治疗(如第二预防剂或治疗剂)之前(如5分钟、15 分钟、30分钟、45分钟、l小时、2小时、4小时、6小时、12小时、24小时、 48小时、72小时、96小时、l周、2周、3周、4周、5周、6周、8周或12周前)、 同时、或之后(如5分钟、15分钟、30分钟、45分钟、l小时、2小时、4小时、 6小时、12小时、24小时、48小时、72小时、96小时、l周、2周、3周、4周、 5周、6周、8周或12周后)施用于受试者。
如本文中所使用的,"一种或多种结肠直肠病理的指示"指受试者具有或 会具有一种或多种结肠直肠病理概率的判定。在一个方面中,将公式应用于 相应于测试受试者的生物标志产物的数据可产生与不具有一种或多种结肠 直肠病理相比测试受试者是否具有所述一种或多种结肠直肠病理概率的判 定。在另一个实施方案中,如果与不具有所述结肠直肠病理的患者相比,发 现在具有所述结肠直肠病理的患者中表达样式明显地更常见,则该表达样式 可以是包括一种或多种息肉或一种或多种息肉亚型在内的一种或多种结肠 直肠病理的指示(当使用常规统计方法测定时,将置信水平定为最小值为 70%、 75%、 80%、 85%、 90%、 95%等等)。在某些实施方案中,指示疾病 的表达样式存在于至少70%、至少75%、至少80%、至少85%、至少90%、至 少95%或更多的具有该疾病的患者中以及存在于小于10%、小于8%、小于 5%、小于2.5%或小于1%的不具有该疾病的患者中。使用本领域技术人员应 当理解的用于分类预测的统计算法,并参见例如商品化的程序如Silicon Genetics提供的那些程序(如GeneSpringTM),"结肠直肠病理的指示,,还可指示 与不具有一种或多种结肠直肠病理的个体的对照表达样式相比,与具有一种 或多种结肠直肠病理的个体的对照表达样式分类在一起更为适当的表达样 式。
如本文中所使用的,"分离的"或"纯化的"当涉及核酸使用时,意指天然 存在的序列已与其正常的细胞(如染色体)环境远离,或在非天然环境中被合 成(如人工合成)。因此,"分离的,,或"纯化的,,序列可存在于无细胞的溶液中 或放置于不同的细胞环境中。术语"纯化的"并不意味着序列只以核苷酸存
同于分离;染色体。
'。°— 、、 .、、 、
如本文中所使用的,在蛋白质剂(如肽、多肽、蛋白或抗体)上下文中的
术语"分离的"和"纯化的"指基本上不含有细胞物质的蛋白质剂,以及在某些 实施方案中,指基本上不含有来自衍生它的细胞或组织来源的异源蛋白质剂 (即污染蛋白)的蛋白质剂,或指当化学合成时基本上不含有化学前体或其他 化学药品的蛋白质剂。术语"基本上不含有细胞物质"包括其中蛋白质剂与分 离或重組产生该蛋白质剂的细胞的细胞组分分离的蛋白质剂的制剂。因此,
基本上不含有细胞物质的蛋白质剂包括具有小于约40%、 30%、 20%、 10% 或5%(按干重计算)的异源蛋白质剂(如蛋白、多肽、肽或抗体;也称为"污染 蛋白,,)的蛋白质剂的制剂。当重组产生蛋白质剂时,还在某些实施方案中, 基本上不含有培养基,即培养基占小于约20%、 10%或5%的蛋白制剂的体积。 当蛋白质剂通过化学合成产生时,在某些实施方案中,基本上不含有化学前 体或其他化学药品,即与涉及蛋白质剂合成的化学前体或其他化学药品相分 离。因此,除目的蛋白质剂之夕卜,上述蛋白质剂的制剂具有小于约30%、 20%、 10%、 5%(按干重计算)的化学前体或化合物。在某些实施方案中,在此披露 的蛋白质剂是分离的。
如本文中所使用的,"分离的和/或衍生的"样品包括已与其在受试者中的 天然环境所远离的样品,还包括进一步修饰或改变的样品。例如,样品可包 括组织、淋巴、体液、血液、RNA、蛋白、mRNA、血清减少的血液、红细 胞减少的血液、血清减少且红细胞减少的血液、溶解的血液的未分级细胞、 珠蛋白减少的mRNA、 cDNA、 PCR产物等等。
如本文中所使用的,当涉及RNA时,术语"水平,,或"表达水平"指通过杂 交或诸如QRT-PCR的测量方法所测定的给定核酸的可测量的数量(绝对的或 相对的数量),并包括使用SYBR⑧green和TaqMan⑧两种技术,其以正比例 相应于样品中基因产物的量。当涉及RNA时,表达水平还可指通过PCR所测 定的给定核酸的可测量的数量,其中PCR循环数限制在IO、 15、 20、 25、 30、 35、 40、 45、 50、 55或60个循环。当涉及RNA时,表达水平还可指相对于 QRT-PCR中所使用的总RNA或cDNA的量,所测定的给定核酸的可测量的数 量,其中所使用的总RNA的量为100ng; 50ng; 25ng; 10ng; 5ng; 1.25ng; 0.05ng; 0.3ng; O.lng; 0.09 ng; 0.08ng; 0.07ng; 0.06ng或0.05ng。可4吏用本 领域所知的任何方法测定核酸的表达水平。为了进行微阵列分析,根据本领 域众所周知的方法,使用相应于分离自一个或多个个体的RNA的核酸通过杂 交分析测定表达水平。标记可掺入RNA中或以应当理解这样操作就可监测杂 交的另一种方式使用。所使用的标记可以是发光标记、酶标记、放射性标记、 化学标记或物理标记。在某些实施方案中,靶和/或探针核酸标记有荧光分子。
优选的荧光标记包括但不限于荧光素、氨基香豆素乙酸、四曱基若丹明异 硫氰酸盐(TRITC)、得克萨斯红、花菁3 (Cy3)和花菁5 (Cy5)。当涉及RNA时, 表达水平还可指相对于在微阵列杂交中所使用的总RNA或cDNA的量,所测 定的给定核酸的可测量的数量,其中总RNA的量为10吗;5吗;2.5|ig; 2吗; ljig; 0.5吗;O.l[ig; 0.05吗;O.Ol(ig; 0.005吗;O.OOl吗等等。
如本文中所使用的,"配体"是一种与另一种分子结合的分子。"多核苷
交,使得该生物标志产物水平得以测定。多核苷酸配体可以是各种分子中的 任何一种,包括但不限于寡核苷酸、cDNA、 DNA、 RNA、 PCR产物、合成 的DNA、合成的RNA和/或修饰的核苷酸各种组合中的任何一种。
体",从而例如容许检测或测定包括RNA产物和/或蛋白产物在内的生物标志 产物水平。多肽配体可包括支架肽(scaffoldpeptide)、线性肽或环肽。在一个 优选的实施方案中,多肽配体是抗体。抗体可以是人抗体、嵌合抗体、重组 抗体、人源化抗体、单克隆抗体或多克隆抗体。抗体可以是完整的免疫球蛋 白,如IgA、 IgG、 IgE、 IgD、 IgM或其亚型。抗体可偶联至功能性部分(如 具有生物学或化学功能的化合物(其可以是另 一种不同的多肽、治疗药物、 细胞毒剂、可检测的部分、或载体。本发明的多肽配体如抗体以高亲和力和 特异性与一种生物标志基因编码的多肽相互作用。例如,多肽配体以至少107
M",优选至少1()SM—、 1(^M"或10^M"的亲和常数与一种生物标志基因编 码的多肽结合。根据本领域标准知识,多核苷酸配体和蛋白配体可用于实施 技术如Westem印迹、免疫沉淀、酶联免疫吸附测定(ELISA)、蛋白微阵列分 析等等,以测定所披露的生物标志蛋白产物的水平。
"mRNA"意指与基因互补的RNA; mRNA包括蛋白编码区,还可包括5, 末端和3'非翻译区(UTR)。
如本文中所使用的,术语"大多数"指代表多于50%(如51%、 60%、或70%、 或80%或90°/0或直至100%)的组合物总成员的数目。当涉及阵列时,术语"大 多数"意指多于50°/。(如51%、 60%、或70%、或80%或90%或直至100%)的与
阵列的固体基质稳定结合的总核酸成员。
在本文中, 一种或多种结肠直肠病理或一种或多种结肠直肠病理亚型的 治疗定义为提供医学帮助以抵抗疾病自身、疾病的症状和/或进展。治疗还包 括消除一种或多种结肠直肠病理并包括姑息性治疗以帮助緩解症状并改善 生活质量。治疗还包括减少或阻止息肉形成、减少或阻止息肉分化或形态学 改变,以及还可包括发生/发展、复发和发作。
如本文中所使用的,"mRNA完整性"指提取自组织样品或样品的mRNA 的质量。在一个实施方案中,当使用本领域众所周知的方法例如RNA琼脂糖 ;疑月交电;永(长口Ausubel等,John Wiley & Sons, Inc., 1997, Current Protocols in Molecular Biology)检查时,具有良好完整性的mRNA提取物不出现降解。优 选地,mRNA样品具有良好的完整性(如小于10。/。,在某些实施方案中,小于 5%,以及更在某些实施方案中,小于P/。的mRNA被降解)以真实地代表提取 它的样品的基因表达水平。
如本文中所使用的,"核酸"和"核酸分子"与术语"多核苦酸"是可互换的, 其通常指任何多聚核糖核苷酸或多聚脱氧核糖核苷酸,其可以是未修饰的 RNA或DNA,或修饰的RNA或DNA或它们的任何组合。"核酸"包括但不限 于单链和双链核酸。如本文中所使用的,术语"核酸"还包括含有一种或多种 修饰的碱基的上述DNA或RNA。因此,具有由于稳定性或其他理由而被修饰 的主链的DNA或RNA是"核酸"。术语"核酸"当其在本文中使用时包括上述核 酸的化学、酶学或代谢修饰形式,以及病毒和细胞包括例如简单和复杂细胞 特有的DNA和RNA化学形式。根据本发明的某些实施方案,"核酸"或"核酸 序列"还可包括单链或双链RNA或DNA的区域或任何它们的组合,并可包括 表达序列标签(EST)。 EST是通过逆转录mRNA区以便制成cDNA而制得的基 因表达序列的 一部分(即序列的"标签")。
如本文中所定义的,"核酸阵列"指定位在支持物上的多个核酸(或"核酸 成员"),其中每个核酸成员定位在支持物独一无二的预先选定的区域上。在 一个实施方案中,核酸成员附于支持物表面上,并且该核酸成员为DNA。在 另一个实施方案中,核酸成员为cDNA或寡核苷酸。在另一个实施方案中, 定位在支持物上的核酸成员为通过聚合酶链式反应(PCR)合成的cDNA。术语 "核酸,,如本文中所使用的与术语"多核苷酸"是可互换的。在另 一个优选的实 施方案中,"核酸阵列"指附于Southern印迹和/或Northem印迹技术中所使用的硝酸纤维素膜或其他膜上的多个独一无二的核酸。
如本文中所使用的,"用于与阵列杂交的核酸样品,,定义为通过包括互补 碱基配对相互作用在内的多组非共价键合相互作用从而能与结合在互补序 列阵列上的核酸结合的分离和/或衍生自样品的核酸。用于与阵列杂交的核酸
样品可以是相应于分离自样品的基因或其部分、总RNA或mRNA的分离的核 酸序列。在一个实施方案中,用于与阵列杂交的核酸样品是血液核酸样品(包 括全血、溶解的血液、血清减少的、红细胞减少的血液或外周血白细胞 (PBL))。在某些实施方案中,核酸样品是来自人血的单链或双链DNA、 RNA 或DNA-RNA杂化物,以及在某些实施方案中,来自RNA或mRNA提取物。
如本文中所使用的,"阵列上的核酸成员"或"核酸成员,,包括固定在阵列 上以及能通过多组包括互补碱基配对相互作用在内的非共价键合相互作用 结合互补序列的核酸探针或样品的核酸。如本文中所使用的,核酸成员或耙 可包括天然的碱基(即A、 G、 C或T)或修饰的碱基(7-脱氮鸟苷、肌苷等)。此 外,核酸中碱基可通过除磷酸二酯键之外的键合连接,只要其不干扰杂交(即 在标准的严格或选择性杂交条件下,核酸靶仍与其互补序列特异性结合)。 因此,核酸成员可以是其中组成碱基通过肽键而非磷酸二酯键连接的肽核 酸。在一个实施方案中,结合在阵列上的'靶,序列的常规核酸阵列可代表完 整的人基因组,如Affymetrix芯片,并将由表l、表2或表11或表12中所列的 一种或多种基因或基因探针(如表4)组成的或包含在内的生物标志或分离的 生物标志施加到该常规阵列上。在另一个实施方案中,结合在阵列上的序列 可以是根据本发明的生物标志或分离的生物标志,并将总的细胞RNA施加到 该阵列上。
如本文中所使用的,术语"寡核普酸"定义为由两个或更多个、优选多于 3个的脱氧核糖核苷酸和/或核糖核苷酸构成的一种分子。其确切大小取决于 许多因素,而这些因素又取决于寡核苷酸的最终功能和用途。寡核苷酸可以 是约8-约l,000个核苷酸长的。尽管8-100个核苷酸的寡核苷酸在本发明中是 有用的,优选的寡核苷酸的范围是长度为约8-约15个碱基、长度为约8-约20 个碱基、长度为约8-约25个碱基、长度为约8-约30个碱基、长度为约8-约40 个碱基、或长度为约8-约50个碱基。
如本文中所使用的,"患者,,或"个体"或"受试者"指哺乳动物,以及在某 些实施方案中,指人。 如本文中所使用的,术语"肽"指长度为50个氨基酸或更短的多肽。
如本文中所使用的,短语"药学上可接受的盐类,,包括但不限于可存在于 使用本发明的方法所鉴定的化合物中的酸性或碱性基团的盐类。自然界中碱 性的化合物能与多种无机酸和有机酸形成各种各样的盐类。可用于制备上述 碱性化合物的药学上可接受的酸式加成盐的酸是形成无毒酸式加成盐的那 些酸,所述无毒酸式加成盐即含有药学上可接受的阴离子的盐类,包括但不 限于含硫盐类、含柠檬酸根盐类、含马来酸根盐类、含乙酸根盐类、含草酸 根盐类、氢氯酸盐、氢溴酸盐、氢碘酸盐、硝酸盐、硫酸盐、硫酸氢盐、磷 酸盐、酸式磷酸盐、异烟酸盐(isonicotinate)、乙酸盐、乳酸盐、水杨酸盐、 柠檬酸盐、酸式柠檬酸盐、酒石酸盐、油酸盐、鞣酸盐、泛酸盐、酒石酸氢 盐、抗坏血酸盐、琥珀酸盐、马来酸盐、龙胆酸盐(gentisinate)、延胡索酸盐、 葡萄糖酸盐、葡萄糖醛酸盐、蔗糖盐、曱酸盐、安息香酸盐、谷氨酸盐、甲 磺酸盐、乙磺酸盐、^酸盐、对曱苯磺酸盐和朴酸盐(即1,1,-亚曱基-双-(2-羟基_3-萘曱酸盐))。除上述提及的酸之外,包括氨基部分的化合物可与多种 氨基酸形成药学上可接受的盐类。自然界中酸性的化合物能与多种药学上可 接受的阳离子形成碱盐。上述盐类的例子包括碱金属或碱土金属盐以及,具 体来说,钙、镁、钠、锂、锌、钾和铁盐。
如本文中所使用的,"多核苷酸"涵盖长度大于8个核苷酸的单链和双链 多核苷酸,如双链DNA、单链DNA、双链RNA、单链RNA或DNA-RNA双链 杂化物等等。术语"多核苷酸,,包括包含嘌呤和嘧咬碱基或其他天然的、化学 或生物化学修饰的、非天然的、或衍生化的核苷酸^成基的,可以是核糖核苷 酸或脱氧核糖核苷酸的任何长度的核苷酸的聚合物形式。多核苷酸的主链可 包含糖和磷酸基团,如通常可存在于RNA或DNA中的糖和磷酸基团,或修饰 的或取代的糖或磷酸基团。多核苷酸可包含修饰的核苷酸,如曱基化的核苷 酸和核苷酸类似物。核苷酸序列可为非核苷酸成分所间断。
如本文中所使用的,披露了 "与生物标志的RNA产物("生物标志RNA产 物")和/或与相应于生物标志RNA产物的多核芬酸特异性和/或选择性杂交的 多核芬酸配体",容许RNA产物水平得到测量。
多核苷酸配体可以是各种分子中的任何一种,包括但不限于寡核苷酸、 cDNA、 DNA、 RNA、 PCR产物、合成的DNA、合成的RNA和/或修饰的核 苦酸各种组合中的任何一种。
如本文中所使用的,术语"蛋白质剂,,指多肽、蛋白、肽等等。
如本文中所使用的,"为......所编码的多肽序列或......的蛋白产物,,指转
录自基因的mRNA的蛋白编码区翻译后获得的氨基,列。应当理解的是, 可利用公用数据库如见于http:〃www.ncbi.nlm.nih.gov的NCBI数据库鉴定本 发明每种基因(生物标志)的一种或多种mRNA核苷酸序列。例如,那些表2 和表12中所鉴定的生物标志的代表性mRNA种类以它们的人Genbank编号 (分别参见表3和表13)提供,并通过蛋白质编号鉴定了相应的多肽序列(分别 参见表3和表13)。这些Genbank编号提供了生物标志产物的序列。当蛋白或 蛋白片段用于免疫接种宿主动物时,蛋白的许多区域可诱导产生特异性结合 该蛋白上所给定区域或三维结构的抗体;这些区域或结构称为表位或抗原决 定簇。如本文中所使用的。"抗原性片段"指多肽的包含一个或多个表位的一 部分。表位可以是包含来自抗原的基本上线性序列的线性表位,或包含在遗 传上被其他序列分离但在多肽配体结合位点处在结构上聚到一起的序列的 构象表位。"抗原性片段,,的长度可以是5000、 1000、 500、 400、 300、 200、 100、 50或25或20或10或5个氨基酸。
如本文中所使用的,术语"预防"、"防止"和"阻止"指由施用根据本发明 的方法所鉴定的一种或多种化合物或施用上述化合物和另 一种治疗的组合 所引起的阻止包括息肉或息肉亚型在内的结肠直肠病理的发生/发展、复发或 形成或扩展或转化。
如本文中所使用的,术语"引物"指当置于其中与核酸链互补的引物延伸 产物合成被诱导的条件下(即在核苷酸和诱导剂如DNA聚合酶存在下以及在 适合的温度和pH下)时能作为合成起点的,在纯化的限制性消化产物中以天 然形式存在的或合成产生的寡核苷酸。引物可以是单链或双链引物,并应当 足够长以便在诱导剂存在下引发期望的延伸产物的合成。引物的确切长度将 取决于许多因素,包括温度、引物来源和所使用的方法以及期望引发的特异 性或选择性(即以便作为特异性或选择性针对多核苷酸给定序列的合成起 点)。例如,对于检测应用而言,取决于靶序列的复杂性,寡核普酸引物通 常含有15-25个核芬酸,但可含有额外的核苷酸以及更少的核苷酸。此外, 在某些情况下可选择引物使之具有高GC含量,可选择引物使之结合不含有 SNP的区域,可选择引物使之跨越RNA的内含子/夕卜显子连接点等等。其他涉
如本文中所使用的,术语"生物标志特异性引物组"或"引物组,,指一组多 核苷酸引物,其中一条引物引发有义链的合成,而另一条引物则引发反义链
的合成,以致产生与一种或多种本发明生物标志的RNA产物的一部分互补的 双链DNA。例如,引物可包括第一引物,其是一条能与互补于本发明生物标 志的一个区域的RNA、 cDNA或EST选择性杂交以产生延伸产物的序列,以 及能与该延伸产物选择性杂交的第二引物,其用于产生与本发明生物标志或 本发明生物标志产物的一个区域互补的双链DNA。本发明包括可用于测定生 物标志的RNA产物水平的引物。表4、表6、表14、表16和表17提供了代表性 的本发明引物种类。可选择生物标志特异性引物组,使得它们只会选择性扩 增与一种生物标志的一种或多种RNA产物互补的多核普酸的一部分,并且不 会扩增与其他生物标志互补的多核苷酸的一部分。
如本文中所使用的,术语"探针"意指寡核苷酸及其类似物,并指通过与 靶序列的核苷酸碱基之间的氢键相互作用从而识别多核苷酸靶序列的一类 化学物质。探针或靶序列可以是单链或双链RNA、或单链或双链DNA、或 DNA和RNA碱基的组合。探针的长度为至少8个核苷酸,并且小于完整基因 的长度。探针的长度可以是IO、 20、 30、 50、 75、 100、 150、 200、 250、 400、 500以及直到2000个核苷酸,只要其小于靶基因的全长即可。在某些实施方 案中,探针可用作为结合在微阵列上的輩巴序列。在某些实施方案中,探针可 用于定量实时PCR(QRT-PCR)并包括修饰以致掺入荧光团、淬灭剂、小沟结 合试剂或其他在PCR扩增过程中容许检测探针的物质。还可对探针进行修饰 使之既具有可检测的标签还具有淬灭剂分子,例如Taqman⑧和Molecular Beacon⑧探针。本发明包括可用于测定本发明生物标志的RNA产物表达的探 针。例如,表4、表6、和表14和表17提供了可用于QRT-PCR的本发明探针的 某些代表性种类。
寡核香酸及其类似物可以是通常称为反义寡聚体或反义寡核苷酸的 RNA或DNA,或RNA或DNA的类似物。上述RNA或DNA类似物包括但不限 于2-'0-烷基糖修饰、膦酸甲酯、硫代磷酸酯(phosphorothiate)、 二硫代磷酸酯、 曱酰缩醛(formacetal)、 3'-硫代曱酰缩醛、砜、氨基磺酸酯和硝基氧主链修饰, 以及其中碱基部分已被修饰的类似物。此外,寡聚体的类似物可以是其中糖 部分已被修饰或为另 一适合的部分所取代的聚合物,所产生的聚合物包括但 不限于吗啉代类似物和肽核酸(PNA)类似物(Egholm等Peptide Nucleic Acids
(PNA)--Oligonucleotide Analogues with an Achiral Peptide Backbone, (1992))。
探针还可以是任何寡核苷酸类似物组合在 一起或与天然DNA或RNA组 合在一起的混合物,并且还可包括接头物质。同时,寡核苷酸及其类似物可 单独使用或与一种或多种额外的寡核苷酸或其类似物组合使用。
如本文中所使用的,术语"生物标志的产物"或"生物标志产物"指分离和/ 或衍生自样品的RNA或蛋白物质(其中RNA或蛋白物质可包括多拷贝),所述 样品包括组织样品、淋巴样品、淋巴组织样品或血液样品,或相应于生物标 志(即转录自基因或遗传元件或翻译自转录自基因或遗传元件的RNA)的血液 样品的级分。参见表3和表13。 RNA可以是前-mRNA、 mRNA、 mRNA的剪 接变体等等。蛋白可以其天然状态或以多种方法中的任一种在翻译后进行加 工的状态存在。
如本文中所使用的,"多种"或"一组"指两种或更多种,例如2种或更多种、 3种或更多种、4种或更多种、5种或更多种、6种或更多种、7种或更多种、8 种或更多种、9种或更多种、IO种或更多种等。
如本文中所使用的,"预先选定的区域"、"预先确定的区域"或"独一无二 的位置"指基质上的定位的区域,其被规定为用于沉积核酸,并在本文中另 指"选定区域"或简称为"区域"。预先选定的区域可具有任何适宜的形状,如 圓形、矩形、椭圆形、楔形等。在某些实施方案中,预先选定的区域小于约 lcm2,更优选小于lmm2,还更优选小于0.5 mm2,以及在某些实施方案中, 小于0.1mm2。在"预先选定的区域"、"预先确定的区域"或"独一无二的位置"
处的位置而得到确定的一种核酸成员。
如本文中所使用的,术语"预防剂"指任何能用于阻止息肉形成、发生/ 发展、复发或发作的化合物。在某些实施方案中,术语"预防剂"指在本文所 述的筛选测试中鉴定的化合物。在某些其他实施方案中,术语"预防剂"指除 在本文所述的筛选测试中鉴定的化合物之外,已知可用于或已用于或目前正 用于预防或阻止包括一种或多种息肉或息肉亚型在内的一种或多种结肠直 肠病理发作、发生/发展和/或进展或转化的试剂。
如本文中所使用的,短语"预防有效量"指足以导致阻止包括一种或多种 息肉或息肉亚型在内的一种或多种结肠直肠病理发生/发展、复发或发作或进 展或转化;緩解或改善包括一种或多种息肉或息肉亚型在内的一种或多种结
肠直肠病理进展和/或严重性;或阻止包括息肉或息肉亚型在内的结肠直肠病 理进展为结肠直肠癌的治疗(如预防剂)的量。
如本文中所使用的,术语"蛋白,,和"多肽"可互换地用于指通过肽键连接 在一起的氨基酸链。在一个特定的实施方案中,蛋白由小于200、小于175、 小于150、小于125、小于IOO、小于50、小于45、小于40、小于35、小于30、 小于25、小于20、小于15、小于10或小于5个通过肽键连接在一起的氨基酸 构成。在另一个实施方案中,蛋白由至少200、至少250、至少300、至少350、 至少400、至少450、至少500或更多个通过肽键连接在一起的氨基酸构成。
"蛋白编码区"指编码多肽的mRNA部分。
如本文中所使用的,"参照人群,,或"测试人群"指用于开发一种或多种分 类器的"对照样品"的一个或多个人群。在一个实施方案中,单个参照人群可 被分为亚群。在另一个实施方案中,可使用两个或更多个参照人群。在某些 情况下,可开发分类器以区分具有一种或多种结肠直肠病理或一种或多种息 肉或一种或多种息肉亚型的个体和不具有上述结肠直肠病理或一种或多种 息肉或一种或多种息肉亚型的个体。在某些情况下,第一参照人群由具有一 种或多种结肠直肠病理的个体构成,以及第二参照人群由不具有该一种或多 种结肠直肠病理的个体构成。如使用常规诊断技术所确定的,"参照人群"或 "测试人群,,可由来自诊断具有包括一种或多种息肉或一种或多种息肉亚型 在内的一种或多种结肠直肠病理的许多个体或不具有结肠直肠病理或不具 有一种或多种息肉或不具有一种或多种息肉亚型的许多个体的对照样品构 成。注意到在某些实施方案中,具有一种或多种结肠直肠病理的个体的人群 可被选择成包括具有单一息肉亚型或一种或多种息肉亚型的个体。在其他实 施方案中,不具有一种或多种结肠病理的个体可包括已诊断具有其他疾病的 个体。在另一个实施方案中,不具有一种或多种结肠病理的个体可包括已诊 断具有其他癌症的个体。在一个实施方案中,"参照人群"或"测试人群"由大
致相等数量的来自每一性状(trait)亚组的"对照样品"构成(如在这种情况下, 所述性状为关于结肠直肠病理存在的状态的判定)。在另一个实施方案中,"参 照人群,,的每一性状亚组(如具有或不具有结肠直肠病理)关于其他性状如年 龄、性别、药物状态等具有类似的分布。
如本文中所使用的,在本发明所包含的蛋白上下文中的术语"选择性结 合,,指任何两种肽、蛋白、多肽和抗体的特异性相互作用,其中与任何其他页
的肽、蛋白、多肽和抗体相比,该相互作用优先发生在该任何两种肽、蛋白、 多肽和抗体之间。例如,当两种分子为蛋白分子时,第一分子上的结构识别 并结合第二分子而非其他蛋白上的结构。"选择性结合"作为在本文中使用的 术语意指与其结合非特异性分子相比,分子与其特异性结合配偶物的结合具
有至少2倍更高的亲和力,以及优选至少10倍、20倍、50倍、100倍或更高的
亲和力。
如本文中所使用的,"选择性杂交"可指在多核苷酸和本发明生物标志的 RNA或蛋白产物之间发生的杂交,其中这样的杂交使得相对于所研究基因组 中其他基因的RNA产物,该多核普酸优先与本发明生物标志的RNA产物结 合。在一个优选的实施方案中,"选择性杂交"的多核苷酸是杂交的选择性大 于70%、大于80%、大于90。/。以及最优选100。/。(即与其他RNA种类发生的交叉 杂交优选少于30%、少于20%、少于10%)的多核苷酸。本领域技术人员应当 理解,与本发明生物标志的RNA产物"选择性杂交"的多核普酸可以在考虑 到长度和组成后做出决定。
如本文中所使用的,"特异性杂交"可指当两种核酸序列基本上互补(在至 少14-25个核苷酸的一段长度上至少约65%互补、优选至少约75%互补、更优 选至少约90。/。互补)时发生的杂交。参见Kanehisa, M., 1984, Nucleic acids Res., 12:203,在此并入作为参考。因而,预计能容忍一定程度的错配。上述错配 可以是小的错配,例如单个、两个或三个核苦酸的错配。可选地,错配区可
域。多种因素影响了两种核酸的杂交(如阵列上核酸成员与靶核酸序列的杂 交)效率和选择性。这些因素包括核酸成员长度、核苷酸序列和/或组成、杂 交温度、緩冲液组成以及核酸成员需要杂交的区域中的位阻势(potential)。在 核酸长度和核酸退火至靶序列所具有的效率及准确度之间存在着正相关。特
别是,与较短的序列相比,更长的序列具有更高的解链温度(TM),并较不可 能在给定的靶序列范围内是重复的,由此使非特异性杂交降至最小。杂交温 度与核酸成员的退火效率逆向改变。同样地,杂交混合物中有机溶剂如曱酰 胺的浓度与退火效率逆向改变,与此同时杂交混合物中盐浓度的增加则有利 于退火。在严格的退火条件下,与在更宽容的条件下就足够的较短的核酸相 比,更长的核酸杂交效率更高。
如本文中所使用的,"点样"或"附于"指一种将核酸成员沉积在固体基质
上以形成核酸阵列使得核酸经由共价键、氬^r建或离子相互作用稳定地结合固 体基质的过程。
如本文中所使用的,"稳定地结合"指核酸通过共价键、氢键或离子相互 作用稳定地结合到固体基质上以形成阵列,使得在分析阵列的通常条件下 (即在进行杂交、洗涤和/或扫描等的一个或多个步骤期间),相对于所有其他 与阵列稳定结合的核酸或所有其他固体基质上的预先选定的区域,该核酸保 留在其独一无二的预先选定的位置上。
如本文中所使用的,当涉及阵列时,"基质"或"支持物"指一种能支持或
定位寡核苷酸或cDNA成员的材料。支持物可以是作为颗粒、线、沉淀物、 凝胶、片、管、球、珠子、容器、毛细管、垫、薄片、薄膜、板材、栽玻片、 芯片等存在的生物学支持物、非生物学支持物、有机支持物、无机支持物或 这些的任何组合。通常,基质为硅或玻璃表面、(聚)四氟乙烯、(聚)偏二氟 乙烯、聚苯乙烯、聚碳酸酯、荷电膜如尼龙66或硝酸纤维素,或它们的组合。 在一个实施方案中,支持物为玻璃。在某些实施方案中,基质的至少一个表 面基本上是平的。在某些实施方案中,支持物可含有反应性基团,包括但不 限于羧基、氨基、羟基、硫醇等等。在一个实施方案中,支持物是光学透明 的。
如本文中所使用的,术语"标准的严格条件"指只有当在序列之间存在至 少95%以及优选至少97%的同 一性时才发生杂交的条件,其中同 一性区域包 含至少IO个核苷酸。在一个实施方案中,序列在下列严格条件下杂交在42。C 序列温育过夜并接着严格洗涤(0.2XSSC,在65。C)。洗涤的严格程度可随着 温度、pH、离子强度、二价阳离子浓度、洗涤体积和持续时间的变化而改变。
性。探针的解链温度可使用下列公式计算
对于长度在14-70个核苷酸之间的寡核苷酸探针,可使用公式 Tm=81.5+16.6(log [Na+]) + 0.41(G+C分数)-(600/N)计算以摄氏度表示的解链 温度(Tm),在此N为寡核苷酸的长度。
例如,在具有大约lM的Na+浓度杂交緩沖液中,杂交温度可从68。C到 42。C以5。C增量降低。在杂交后,可在杂交温度用2XSSC、 0.5% SDS洗涤滤 膜。在50。C以上,这些条件被认为是"中等严格性,,条件,在50。C以下,这些 条件则被认为是"低严格性"条件。"中等严格性"杂交条件的 一个具体例子是
当上述杂交在55。C进行时的条件。"低严格性"杂交条件的一个具体例子是当 上述杂交在45。C进行时的条件。
如在含有曱酰胺的溶液中进行杂交,则可使用方程式Tm-81.5+16.6(1og [Na+]) + 0.41(G+C分数)-(0.63。/。曱酰胺H600/N)计算解链温度,在此N为探针 的长度。
例如,杂交可在42。C的温度于诸如含有甲酰胺的6X SSC的緩冲液中进 行。在该情况下,杂交緩冲液中曱酰胺的浓度可从50%到0%以5%增量降低 以鉴定与探针具有减少的同源性水平的克隆。在杂交后,可在50。C用6X SSC、 0.5。/。SDS洗涤滤膜。在25%甲酰胺以上,这些条件被认为是"中等严格 性"条件,在25°/。曱酰胺以下,这些条件则被认为是"低严格性"条件。"中等 严格性,,杂交条件的一个具体例子是当上述杂交在30%曱酰胺进行时的条件。 "低严格性"杂交条件的 一个具体例子是当上述杂交在10%甲酰胺进行时的条 件。
如本文中所使用的,当涉及核酸序列时,术语"显著匹配"意指使用本领 域众所周知的比较方法(即Altschul, S.F.等,1997, Nucl. Acids Res" 25:3389-3402; ScMffer, A.A.等,1999, Bioinformatics 15:1000-1011),两种核 酸序列展示出至少65%的同一性,至少70%、至少75%、至少80%、至少85%, 以及优选至少90%的同一性。如本文中所使用的,"显著匹配"涵盖非邻接或 分散的同一的核苷酸,只要当使用本领域常规比对方法进行最大化比对时, 序列展示出至少65°/。,和优选至少70%、至少75%、至少80%、至少85%,以 及优选至少90%的同 一性。
如本文中所使用的,术语"协同"指利用本文所述的方法之一所鉴定的化 合物和另 一治疗(如药剂)的组合效应比上述化合物和另 一治疗的叠加效应更 有效。在某些实施方案中,上述另一治疗已经或目前用于预防、治疗或改善 包括一种或多种息肉或一种或多种息肉亚型在内的一种或多种结肠直肠病 理。对于具有包括息肉或息肉亚型在内的结肠直肠病理的个体,治疗(如预 防或治疗剂)组合的协同效应容许使用更低剂量的 一种或多种治疗和/或更少 频次地施用所述治疗。该利用更#<剂量的治疗(如预防或治疗剂)和/或更少频 次地施用所述治疗的能力减少了与给个体施用所述药剂有关的毒性,但不会 减少在预防或治疗包括息肉或息肉亚型在内的结肠直肠病理中所述治疗的 效果。此外,在预防或治疗包4舌息肉或息肉亚型在内的结肠直肠病理中协同
效应可改善治疗(如药剂)的效果。最后,治疗(如预防或治疗剂)组合的协同 效应可避免或减少与单独使用任一治疗有关的不利或不需要的副作用。
如本文中所使用的,"治疗剂"或"药剂"指增加或减少在来自具有一种或 多种包括息肉或息肉亚型在内的结肠直肠病理的个体的样品中差异表达的 多核苷酸或多肽序列表达的化合物。本发明提供了在施用于患者后l)阻止
结肠直肠病理形成,2)降低、延迟或消除结肠直肠病理进展或转化,和/或 3)将患者的一种或多种结肠直肠病理指示性核酸或多肽的一种或多种表达 谱恢复至更类似于正常个体的表达镨的"治疗剂"。此外,术语"治疗剂"指任 何能用于治疗或预防结肠直肠病理或息肉或息肉亚型的化合物。在某些实施 方案中,术语"治疗剂"指在本文所述的筛选测试中鉴定的化合物。在其他实 施方案中,术语"治疗剂"指除在本文所述的筛选测试中鉴定的化合物之外, 已知可用于或已用于或目前正用于治疗或预防结肠直肠病理或息肉或息肉 亚型的药剂。
如本文中所使用的,术语"治疗有效量"指足以治疗包括息肉或一种或多 种息肉亚型在内的一种或多种结肠直肠病理;预防包括息肉或一种或多种息 肉亚型在内的一种或多种结肠直肠病理;阻止包括息肉或一种或多种息肉亚 型在内的结肠直肠病理转化和/或进展为结肠直肠癌,^f吏结肠直肠病理、息肉 或一种或多种息肉亚型消退,或增强或改善另一种治疗(如治疗剂)的疗效的 治疗(如治疗剂)的量。在一个具体的实施方案中,治疗有效量指调节本发明 生物标志产物的基因表达的治疗(如治疗剂)的量。在某些实施方案中,相对 于对照治疗剂如磷酸盐緩冲盐水("PBS"),治疗有效量的治疗(如治疗剂)调节 至少5%,优选至少10%、至少15%、至少20%、至少25%、至少30%、至少 35%、至少40%、至少45%、至少50%、至少55°/。、至少60%、至少65%、至 少70%、至少75%、至少80%、至少85%、至少90%、至少95%或至少100%
的本发明生物标志产物的基因表达。
如本文中所使用的,术语"治疗"、"处理,,和"处置"指由施用根据本发明
的方法所鉴定的一种或多种化合物或根据本发明鉴定的化合物和另一种治 疗的组合所引起的阻止包括息肉形成或一种或多种息肉亚型形成在内的一 种或多种结肠直肠病理, 一种或多种结肠直肠病理的发生/发展、复发、发作 或转化,以及緩解或改善包括息肉或其亚型在内的一种或多种结肠直肠病理 的进展和/或严重性。
如本文中所使用的,"组织核酸样品,,指分离和/或衍生自组织例如息肉组 织、结肠组织、直肠组织、淋巴样组织等等的核酸。在某些实施方案中,组
织核酸样品是总RNA、 mRNA或是相应于RNA的核酸,例如cDNA。组织核 酸样品还可包括衍生自总RNA、 mRNA或cDNA的PCR产物。
(C)本发明中用到的样品
本发明中用到的样品包括涉及多种类型的分子、细胞和/或组织中的任何 一种,其可以分离和/或衍生自测试受试者和/或对照受试者,并且其包含一 种或多种生物标志产物。样品可以分离和/或衍生自任何液体、细胞或组织。 样品还可以分离和/或衍生自任何主要由血细胞构成的液体/或组织。
分离和/或衍生自个体的样品可以进行基因表达产物的检测,特别是在有 或者没有一种或多种结肠直肠病理的个体中差异表达的基因表达产物。在一 个实施例中,样品是液体样品、淋巴样品、淋巴组织样品或血液样品。在一 个实施例中,样品分离和/或衍生自外周血。或者,样品也可以分离和/或衍 生自其它的来源,包括多种类型的淋巴样组织中的任何一种。
分离和/或衍生自血液的样品的例子包括全血、血清减少的全血、血清消 减的血液、以及血清消减且红细胞消减的血液的样品。
除非另有陈述,来自任何个体的样品都可以用于根据本发明的方法。可 以根据本发明的方法获取并利用样品的个体的例子包括,但不限于怀疑具 有一种或多种结肠直肠病理的个体,诊断为具有一种或多种结肠直肠病理的 个体;没有诊断是否具有一种或多种结肠直肠病理的个体;已经被证实不具 有一种或多种结肠直肠病理的个体。
在一个其它的实施例中,获取样品的个体可以是一名测试受试者,该受 试者是否具有一种或多种结肠直肠病理是未知的。在另一个实施例中,获取 样品的个体可以是一名测试受试者,该受试者是否具有一种或多种结肠直肠 病理是未知的。 血液
在本发明的一个方面,血液样品是根据本领域公知的方法从个体中取得 的。血液样品可以从这样的个体中取得,例如具有一种或多种结肠直肠病理 的受试者,怀疑具有一种或多种结肠直肠病理的受试者,或者不具有一种或 多种结肠直肠病理的受试者。在一些实施例中,从个体皮肤的简易针刺中收
集一滴血液。血液可以根据本领域公知的方法,特别是本领域公知的静脉切 开放血方法,取自个体身体的任何部分(例如手指、手、腕、臂、腿、脚、 踝、腹部、颈部)。
釆集的血液量取决于采集的位点、本发明的方法所需要的量、以及个体 的舒适。然而,本发明一个实施例的一个优点是,实施本发明方法所需要的 血液量可以非常少,以至不需要更侵入性的操作来获得样品。例如,在一些 实施方案中,所需要的只是一滴血液。例如,这滴血液可以来自简单的针刺
孔。在一些实施方案中,采集的血液量足以检测表l、表2、表11和表12中的 1、 2、 3、 4、 5、 6、 7、 8、 9、 10、 11、 12、 13、 14、 15、 16、 17、 18种或 所有基因的表达。因此,在一些实施方案中,采集的血液量是lml或更少, 0.5ml或更少,O.lml或更少,或0.01ml或更少。然而,本发明不限于这样的 实施方案。在一些实施方案中,可以得到更多的血液,在另一些实施方案中, 更多的血液可用于实施本发明的方法。因而,在各种特定的实施方案中,从 受试者采集O.OOl ml, 0.005 ml, 0.01 ml, 0.05 ml, 0.1 ml, 0,15 ml, 0.2 ml, 0.25 ml, 0.5 ml, 0,75 ml, 1 ml, 1.5 ml, 2 ml, 3 ml, 4 ml, 5 ml, 10 ml, 15ml或更多的血液。在另一个实施方案中,从个体采集O.OOl ml到15ml, 0.01 ml到10ml, O.lml到lOml, 0.1ml到5ml, l到5ml的血液。在另外一个实施 方案中,从个体采集O.OOl - 100ml,优选O.Ol -50ml,进一步优选O.Ol - 25ml, 最优选O.Ol誦lml的血液。
在本发明的一些实施方案中,血液存储于K3/EDTA管(例如,购自Becton Dickinson)里。在另一个实施方案中,可以利用含有稳定剂的管来储存血液, 稳定剂例如美国专利No. 6,617,170 (该专利纳入本发明)中所公开的。在另 一个实施方案中,可以用PAXgeneTM血液RNA系统来采集血液,该系统由 PreAnalytiX, —个Qiagen/BD公司提供。在另一实施方案中,可以使用 TempusTM血液RNA收集管,它是由AppliedBiosystems公司提供的。Tempus 收集管提供一个密闭的抽空的塑料管,其中含有RNA稳定剂用于全血采集。
采集的血液在一些实施方案中立即使用,或者在1小时、2小时、3小时、 4小时、5小时或6小时内使用,或者任选在根据本发明的方法应用前先储存 于一定温度如4。C或-20。C。在一些实施方案中,血样的一部分在第一时间根 据本发明使用,而血液样品(或其级分)的一或多个剩余部分储存一段时间 以备后用。为了长期储存,可以使用本领域公知的存储方法,例如在低温下
储存(例如低于-60。C)。在一些实施方案中,除了储存的血液或替代储存的 血液之外,血浆、血清、分离的核酸或蛋白质也可以根据本领域公知的方法 储存一段时间以备后用。
一方面,全血是根据本领域公知的静脉切开放血方法从个体得到的。全 血包括能按原态使用的血液,也包括血清或血浆已经除去或减少的血液,并 且RNA或mRNA在剩余的血样中已经根据本领域公知的方法(例如,在一些 实施方案中,以300到800 xg温和地离心5到10分钟)分离出来。在一个特定 的实施方案中,从受试者获得的全血(即未分级的血液)与裂解緩冲液(例 如,裂解緩冲液(1L): 0.6gEDTA; 1.0gKHCO2, 8.2gNH4Cl,调至pH7.4(用 NaOH))混合,将样品离心并且保留细胞沉淀物,将RNA或mRNA按照本领 域公知的方法抽提出来("溶解的细胞")(例如,参见Sambrook等)。在一个实 施方案中,优选用未分级的全血更好,因为它避免了昂责且耗时的分离血液 中细胞类型的过程(Kimoto, 1998, Mol. Gen. Genet 258:233-239; ChellyJ等, 1989, Proc. Nat. Acad. Sci. USA 86:2617-2621; Chelly J等,1988, Nature 333:858-860)。
在本发明的一些实施方案中,从个体采集的全血在分离出样品中的生物 标记产物前进行分级(即分离成组分)。在一个实施方案中,血液是血清消 减的(或血清减少的)。在另一个实施方案中,血液是血浆消减的(或血浆 减少的)。在其它的实施方案中,血液是红细胞消减的或减少的。在一些实 施方案中,通过优先裂解红血球来进行红细胞的减少。在其它实施方案中, 通过裂解红血球来进行红细胞的消减或减少,并且进一步对剩余细胞进行分 级。在其它实施方案中,进行红细胞的消减或减少,但对剩余细胞不进行进 一步的分级。在其它实施方案中,利用本领域公知的其它技术将血细胞与采 集自个体的全血中分离出来。例如,采集自个体的血液可以进行 Ficoll-Hypaque (Pharmacia)梯度离心。这种离心可以从血样中分离出各种类 型的细胞。特别地,Ficoll-Hypaque梯度离心对于分离可用于本发明方法的外 周血白细胞(PBL)4艮有用处。
例举但非限制性地,巨噬细胞可如下获得。通过用注射器抽出血液,继 之以Ficoll-Hypaque梯度离心,从受试者的外周血中分离出单个核细胞。组织 培养皿以受试者自己的血清或以AB+人血清预先包被并在37。C温育一小时。 未吸附的细胞用吸管移去。将冷的(4。C)含有lmM EDTA的磷酸盐緩沖盐水加
入剩余在皿中的粘附细胞,并且将培养亚置于室温十五分钟。收集细胞,用
RPMI緩冲液洗涤,并且悬浮在RPMI緩冲液中。通过在37。C与巨噬细胞集落 刺激因子(MCSF)温育可以获得数目增加的巨噬细胞。针对巨噬细胞特异 性表面标志例如Mac-l的抗体,可通过在这种分子上偶联一种亲和性化合物 而被标记,以利于检测和分离巨噬细胞。可以应用的亲和化合物包括但不限 于生物素、光敏生物素(photobiotin)、异硫氰酸荧光素(FITC)、或藻红蛋白 (PE),或其它的本领域公知的化合物。通过本领域公知的方法将带有经标记 抗体的细胞与未结合这种抗体的细胞分离,这些方法例如但不限于各种细胞 分选方法、亲和层析、及淘选。
血细胞可利用焚光激活细胞分选仪(FACS)进行分选。焚光激活细胞 分选(FACS)是公知的基于微粒的荧光性质分离微粒,包括细胞的方法。例如, 可参见Kamarch, 1987, Methods Enzymol 151:150-165。颗粒个体的焚光部 分的激光激发产生一个小的电荷,使得混合物中带有正负电荷的微粒发生电
抗体或配体用焚光染料,例如FITC或藻红蛋白进行标记。将细胞与荧光标记 的抗体或配体一起温育,时间足以使经标记的抗体或配体与细胞结合。将细 胞通过细胞分选仪加工,使得目的细胞与其它细胞分离。FACS分选出的微 粒可以直接存放于微孔板的各个孔中以便于分离。
在本发明的一些实施方案中,也可以将》兹珠用于分离血细胞。例如,可 以利用磁激活细胞分选(MACS )技术分选细胞,它是一种基于微粒与磁珠(直 径0.5-100m)的结合能力的分离方法。对于磁性微球体可以进行多种有用的 修饰,例如共价添加一种能特异性识别细胞固相表面分子或半抗原的抗体。 然后施加磁场,以对于选出的珠子进行物理操作。在一个特定的实施方案中, 血细胞表面标志的抗体是与磁珠偶联的。然后把珠子与血细胞培养物混合使 其结合。接着使细胞通过磁场,分离出具有目的血细胞表面标志的细胞。这 些细胞能因此而被分离。
在一些实施方案中,培养皿的表面可以包#:抗体,用于通过一种称作淘 选的方法来分离血细胞。单独的皿可以包被有对于特定血细胞具有特异性的 抗体。可以首先将细胞加入到包被有目的血细胞特异性抗体的培养皿中。在 充分的漂洗后,剩余的结合在皿上的细胞就是表达目的血细胞标志的细胞。 细胞表面抗原性决定簇或标志的例子包括,但不限于T淋巴细胞和天然杀
伤细胞的CD2, T淋巴细胞的CD3,白细胞的CDlla, T淋巴细胞的CD28, B 淋巴细胞的CD19, B淋巴细胞的CD20, B淋巴细胞的CD21, B淋巴细胞的 CD22, B淋巴细胞的CD23,白细胞的CD29,单核细胞的CD14,血小板的 CD41,血小板的CD61,粒细胞的CD66,粒细胞的CD67,单核细胞和巨噬 细胞的CD68。
全血可以被分离为各种细胞类型,例如白细胞、血小板、红细胞等,并 且这些细胞类型可用于本发明的方法。白细胞可以利用标准技术进一步分为 粒细胞和无粒细胞,并且这些细胞可以用于本发明的方法。粒细胞可以利用 标准技术进一步分为各种细胞类型,例如嗜中性(粒)细胞、嗜酸性(粒) 细胞、和嗜碱性(粒)细胞,并且这些细胞可以用于本发明的方法。无粒细 胞可以利用标准技术分为淋巴细胞(例如,T淋巴细胞和B淋巴细胞)和单核 细胞,并且这些细胞可以用于本发明的方法。可以利用标准技术将T淋巴细 胞与B淋巴细胞分开,辅助性T细胞与细胞毒性T细胞分开,并且这些细胞可 以用于本发明的方法。分离的血细胞(例如白细胞)可以在用于本发明的方 法之前利用标准技术冷冻。
(D) RNA的制备
在本发明的一方面,为了测定本发明的生物标志的RNA产物而从个体中 分离出RNA。从来自被诊断为具有一种或多种结肠直肠病理,包括一种或多 种息肉或一种或多种息肉亚类的个体,不具有一种或多种结肠直肠病理,不 具有一种或多种息肉或不具有息肉亚型的个体,或者测试受试者的样品中分 离出RNA。
在一些实施方案中,RNA是从通过以下流程消减了红细胞的血液中分离 出来的。向血样中加入裂解緩冲液,比例为3份裂解緩沖液比1份血液(裂解 緩沖液(1L)0.6gEDTA, 1.0gKHCO2,8.2gNH4Cl,调节至pH7.4(用NaOH))。 将样品混合并置于冰上5-10分钟直到透明。将裂解的样品以1000rpm在4。C离 心10分钟,将上清吸出。将沉淀再悬浮于5ml裂解緩冲液中,并再次以1000rpm 在4。C离心10分钟。沉淀的细胞用TRIzo1⑧(GIBCO/BRL)以每10ml原始血样 加大约6ml的TRIzol⑧的比例匀浆并漩涡震荡混匀。将样品置于室温5分钟。 每l mlTRIzol⑧用1.2ml氯仿抽提RNA。样品在4。C以12, 000 xg离心5分钟 并收集上层。向上层中加入异丙醇,比例是每l ml TRIzol⑧加入0.5 ml异丙醇。
样品置于-20。C过夜,或者在-20。C放置一小时。根据已知方法将RNA沉淀, 将RNA沉淀风干,并将沉淀重悬于DEPC处理的ddH20中。RNA样品也可保 存在75%乙醇中,其中样品在室温运输是稳定的。
在其它方面,RNA也可通过如下方法制备先将血液收集到PAXgeneTM 收集管中,再利用PreAnalytiX, —个Qiagen/BD公司提供的PAXgeneTM血液 RNA分离系统分离RNA。在另一个实施方案中,RNA是按如下方法制备的 首先将血液收集到任何已知的稳定液(例如PAXgeneTM收集管或TEMPUS⑧ 收集管)中再用本领域技术人员公知的任何方法分离RNA。
在其它方面,制备珠蛋白减少的或消减的RNA。在一个实施方案中,先 是分离出RNA,接着用本领域公知的任何一种技术处理,以除去珠蛋白 mRNA。例如,可以用珠蛋白RNA特异性的DNA引物和/或探针杂交并利用 RNA酶H选择性地降解珠蛋白mRNA。在其它的实施方案中,通过在RNA分 离步骤中除去珠蛋白RNA的形式(例如通过利用附着于顺磁微粒上的珠蛋白 引物和/或探针选择性地除去珠蛋白RNA)分离RNA。
在本发明的其它方面,RNA是利用一种或多种已知的分离RNA(包括分 离总RNA或mRNA等等)的商品化试剂盒制备的,例如基于寡聚dT的纯化法、 Qiagen RNA分离法、LeukoLOCKT总RNA分离系统、Ambion公司的 MagMAX-96血液技术、Promega polyA mRNA分离系统等等。
RNA的纯度和完整性可通过260/280nm的吸光度和琼脂糖凝胶电泳然后 在紫外光下检查进行评价。在一些实施方案中,RNA完整性是利用更加灵敏 的技术例如Agilent 2100 Bioanalyzer 6000 RNANano芯片进行评价的。
(E)本发明的生物标志
一方面,本发明提供生物标志和生物标志组合,其中对于所述生物标志 的一种或多种产物的表达水平的测定可以指示一种或多种结肠直肠病理的 存在。
表l是本发明的一个方面的生物标志的列表。根据微阵列检测,每种生 物标志在来自具有或不具有息肉的个体的样品中差异表达。该表提供Hugo 基因名称,符号和基因组链接ID; RNA和蛋白质编号;并且还包括p值(其 代表观测到的差异表达的统计显著性)和在具有息肉的个体的平均测量水平 和不具有息肉的个体的平均测量水平之间的倍数变化的测量结果。
表2是表1所列那些基因的选集,列出了本发明的生物标志的基因符号和 相关的基因组链接ID。该表还提供了具有息肉的个体相比不具有息肉的个体 的差异基因表达的倍数变化和方向。如所述的那样,基因在具有或不具有息 肉的个体之间的差异表达可以利用非参数Wilcoxan-Mann-Whitney检验或参 数t检验而鉴定出来。检验的结果也显示于表2中。
表11显示利用如实施例2所述的微阵列所鉴定出来的在来自具有"高风 险息肉"的个体与不具有高风险息肉(即具有低风险息肉或根本不具有病理) 的个体的样品中差异表达的基因。该表提供基因名称,基因ID;代表性人RNA 编号,还提供p值、(归为具有高风险息肉的个体的平均值相比具有低风险息 肉的个体的平均值之间的)倍数变化、以及高风险息肉个体和低风险息肉个 体的变异系数(正态强度除以正态强度平均数的标准偏差)。栏l是 AffySpotID,栏2是倍数变化,栏3是p值,栏4是CV (变异系数)(高风险息 肉),栏5是CV (低风险息肉),栏6是基因ID,栏7是HUGO基因符号,栏8 是人RNA编号,栏9是基因说明。
有结肠直肠癌的个体的样品中差异表达的生物标志。这48种生物标志是利用 QRT-PCR检验的。该表提供每种生物标志的基因符号、基因座链接ID、和基 因说明。该表还包括p值(代表观测到的差异表达的统计显著性)、具有结肠 直肠癌的个体的平均测量水平和不具有结肠直肠癌的个体的平均测量水平 之间的倍数变化的测量结果、以及具有结肠直肠癌与不具有结肠直肠癌的个 体之间差异表达的方向。
本发明的其它生物标志在说明书中描述。因此本发明涵盖出于上述的每 种目的而利用本领域公知的方法测定这些生物标志及生物标志组合的表达。
如本领域技术人员所理解的那样,基因座链接ID可用于确定本发明的生 物标志的所有RNA产物和所有蛋白质产物的序列。
(F)生物标志的组合
在一个实施方案中,本发明生物标志的组合包括表l、表2、表ll、或表 12所列生物标志的任何组合。例如,任何上表中m种基因中n种的子集的可能 组合数目如Feller, Intro to Probability Theory,第三版,巻l, 1968, ed. J. Wiley 所述,通式为
m!/(n)! (m-n)!
例如,其中n是2并且m是8时,生物标志的组合数是 8! 8x7x6x5x4x3x2xl
2! (8-2)! (2xl) (6x5x4x3x2xl)
=40320/1440 = 28
种独一无二的双基因组合。每种这些双基因组合的基因表达测量数据可以独 立地用于确定患者是否具有一种或多种结肠直肠病理。在一个特定的实施方 案中,m是8并且n是3,有8!/3!(8-3)!种独一无二的三基因组合。每种这些独 一无二的三基因组合可以独立地作为模型用于确定患者是否具有一种或多 种结肠直肠病理。
(G)通过自一种或多种分类器产生公式来检验生物标志组合
本发明进一步提供一种对来自表l、表2、表ll、或表12或其子集的生物 标志组合测试其对于一种或多种结肠直肠病理或一种或多种结肠直肠病理 亚型的检验能力的手段。还提供评价所检验的组合对于个体中存在一种或多 种结肠直肠病理或一种或多种结肠直肠病理亚型的检验能力的方法。为了检 验生物标志组合并且产生分类器,应用本发明的数学模型。本发明的数学模 型可用于检验从全部的生物标志组合或它的一个选择的子集中选择的每种 生物标志组合。
在一些实施方案中,进一步选择将作为组合检验的生物标志是有用的。 在一个实施方案中,可以基于p值选择生物标志个体,p值作为该生物标志个 体能区别两种表型性状子群的可能性的度量。因此在一个实施方案中,选择 将输入模型进行组合检验的生物标志,其中每种生物标志的p值小于0.2、 0.1、 0.5;小于O.l、小于0.05、小于O.Ol、小于0,005、小于O.OOl、小于0.0005、小 于O.OOOl、小于0扁05、小于O.OOOOl、小于0細005、小于0.000001等等。 我们还意外地发现,即使生物标志表现的p值大于0.2 (—般不被认为是一个 有用的生物标志个体)也可以显著地增加包含这些生物标志的生物标志组合 区别两种表型性状子群的能力。在其它的实施方案中,基于两种表型性状子 群间生物标志产物差异表达的倍数变化来选择输入模型进行组合检验的生 物标志。注意,在测量血液中的差异倍数变化时,倍数变化差异可以是相当小的,因此在一些实施方案中,对于输入分类器的生物标志子集的选择是基
于差异倍数变化,其中的倍数变化是大于l.Ol、 1.02、 1.03、 1.04、 1.05、 1.06、 1,07、 1.08、 1.09、 1.1、 1.125、 1.15、 1.175、 1、 1.2、 1.225、 1.25、 1.275、 1.30、大于1.3、大于1.4、大于1.5、大于1.6、大于1.7、大于1.8、大于1.9、 大于2.0、大于2.1、大于2.2、大于2.3、大于2.4、大于2.5、大于2.6、大于2.7、 大于2.8、大于2.9、大于3.0、大于3.1、大于3.2、大于3.3、大于3.4、大于3.5、 大于4.0等等。在其它实施方案中,为了选择用于组合检验的生物标志子集, 还可以考虑将变异系数作为代表该生物标志在一个表型性状子群内个体中 的产物表达水平的数据的变异性。在一些实施方案中,所属技术领域的专业 人员可以理解,在包括p值、倍数变化、和变异系数的因组组合的基础上选 择生物标志是有益的。在一些实施方案中,首先如上所述根据由生物标志数 据产生的p值选择生物标志,然后根据由生物标志数据决定的差异倍数变化 进一步选择所述生物标志的一个选集。在其它的实施方案中,首先根据差异 倍数变化选择生物标志,然后根据p值进一步选择一个选集。在一些实施方 案中,利用一种或多种选择标准,然后评级,容许选择前2.5%、 5%、 7.5%、 10%、 12.5%、 15%、 17.5%、 20%、 30%、 40%、 50%或更多的定级生物标志 输入模型。在一些实施方案中,期望选择的生物标志的数目可以是4,000、 3,000、 2,000、 l,OOO、 900、 800、 700、 600、 500、 400、 300、 200、 190、 180、 170、 160、 150、 140、 130、 120、 110、 100、 90、 80、 70、 60、 50、 40、 30、 20、或IO。在其它的实施方案中,上述的选择标准可以基于所期望用于模型 中的选择的生物标志的数目进行设定。可以理解,因此可以选择所有的单独 鉴定出的生物标志或单独鉴别出的生物标志的子集并且检验这些选择的生 物标志的所有可能组合以鉴别出有用的生物标志组合。在另一个实施方案 中,可以选择一个生物标志的子集,然后检验该子集中的2种生物标志、该 子集中的3种生物标志、该子集中的4种生物标志、该子集中的5种生物标志、 该子集中的6种生物标志、该子集中的7种生物标志、该子集中的8种生物标 志、该子集中的9种生物标志、该子集中的10种生物标志的所有可能组合以 鉴别出有用的生物标志组合。确定所选择的用于组合检验的生物标志个体的 数目以及选择可能的生物标志组合的数目的选择标准取决于可用于获得生 物标志数据的资源和/或可用于计算和评价由该模型获得的分类器的计算机 资源。
通过该数学模型产生的分类器随后可以通过测定该分类器从用于产生 该分类器的人群中正确认定每个个体具有两种表型性状之一(即具有或不具 有一种或多种结肠直肠病理)的能力进行评价。在一个优选的实施方案中, 用于导出该模型的练习人群中的个体与用于检验该模型的练习人群中的个 体不同。本领域技术人员可以理解,这使得人们可预测该组合物正确表征表 型性状特征未知的个体的能力。
输入数学模型的数据可以是代表所评估生物标志产物表达水平的任何 数据。本发明中有用的数学模型包括利用有监督的或无监督的学习技术的模 型。在本发明的一个优选的实施方案中,选择的数学模型利用有监督的学习 连同"练习人群"来评价本发明每一种可能的生物标志组合。在本发明的一个
实施方案中,所使用的数学模型选自以下回归模型(regression model)、逻 辑斯谛回归模型(logistic regression model)、神经网络(neural network)、聚类 模型(clustering model)、 主成分分析(principal component analysis)、 最近邻居 分类器分才斤(nearest neighbour classifier analysis)、 线'l"生判另'J式分才斤(linear discriminant analysis) 、 二次判另'J式分析(quadratic discriminant analysis)、支持 向量机(support vector machine)、 决策树(decision tree)、 遗传算法(genetic algorithm)、利用装袋的分类器l尤4b(classifier optimization using bagging)、利 用强化的分类器优化(classifier optimization using boosting)、利用随机子空间 法的分类器优4b(classifier optimization using the Random Subspace Method)、 投斧》追^宗(projection pursuit)、 遗传纟扁禾呈(genetic programming)及力口斗又表;夬 (weighted voting)。在一个优选的实施方案中,使用了逻辑斯谛回归模型。在 另一个优选的实施方案中,使用了神经网络模型。
将本发明的数学模型应用于数据的结果会产生一种或多种利用一种或 多种生物标志的分类器。在一些实施方案中,产生了多个分类器,其适用于 特定的目的(例如全部具有足够的AUC和/或灵敏度和/或特异性)。在这种情 况下,在一些实施方案中,产生利用超过一个分类器的公式。例如,可以产 生利用一系列分类器的公式(例如首先得到分类器A的结果,然后是分类器 B。例如,分类器A区别病理与无病理;然后分类器B确定该病理是结肠直肠 癌或非结肠直肠癌)。在另一个实施方案中,可以产生由对超过一个分类器 的结果加权而得到的公式。例如,每种分类器的结果可以给予得分l,并且 受试者具有一种或多种结肠直肠病理的概率的指标是给定方案中每种选择
的分类器的总分的结果。其它可能的分类器组合和权重也是可以理解的,并 且涵盖在本发明中。
产生的分类器可用于检验未知受试者或测试受试者。在一个实施方案 中,通过逻辑斯谛回归产生的公式的结果可以回答个体是否具有一种或多种 结肠直肠病理或者是否是"正常的"个体的问题。在本发明的另一实施方案 中,对上述问题的答案可以是不确定的答案。
在本发明的一个实施方案中,利用本领域技术人员公知的方法对每种分 类器评介其正确表征练习人群中每个个体的能力。例如,可以利用交叉验证
(cross validation)、留 一 法交叉验i正(Leave One out Cross Validation, LOOCV)、 n倍交叉马全i正(n-fold cross validation) 、 4斤叠刀分析(jackknife analysis),用7>开 的标准统计方法来评价分类器。在本发明的另一个实施方案中,对每种分类 器评价其正确表征未用于产生该分类器的练习人群中的个体的能力。
在一个实施方案中,用于对分类器评价其正确表征练习人群的各个个体 的方法是评价分类器的灵每文度(TPF,真阳性分数)和特异性(TNF,真阴 性分数)的方法。在一个实施方案中,用于检验分类器的方法是接受者操作 特性(Receiver Operating Characteristic, "ROC"),该方法提供数个参数以评 价由方程产生的结果的灵敏度和特异性。在一个利用接受者操作特性 ("ROC")的实施方案中,ROC面积(曲线下面积)被用于评价方程。优选 ROC面积大于0.5、 0.6、 0.7、 0.8、 0.9。得分1.0的完美的ROC面积指示100。/0 灵敏度及100%特异性。在一些实施方案中,分类器是基于得分选择的。例 如,在使用的评分系统是由ROC曲线下的面积决定的接收者操作特性(ROC ) 曲线得分时,在一些实施方案中,选择得分大于0.95、 0.9、 0.85、 0.8、 0.7、 0.65、 0.6、 0.55、 0.5或0.45的分类器。在其它的实施方案中,在特异性对于 分类器的应用比较重要时,可以设定一个灵敏度阈值,并根据选择的特异性 对分类器评级。例如,可以选择特异性截留值大于0.95、 0.9、 0.85、 0.8、 0.7、 0.65、 0.6、 0.55、 0.5或0.45的分类器。同样,也可以设定特异性阈值,并且 可以选择根据灵敏度大于0.95、 0.9、 0.85、 0.8、 0.7、 0.65、 0.6、 0.55、 0.5 或0.45定级的分类器。因此在一些实施方案中,只有排位前10的分类器、排 位前20的分类器、或排位前100的分类器入选。
本领域技术人员可以理解,由数学模型确定的分类器和组合的应用取决 于用于产生输入该模型的数据的人群的表型。具体实施方案的例子在本文中
有更充分的描述。
(H)用于输入数学模型的人群
应当对用于输入的人群进行选择以便产生统计上显著的分类器。在一些 实施方案中,参照或练习人群包括10-30个受试者。在另一个实施方案中, 参照人群包含30-50个受试者。在其它的实施方案中,参照人群包括两个或 更多个人群,每个人群包含50到100个、100到500个、500到1000、或超过IOOO 个受试者。参照人群包括两个或更多亚群。在一个优选的实施方案中,若非 关于一种或多种结肠直肠病理的存在的诊断,亚群的表型性状表征是近似 的,例如,亚群中关于亚群的年龄和性别的分布是近似的。还优选亚群具有 大致相等的数目。可以理解,本发明的方法不需要用到来自人群每个成员的 数据,但是有可能依赖于来自所查询的人群的一个子集的数据。
例如,对于用于输入数学模型以鉴别出那些可用于鉴别个体具有任何息 肉或不具有任何息肉的生物标志的参照或测试人群,参照人群由具有息肉的 个体(第一亚群),以及不具有息肉的个体(第二亚群)构成。为了表征亚 群具有或不具有息肉,可以采用任何检验方法,包括直肠指检(digital rectal examiniation)、粪便隐血试验(fecal occult blood testing)、硬式乙状结肠镜检查 (rigid sigmoidoscopy)、可屈性乙状结肠镜4企查(flexible sigmoidoscopy)、双对 比钡灌肠(double-contrast barium enema)、结肠4竟才企查(colonoscopy)、和组织 学检查(histological examination),优选地,只有那些确诊的个体才用作参照 人群中的一部分。
在另 一个实施方案中,为了鉴别出那些可用于鉴定个体是否具有高风险 息肉的生物标志,参照人群由具有高风险息肉(第一亚群)的个体,和不具 有高风险息肉(第二亚群)的个体构成,其中高风险息肉如下管状绒毛状 腺瘤、绒毛状腺瘤、癌症、高级发育异常和管状腺瘤,其中管状腺瘤大于 10mm。为了表征亚群具有或不具有高风险息肉,可以采用任何检验方法, 包括直肠指检、粪便隐血试验、硬式乙状结肠镜检查、可屈性乙状结肠镜检 查、双对比钡灌肠、结肠镜4企查、和组织学检查。
在另 一实施方案中,为了检验可用于鉴定个体是否具有早期结肠直肠癌 的生物标志,与具有其它类型的结肠直肠癌(例如晚期)的个体相比,参照 人群可以例如由具有局部结肠直肠癌的个体构成。
在另一个实施方案中,为了鉴定出那些可用于鉴定个体是否具有高风险 息肉的生物标志,参照人群由具有高风险息肉(第一亚群)的个体,和不具
有高风险息肉(第二亚群)的个体构成,其中高风险息肉如下管状绒毛状 腺瘤、绒毛状腺瘤、癌症、高级发育异常、和管状腺瘤。
(I)用于输入数学模型以鉴定用于检验结肠直肠病理的分类器的数据
输入数学模型的数据是代表本发明生物标志产物水平的数据。因而数据 是本发明的生物标志的产物,包括mRNA和/或蛋白质的表达水平的量度。
在本发明的一个实施方案中,所测定的本发明生物标志的RNA产物是 RNA产物的群体,包括mRNA,和mRNA的所有剪切变体。在本发明的另一 个实施方案中,所测定的产物是在血液中表达的所有mRNA产物。在本发明 的另一实施方案中,所测定的产物包括血液中表达的mRNA的一种或多种特 定剪切变体。在本发明另一实施方案中,所测定的产物是表3或表13中所列 的RNA产物。
本发明的生物标志的蛋白质产物也包括在本发明的范围内。为实现本发 明,本发明的生物标志的蛋白质产物的测量结果可用于检验一种或多种结肠 直肠病理。更具体的是,在具有或不具有任何息肉的个体中差异表达的生物 标志的蛋白质总产物群体的测量结果可用于检验目的,并包括在本发明范围 之内。
在本发明的一个实施方案中,蛋白质产物是表l、表2、表ll、或表12中 所列的生物标志翻译得到的产物。在另一个实施方案中,蛋白质产物是那些 在血液中表达的产物。在本发明的另一实施方案中,蛋白质产物是那些相应 于表3或表13中所列的蛋白质的产物。
在另 一实施方案中,应用的晃良映生物标志的蛋白质产物和RNA产物的 组合的表达水平的数据。本领域技术人员可以理解,输入数据的其它组合也 可以用于产生可用于本发明的分类器。
在其它的实施方案中,如本领域技术人员可以理解的那样,反映人群中 每个成员的每种生物标志的数据是不必要的,只要有每个参照人群中足够成 员的数据,足以产生一个分类器就可以。例如,在给定的情境下,代表一个 人群99%、 95%、 90%、 85%、 80%、或75%成员中的生物标志的数据就可能 足够。
(J)数学模型
可用于本发明所述方法的公式通常具有以下形式
V = C +邻i f(Xi) +邻ij f(Xi,Xj) +邻w f(Xi,Xj,Xk) + ... 其中V是指示测试受试者具有一种或多种结肠直肠病理概率的值,Xi是来自 测试受试者的样品中第i种生物标志的一种或多种产物的水平,(3;是只涉及第 i种生物标志的项的系数,Pij是随第i种和第j种生物标志的函数项的系数,pijk 是第i种、第j种和第k种生物标志的函数项的系数,且C是常数。该公式中还 可以包括其它的项,例如依赖四种或更多种生物标志的项。
"指示,,一词意味着V可以是实际的概率(在0至1之间变化的数字),或者 V可以是数量,根据这个数量可以容易地导出概率。
依赖于各种生物标志的表达水平的函数f(Xi,Xj,...)有多种形式。例如,该 函数可以是那些表达水平的多项式,即涉及提升至数值乘幂的各种生物标志 的产物。实例包括XiXj2、 XjXjXk、 (XiXj)1/2、 XiXj+XiXk。函数可以另外或 可替代地包括表达水平的对数、指数、或其它函数。
在某些实施方案中,f(Xi,Xj,...)依赖于生物标志表达水平的比值,即 f(Xi,Xj) = Xi/Xj。 回归模型
在一些实施方案中,本发明中鉴定出的一些或全部的生物标志的表达数
据被用于回归模型,例如但不限于逻辑斯谛回归模型或线性回归模型,以便
鉴定可用于诊断一种或多种结肠直肠病理的分类器。回归模型用来检验表l、
表2、表ll、或表12中鉴定出的两种或更多种生物标志的各种组合以产生分
类器。就回归模型来说,所列分类器是方程的形式,其提供一个因变量Y,
代表特定表型的存在与否,其中方程中代表每种生物标志的表达的数据乘以
一个通过该回归模型产生的加权系数。产生的分类器可用于分析来自测试受
试者的表达数据并提供指示测试受试者具有一种或多种结肠直肠病理概率
的结果。通常,研究中的多重回归方程可以写作 y +…+々A +s
其中Y,因变量,指示与第一子群相关的生物学特性(例如,没有或存在一 种或多种结肠直肠病理)的存在(当Y是正数)或不存在(当Y是负数)。该模 型说明,因变量Y取决于k说明变量(来自参照人群的第一和第二子群的受试
者的k种选择基因(例如,生物标志)的测量特征值),加上涵盖各种未指明
的省略要素的误差项。在上述鉴定的模型中,参数Pri十量在保持其它说明变
量不变的情况下第一个说明变量Xt对因变量Y的影响(例如,加权因子)。同
样,(32给出在其它说明变量保持不变的情况下说明变量X2对Y的影响。
逻辑斯谛回归模型是线性回归的非线性变换。逻辑斯谛回归模型通常被
称作"logit"模型,并可以表示为
ln[p/(l-p)]=a+AX, +…+s 或者 = exp a expAX, expA义2 x…x exp""' expf
其中,
a和s是常数
ln是自然对数,loge,其中e-2.71828…, p是事件Y发生的概率,p(Y-l), p/( 1 -p)是"让步比,,(odds ratio), ln[p/(l-p)]是对数让步比,或"logit",并且
该模型的所有其它分量与上述的一般直线回归方程相同。本领域技术人 员可以领会,项a和e可以合并为单一常数。实际上,在优选的实施方案中, 用单项来代表a和e。"逻辑斯谛"分布是S-状分布函数。logit分布将评价概率 (p)限制在0到1之间。
在本发明的一些实施方案中,逻辑斯谛回归模型用极大似然估计(MLE ) 拟合。换句话说,系数(例如,a、 p,、卩2、...)通过最大似然来确定。似然是 条件概率(例如,P(Y|X),给定X时Y的概率)。似然函数(L)测量观察到在样 品数据集中发生因变量值(Y" Y2、 ...、 Yn)特定集合的概率。它可以写作因 变量结果的概率
L = Prob (Yi * Y2*** Yn)
似然函数越高,样品中观察到Y的概率越高。MLE涉及使似然函数的 1og(LL〈0)尽可能大或似然函数的-2倍(-2LL)尽可能小的系数(a、卩,、(32、...) 的发现。在MLE中,得到参数a、卩,、(32、…的初步估算。然后计算数据给出 这些参数的可能性。当数据的可能性进行重新计算后,参数估算得到改进。 该过程重复进行,直到参数估算不发生大的变化(例如,概率变化小于.01 或.OOl)。逻辑斯谛回归和拟合逻辑斯谛回归模型的实例可参见Hastie, The Elements of Statistical Learning, Springer, New York, 2Q01, pp.95-100, 该 文献全部纳入本申请。 神经网络
在另一个实施方案中,对本发明中每种生物标志测量的表达可用于训练 神经网络。神经网络是一个二阶段的回归或分类模型。神经网络可以是二元 的或非二元的。神经网络具有分层构造,包括通过权重层连接的输入单位层 (和偏倚)和输出单位层。为了回归,输出单位层一般只包括一个输出单位。 然而,神经网络能以无缝方式处理多个定量反应。因而神经网络可以用于鉴 定能够区分超过两种人群(即超过两种表型性状)的生物标志。在一个特定
的实施方案中,神经网络可以利用来自表l、表2、表ll、或表12的生物标志 产物的表达数据来训练,用来鉴定那些对于一种或多种结肠直肠病理具有特 异性的生物标志组合。从而,该训练后的神经网络可用于直接鉴定可用于检 验一种或多种结肠直肠病理的生物标志组合。在一些实施方案中,使用 EasyNN-Plus 4.0g版软件包(Neural Planner软件公司)的反向传播 (back-propagation)3申纟至网纟各(参见侈寸i口Abdi, 1994, "A neural network primer", J. Biol System. 2, 247-283 ),其包含单个十神经元(10个隐藏单位)的隐藏 层。
神经网络在以下文献中有描述Duda等,2001, Pattern Classification, 第二版,John Wiley & Sons公司,纽约;和Hastie等,2001, The Elements of Statistical Learning, Springer匿Verlag,纽约,上述文献的全部内容纳入本文。 奇异值分解(Singular Value Decomposition, SVD)和主成分分析(PCA)
奇异值分解(SVD)和主成分分析(PCA)是分析多元数据的常用方法,我们 发现基因表达数据非常适合于利用SVD/PCA进行分析。SVD或在此案中等价 的PCA被定义如下
奇异值分解(SVD)和主成分分析(PCA)是分析多元数据的常用方法,我们 发现基因表达数据非常适合于利用SVD/PCA进行分析。SVD或在此案中等价 的PCA被定义如下
假设G是具有r级的m x n基因表达矩阵,并且n^n,因此r^n,其中m是 该矩阵中的数据行,n是数据列。就微阵列数据来说,gij是在第j次检测中的 第i种生物标志的一种或多种产物的水平。G的第i行的元素形成n维向量bi (其 中b是一种生物标志),我们称其为第i种生物标志的转录响应。或者,G的第 j列的元素形成m维向量aj,我们称其为第j次检测的表达语(或基因表达谱)。
G的奇异值分解方程如下 G = USVT
其中U是mxn矩阵,S是nxn对角矩阵,并且VT也是nxn矩阵。U列称作左奇异 向量,{uk},并且形成该检测表达镨的规范正交基,使得i-j时uru^1,否 则Ui.Uj-0。 VT行包含右奇异向量的元素,{vk},并且形成该基因转录响应的 规范正交基。S的元素只在对角线上非零,并且被称作奇异值。因此,S = diag(s,…,sn)。此外,在l^k^r时,sk>0,并且,在(r+l)^k^n时,s「 0。按照惯例,奇异向量的排序由奇异值由高到低的分选来确定,最大奇异 值位于S矩阵的左上方。注意,对于正方形,对称矩阵X,奇异值分解等价于 对角线化,或者本征值问题的解。 其它数学模型
如上所述的模式分类和统计技术只是可用于构建对于诊断或检测一种 或多种结肠直肠病理有用的分类器的模型类型的例子,例如聚类分析(Duda and Hart, Pattern Classification and Scene Analysis, 1973, John Wiley & Sons, Inc., New York,第211-256页,该文全部内容藉引入纳入本发明);主成分 分析(参见Jolliffe, 1986, Principal Component Analysis, Springer, New York, 藉引入纳入本发明);最近邻居分类符分析(参见Duda, Pattern Classification, 第二版,2001, John Wiley & Sons, Inc;和Hastie, 2001, The Elements of Statistical Learning, Springer, New York);线性判别式分冲斤(参见例如Duda, Pattern Classification,第二版,2001, John Wiley & Sons, Inc;和Hastie, 2001, The Elements of Statistical Learning, Springer, New York; Venables & Ripley, 1997, Modern Applied Statistics with s-plus, Springer, New York); 支持向量 机(参见例如Cristianini和Shawe-Taylor, 2000, An Introduction to Support Vector Machines, Cambridge University Press, Cambridge, Boser等,1992, "A training algorithm for optimal margin classifiers , in Proceedings of the 5 Annual ACM Workshop on Computational Learning Theory, ACM Press, Pittsburgh, PA, pp. 142-152; Vapnik, 1998, Statistical Learning Theory, Wiley, New York, 藉引用纳入本文)。 计算机执行
本发明描述的方法优选通过适当编程的计算机执行。用于本发明所述的 方法的计算机系统,如本发明进一步所述的那样,配置为接受和处理数据,
并且可以是单处理器或多处理器计算机系统。合适的计算机系统的例子包 括,但不限于,大型计算机、小型计算机、个人计算机、膝上型计算机、笔 记本式计算机、手持式计算机、个人数字助理、移动电话、置顶盒、基于微 处理器的消费电子品、可编程的消费电子品、等等的各种组合的任何一种。
另外,本发明的方法可以在网络计算机、CPU集群、工作站、以及所谓的大
型计算机上实施。计算机系统可以是本地访问的计算机、远程访问的计算机 系统(例如服务器)、或两者的结合。取决于应用和目的,计算机系统也可
以访问互联网[万维网(www)]或被互联网访问。可以领会,计算机系统
可以是独立的系统或包含通过网络互相连通的多个装置的分布式系统。取决 于应用和目的,计算机系统可以是静态的或便携式的计算机系统。本领域普 通技术人员拥有必要的知识和技能来选择、获得和利用适合于实施本发明任 何方面的计算机系统。
因此,按照本文所述实施各种方法和方案,也如本发明所述的,以计算 机程序指令的形式,并在计算机上执行。表达程序指令的适当的编程语言包
括但不限于选自下组的一种或多种语言C、 C++、 FORTRAN的例子如 FORTRAN77或FORTRAN90、 Java、 Visual Basic、 Perl、 Tcl/Tk、 JavaScript、 以及ADA。可以理解,本方法的各方面可以相互不同的计算语言写成,其中 所述语言对于特定的应用是优选的,并且各方面可以通过给定电脑上可得到 的适当系统水平工具彼此联系。
计算机程序指令在执行中贮存于计算机内存中,也可以另外存储于本领 域公知的各种形式的计算机可读介质上,例如但不限于CD-Rom、 CD-R、 CD-RW、闪速存储器、存储卡、存储棒、DVD-Rom、 USB棒、光盘、或大 容量网络存储器驱动器。因此按照本发明的常规实施,计算机程序指令可以 交付给可移动介质,如CD-Rom上的用户,也可以交付给计算机网络,例如 通过网络介面经由互联网下载。


图1显示适于执行本发明所述方法的通用计算机系统100的图解。计算机 系统IOO,显示为一个设备齐全的单元,但不必限制如此,包含至少一个 数据处理单元(CPU) 102; —个存贮器104,其典型地包括高速随机存取存储 器和非易失性存储器(例如一种或多种磁盘驱动器),但也可以仅仅是闪速 存储器; 一个用户界面108;可选地,磁盘控制器112控制的一个磁盘110; 以及至少 一个任选的网络或其它的用于与其它计算才几以及其它的装置通信
的通信接口卡114。至少CPU102、存贮器104、用户界面108、磁盘控制器(如 果存在的话)、以及网络接口卡彼此通过至少一个通信总线106联系。
存贮器104存储程序和数据,典型地包括用于提供基本系统服务的操 作系统140;应用程序152,例如用于显示和操作数据的用户水平程序,用于 评价用于诊断测试受试者的公式的程序;用于辅助编写计算机程序的著作工 具;文件系统142;用于通过用户界面108与用户进行通信的用户界面控制器 144;以及任选的用于存储微阵列数据及其它信息的一个或多个数据库146; 任选的用于控制数据显示的图像控制器148;以及任选的用于执行数学操作 的浮点协处理器150。本发明的方法还可以利用包含于一种或多种动态连接 的库中的函数,图1中未显示,但是存储于存贮器104或磁盘110或者通过网 络接口连接114可得到。
用户界面108可以包括显示器128、鼠标126、以及键盘130。尽管在图l 中显示为散部件,但在例如手持式计算机的实施方案中, 一种或多种这些用 户界面组件可以彼此整合。显示器128可以是阴极射线管(CRT),或平面屏幕 显示器例如基于有源矩阵的LCD,或TFT的例子,或可以是基于有机分子例 如偶联的小分子或聚合物发光的电发光显示器。用户界面的其它例子未显示 于图l中,包括例如键盘上的若干按钮、读卡器、有或者没有专门接触器件 的触摸屏、跟踪板、跟踪球、或与语音识别软件联合使用的麦克风、或其任 何组合,或者保密装置例如指紋传感器或视网膜扫描器,用于禁止未授权用 户获取存储于系统100中的数据和程序。
系统100还可以直接地通过与串行端口或USB端口连接的专用打印机电 缆,或者通过无线,或者通过网络连接到输出装置例如打印机(未显示)。
在数据库中数据的量过于庞大而无法有效地保存在存贮器104的情况 下,作为替代,数据库146可以任选地存储于磁盘110上。数据库也可以代之 以,或部分代之以存储在一种或多种通过网^4^口连接114与计算机系统100 相联系的远程计算机上。
网络接口134可以是通过电缆以及调制解调器、或以太网、防火线、或 USB连接、或数字用户线与互联网或局域网相连的连接。优选地,计算机网 络连接是无线的,例如,利用CDMA、 GSM、或GPRS、或蓝牙、或标准例 如802.11a、 802.11b、或802.11g。
可以理解,横跨不同装置和地点的系统10的组件的各种实施方案和配置
和分布与本发明描述的方法的执行相一致。例如,用户可以使用手持设备接 收来自测试受试者的数据,并将数据通过网络连接传输到另 一装置或地点, 在那里对数据根据本发明所述的公式进行分析。该分析结果可以存储在其它 地点和/或另外传输回到手持设备中。在这种配置中,从测试受试者接收数据 的操作中可以包括用户输入信息的操作。网络连接可以包括基于万维网的与 远程地址,例如,卫生服务机构的联接。或者,系统10可以是这样一种装置, 例如手持装置,用于从测试受试者接收数据,分析该数据,例如通过将数据 输入如本发明进一步所述的公式,并产生显示给用户的结果。任选地,该结
果可以通过网络接口,例如无线连接传输回到远程地点。系统100可以进一
服务机构、诊断设备、或患者。
(K)本发明的生物标志用于检验、筛选或诊断测试受试者的用途
本领域技术人员可以理解,通过测量测试受试者("测试受试者")中生 物标志(基因)的产物表达, 一种或多种生物标志的鉴定可用于容许检验、 篩选或诊断测试受试者中一种或多种包括息肉或一种或多种息肉亚型在内 的结肠直肠病理。
在一个实施方案中,测试受试者的结果与对照进行比较,其中对照可以 是来自具有结肠直肠病理、具有息肉、具有一种或多种息肉亚型的一个或多 个个体和/或不具有任何结肠直肠病理、不具有任何息肉、或不具有一种或多 种特定结肠直肠息肉亚型的一个或多个个体的结果。
在另一个实施方案中,可以将反映测试受试者中的生物标志产物表达的 数据输入本发明的公式,从而确定所述测试受试者是否具有一种或多种结肠 直肠病理。用于对生物标志组合检验其检验结肠直肠病理的能力和利用所鉴 定的生物标志组合来诊断个体不必使用相同的公式。将代表本发明生物标志 产物(包括RNA和/或蛋白质)的数据输入本发明的公式,以便确定测试受 试者具有一种或多种结肠直肠病理的概率。可以利用任何公知测量本发明生 物标志的RNA和蛋白质产物的表达水平的技术来产生数据。
在一个实施方案中,使用公式得到测试受试者具有息肉或不具有息肉的 结论。例如,利用逻辑斯谛回归作为模型,Y被用作息肉的预测值,当Y〉0 时,受试者将诊断为具有息肉,当Y〈0时,受试者将诊断为不具有息肉。在
另一实施方案中,还可以包括第三种预测,其中"^断是不确定的。例如,可
以确定用于测量生物标志的基因表达的方法的固有标准偏差(S)。如果Y < S 但是>0或Y > -5但是<0,那么检验结果被认为是不确定的。
(L)用于测量本发明生物标志产物的多核苷酸
酸来测量生物标志的表达水平。例如与本发明生物标志的一种或多种RNA 产物特异性和/或选择性杂交的寡核苷酸、cDNA、 DNA、 RNA、 PCR产物、 合成的DNA、合成的RNA、或天然存在的或经过修饰的核香酸的其它组合可 用于本发明。
在一个优选的实施方案中,使用与本发明生物标志的一种或多种RNA产 物特异性且选择性杂交的寡核香酸、cDNA、 DNA、 RNA、 PCR产物、合成 的DNA、合成的RNA、或天然存在的或经过修饰的寡核苷酸的其它的组合。
(M)测量本发明生物标志的RNA产物的技术阵列杂交
在本发明的一个实施方案中,用于测量本发明的生物标志的RNA产物的 多核苷酸可以用作定位于支持物上的核酸成员,以构成4艮据本发明的一个方 面的点阵。核酸成员的长度范围可以是8到1000个核苷酸,并且进行选择, 使其对于本发明的生物标志的RNA产物具有特异性。在一个实施方案中,这 些成员对于本发明的生物标志的RNA产物具有选择性。核酸成员可以是单链 的或双链的,和/或可以是寡核苷酸或扩增自cDNA的PCR片段。在一些实施 方案中,寡核苷酸长约20-30个核苷酸。在一些例子中,EST的长度为100-600 个核苷酸。本领域技术人员可以理解,可以利用本发明的生物标志的部份表 达区作为阵列上的探针。更特别地,与本发明的基因互补的寡核苷酸和/或衍 生自本发明的基因的cDNA或EST是有用的。对于基于寡核苷酸的阵列,本 领域技术人员可以理解,对应于感兴趣的基因的寡核苷酸选集可用作为探 针。更特别地,选择可与靶核酸杂交的区域是重要的。 一些因素,例如寡核 芬酸的Tm、 GC百分含量、二级结构程度、以及核酸的长度是重要因素。参 见例如美国专利No. 6,551,784。
如本文所述,利用本发明的生物标志,微阵列可用于鉴定和选择在具有 或不具有一种或多种结肠直肠病理、 一种或多种息肉或一种或多种息肉亚型
的个体中差异表达的基因,并且可用于诊断或4全测息肉或一种或多种息肉亚
型。利用微阵列鉴定的差异表达基因可见于表l和表ll。
核酸阵列的构建
在本方法中,稳定地结合至支持物表面的核酸成员的阵列在足以生成互 补核酸成员/靶复合物的杂交样式的条件下与包含靶核酸的样品接触,其中位 于阵列上独一无二位置的一种或多种互补核酸成员与耙核酸特异性杂交。发 生杂交的靶核酸的身份可参考阵列上核酸成员的位置而确定。
核酸成员可通过已建立的方法生成,如聚合酴涟式反应(PCR)和逆转 录(RT )。这些方法与当前本领域公知的技术类似(参见例如PCR Strategies, Michael A. Innis (编者)等,(1995)和PCR: Introduction to Biotechniques Series, C.R. Newton, A. Graham (1997))。所扩增的核酸通过本领域公知的技术进 行纯化(例如,柱纯化或乙醇沉淀)。当核酸得到分离从而基本上不含引物 和合成所需核酸的过程中产生的不完整产物时,认为它是纯的。在一些实施 方案中,纯化的核酸还基本上不含可能阻碍或以其它方式掩蔽该分子的特异 性结合活性的污染物。
根据本发明的一个方面,阵列包含附着于支持物一个表面的众多核酸, 密度超过20种不同的核^/cm2,其中每一种核酸都附着在支持物表面的一个 不同的预先选择好的区域(例如微阵列)。阵列上每个结合的样品包含一种 身分已知,通常序列已知的核酸组合物,如下文更详尽的描述。任何想像得 到的物质都可以用于本发明。
在一个实施方案中,附着于支持物表面的核酸是DNA。在一个优选的实 施方案中,附着于支持物表面的核酸是cDNA或RNA。在另一个优选的实施 方案中,附着于支持物表面的核酸是通过聚合酶链式反应(PCR)合成的 cDNA。在一些实施方案中,本发明阵列中的核酸成员的长度为至少IO、 25 或50个核苷酸。在一个实施方案中,核酸成员的长度为至少150个核苷酸。 在一些实施方案中,核酸成员的长度小于1000个核苷酸。更优选地,核酸成 员的长度小于500个核苷酸。
在本发明的阵列中,核酸组合物稳定地结合至支持物表面。在一个实施 方案中,支持物可以是柔性的或刚性的支持物。"稳定的结合"意味着每种核 酸成员在杂交和洗涤条件下保持在相对于支持物的独一无二的位置上。因 而,样品是非共价或共价地稳定地结合至支持物表面。非共价结合的例子包
括非特异性吸附、基于静电相互作用(例如离子对相互作用)的结合、疏水 性相互作用、氩键相互作用、通过特异性结合对成员共价附着于支持物表面 的特异性结合、等等。共价结合的例子包括在核酸和存在于刚性支持物表面
的官能团(例如,-OH)之间形成的共价键,其中官能团可以是天然存在的 或者是作为引入的连接基团而存在的,如下文更详尽的描述。
每种组合物中存在的核酸的量应在该阵列用于^r测期间足以与靶核酸 序列适当杂交并检测靶核酸序列。通常,稳定地结合在阵列的支持物上的每 种核酸成员的量为至少约0.001 ng,优选地至少约0.02 ng,更优选地至少约 0.05 ng,其中该量可以是高达IOOO ng或更高,但是通常不超过约20 ng。如 果核酸成员被"点"在支持物上, 一个点中包含整个的圓形尺度,该"点"的直 径的范围通常为大约10-5,000 [im,通常为约20-2,000 pm,更通常地为约 100-200 (xm。
对照核酸成员可以存在于阵列上,包括含有对应于基因组DNA、持家基 因、载体序列、植物核酸序列、阴性和阳性对照基因、等等的核酸或寡核苦 酸的核酸成员。对照核酸成员是校准或对照基因,其功能不是说明特定的感 兴趣的"关键"基因是否表达,而是提供其它的有用信息,例如表达的基础水 平或背景。
其它的对照核酸点在阵列上,并用作靶表达对照核酸和错配对照核苦 酸,用来监测样品中除了探针所针对的靶物外的核酸所发生的非特异性结合 或交叉杂交。因此错配探针表明杂交是特异性的或非特异性的。例如,如果 靶物存在,完全匹配的探针应该比错配探针一致更亮。另外,如果全部的对 照错配都存在,错配探针可以用来检测突变。 微阵列的应用
根据本发明的核酸阵列可用于检测包含一种或多种靶核酸序列(即例如 本发明的生物标志的RNA产物)的样品中的核酸。本发明的阵列可用于4全验、 篩选、和/或诊断一种或多种结肠直肠病理,包括息肉或一种或多种息肉亚型, 或筛选治疗靶等等。
阵列还可用于药物发现和研究的宽范围表达筛选,例如特定活性剂对于 本发明生物标志表达样式的影响,其中这样的信息用于揭示药物的效力和毒 性、环境监测、疾病研究等等。
阵列的产生至少用到这些序列中的一个、更优选地这些序列的组合作为 诊断结肠病理或一种或多种结肠病理亚型的手段。
本领域技术人员能够很好地理解标准样品的选择,包括与分离自一个或
多个正常个体的RNA互补的样品,其中正常个体是不具有息肉的个体。 用于杂交至阵列的核酸样品的制备
在一些实施方案中,与根据本发明的阵列杂交的样品衍生自来自血液的 总RNA。在另一个实施方案中,阵列的靶物衍生自来自血液的mRNA。
通过一种或多种类型的化学键,通常是通过互补碱基配对,通常通过氢 键形成,核酸样品能够结合到互补序列的核酸成员上。
如本发明所使用的那样,"衍生自mRNA转录物的核酸"或者"对应于 mRNA的核酸,,指的是其mRNA转录物或亚序列的合成最终作为模板的核 酸,。因此,从mRNA逆转录得到的cDNA、从该cDNA转录得到的RNA、从 cDNA扩增得到的DNA、从所扩增的DNA转录得到的RNA、等等,全部衍生 自或相应于mRNA转录物,检测到这样的衍生或对应产物指示样品中原始的 转录物的存在和/或丰度或与其成比例。因此,适当的核酸样品包括,但不限 于, 一种或多种基因的mRNA转录物、从mRNA逆转录得到的cDNA、从cDNA 转录得到的cRNA、从一种或多种基因扩增得到的DNA、从所扩增的DNA转 录得到的RNA、等等。在一些实施方案中,本发明使用的核酸样品衍生自血 液。核酸可以是利用本领域公知方法,例如逆转录或PCR从人血液合成的单 链或双链DNA、 RNA、或DNA-RNA杂合物。
在最简单的实施方案中,这样的核酸样品包含分离自血样的总mRNA或 对应于mRNA的核酸样品(例如,cDNA)。在另一个实施方案中,利用例如 酸胍-酚-氯仿提取法自给定样品分离总mRNA,并通过寡聚dT柱层析或通过 利用(dT)n磁珠分离polyA十mRNA(参见例如Sambrook等,Molecular Cloning: A Laboratory Manual (第二片反),Vols. 1-3, Cold Spring Harbor Laboratory, (1989), 或Current Protocols in Molecular Biology, F. Ausubel等编,Greene Publishing and Wiley画Interscience, New York (1987))。在一个优选的实施方案 中,总RNA是利用TRIzol⑧试剂(GIBCO/BRL , Invitrogen Life Technologies , Cat. No. 15596)抽提得到的。RNA的纯度和完整性通过260/280nm吸光度和琼 脂糖凝胶电泳继之以紫外光下^^查进行评价。
在一些实施方案中,期望在杂交之前对核酸样品进行扩增,例如,当只 有有限量的样品(如一滴血液)可以使用时。本领域技术人员可以领会,无
论使用什么扩增方法,如果期望得到定量结果,必须小心使用能够维持或控 制所扩增核酸的相对频率的方法。"定量"扩增方法对于本领域技术人员是公 知的。例如,定量PCR包括利用相同引物同时共扩增已知量的对照序列。这
样就提供了可以用来校准PCRA应的内标。因此高密度阵列可以包括对内标 特异性的探针来量化所扩增的核酸。PCR Protocols, A Guide to Methods and Applications, Innis等,Academic Press, Inc. N.Y, (1990)提供了定量PCR的
详细流程。
其它适当的扩增方法包括但不限于聚合酶链式反应(PCR)(Innis等,PCR Protocols. A Guide to Methods and Application. Academic Press, Inc. San Diego, (1990))、连接酶链式反应(LCR)(参见Wu and Wallace, 1989, Genomics, 4:560; Landegren等,1988, Science, 241:1077以及Barringer等,1990, Gene, 89:117)、转录扩增(Kwoh等,1989, Proc. Natl. Acad. Sci. USA, 86:1173)、 和自持序列复制(Guatelli等,1990, Proc. Nat. Acad. Sci. USA, 87:1874)。
在一个特别优选的实施方案中,核酸样品mRNA利用逆转录酶和由寡聚 dT及编码噬菌体T7启动子的序列组成的引物进行逆转录,以提供单链DNA 模板。第二DNA链是利用DNA聚合酶聚合的。在合成双链cDNA之后,加入 T7 RNA聚合酶,从cDNA模板转录RNA。从每一个cDNA模板进行连续轮次 转录产生扩增的RNA。体外转录方法是本领域技术人员公知的(参见,如上 述的Sambrook)并且这种特定方法在Van Gelder等,1990, Proc. Natl. Acad. Sci. USA, 87: 1663-1667中有详细描述,它证明在依据这种方法进行的体外扩增 中保持了各种RNA转录物的相对频率。另外,Eberwine等,Proc. Natl. Acad. Sci. USA, 89: 3010-3014提供了一个流程,即利用两轮体外转录的扩增得到 比原始起始材料大于106倍的扩增,由此即使生物学样品是有限的也可以进 行表达监测。
核酸样品或核酸探针的标记
核酸样品要进行标记以便检测与本发明阵列的杂交。任何附着或掺入分 子中的分析上可^^测的标记都可用于本发明。分析上可检测的标记涉及任何 在分析上可^r测或定量的分子、部分(moiety)或原子。
适用于本发明的可检测的标记包括任何通过光谱、光化学、生化、免疫 化学、电学、光学、或化学手段可检测的组合物。本发明中有用的标记包括 用生物素(用于经过标记的链霉亲合素偶联物的染色)、磁珠(例如
DynabeadsTM)、荧光染料(例如,荧光素、得克萨斯红、罗丹明、绿色荧光 蛋白、等等)、放射性标记(例如,3H、 125I、 35S、 "C、或"P)、酶(例如, 辣根过氧化物酶、碱性磷酸酶和常用于ELISA的其它酶)、以及比色标记例 如胶体金或有色玻璃或塑料(例如,聚苯乙烯、聚丙烯、乳胶、等等)珠。 教导这些标记应用的专利包括美国专利No. 3,817,837; 3,850,752; 3,939,350; 3,996,345; 4,277,437; 4,275,149;和4,366,2化以上全部内容藉引用纳入本 文。
检测这样的标记的方法是本领域技术人员熟知的。例如,放射性标记可 以利用照相胶片或闪烁计数器检测,荧光标记可以利用光检测器检测发射光 进行检测。酶标记一般通过给酶提供底物并检测在酶作用于底物生成的反应 产物进行检测,比色标记仅仅通过目测显色标记就可进行检测。
标记可通过本领域技术人员所公知的许多手段中的任意一种进行掺入。 然而,在一个实施方案中,标记是在制备样品核酸的扩增步骤中同时掺入的。 如此,例如,利用标记的引物或标记的核苷酸的聚合酴鲢式反应(PCR)可以 产生标记的扩增产物。在一个优选的实施方案中,如上所述,在转录扩增中 利用标记的核苷酸(例如荧光素标记的UTP和/或CTP)将标记掺入转录的核 酸。
或者,可以将标记直接地加入原始的核酸样品中(例如,mRNA、 polyA mRNA、 cDNA等等)或者在扩增完成后直接加入到扩增产物中。将标记附着 在核酸上的手段是本领域技术人员公知的,并且包括,例如,通过激化 (kinasing)核酸和后续的附着(连接)将样品核酸与标记(例如,荧光团)相 连的核酸接头,进行缺刻翻译或末端标记(例如,用标记的RNA)。
在另 一个实施方案中,荧光修饰是利用花青染料例如Cy-3/Cy-5 dUTP、 Cy隱3/Cy-5 dCTP(Amersham Pharmacia)、或alexa染料(Khan等,1998, Cancer Res. 58:5009-5013)。
在一个实施方案中,用来对比的两个核酸样品标记有不同的荧光染料, 其生成可区别的检测信号,例如,利用正常的肠细胞制备出的核酸样品标记 有Cy5,而用肠组织细胞制备的核酸样品用Cy3标记。不同标记的靶样品同 时杂交到相同的孩t阵列中。在一个优选的实施方案中,标记的核酸样品利用 本领域公知的方法进行纯化,例如,通过乙醇纯化或柱纯化。
在另一个实施方案中,核酸样品包括一种或多种对照分子,其与微阵列
上的对照探针杂交,对微阵列上产生的信号进行标准化。在一个实施方案中, 标记的标准化核酸样品是与点在如上所述的微阵列上的对照寡核苷酸完全 互补的核酸序列。在另一个实施方案中,标记的标准化核酸样品是与点在如
上所述的微阵列上的对照寡核苷酸99%、 98%、 97%、 96%、 95%、 90%、 85%、 80%或75°/。互补的核酸序列。杂交后从标准化对照获得的信号提供杂交条件、 标记强度、"读数"效率以及其它可能引起阵列间完全杂交信号不同的因素方 面变化的对照。在一个实施方案中,从该阵列全部其它探针读取的信号(例 如荧光强度)都除以对照探针的信号(例如荧光强度),藉此对测量结果进 行标准化。
选择优选的标准化核酸样品以反映样品中存在的其它核酸样品的平均 长度,然而,应选择其覆盖一个长度范围。还可以对标准化对照(们)进行 选择,使其反映阵列中其它探针的(平均)碱基组成,然而,在一个实施方 案中,只使用一种或少数标准化探针,选择其有很好的杂交(即没有二级结 构以及自杂交)并且不与阵列上的任何核酸匹配。
标准化探针定位在阵列的任何位置或在遍及阵列的多个位置,以便作为 杂交效率中空间变异的对照。在一个实施方案中,标准化对照定位于阵列的 角落或边缘以及中间。 杂交M
核酸杂交包括提供核酸样品,使样品与互补核酸成员在一定条件下通过 互补碱基配对可以形成稳定的杂合双链体。然后将不形成杂合双链体的核酸 洗去,剩余杂交的核酸进行检测,典型地通过检测所附着的可检测的标记进 行检测。普遍认为,核酸在升高温度或降低包含该核酸的緩沖液的盐浓度时 变性。在低严格条件(例如,低温和/或高盐)下能形成杂合双链体(例如, DNA:DNA、 RNA:RNA、或RNA:DNA),即使退火的序列不是完全互补的。 因此在较低的严格性下,杂交特异性降低。反之,在较高的严格性下(例如, 更高的温度或更低的盐度)下成功的杂交要求错配更少。
本发明提供的杂交条件包括Dig杂交混合液(Boehringer);或基于曱酰 胺的杂交溶液,例如上述Ausubel等以及上述Sambrook等所述的那样。
优化杂交条件的方法是本领域技术人员公知的(参见,例如,Laboratory Techniques in Biochemistry and Molecular Biology, Vol. 24: Hybridization With Nucleic acid Probes, RTijssen编,Elsevier, N.Y., (1993))。
杂交以后,未杂交的标记或未标记核酸可以方便地通过清洗从支持物表 面除去,藉此在基质表面产生杂交的靶核酸的样式。本领域公知多种清洗溶 液,都可以应用。得到的被标记的、杂交的寡核苷酸和/或核酸的杂交样式可 以通过各种方法来显现或检测,基于测试核酸的具体标记选择具体的检测方 式,其中代表性的检测手段包括闪烁计数、放射自显影、荧光测量、热量测 量、光发射测量等等。 图4象获取以及lt据^^斤
杂交和任何(多个)清洗步骤和/或后续处理以后,如上所述,对得到的 杂交样式进行检测。在检测或显现杂交样式时,标记的强度或信号值不但要 进行检测还要进行定量,意思是每个杂交点的信号都要进行测量并与对应于 已知数目的末端标记的靶核酸所发出的信号的单位值进行比较,以得到杂交 样式中杂交到阵列中特定点上的每种末端标记的靶物的拷贝数的计数或绝 对值。
分析收集自阵列杂交的数据的方法在本领域是^^知的。例如,如果杂交 检测包括荧光标记,那么数据分析可以包括确定荧光强度作为所收集数据的 基质位置的函数、除去逸出值即背离预先确定的统计分布的数据、并从剩余 数据中计算测试核酸的相对结合亲和力的步骤。得到的数据显示为图像,每 个区域的强度根据相结合的寡核普酸和/或核酸与测试核酸之间的结合亲和 力而变化。
随后的检测流程用于同时分析两个进行比较的样品,其中各个样品标记 有不同的荧光染料。
对微阵列的每个元素对一种焚光色进行扫描。每个阵列元素的荧光强度 与样品中该基因的表达水平成正比。再对第二种荧光标记进行重复的扫描操 作。两种荧光强度的比值提供两个样品中相对基因表达水平的非常精确和定 量的测量结果。
在一个优选的实施方案中,固定化的核酸序列的荧光强度是利用常规的
共焦显微镜所得到的图像确定的,该显微镜配备有激光激发源和适于Cy3和 Cy5荧光剂的千扰滤光片。对每种荧光剂在225^1112每像素分辨率以及65,536 灰度进行独立的扫描。利用图像分割法鉴定杂交面积、对两个荧光剂图像之 间的强度进行标准化、并计算标准化后的各个靶物的平均荧光值如所述的 (Khan等,1998, Cancer Res. 58:5009-5013. Chen等,1997, Biomed. Optics
2:364-374)。图像之间的标准化用来调整两种不同焚光剂的标记和检测中的 不同效率。这是通过将一组点在阵列上的内部对照基因的信号强度比值平衡 为值l来实现的。
在另一个优选的实施方案中,在Cy3和Cy5通道中对阵列进行扫描,并 存为独立的16位TIFF图像。利用软件对图像进行合并和分析,其包括格栅化 过程,以捕获阵列上每个点的杂交强度数据。收集每个点的荧光强度和减去 背景的杂交强度,并计算测量到的Cy5和Cy3的平均强度的比值。利用线性 回归方法进行标准化,并假定测量到的Cy5对Cy3强度的散点图应具有的斜 率为l。计算比值的平均值,用于重新调节数据,并调整斜率为l。表达比值 不等于l时被用作差异基因表达的指标。
在一个特定的实施方案中,期望对样品中 一种或多种核酸序列的转录水 平(和由此的表达)进行定量,该核酸样品中, 一种或多种基因的(多种) mRNA转录物的浓度,或衍生自(多个)mRNA转录物的核酸的浓度与该基 因的转录水平(及由此的表达水平)成正比。同样,优选的是杂交信号强度 与杂交的核酸的量成正比。尽管优选的是比例性是相对严格的(例如,转录 速率加倍导致样品核酸池中mRNA转录物加倍,并使得杂交信号加倍),但 是,本领域技术人员可以领会,比例性可以更宽松些,甚至是非线性的,仍 可以提供有意义的结果。因此,例如,样品mRNA浓度差5倍的检测导致杂 交强度出现3-6倍的差异也足以达到大多数目的。如果要求更精确的定量, 运行适当的对照以修正在如本文所述的样品制备和杂交中引入的变异。另 外,根据本领域技术人员公知的方法,利用"标准,,mRNA样品的连续稀释物 制定校准曲线。当然,如果只期望检测转录物的存在与否,就不需要精细的 对照或校准。
例如,如果阵列上的核酸成员在杂交后没有标记上,这表明在任一样品 中,包含该核酸成员的基因没有表达。如果核酸成员标记为单色,这表明标 记的基因只在一个样品中表达。构成阵列的核酸成员标记为两种颜色,表明 基因在两个样品中都表达。甚至每个细胞中只表达一次的基因也可以检测出 来(100,000分之一的灵敏度)。进行比较的两个样品中表达强度的差异指示 差异表达,两个样品中强度的比值不等于l.O,大于l.l、 1.2、 1.3、 1.4、 1.5、 1.6、 1.7、 1.8、 2.0、 3.0、 4.0等等,或小于0.9、 0.8、 0.7、 0.6、 0.5、 0.4、 0.3、 0.2等等。PCR
在本发明的一方面,本发明的生物标志的RNA产物的表达水平可以首先 利用逆转录(RT)扩增样品中的生物标志的RNA产物进行测量。要么作为联合 步骤,或者作为第二反应步骤,可以利用聚合酶链式反应(PCR)扩增逆转录 产物。根据本发明的一个实施方案,PCR可以是如本领域技术人员所理解的 QRT-PCR。
样品中的总RNA、或mRNA被用作模板,利用对本发明的生物标志的转 录部分具有特异性的引物启动逆转录。将RNA逆转录成cDNA的方法是众所 周知的,并记载在上述的Sambrook等,1989中。引物设计可以利用商品化软 件(例如,Primer Designer 1.0, Scientific Software等)实现。接着将逆转录的 产物用作PCR的模板。
PCR提供了一种快速扩增特定的核酸序列的方法,该方法是通过热稳定 的、DNA依赖性的DNA聚合酶催化的多循环DNA复制来扩增感兴趣的耙序 列。PCR要求存在待扩增的核酸、待扩增序列侧翼的两种单链寡核苷酸引物、 DNA聚合酶、脱氧核糖核苷三磷酸、緩冲液和盐。
PCR方法为本领域所公知。按照Mullis和Faloona, 1987, Methods Enzymol., 155: 335中所述的方法进行PCR,该文献藉引用纳入本文。利用模 板DNA(至少lfg;更有用地,1-1000 ng)和至少25pmol的寡核苦酸引物进 行PCR。典型的反应混合物包括2ml的DNA, 25 pmol的寡核苷酸引物,2.5 ml的10HPCR緩冲液l (Perkin-Elmer, Foster City, CA), 0.4 ml的1.25 mM dNTP, 0.15 ml (或2.5单位)的Taq DNA聚合酶(Perkin Elmer, Foster City, CA)和去离子水至总体积约25 ml。加盖矿物油,利用可编程热循环仪进行 PCR。
根据有效的严格性要求调整PCR循环中的每个步骤的时间长度和温度, 以及循环数。退火温度和时间取决于引物与模板预期的退火效率,以及可容 许的错配程度。本领域具有中等技术水平的人员完全具有优化引物退火条件 严格性的能力。使用的退火温度界于30。C和72。C之间。通常在界于92。C和 99。C之间4分钟起始模板分子变性,然后进行20-40个由变性(94-99°C, 15 秒至l分钟)、退火(依照上述讨论确定温度;l-2分钟)、以及延伸(72°C, l分钟)组成的循环。最后的延伸步骤通常在72。C进行4分钟,并且可以继之 以4。C的时间不确定的(0-24小时)步骤。
也可以运行QRT-PCR (定量实时RT-PCR)来提供基因表达水平的定量 测量。类似于逆转录PCR, QRT-PCR逆转录和PCR可以分为两个步骤进行, 或者逆转录联合PCR同时进行。该技术中的一种是利用转录物特异性反义探 针进行,有商品化的试剂盒,例如Taqman (PerkinElmer, Foster City, CA)。 该探针对于PCR产物(例如衍生自基因的核酸片段)具有特异性,并利用复 合到寡核苷酸5,末端的淬灭剂和荧光报告探针来制备。将不同的焚光标记附 着至不同的报告物,从而容许在一个反应中对两种产物进行测量。当Taq DNA聚合酶被活化时,它依靠其5,至3,外切核酸酶活性切除结合到模板上的 探针的荧光报告基因。淬灭剂不存在的情况下,报告基因立刻发出焚光。报 告基因中的颜色变化与每种特定产物的量成正比,并利用荧光计进行测量; 因此,测量每种颜色的量并对PCR产物进行定量。PCR反应可在96孔平板、 384孔平板等等中进行,使得衍生自多个个体的样品同时处理和测量。Taqman 系统具有额外的优点,即不需要凝胶电泳,而且容许在与标准曲线一起使用 时进行定量。
另 一种对于定量检测PCR产物的方法是利用intercolating染料,例如商品 化的QuantiTect SYBR Green PCR (Qiagen , Valencia California) 。 QRT-PCR利 用SYBRgreen作为焚光标记来进行,其在PCR阶段掺入PCR产物,并且产生 的荧光与PCR产物的量成正比。
Taqman和QuantiTect SYBR系统都可以在RNA逆转录之后使用。逆转录 可以在PCR步骤的相同反应混合物中进行(一步流程),也可以在利用PCR 扩增之前首先进行逆转录(两步流程)。
另外,已知有其它的定量测量mRNA表达产物的系统,包括Molecular Beacons ,其利用具有荧光分子和淬灭分子的探针,该探针能够形成发夹结 构,使得在发夹形式时,荧光分子被淬灭,当杂交时,荧光增加,给出基因 表达的定量测量。
其他定量测定RNA表达的技术包括但不限于聚合酶链式反应、连接酶链 式反应、Qbeta复制酶(参见,例如,国际申请号PCT/US87/00880 )、等温扩 增法(参见例如Walker等(1992) PNAS 89:382-396 )、链置换扩增(SDA)、 修复链反应、不对称定量PCR (参见例如美国专利No. US20030134307A1) 和Fuja等,2004, Journal of Biotechnology 108:193-205所述的多元微球珠才企 测。 基因表达水平可以通过利用基于转录的扩增系统(TAS),包括核酸序 列扩增(NASBA)和3SR扩增样品中的RNA进行测量。参见,例如Kwoh等(1989) PNAS USA 86:1173;国际公开号WO 88/10315;以及美国专利No. 6,329,179。 在NASBA中,用于扩增的核酸的制备如下利用常规酚/氯仿抽提;热变性; 用裂解緩沖液处理;用于分离DNA和RNA的微型旋转柱;或RNA的盐酸胍 抽提。这些扩增技术包括具有靶特异性序列的引物的退火。聚合后,用RNA 酶H消化DNA/RNA杂合物,而双链DNA分子则再次热变性。在任一情况下, 单链DNA都通过添加第二靶特异性引物后再进行聚合使其完全变成双链。然 后通过聚合酶如T7或SP6使双链DNA分子倍增转录。在等温循环反应中, RNA被逆转录成双链DNA,并用聚合酶如T7或SP6转录一次。得到的产物, 无论是截短的或完整的,都表明了靶特异性序列。
有数种技术可以用来分离扩增产物。例如,可以利用常规方法通过琼脂 糖、琼脂糖-丙烯酰胺或聚丙烯酰胺凝胶电泳来分离扩增产物。参见Sambrook 等,1989。 一些不使用电泳的定量检测PCR产物的方法也可以用于本发明(参 见例^口PCR Protocols, A Guide to Methods and Applications, Innis等,Academic Press, Inc. N.Y., (1990))。例如,层析技术可以用于进行分离。有许多种层 析法可以用于本发明吸附层析、分配层析、离子交换层析和分子筛层析、 HPLC、和多种利用它们的专用技术,包括柱层析、纸层析、薄层层析和气 相层析(Freifelder, Physical Biochemistry Applications to Biochemistry and Molecular Biology,第二版,Wm. Freeman and Co., New York, N.Y., 1982)。
分离方法的另一个例子是通过利用各种类型的小分子配体共价标记用 于PCR反应中的寡核苷酸引物进行的。在一种这样的分离方法中,每种寡核 苷酸上存在不同的配体。如果配体是生物素,特异地结合配体之一的分子, 也许是抗体或亲合素,用于包被平板如96孔ELISA平板的表面。在将PCR^ 应用于这样制备的平板的表面时,PCR产物特异性地结合到表面。在清洗平 板以除去未结合的试剂后,加入含有结合第一配体的第二分子的溶液。该第 二分子与某种报告系统相连。如果两种寡核苷酸引物都掺入到了最终的PCR 产物中,这样的PCR产物已经生成的话,第二分子只结合到平板上。然后在 商业性的平板读数器下检测PCR产物并定量,就象ELISA反应的检测和定量 一样。Raggio Italgene公司已经以C-Track的商品名开发出了所述的类似 ELISA的系统。
扩增产物必须经过显象,以便确认目的核酸序列的扩增。 一个典型的显 现法包括用溴化乙锭使凝胶染色,并在紫外光下显现。或者,如果扩增产物 用方文射性或荧光标记的核苷酸整体地进行了标记,分离后的扩增产物可以在
x射线胶片上曝光,或在适当的激发光语下显现。
在一个实施方案中,显象是间接完成的。分离扩增产物后,将标记的核 酸探针与扩增的目的核酸序列接触。在一个实施方案中,探针偶联有发色团, 但可以是放射性标记的。在另一个实施方案中,探针偶联有结合配偶物,例
如抗体或生物素,其中结合对的另 一个成员携带可;^测的部分。
在另 一个实施方案中,检测是通过与标记的探针进行Southern印迹和杂 交。Southem印迹所涉及的技术是本领域技术人员公知的,并且可以在许多 关于分子流程的标准书籍中看到。参见上述的Sambrook等,1989。简单来说, 将扩增产物通过凝胶电泳分离出来。然后将凝胶与膜,如硝酸纤维素膜接触, 使得核酸转移并发生非共价结合。接着,将膜与能够和靶扩增产物杂交的偶 联有发色团的探针一起温育。将膜在X射线胶片上曝光或利用离子放射检测 装置进行检测。
上文的一个例子记述于美国专利No. 5,279,721,该专利藉引用纳入本文, 其公开了使得核酸电泳和转移自动化的仪器和方法。该仪器使得电泳和印迹 不需要对凝胶有外部操作,理论上适于实施本发明的方法。
本发明的一个实施方案包括表4、 6、 16或17中的引物和探针,其可用于 测定本发明生物标志的表达。 核酸酶保护试验
在本发明的另一个实施方案中,核酸酶保护试验(包括核糖核酸酶保护 试^r和Sl核酸酶试-睑)可用于^r测和定量本发明的生物标志的RNA产物。在 核酸酶保护试验中,反义探针(例如放射性标记的或非同位素标记的)在溶 液中与RNA样品杂交。杂交后,单链的、未杂交的探针和RNA被核酸酶所降 解。用丙烯酰胺凝胶分离剩余的受保护的片段。 一般地,溶液杂交比基于膜 的杂交的效率更高,并且它可以容纳高达100pg的样品RNA,而点杂交的最 大样品量为20-30 pg。
核糖核酸酶保护试验是最常见的核酸酶保护试验,它需要用到RNA探 针。寡核苷酸及其它单链DNA探针只能用于包含S1核酸酶的试验中。单链的、 反义探针典型的必须与把RNA完全同源以阻止探针:靶物杂合物被核酸酶裂 解。
Northern印迹
根据本领域普通技术人员公知的常规Northem杂交技术,标准的Northern 印迹试验还可以用来确定RNA转录物大小,鉴定可变剪切的RNA转录物,以 及本发明的生物标志的RNA产物的相对量。在Northem印迹中,首先在变性 条件下在琼脂糖凝胶中利用电泳将RNA样品按大小分离。然后将RNA转移到 膜上,交联,并与标记的探针杂交。可以使用非同位素的或高比放射性的放 射性标记的探针,包括随机引发的、缺刻翻译的、或PCR产生的DNA探针、 体外转录的RNA探针、和寡核苷酸。另外,只有部分同源(例如,从可能包 含外显子的不同物种或基因组DNA片段得到的cDNA )的序列也可以用作探 针。标记的探针,例如,放射性标记的cDNA,或者包含全长的单链DNA, 或者该DNA序列的片段,其长度可以为至少20、至少30、至少50、或至少100 个连续的核苷酸。探针可以利用本领域公知的的许多不同方法中的任何一种 进行标记。最常用于这些研究的标记是放射性元素、酶、在紫外光下能发出 荧光的化学药品、等等。已知有许多荧光材料并可以用作标记。这些包括, 但不限于荧光素、罗丹明、金胺、得克萨斯红、AMCA蓝和Lucifer黄。一 种特定的检测材料是在山羊中制备的抗兔抗体,并通过异硫氰酸盐与荧光素 偶联。蛋白还可用放射性元素或酶进行标记。通过现用的任何一种计数操作 都可以对放射性标记进行检测。同位素的非限制性的例子包括SH、 14C、 32P、 35S、 36C1、 51Cr、 57Co、 58Co、 59Fe、 90Y、 125I、 mI、和賜Re。酶标记同样有 用,并可以通过任何现用的比色法、分光光度法、荧光分光光度法、测量电 流或气体定量的技术进行检测。酶与所选择的微粒通过与桥联分子如碳化二 亚胺、二异氰酸盐、戊二醛等等反应而偶联在一起。本领域技术人员公知的 任何酶都可以使用。这样的酶的例子包括但不限于过氧化物酶、(3-D-半乳 糖苷酶、脲酶、葡萄糖氧化酶加过氧化物酶、以及碱性磷酸酶。美国专利No. 3,654,090; 3,850,752;以及4,016,043以例举的方式引入,因为它们公开了其 它的标记材料和方法。
(N)测定本发明的生物标志的蛋白产物的方法 基于抗体的方法
标准技术还可用于确定样品中存在的所关心的一种或多种蛋白的量。例
如,可以采用利用免疫测定,如Western印迹、免疫沉淀法继之以十二烷基石克 酸钠聚丙烯酰胺凝胶电泳(SDS-PAGE )、免疫细胞化学等等的标准技术来确 定样品中存在的所关心的一种或多种蛋白的量。检测目的蛋白的一种优选试 剂是能够与目的蛋白结合的抗体,在一个实施方案中。抗体带有可检测的标 记。
对于这样的检测方法,待分析的样品中的蛋白可以利用本领域技术人员 公知的方法很容易地分离出来。例如,蛋白质分离方法可以是记载在Harlow 和Lane的著作(Harlow, E.和Lane, D., Antibodies: A Laboratory Manual, Cold Spring Harbor Laboratory Press, Cold Spring Harbor, New York (1988))中的方法。
在一些实施方案中,检测一种或多种目的蛋白的方法包括借助于它们与 蛋白特异性抗体的相互作用进行检测。例如,针对目的蛋白的抗体可以用于 本发明。抗体可以利用本领域技术人员公知的标准技术产生。例如,可参见 本申请的15.13.2节和美国公开号20040018200的5.2节以得到对于这种抗体产 生方法的更详细论述,该专利藉引用纳入本文。简单来说,这样的抗体可以 是多克隆的或单克隆的。例如,可以使用完整的抗体,或者抗体片段(例如, Fab或F(ab,)2 )。在一些实施方案中,抗体是人抗体或人源化抗体。
表5和表15显示了在本发明的一个实施方案中用于检测本发明的生物标 志的蛋白的抗体。
例如,对目的蛋白具有特异性的抗体或抗体片段可用于定量或定性检测 该蛋白的存在。这可以通过例如免疫荧光技术来完成。另外,抗体(或其片 段)可以在组织学上应用,如在免疫荧光或免疫电子显微术中,用于原位检 测目的蛋白。原位检测可以通过从患者身上切下组织学标本(例如,活检标 本)并向其应用针对某种蛋白的标记的抗体。抗体(或片段)可以通过将该 标记抗体(或片段)覆盖在生物学样品上的方式应用。通过利用这种操作, 有可能不但确定目的蛋白的存在,还确定它的分布,即它在样品内的细胞(例 如,肠细胞和淋巴细胞)中的存在。可以使用多种公知的组织学方法(如染 色方法)以便完成这种原位检测。
对目的蛋白的免疫测定一般包括将生物学样品与能够鉴定目的蛋白的 带有可检测标记的抗体一起温育,并且通过本领域公知的许多方法中的任何 一种检测结合的抗体。如下面更详细地论述的那样,术语"标记的"可以指抗体的直接标记,例如通过将抗体偶联(即物理地连接)可检测的物质,还可 以指抗体的间接标记,即通过与直接标记的另一试剂的反应性。间接标记的 例子包括利用荧光标记的第二抗体(二抗)来检测第一抗体(一抗)。
例如,可以使生物学样品与固相支持物或栽体,如硝酸纤维素或其它的 能够固定细胞、细胞微粒或可溶蛋白的支持物接触并且固定在上面。然后用 适当的緩冲液清洗支持物,再用可检测标记的指紋基因特异性抗体处理。然 后,固相支持物可以用緩冲液再洗第二次以除去未结合的抗体。然后就可以 通过传统手段来检测支持物上结合的标记的量。
蛋白试剂上下文中的"固相支持物或载体"指任何能够结合抗原或抗体 的支持物。公知的支持物或载体包括玻璃、聚苯乙烯、聚丙烯、聚乙烯、右 旋糖苷、尼龙、淀粉酶、天然的和修饰的纤维素、聚丙烯酰胺、辉长岩、以 及,兹铁矿。为达到本发明的目的,载体的性质可以是在某种程度上可溶的或 者不溶的。支持物材料可以具有实质上任何可能的结构构造,只要偶联的分 子能够与抗原或抗体结合。因此,支持物的构造可以是球形,如珠子,或者 圓柱体,如试管的内表面或者棒的外表面。或者,表面可以是平坦的,如薄 片、试验条、等等。优选的支持物包括聚苯乙烯珠。本领域技术人员知道许 多其它适当的载体用于结合抗体或抗原,或能够通过常规实验确定这一点。
特异性抗体可以进行;险测地标记的一种方法是将该抗体与酶连接并用 于酶免疫观'J定(EIA) (Voller, A., "The Enzyme Linked Immunosorbent Assay (ELISA)" , 1978, Diagnostic Horizons 2:1-7, Microbiological Associates Quarterly Publication, Walkersville, MD); Voller, A.等,1978, J. Clin. Pathol. 31:507-520; Butler, J.E., 1981, Meth. Enzymol. 73:482-523; Maggio, E.(编), 1980, Enzyme Immunoassay, CRC Press, Boca Raton, FL; Ishikawa, E.等, (编),1981, Enzyme Immunoassay, Kgaku Shoin, Tokyo)。与抗体结合的酶 会与适当的底物反应,在一个实施方案中,底物是显色底物,如此生成可以 被检测的化学部分,检测的方法如分光光度法、荧光法或目测。可用于可检 测标记抗体的酶包括但不限于苹果酸脱氬酶、葡萄球菌核酸酶、5-5-类固 醇异构酶、酵母醇脱氢酶、a-甘油磷酸酯脱氢酶、磷酸丙糖异构酶、辣根过 氧化物酶、碱性磷酸酶、天冬酰胺酶、葡萄糖氧化酶、(3-半乳糖苷酶、核糖 核酸酶、脲酶、过氧化氢酶、葡萄糖-6-磷酸脱氢酶、葡糖淀粉酶和乙酰胆碱 酯酶。可利用比色法进行检测,它是给酶使用显色底物。还可以通过将底物
还可以利用任何一种其它的免疫测定方法进行检测。例如,凭借放射性
标记抗体或抗体片段,有可能通过利用放射免疫测定(RIA)检测目的蛋白(例 ^口参见"Weintraub, B., Principles of Radioimmunoassays, Seventh Training Course on Radioligand Assay Techniques, The Endocrine Society, March, 1986,
该文藉引用纳入本文)。放射性同位素(例如,125I、
131I、 358或3印可以通过诸 如利用Y计数器或闪烁计数器或通过》文射自显影的手段进行检测。
也有可能用荧光化合物对抗体进行标记。当荧光标记的抗体在适当的波 长下曝光时,由于荧光可以检测到其存在。最常用的荧光标记化合物是异硫 氰酸荧光素、罗丹明、藻红蛋白、藻蓝蛋白、别藻蓝蛋白、邻苯二醛和荧光 胺。
还可以利用发射荧光的金属如1 "Eu或其它的镧系元素来可检测地标记 抗体。可以利用金属螯合基团如二乙烯三胺五乙酸(DTPA)或乙二胺四乙酸 (EDTA)将这些金属附着在抗体上。
还可以将抗体与化学发光的化合物偶联对其进行可检测地标记。然后通
存在。特别有用的化学发光标记化合物的例子是鲁米诺、异鲁米诺、theromatic 吖啶酯、咪唑、吖啶盐和草酸酯。
同样地,生物发光的化合物也可用于标记本发明的抗体。生物发光是一 类在生物学系统中发现的化学发光,其中一种催化性蛋白提高化学发光反应
的效率。生物发光蛋白的存在通过检测发光的存在得以确定。可用于标记的
重要的生物发光化合物有萤光素、萤光素酶和水母发光蛋白。
蛋白阵列
可以固定在蛋白质阵列上。蛋白质阵列可以作为工具使用,例如,用于检验 个体样品(如分离的细胞、组织、淋巴、淋巴组织、血液、滑液、血清、活 检、等等)中本发明生物标志的蛋白质产物多肽的存在。蛋白质阵列还可以 包括抗体以及其它配体,例如结合本发明生物标志编码的多肽的抗体或配体。
生成多肽阵列的方法有记载,如De Wildt等,2000, Nature Biotech. 18:989-994; Lueking等,1999, Anal. Biochem. 270:103-111; Ge, 2000, Nuc.Acids Res. 28:e3; MacBeath和Schreiber, 2000, Science 289:1760-1763;国际
发明者刘宗正, 张宏伟, 托马斯·雅格尔, 赵承恩, 润 郑, 韩晓雁 申请人:基因信息股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1