预测和检测癌症风险的方法

文档序号:467425阅读:586来源:国知局
预测和检测癌症风险的方法
【专利摘要】本文公开了使用与癌症风险相关联的遗传标志(如体细胞基因组改变(SGA))来预测和检测癌症风险的方法。本文还公开了基于使用与食管腺癌(EA)风险相关联的SGA来预测和检测EA风险的方法。
【专利说明】预测和检测癌症风险的方法
[0001] 政府资助
[0002] 本文所描述的工作至少一部分是由NIH挑战拨款号1RC1CA146973和NIH POl拨 款号2P01CA0951955支持的。因此,美国政府享有本发明的一定权利。

【技术领域】
[0003] 本公涉及于使用指示癌症风险的遗传标志(如体细胞基因组改变(SGA))来预测 和检测癌症风险的方法。更具体地说,本公涉及于基于使用与食管腺癌(EA)风险相关联的 SGA来预测和检测EA风险的方法。
[0004] 附图简述
[0005] 图1是示出基于样本活检SGA分析数据和癌症风险预测模型初始指定为高风险 (顶线)、中风险(中线)和低风险(底线)的风险分级患者的EA的5年进展的卡普兰-梅 耶(Kaplan-Meier ;KM)曲线图。
[0006] 图2是示出初始指定为中风险组,然后使用来自第二内窥镜检查的数据重新指定 为高风险(顶线)、中风险(中线)和低风险(底线)的患者的EA进展的KM曲线图。
[0007] 图3是基于样本活检SGA分析数据的KM曲线图,其示出从基线评估(或首次活 检)开始经过250个月的时间间隔收集的三个EA风险组的样本活检数据。使用癌症风险 预测模型将受试者分级为3个风险组:高风险(顶线)、中风险(中线)和低风险(底线)。
[0008] 发明详述
[0009] 本文公开了预测和检测受试者的癌症风险的方法。在特定实施方案中,本文所公 开的方法可以用于预测和/或检测受试者的EA风险。本文所公开的方法包括分析来自受试 者的样本中某些生物标志(包括SGA)的存在或不存在,以及开发癌症风险预测模型用于计 算用来预测和检测受试者的EA风险的风险评分的进一步方法。在某些实施方案中,受试者 的EA风险的预测和/或检测可以用于推荐治疗或预防策略或者预测疾病的可能结果。在 其它实施方案中,本文所公开的方法可以允许将处于EA风险中的个体或被诊断出EA的个 体评估、分类和/或分级为不同的风险子组。
[0010] 定义
[0011] 术语"体细胞基因组改变"或SGA指的是在受试者的寿命当中已经积聚在细胞的 基因组中的D NA序列变化或异常。S G A包括点突变、缺失、基因融合、基因扩增、易位、拷贝数 增加、拷贝数丢失、拷贝中性杂合性丢失、纯合性缺失和染色体重排。在一些情况下,这些突 变是良性的并且在正常寿命当中不会进展到疾病,然而,在其它情况下,其可能导致疾病, 如癌症。
[0012] 术语"拷贝数"指的是在一个或多个遗传基因座处的DNA拷贝数。拷贝数测量可 以评估样本是否具有任何基因组拷贝数改变,即,含有遗传基因座的扩增和缺失。扩增和缺 失可以影响遗传元件的一部分、整个元件,或同时影响许多元件。拷贝数分析不一定确定扩 增或缺失的确切数目,而是鉴定含有遗传改变的那些区域,以及这种改变是否是相较于受 试者的组成性基因组的缺失或扩增。在一些实施方案中,拷贝数可以在受试者的健康的正 常细胞中测量,并且与同一受试者的疑似或靶向患病细胞相比较。
[0013] 如本文所用的术语"拷贝数变异"或CNV(在生殖系细胞中)以及"拷贝数改变"或 CNA(在体细胞中)指的是结构性遗传变异,包括相较于参考基因组序列的DNA的特定区段 的拷贝数添加或缺失。术语拷贝增加指的是相较于受试者的组成性基因组展示出DNA的增 力口、添加或加倍的染色体节段。拷贝增加可以是等位基因特异性拷贝增加,其中特异性等位 基因被扩增或加倍。拷贝增加还可以包括平衡拷贝增加,其指示了使母本和父本染色体以 相等数目加倍的染色体区域或全染色体。术语拷贝丢失指的是相较于受试者的组成性基因 组展示出DNA的丢失或缺失的染色体节段。拷贝丢失可以是等位基因特异性拷贝丢失,其 中缺失了特异性等位基因。
[0014] 术语"拷贝中性杂合性丢失"或cnLOH,或者单亲二体指的是由母本(单母本)或 父本(单父本)染色体或染色体区域的加倍以及其它等位基因的同时丢失而引起的杂合性 丢失。在某些情况下,cnLOH可以具有获得性克隆衍生,这是由早期有丝分裂错误和同接合 性所引起。或者,当生物体由于减数分裂I或减数分裂II中的错误从一个亲本接受染色体 或一部分染色体的两个拷贝并且没有从另一个亲本接受拷贝时,cnLOH可以具有组成性非 克隆衍生。这种杂合性丢失可以得到非功能性等位基因。术语纯合性缺失(HD)指的是一 对同源染色体的相同等位基因或相同染色体区段的两个拷贝的缺失。
[0015] 核酸阵列("阵列")包含附接到固体支撑物的核酸探针。阵列通常包含多个不同 的核酸探针,这些核酸探针偶合到底物表面的不同已知位置处。这些阵列,也被描述为SNP 阵列、DNA微阵列、DNA芯片、生物芯片等,在本领域中已作一般描述。例如,这些阵列一般可 以使用机械合成法或光引导的合成法来产生,光引导的合成法合并了光刻法与固相合成法 的组合。尽管可以使用平面阵列表面,但阵列可以在几乎任何形状的表面上或甚至多重表 面上制造。阵列可以是小珠、凝胶、聚合物表面以及纤维(如光纤)、玻璃或任何其它适当底 物上的核酸。在某些实施方案中,可以使用单核苷酸多态性(SNP)将阵列设计成覆盖整个 基因组。
[0016] "探针"是可以被特定目标识别的表面固定的分子。在某些实施方案中,探针指的 是被设计成与SNP微阵列或本领域中已知的任何其它微阵列相结合使用的寡核苷酸,这些 微阵列能够在适当条件下选择性地杂交目标序列的至少一部分。一般来说,探针序列被鉴 定为互补的(即,与编码或有义链(+)互补),或反向互补的(即,与反义链(_)互补)。探 针可以具有约10-100个核苷酸或约15-75个核苷酸,或者约15-50个核苷酸的长度。
[0017] 术语"杂交"指的是在核酸序列之间形成复合物,这些核酸序列是充分互补的以经 由沃森-克里克碱基配对(Watson-Crick base pairing)或非经典碱基配对来形成复合 物。例如,当引物与目标序列(模板)杂交时,此类复合物(或杂交体)是充分稳定的以起 到例如DNA聚合酶所需要的引发功能,来起始DNA合成。杂交序列不需要具有完美的互补 来提供稳定杂交体。在许多情况下,在少于约10 %的碱基错配的情况下形成稳定杂交体。 如本文所用的术语"互补"指的是在试验条件下与其补体形成稳定双链体的寡核苷酸,一 般是在存在约80%、约81 %、约82%、约83%、约84%、约85%、约86%、约87%、约88%、 约 89%、约 90%、约 91 %、约 92%、约 93%、约 94%、约 95%、约 96%、约 97%、约 98%或约 99%以上的同源性的情况下。本领域的技术人员了解如何估算和调整杂交条件的严格性以 使得至少具有所需互补水平的序列稳定地杂交,而具有更低互补性的那些不会杂交。杂交 条件和参数的实例是众所周知的(Ausubel,1987;Sambrook和Rus sell,2001)。
[0018] 术语"作标记"和"用可检测标记作标记"可互换使用并且特指实体(例如,DNA片 段、引物或探针)可以例如在结合到另一个实体(例如,扩增产物)之后被目测。可检测标 记可以经过选择以使得标记产生可以被测量并且强度与所结合实体的量有关(例如,成比 例)的信号。用于标记和/或检测如引物和探针的核酸分子的多种多样的系统是众所周知 的。经标记的核酸可以通过并有或偶联标记来制备,这种标记可直接或间接地通过光谱学、 光化学、生物化学、免疫化学、电学、光学和化学或其它手段来检测。适合的可检测剂包括放 射性核素、荧光团、化学发光剂、微粒、酶、比色标记、磁性标记、半抗原,等等。
[0019] 术语"受试者"或"患者"涵盖哺乳动物和非哺乳动物。哺乳动物的实例包括:人 类、其它灵长类动物,如黑猩猩以及其它猿和猴物种;农畜,如牛、马、绵羊、山羊、猪;家畜, 如兔、狗和猫;实验动物,包括啮齿动物,如大鼠、小鼠和天竺鼠。非哺乳动物的实例包括鸟 和鱼。
[0020] 术语"治疗"意味着预防性地和/或治疗性地减轻、缓和或改善疾病或病状的症 状,预防额外的症状,改善或预防症状的潜在代谢病因,抑制疾病或病状(例如阻止疾病或 病状的发展),缓解疾病或病状,引起疾病或病状的消退,缓解由疾病或病状引起的病状,或 终止疾病或病状的症状。
[0021] 术语"连锁不平衡"指的是在两个或更多个基因座处等位基因的非随机关联。
[0022] SGA 分析
[0023] 本文所公开的方法提供了基于一个或多个SGA的存在或不存在来检测或预测癌 症风险。用于本文所公开的方法的SGA包括例如CNA,如拷贝增加和拷贝丢失,以及cnLOH 和HD。一般来说,许多巴雷特氏食管(Barrett' s esophagus)患病者的体细胞基因组具 有一些SGA,并且没有进展到EA的大多数个体经过很长的时间段主要维持基因组完整性, 通常没有高水平的cnLOH或大的染色体增加和丢失。然而,进展到癌症的那些人可能显现 显著增加的SGA、增加的异质性以及高度相关的染色体事件,这些事件涉及与进展到EA的 风险相关联的大部分基因组。
[0024] 本文所公开的SGA的大小范围可以从单核苷酸到包括一部分或全部染色体的DNA 区段。在某些实施方案中,本文所公开的SGA的大小范围可以从1千碱基(kb)直到一个或 多个兆碱基(Mb),包括大的染色体区域。用于本文所公开的方法的SGA可以定位在一个或 多个染色体上。
[0025] 本文所描述的SGA分析可以通过本领域的技术人员已知的方法来进行。例如, SGA分析可以使用基于DNA测序的技术(如全基因组DNA测序)或通过基因组的某些部分 (如一个或多个特定染色体或特定染色体位置或区域)的DNA测序来进行。用于SGA分析 的额外方法可以包括使用DNA微阵列、SNP阵列、DNA芯片、生物芯片、阵列比较基因组杂交 (aCGH)以及其它微阵列技术。此外,SGA分析可以使用遗传标志来进行,这些遗传标志如单 核苷酸多态性(SNP)、限制性片段长度多态性(RFLP)、微卫星标志、简单序列重复(SSR)、简 单序列长度多态性(SSLP)、扩增片段长度多态性(AFLP)、多态DNA的随机扩增(RAPD)、可 变数目串联重复(VNTR),等等。用于本文所公开的方法的遗传标志可以是显性或共显性标 〇
[0026] 本文所公开的方法包括使用一个或多个获自受试者的基因样本用于SGA分析。在 某些实施方案中,基因样本可以包括例如生物流体或组织。生物流体的实例包括例如全血、 血清、血浆、脑脊髓液、尿液、泪液或唾液。组织的实例包括例如结缔组织、肌肉组织、神经组 织、上皮组织以及其组合。在特定实施方案中,基因样本可以从肿瘤或癌症组织提供。在其 它实施方案中,基因样本可以从癌前组织提供。在此类实施方案中,基因样本可以从具有癌 变前病状巴雷特氏食管(EA的前体)的受试者提供。在进一步的实施方案中,基因样本可 以从对照或参考组织提供。对照或参考样本可以是与肿瘤或癌症组织样本来自同一受试者 的正常健康组织样本或配对的正常健康组织样本。在一个实施方案中,基因样本可以是来 自具有巴雷特氏食管的受试者的食管并且与来自同一受试者的血液或胃样本配对的组织 活检体。
[0027] 在获得基因样本用于本文所公开的方法之后,可以根据标准惯例,如苯酚-氯仿 提取、盐析、无消化提取,或通过使用可商购的试剂盒,如DNEasy?或QIAAMP?试剂 盒(Qiagen,Valencia,Calif.),从样本中提取基因组DNA。然后可以对获自样本的DNA进 行修饰或改变以有利于分析。
[0028] 分离的DNA可以使用常规方法来扩增。适用的核酸扩增法包括聚合酶链反应 (PCR)以及PCR的变化,包括基于TAQMAN?的试验和逆转录酶聚合酶链反应(RT-PCR)。 所得扩增的DNA可以使用常规技术来纯化,如MINELUTE? 96 UF PCR纯化系统 (Qiagen)。在纯化之后,扩增的DNA可以使用声波处理或酶消化(如DNase I)来片段化。 在片段化之后,DNA可以用可检测标记作标记。
[0029] 在本文所公开的方法的特定实施方案中,一旦扩增的片段化的DNA用可检测 标记作标记,其就可以与微阵列杂交。微阵列可以含有可以用于如本文所公开的SGA 分析中的寡核苷酸、基因或基因组克隆。例如,微阵列可以含有检测突变或多态性,如 单核苷酸多态性(SNP)的寡核苷酸或基因组克隆。在特定实施方案中,SGA分析可以 使用SNP基因分型阵列或微阵列来进行。SNP基因分型阵列可以用于全基因组或靶向 SGA分析。微阵列可以使用本领域中已知的常规技术来制成。或者,可以使用可商购 的微阵列。可以使用的微阵列的实例是Illumina Omni Quad IM SNP阵列(Illumina Inc.,San Diego, CA)、AFFYMETR1X? GENECHIP.? Mapping IOOK Set SNP 阵 列(Af fymetrix, Inc., Santa Clara, Calif.)> Agilent Human Genome aCGH 微阵列 44B(Agilent Technologies, Inc., Santa Clara, Calif.)> Nimble gen aCGH 微阵列 (Nimblegen,Inc. , Madison, Wis.),等等。关于核酸阵列操作的评述包括Sapolsky等人 (1999)"High-throughput polymor phism screening and genotyping with high-density oligonucleotide ar rays.,'Genetic Analysis :Biomolecular Engineering 14: 187-192 ;Loc khart(1998) ^Mutant yeast on drugsNature Medicine 4:1235-1236; Fodor(1997) "Genes, Chips and the Human Genome"FASEB Jo urnal 11 :A879; Fodor (1997) "Massively Parallel Genomics." Scien ce 277 :393-395;以及 Chee 等人 (1996) "Accessing Genetic Inform ation with High-Density DNA Arrays.,'Science 274 :610-614,各者以引用的方式并入本文中。
[0030] 在杂交之后,可以洗涤微阵列以去除未杂交的核酸。在一些实施方案中,在洗涤 之后,在读取器或扫描仪中分析微阵列。读取器和扫描仪的实例包括GENECHIP⑩扫 描仪 3000G7(Affymetrix,Inc·)、A gilent DNA 微阵列扫描仪(Agilent Technologies, Inc.)、GENEP1X? 4000B(Molecular Devices, Sunnyvale, Calif.),等等。从微阵 列中所含的探针采集的信号可以使用可商购的软件来分析,如Illumina、Af fymetrix 或Agilent Technologies所提供的那些软件。例如,如果使用来自Affymetrix的 GENECHIP? 扫描仪 3000G7,那么可以使用 AF FYMETRIX? GEMECHiP? 操 作软件。AFFYMETRIX? GENECHIP ?.操作软件从检测来自所有探针的信号的 AFFYMETRIX? GENECH IP?扫描仪收集和提取原始或特征数据(信号)。从微阵 列收集的数据可以用于确定在基因样本中所提供的染色体DNA上的一个或多个基因座处 SGA的存在或不存在。此外,微阵列分析的结果可以用于鉴定与癌症风险相关联的SGA。
[0031] 用来预测和/或检测癌症风险的本文所公开的方法包括分析基因样本中一个或 多个与癌症风险具有显著相关性的SGA的存在或不存在。在特定实施方案中,本文所公开 的方法可以包括分析具有一个或多个SGA的特定染色体基因座或染色体区域,这一个或多 个SGA选自以下至少一者:拷贝增加、拷贝丢失、等位基因特异性拷贝丢失、等位基因特异 性拷贝增加、cnLOH、平衡增加和HD。本文所公开的方法检测癌症风险的能力可以通过使用 位于一个或多个染色体上的两个或更多个染色体基因座或区域的群组或组合来提高,其中 每个染色体基因座或区域包括一个或多个选自以下至少一者的SGA :拷贝增加、拷贝丢失、 等位基因特异性拷贝丢失、等位基因特异性拷贝增加、cnLOH、平衡增加和HD。在此类实施 方案中,将要检查某些SGA的存在或不存在的染色体区域可以包含1个、2个染色体区域直 至Ij 100个染色体区域,或更多。例如,染色体区域的群组可以包括2、3、4、5、6、7、8、9、10、11、 12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、 37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、 62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、 87、88、89、90、91、92、93、94、95、96、97、98、99、100个或更多个染色体区域,可以检查这些染 色体区域中某些SGA的存在或不存在,这些SGA如拷贝增加、拷贝丢失、cnLOH、平衡增加和 HD,或其组合。
[0032] 根据本文所公开的方法使用的SGA可以在人类基因组的一个或多个染色体区域 处发现。本文所公开的人类染色体区域的大小范围可以从约1个核苷酸到l〇〇kb、从1个核 苷酸到1Mb、从1个核苷酸到100Mb,以及从1个核苷酸直到并包括整个染色体。本文所公 开的SGA可以在人类细胞中的23对染色体(22对常染色体和一对性染色体)中的一者或 多者的短臂或长臂上的位置处发现。例如,本文所公开的SGA可以在人类染色体1、2、3、4、 5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22 以及性染色体X和 Y 中的一者或多 者上发现。
[0033] 本文所描述的染色体区域可以根据其染色体位置、染色体区间、细胞遗传图位置、 染色体序列图、基因位置等来鉴定或作标记。在某些实施方案中,关于特定染色体区域中 SGA的存在的阳性评分或结果可以通过鉴定染色体区域中的一个或多个SGA来确定。在其 它实施方案中,关于特定染色体区域中SGA的存在的阳性评分或结果可以通过鉴定所关注 的染色体区域的至少一个约IMb区段中的一个或多个特异性SGA来确定。特异性SGA的存 在可以被评定或报道为"是"或" 1",并且特异性SGA的不存在可以被评定或报道为"否"或 "0"。
[0034] 本文所描述的与增加的癌症风险相关联的染色体区域和SGA可以根据本领域中 已知的用于遗传相关性研究的方法来鉴定。在一些实施方案中,在一个或多个遗传标志,如 一个或多个SGA生物标志处的遗传变异或多态性可以预测个体是否处于疾病(如EA)的风 险中或易患上这种疾病。例如,一个或多个遗传标志与疾病表型的相关性可以通过使用全 基因组关联研究(GWAS)来鉴定。如本领域的技术人员一般所知,GWAS是跨越整个基因组 的遗传多态性的检查并且经过设计以鉴定与所关注的性状、表型或疾病相关联的遗传多态 性。例如,如果某些遗传多态性在患有所关注的疾病的个体中的频率较高或较低,那么这些 遗传变异可以被称为与疾病"相关联"。一般来说,与疾病相关的多态性可以直接引起疾病 和/或其可以与一个或多个可能影响疾病或疾病风险的遗传区域或元件处于连锁不平衡。
[0035] 在一些实施方案中,可能与增加的癌症风险相关联的遗传标志,如SGA生物标志, 可以使用病例对照研究来鉴定以发现可以用于分开和区分疾病进展者与非进展者的那些 SGA。可以使用统计分析来鉴定与增加的癌症风险显著相关的SGA生物标志的群组或组合, 并且可以使用一种或多种统计方法或操作,例如,仅出于举例的目的,顺序前向选择与自助 法、Cox比例风险回归模型、反向和前向逐步选择以及ROC(接受者操作特征)曲线下面积 (AUC),来鉴定与癌症风险相关联的个别的SGA和/或SGA的群组或组合。
[0036] 来自病例对照或病例队列研究的基因样本中的SGA的统计分析可以鉴定具有与 EA风险相关联的SGA生物标志的染色体区域。在一个此类实施方案中,使用例如顺序前向 选择与自助法对来自基因样本的SGA进行统计分析,可以用于鉴定相对大的染色体区域或 巨大区域,这些区域具有与EA风险相关联的SGA,例如以下至少一者:染色体13上介于染 色体位置20-115Mb之间的cnLOH SGA ;染色体15上介于染色体位置20-103Mb之间的拷贝 数增加SGA ;染色体17上介于染色体位置25-81Mb之间的拷贝数增加SGA ;染色体17上介 于染色体位置〇_23Mb之间的拷贝数丢失SGA ;染色体17上介于染色体位置0-23Mb之间的 cnLOH SGA ;以及染色体18上介于染色体位置0-36Mb之间的拷贝数增加SGA。
[0037] 风险预测模型
[0038] 用于检测或预测受试者的癌症风险的本文所公开的方法可以包括基于本文所公 开的染色体区域的某些组合的SGA分析的风险预测模型。来自本文所公开的染色体区域的 群组的SGA分析的评定结果可以通过统计分析来进一步检查并且然后组合并分组为可以 用于检测或预测癌症风险的癌症风险预测特征集。在特定实施方案中,染色体区域的群组 各自包含选自以下一者或多者的SGA类型:拷贝增加、拷贝丢失、cnLOH、平衡增加和HD或 其组合,其中染色体区域的群组的评定结果的全部或一部分的任何组合然后可以被组合和 /或相加在一起以提供可以用于检测或预测癌症风险的风险预测特征集。
[0039] 在某些实施方案中,来自染色体区域的群组的SGA分析的结果的总和可以与染色 体区域的群组的一个或多个子集的SGA分析的结果组合。在一个此类实施方案中,预测和 检测癌症风险的方法可以包括风险预测特征集,其包括来自一个或多个染色体区域的群 组的SGA分析结果的总和,这个总和然后可以与以下一者或多者组合:来自染色体区域的 拷贝增加SGA的结果的总和、来自染色体区域的HD SGA的结果的总和、来自染色体区域的 cnLOH SGA的结果的总和、来自染色体区域的拷贝丢失SGA的结果的总和,或来自染色体区 域的平衡增加SGA的结果的总和。在另一个此类实施方案中,这里仅出于举例的目的而呈 现,一种预测和检测癌症风险的方法可以包括风险预测特征集,其包括来自约86个染色体 区域(每个约IMb)的群组的SGA分析结果的总和,这个总和然后可以与以下一者或多者组 合:来自86个染色体区域的拷贝增加SGA的结果的总和、来自86个染色体区域的HD SGA 的结果的总和、来自86个染色体区域的cnLOHSGA的结果的总和、来自86个染色体区域的 拷贝丢失SGA的结果的总和、来自86个染色体区域的等位基因特异性拷贝增加的总和、来 自86个染色体区域的等位基因特异性拷贝丢失的总和,以及来自86个染色体区域的平衡 增加SGA的总和。
[0040] 可以在统计上检查一个或多个染色体区域的主要群组的SGA分析的结果以选择 SGA的子集或组群,这些子集或组群可以单独地或与来自染色体区域的主要群组的结果一 起分析以预测和/或确定受试者的癌症风险。在一些实施方案中,可以对来自染色体区域 的群组的SGA分析结果进行统计检查,例如组合的顺序前向选择和AUC,其中统计分析的结 果用于选择预测和/或检测癌症风险的风险预测特征集。在此类实施方案中,染色体区域 的群组的SGA分析的结果的统计检查可以用于选择预测和/或检测癌症风险的约1、2、3、4、 5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、 32、33、34、35个或更多个风险预测特征集。在一个特定实施方案中,这里仅出于举例的目的 而呈现,约86个染色体区域(每个约IMb)的群组的统计检查可以用于选择约29个风险预 测特征集。在此类实施方案的一个特定实例中,86个染色体区域(每个IMb)的群组的统计 检查可以用于选择29个风险预测特征集,其中这29个风险预测特征集可以如下:(1)染色 体6上在染色体位置l-2Mb处的等位基因特异性拷贝增加 SGA ; (2)染色体15上在染色体位 置70-71Mb处的等位基因特异性拷贝增加 SGA ; (3)染色体17上在染色体位置37-38Mb处 的等位基因特异性拷贝增加 SGA ; (4)染色体18上在染色体位置19-20Mb处的等位基因特 异性拷贝增加 SGA ; (5)染色体2上在染色体位置226-227Mb处的纯合性缺失SGA ; (6)染色 体6上在染色体位置29-30Mb处的cnLOH SGA ; (7)染色体6上在染色体位置146-147Mb处 的cnLOH SGA ; (8)染色体7上在染色体位置78-79Mb处的cnLOH SGA ; (9)染色体8上在染 色体位置138-139Mb处的cnLOH SGA ; (10)染色体11上在染色体位置38-39Mb处的cnLOH SGA ; (11)染色体11上在染色体位置IlO-IllMb处的cnLOH SGA ; (12)染色体13上在染色 体位置42-43Mb处的cnLOH SGA ; (13)染色体17上在染色体位置9-10Mb处的cnLOH SGA ; (14)染色体17上在染色体位置12-13Mb处的cnLOH SGA ; (15)染色体19上在染色体位置 48-49Mb处的cnLOH SGA ; (16)染色体1上在染色体位置36-37Mb处的等位基因特异性拷贝 丢失SGA ; (17)染色体9上在染色体位置O-IMb处的等位基因特异性拷贝丢失SGA ; (18)染 色体9上在染色体位置33-34Mb处的等位基因特异性拷贝丢失SGA ; (19)染色体17上在染 色体位置8-9Mb处的等位基因特异性拷贝丢失SGA ; (20)染色体9上在染色体位置65-66Mb 处的等位基因特异性拷贝丢失SGA ; (21) X染色体上在染色体位置42-43Mb处的等位基因特 异性拷贝丢失SGA ; (22) Y染色体上在染色体位置13-14Mb处的等位基因特异性拷贝丢失 SGA ; (23)来自86个染色体区域的所有拷贝丢失SGA的结果的总和;以及(24)来自86个 染色体区域的群组的所有SGA分析结果的总和;(25)染色体6上在染色体位置5-6处的等 位基因特异性拷贝增加 SGA ; (26)染色体5上在染色体位置93-94处的cnLOH SGA ; (27)染 色体11上在染色体位置50-51处的cnLOH SGA ; (28)染色体7上在染色体位置77-78处的 等位基因特异性拷贝丢失SGA ; (29)染色体12上在染色体位置45-46处的等位基因特异性 拷贝丢失SGA。
[0041] 预测和/或检测受试者的癌症风险的方法可以包括开发癌症风险预测模型,其包 括以下步骤:(1)从受试者获得配对样本(一个代表正常DNA,并且一个来自靶向组织或器 官,g卩,食管)或仅使用靶向器官;(2)分析样本的86个染色体区域的群组中SGA的存在或 不存在;(3)然后使用来自86个染色体区域的群组的SGA分析结果来选择如本文所公开的 风险预测特征集。在某些实施方案中,本文所公开的方法可以包括开发预测模型,其中如本 文所描述的风险预测特征集可以根据其对预测模型的重要性或价值来加权。例如,赋予风 险预测特征中的每一者的权重可以被设计成与其在预测受试者的EA风险中应具有的预测 能力成比例。在此类实施方案中,风险预测特征集中的每一者的权重可以是根据本领域的 技术人员已知的方法计算的正或负系数,这些方法如逻辑回归模型、神经网络、判别分析、 支持向量机以及其它分类模型。
[0042] 来自染色体区域的群组的SGA分析结果和/或所选的风险预测特征集然后可以用 于开发预测模型来计算癌症风险评分。在某些实施方案中,癌症风险评分可以使用公式(1) 来计算:

【权利要求】
1. 一种预测受试者的癌症风险的方法,所述方法包括: 从所述受试者获得基因样本; 确定来自所述基因样本的至少一个染色体区域中至少一个体细胞基因组改变(SGA) 的存在或不存在; 从所述至少一个染色体区域中选择至少一个风险预测特征; 提供癌症风险评分,其中所述癌症风险评分预示所述受试者的所述癌症风险。
2. 如权利要求1所述的方法,其中所述至少一个染色体区域中的所述至少一个SGA包 含以下至少一者:染色体13上介于染色体位置20-115Mb之间的cnLOH SGA ;染色体15上 介于染色体位置20-103Mb之间的拷贝数增加 SGA ;染色体17上介于染色体位置25-8IMb之 间的拷贝数增加 SGA ;染色体17上介于染色体位置0-23Mb之间的拷贝数丢失SGA ;染色体 17上介于染色体位置0-23Mb之间的cnLOH SGA ;以及染色体18上介于染色体位置0-36Mb 之间的拷贝数增加 SGA。
3. 如权利要求2所述的方法,其中所述至少一个染色体区域中的所述至少一个SGA进 一步包含表3中列出的SGA中的至少一者。
4. 如权利要求1所述的方法,其中所述至少一个染色体区域中的所述至少一个SGA选 自表3中列出的SGA中的至少一者。
5. 如权利要求1所述的方法,其中所述至少一个染色体区域中的所述至少一个SGA包 含表3中列出的SGA。
6. 如权利要求1所述的方法,其中所述至少一个风险预测特征选自表3中列出的SGA 中的至少一者。
7. 如权利要求1所述的方法,其中所述至少一个风险预测特征包含以下至少一者:染 色体6上在染色体位置l-2Mb处的等位基因特异性拷贝增加 SGA ;染色体6上在染色体位 置5-6Mb处的等位基因特异性拷贝增加 SGA ;染色体15上在染色体位置70-71Mb处的等 位基因特异性拷贝增加 SGA ;染色体17上在染色体位置37-38Mb处的等位基因特异性拷 贝增加 SGA ;染色体18上在染色体位置19-20Mb处的等位基因特异性拷贝增加 SGA ;染色 体2上在染色体位置226-227Mb处的纯合性缺失SGA ;染色体5上在染色体位置93-94Mb 处的cnLOH SGA ;染色体6上在染色体位置29-30Mb处的cnLOH SGA ;染色体6上在染色体 位置146-147Mb处的cnLOH SGA ;染色体7上在染色体位置78-79Mb处的cnLOH SGA ;染色 体8上在染色体位置138-139Mb处的cnLOH SGA ;染色体11上在染色体位置38-39Mb处 的cnLOH SGA ;染色体11上在染色体位置50-5 IMb处的cnLOH SGA ;染色体11上在染色体 位置IlO-IllMb处的cnLOH SGA ;染色体13上在染色体位置42-43Mb处的cnLOH SGA ;染 色体17上在染色体位置9-10Mb处的cnLOH SGA ;染色体17上在染色体位置12-13Mb处的 cnLOH SGA ;染色体19上在染色体位置48-49Mb处的cnLOH SGA ;染色体1上在染色体位置 36-37Mb处的等位基因特异性拷贝丢失SGA ;染色体9上在染色体位置O-IMb处的等位基因 特异性拷贝丢失SGA ;染色体9上在染色体位置9-34Mb处的等位基因特异性拷贝丢失SGA ; 染色体9上在染色体位置65-66Mb处的等位基因特异性拷贝丢失SGA ;染色体12上在染色 体位置45-46Mb处的等位基因特异性拷贝丢失SGA ;染色体17上在染色体位置8-9Mb处的 等位基因特异性拷贝丢失SGA ;X染色体上在染色体位置42-43Mb处的等位基因特异性拷贝 丢失SGA ;Y染色体上在染色体位置13-14Mb处的等位基因特异性拷贝丢失SGA ;来自表3 的86个染色体区域的所有拷贝丢失SGA的结果的总和;以及来自表3的86个染色体区域 的群组的所有SGA分析结果的总和。
8. 如权利要求1所述的方法,其中选择至少一个风险预测特征进一步包括确定所述至 少一个风险预测特征的权重值。
9. 如权利要求8所述的方法,其中所述权重值是使用逻辑回归模型来确定。
10. 如权利要求1所述的方法,其中所述至少一个风险预测特征包含表4中的29个风 险预测特征集。
11. 如权利要求10所述的方法,其中表4中的所述29个风险预测特征集中的每一者的 权重值是(1)71. 533、(2)38. 664、(3) 11. 86、(4)31. 81、(5)0. 82257、(6)54. 66、(7)63. 287、 (8)2. 0625、(9)24. 666、(10) 101. 06、(11)79. 646、(12)61. 317、(13)-291. 97、(14) 12. 137、 (15) 23.348、(16)-70. 412、(17)99.209、(18)47.058、(19) 109.08、(20)68.945、 (21)-2. 394、(22) 1.649、(23)-27. 847、(24)6.6363、(25)-0. 078246、(26)86.339、 (27) 1. 9427、(28)-0. 033952、(29)0. 11415。
12. 如权利要求1所述的方法,其中提供癌症风险评分包括使用公式(1)计算癌症风险 评分:
其中Xi是从1到n的所述至少一个风险预测特征,并且其中P i是赋予所述风险预测 特征Xi的权重值。
13. 如权利要求1所述的方法,其中提供癌症风险评分包括提供归一化的癌症风险评 分。
14. 如权利要求1所述的方法,其中所述基因样本是从被诊断出巴雷特氏食管的受试 者获得。
15. 如权利要求1所述的方法,其中所述基因样本是从具有食管腺癌(EA)风险的受试 者获得。
16. 如权利要求1所述的方法,其中所述基因样本是从具有食管腺癌(EA)风险的受试 者获得,其中约0.50或更高的归一化的癌症风险评分预示所述受试者的高EA风险,其中介 于约0. 05与约0. 49之间的归一化的癌症风险评分预示所述受试者的中EA风险,并且其中 介于约0. 00与约0. 049之间的归一化的癌症风险评分预示所述受试者的低EA风险。
17. -种预测受试者的食管腺癌(EA)风险的方法,所述方法包括: 从处于EA风险中的受试者获得基因样本; 确定来自所述基因样本的至少一个染色体区域中至少一个体细胞基因组改变(SGA) 的存在或不存在,所述SGA选自表3中列出的至少一个SGA ; 从所述至少一个染色体区域中选择至少一个风险预测特征,其中所述至少一个风险预 测特征选自表3中列出的SGA中的至少一者; 提供归一化的癌症风险评分,其中约〇. 50或更高的归一化的癌症风险评分预示所述 受试者的高EA风险,其中介于约0. 05与约0. 49之间的归一化的癌症风险评分预示所述受 试者的中EA风险,并且其中介于约0. 00与约0. 049之间的归一化的癌症风险评分预示所 述受试者的低EA风险。
18. 如权利要求17所述的方法,其中所述至少一个染色体区域中的所述至少一个SGA 包含以下至少一者:染色体13上介于染色体位置20-115Mb之间的cnLOH SGA ;染色体15上 介于染色体位置20-103Mb之间的拷贝数增加 SGA ;染色体17上介于染色体位置25-8IMb之 间的拷贝数增加 SGA ;染色体17上介于染色体位置0-23Mb之间的拷贝数丢失SGA ;染色体 17上介于染色体位置0-23Mb之间的cnLOH SGA ;以及染色体18上介于染色体位置0-36Mb 之间的拷贝数增加 SGA。
19. 如权利要求17所述的方法,其中选择至少一个风险预测特征进一步包括确定所述 至少一个风险预测特征的权重值。
20. 如权利要求17所述的方法,其中提供归一化的癌症风险评分包括使用公式(1)计 算癌症风险评分:
其中Xi是从1到n的所述至少一个风险预测特征; 其中P i是赋予所述风险预测特征Xi的权重值;并且 其中所述计算的风险评分可以通过将设定为-3. 108并且然后使用公式(2)计算 所述归一化的风险评分来归一化为介于〇与1之间的范围: I/(1+e s) (2)。
【文档编号】C12N15/11GK104364654SQ201380029731
【公开日】2015年2月18日 申请日期:2013年5月10日 优先权日:2012年5月11日
【发明者】B·J·雷德, X·李 申请人:弗莱德哈钦森癌症研究中心
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1