高通量测序突变检测结果的统计学验证方法

文档序号:9810891阅读:1525来源:国知局
高通量测序突变检测结果的统计学验证方法
【技术领域】
[0001 ]本发明涉及高通量测序突变检测结果的验证方法。
【背景技术】
[0002] 恶性肿瘤是威胁人类健康的主要疾病之一,也是全球发病和死亡的主要原因。根 据世界卫生组织公布的数据表明,2012年约有1400万新发癌症病例和820万例癌症相关死 亡。据全球癌症统计数据显示,肺癌死亡率位于男性相关癌症的首位,在发达国家的女性相 关癌症死亡率,则超越了乳腺癌跃居第一。肺癌分为小细胞肺癌(SCLC)和非小细胞肺癌 (NSCLC)。基因突变是肺癌的发生、发展、恶化的关键因素。肺癌的发生是各种环境的和遗传 的致癌因素引起的基因突变和多种突变长期积累的结果。突变的发生和积累导致了原癌基 因的激活和抑癌基因的失活,进而引起DNA损伤修复和(或)细胞周期和(或)编程性死亡机 制的失调,继而引起细胞的转化。转化的细胞在与正常体细胞生存竞争的过程中,不断进 化,最终变成具有无限增殖潜力的癌细胞,从而导致肿瘤的发生。在癌细胞成克隆性的无限 扩增过程中,其中一些克隆会获得新的附加突变,选择性地形成具有不同特点的亚克隆(异 质化),从而获得浸润和转移的能力。目前,已确认的与肺癌相关的突变基因包括K-RAS、 EGFR、HER2、MEK、pl6、p53、ALK、R0Sl、RET#。
[0003] 近年来,随着生物医药技术的不断发展,以及"精准医学"概念的提出,癌症的治疗 观念正在发生着由非特异性转变为个体化的根本性转变。该模式根据癌症患者的个体信 息,提供个性化的尚效治疗方案。尚通量测序技术的兴起以及测序成本的大幅降低为个体 化医疗的实现提供了极大的便利,已开始广泛应用于肿瘤组织的基因突变位点检测。通过 对癌症患者活检样本提取的DNA进行测序及后续生物信息分析,就可快速得到患者的突变 信息,根据突变信息对患者进行分组,进行针对性的治疗及疗效评估。据2014美版NCCN记 载,EGFR、BRAF、KRAS、PIK3CA等基因上的突变信息,可协助医生选择易瑞沙和特罗凯等靶向 药物的有效非小细胞型肺癌人群进行个体化治疗。因此,准确的突变检测信息,无论是对非 小细胞肺癌患者的分组还是个性化靶向药物的选择和治疗过程中的动态疗效检测都具有 至关重要的作用。只有这样,才能真正有益于病人节省费用、减少毒副作用以及提高治疗效 率。
[0004] 高通量测序技术为DNA的测序提供了便利,对高通量测序结果进行数据分析可以 获得DNA的突变信息,但这种通过数据分析获得的DNA突变信息的准确性还有待提高,通常 需要进行进一步验证,目前用验证高通量测序检出(即通过对高通量测序结果进行数据分 析获得)突变的主要方法是Sanger测序和多重PCR。尽管单个位点的验证费用不高,但如果 一次性检测位点较多且检测频繁则成本较高。

【发明内容】

[0005] 本发明涉及高通量测序突变检测结果的验证方法,所述方法包括,首先建立特定 疾病患者DNA阴性突变背景库,通过Z检验来验证单核苷酸取代类型的突变检测结果,通过 卡方检验来验证插入和缺失类型的突变检测结果。
[0006] 根据本发明的一个方面,提供感兴趣突变的高通量测序突变检测结果的验证方 法,所述方法包括以下步骤:
[0007] (1)建立感兴趣突变的阴性背景突变频率库:对来自多个参考样本的白细胞的DNA 进行测序,获得白细胞DNA中感兴趣突变中每一个位点i上的特定突变的突变频率;对于每 一个位点i上的特定突变,将突变频率低于5%。的所有参考样本作为一个集合,计算该集合 中该特定突变的平均突变频率(yi〇)和平均突变频率的标准差(〇i〇),由此获得一组或多组 数据,每组数据分别来自于每个集合,每组数据包括一个位点i上的特定突变的位置和突变 类型、平均突变频率(μ ι0)和平均突变频率的标准差(〇1〇)等信息,所述一组或多组数据构成 所述感兴趣突变的阴性背景突变频率库。
[0008] 根据本发明,"感兴趣突变"是指与特定疾病相关的DNA的特定位点上的特定突变。 所述"相关"是指该突变与该特定疾病之间存在一定程度的关联,例如该突变可以是该特定 疾病的致病因子、或者可以是该特定疾病致病过程中的某一个环节中的因素、或者可以是 与该特定疾病的致病没有直接关系、但是随特定疾病的发生而变化的突变,等等。感兴趣突 变可以来源于之前的文献报道、和/或自己的研究发现。所述阴性背景突变频率库涉及的感 兴趣突变可以是一个或多个感兴趣突变,多个感兴趣突变的数量可以是大于1个,例如2个 或更多个、3个或更多个、4个或更多个、5个或更多个,甚至可以是10个或更多个、50个或更 多个、100个或更多个、200个或更多个、500个或更多个、1000个或更多个、2000个或更多个、 或3000个或更多个。在一个实施方案中,所述阴性背景突变频率库涉及的感兴趣突变的总 数是2855个。
[0009] 根据本发明,所述"感兴趣突变"包括单核苷酸取代(snp)、连续多核苷酸缺失。所 述"位点i上的特定突变"在感兴趣突变为单核苷酸取代的情况下是指该突变位点上的特定 取代,在感兴趣突变为连续多核苷酸缺失的情况下是指该突变中每个突变位点上的核苷酸 缺失。在本发明中,"核苷酸"和"碱基"可以互换使用。
[0010] 根据本发明,连续多碱基缺失或连续多核苷酸缺失是指2个或2个以上,例如2个、3 个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、 20 个、21 个、22 个、23 个、24 个、25 个、26 个、27 个、28 个、29 个、30 个、31 个、32 个、33 个、34 个、35 个、36个、37个、38个、39个、40个、41个、42个、43个、44个、45个、46个、47个、48个或更多个连 续碱基或连续核苷酸的缺失。
[0011] 在一些实施方案中,所述特定疾病是癌症。在更进一步的实施方案中,所述癌症是 肺癌,优选非小细胞肺癌。
[0012] 在本发明中,"参考样本"是可以是来源于健康者和/或患病者的白细胞。优选所述 患病者不包括患有与白细胞基因突变相关的疾病的患者。
[0013] 根据本发明,这里的"测序"是指高通量测序,可以利用本领域已知的任何高通量 测序技术,包括但不限于利用Ion Torrent或11 lumina测序平台进行的高通量测序。
[0014] 本发明人在对癌症患者进行高通量测序突变检测的过程中发现,对于那些与疾病 相关的热点突变(即感兴趣突变),虽然某些样本的检测结果是阴性,但在这些样本中对于 这些热点突变仍然具有一定的突变频率,虽然该突变频率很低,这意味着这些热点突变存 在一定的背景突变频率。因此本发明提出了这样的方法:首先确定热点突变的背景突变频 率范围(即建立感兴趣突变的阴性背景突变频率库),在得到待测样本的热点突变高通量测 序检测结果之后,通过检测它的突变频率是否在背景图片频率范围内,来验证它属于背景, 还是真正的突变。由此建立了对高通量测序突变检测结果的统计学验证方法。确定热点突 变的背景突变频率范围时,所使用的参考样本应当是对于所述热点突变为阴性的样本,在 本发明中,使用白细胞作为参考样本,这是因为白细胞对于癌症的热点突变来说通常是阴 性的,例如对于肺癌患者来说,患病部位的癌细胞可能具有特定突变,但该患者的白细胞并 不会具有这些特定突变,因此可以使用健康者或患病者的白细胞作为参考样本。优选所述 患病者不包括患有与白细胞基因突变相关的疾病的患者。
[0015] 根据本发明的方法,由于每个参考样本的白细胞DNA在每个位点上的突变情况各 不相同,因此对于感兴趣突变的每一个位点上的特定突变的集合,样本量m可能是不同的。
[0016] 根据本发明,用于感兴趣突变的阴性突变背景库的参考样本的数量没有特别限 制,只要能使每一个集合中的样本量具有统计学意义。优选地,用于建立感兴趣突变的阴性 突变背景库的参考样本数量为50或更多,更优选为100或更多,更优选为500或更多,更优选 为1000或更多,更优选为
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1