试剂盒、建库方法以及检测目标区域变异的方法及系统的制作方法

文档序号:10565462阅读:290来源:国知局
试剂盒、建库方法以及检测目标区域变异的方法及系统的制作方法
【专利摘要】本发明提供一种试剂盒,其包含探针,所述探针固定在固相基质上或者所述探针游离于溶液中,所述探针能够特异性识别目标区域,其中,所述目标区域包括下列之一:表1所示147个基因中的至少之一;或表1中所述至少一种基因的CDS区域;或表1中所述至少一种基因的CDS区域的上下游至少10?200bp的区域。发明还提供试剂盒的用途、一种构建目标区域测序文库的方法、一种测序方法、一种检测目标区域变异的方法及系统。利用本发明的试剂盒和/或本发明的方法及系统,能够一次性、简单方便且高特异性的获取肺癌的相关基因序列,能够准确检测分析这些相关基因序列,使检测分析结果可以辅助用于肺癌的研究。
【专利说明】
试剂盒、建库方法从及检测目标区域变异的方法及系统
技术领域
[0001] 本发明设及生物医学领域,具体的,设及试剂盒及其用途,更具体的,本发明设及 一种试剂盒、试剂盒的用途、一种构建目标区域测序文库的方法、一种测序方法W及一种检 测目标区域变异的方法及系统。
【背景技术】
[0002] 原发性肺癌(W下简称肺癌)是我国最常见的恶性肿瘤之一。全国肿瘤登记中屯、 2014年发布的数据显示,2010年,我国新发肺癌病例60.59万(男41.63万,女性18.96万),居 恶性肿瘤首位(男性首位,女性第2位),占恶性肿瘤新发病例的19.59% (男性23.03%,女性 14.75%)。肺癌发病率为35.23/10万(男性49.27/10万,女性21.66/10万)。同期,我国肺癌 死亡人数为48.66万(男性33.68万,女性16.62万),占恶性肿瘤死因的24.87% (男性 26.85%,女性21.32% )。肺癌死亡率为27.93/10万(男性39.79/10万,女性16.62/10万)。
[0003] 肿瘤的发生发展是一个长期缓慢的过程,目前肿瘤诊疗的困境主要在于:早期诊 断困难,错过最佳治疗时机;易复发转移,预后较差;放化疗易产生耐受及缺乏有效的治疗 祀点等。肿瘤的防控重在预防。统计显示,癌前阶段的筛查可实现接近100%的预防,早期癌 症可实现80%的治愈率,晚期癌症的五年生存率仅有30%。因此早期筛查是遏制多种肿瘤 高发的有效措施之一。因此做到肿瘤的早诊早治,实时监控及个体化诊疗是提高肿瘤远期 生存率、降低死亡率的关键。因此寻找用于对肿瘤早期筛查及预后复发监测的特异肿瘤标 志物成为重要的课题。
[0004] 循环DNA是存在于血液、滑膜液等体液中的细胞外游离DNA,研究发现许多肿瘤患 者循环DNA与正常人相比有很大差异,由于肿瘤细胞调亡,癌症患者循环DNA中含有一定的 肿瘤标志物。近年来肿瘤患者血液中循环游离DNA的基因检测诊断已成为研究热点,研究显 示血液中循环肿瘤DNA有可能成为一种新的肿瘤早期诊断及预后判断的标志物。检测血液 中循环游离DNA中的肿瘤标志物检测具有区别于传统组织肿瘤标志物检测方式,具有无创、 随时监控和早期筛查等优势,并且对循环游离DNA的取样检测避免了当前分子诊断需要采 集癌组织作为标本来源的困难,是一种很有潜力的肿瘤标志物。
[0005] 如今高通量测序技术已经在医学研究中得到了广泛应用,但由于肺癌发病早期的 血浆游离DNA含量较低,而且测序技术本身存在一定的错误率等,因此传统的测序方法将无 法分辨测序错误和肿瘤标本中低频率突变,因此开发易操作、低损伤、高准确的技术是肺癌 早期检测研究领域攻克的难点。

【发明内容】

[0006] 依据本发明的一方面,本发明提供一种试剂盒,其包含探针,所述探针固定在固相 基质上或者游离于溶液中,所述探针能够特异性识别目标区域,其中,所述目标区域包括下 列之一:
[0007] 表1所示147个基因中的至少之一;或表1中所述至少一种基因的CDS区域;或表1中 所述至少一种基因的CDS区域的上下游至少10-200bp的区域。
[0008] 本发明另一方面提供一种构建目标区域测序文库的方法,所述方法包括:
[0009] (1)获取待测样本中的核酸,所述核酸由多个DNA片段组成,所述DNA片段来自断裂 的基因组DNA和/或游离的DNA片段,所述短序列DNA片段具有平末端;
[0010] (2)加碱基"A"至所述DNA片段的3 '端,获得具有粘性末端A的DNA片段;
[0011] (3)连接接头于所述粘性末端片段的两端,获得接头连接片段;
[0012] (4)利用第一引物对所述接头连接片段进行第一扩增,获得第一扩增产物;
[OOU] (5)利用上述试剂盒对所述第一扩增产物进行捕获,获得所述目标区域;W及,
[0014] (6)利用第二引物对所述目标区域进行第二扩增,获得第二扩增产物,所述第二扩 增产物构成所述目标区域测序文库。
[0015] 本发明另一方面提供一种测序方法,所述方法包括:根据上述构建目标区域测序 文库的方法构建目标区域测序文库;
[0016] 对所述目标区域测序文库进行测序,获得测序数据,所述测序数据由多个读段组 成;其中,在化XtSeq CN500上进行所述测序。
[0017] 本发明另一方面提供提供一种检测目标区域变异的方法,所述方法包括:(1)利用 上述测序方法,获得测序数据,对所述测序数据进行过滤,所述过滤包括去除掉不确定碱基 比例超过10%的读段和/或碱基质量值不大于5的碱基数的比例不小于50%的读段;
[0018] (2)将所述测序数据与参考序列进行第一比对,获得第一比对结果,去除掉第一比 对结果中的一个读段对中的两个读段相同的读段对;将所述第一比对结果与所述参考序列 的一部分进行第二比对,获得第二比对结果;对所述比对结果进行再过滤,所述过滤包括去 除掉比对中错配碱基数多于3个读段,获得所述目标区域中的SNP、InDel、SV和CNV变异中的 至少之一;其中所述参考序列为HG19,所述参考序列的一部分包括目标区域参考序列中的 每个已知InDel位点导致的错配区域。
[0019] 本发明另一方面提供一种检测目标区域变异的系统,包括,
[0020] 核酸获取装置,用于获取待测样本中的核酸,所述核酸由多个DNA片段组成,所述 DNA片段来自断裂的基因组DNA和/或游离的DNA片段,所述DNA片段具有平末端;加碱基A装 置,用于加碱基"A"至所述DNA片段的3 '端,获得具有粘性末端A的DNA片段;接头连接装置, 用于连接接头于所述粘性末端片段的两端,获得接头连接片段;第一扩增装置,用于利用第 一引物对所述接头连接片段进行第一扩增,获得第一扩增产物;捕获装置,用于前述含有探 针的任一试剂盒对所述第一扩增产物进行捕获,获得所述目标区域;W及,第二扩增装置, 用于利用第二引物对所述目标区域进行第二扩增,获得第二扩增产物;测序装置,用于将所 述扩增产物进行测序,获得所述目标区域变异位点信息,变异包括SNP、InDel、SV和CNV变异 中的至少一种。
[0021] 本发明的方法,是一种高灵敏性、高特异性、高通量的方法,能够辅助用于肺癌的 相关基因的科学研究。通过使用新一代高通量测序技术,结合本发明一方面的试剂盒包含 的能特异性捕获特定目标区域的探针,能够在很短的时间内同时进行多例样本检测,并且 可W基于相同数据量进行更高深度的数据挖掘,检测结果特异性高,具较低的假阳性率、假 阴性率,能够确保得到的检测结果能够准确的反应受检者的实时外周血状况。而且此忍片 中的探针集不仅可W灵活的挑选检测基因,还能随着导致肺癌新基因的发现,加入新的基 因,具有很高的性价比和针对性。
【附图说明】
[0022] 本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得 明显和容易理解,其中:
[0023] 图1显示了根据本发明的一个实施例,构建目标区域测序文库的方法的流程图。
【具体实施方式】
[0024] 本发明人经过广泛而深入的研究,首次建立了一种测定目标区域变异的方法。具 体而言,本发明人根据现有疾病基因的信息,设计了固定有多种疾病特异性探针的核酸忍 片;对待测样本中游离的、片段化的、源自基因组DNA的双链核酸分子的末端加入接头,并进 行富集;用核酸忍片对含接头的DNA片段进行捕获,将捕获的片段在高通量测序平台进行测 序,基于已知的基因位点信息,对测序结果进行分析,得到目标区域核酸变异的信息。
[002引本发明中的"变异"、"核酸变异"、"基因变异"可通用,本发明中的"SNP" (SNV)、 "CNV"、"插入缺失"(indel)和"结构变异"(SV)同通常定义,但本发明中对各种变异的大小 不作特别限定,运样运几种变异之间有的有交叉,比如当插入/缺失的为大片段甚至整条染 色体时,也属于发生拷贝数变异(CNV)或是染色体非整倍性,也属于SV。运些类型变异的大 小交叉并不妨碍本领域人员通过上述描述执行实现本发明的方法和/或装置并且达到所描 述的结果。
[00%]本发明中的"参考序列"为已知基因组序列或者已知基因组序列的至少一部分,本 发明中所使用的"第一"、"第二"等仅为方便描述指代,不能理解为指示或暗示相对重要性, 也不能理解为有先后顺序关系。本发明的描述中,除非另有说明,"多个"的含义是两个或两 个W上。
[0027] CDS区域即编码区域,编码区是指能够转录信使RNA的部分,它能够合成相应的蛋 白质。
[0028] 获得本发明一方面的试剂盒、实现本发明一方面的方法,一般包括目标区域捕获 探针/忍片的设计、微量样本建库及杂交上机测序、下机数据的生物信息分析和变异数据解 读。
[0029] -种试剂盒,其包含探针,所述探针固定在固相基质上或者所述探针游离于溶液 中,所述探针能够特异性识别目标区域,其中,所述目标区域包括:
[0030] 表1所示147个基因中的至少之一;或表1中所述至少一种基因的CDS区域;或表1中 所述至少一种基因的CDS区域的上下游至少10-200bp的区域。
[0031] 表 1
[0033]
[0034] 在本发明的一个实施例中,目标区域包括表1所示147个基因中的至少10、20、30、 50、100个基因。在本发明的一个实施例中,目标区域包括表1所示147个基因的全部基因区 域。本发明的试剂盒探针能够特异性识别的目标区域,是发明人经过多次收集、多次筛选和 多次试验组合获得的,运些目标区域与肺癌的发生发展相关。
[0035] 进一步的,所述探针的长度为20-1 SOmer。较佳地,SO-IOOmer,更佳地,GO-SOmer。
[0036] 在本发明的一个实施例中,所述探针的制备包括如下步骤:确定所述目标区域的 参考序列;从所述参考序列的一端开始,在所述参考序列上依次获取DNA片段直至所述参考 序列的另一端;将所述DNA片段与所述参考序列比对,获得每一条DNA片段在参考序列上的 比对次数,过滤掉比对次数超过I的DNA片段;去除掉GC含量不在30-80 %的DNA片段。
[0037] 其中,一条DNA片段为一条探针,全部所述DNA片段构成探针集,所述DNA片段之间 完全重叠、部分重叠或完全不重叠,所述探针集能够覆盖所述目标区域至少一次。
[0038] 所说的目标区域的参考序列可W从参考基因组上获取,例如从人参考基因组HG19 上获得对应目标区域的基因,所有的HG19上的对应的基因构成所说的目标区域的参考序 列,服19可W从NCBI数据库下载。
[0039] 进一步的,探针的制备还包括:确定所述目标区域在参考基因组上的位置,获取所 述目标区域的参考序列,从所述参考序列一端的第一个核巧酸开始拷贝所述参考序列获取 第一条DNA片段,从所述参考序列一端的第二个核巧酸开始拷贝所述参考序列获取第二条 DNA片段,从所述参考序列一端的第S个核巧酸开始拷贝所述参考序列获取第S条DNA片 段,运样依次获取后续DNA片段直至第N条DNA片段的一端超出所述参考序列的另一端,其 中,一条DNA片段为一条探针,全部所述DNA片段构成所述探针集,N为所述探针集中包含的 探针的总数。
[0040] 依据本发明的另一方面,本发明提供一种上述任一试剂盒在获取肺癌相关基因序 列中的用途。利用本发明一方面的试剂盒能够一次性、简单方便且高特异性的获取肺癌的 相关基因序列。
[0041] 依据本发明的又一方面,本发明提供一种构建目标区域测序文库的方法,所述方 法包括:(1)获取待测样本中的核酸,所述核酸由多个DNA片段组成,所述DNA片段来自断裂 的基因组DNA和/或游离的DNA片段,所述DNA片段具有平末端;(2)加碱基"A"至所述DNA片段 的3 '端,获得具有粘性末端A的DNA片段;(3)连接接头于所述粘性末端片段的两端,获得接 头连接片段;(4)利用第一引物对所述接头连接片段进行第一扩增,获得第一扩增产物;(5) 利用上述试剂盒对所述第一扩增产物进行捕获,获得所述目标区域;W及,(6)利用第二引 物对所述目标区域进行第二扩增,获得第二扩增产物,所述第二扩增产物构成所述目标区 域测序文库。
[0042] 本发明的运一方面的测序文库构建方法,特别适用于样本含微量核酸的测序文库 的构建,在本发明的一个实施例中,样本为含微量游离DNA片段的血浆样本,包含极其微量 的目标游离DNA片段,第一扩增使得核酸的量能满足忍片/探针杂交捕获的需求,而因忍片 杂交捕获会损耗一定量的核酸,第二扩增能使捕获下的目标片段获得再次扩增W满足上机 测序和质控检测的要求。本发明的运一文库构建方法特别适用于总游离核酸不低于IOng或 者常规组织基因组DNA不低于化g的样本的测序文库构建,利用本发明的运一方面的方法构 建的目标区域文库,测序后的下机数据质量高,基于高质量的下机数据利于后续的准确检 测分析。
[0043] 在本发明的一个实施例中,步骤(1)中所述DNA片段具有平末端是通过末端修复的 方法制备。根据本发明的一个实施例,在将DNA片段进行末端修复前,可W进一步包括纯化 DNA片段的步骤,由此,使得后续的末端修复易于进行。根据本发明的实施例,将DNA片段进 行末端修复可W利用Klenow片段、T4DNA聚合酶和T4多核巧酸激酶进行,其中,所述Klenow 片段具有5'一3'聚合酶活性和3'一5'聚合酶活性,但缺少5'一3'外切酶活性。由此,能够方 便准确地对DNA片段进行末端修复。根据本发明的实施例,还可W进一步包括对经过末端修 复的DNA片段进行纯化的步骤,由此能够方便地进行后续处理。
[0044] 进一步的,在经过末端修复的DNA片段的3'末端添加碱基A, W便获得具有粘性末 端A的DNA片段。根据本发明的一个实施例,可W利用1(1611〇巧(3'一5'6义〇-),即具有3'一5'外 切酶活性的Klenow,在经过末端修复的DNA片段的3'末端添加碱基A。由此,能够方便准确地 将碱基A添加到经过末端修复的DNA片段的3'末端。根据本发明的实施例,还可W进一步包 括对具有粘性末端A的DNA片段进行纯化的步骤,由此能够方便地进行后续处理。
[0045] 进一步的,可W使用热启动taq DNA聚合酶对经过转换的目的片段进行PCR扩增。 根据本发明的实施例,热启动taq DNA聚合酶的种类不受特别限制,根据本发明的具体示 例,热启动化qDNA聚合酶可W为r-化q聚合酶,由此PCR扩增效率高、用时少。
[0046] 在本发明的一个实施例中,所述第一引物序列如SEQ ID NO: 1和SEQ ID NO: 2所 示;所述第二引物序列如SEQ ID N0:3和SEQ ID N0:4所示。
[0047]
[Gu,u」 巧下 Oi^w 丄 U i、u.乙下 1、1、1、1、1、1、1、1、
,/71 祖1。、征;了:/。巧'円 Oi^W 丄 U 1、U:U 0 中至少之一所示的序列。
[0049] 在本发明的一个实施例中,所述方法具有如下特征:所述样本来源于人或动物;所 述目标区域为肺癌相关基因区域。
[0050] 依据本发明的一方面,本发明提供一种测序方法,所述方法包括:根据本发明一方 面的测序文库构建方法构建目标区域测序文库;对所述目标区域测序文库进行测序,获得 测序数据,所述测序数据由多个读段组成;其中,在化XtSeq CN500上进行所述测序。
[0051] 进一步的,测序技术可采用第二代测序技术或第=代测序技术进行。本领域人员 可W理解的,所述测序平台还可W采用111胆1〇曰的^3692000/2500平台、1^^6 Technologies的Ion Torrent平台、单分子测序平台等。在本发明的一个实施例中,采用贝 瑞和康公司的化XtSEQ CN 500测序平台。
[0052] 依据本发明的一方面,本发明提供一种检测目标区域变异的方法,所述方法包括: (1)利用前述本发明的任一测序方法,获得目标样本的目标区域测序数据,对所述测序数据 进行过滤,所述过滤包括去除掉不确定碱基比例超过10 %的读段和/或碱基质量值不大于5 的碱基数的比例不小于50%的读段;(2)将所述测序数据与参考序列进行第一比对,获得第 一比对结果,去除掉第一比对结果中的一个读段对中的两个读段相同的读段对,其中所述 参考序列为HG19;将所述第一比对结果与所述参考序列的一部分进行第二比对,获得第二 比对结果;对所述比对结果进行再过滤,所述过滤包括去除掉比对中错配碱基数多于3个读 段,获得所述目标区域中的SNP JnDeUSV和CNV变异中的至少之一;其中,所述参考序列的 一部分包括目标区域参考序列中的每个已知InDel位点导致的错配区域。运里,所说的第二 比对为局部比对,第一比对为常规全局比对,可利用但不限于SOAP或BWA等软件依照其默认 设置进行,获得第一比对结果,第一比对结果包括读段在参考序列上的匹配位置及匹配情 况信息,在本发明的一个实施例中,进行第二比对即基于第一比对结果,对与所捕获的基因 区域对应的参考序列中的所有已知IN呢L附近的所有序列信息(reads)进行局部重新比对, 能够消除第一比对中的错误,提高后续变异检测的准确性,第二比对可利用GATK重比对软 件化ttps: //www. broad institute. org/gatk/)进行。在本发明的一个实施例中,通过GATK 化if iedGenotyper软件同时检测所说的SNP和IN呢L变异。利用本发明的运一方面的变异检 测方法,能够准确检测出突变频率为1 %的低频突变。
[0053] 在本发明的一个实施例中,所述方法还包括,当所检测出的变异位点中的至少之 一满足W下,则判定所测样本为阳性样本:测序深度不小于10X,至少有3个读段的支持,在 阴性对照样本中的读段支持数少于2,在阳性对照样本中的突变率大于1%,W及变异位点 的读段支持量与正常对照样本(阴性对照样本)相同位点的读段支持量具有显著差异。所说 的阳性样本指肺癌样本。上述判定条件是发明人结合目前相关数据库信息和大量文献报道 信息、检测统计大量阳性样本和大量阴性样本确定下来的,具有统计意义。
[0054] 特别的是,所述的变异位点在待测样本中的读段支持量与正常对照样本(阴性对 照样本)相同位点的读段支持量具有显著差异。其中的读段支持量,可W为支持该变异的读 段的数目,也可W是支持该变异的读段在比对上该位点读段中的比例。
[0055] 在本发明的一个实施例中,采用后者来比较,所说的具有显著差异指具有实质差 异,例如对于待测样本中的变异位点A,在阳性样本中的reads支持比例为26/500(变异26条 reads,总500条reads),即阳性样本中的变异频率5.2%,而在阴性样本中的reads支持比例 为1/200(变异1条reads,总200条reads),即阴性样本中的变异频率为0.5%,则达到所说的 显著性差异或者所说的实质性差异,运里指具有统计学上的显著性差异,例如可W利用 fisher检验,差异具有显著性(P含0.05),即认为达到所说的具有显著差异。
[0056] 在本发明的一个实施例中,还采用另外一种确定显著性差异的算法,例如对于待 测样本中的变异位点A,在阳性样本中的reads支持比例为7/500,而在大量阴性样本中的支 持比例符合特定的分布,均小于1/200,比较待测样本中变异位点A的读段支持比例(变异频 率)与大量阴性样本数据集中该位点变异频率的差异,可W利用Z检验或者t检验,差异具有 显著性(P < 0.05),即达到所说的显著性差异。
[0057] 本发明另一方面提供一种检测目标区域变异的系统,包括:
[0058] 核酸获取装置,用于获取待测样本中的核酸,所述核酸由多个初始DNA片段组成, 所述初始DNA片段来自断裂的基因组DNA和/或游离的DNA片段;加碱基A装置,用于加碱基 "A"至所述短序列DNA片段的3 '端,获得具有粘性末端A的DNA片段;接头连接装置,用于连接 接头于所述粘性末端片段的两端,获得接头连接片段;第一扩增装置,用于利用第一引物对 所述接头连接片段进行第一扩增,获得第一扩增产物;捕获装置,用于前述任一包含探针的 试剂盒对所述第一扩增产物进行捕获,获得所述目标区域;W及,第二扩增装置,用于利用 第二引物对所述目标区域进行第二扩增,获得第二扩增产物;测序装置,用于将所述扩增产 物进行测序,获得所述目标区域变异位点信息,变异包括SNP、InDel、SV和CNV变异中的至少 一种。
[0059] 在本发明的一个实施例中,所述第一引物序列如SEQ ID NO: 1和SEQ ID NO: 2所 示;所述第二引物序列如SEQ ID N0:3和SEQ ID N0:4所示。
[0060]
[0061 ] 其中SEQ ID N0:2中"NNNNNNNN"表示标签序列,所述标签序列具有SEQ ID N0:5-8 中至少之一所示的序列,
[0062] 在本发明的一个实施例中,所述检测目标区域变异的系统还包括:
[0063] 第一过滤装置,用于对测序装置获得的测序数据进行第一过滤,获得第一过滤结 果,所述过滤包括去除掉不确定碱基比例超过10%的读段和/或碱基质量值不大于5的碱基 数的比例不小于50%的读段;
[0064] 第一比对装置,用于将所述第一过滤结果与参考序列进行第一比对,获得第一比 对结果,去除掉第一比对结果中的一个读段对中的两个读段相同的读段对,其中所述参考 序列为服19;
[0065] 第二比对装置,用于将所述第一比对结果与所述参考序列的一部分进行第二比 对,获得第二比对结果;
[0066] 第二过滤装置,用于对所述第二比对结果进行第二过滤,所述过滤包括去除掉比 对中错配碱基数多于3个读段,获得所述目标区域中的SNP JnDeUSV和CNV变异中的至少之 一;其中,所述参考序列的一部分包括目标区域参考序列中的每个已知InDel位点导致的错 配区域。
[0067] 前述对于本发明一方面或者任一【具体实施方式】中的检测目标区域变异的方法的 技术特征和优点的描述,同样适用于本发明运一方面的系统,在此不再寶述。
[0068] 下面示例,仅用于解释本发明,而不能理解为对本发明的限制。除另有交待,W下 实施例中设及的未特别交待的试剂、序列(接头、标签和引物)、软件及仪器,都是常规市售 产品或者开源的,比如购自贝瑞和康公司的化XtSEQ CN 500测序平台建库相关试剂盒来进 行文库构建等。
[0069] 实施例一设计忍片
[0070] 1、统计OMIM数据及相关文献中有关单基因导致的肺癌相关的驱动基因的每个外 显子区变异样本数、变异样本、最热点变异所在的样本数、PI值(W评估患者回复频率在每 个外显子上的水平,PI =每外显子上携带突变的累计患者数目/外显子长度),并根据PI值 降序排列。然后,W第一个外显子区变异的样本作为样本数据库,统计其他所有区间和样本 数据库不同样本的个数,将不同样本个数最多的样本区间列为第二个筛选到忍片区间,此 时W筛选到的两个区间的变异样本作为样本数据库,W同样的方法筛选第=个区间,直到 样本数据库包括了所有的样本,W统计外显子区集,而对于没有筛选到任何区间的基因所 有区间,则都加到忍片区间上。
[0071] 2、基于TCGA,ICGC等数据库,W去除驱动基因区间并且包括大于等于5个样本的热 点变异的区间(SNV〉= 5)为候选区间,重复上一步的计算。
[0072] 3、基于TCGA,ICGC等数据库,在去除已被筛选的区间中分别W : PI〉= 30,SNV〉= 3 和:PI〉= 20,SNV〉= 3为候选区间,筛选使得单样本数据库样本数减少最多的区间作为第一 个忍片区间,重复W上过程进行计算。
[0073] 4、加入融合基因等区间。
[0074] 5、设计出目标区域捕获忍片Lung化noeLun评ano忍片包括了肺癌相关的驱动基因 (Driver Gene)、高频突变基因、癌症相关12条信号通路中重要基因及祀药相关基因等,共 计147个基因,135肺。所述基因详见表1。
[0075] 实施例二构建目标区域测序文库,具体流程见图1。
[0076] ( - )样本制备
[0077] 1.抽取受检者外周血5-lOmL,存于抓TA抗凝管中,在4-6小时内对外周血进行分 离;
[0078] 2.血浆游离DNA提取(参照QIAamp Circulating Nucleic Acid Kit提取试剂说明 书,进行血浆游离DNA提取);得到血浆游离DNA(rfDNA) ,CfDNA中可能包含来自肿瘤细胞的 DNA片段(CtDNA)。(二)文库构建
[00巧]1.末端修复
[0080]
[0081 ] 反应后加入Agencourt AMPure XPreagent 120化,磁珠纯化后,最后回溶42化 ddH20,带磁珠进行下一步反应;
[0082] 2.末端加 A
[0083]
[0084] 反应后加入阳G/NaCl SPRI溶液90化,充分混合并进行磁珠纯化,最后回溶(35-接 头)iiL dd肥0,带磁珠进行下一步反应;
[0085] 。+主''I 主
[0086]
[0087]
[008引反应后,加入阳G/NaCl SPRI溶液50化,进行第一次磁珠纯化,使用50化Tris-肥1 (lmM,p 册.0)回溶;
[0089] 再加入PEG/化Cl SPRI溶液50化,进行第二次磁珠纯化,使用25化化is-HCl(ImM, P册.0)回溶;
[0090] 4.第一轮PCR扩增
[0091]
[0092] 反应后加入Agencourt AM F*ure XP reagent 90化,磁珠纯化后,回溶31化 ddH20,取上清液后质控并进行忍片杂交。
[0093] (S)目标区域捕获忍片杂交
[0094] 1.采用实施例一设计的捕获忍片Lung化no-135肺,按照常规忍片使用的方法进行 杂交捕获及洗脱。最后使用21化d地20回溶杂交洗脱磁珠。
[0095] 2.第二轮PCR扩增
[0096]
[0097] 反应后加入Agencou;rt AMPure XP reagent 10祉L,磁珠纯化后,回溶31化邸,取 上清液后质控并上机测序。
[009引实施例S上机测序
[0099] 将实施例二获得的测序文库,采用化Xtseq CN 500PE75程序进行上机测序,测序 实验操作按照制造商提供的操作说明书(参见杭州贝瑞和康基因诊断公司官方公布cBot) 进行上机测序操作。
[0100] 实施例四测序数据分析
[0101] 1.利用实施例=的方法获得的测序数据。
[0102] 2.下机数据过滤Reads_fi Iter:筛选符合分析要求的reads。需要满足两个条件: Dreads中N的数目<10%; 2)质量值巧的碱基不超过50%。
[0103] 3.序列比对:Bwa aln-〉sampe I samtools view I samtools sort:与人类参考基因 组序列比对,得到每条reads在染色体上的位置及质量信息。比对后的文件Wbam格式存在; [0104] 4.去重复MarkD叫1 icates . jar:将比对到参考基因组相同起点的reads标记为重 复,在后续分析中只作为一条reads分析;
[0105] 5.重比对:GenomeAnalysisTK.ja;r-T Realigner'TargetCreator、 IndelRealigner:将前期比对质量差的reads针对性地利用其他比对工具进行重新比对,提 高数据利用率;
[0106] 6.质量值校正GenomeAnalysisTK. jar-T BaseRecalibrator,PrintReads :根据 reads特点对质量值作校正,提高支持的可信度;
[01 07 ] 7.过滤F i 1 t_bam:去除比对中错配碱基数多于3个的reads,提高准确性;
[0108] 8.质控QC:统计忍片的捕获效率、有效reads数、平均深度、重复率、覆盖度及未被 覆盖的区间等信息,对忍片设计、样本处理及上机测序过程进行评估和反馈,保证质量控制 过程。
[0109] 9.识别SNVInDe 1/SV/CNV及筛选其中的高频变异位点:
[0110] 用 Mu^ct、varScan、somVar 流程识别出 SNP 变异;
[0111] 用 gatk、varScan、somVar 流程识别出 InDe 1 变异;
[0112] 用 contra. py 流程识别出 CNV;
[0113] 用MDect流程识别出SV;
[0114] 针对不同的变异类型选用不同的检测软件及参数
[0115] 所使用的筛选参数为:测序深度>10X,在阴性(正常)样本中的变异率<2%,在阳 性样本中的变异率含1%,在该待测样本数据中支持该变异的reads数含3,与正常对照(例 如正常体细胞)的读段支持比例具有显著差异(P含0.05);
[0116] 10.注释
[0117] 对检出的变异进行注释,内容包括:功能、reads支持数、变异频率、氨基酸变异及 Cosmic中的变异等,得到的信息可根据疾病可数据库进行相应调整;注释标记:根据变异情 况判断疾病的来源,变异数据解读。
[0118] 实施例五两例实验样本检测结果
[0119] 按照实施例1-4的方法对两例样本进行检测。
[0120] 1、检测结果
[0121 ]测序数据统计结果见下表2:
[0122] 表2
[0123]
[0133]注释:rsID:短序列突变在数据库中的编号;FR.l:dbSNP数据库中收录的关于此 SNP的频率信息;Fr. 2:千人计划中全部测序样本中关于此SNP在亚裔人种中的频率信息; Fr. 3: ESP6500数据库中收录的关于此SNP的频率信息;Fr. 4:本地数据库中关于此SNP的频 率信息;Condel: Condel数据库预测结果。
[0134] 2、检测结果说明
[0135] 本次检测在与肺癌相关的祀向用药基因EGFR中,检测到了一个G719A的突变。此突 变位于18号外显子,临床研究表明EGFR突变阳性(18号外显子突变、19号外显子缺失、21号 外显子突变)的患者对EGFR-TKI敏感,而野生型患者基本无效。
[0136] 上面所述的实施例仅仅是对本发明的优选实施方式进行描述,并非对本发明的范 围进行限定,在不脱离本发明设计精神的前提下,本领域普通工程技术人员对本发明技术 方案所做出的各种变形和改进,均应落入本发明的权利要求书确定的保护范围内。
【主权项】
1. 一种试剂盒,其包含探针,所述探针固定在固相基质上或者所述探针游离于溶液中, 所述探针特异性识别目标区域,其中,所述目标区域包括: 表1所示147个基因中的至少之一;或表1中所述至少一种基因的⑶S区域;或表1中所述 至少一种基因的⑶S区域的上下游至少10-200bp的区域。2. 如权利要求1所述的试剂盒,其特征在于,所述探针为全人工合成或体外克隆合成, 所述探针的长度为20_120mer。3. 权利要求1的试剂盒,其特征在于,所述探针的制备包括如下步骤: 确定所述目标区域的参考序列; 从所述参考序列的一端开始,在所述参考序列上依次获取DNA片段直至所述参考序列 的另一端; 将所述DNA片段与所述参考序列比对,获得每一条DNA片段在参考序列上的比对次数, 过滤掉比对次数超过1的DNA片段; 去除掉GC含量不在30-80 %的DNA片段。4. 权利要求1-3任一项所述的试剂盒在获取肺癌相关基因序列中的用途。5. -种构建目标区域测序文库的方法,其特征在于,包括: (1) 获取待测样本中的核酸,所述核酸由多个DNA片段组成,所述DNA片段来自断裂的基 因组DNA和/或游离的DNA片段,所述DNA片段具有平末端; (2) 加碱基"A"至所述DNA片段的3 '端,获得具有粘性末端A的DNA片段; (3) 连接接头于所述粘性末端片段的两端,获得接头连接片段; (4) 利用第一引物对所述接头连接片段进行第一扩增,获得第一扩增产物; (5) 利用权利要求1-3任一项所述的试剂盒对所述第一扩增产物进行捕获,获得所述目 标区域;以及, (6) 利用第二引物对所述目标区域进行第二扩增,获得第二扩增产物,所述第二扩增产 物构成所述目标区域测序文库。6. 根据权利要求5所述的方法,其特征在于,所述第一引物序列如SEQ ID NO: 1和SEQ ID N0:2所示;所述第二引物序列如SEQ ID N0:3和SEQ ID N0:4所示。7. 根据权利要求5所述的方法,其特征在于,所述样本来源于人或动物;所述目标区域 为肺癌相关基因区域。8. -种测序方法,其特征在于,包括: 根据权利要求5的方法构建目标区域测序文库; 对所述目标区域测序文库进行测序,获得测序数据,所述测序数据由多个读段组成;其 中,在NextSeq CN500上进行所述测序。9. 一种检测目标区域变异的方法,其特征在于,包括, (1) 利用权利要求8的方法,获得测序数据,对所述测序数据进行过滤,所述过滤包括去 除掉不确定碱基比例超过10%的读段和/或碱基质量值不大于5的碱基数的比例不小于 50 %的读段; (2) 将所述测序数据与参考序列进行第一比对,获得第一比对结果,去除掉第一比对结 果中的一个读段对中的两个读段相同的读段对,其中所述参考序列为HG19;将所述第一比 对结果与所述参考序列的一部分进行第二比对,获得第二比对结果;对所述比对结果进行 再过滤,所述过滤包括去除掉比对中错配碱基数多于3个读段,获得所述目标区域中的SNP、 InDeUSV和CNV变异中的至少之一;其中,所述参考序列的一部分包括目标区域参考序列中 的每个已知InDel位点导致的错配区域。10. -种检测目标区域变异的系统,其特征在于,包括, 核酸获取装置,用于获取待测样本中的核酸,所述核酸由多个DNA片段组成,所述DNA片 段来自断裂的基因组DNA和/或游离的DNA片段,所述DNA片段具有平末端; 加碱基A装置,用于加碱基"A"至所述DNA片段的3 '端,获得具有粘性末端A的DNA片段; 接头连接装置,用于连接接头于所述粘性末端片段的两端,获得接头连接片段; 第一扩增装置,用于利用第一引物对所述接头连接片段进行第一扩增,获得第一扩增 产物; 捕获装置,用于利用权利要求1-3任一项所述的试剂盒对所述第一扩增产物进行捕获, 获得所述目标区域;以及, 第二扩增装置,用于利用第二引物对所述目标区域进行第二扩增,获得第二扩增产物; 测序装置,用于将所述扩增产物进行测序,获得所述目标区域变异位点信息,变异包括 SNP、InDe I、SV和CNV变异中的至少一种。
【文档编号】C12M1/00GK105925665SQ201610196118
【公开日】2016年9月7日
【申请日】2016年3月30日
【发明人】韩颖鑫, 张印新, 王佳伟, 高晓峘, 张春生, 李胜
【申请人】广州精科生物技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1