一种用于核酸富集捕获的探针及设计方法

文档序号:10715751阅读:979来源:国知局
一种用于核酸富集捕获的探针及设计方法
【专利摘要】本发明公开了一种用于核酸富集捕获的探针及设计方法。双向探针由正义链探针和反义链探针组成,其中正义链探针和反义链探针均为探针无重叠设计,其长度均为30?89个碱基,探针的3’或5’具有生物素标记,能与磁珠上的亲和素结合。本发明的双向探针能够提高捕获的特异性(即减少对非靶位置的基因组DNA的捕获),显著提高对样本突变型DNA的捕获。并且增加捕获样品核酸的原始拷贝数。
【专利说明】
一种用于核酸富集捕获的探针及设计方法
技术领域
[0001] 本发明涉及基因测序领域,尤其涉及一种用于核酸富集捕获的探针及设计方法。
【背景技术】
[0002] 人类基因组的序列过于庞大,为了研究靶基因中特定位置的碱基变异情况,需要 对靶基因进行富集。富集较常见的方法有PCR富集和杂交富集。PCR富集主要包括多重PCR和 数字PCR;PCR具有扩增偏向性、多重扩增中引物相互影响和无法检测未知序列(如基因重 组)等局限。杂交富集主要包括芯片杂交法和溶液杂交法;杂交不适合小区域富集、所需样 品量较多。芯片杂交,属于早期技术,通过增加样品量以促进杂交反应的进行;溶液杂交则 通过增加探针量促进杂交反应的进行,减少了样品用量。杂交法,针对靶基因设计相应的特 异探针,通过探针与基因组杂交实现靶基因的捕获;富集后所得靶基因可进行高通量测序 分析靶基因的变异情况。
[0003] 捕获探针设计和合成的公司主要有霍夫曼-拉罗奇有限公司(Roche Sequencing)、安捷伦科技有限公司(Agilent Technologies)和IDT(Integrated DNA Technologies,Inc)。探针设计针对革E区域的单链进行设计,设计成不同长度(专利US 7636637中所述的29-39bp;参考资料所述>60bp,
[0004] https://lifescience.roche.com/wcsstore/RASCatalogAssetStore/Articles/ BIOCHEMIC Α_3_09_ρ13-14· pdf; agi lent 专利US20110184161所述 >100bp;文献 PMID 19182786所述的120bp)不同重叠数的探针(如lx、l ·5χ、2χ或4x tiling,文献PMID 19835619)。探针的单向设计使捕获过程中无法捕获互补链核酸文库,导致捕获拷贝数损 失;另外探针是根据正常基因组序列进行设计,优先捕获正常基因组序列而非突变型序列, 导致测序结果中突变频率的偏差。

【发明内容】

[0005] 本发明的目的在于提供一种用于核酸富集捕获的探针。
[0006] 为实现上述目的,本发明提供一种用于核酸富集捕获的探针,其特征在于,该探针 为双向探针,由正义链探针和反义链探针组成,其中正义链探针和反义链探针均为探针无 重叠设计,其长度均为30-89个碱基,探针的3 '或5 '具有生物素标记,能与磁珠上的亲和素 结合。
[0007] 进一步,所述双向探针的序列设计方法如下:
[0008] (1)依据基因突变点在参考基因组对应位置,选取如下长度参考序列:
[0009] 若为外显子上的点突变、插入突变或缺失突变,则选取该外显子长度;
[0010] 若为融合突变,则选取融合断点处的内含子和外显子长度;
[0011] (2)取参考序列即正义链模板,设计相等长度的正义链无重叠探针;
[0012] (3)取参考序列的反向互补序列即反义链模板,设计相等长度的反义链无重叠探 针;反义链无重叠探针与正义链无重叠探针长度相同,且与正义链无重叠探针错位:反义链 无重叠探针长度为η,若η为奇数,最适错位为(n+1) /2;若η为偶数,最适错位为n/2;
[0013] (4)通过软件分析,剔除含有重复序列的探针;所述软件分析包括探针序列分析以 及靶序列分析,软件分析可采用重复序列识别软件进行分析;
[0014] (5)根据探针捕获样品DNA的高通量测序结果,将捕获所得的非特异片段与所有探 针的进行比对,剔除与非特异片段有比对匹配结果的探针;
[0015] (6)得到最终适用于参考序列的捕获探针。
[0016] 进一步,为同时捕获野生型序列和突变型序列,增加特异探针,该特异探针序列依 次为:突变位点上游匹配序列、无碱基间隔基团和突变位点下游匹配序列;所述特异探针序 列长度为n,若η为奇数,则上游匹配序列或下游匹配序列的长度为(n+l)/2;若η为偶数,则 上游匹配序列或下游匹配序列的长度为n/2。。
[0017] 进一步,针对所述突变型序列的突变点,特异探针设计时将突变点的变异碱基用 无碱基基团替代。
[0018] 为了更好的捕获双链基因组靶序列,根据所需捕获的基因组靶序列,设计双向探 针(分别设计正义链探针和反义链探针)。正义链探针为探针无重叠设计,反义链探针也为 探针无重叠设计。为了减少正义链与反义链探针的互补配对,将正义链与对应反义链探针 设计成错位的,即每条正义链与对应反义链探针存在一半探针长度的互补,既保证了对模 板双链的捕获又最大程度的减少了探针之间的互作。
[0019] 探针长度为30-89个碱基,探针的3 '或5 '具有生物素标记,能与磁珠上的亲和素结 合,用于后续磁力环境下捕获靶序列。
[0020] 同时,为了同时捕获野生型序列和突变型序列,在双向探针的基础上补加特异探 针,特异探针中的变异位点用无碱基间隔基团(dSpacer、Spacer9或Spacer 18等)替代,无碱 基间隔修饰基团两侧为突变型和野生型共有序列。
[0021] 本发明探针设计原理见图1所示。依据基因突变点在人类参考基因组(如Homo sapiens, Release 19(GRCh37.pl3))对应位置,选取相应长度参考序列进行探针设计,根据 基因组的互补双链分别设计正义链无重叠探针以及反义链无重叠探针,每条正义链探针与 相应位置的反义链探针存在一半探针长度的互补,每条反义链探针与相应位置的正义链探 针存在一半探针长度的互补;并且根据所需检测基因组突变,在相应位置设计无偏向性探 针。所设计探针与样品DNA杂交捕获见图2。
[0022]探针设计步骤:
[0023] 1、依据基因突变点在人类参考基因组(如Homo sapiens, Release 19 (GRCh37.pl3))对应位置,选取相应长度参考序列,若为外显子上的点突变、插入突变或缺 失突变,则选取该外显子长度;若为融合突变,则选取融合断点处的内含子和外显子长度。 如EGFR基因 T790M点突变,则选取EGFR基因的外显子20; EGFR基因 E746_A750del缺失,则选 取EGFR基因的外显子19;如发生在ALK基因内含子19的基因融合,则选取ALK外显子19、内含 子19、外显子20。
[0024] 2、取参考序列(正义链模板),设计相等长度的正义链无重叠探针。使用软件(如 Array Designer)或手工进行探针设计。
[0025] 3、取参考序列的反向互补序列(反义链模板),设计相等长度的反义链无重叠探 针;反义链探针与正义链探针长度相同,且与正义链探针错位。使用软件(如Array Designer)或手工进行探针设计。设探针长度为n,错位的可能性为1~(n-1),若η为奇数,最 适错位为(η+1 )/2;若η为偶数,最适错位为η/2。这种错位将使正义链无重叠探针和反义链 无重叠探针之间的互作降到最低。
[0026] 4、通过软件分析或者(和)试验结果,剔除含有重复序列的探针。软件分析包括探 针序列分析以及靶序列分析,软件分析可采用重复序列识别软件进行分析,如在线软件 RepeatMasker、本地软件Blast和BWA。试验结果,根据探针捕获样品DNA的高通量测序结果, 将捕获所得的非特异片段与所有探针的进行比对(如本底软件),剔除与非特异片段有比对 匹配结果的探针。
[0027] 5、确定最终适用于参考序列的捕获探针。
[0028]应用本发明探针杂交捕获样品DNA原理见图2所示。样品DNA中存在野生型正义链 模板、野生型反义链模板、突变型正义链模板和突变型反义链模板;探针含有野生型正义链 探针、野生型反义链探针、无偏向性正义链探针和无偏向性反义链探针。在特定条件下,野 生型反义链探针可杂交捕获野生型正义链模板,野生型正义链探针可杂交捕获野生型反义 链模板,野生型反义链探针和无偏向性反义链探针可杂交捕获正义链野生型模板,正义链 探针和无偏向性正义链探针可杂交捕获反义链突变型模板。
[0029] 本发明的双向探针能够提高捕获的特异性(即减少对非靶位置的基因组DNA的捕 获),并且增加捕获样品核酸的原始拷贝数。本发明的双向探针及含无碱基间隔基团的无偏 向性探针,还能显著提高对样本突变型DNA的捕获。
【附图说明】
[0030] 图1是本发明探针设计原理图。
[0031] 图2是应用本发明探针杂交捕获样品DNA原理图。
【具体实施方式】
[0032] 下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终 相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附 图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。实施例 中未注明具体技术或条件者,按照本领域内的文献所描述的技术或条件或者按照产品说明 书进行。所用试剂或仪器未注明生产厂商者,均为可以通过市购获得的常规产品。
[0033] 实施例1:双向探针对不同GC含量片段onTarget率的影响
[0034] 取6个基因组区段(Homo sapiens,Release 19(GRCh37.pl3)
[0035] chr2:29446476-chr2:29446775;chr2:29447226-chr2:29447525 ;
[0036] chr2:29448065-chr2:29448364;chr6:117642641-chr6:117642940;
[0037] chr6:117645323-chr6:117645622;chr6:117641038-chr6:117641337),进行探针 设计:单向探针3倍重叠覆盖,或双向探针错位覆盖;探针长度均为59bp,探针3 '端为Biotin 修饰。具体探针序列较多,以Homo sapiens,Release 19(GRCh37 · pl3 )chr2 : 29446476-chr2:29446775区段为例,列举单向探针5条,为SEQ ID N0:1-5;列举双向探针5条,为SEQ ID NO: 6-10。取白细胞DNA各30ng,以ΚΑΡΑ试剂盒进行建库后,采用杂交试剂,进行2h和24h 的一次杂交捕获,杂交捕获采用的是Roche公司的SeqCap EZ Hybridization and Wash Kit试剂盒,根据试剂盒说明书操作。测序结果如表1。
[0038] 表1双向探针对不同GC含量片段on Target率的影响表
[0039]
[0040] 注:〇nTarget为靶序列测序结果占总测序结果(即靶序列和非靶序列的测序结果) 的比例;coverage指测序所得祀序列部分占整个祀序列的比例;Uniformity指的捕获后革巴 序列中各个碱基的均一性情况,以平均深度的20 %作为阈值时,靶序列中达到20 %平均深 度的碱基占靶序列总碱基比例;Depth指测序结果中靶序列中各碱基的平均深度;UID指的 是经过分子标签推算所得的原始模板拷贝。
[0041] 从表1可以看出,双向探针错位覆盖的产量(捕获后扩增的文库产量)明显高于单 向重叠覆盖,并且杂交捕获的onTarget率也显著提高,并且24h杂交组效果比2h组效果更明 显;各组Coverage-致;双向探针的Uniformity较低;因测序数据量有限,双向探针错位覆 盖的UID随着onTarget率提高而增高。Uniformity数值中,双向探针低于单向重叠探针,主 要是因为各条探针的不同序列决定了捕获效能上的偏差,因此增加探针覆盖的频率,能有 效降低探针对不同位置碱基的捕获能力差异,使均一性更佳。探针的单向设计无法捕获双 链的链核酸文库,导致捕获拷贝数损失,而双向探针则填补相应缺陷,使Depth和UID均有大 幅度提高。测序数据量有时比单项高,有时比单项低,原因是高通量测序时,样品上样质量 是依据预期数据量进行换算的,多个样品混成后再进行测序,因此取样和混样过程中可能 存在偏差,无法保证绝对的精确,另外样品在测序仪器上需经过PCR放大过程,也无法保证 每个样品扩增效率完全一致。
[0042] 实施例2、双向探针对不同染色体onTarget率的影响
[0043]取 5 个基因组区段!1〇111〇8&口16118,1^16&86 19(61?〇137印13)(31^2:29446201-29448364, chr7:55241635-55241748,chr7:55242396-55242539,chr7:55249029-55249107,chr7:55259462-55259576;进行如下探针设计:单向探针无重叠覆盖和双向错位 探针覆盖。探针长度为35-80bp及探针Tm为72-78°C,探针3'端为Biotin修饰。具体探针序列 较多,以Homo sapiens,Release 19(GRCh37 .pl3)chr2:29446201-29448364区段为例,列举 单向探针5条,为SEQ ID NO: 11-15;列举双向探针5条,为SEQ ID NO: 16-20,见表2。取白细 胞DNA各30ng,以ΚΑΡΑ试剂盒进行建库后,采用杂交试剂,进行2h的一次杂交捕获,杂交捕获 采用的是Roche公司的SeqCap EZ Hybridization and Wash Kit试剂盒,根据试剂盒说明 书操作。测序结果如表2。
[0044] 表2双向探针对不同染色体on Target率的影响表
[0045]
[0046] 从表2可以看出,双向探针错位覆盖的产量(捕获后扩增的文库产量)明显高于单 向无重叠覆盖,并且杂交捕获的onTarget率也显著提高;各组Coverage和Uniformity-样; 因测序数据量有限,双向探针错位覆盖的UID随着onTarget率提高而增高。
[0047] 实施例3、双向探针对UID的影响
[0048] 取多个基因组区段进行探针设计,多个基因组区段包含区段有R0S1基因的外显子 31、内含子31及外显子32和EGFR基因的外显子19等,进行如下方案的探针设计:单向探针3 倍重叠覆盖,双向探针错位覆盖,探针长度均为59bp,探针3 '端为Biotin修饰,经过软件分 析和试验结果,剔除含有重复序列的探针。具体探针序列较多,以EGFR基因的外显子19为 例,Homo sapiens,Release 19(GRCh37.pl3)chr7:55242415-55242513,列举得到最终适用 于参考序列的单向探针5条,SEQ ID N0:21-25,列举得到最终适用于参考序列的双向探针4 条,SEQ ID N0:26-29;以R0S1基因的外显子31、内含子31及外显子32为例,Homo sapiens, Release 19(GRCh37.pl3)chr6:117650492-117658503 区段,列举得到最终适用于参考序列 的单向探针5条,SEQ ID N0:30-34,列举得到最终适用于参考序列的双向探针5条,SEQ ID N0:35-39,列举软件剔除的含有重复序列的双向探针5条,SEQ ID N0:40-44,列举试验结果 易丨J除的含有重复序列的双向探针5条,SEQ ID NO: 45-49,见附表。同时,针对EGFR外显子19 缺失的变异类型NM_005228: exonl9: c. 2235_2249del: p. 745_750del设计含无碱基间隔基 团的无偏向性探针,以增加对突变型模板的捕获。无偏向性探针以无碱基间隔基团 Spacerl8替代,序列为SEQ ID N0:50-Spacerl8-SEQ ID N0:51-3'-Biotin所示;
[0049] 其中 TGAGAAAGTTAAAATTCCCGTCGCTATCAA为SEQ ID N0:50;
[0050] CGAAAGCCAACAAGGAAATCCTCGATGTGA为SEQ ID N0:51。
[0051] 具体为:
[0052] TGAGAAAGTTAAAATTCCCGTCGCTATCAA-Spacerl8-CGAAAGCCAACAAGGAAATCCTCGATGTGA-3 ' -Biotin。取人体白细胞DNA或血浆DNA各30ng,以 ΚΑΡΑ试剂盒进行建库后,采用杂交试剂,进行24h+24h的二次杂交捕获,杂交捕获采用的是 Roche公司的SeqCap EZ Hybridization and Wash Kit试剂盒,根据试剂盒说明书操作。测 序结果如表3。
[0053] 表3双向探针对UID的影响表 [0054]
[0055] 从表3可以看出,双向探针错位覆盖的产量(捕获后扩增的文库产量)明显高于单 向探针各组,杂交捕获的onTarget率略有提高;各组Coverage和Uniformity-样;在数据量 和onTarget相近的条件下,双向探针错位覆盖与单向探针3倍重叠覆盖组相比,白细胞DNA 的UID提高约6.8%,血浆DNA的UID提高约12.9%。双向探针的Depth比单向探针的高。说明 与1倍、2倍或3倍覆盖的单向探针相比,双向探针对样品DNA具有更好的杂交捕获能力。
[0056] 双向探针增加了探针对目的碱基的覆盖频率,因此引入对比是用来说明双向探针 从设计上优于单向探针。
[0057] 实施例4、双向探针对突变检测的影响
[0058] 取多个基因组区段进行探针设计,多个基因组区段包含区段有R0S1基因的外显子 31、内含子31及外显子32和EGFR基因的外显子19等,进行如下方案的探针设计:双向探针错 位覆盖,探针长度均为59bp,探针3 '端为Biotin修饰,经过软件分析和试验结果,剔除含有 重复序列的探针。具体探针序列较多,以EGFR基因的外显子19为例,Homo sapiens,Release 19(GRCh37 ·pl3)chr7:55242415-55242513,列举4条得到的双向探针,SEQ ID NO: 26-29;以 R0S1基因的外显子31、内含子31及外显子32为例,Homo sapiens,Release 19(GRCh37.pl3) chr6:117650492-117658503区段,列举5条得到的双向探针,SEQ ID NO: 35-39,列举5条软 件剔除的含有重复序列的双向探针,SEQ ID N0:40-44,列举5条经试验结果剔除的含有重 复序列的双向探针,SEQ ID N0:45-49,见附表。同时,针对EGFR外显子19缺失的变异类型 NM_005228: exonl9: c. 2235_2249del:p. 745_750del设计含无碱基间隔基团的无偏向性探 针,以增加对突变型模板的捕获。无偏向性探针以无碱基间隔基团Spacer 18替代,序列为 SEQ ID NO:50-Spacerl8-SEQ ID NO:51-3'-Biotin所示;
[0059] 其中TGAGAAAGTTAAAATTCCCGTCGCTATCAA为SEQ ID N0:50;
[0060] CGAAAGCCAACAAGGAAATCCTCGATGTGA为SEQ ID N0:51。
[0061] 具体为:
[0062] TGAGAAAGTTAAAATTCCCGTCGCTATCAA-Spacerl8-CGAAAGCCAACAAGGAAATCCTCGATGTGA-3'-Biotin〇
[0063] 取20ng H1650细胞系(NM_005228: exonl9: c · 2235_2249del: p · 745_750del,该细 胞系可购自于ATCC),以ΚΑΡΑ试剂盒进行建库。
[0064] 采用杂交试剂,进行24h+24h的二次杂交捕获,杂交捕获采用的是Roche公司的 SeqCap EZ Hybridization and Wash Kit试剂盒,根据试剂盒说明书操作。测序结果如下。 捕获对照采用定制的商业化捕获试剂盒(Roche公司的SeqCap EZ System定制产品)。
[0065] 表4双向探针对突变检测的影响结果表
[0066]
[0067]上表可以看出,双向探针错位覆盖的突变率明显高于商业试剂盒。根据数字PCR方 法的检测结果显示,H1650突变含量约为62%。这个数据说明本发明能更好地杂交捕获变异 DNA片段,有效捕获突变拷贝,使突变检出率更高。
[0068] 尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例 性的,不能理解为对本发明的限制,本领域的普通技术人员在不脱离本发明的原理和宗旨 的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
【主权项】
1. 一种用于核酸富集捕获的探针,其特征在于,该探针为双向探针,由正义链探针和反 义链探针组成,其中正义链探针和反义链探针均为探针无重叠设计,其长度均为30-89个碱 基,探针的3 '或5 '具有生物素标记,能与磁珠上的亲和素结合。2. 权利要求1所述用于核酸富集捕获的探针,其特征在于,所述双向探针的序列设计方 法如下: (1) 依据基因突变点在参考基因组对应位置,选取如下长度参考序列: 若为外显子上的点突变、插入突变或缺失突变,则选取该外显子长度; 若为融合突变,则选取融合断点处的内含子和外显子长度; (2) 取参考序列即正义链模板,设计相等长度的正义链无重叠探针; (3) 取参考序列的反向互补序列即反义链模板,设计相等长度的反义链无重叠探针;反 义链无重叠探针与正义链无重叠探针长度相同,且与正义链无重叠探针错位:反义链无重 叠探针长度为η,若η为奇数,最适错位为(n+1) /2;若η为偶数,最适错位为n/2; (4) 通过软件分析,剔除含有重复序列的探针;所述软件分析包括探针序列分析以及靶 序列分析,软件分析可采用重复序列识别软件进行分析; (5) 根据探针捕获样品DNA的高通量测序结果,将捕获所得的非特异片段与所有探针的 进行比对,剔除与非特异片段有比对匹配结果的探针; (6) 得到最终适用于参考序列的捕获探针。3. 权利要求1或2所述用于核酸富集捕获的探针,其特征在于,为同时捕获野生型序列 和突变型序列,增加特异探针:该特异探针序列依次为:突变位点上游匹配序列、无碱基间 隔基团和突变位点下游匹配序列;所述特异探针序列长度为η,若η为奇数,则上游匹配序列 或下游匹配序列的长度为(η+1)/2;若η为偶数,则上游匹配序列或下游匹配序列的长度为 η/2〇4. 权利要求3所述用于核酸富集捕获的探针,其特征在于,针对所述突变型序列的突变 点,特异探针设计时将突变点的变异碱基用无碱基基团替代。
【文档编号】C12N15/11GK106086013SQ201610504501
【公开日】2016年11月9日
【申请日】2016年6月30日
【发明人】施伟杰, 林清华, 纪斌峰, 唐郑华, 李旭超, 阮力
【申请人】厦门艾德生物医药科技股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1