用于第二代高通量测序的核酸标签及其设计方法

文档序号:588062阅读:778来源:国知局
专利名称:用于第二代高通量测序的核酸标签及其设计方法
技术领域
本发明涉及一种核酸标签,尤其是涉及一种用于第二代高通量测序的核酸标签及 其设计方法。
背景技术
核酸标签是指已知序列的一小段核酸,通常包含几个到几十个核苷酸(nt),通过 分子生物学方法与待标记的核酸连接来标记该核酸。将核酸标签应用于多样品混合测序, 可以区分每条序列来自的样品。随着第二代DNA测序技术的发展和成熟,测序的通量越来越高,为同时测定多个 样本提供了可能。比如Roche/454的GS FLX Titanium测序系统一次可以得到100万条 序列,如果同时测定96个样本,每个样本可以得到约1万条序列。目前Roche(FS)公 司提供了两种同时测定多样本的方法,一是物理分区,把测序反应区平均分隔为2或4或 8或16个物理区块,每个物理区块测定1个样本;第二种方法是给每个样本的一端加上一 段10个核苷酸的特异标签序列,不同的样本这段标签序列不同,样本混合测序后可以根据 这段特异标签序列来追踪样本来源。罗氏公司目前提供成熟的标签有15个。国外的其他 研究小组也发表了不同于罗氏公司的标签方法,比如通过PCR方法在序列一端加4nt的特 异标签([1]Hoffmann,C.,Minkah, N.,Leipzig, J.,Wang, G.,Arens, Μ. Q.,Tebas,P.,and Bushman,F. D. (2007). DNA bar coding and pyrosequencing to identify rare HIV drug resistance mutations. Nucleic AcidsRes 35,e91[;2]Kasschau,K. D.,FahIgren, N., Chapman,E. J.,Sullivan, C. M.,Cumbie, J. S.,Givan,S. A.,and Carrington,J. C. (2007). Genome-wide profiling and analysis ofArabidopsis siRNAs. PLoS Biol 5,e57)或两 端各力口上 2nt([3]Binladen, J. ,Gilbert,Μ. Τ. ,Bollback, J. P. ,Panitz,F. ,Bendixen, C. , Nielsen, R. , and Willerslev, Ε. (2007).The use of codedPCR primers enables high-throughput sequencing of multiple homolog amplification products by454 parallel sequencing. PLoS ONE 2,el97)或 IOnt 的特异标签([4]Parameswaran,P·, Jalili,R.,Tao,L,Shokralla,S.,Gharizadeh, B.,Ronaghi,M.,and Fire,Α. Ζ. (2007). A pyrosequencing-tailored nucleotide barcode design unveils opportunities for large-scale sample multiplexing. Nucleic Acids Res 35,el30)。在目前的分子生物学 实验操作,通常会利用96孔板进行多样本的平行处理,因此在混合测序领域,同时对96个 不同DNA样本进行标签也就有了非常实用的价值。而以上公开的方法要么可以区分的样本 数太少,无法满足96个样本标签的需要,比如物理分区或2nt的标签;要么标签序列过长, 使得引物和接头设计变得复杂和昂贵,比如IOnt的标签。针对配合第二代测序系统的96 孔板操作的特异标签方法还未见报道。标签的使用必须考虑测序错误。如果测序错误正好落在标签区,那么标签序列的 改变可能使得其所在的序列无法分辨来源。最坏的情况是如果测序错误正好把某个特异标 签变为另1个特异标签,那么就会把其所在的序列分配给错误的样本。比如,2nt的标签,一共可能的标签有4X4= 16个。如果16个标签都用上的话,那么只要标签上有测序错误,就 无法避免地从1个标签变为另1个标签。因此采用标签的饱和度越高,发生这种错误的概 率就越高。由于第二代DNA测序技术的错误率比传统Sanger测序法要高,比如Roche/454 的GS FLXTitanium测序系统在前面400bp内的错误率一股会达到0. 5% 1%,再考虑到 实际操作的其他误差和更大的读长,错误率可能会更高些。标签的容错性能必须与这些数 值匹配。对于4nt的标签来说,其总共有4~4 = 256个可能的标签,如果随机选取其中96 个做为实际标签,按照测序错误率为0. 8%计算,那么总共有3. 2%标签将发生测序错误, 而每个测序错误的标签有37. 5% (96/256 = 37.5%)的可能性误读为其他标签,即总序列 的1. 2%将被错误地分配到其他样本,这么高的错误分配率将严重影响实验结果。因此标签 的设计必须符合科学原则,降低错误分配率。

发明内容
本发明的目的是提供一种可以实现快速、高效和特异地同时标记近百个独立样 本,适用于 Roche/454GS FLX,Applied Biosystems/SOLiD 和 Illumina/Solexa 的多样本混 合测序,主要为96孔板条件下的用于第二代高通量测序的核酸标签及其设计方法。本发明所述用于第二代高通量测序的核酸标签为A组,长度为5nt的8个标签A-Tagl CTAGA ;A-Tag2 TGCAG ;A-Tag3 =ACGTC ;A_Tag4 GATCT ;A_Tag5 CGTAC ;A_Tag6 TAGCA ;A-Tag7 =ATCGT ;A_Tag8 GCATG B组,长度为5nt的8个标签B-Tagl CTCTA ;B_Tag2 GCTAG ;B-Tag3 =AGACC ;B-Tag4 TAGGA ;B_Tag5 CATAC ;B-Tag6 GTAGA ;B-Tag7 =ACGTA ;B-Tag8 TAACG ;C组,长度为6nt的12个标签C-TaglCTGTCA ;C-Tag2 CAACGA ;C-Tag3 CCTGAT ;C-Tag4 GACAGT ;
C-Tag5 GTCTTC ;C_Tag6 GGAACA ;C-Tag7 TCAGTG ;C-Tag8 TCGAAC ;C-Tag9 TGCCTT ;C-TaglO =AGTCAC ;C-Tagll =ACGTGT ;C-Tag 12 :ATTGCG。本发明所述用于第二代高通量测序的核酸标签的设计方法包括以下步骤1)设计第1条标签序列,没有连续两个相同的碱基Tagl CTAGA ;2)设计另3条标签,这4条标签标签对齐后,两两之间差异最大,即两两之间具有 相同碱基的位置数为0:Tag2 =TGCAG ;Tag3 =ACGTC ;Tag4 =GATCT ;3)设计另4条标签,每条新设计的标签与前面4条标签对齐后,两两之间拥有相同 碱基的位置数不超过2,每条路线都经过Tagl-Tag4标签;每条标签被同一路线踩到的位置 不超过2个;Tagl-Tag4标签的每个位置均被踩到,且只被踩过1次,把每条路线经过的碱 基按顺序连接起来,就是1条新的标签,由此获得4条新标签如下Tag5 CGTAC ;Tag6 TAGCA ;Tag7 =ATCGT ;Tag8 =GCATG ;4)计算标签两两之间具有相同碱基的位置数。本发明所述应用上述标签标记96个样品的方法包括以下步骤1)以8个1组的长度为5nt的标签为行标签,96孔板共有8行,每行对应1个标 签,同一行的DNA样品标记同1个行标签;2)以12个1组的长度为6nt的标签为列标签,96孔板共有12列,每列对应1个 标签,同一列的DNA样品标记同1个列标签;3)每个DNA样品同时标记两个标签,即DNA的两端都标记有标签,一端为行标签, 另一端为列标签;4)混合测序结束后,检索DNA两端的标签序列,根据实验设计的行标签与列标签 的两两组合把序列归类。本发明具有如下特点1.每组标签均具有很高的特异性按照上述列明的标签和设计方法,同1组标签两两之间至少有3个位置是不同的, 这保证了标签的容错能力。如果标签序列发生1次测序错误,最凑巧的情况下,与其他同组 标签之间仍然有2nt的差异,所以误判为其他标签的可能性为零;根据相似性,错误标签与
6正确标签只有Int差别,而与其他标签都至少有2nt差别,所以追踪出原标签的可能性为 100%。如果标签序列发生2次或以上测序错误,由于高通量测序系统的质量控制,只有极 低比例的这类序列进入下一环节,又由于同1组标签之间至少有3个位置的不同,因此只有 在非常巧合的情况下会被误读为其他标签。可见这套标签误判为其他标签的可能性极低, 而通过精细的追踪程序,Int测序错误的序列都可以追踪到正确的原始标签。2.本套标签与96孔板操作完全相容根据这套标签设计了接头和引物,在一系列实验中(具体见实施例),相同PCR条 件下,通常有85个以上样品能得到阳性条带,剩余样品在优化条件之后也能得到条带。由 此可见这套标签所标定的引物具有相似的扩增效率,完全适用于96孔板操作。3.本套标签与目前商业化的3种第二代测序系统都能相容Roche/454测序系统的测序长度在350bp以上,被标记序列长度不超过350bp情况 下,大部分序列可以同时测到两个标签,从而通过行标签与列标签的两两组合的情况追踪 回原始样品。Applied Biosystems/SOLiD和Illumina/Solexa都具有两端测序的功能,因 此大部分DNA两端的特异标签可以同时采集到,不会丢失标签两两组合的可靠性。4.依据本套标签,使得标记96个样品的成本非常低廉对于96个样品的标记,如果采取一端标记的方法,就需要设计96个特异的接头和 96条特异的引物。而依据本套标签两两组合的原理,只需要设计20个特异接头和20条特 异引物。


图1为路线辅助设计标签的示意图。内部表格是A组的Tagl Tag4的序列,箭 头代表路线,1条路线代表1个新设计的标签。图2为本发明实施例的96孔板、行标签、列标签示意图。水平方向为1 12,12 个列标签,垂直方向为A H8个行标签。图3为本发明实施例96个样品中第1 48个样品的PCR跑胶图。数字1 48 表示样品编号,M是分子量标记。图4为本发明实施例96个样品中第49 96个样品的PCR跑胶图。数字49 96 表示样品编号,M是分子量标记。
具体实施例方式以下实施例将结合附图对本发明作进一步的说明。本发明所述用于第二代高通量测序的核酸标签为A组,长度为5nt的8个标签A-Tagl =CTAGA ;A_Tag2 =TGCAG ;A_Tag3 =ACGTC ;A_Tag4 =GATCT ;A_Tag5 =GTAC ; A-Tag6 TAGCA ;A_Tag7 ATCGT ;A_Tag8 :GCATG。B组,长度为5nt的8个标签B-Tagl =CTCTA ;B_Tag2 =GCTAG ;B_Tag3 =AGACC ;B_Tag4 =TAGGA ;B_Tag5 =CATAC ; B-Tag6 GTAGA ;B_Tag7 =ACGTA ;B_Tag8 :TAACG。C组,长度为6nt的12个标签
C-Tagl =CTGTCA ;C_Tag2 =CAACGA ;C_Tag3 =CCTGAT ;C_Tag4 =GACAGT ;C_Tag5 GTCTTC ;C-Tag6 =GGAACA ;C_Tag7 =TCAGTG ;C_Tag8 =TCGAAC ;C_Tag9 =TGCCTT ;C-TaglO AGTCAC ;C-Tagll =ACGTGT ;C_Tagl2 :ATTGCG。本发明所述用于第二代高通量测序的核酸标签的设计方法包括以下步骤1)设计第1条标签序列,没有连续两个相同的碱基Tagl :CTAGA。2)设计另3条标签,这4条标签标签对齐后,两两之间差异最大,即两两之间具有 相同碱基的位置数为 0 :Tag2 =TGCAG ;Tag3 =ACGTC ;Tag4 =GATCT03)设计另4条标签,每条新设计的标签与前面4条标签对齐后,两两之间拥有相 同碱基的位置数不超过2。这里需要借助路线辅助设计,如图1所示。每条路线都经过 Tagl-Tag4标签;每条标签被同一路线踩到的位置不超过2个;Tagl-Tag4标签的每个位置 均被踩到,且只被踩过一次。把每条路线经过的碱基按顺序连接起来,就是1条新的标签。 由此获得 4 条新标签:Tag5 CGTAC ; Tag6 TAGCA ; Tag7 ATCGT ; Tag8 =GCATG04)计算标签两两之间具有相同碱基的位置数,标签两两比较表参见表1。表 权利要求
1.用于第二代高通量测序的核酸标签,其特征在于为 A组,长度为5nt的8个标签A-Tagl CTAGA ;A-Tag2 TGCAG ;A-Tag3 =ACGTC ;A-Tag4 =GATCT ;A-Tag5 CGTAC ;A-Tag6 TAGCA ;A-Tag7 =ATCGT ;A-Tag8 =GCATG ;B组,长度为5nt的8个标签B-Tagl CTCTA ;B-Tag2 =GCTAG ;B-Tag3 -MACC ;B-Tag4 TAGGA ;B-Tag5 CATAC ;B-Tag6 =GTAGA ;B-Tag7 =ACGTA ;B-Tag8 TAACG ;C组,长度为6nt的12个标签C-Tagl CTGTCA ;C-Tag2 CAACGA ;C-Tag3 CCTGAT ;C-Tag4 =GACAGT ;C-Tag5 =GTCTTC ;C-Tag6 =GGAACA ;C-Tag7 TCAGTG ;C-Tag8 TCGAAC ;C-Tag9 TGCCTT ;C-TaglO AGTCAC ;C-Tagll ACGTGT ;C-Tag 12 ATTGCG。
2.如权利要求1所述的用于第二代高通量测序的核酸标签的设计方法,其特征在于包 括以下步骤1)设计第1条标签序列,没有连续两个相同的碱基 Tagl CTAGA ;2)设计另3条标签,这4条标签标签对齐后,两两之间差异最大,即两两之间具有相同 碱基的位置数为0 Tag2 TGCAG ;Tag3 =ACGTC ; Tag4 =GATCT ;3)设计另4条标签,每条新设计的标签与前面4条标签对齐后,两两之间拥有相同碱基 的位置数不超过2,每条路线都经过Tagl-Tag4标签;每条标签被同一路线踩到的位置不超 过2个;Tagl-Tag4标签的每个位置均被踩到,且只被踩过1次,把每条路线经过的碱基按 顺序连接起来,就是1条新的标签,由此获得4条新标签如下Tag5 CGTAC ; Tag6 TAGCA ; Tag7 =ATCGT ; Tag8 GCATG ;4)计算标签两两之间具有相同碱基的位置数。
全文摘要
用于第二代高通量测序的核酸标签及其设计方法,涉及一种核酸标签。提供一种可实现快速、高效和特异地同时标记近百个独立样本,适用于多样本混合测序,主要为96孔板条件下的用于第二代高通量测序的核酸标签及其设计方法。所述核酸标签为A组,长度为5nt的8个标签;B组,长度为5nt的8个标签;C组,长度为6nt的12个标签。设计第1条标签序列Tag1CTAGA;设计另3条标签Tag2TGCAG;Tag3ACGTC;Tag4GATCT;设计另4条标签Tag5CGTAC;Tag6TAGCA;Tag7ATCGT;Tag8GCATG;计算标签两两之间具有相同碱基的位置数。
文档编号C12Q1/68GK102115789SQ201010590988
公开日2011年7月6日 申请日期2010年12月15日 优先权日2010年12月15日
发明者柯才焕, 陈军 申请人:厦门大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1