用于数字基因表达谱的标签及其使用方法

文档序号:3365806阅读:321来源:国知局
专利名称:用于数字基因表达谱的标签及其使用方法
技术领域
本发明涉及核酸测序技术领域,特别是数字基因表达谱技术领域。另外,本发明还涉及标签及其使用方法,以及利用标签技术构建数字基因表达谱文库的方法。本发明的方法特别适用于第二代测序技术,尤其是SOlexa测序技术。
背景技术
数字基因表达谱(DigitalGene Expression Profiling,DGE)利用新一代高通量测序技术和高性能计算分析技术,能够全面、经济、快速地检测某一物种特定组织在特定状态下的基因表达情况。数字基因表达谱已被广泛应用于基础科学研究、医学研究和药物研发等领域。利用高通量测序能够得到数百万个基因的特异标签,而数字的序列信号可以准确、特异地反映对应基因的真实表达情况。这种技术甚至可以精确地检测低至一两个拷贝的稀有转录本,并精确定量高达十万个拷贝的转录本的表达量变化。由于序列无需事先设计,DGE数据具有极佳的实时性,DGE可以检测到许多未曾注释的基因和基因组部位,为新基因的发现提供了良好的线索。这一技术进步允许科学家更加全面、准确地把握全基因组的基因表达情况。目前illumina公司的Solexa测序平台提供的DGE文库制备方法有两种,分别为方法一 [1]和方法二 [2]。方法一,首先从总RNA样品中分离mRNA,将mRNA反转录成cDNA, 通过NlaIII酶酶切cDNA链,产生特异性的粘性末端。连接反应过程中GEX接头1 (也称为 GEX Adapter 1)与带有粘性末端的目的片段进行连接。随后通过限制性内切酶MmeI酶切目的片段,该内切酶识别TCCRAC(N)2tl,切成3’末端序列为两个随机碱基的粘性末端,然后与GEX接头2 (也称为GEX adapted)进行连接反应。目的片段连接GEX接头2之后,通过特定的PCR引物对目的片段进行扩增,最后通过切胶回收目的片段文库,如

图1(A)。方法二,首先从总RNA样品中分离mRNA,将mRNA反转录成cDNA,通过DpnII酶酶切cDNA链,产生特异性的粘性末端。连接反应过程中GEX接头1与带有粘性末端的目的片段进行连接。随后通过限制性内切酶MmeI酶切目的片段,该内切酶识别TCCRAC(N)2q,切成3’末端序列为两个随机碱基的粘性末端,然后与GEX接头2进行连接反应。目的片段连接GEX接头2之后, 通过特定的PCR引物对目的片段进行扩增,最后通过切胶回收目的片段文库,如图1 (B)。 方法一和方法二这两种文库制备的方法不同之处两种不同的建库方法使用了不同的限制性内切酶NlaIII和DpnII,这两种酶识别的剪切位点不一样NlaIII酶切位点为5,-CATG-3,,DpnII酶切位点为5,-GATC-3’,酶切产生的目的片段的5,末端序列不同,所以需要它们的GEX接头1序列不同,最后构建所得文库所使用的测序引物也不一样。这两种文库制备的方法存在着一些缺陷,即只能对单个文库样品进行Solexa Single End (illumina)测序,不能将DGE文库样品混合测序。因为随着solexa测序通量的增加,1 个测序泳道(也称为lane)所产出的数据远远大于目的片段所需求的数据,如果所构建的文库样品不能进行混合测序,将在一定程度上“浪费测序资源”和影响到测序通量。

发明内容
使用同样的RNA样品构建DGE文库,如果数据产出存在偏向性的问题,将会导致数据结果不可信,不能真实的反映样品的相关信息,同时也将导致实验结果重复性低。本发明基于目前illumina公司的solexa测序平台提供的DGE文库制备方法[1,2],将一段特定长度的核苷酸序列(即标签,也称为index)嵌入接头(也称为adapter)中,同时考虑PCR引物的扩增效率和数据产出的偏向性因素,筛选出合适的标签及含该标签序列的接头,并将该接头用于混合样品测序,确保数据的准确性和可重复性。标签设计首先需要考虑标签序列之间的序列差异程度和碱基识别率。在标签混合量少于12个样品的情况下,必须考虑到混合后的标签上的每个碱基位点的GT含量。因为 solexa测序过程中,碱基G和T的激发荧光一样,碱基A和C的激发光是一样的,因此必须考虑碱基“GT”含量与碱基“AC”含量的“平衡”,最后考虑数据产出的准确性和可重复性。 在设计标签的过程中,本发明充分考虑到以上几个因素,同时避免了标签序列出现3或3个以上连续的碱基的出现,这样可以降低序列在合成过程中或测序过程中的错误率。标签序列本身嵌入接头中,也要尽可能的避免出现发夹结构或与测序引物及其反向互补序列相同的现象。在本发明的一个具体实施方式
中,将特定长度的核苷酸序列嵌入已有DGE文库的的3,接头(GEX adapter 2)的5,末端中形成GEX标签接头2,使用不同的GEX标签接头 2进行连接反应,构建DGE标签文库。如图2所示,首先从总RNA样品中分离mRNA,将mRNA 反转录成cDNA,通过限制性内切酶NlaIII酶切cDNA链,产生特异性的粘性末端。连接反应过程中,将GEX接头1与带有粘性末端的目的片段进行连接。随后通过限制性内切酶MmeI 酶切目的片段,该内切酶识别TCCRAC(N)2tl,切成3’末端序列为两个随机碱基的粘性末端, 然后与GEX标签接头2进行连接反应。目的片段连接GEX标签接头2之后,通过特定的PCR 引物对目的片段进行扩增,最后通过切胶回收目的片段文库。基于目前illumina公司的solexa测序平台提供的DGE文库制备方法,本发明针对DGE样品建库方法,设计了独特的标签序列,通过接头将标签嵌入DGE文库的3’接头中, 成功的建立了数字基因表达谱标签文库(DGE标签文库,DGE index library)的建库方法, 适合任何真核生物RNA样品的DGE标签文库构建,并成功用于solexa测序,不仅增大了 DGE 样品的测序通量,而且降低了 solexa针对DGE测序的费用。本发明基于目前illumina公司提供的Solexa Single End测序平台,设计一段长度为IObp的特定标签序列,将标签序列嵌入接头序列中。考虑到GEX标签接头2的连接效率,优化并筛选出12条GEX标签接头,这些标签之间的差异在5个碱基以上,当标签的10 个碱基中的任意1个碱基出现测序错误或合成错误,都不影响到标签的最终识别。表1为优化筛选出来的12条标签(indexl-12)序列,及其对应的GEX标签接头2 序列(Gex IndexN adapter2 F 禾口 Gex IndexN adapter2 R, N = 1-12)信息。这些标签及其GEX标签接头2可以应用于任何DGE标签文库的构建。这些标签应用于DGE样品的文库构建并通过solexa测序的方法,目前尚未有报道。 表IDGE标签序列及GEX标签接头2序列,其中每一个GEX标签接头2由有义序列 Gex indexN adapter2 F 禾口反义序列 Gex indexN adapter2 R 经退火形成。
权利要求
1.一组标签,所述一组标签包括如下或由如下组成表1所示12个标签与其相差1个碱基的标签中的至少2个,或至少3个,或至少4个,或至少5个,至少6个,或至少7个,或至少8个,或至少9个,或至少10个,或至少11个,或全部12个,所述一组标签优选地至少包括表1所示的12个标签中的Indexl和IndeX2,或IndeX3 禾口 Index4,或 Index5 禾口 Index6,或 Index7 禾口 Index8,或 Index9 禾口 IndexlO,或 Indexll 禾口 Indexl2,或者他们任何两个或多个的组合。
2.权利要求1所述的标签,其中所述相差1个碱基包括对表1所示12个标签的序列中 1个碱基的取代、添加或缺失。
3.权利要求1或2所述的标签用于数字基因表达谱标签文库构建并测序的用途,其中所述标签包含在GEX接头2的5’末端中,从而构成各自相对应的GEX标签接头2,其用作数字基因表达谱标签文库的3’接头。
4.权利要求3所述的用途,所述标签包含在GEX接头2的5’末端中,包括标签通过或不通过连接子与GEX接头1的5’末端相连,或者插入GEX接头2的5’末端中,优选的是不通过连接子与GEX接头1的5’末端相连。
5.使用权利要求1或2所述的标签构建的数字基因表达谱标签文库。
6.包含权利要求1所述的标签的一组GEX标签接头2,其在5’末端包含权利要求1所述的标签,并且优选地用作数字基因表达谱标签文库3’接头,所述一组GEX标签接头2包括如下或由如下组成表1所示12个GEX标签接头2或与其中包含的标签序列相差1个碱基的接头中的至少2个,或至少3个,或至少4个,或至少5个,至少6个,或至少7个,或至少8个,或至少9个,或至少10个,或至少11个,或全部12个,所述一组GEX标签接头2优选地至少包括表2所示的12个GEX标签接头2中的Gex Indexl adapter2 F/R 禾口 Gex Index2 adapter2 F/R,或 Gex Index3 adapter2 F/R 禾口 Gex Index4 adapter2 F/R,或Gex Index5 adapter2 F/R 禾口 Gex Index6 adapter2 F/R,或Gex Index7 adapter2 F/R 禾口 Gex Index8 adapter2 F/R,或 Gex Index9 adapter2 F/R 禾口 Gex IndexlO adapter2 F/R,或 Gex Indexll adapter2 F/R 禾口 Gex Indexl2 adapter2 F/R,或者他们任何两个或多个的组合。
7.权利要求6所述的GEX标签接头2,其中所述相差1个碱基包括对标签序列中1个碱基的取代、添加或缺失。
8.权利要求6或7所述的GEX标签接头2用于数字基因表达谱标签文库构建并测序的用途,所述GEX标签接头2用作数字基因表达谱标签文库的3’接头。
9.使用权利要求6或7所述的GEX标签接头2构建的数字基因表达谱标签文库,其中所述GEX标签接头2用作数字基因表达谱标签文库的3’接头。
10.一种构建数字基因表达谱标签文库并测序的方法,所述方法的特征在于使用不同的选自表1的GEX标签接头2与其中包含的标签序列相差1个碱基的接头用作数字基因表达谱标签文库的3’接头,构建数字基因表达谱标签文库。
11.权利要求10所述的方法,其包括1)提供η个总RNA样品,η为整数且1 彡12,优选地彡12,所述RNA样品来自任何真核生物RNA样品,包括但不限于水稻、小鼠和人的RNA样品,从总RNA样品中分离 mRNA,将mRNA反转录成cDNA ;2)添加GEX接头1通过5,限制性内切酶酶切cDNA片段产生带有5,粘性末端的cDNA 片段,所述5’限制性内切酶包括但不限于NlaIII和DpnII,然后通过连接反应将GEX接头 1与带有5’粘性末端的cDNA片段进行连接;3)添加GEX标签接头2通过3’限制性内切酶酶切上述步骤2)所得的cDNA片段产生带有3’粘性末端的cDNA片段,所述限制性内切酶包括但不限于Mmel,然后通过连接反应将 GEX标签接头2与带有3’粘性末端的cDNA片段进行连接;4)通过PCR对目的片段进行扩增,最后通过回收目的片段文库;5)混合当η> 1时,将各样品的PCR扩增产物混合在一起;当η = 1时,直接进行步骤6);6)测序将各样品的PCR扩增产物利用Solexa测序技术进行测序。
12.权利要求11所述的方法,其中所述GEX标签接头1包括如接头 当所述5,限制性内切酶是DpnII时,GEX标签接头1是Gex Adapter IA 5 ‘ P-GATCGTCGGACTGTAGAACTCTGAAC5' ACAGGTTCAGAGTTCTACAGTCCGAC ;和当所述5,限制性内切酶是NlaII时,GEX标签接头1是Gex Adapter IB 5 ‘ P-TCGGACTGTAGAACTCTGAAC 5 ‘ ACAGGTTCAGAGTTCTACAGTCCGACATG。
13.权利要求11所述的方法,其中所述GEX标签接头2包括表1所示12个GEX标签接头2或与其中包含的标签序列相差1个碱基的接头中的至少2个,或至少3个,或至少4 个,或至少5个,至少6个,或至少7个,或至少8个,或至少9个,或至少10个,或至少11 个,或全部12个,所述一组GEX标签接头2优选地至少包括表2所示的12个GEX标签接头2中的Gex Indexl adapter2 F/R 禾口 Gex Index2 adapter2 F/R,或 Gex Index3 adapter2 F/R 禾口 Gex Index4 adapter2 F/R,或Gex Index5 adapter2 F/R 禾口 Gex Index6 adapter2 F/R,或Gex Index7 adapter2 F/R 禾口 Gex Index8 adapter2 F/R,或 Gex Index9 adapter2 F/R 禾口 Gex IndexlO adapter2 F/R,或 Gex Indexll adapter2 F/R 禾口 Gex Indexl2 adapter2 F/R,或者他们任何两个或多个的组合。
14.权利要求10或13所述的方法,其中所述相差1个碱基包括标签序列中1个碱基的取代、添加或缺失。
15.权利要求11所述的方法,其中步骤4)中的PCR使用如下PCR引物 当所述5’限制性内切酶是DpnII时,PCR引物是Gex PCR Primer 1 5 ‘ CAAGCAGAAGACGGCATACGA,禾Π Gex PCR Primer 2A·5 ‘ AATGATACGGCGACCACCGACAGGTTCAGAGTTCTACAGTCCGA ;以及当所述5’限制性内切酶是NlaIII时,PCR引物是Gex PCR Primer 1·5 ‘ CAAGCAGAAGACGGCATACGA,禾ΠGex PCR Primer 2B5' AATGATACGGCGACCACCGACAGGTTCAGAGTTCTACAGTCCGA。
16.权利要求11所述的方法,其中利用Solexa测序技术进行测序中使用的测序引物包括当所述5,限制性内切酶是NlaIII时,使用测序引物为Gex Sequencing PrimerlA 5' C GACAGGTTCAGAGTTCTACAGTCCGACGATC ;当所述5’限制性内切酶是DpnII时,使用测序引物为 Gex Sequencing PrimerlB 5' CCGACAGGTTCAGAGTTCTACAGTCCGACATG。
17.通过权利要求10或11所述的方法构建的数字基因表达谱标签文库。
全文摘要
本发明基于目前illumina公司提供的Solexa Single End测序平台,针对数字基因表达谱文库(DGE)样品建库方法,设计了独特的标签序列(index1-12),通过接头将标签嵌DGE文库的3’接头中,成功的建立了数字基因表达谱标签文库(DGE标签文库)的建库方法,适合任何真核生物RNA样品的DGE标签文库构建,并成功用于solexa测序,不仅增大了DGE样品的测序通量,而且降低了solexa针对DGE测序的费用。
文档编号C40B50/06GK102409044SQ201010299248
公开日2012年4月11日 申请日期2010年9月21日 优先权日2010年9月21日
发明者于竞, 张艳艳, 田方, 章文蔚, 龚梅花 申请人:深圳华大基因研究院, 深圳华大基因科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1