全基因组mRNA3′末端基因文库的构建方法

文档序号:3413095阅读:1676来源:国知局
专利名称:全基因组mRNA3′末端基因文库的构建方法
技术领域
本发明涉及一种基因文库的构建方法,尤其涉及一种适用于高通量测序的全基因组mRNA 3'末端文库的制备方法。
背景技术
3’非翻译区(简称3’UTR)是信使RNA(mRNA)的一个特殊部分,位于基因编码区的 3’末端。3’UTR是mRNA功能的重要调控元件,具有如下调控序列多聚腺苷酸化位点,通常为AAUAAA ;蛋白结合位点和miRNA靶标位点等。3’ UTR不仅可以控制mRNA的体内稳定性和降解速率、调节mRNA亚细胞定位和翻译水平,还能决定其所表达的细胞种类、控制mRNA 的利用效率、协助辨认特殊密码子。3’UTR的突变可以影响一或多个基因的表达,从而导致疾病的发生。人类基因往往有多个多聚腺苷酸化位点,在不同位点发生多聚腺苷酸化从而产生不同长度的3’ UTR是人类基因转录中的普遍现象,也被认为是可选择性剪切的类型之一-串联3,UTRs (tandem 3,UTRs)。3,UTR长度受到精确的调控,一个基因3,UTR长度的改变会引起多个基因的表达改变,会对细胞的调控网络及生理功能造成重大影响。对酵母、 果蝇及人类基因组的3’UTR多态性长度已成为当前的研究热点之一,如Sandberg等通过基因芯片技术对mRNA进行分析发现,增殖的CD4+淋巴细胞中存在较多的具有短的3’ UTR的转录本,强迫表达全长的3’UTR会造成蛋白表达量的减少。经过实验证明,具有短的3’UTR 的转录本的大量存在可能是由于较短的3’ UTR含有比较少的microRNA结合位点而减弱了 microRNA的调控作用造成,暗示了我们3’ UTR长度多态性可能参与调控了细胞的增殖。基因芯片及大规模测序技术已经被应用于全基因组3’ UTR长度多态性研究。但是,基因芯片受到技术本身的限制,对研究3’UTR长度多态性有一些不利因素1)基因芯片技术过于依赖于现有的基因组信息,无法发现新的多聚腺苷酸化位点、3’UTR区域序列的突变;2)由于基因芯片荧光信号采集的需要,如需要较多的RNA样本,不利于较难获得的样本的研究;3)基因芯片的杂交信号易被背景干扰、检测基因表达量有上限和下限,限制了其敏感度,因此使用基因芯片进行分析实验的重复性较差。大规模测序技术也被广泛应用在转录组研究中,但对于UTR区域的研究来说,依然存在一定缺陷。首先,RNA-seq获得的序列包括了整个转录组的信息,而UTR区域只是其中一部分,故利用RNA-seq直接对转录组进行测序无法获得足够的3’UTR的序列信息。其次,在常用的RNA-seq方案中,由于测序技术读长的限制,所获得均为打断后的转录本序列,在后期的数据处理中,需要对其进行拼接后估计基因的表达变化,存在一定局限性。鉴于此,利用大规模测序技术的检测全基因组的3’ UTR区域是非常必要的。最简单方法是利用mRNA的polyA尾进行反转录,然后直接进行测序,获得mRNA3’最末端的序列。 但由于大规模测序技术原理本身的限制,这种直接测序的方法较难实现。如大规模测序技术的代表之一 454的GS FLX系统采用的是焦磷酸测序技术,是由4种酶催化的同一反应体系中的酶级联化学发光反应,在每一轮测序反应中,只加入一种dNTP,若该dNTP与模板配对,聚合酶就可以将其掺入到引物链中并释放出等摩尔数的焦磷酸基团(PPi)。PPi可最终转化为可见光信号,并由PyrogramTM转化为一个峰值。每个峰值的高度与反应中掺入的核苷酸数目成正比。然后加入下一种dNTP,继续DNA链的合成。但是如果遇到连续的几个甚至十几个碱基,可见光信号会过强,无法分辨掺入的核苷酸数目,甚至影响其他临近孔内的可见光信号的检测,造成测序失败。同样是大规模测序技术,Illumina的Genome Analyzer 系统应用了边合成边测序(Sequencing By Synthesis)的原理。加入改造过的DNA聚合酶和带有4种荧光标记的dNTP。这些核苷酸是“可逆终止子”,因为3’羟基末端带有可化学切割的部分,它只容许每个循环掺入单个碱基。此时,用激光扫描反应板表面,读取每条模板序列第一轮反应所聚合上去的核苷酸种类。之后,将这些基团化学切割,恢复3'端粘性, 继续聚合第二个核苷酸。如此继续下去,直到每条模板序列都完全被聚合为双链。这样,统计每轮收集到的荧光信号结果,就可以得知每个模板DNA片段的序列。与454的GS FLX类似,如果遇到连续的几个甚至十几个碱基,相同位置过强的荧光信号,也会影响测序的过程和结果
发明内容
本发明的目的在于提供一种利用组织或细胞总RNA构建全基因组mRNA 3’末端的基因文库的方法,以进行高通量的深度测序,获得全基因组mRNA 3'末端的真实数据。本发明一种全基因组mRNA 3’末端基因文库的构建方法,包括以下步骤(a)将基因组的核酸采用DNase消化;(b)将消化后的总RNA高温94_95°C加热,随机片段化至约 200-500bp的片段;(c)利用模板转换技术进行反转录反应合成cDNA第一链,所述的cDNA 第一链的两端连有高通量测序引物;(d)利用在cDNA第一链两端接上的测序引物通过高保真DNA聚合酶进行PCR扩增;(e) PCR产物用10%聚丙烯酰胺凝胶电泳分离,选择200_300bp 或300-500bp的大小进行回收,得到目的片段。本发明全基因组mRNA 3'末端文库的制备方法制得的文库数据产出量大,样品准备步骤简便、经济,便于后期生物信息学分析,易于大规模应用。本发明步骤(C)中,利用模板转换技术进行反转录反应,使用的反转录酶 SuperScriptII能在合成的cDNA —链的末端加上3_6个胞嘧啶(C),再加入一端接有3个鸟嘌呤(GGG)的Solexa或454测序引物,鸟嘌呤序列(GGG)锚定到cDNA —链的胞嘧啶序列(CCC),再在反转录酶的作用下通过碱基互补原理在cDNA —链上的(CCC)的另一端合成与其互补配对的测序引物。作为本发明全基因组mRNA 3’末端基因文库的构建方法的优选实施方式,所述构建方法还包括以下步骤(f)对(e)步骤得到的目的片段进行检测。检测可以为将文库与载体连接转化感受态细胞,挑选50个阳性克隆提取质粒测序,看其两端是否带有高通量测序的接头序列。将测出的序列在基因组中进行检索,统计测出序列为已知3’ UTR的比例大于60%。测出序列为过长的ployA的比例小于5%。作为本发明全基因组mRNA 3’末端基因文库的构建方法的优选实施方式,步骤 (c)中反转录反应的反转录弓丨物为 gccttgccag cccgctcagt tttttttttt tttttttttv η, 或 gccttgccag cccgctcagt tttttctttt ttcttttttv η,或 gcctccctcg cgccatcagg g, 或 gcctccctcg cgccatcaga gg, 或 acactctttc cctacacgac gctcttccga tctttttttt tttttttttt ttvn, 或 aatgatacgg cgaccaccga gatctacact ctttccctac acgacgctcttccgatcttt tttctttttt cttttttvn, caagcagaag acggcatacg agctcttccg atctgcctcc ctcgcgccat cagaggo作为本发明全基因组mRNA 3’末端基因文库的构建方法的优选实施方式,步骤 (c)反转录的反应体系中含有山梨醇、GCbuffer和海藻糖。所用的反应体系及反应程序能高效地使引物锚定到RNA3’ UTR的末端上,反应体系中的山梨醇增加了反应体系的粘稠度, 山梨醇和GCbuffer的使用可以增加反应的特异性,海藻糖保持了反转录酶的活性。
作为本发明全基因组mRNA 3’末端基因文库的构建方法的优选实施方式,步骤 (c)中的PCR扩增反应的3’弓丨物在20个A中每隔6个A插入1个C。这样能够避免高通量测序无法读出多个连续的A。本发明配对双末端文库构建方法,包括以下步骤(a)将经过DNase消化基因组的总RNA高温随机片段化至具有预期尺寸的片段;(b)利用模板转换技术(Template Switching Technology)进行反转录反应合成cDNA第一链,此时在第一链的两端连上高通量测序引物;(c)利用在cDNA第一链两端接上的测序引物通过高保真DNA聚合酶进行PCR 扩增;(d)PCR产物用10%聚丙烯酰胺凝胶(PAGE)电泳分离,选择200-300bp (用于454测序)或300-500bp (用于Solexa测序)的大小进行回收,得到目的片段;(e)利用上述建设的mRNA3’末端文库经过质量控制后,可进行高通量基因组测序。本发明的mRNA 3’末端高通量测序文库构建方法,包括以下步骤⑴提取组织或细胞中的总RNA; (ii)按权利要求1的方法构建所述mRNA 3’末端高通量测序文库;以及 (iii)对mRNA 3’文库进行高通量测序。通过对全基因组mRNA 3'末端区域的测序,能够研究3' UTR对mRNA稳定、细胞增殖、分化的影响。将经过DNase消化基因组的总RNA通过高温打断成随机片段,利用模板转换技术(Template Switching Technology),通过反转录将含有Solexa或454测序接头序列的 Oligo d(T)引物锚定到mRNA的Poly (A)尾,使用的反转录酶Super ScriptII能在合成的 cDNA 一链的末端加上3-6个胞嘧啶(C),再加入一端接有3个鸟嘌呤(GGG)的Solexa或454 测序引物,鸟嘌呤序列(GGG)锚定到cDNA—链的胞嘧啶序列(CCC),再在反转录酶的作用下通过碱基互补原理在cDNA —链上的(CCC)的另一端合成与其互补配对的测序引物。利用在cDNA —链两端接上的测序引物通过高保真DNA聚合酶进行PCR扩增(见图1)。PCR产物用聚丙烯酰胺凝胶电泳分离,选择特定大小进行回收。得到的PCR产物即构成mRNA 3' 末端测序文库,可以进行大规模测序。本发明的mRNA 3'末端测序文库构建方法中,经过筛选得到的目的片段的大小是根据后续使用的测序仪器所允许的合适的片段大小确定,使用不同的测序仪可能需要不同的合适大小的目的片段。如有的测序仪优选300-500bp大小的片段,则就筛选300-500bp 大小的目的片段。本发明通过设计合成测序文库所需的cDNA —链的通用引物,以及PCR反应的通用引物,修饰改进了反转录反应的体系以增加引物对mRNA的锚定效率,最大限度的保证cDNA 的完整性。本发明的制备方法中的PCR扩增,所用的引物是同样的,其5'端为测序引物, 序列由之后选择的测序仪及试剂决定,3'为引入突变的特异扩增引物。PCR的循环数设为使PCR反应停留在指数期的最小循环数,目的使避免高丰度的基因过度扩增掩盖低丰度的基因,可大大提高测序结果的精确性。


图1 为本发明实施例1的SAPAS法制备全基因组mRNA 3'末端基因文库流程图; 图2为本发明实施例2经过94°C高温打断40min的总RNA的1. 2 %琼脂糖凝胶电泳图谱;图 3为本发明实施例2PCR反应终止的1. 5%琼脂糖凝胶电泳图谱;图4为本发明实施例2PCR 产物的10% PAGE凝胶电泳图谱;图5为本发明实施例2选择300-500bp大小的片段回收其中的DNA作为文库;图6为本发明实施例2Agilent2100BioanalyZer测量DNA文库片段大小的结果;图7为本发明实施例2中3730测序结果图。
具体实施例方式下面将结合具体实施例详细介绍本发明的mRNA3'末端的高通量测序文库建立方法。如图1所示,本发明的配对双末端文库构建方法包括(a)将总RNA片段化至具有预期尺寸的片段;(b)利用模板转换技术(Template Switching Technology)进行反转录反应合成cDNA第一链,同时在第一链的两端接上高通量测序引物;(c)利用在cDNA第一链两端接上的测序引物通过高保真DNA聚合酶进行PCR扩增;(d) PCR产物用聚丙烯酰胺凝胶电泳分离,选择200-300bp (用于454测序)或300_500bp (用于Solexa测序)的大小进行回收,得到目的片段;利用上述建设的mRNA3’末端文库经过质量控制后,可进行高通量基因组测序。实施例1如图1所示,为在本发明的另一个实施例中,mRNA 3’末端文库构建的流程图,具体过程为⑴取lOug/lOul经过DNase消化的总RNA,通过高温片段化至具有预期尺寸的片段;(2)利用模板转换技术(Template Switching Technology),通过反转录将含有Solexa或454测序接头序列的Oligo d(T)引物锚定到步骤(1)得到的总RNA中mRNA的 Poly(A)尾,反转录酶Super ScriptII在合成的cDNA —链的末端加上3_6个胞嘧啶(CCC); (3)再加入一端接有3个核糖核酸鸟嘌呤(GrGrGr)的Solexa或454测序引物,鸟嘌呤序列 (GrGrGr)锚定到cDNA—链的胞嘧啶序列(CCC),再在反转录酶的作用下通过碱基互补原理在cDNA —链上的(CCC)的另一端合成与其互补配对的测序引物;(4)利用在cDNA—链两端接上的测序引物通过高保真DNA聚合酶进行PCR扩增,为避免高丰度的基因过度扩增影响低丰度的基因被检出,PCR反应终止于指数增长期;(5)PCR产物用10%聚丙烯酰胺凝胶 (PAGE)电泳分离,选择200-300bp (用于454测序)或300_500bp (用于Solexa测序)的大小进行回收,得到目的片段文库;(6)mRNA3’末端文库质量控制。用TA克隆和ABI 3730 Analyzer测序检验文库的质量。用Agilent2100 Bioanalyzer对文库的大小进行鉴定,用 Qubit Fluorometer (Invitrogen)对文库进行定量;(7)高通量测序。上述方法中,其3,为测序引物 PrimerB-poly (A) 20_2cVN,5,为引物 PrimerA_GGG_ with_A,用3’测序引物可以直接用于高通量测序。发明人对以往的文库制备方法进行了较大的改进,摸索和建立了 SAPAS(Sequencing alternative polyA sites)技术,可以特异性高通量的检测全基因组范围内3’ UTR的长度多态性。首先,由于真核生物的多聚腺苷酸(polyA)尾一般有 50-200bp,为了避免反转录出过长的polyA尾,我们在反转录过程中采用了锚定的oligod(T)作为反转录引物,增加了引 物的使用量,并在后面加上了适用于大规模测序技术的接头。其次,我们改进了反转录的试剂体系,加入了一些改进反转录保真性和特异性的复合物。经过以上两步,可以保证3’末端只有20个左右连续的腺苷酸。第三,我们在后续的 PCR扩增及合成双链DNA的过程中,通过PCR引物的设计,在polyA区域引入突变,将20个连续的腺苷酸隔开,以适应大规模测序。与此同时,国外的研究人员也采用了一些技术手段对3’UTR区域进行测序,其中最有代表性的就是3p-tag技术和HeliScopeTM的RNA直接测序。但是与这两种方法比较,SAPAS技术具有一些无法取代的优势,如表一。表一四种3’ UTR长度多态性研究策略的比较
权利要求
1.一种全基因组mRNA 3’末端基因文库的构建方法,其特征在于,包括以下步骤(a)将基因组的核酸采用DNase消化;(b)将消化后的总RNA高温94-95°C加热,随机片段化至约200_500bp的片段;(c)利用模板转换技术进行反转录反应合成cDNA第一链,所述的cDNA第一链的两端连有高通量测序引物;(d)利用在cDNA第一链两端接上的测序引物通过高保真DNA聚合酶进行PCR扩增;(e)PCR产物用10%聚丙烯酰胺凝胶电泳分离,选择200-300bp或300_500bp的大小进行回收,得到目的片段。
2.如权利要求1所述的全基因组mRNA3’末端基因文库的构建方法,其特征在于,还包括以下步骤(f)对(e)步骤得到的目的片段进行检测。
3.如权利要求1所述的全基因组mRNA3’末端基因文库的构建方法,其特征在于,步骤(c)中反转录反应的反转录引物为 gccttgccag cccgctcagt tttttttttt tttttttttv η,或 gccttgccag cccgctcagt tttttctttt ttcttttttv η,或 gcctccctcg cgccatcagg g,或 gcctccctcg cgccatcaga gg,或 acactctttc cctacacgac gctcttccga tctttttttt tttttttttt ttvn, 或 aatgatacgg cgaccaccga gatctacact ctttccctac acgacgctct tccgatcttt tttctttttt cttttttvn,或 caagcagaag acggcatacg agctcttccg atctgcctcc ctcgcgccat Cagagg0
4.如权利要求3所述的全基因组mRNA3’末端基因文库的构建方法,其特征在于,步骤 (c)反转录的反应体系中含有山梨醇、GCbuffer和海藻糖。
5.如权利要求1所述的全基因组mRNA3’末端基因文库的构建方法,其特征在于,步骤(c)中的PCR扩增反应的3’引物在20个A中每隔6个A插入1个C。
全文摘要
本发明涉及一种适用于高通量测序的全基因组mRNA3′末端文库的制备方法,通过模板转换合成cDNA一链及PCR引入突变,获取全基因组mRNA3′非翻译区DNA序列。本发明全基因组mRNA3′末端文库的制备方法制得的文库数据产出量大,样品准备步骤简便、经济,便于后期生物信息学分析,易于大规模应用。
文档编号C40B50/06GK102181527SQ20111006241
公开日2011年9月14日 申请日期2011年3月16日 优先权日2011年3月16日
发明者万谅, 付永贵, 孙雨, 徐安龙, 李宇新, 饶兴蔷 申请人:中山大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1