基于转录组测序开发绿豆ssr引物的方法

文档序号:458960阅读:470来源:国知局
基于转录组测序开发绿豆ssr引物的方法
【专利摘要】本发明提供一种基于转录组测序开发绿豆SSR引物的方法,包括:获得绿豆全基因组转录本的集合,形成序列数据库;用Trinity将测序序列拼接成一个转录组,取每条基因中最长的转录本作为Unigene;Unigene序列生物信息学分析;采用MISA1.0对Unigene进行SSR检测;用Primer3进行SSR引物设计,并进行SSR引物多态性鉴定。应用本方法成功设计了13134对SSR引物,从中随机选取50对引物对来源于不同国家共8份绿豆DNA进行验证,其中多态引物共有32对,利用这32对SSR引物可以区分不同地理来源的绿豆材料。本发明方法方便、快捷、准确且成本低廉,为绿豆SSR引物开发提供了新思路。
【专利说明】基于转录组测序开发绿豆SSR引物的方法
【技术领域】
[0001]本发明涉及分子生物学及生物信息学,具体地说,涉及一种基于转录组测序开发绿豆SSR引物的方法。
【背景技术】
[0002]绿豆(Vigna radiata)是一种豆科、蝶形花亚科紅豆属植物,原产印度、緬甸地区。现在东亚各国普遍种植,非洲、欧洲、美国也有少量种植,中国是绿豆[Vigna radiata(L.)Wilczek]的发源地之一,拥有类型繁多的绿豆品种资源。中国、緬甸等国是主要的绿豆出口国。由于其生育期短、适应性广,且具有较好的固氮能力,所以是种植业资源合理配置、倒茬轮作、间作套种、减灾救灾不可缺少的粮食作物及贫困地区农民致富的重要经济作物;同时绿豆富含蛋白、中淀粉及低脂肪,是理想的营养保健食品。种子和茎被广泛食用,具有丰富的营养价值。绿豆还可产成多种食品如鲜食豆芽、绿豆粉丝、绿豆粉皮、绿豆酒、绿豆糕等食品,在国际市场上备受青睐。近年来,国际市场对绿豆的需求量和全世界绿豆的生产量均有所增加,现今中国的绿豆年出口量在20-30万吨,出口价格一般400-500美元。绿豆的社会经济价值不容忽视。然而,与大宗作物如玉米、水稻相比,国内外对绿豆的研究还相当滞后,单产仍处于较低水平,分子水平的研究更显薄弱。
[0003]分子标记是以个体间遗传物质内核苷酸序列变异为基础的遗传标记,能在DNA水平上反映植物遗传基础的差异,是DNA水平遗传多态性的直接的反映。简单重复序列(SSR)广泛分布于各类真核生物基因组的不同位置,由于SSR的重复次数不同和重复程度不同,使其呈现闻度的多态性。与其它分子标记技术相比,SSR标记具有多态信息含量闻、共显性遗传、技术简单、重复性好、特异性强、操作便利、并在基因组中分散分布等优点已成为最受人们欢迎的分子标记之一,被认为是可靠性最高的分子标记类型之一。在许多领域广泛应用。但SSR标记的主要缺点是首先要从该物种中获取重复序列两侧的序列信息,并设计引物,而后才能被利用。
[0004]SSR标记可分为基因组SSR(gSSR)和表达序列标签SSR(EST-SSR),EST-SSR标记源于基因的转录区,与gSSR标记相比,其多态性可能与基因功能直接相关,因此,比gSSR标记具有更高通用性,更经济,更高效率。利用第二代测序技术可以对全基因组范围内的转录本进行大规模的高通量测序,并能产生较之EST测序更为海量的转录组数据,这为功能基因组SSR标记的开发提供了更丰富和极有价值的可利用资源。
[0005]转录组序列的数量与日俱增,使得通过数据库搜寻法获得SSR成为可能。但是从第二代测序技术产生的数据往往极其巨大,对大量的EST序列进行格式处理,剔除冗余序列等仍是一个不小的工作量。Perl是一种自由且功能强大的编程语言。它被用作Web编程、数据库处理、XML处理以及系统管理等。随着生物信息学的发展,Perl更多的应用到了生物数据的操作和检索中,使得对大批量数据统一处理成为可能。在此基础上进行EST-SSR引物开发更能提高分离效率,节约时间和资金。
[0006]目前绿豆尚无全基因组序列信息,绿豆SSR引物数量较少。对于无参考基因组的转录组分析,可先将测序所得的序列拼接成转录本,以转录本为参考序列,进行后续分析。利用第二代高通量测序技术获得绿豆内某一材料的转录组序列信息,批量开发SSR引物的技术成熟,将会对绿豆重要性状基因的定位、克隆及分子标记辅助选择育种和比较基因组学研究等起重要推动作用。

【发明内容】

[0007]本发明的目的是提供一种基于转录组测序开发绿豆SSR引物的方法。
[0008]为了实现本发明目的,本发明的一种基于转录组测序开发绿豆SSR引物的方法,所述方法包括以下步骤:[0009]I)构建转录组文库:提取绿豆叶片总RNA,分离出mRNA,反转录并合成双链cDNA,纯化cDNA,在cDNA末端添加腺嘌呤核苷并连接测序接头,然后通过琼脂糖凝胶电泳回收200-700bp片段,对回收片段进行PCR扩增,即构建得到转录组文库;
[0010]2)对上述转录组文库进行测序,利用软件Trinity将测序序列拼接成一个完整的转录组,取每条基因中最长的转录本作为Unigene,并对Unigene序列进行生物信息学分析;
[0011]3)采用软件MISA1.0对上述Unigene进行SSR检测;
[0012]4)采用软件Primer3进行SSR引物设计,并鉴定SSR引物的多态性。
[0013]其中,步骤I)中所述测序接头为:
[0014]5' RNA Adapter:5/ -GATCGGAAGAGCTCGTATGCCGTCTTCTGCTTG-3'
[0015]3' RNA Adapter:5/ -ACACTCTTTCCCTACACGACGCTCTTCCGATCT-3'。
[0016]步骤2)中所述软件Trinity的版本为ν2012_10_05 ;参数设置:min_kmer_cov为
2,其它参数为默认参数。
[0017]步骤2)中所述生物信息学分析包括但不限于基因注释XDS预测和差异表达基因筛选等。所述基因注释包括基因表达量注释和/或基因功能注释。所述差异表达基因筛选包括GO功能显著性富集分析和/或Pathway显著性富集分析。
[0018]步骤4)中进行SSR引物设计使用的参数为:引物长度18-22bp,Tm55_65°C,产物大小 100-300bp。
[0019]步骤4)中用于鉴定SSR引物多态性的绿豆选自中国中绿I号、中绿5号;泰国VC2778A、TC1966 ;俄罗斯1810、1865 ;澳大利亚ACC814、ACC41等中的至少一种。
[0020]本发明还提供根据上述方法开发出的绿豆SSR引物,所述SSR引物的序列如SEQID N0.1-64 所示。
[0021]本发明进一步提供根据上述方法开发的绿豆SSR引物在绿豆分子标记辅助育种中的应用。
[0022]具体地,本发明提供的一种基于转录组序列开发绿豆SSR引物的方法,包括如下步骤:
[0023]I)转录组数据的获得
[0024]提取绿豆叶片总RNA,分离出mRNA,反转录并合成双链cDNA,纯化cDNA,进行末端修复,加A并连接测序接头,然后用琼脂糖凝胶电泳进行片段大小选择,最后进行PCR扩增,构建转录组文库,建好的测序文库用Illumina HiSeqTM2000利用双末端测序(Paired-End)的方法进行测序,获得绿豆转录组测序数据。每个样品个体的测序数据量为5GbClean Data。
[0025]2) SSR序列的识别
[0026]首先安装Perl 语言,从 http://pgrc.lpk_gatersleben.de/misa 网站下载est_trimmer.pi,去除转录组序列中过短的序列和过长的序列;从http://www.bioinformatics, org/cd-hit/ 中下载 CD_HIT 软件,去除冗余序列。
[0027]从http://pgrc.lpk-gatersleben.de/misa 网站下载使用 MISA 软件以识别和定位序列中SSR,参数设置如下:单核苷酸、二核苷酸、三核苷酸、四核苷酸、五核苷酸和六核苷酸的重复次数至少为10、6、5、3、3、3。
[0028]3) SSR引物的设计
[0029]使用Primer3 批量设计 SSR 引物,网址:http://sourceforge.net/projects/primer3/files/primer3/l.1.4/primer3-l.1.4-ffINXP.zip/download,引物设计参数为引物长度18-22bp,Tm55-65°C,其中前后引物Tm值相差4°C,产物大小为100_300bp。
[0030]4) SSR引物对来源于4个不同国家的8份绿豆DNA的多态性鉴定
[0031]从所开发13134对SSR引物中随机选取50对引物进行PCR扩增,采用8%非变性聚丙烯酰胺凝胶电泳检测。
[0032]本发明提供一种无基因组参考转录组测序开发绿豆SSR引物的方,包括如下步骤:获得绿豆全基因组转录本的集合,形成序列数据库;用Trinity将测序序列拼接成一个转录组,以此作为后续分析的参考序列,取每条基因中最长的转录本作为Unigene ;Unigene序列生物信息学分析;采用MISA1.0对Unigene进行SSR检测;用Primer3进行SSR引物设计,并进行SSR引物多态性鉴定。本发明还提供了获得绿豆的转录组信息及功能基因的方法。应用本方法成功设计了 13134对SSR引物,从中随机选取50对引物对来源于不同国家共8份绿豆DNA进行验证,其中有46对SSR引物在100_300bp检测到清晰条带,表明引物设计成功率较高,其中多态的引物共有32对,利用这32对SSR弓丨物可以区分不同地理来源的绿豆材料。本发明方法方便、快捷、准确且成本低廉,为绿豆SSR引物开发提供了新思路。
【专利附图】

【附图说明】
[0033]图1为本发明实施例1中建库测序流程示意图。
[0034]图2为本发明实施例1中RNA-seq数据分析流程示意图。
[0035]图3为本发明实施例1中无参考基因组的转录组生物信息分析流程示意图。
[0036]图4为本发明实施例1中拼接得到的Unigene长度分布图。
[0037]图5为本发明实施例2中SSR密度分布图。
[0038]图6为本发明实施例2中部分SSR重复基元类型和数量。
[0039]图7为本发明实施例3中利用部分SSR引物对来源于4个国家(中国、泰国、澳大利亚、俄罗斯各2份)共8份绿豆DNA进行多态性验证的结果。
【具体实施方式】
[0040]以下实施例用于说明本发明,但不用来限制本发明的范围。若未特别指明,实施例均按照常规实验条件,如Sambrook等分子克隆实验手册(Sambrook J&RussellDff, Molecular cloning:a laboratory manual, 2001),或按照制造厂商说明书建议的条件。
[0041]以下实施例中所用的试验材料,如无特殊说明,均从常规生化试剂商店购买得到。Trizol, RNase H 和 Superscript Ilreversetranscriptase 试剂盒均购自 Invitrogen 公司。DNA聚合酶I购自NEB公司。在cDNA片段上锚定的接头序列购于由Illumina测序试剂盒。以下实施例中的定量试验,均设置三次重复实验,结果取平均值。
[0042]实施例lRNA-seq分析及SSR引物的设计
[0043]一、转录组数据的获得
[0044]利用Trizol试剂提取绿豆整株幼苗总RNA,用带有Oligo(dT)磁珠富集mRNA。加入fragmentation buffer将mRNA打断成短片段,以mRNA为模板,用六碱基随机引物合成第一条cDNA链,然后加入缓冲液、dNTPs、RNase H和DNA polymerase I合成第二条cDNA链,在经过QiaQuick PCR试剂盒纯化并加EB缓冲液洗脱之后做末端修复,加A并连接测序接头,然后用琼脂糖凝胶电泳进行片段大小选择,最后进行PCR扩增,构建好的测序文库用11 IuminaHiseq2000 进行测序。
[0045]反转录并合成双链cDNA,纯化cDNA,进行末端修复,加A并连接测序接头,然后用琼脂糖凝胶电泳进行片段大小选择,最后进行PCR扩增。样品的建库测序流程见图1。具体方法如下:
[0046]1.绿豆 Total RNA 的提取
[0047]采用常规的Trizol法提取,纯化,DNA酶处理,获得浓度≤50ng/l. 1、总量≤3μ g、0D260/280为1.8-2.2的Total RNA样品(电泳检测和NanoDrop初检,再优选择样品进行Qubit 定量和 Agilent2100 检测)。
[0048]2.mRNA的分离及随机打断
[0049]用带有oligo-dT的磁珠分离出带有polyA的mRNA,然后利用超声波随机打断,回收200_700bp的片段。
[0050]3.cDNA第一链和第二链的合成
[0051]cDNA 第一链的合成是用随机 6 聚物和 Superscript II reverse transcriptase试剂盒进行。cDNA第二链是用RNase H和DNA聚合酶I完成。
[0052]4.在cDNA片段上锚定的接头序列:
[0053]5' RNA Adapter(SEQ ID NO:1):
[0054]5' -GATCGGAAGAGCTCGTATGCCGTCTTCTGCTTG-3';
[0055]3' RNA Adapter(SEQ ID NO:2):
[0056]5' -ACACTCTTTCCCTACACGACGCTCTTCCGATCT-3/ 。
[0057]5.PCR扩增用上述接头序列中的引物进行15个循环的PCR扩增。
[0058]6.文库构建及检测利用上述步骤中得到的序列,按照Illumina公司sample prepkit进行文库构建及检测。
[0059]7.RNA-seq 的测序
[0060]将建好的文库以5_7pM的浓度加到Illumina测序仪(Genome Analyzer II)的相应通道上,运行36个循环。
[0061]8.数据分析[0062]RNA-seq数据分析流程见图2。剔除杂质数据,对RNA-seq组装后的结果进行整合。之前的步骤得到的是原始数据,其中含有步骤4中加入的接头序列,将其去除后称为Cleanreads,就可以进行拼接与组装。具体方法是利用将得到的Cleanreads,采用针对转录组拼接的Trinity (版本:v2012-10_05 ;参数设置:min_kmer_cov为2,其它参数为默认参数)软件进行拼接。用Trinity将测序序列拼接成一个转录组,以此作为后续分析的参考序列。取每条基因中最长的转录本作为Unigene。
[0063]9.生物信息学分析
[0064]无参考基因组的转录组生物信息分析流程见图3。将上述得到的Unigene序列与蛋白数据库 nr、Swiss-Prot、KEGG 和 KOG 进行 blastx 比对(evalue < 0.00001),取比对结果最好的蛋白确定Unigene的序列方向。如果不同库之间的比对结果有矛盾,贝!J按nr、Swiss-Prot、KEGG和KOG的优先级确定Unigene的序列方向,跟上述4个库皆比不上的Unigene,用软件ESTScan预测其编码区并确定序列的方向。对于能确定序列方向的Unigene,给出其从5'到3'方向的序列;对于无法确定序列方向的Unigene,给出组装软件得到的序列。对这些基因进行了功能注释,包括KOG分类及GO注释。部分分析情况如图4所示。
[0065]二、SSR引物的识别
[0066]安装 Perl 语言,从 http://pgrc.lpk-gatersleben.de/misa/ 下载 est_trimme;r.pl并运行,去除转录组序列中小于IOObp过短的序列和大于2000bp过长的序列,运行命令为:C:\perl\bin>perlest_trimmer, piA.fasta-amb=2, 50_tr5=T, 5, 50_tr3=A, 5, 50-cut=100, 2000o 输出两个文件 A.fasta.log 和 A.fasta.results (A 为文件代号)。从http://www.bioinformatics, org/cd-hit中下载CD_HIT软件,利用其去除冗余序列:把A.fasta.results复制到cd_hit文件夹中并重命名为B.fasta,运行cd_hit.exe, Perl环境下运行命令为:C: \perl\bin\cd_hit>cd_hit.exe-ΙΒ.fasta-oC.fasta-cl.00-n5_M2000,输出三个文件,其中C.fsata文件用于下一步处理(A、B和C均为文件代号)。从http://pgrc.lpk-gatersleben.de/misa/下载misa.pi程序以识别和定位序列中的SSR ;参数设置如下:单核苷酸、二核苷酸、三核苷酸、四核苷酸、五核苷酸和六核苷酸的重复次数至少为
10、6、5、3、3、3。将C.fsata文件拷贝至C盘perl\bin目录下,Perl环境下运行命令:C: \perl\bin>perlmisa.plC.fasta,运行后产生 C.fasta.misa 和 C.fasta.statistics 两个文件,其中C.fasta.misa用于后续引物设计。
[0067]三、SSR引物的设计
[0068]使用Perl环境下primer3模块批量设计SSR引物:引物设计参数为Tm55_65°C,引物长度为18_22bp。运行p3_out.pi, Perl环境下运行命令为:C:\perl\bin>perlp3_in.plC.fasta.misa,产生了一个名为C.fasta.p3in的primer3的输入文件;再复制C.fasta.p3in 文件至Ij C 盘 perl\bin\primer3\bin 根目录下,运行 primer3_core.exe实现批量的引物设计,Perl环境下运行命令为:C: \perl\bin\primer3\bin>primer3_core.exe<C.fasta.p3in>C.fasta.p3out,产生一个名为 C.fasta.p3out 的文件;最后将C.fasta.p3out文件复制至C盘perl\bin目录下,运行p3_out.pi,其命令为:C: \perl\bin>perl p3_ out.pl C.fasta.p3out C.fasta.misa,运行后得至丨J C.fasta.results 文件,此即为设计好的引物。[0069]实施例2绿豆高通量SSR位点的发掘
[0070]应用上述方法使用绿豆叶片作为材料进行高通量测序,利用Perl语言对绿豆转录组序列进行高通量SSR位点的发掘,得到83542条转录组序列和48693条unigenes (表I)。SSR密度分布出现频率最高的是单碱基微卫星,所占比例最高的是A/T,其次是四核苷酸(表2、图5、图6)。
[0071]表1拼接长度频数分布情况
[0072]
【权利要求】
1.一种基于转录组测序开发绿豆SSR引物的方法,其特征在于,包括以下步骤: 1)构建转录组文库:提取绿豆叶片总RNA,分离出mRNA,反转录并合成双链cDNA,纯化cDNA,在cDNA末端添加腺嘌呤核苷并连接测序接头,然后通过琼脂糖凝胶电泳回收200-700bp片段,对回收片段进行PCR扩增,即构建得到转录组文库; 2)对上述转录组文库进行测序,利用软件Trinity将测序序列拼接成一个完整的转录组,取每条基因中最长的转录本作为Unigene,并对Unigene序列进行生物信息学分析; 3)采用软件MISA1.0对上述Unigene进行SSR检测; 4)采用软件Primer3进行SSR引物设计,并鉴定SSR引物的多态性。
2.根据权利要求1所述的方法,其特征在于,步骤I)中所述测序接头为:
5' RNA Adapter:5/ -GATCGGAAGAGCTCGTATGCCGTCTTCTGCTTG-3'
3' RNA Adapter:5/ -ACACTCTTTCCCTACACGACGCTCTTCCGATCT-3'。
3.根据权利要求1所述的方法,其特征在于,步骤2)中所述软件Trinity的版本为V2012-10-05 ;参数设置:min_kmer_cov为2,其它参数为默认参数。
4.根据权利要求1所述的方法,其特征在于,步骤2)中所述生物信息学分析包括但不限于基因注释、CDS预测和差异表达基因筛选。
5.根据权利要求4所述的方法,其特征在于,所述基因注释包括基因表达量注释和/或基因功能注释。
6.根据权利要求4所述的方法,其特征在于,所述差异表达基因筛选包括GO功能显著性富集分析和/或Pathway显著性富集分析。
7.根据权利要求1所述的方法,其特征在于,步骤4)中用于鉴定SSR引物多态性的绿豆选自中国中绿I号、中绿5号;泰国VC2778A、TC1966 ;俄罗斯1810、1865 ;澳大利亚ACC814、ACC41中的至少一种。
8.根据权利要求1所述的方法,其特征在于,步骤4)中进行SSR引物设计使用的参数为:引物长度 18-22bp,Tm55-65°C,产物大小 100_300bp。
9.根据权利要求1-8任一项所述方法开发的绿豆SSR引物,其特征在于,所述SSR引物的序列如SEQ ID N0.1-64所示。
10.权利要求9所述绿豆SSR引物在绿豆分子标记辅助育种中的应用。
【文档编号】C12Q1/68GK103642912SQ201310629710
【公开日】2014年3月19日 申请日期:2013年11月29日 优先权日:2013年11月29日
【发明者】陈红霖, 程须珍, 王素华, 王丽侠 申请人:中国农业科学院作物科学研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1