一种基于转录组测序开发SSR引物的方法与流程

文档序号:14435661阅读:3636来源:国知局
本发明属于ssr引物开发
技术领域
,具体涉及一种开发ssr引物的新方法。
背景技术
:微卫星标记(microsatellite),又被称为短串联重复序列(shorttandemrepeats,strs)或简单重复序列(simplesequencerepeats),是均匀分布于真核生物基因组中的简单重复序列,由2~6个核苷酸的串联重复片段构成,由于重复单位的重复次数在个体间呈高度变异性并且数量丰富,因此微卫星标记的应用非常广泛。微卫星标记共显性的特点使它能够用于研究等位基因,区分二倍体(或多倍体)的纯合体或杂合体,这是aflp、rapd等显性标记所无法做到的。另外,微卫星的特异性引物扩增具有良好的重复性和保真性,方便各实验室间的交流。目前,微卫星标记已被广泛应用到基因连锁与遗传图谱构建、遗传多样性研究、谱系和发育研究、疾病检测以及品种鉴定、亲本分析与个体、纯系检验上。随着微卫星标记在图谱上的丰富,将显现出更大的优势。但微卫星分析中引物的获得需要预先获知核酸序列,其广泛应用受限于从特定的物种中分离微卫星位点的难度和花费。微卫星标记分离最大的困难是引物的获得。同rapd、aflp等遗传标记不同,微卫星研究首先需要获知位点的序列信息,以便从重复序列两端侧翼的保守序列中设计引物。因而微卫星引物的开发是应用该技术的关键。目前已知微卫星位点的物种很有限,这是因为微卫星位点的获得需经过克隆、杂交筛选、测序等步骤,因此需花费一定的人力、金钱,这限制了微卫星标记的大量使用。近年来发展起来的各种微卫星位点富集技术已在一定程度上解决了这个问题。已有的最常用的获得微卫星位点的方法包括:1.从公共数据库中查找微卫星位点;2.遗传距离相近物种间引物转移扩增;3.从基因组dna中筛选微卫星位点。其中,最方便、最经济的方法就是从已发表的文献中获得微卫星引物,但该法在使用对象上,只限于已有引物开发出的物种,而且引物的数量不会有所增加,只能停留在原有基础上。对于近缘种引物的应用,其适用范围究竟有多大;原物种的微卫星基因座在其他物种间转移扩增时,其多态性如何。这些问题使得在不同物种间共用微卫星引物时,盲目性较大,可指导操作的理论依据不足。最好的途径就是从基因组dna中筛选微卫星位点并进行引物的开发。目前微卫星位点通常通过pcr扩增,扩增产物通过电泳分析或者测序分析并根据大小分离等位基因进行检测。事实上,从庞大的基因组数据中开发得到的ssr位点往往是数量庞大且多态性不佳的。这给我们带来的问题就是,ssr位点识别之后依然工作量巨大。研究者通常动辄需要设计几百对引物,扩增上千个样本,并对他们一一进行电泳或测序验证,不仅耗费的人力物力财力任然不可小觑,最后得到的有效ssr位点也很有限(十几对到几十对)。因此,开发一套高效快速的ssr引物开发方法对开展ssr位点的研究具有十分重大的现实意义。此外,已有ssr标记开发方法还分为基于基因组ssr开发和基于表达序列标签的ssr开发。基于表达序列开发的ssr标记在近缘种属中保守性更好,效率更高。而且基于表达数据的ssr标记是基于某一时期的基因表达序列,与基因功能和性状表型直接相关,在珍稀濒危动植物种质资源和遗传多样性评估等方面有着重要的研究价值。随着测序数据的大爆发,从转录组数据中挖掘开发新的ssr标记成为一种简单高效的方式。然而目前基于转录组测序开发ssr标记的方法依旧存在需要大量验证试验的状况。技术实现要素:本发明的目的是针对现有技术存在的不足,提供一种基于转录组测序开发ssr标记引物的新方法,该方法从基因组的外显子序列中搜索ssr位点,并设计对应pcr扩增引物,先通过外显子进行epcr验证,最后利用个体无参组装得到的转录本进行epcr验证,最终得到多态性好的ssr标记及其引物。该方法为研究物种的遗传多样性和种质资源的鉴定提供了一种高效快速的新途径。为了实现上述技术目的,一种基于转录组测序开发ssr引物的方法,包括以下步骤:(1)至少采集2个不同个体的样本,分别提取总rna并进行转录组测序文库构建;(2)转录组测序以及数据过滤;(3)每个样本单独进行转录本无参组装,得到每个个体的所有转录本;(4)基于外显子序列的ssr筛选与引物设计:从数据库下载参考基因组序列,提取所有外显子序列,并利用gmata2.0软件识别ssr位点,并设计引物;将得到的引物用gmata2.0的epcr功能对外显子序列进行epcr,排除专一性差的引物对;(5)ssr引物的epcr验证:第(4)步所筛选的ssr引物用gmata2.0的epcr功能对第(3)步得到每个个体的转录本分别进行epcr,从结果中筛选引物。步骤(1)提取总rna并进行转录组测序文库构建的具体过程如下:总rna采用qiagenrneasyprotectanimalbloodkit(73224)进行提取,并用琼脂糖凝胶电泳检查rna的质量;转录组测序文库构建采用vahtstmmrna-seqv2libraryprepkitfor(nr602-01)试剂盒,即每个样本取1μg总rna,然后用多聚腺苷酸磁珠分离纯化得到mrna,用二价阳离子在vahtsfrag/primebuffer中98℃8分钟处理进行片段化;纯化之后进行cdna第一链和第二链合成,随后进行末端补平,datp加端和接头连接;琼脂糖凝胶电泳选择150-200bp片段进行磁珠纯化,之后进行rcr文库扩增:98℃10s变性,60℃30s结合,72℃30s延伸,循环扩增12次;最后,对文库质量检测确认之后进行测序。步骤(2)转录组测序以及数据过滤的具体过程如下:mrna文库采用illuminahiseq2500进行测序;测序数据在过滤掉低质量序列和接头污染序列,低质量序列为n含量超过30%或低质量碱基含量超过10%的序列,之后用fastqc软件默认参数进行质量检测,确保数据有效。步骤(3)转录本无参组装的具体过程如下:采用trinity无参考基因组的组装流程,默认参数对每个样本单独进行转录本组装,每个个体得到自己的转录组序列文件trinity.fasta。步骤(4)所鉴定的ssr的搜索标准为:最小重复motif为二核苷酸,最大重复motif为十核苷酸;在外显子序列中最少重复5次。步骤(4)设计引物的条件为:扩增产物长度为120bp~400bp之间;产物侧翼序列长度为400bp;最佳退火温度tm为60℃;最大模板长度为2000bp。步骤(4)和步骤(5)所述epcr过程参数为:字长为12,连续字长为1,最大缺失为1,最大错配为0,扩增产物长度为100-1000bp。步骤(5)所述的筛选引物的标准为:至少在两个不同的样本中扩增产物片段差异为ssr重复单元motif长度的整数倍。相对现有技术,本发明的技术方案带来的有益技术效果有:基于转录组测序利用两次epcr进行ssr引物的多态性检测验证,与现有方法相比,能够大大节省人力物力财力,是一种高效开发ssr标记的新方法。附图说明图1为本发明筛选得到的两对引物的电泳结果。具体实施方式以下通过实施例对本
发明内容作进一步阐述,但不作为对本发明权利要求保护范围的限定。所有试剂盒操作按照说明书进行,转录组建库流程未作说明处按照标准流程进行。实施例1一、总rna的提取与转录组文库构建本实施例的4个川金丝猴样本采自湖北神农架国家公园。用麻醉吹筒的方法将金丝猴麻醉之后,取后肢静脉血干冰运输-80℃保存用于后续提取总rna。总rna采用qiagenrneasyprotectanimalbloodkit(73224)进行提取,并用琼脂糖凝胶电泳检查rna的质量。转录组测序文库构建采用vahtstmmrna-seqv2libraryprepkitfor(nr602-01)试剂盒。简单来说就是,每个样本取1μg总rna,然后用多聚腺苷酸磁珠分离纯化得到mrna,用二价阳离子在vahtsfrag/primebuffer中高温处理进行片段化(98℃8分钟)。纯化之后进行cdna第一链和第二链合成,随后进行末端补平,datp加端和接头连接。琼脂糖凝胶电泳选择150-200bp片段进行磁珠纯化,之后进行rcr文库扩增:98℃10s变性,60℃30s结合,72℃30s延伸,循环扩增12次。最后,文库质量用agilent2100bioanalyzer(agilenttechnologies)和qpcr进行上机前检测和最终定量。二、转录组测序以及数据过滤:mrna文库采用illuminahiseq2500进行测序。原始数据中n含量超过30%或低质量碱基含量超过10%的低质量序列首先被过滤掉。接头污染采用cutadapt1.9版本进行去除。测序数据在过滤掉低质量数据和接头污染之后,用fastqc软件进行质量检测,确保数据有效。高质量数据采用trinity2.2.0默认参数进行无参考基因组转录本组装,每个样本单独组装,得到各自trinity.fasta文件。对转录本组装进行统计如表1。三、ssr位点搜索及扩增引物设计金丝猴的基因组参考序列(roxv1)以及相应注释文件下载自refseq数据库(http://www.ncbi.nlm.nih.gov/refseq)。先写perl脚本依据注释文件中内含子信息,从基因组序列文件中提取所有外显子序列。然后采用windows版gmata2.0软件进行ssr搜索,查找2~10个核苷酸重复单元,并且重复次数大于等于5次的ssr位点。结果一共搜索到外显子区二核苷酸重复5011个、三核苷酸重复2733个、四核苷酸重复217个、五核苷酸重复60个、六核苷酸重复42个和八核苷酸重复2个。使用mgata内嵌的primer3进行引物设计,设置参数为:扩增产物长度为120bp~400bp之间;产物侧翼序列长度为400bp;最佳退火温度tm为60℃;最大模板长度为2000bp。结果一共成功设计引物5279对,随机选5对展示在表2中。四、ssr标记的筛选和多态性的验证首先利用gmata嵌入epcr程序,以上一步提取的基因组外显子序列作为模板进行epcr。epcr过程参数为:字长wordsize为12,连续字长contiguousword为1,最大缺失maxindels为1,最大错配maxmismatch为0,扩增产物长度为100-1000bp。然后将具有多条扩增条带的pcr引物过滤掉,得到5253对ssr引物。此过程目的在于,将候选ssr引物中扩增到多个条带的不合格引物以及共用同一对引物的ssr位点排除,以免干扰后续ssr多态性验证。接下来将所有ssr引物,以每个样本组装得到的转录本序列为模板分别进行epcr扩增。四个样本获得成功扩增的ssr标记数分别为:样本s1共1520个;样本s2共1502个;样本s3共888个;样本s4共755个;至少在两个样本中成功扩增的ssr位点有1305个。统计结果中在所有样本中具有多态性产物的ssr位点。筛选多态性好的引物的标准为:至少在两个不同的样本中扩增产物片段有差异。结果得到共17对具有多态性的ssr及扩增引物(表3,表4)。产物片段长度在所有样本中多态性片段越多的ssr引物越好。五、ssr引物在9只川金丝猴中多态性的验证另外取9个金丝猴样本转录组数据分别组装成转录本,以第四步筛选的17对多态性est-ssr引物进行epcr扩增,扩增结果如表5。结果显示17个est-ssr位点在这些金丝猴个体中同样表型出不同程度的多态性。随机挑选其中两对引物对9个样本进行pcr实验,聚丙烯酰胺凝胶电泳结果如图1。说明本发明提供的基于转录组数据筛选ssr标记的方法准确有效,引物能够运用于川金丝猴的遗传多样性检测和亲缘关系鉴定中。表1实施例1中4个川金丝猴样本转录组分别组装的结果样本ids1s2s3s4转录本总数1822101738088180771073n50长度(bp)15041346869699表2实施例1中基于川金丝猴基因组外显子序列鉴定的部分候选ssr标记及对应的扩增引物表3实施例1中基于川金丝猴转录组测序对候选ssr标记进行筛选验证的部分结果表4实施例1中筛选得到的17对具有多态性的ssr及扩增引物序列表5序列表<110>中南大学<120>一种基于转录组测序开发ssr引物的方法<160>44<170>siposequencelisting1.0<210>1<211>20<212>dna<213>未知(unknown)<400>1atttgggagaagggcagagt20<210>2<211>21<212>dna<213>未知(unknown)<400>2agcaactcacacacacacaca21<210>3<211>20<212>dna<213>未知(unknown)<400>3atttgggagaagggcagagt20<210>4<211>22<212>dna<213>未知(unknown)<400>4ggcccacatctgtacataacaa22<210>5<211>20<212>dna<213>未知(unknown)<400>5caattcccctctcctcttcc20<210>6<211>20<212>dna<213>未知(unknown)<400>6caggggctggagtttgatta20<210>7<211>20<212>dna<213>未知(unknown)<400>7ccaaaagaaaaccccatcaa20<210>8<211>20<212>dna<213>未知(unknown)<400>8ctgggtgtgagcctgtaatg20<210>9<211>20<212>dna<213>未知(unknown)<400>9cctggtagctcaacctcctg20<210>10<211>20<212>dna<213>未知(unknown)<400>10cacgcccatctttaccattt20<210>11<211>20<212>dna<213>未知(unknown)<400>11gagccccatgacttttctca20<210>12<211>20<212>dna<213>未知(unknown)<400>12gaagccatgagaatggagga20<210>13<211>21<212>dna<213>未知(unknown)<400>13cagcttatccaaagctctcca21<210>14<211>20<212>dna<213>未知(unknown)<400>14gtccctcccttccactcttc20<210>15<211>20<212>dna<213>未知(unknown)<400>15ggtaaccacaccaggtcagc20<210>16<211>20<212>dna<213>未知(unknown)<400>16cccagtgagaagacctttgc20<210>17<211>20<212>dna<213>未知(unknown)<400>17gattcccctgaatccctacc20<210>18<211>20<212>dna<213>未知(unknown)<400>18ggtagtcgaagccgtagctg20<210>19<211>20<212>dna<213>未知(unknown)<400>19ttttggggtgtctctgtgtg20<210>20<211>20<212>dna<213>未知(unknown)<400>20tcttgggcctacctgaattg20<210>21<211>20<212>dna<213>未知(unknown)<400>21caggcccttcttcctctagc20<210>22<211>20<212>dna<213>未知(unknown)<400>22gaagaaatgggcacctttga20<210>23<211>20<212>dna<213>未知(unknown)<400>23aaatatctggggagggaagg20<210>24<211>20<212>dna<213>未知(unknown)<400>24ccatcccctttgcttttaca20<210>25<211>20<212>dna<213>未知(unknown)<400>25aggaccacttagcccaacct20<210>26<211>20<212>dna<213>未知(unknown)<400>26aaatgccacgtctgctcttc20<210>27<211>20<212>dna<213>未知(unknown)<400>27ggggctgtctgaaaactgtg20<210>28<211>20<212>dna<213>未知(unknown)<400>28ttcctttggggatatgatgc20<210>29<211>22<212>dna<213>未知(unknown)<400>29agctttgtgtgaaaaccagtca22<210>30<211>20<212>dna<213>未知(unknown)<400>30gggttttagaaaggcagcaa20<210>31<211>20<212>dna<213>未知(unknown)<400>31gtatggtgggccctaggaaa20<210>32<211>20<212>dna<213>未知(unknown)<400>32ctctgggactcctgtgcttc20<210>33<211>20<212>dna<213>未知(unknown)<400>33caagcctggtgaagaggaag20<210>34<211>20<212>dna<213>未知(unknown)<400>34caggtgatcttggggagaga20<210>35<211>20<212>dna<213>未知(unknown)<400>35ggttgggagttcaagaccag20<210>36<211>20<212>dna<213>未知(unknown)<400>36ccgaagaccttaagcccaaa20<210>37<211>20<212>dna<213>未知(unknown)<400>37gggagcatcttctgtgtcaa20<210>38<211>21<212>dna<213>未知(unknown)<400>38tgtacagcatgtcggtctgaa21<210>39<211>20<212>dna<213>未知(unknown)<400>39ttagcggtcactgccttagc20<210>40<211>19<212>dna<213>未知(unknown)<400>40gactccccatgctcctctc19<210>41<211>20<212>dna<213>未知(unknown)<400>41aagaggctgaggttgtggaa20<210>42<211>20<212>dna<213>未知(unknown)<400>42tcagcacaagtccgtcagtc20<210>43<211>20<212>dna<213>未知(unknown)<400>43catgactctcctggtccaca20<210>44<211>21<212>dna<213>未知(unknown)<400>44cccaactctctgcattattcg21当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1