本发明涉及一组基于转录组测序开发的川金丝猴est-ssr引物及试剂盒,属于分子生物学分子标记技术领域。
背景技术:
微卫星标记(microsatellite),又被称为短串联重复序列(shorttandemrepeats,strs)或简单重复序列(simplesequencerepeats),是均匀分布于真核生物基因组中的简单重复序列,由2~6个核苷酸的串联重复片段构成,由于重复单位的重复次数在个体间呈高度变异性并且数量丰富,因此微卫星标记的应用非常广泛。微卫星标记共显性的特点使它能够用于研究等位基因,区分二倍体(或多倍体)的纯合体或杂合体,这是aflp、rapd等显性标记所无法做到的。另外,微卫星的特异性引物扩增具有良好的重复性和保真性,方便各实验室间的交流。目前,微卫星标记已被广泛应用到基因连锁与遗传图谱构建、遗传多样性研究、谱系和发育研究、疾病检测以及品种鉴定、亲本分析与个体、纯系检验上。
ssr标记分为基因组ssr标记和表达序列标签ssr标记(est-ssr)。相比基因组ssr标记,est-ssr标记在近缘种属中保守性更好,效率更高。而且基于表达数据的ssr标记是基于某一时期的基因表达序列,与基因功能和性状表型直接相关,因而有着重要的研究价值。
川金丝猴(rhinopithecusroxellana),隶属于灵长目(primates)、猴科(cercopithecidae)、疣猴亚科(colobinae)、仰鼻猴属(rhinopithecus),系我国特有种,是我国i级重点保护保护野生动物,被国际自然保护联盟(internationalunionforconservationofnature,iucn)名录列为易危(iucn,2011)。目前川金丝猴仅分布于几个相互隔离的地区(四川北部及甘肃南部、陕西秦岭和湖北神农架3个地区),研究川金丝猴的遗传多样性和种群结构对我国珍稀濒危种质资源的保护具有十分重要的意义。目前用于穿金丝猴遗传多样性检测的ssr标记多来自于其他近缘灵长类,但是这种依靠ssr标记在同属或同科物种的转移特性的方法,很容易因为侧翼序列的突变而转移失败。虽然川金丝猴的全基因组测序虽然已经完成,但金丝猴专属的ssr标记作为一种简单易行的可用于川金丝猴遗传多样性和亲缘关系鉴定的重要方式,目前仍未被开发出来。开发一组川金丝猴专属的ssr标记引物和试剂已然迫在眉睫。
技术实现要素:
针对目前急需但缺乏川金丝猴专属ssr标记的现状,本发明的首要目的是提供了一组基于转录组测序的开发川金丝猴est-ssr标记引物。本发明从基因组的外显子序列中搜索est-ssr位点,并设计对应pcr扩增引物,先通过外显子的epcr验证,最后利用4个川金丝猴个体转录组测序数据进行无参组装得到的转录本进行epcr,筛选得到17对具有多态性的est-ssr标记及其引物。利用这些est-ssr标记成功在9个川金丝猴个体中验证其多态性。本发明为研究川金丝猴的遗传多样性和亲缘关系提供了一种准确高效快速的途径。
一组基于转录组测序开发的川金丝猴est-ssr引物对,所述引物共有17对,分别为:
第1对引物,其序列如seqidno:1和seqidno:2所示;
第2对引物,其序列如seqidno:3和seqidno:4所示;
第3对引物,其序列如seqidno:5和seqidno:6所示;
第4对引物,其序列如seqidno:7和seqidno:8所示;
第5对引物,其序列如seqidno:9和seqidno:10所示;
第6对引物,其序列如seqidno:11和seqidno:12所示;
第7对引物,其序列如seqidno:13和seqidno:14所示;
第8对引物,其序列如seqidno:15和seqidno:16所示;
第9对引物,其序列如seqidno:17和seqidno:18所示;
第10对引物,其序列如seqidno:19和seqidno:20所示;
第11对引物,其序列如seqidno:21和seqidno:22所示;
第12对引物,其序列如seqidno:23和seqidno:24所示;
第13对引物,其序列如seqidno:25和seqidno:26所示;
第14对引物,其序列如seqidno:27和seqidno:28所示;
第15对引物,其序列如seqidno:29和seqidno:30所示;
第16对引物,其序列如seqidno:31和seqidno:32所示;
第17对引物,其序列如seqidno:33和seqidno:34所示。
本发明的第二个目的是提供一种研究川金丝猴遗传多样性和亲缘关系试剂盒,包括上述的一对或多对引物。
本发明的引物或试剂盒在使用时采用一对或多对引物。
本发明带来的有益技术效果有:本发明首次提供了一组基于转录组测序开发的川金丝猴专属est-ssr标记引物及试剂盒,为研究金丝猴的遗传多样性和亲缘关系鉴定提供了一种准确高效的方式。
附图说明
图1为本发明筛选得到的两对引物的电泳结果。
具体实施方式
以下通过实施例对本发明内容作进一步阐述,但不作为对本发明权利要求保护范围的限定。所有试剂盒操作按照说明书进行,转录组建库流程未作说明处按照标准流程进行。
实施例1
一、总rna的提取与转录组文库构建
本实施例的4个川金丝猴样本采自湖北神农架国家公园。用麻醉吹筒的方法将金丝猴麻醉之后,取后肢静脉血干冰运输-80℃保存用于后续提取总rna。总rna采用qiagenrneasyprotectanimalbloodkit(73224)进行提取,并用琼脂糖凝胶电泳检查rna的质量。转录组测序文库构建采用vahtstmmrna-seqv2libraryprepkitfor
二、转录组测序以及数据过滤:
mrna文库采用illuminahiseq2500进行测序。原始数据中n含量超过30%或低质量碱基含量超过10%的低质量序列首先被过滤掉。接头污染采用cutadapt1.9版本进行去除。测序数据在过滤掉低质量数据和接头污染之后,用fastqc软件进行质量检测,确保数据有效。高质量数据采用trinity2.2.0默认参数进行无参考基因组转录本组装,每个样本单独组装,得到各自trinity.fasta文件。对转录本组装进行统计如表1。
三、ssr位点搜索及扩增引物设计
金丝猴的基因组参考序列(roxv1)以及相应注释文件下载自refseq数据库(http://www.ncbi.nlm.nih.gov/refseq)。先写perl脚本依据注释文件中内含子信息,从基因组序列文件中提取所有外显子序列。然后采用windows版gmata2.0软件进行ssr搜索,查找2~10个核苷酸重复单元,并且重复次数大于等于5次的ssr位点。结果一共搜索到外显子区二核苷酸重复5011个、三核苷酸重复2733个、四核苷酸重复217个、五核苷酸重复60个、六核苷酸重复42个和八核苷酸重复2个。使用mgata内嵌的primer3进行引物设计,设置参数为:扩增产物长度为120bp~400bp之间;产物侧翼序列长度为400bp;最佳退火温度tm为60℃;最大模板长度为2000bp。结果一共成功设计引物5279对,随机选5对展示在表2中。
四、ssr标记的筛选和多态性的验证
首先利用gmata嵌入epcr程序,以上一步提取的基因组外显子序列作为模板进行epcr。epcr过程参数为:字长wordsize为12,连续字长contiguousword为1,最大缺失maxindels为1,最大错配maxmismatch为0,扩增产物长度为100-1000bp。然后将具有多条扩增条带的pcr引物过滤掉,得到5253对ssr引物。此过程目的在于,将候选ssr引物中扩增到多个条带的不合格引物以及共用同一对引物的ssr位点排除,以免干扰后续ssr多态性验证。接下来将所有ssr引物,以每个样本组装得到的转录本序列为模板分别进行epcr扩增。四个样本获得成功扩增的ssr标记数分别为:样本s1共1520个;样本s2共1502个;样本s3共888个;样本s4共755个;至少在两个样本中成功扩增的ssr位点有1305个。统计结果中在所有样本中具有多态性产物的ssr位点。筛选多态性好的引物的标准为:至少在两个不同的样本中扩增产物片段有差异。结果得到共17对具有多态性的ssr及扩增引物(表3,表4)。产物片段长度在所有样本中多态性片段越多的ssr引物越好。
五、ssr引物在9只川金丝猴中多态性的验证
另外取9个金丝猴样本转录组数据分别组装成转录本,以第四步筛选的17对多态性est-ssr引物进行epcr扩增,扩增结果如表5。结果显示17个est-ssr位点在这些金丝猴个体中同样表型出不同程度的多态性。随机挑选其中两对引物对9个样本进行pcr实验,聚丙烯酰胺凝胶电泳结果如图1。说明本发明提供的基于转录组数据筛选ssr标记的方法准确有效,引物能够运用于川金丝猴的遗传多样性检测和亲缘关系鉴定中。
表1实施例1中4个川金丝猴样本转录组分别组装的结果
表2实施例1中基于川金丝猴基因组外显子序列鉴定的部分候选ssr标记及对应的扩增引物
表3实施例1中基于川金丝猴转录组测序对候选ssr标记进行筛选验证的部分结果
表4实施例1中筛选得到的17对具有多态性的ssr及扩增引物序列
表5
序列表
<110>中南大学
<120>一组基于转录组测序开发的川金丝猴est-ssr引物和试剂盒
<160>44
<170>siposequencelisting1.0
<210>1
<211>20
<212>dna
<213>未知(unknown)
<400>1
atttgggagaagggcagagt20
<210>2
<211>21
<212>dna
<213>未知(unknown)
<400>2
agcaactcacacacacacaca21
<210>3
<211>20
<212>dna
<213>未知(unknown)
<400>3
atttgggagaagggcagagt20
<210>4
<211>22
<212>dna
<213>未知(unknown)
<400>4
ggcccacatctgtacataacaa22
<210>5
<211>20
<212>dna
<213>未知(unknown)
<400>5
caattcccctctcctcttcc20
<210>6
<211>20
<212>dna
<213>未知(unknown)
<400>6
caggggctggagtttgatta20
<210>7
<211>20
<212>dna
<213>未知(unknown)
<400>7
ccaaaagaaaaccccatcaa20
<210>8
<211>20
<212>dna
<213>未知(unknown)
<400>8
ctgggtgtgagcctgtaatg20
<210>9
<211>20
<212>dna
<213>未知(unknown)
<400>9
cctggtagctcaacctcctg20
<210>10
<211>20
<212>dna
<213>未知(unknown)
<400>10
cacgcccatctttaccattt20
<210>11
<211>20
<212>dna
<213>未知(unknown)
<400>11
gagccccatgacttttctca20
<210>12
<211>20
<212>dna
<213>未知(unknown)
<400>12
gaagccatgagaatggagga20
<210>13
<211>21
<212>dna
<213>未知(unknown)
<400>13
cagcttatccaaagctctcca21
<210>14
<211>20
<212>dna
<213>未知(unknown)
<400>14
gtccctcccttccactcttc20
<210>15
<211>20
<212>dna
<213>未知(unknown)
<400>15
ggtaaccacaccaggtcagc20
<210>16
<211>20
<212>dna
<213>未知(unknown)
<400>16
cccagtgagaagacctttgc20
<210>17
<211>20
<212>dna
<213>未知(unknown)
<400>17
gattcccctgaatccctacc20
<210>18
<211>20
<212>dna
<213>未知(unknown)
<400>18
ggtagtcgaagccgtagctg20
<210>19
<211>20
<212>dna
<213>未知(unknown)
<400>19
ttttggggtgtctctgtgtg20
<210>20
<211>20
<212>dna
<213>未知(unknown)
<400>20
tcttgggcctacctgaattg20
<210>21
<211>20
<212>dna
<213>未知(unknown)
<400>21
caggcccttcttcctctagc20
<210>22
<211>20
<212>dna
<213>未知(unknown)
<400>22
gaagaaatgggcacctttga20
<210>23
<211>20
<212>dna
<213>未知(unknown)
<400>23
aaatatctggggagggaagg20
<210>24
<211>20
<212>dna
<213>未知(unknown)
<400>24
ccatcccctttgcttttaca20
<210>25
<211>20
<212>dna
<213>未知(unknown)
<400>25
aggaccacttagcccaacct20
<210>26
<211>20
<212>dna
<213>未知(unknown)
<400>26
aaatgccacgtctgctcttc20
<210>27
<211>20
<212>dna
<213>未知(unknown)
<400>27
ggggctgtctgaaaactgtg20
<210>28
<211>20
<212>dna
<213>未知(unknown)
<400>28
ttcctttggggatatgatgc20
<210>29
<211>22
<212>dna
<213>未知(unknown)
<400>29
agctttgtgtgaaaaccagtca22
<210>30
<211>20
<212>dna
<213>未知(unknown)
<400>30
gggttttagaaaggcagcaa20
<210>31
<211>20
<212>dna
<213>未知(unknown)
<400>31
gtatggtgggccctaggaaa20
<210>32
<211>20
<212>dna
<213>未知(unknown)
<400>32
ctctgggactcctgtgcttc20
<210>33
<211>20
<212>dna
<213>未知(unknown)
<400>33
caagcctggtgaagaggaag20
<210>34
<211>20
<212>dna
<213>未知(unknown)
<400>34
caggtgatcttggggagaga20
<210>35
<211>20
<212>dna
<213>未知(unknown)
<400>35
ggttgggagttcaagaccag20
<210>36
<211>20
<212>dna
<213>未知(unknown)
<400>36
ccgaagaccttaagcccaaa20
<210>37
<211>20
<212>dna
<213>未知(unknown)
<400>37
gggagcatcttctgtgtcaa20
<210>38
<211>21
<212>dna
<213>未知(unknown)
<400>38
tgtacagcatgtcggtctgaa21
<210>39
<211>20
<212>dna
<213>未知(unknown)
<400>39
ttagcggtcactgccttagc20
<210>40
<211>19
<212>dna
<213>未知(unknown)
<400>40
gactccccatgctcctctc19
<210>41
<211>20
<212>dna
<213>未知(unknown)
<400>41
aagaggctgaggttgtggaa20
<210>42
<211>20
<212>dna
<213>未知(unknown)
<400>42
tcagcacaagtccgtcagtc20
<210>43
<211>20
<212>dna
<213>未知(unknown)
<400>43
catgactctcctggtccaca20
<210>44
<211>21
<212>dna
<213>未知(unknown)
<400>44
cccaactctctgcattattcg21