本发明属于分子标记技术领域,具体涉及一种藜麦二态性indel分子标记及其开发方法与应用。
背景技术:
indel(insertion/deletion)又称为插入缺失,通常是指相比于一个基因组,另一个基因组序列存在一定数量核苷酸的插入或缺失。根据基因组插入缺失位点设计可以扩增这些位点的引物就是indel分子标记。该标记能够显示扩增序列的长度差异,具有稳定性高、共显性等特点,可以用于遗传图谱构建、遗传多样性分析、群体结构评价以及核心种质筛选等。由于基因组中存在较丰富的indel变异,且indel变异可以在基因内或基因调控区域发生,因此,indel变异具有发展成为功能性分子标记的潜力。
藜麦(chenopodiumquinoawilld.),是原产于南美安第斯地区一年生双子叶草本植物,其在安第斯地区具有上千年的栽培历史,具有出色的耐干旱、耐盐碱的特性,是安第斯地区的主要食物来源。由于其种子营养均衡,已被联合国粮农组织认定为单体即可满足人体基本营养需求的唯一植物。藜麦市场需求逐年扩大,种植地已经扩展到欧美、日本、中国等地。藜麦是异源四倍体物种(2n=4x=36),含有两个基因组亚组,其基因组大小约为1,448mb。由于关于藜麦的分子生物学研究并不深入,已报道的藜麦分子标记并不丰富。常用的分子标记为mason等(2005)和jarvis等(2008)鉴定的ssr(simplesequencerepeat)标记,但总量只有数百个。特别是某些ssr分子标记可检测的等位基因多达数十个,在基因分型过程中会产生混淆,造成基因分型的准确性降低,不方便利用。因此,发展二态性indel分子标记可大大提高四倍体藜麦基因分型的准确性和可操作性。
技术实现要素:
本发明主要提供了一种藜麦二态性indel分子标记及其开发方法与应用,可以针对现有藜麦分子标记在基因分型中的不足,利用这些分子标记可极大的提高藜麦基因分型的准确性。其技术方案如下:
一种藜麦二态性indel分子标记,包括如下38个位点所对应的正向、反向
引物:
优选的,所述分子标记对藜麦基因组dna进行pcr扩增后,在纯合位点可以扩增出一条等位基因,在杂合位点可以扩增出两条等位基因。
一种藜麦二态性indel分子标记的开发方法,该方法包括以下步骤:
(1)获取藜麦基因组序列信息;
(2)利用mindel软件对藜麦基因组序列进行预处理、组装、indel分析、引物设计及评价;
(3)筛选较好的二态性indel分子标记pcr扩增藜麦基因组dna进行验证。
所述藜麦二态性indel分子标记在异源四倍体藜麦基因分型中的应用,具体步骤如下:
(1)采用所述indel分子标记的引物对藜麦基因组dna进行pcr扩增;
(2)对扩增产物进行凝胶电泳检测;
(3)读取凝胶电泳检测的扩增条带确定基因型;
(4)基于基因型结果对藜麦种质进行群体结构评价、系统进化树构建、遗传多样性分析及核心种质筛选的应用。
采用上述分子标记,本发明具有以下优点:
本发明提供的藜麦二态性indel分子标记可以准确地对异源四倍体藜麦进行基因型分析,极大地降低了高多态性分子标记在藜麦基因分型中的读带错误率。该藜麦二态性indel分子标记是一种稳定的遗传变异,在藜麦基因组中数量丰富,可大规模开发。藜麦二态性indel分子标记的pcr扩增产物可以用琼脂糖凝胶电泳进行检测,使用方便。
附图说明
图1为藜麦群体的群体结构图;
图2为藜麦群体的系统进化树。
具体实施方式
以下实施例中的实验方法如无特殊规定,均为常规方法,所涉及的实验试剂及材料如无特殊规定均为常规生化试剂和材料。
1、藜麦基因组序列的获得
收集11份藜麦种质的幼苗期地上部分植株用于dna提取。按照illumina公司提供的操作指南构建基因组测序文库。利用贝瑞和康公司的illuminahiseq2500测序平台进行基因组paired-end测序如表1所示。
表1藜麦基因组测序种质及其测序信息
2、藜麦二态性indel分子标记的预测及验证
将藜麦基因组测序数据(fastq格式)导入mindel软件,经过对测序数据进行质量控制后,高质量的测序数据用于基因组序列的denovo组装。riobamba的读长较长,测序深度较深,组装的序列质量高。以riobamba的基因组组装序列为参考序列进行indel分析。对在11份藜麦基因组中只出现两种长度的indel片段进行引物设计,筛选出90个预测扩增片段差异较大的引物进行凝胶电泳验证。经过验证,共得到85个二态性indel分子标记,其中38个可用3%的琼脂糖凝胶电泳检测差异(表2),其它47个可用12%的聚丙烯酰胺凝胶检测差异。
表238个二态性indel分子标记引物序列及其pcr产物预测长度
3、藜麦的基因型分析
利用包括85个二态性indel分子标记和62个ssr分子标记共计147个分子标记对收集到的129份藜麦种质进行基因型分析。利用karrotendna提取试剂盒提起试验材料的幼苗用于pcr扩增。pcr反应总体系为25μl,含有2mmol/lmgcl2,100μmol/ldntp,0.2μmol/l引物,1utaq酶及50μngdna。pcr反应程序为:94℃3min;94℃30s,58℃35s,72℃45s,38个循环;72℃3min。pcr扩增产物在3%琼脂糖凝胶上以100v电压电泳90min或12%聚丙烯酰胺凝胶上以120v电压电泳120min,eb染色后在紫外透射仪上观察结果。
4、藜麦的群体结构评价、系统进化树构建、遗传多样性分析及核心种质筛选
藜麦的基因型数据用于藜麦群体的相关分析。利用structure2.3.4软件的admixture模型对129份藜麦种质的群体结构进行了评价。通过△k法可以将藜麦种质分成两个大群,并发现部分个体呈现混合血缘,如附图1所示。
利用powermarker3.25软件包将藜麦的基因型数据转化成个体间的遗传距离(nei,1983),通过mega7.0.14软件的nj法构建藜麦种质的系统进化树,如附图2所示。该系统进化树显示的大群结果与structure分析的结果相似,可将藜麦群体分成g1和g2两个群体,分别代表安第斯高原型和智利沿海型型。系统进化树还进一步将g1分成两个亚群,分别是g1s1(北部高原型)和g1s2(南部高原型)。
根据藜麦群体的分群结果,利用powermarker3.25软件包对群体内个体的基因型数据进行遗传多样性分析,发现g1、g2、g1s1和g1s2的遗传多样性分别为0.33、0.38、0.27和0.32。结果表明与安第斯高原型藜麦群体相比,智利沿海型藜麦群体具有较高的多样性。在安第斯高原型藜麦群体中,南部高原亚群比北部高原亚群具有更高的多态性。因此,可以推测藜麦可能是起源于智利沿海,并向北部高原扩散。
藜麦群体的核心种质是通过powermarker3.25软件包的simulatedannealing算法筛选的。该方法能够基于基因型数据筛选出代表最大遗传多样性的最小样本数。参数设置如下:r=3000,ρ=0.95及t0=1。结果发现,4个藜麦核心种质即可代表88%的等位基因,16个藜麦核心种质即可代表100%的等位基因,筛选结果如表3所示。
表3藜麦核心种质筛选
对本领域的技术人员来说,可根据以上描述的技术方案以及构思,做出其它各种相应的改变以及形变,而所有的这些改变以及形变都应该属于本发明权利要求的保护范围之内。
sequencelisting
<110>江苏省农业科学院
<120>藜麦二态性indel分子标记及其开发方法与利用
<130>2017
<160>76
<170>patentinversion3.3
<210>1
<211>23
<212>dna
<213>人工序列
<400>1
aagcaaggtcctaaccagcaatg23
<210>2
<211>20
<212>dna
<213>人工序列
<400>2
gccacctaagctgtcgcaac20
<210>3
<211>22
<212>dna
<213>人工序列
<400>3
actcaggatgctgtgcagcttc22
<210>4
<211>23
<212>dna
<213>人工序列
<400>4
cccagaacaaactgtcccacctc23
<210>5
<211>22
<212>dna
<213>人工序列
<400>5
agccattgcactatgccctctc22
<210>6
<211>21
<212>dna
<213>人工序列
<400>6
tggcccaacacctaagtgacg21
<210>7
<211>22
<212>dna
<213>人工序列
<400>7
atcctgtgctgacgctgaatcc22
<210>8
<211>22
<212>dna
<213>人工序列
<400>8
agatttcgggcttcgagttggg22
<210>9
<211>22
<212>dna
<213>人工序列
<400>9
atgagagccattgcactatgcc22
<210>10
<211>23
<212>dna
<213>人工序列
<400>10
agtgacgaggttgtatctttgcg23
<210>11
<211>23
<212>dna
<213>人工序列
<400>11
caactcgaacaaccctaaactgc23
<210>12
<211>23
<212>dna
<213>人工序列
<400>12
accactaccaccaccaactttcc23
<210>13
<211>23
<212>dna
<213>人工序列
<400>13
ccacaaataaacaaccggaagcc23
<210>14
<211>23
<212>dna
<213>人工序列
<400>14
ttgatgtccagtggtcctgattg23
<210>15
<211>23
<212>dna
<213>人工序列
<400>15
ccttcaagggaactggaaactcc23
<210>16
<211>23
<212>dna
<213>人工序列
<400>16
cagaacaaactgtcccacctcag23
<210>17
<211>23
<212>dna
<213>人工序列
<400>17
cgtccagctcaattacttccaac23
<210>18
<211>23
<212>dna
<213>人工序列
<400>18
gctcaatgcatctaacagaggtg23
<210>19
<211>23
<212>dna
<213>人工序列
<400>19
ctcgatctcaactcgaacaaccc23
<210>20
<211>23
<212>dna
<213>人工序列
<400>20
cactaccaccaccaactttcctg23
<210>21
<211>23
<212>dna
<213>人工序列
<400>21
ctctacactacatcagcgacctg23
<210>22
<211>23
<212>dna
<213>人工序列
<400>22
gggaatggaaagccagaaaggag23
<210>23
<211>23
<212>dna
<213>人工序列
<400>23
ctgacgctgaatcctgagacaac23
<210>24
<211>22
<212>dna
<213>人工序列
<400>24
tttgggtagatttcgggcttcg22
<210>25
<211>23
<212>dna
<213>人工序列
<400>25
gaaaccttctctcccaccatagc23
<210>26
<211>23
<212>dna
<213>人工序列
<400>26
ggagaatcaccatcacacgaaac23
<210>27
<211>23
<212>dna
<213>人工序列
<400>27
gcacataggttgctttcaggaac23
<210>28
<211>23
<212>dna
<213>人工序列
<400>28
ggccttctgaattgagcatggac23
<210>29
<211>21
<212>dna
<213>人工序列
<400>29
gccattgcactatgccctctc21
<210>30
<211>23
<212>dna
<213>人工序列
<400>30
cgaggttgtatctttgcgctatg23
<210>31
<211>23
<212>dna
<213>人工序列
<400>31
gctggaggtgactggtgaataac23
<210>32
<211>23
<212>dna
<213>人工序列
<400>32
gtgagaaagtgctgcatccacag23
<210>33
<211>23
<212>dna
<213>人工序列
<400>33
ggagtggtgaattctcgagttgg23
<210>34
<211>23
<212>dna
<213>人工序列
<400>34
aggaattgaaggtgttggcattc23
<210>35
<211>23
<212>dna
<213>人工序列
<400>35
ggagtgtggacttatggtgtgag23
<210>36
<211>23
<212>dna
<213>人工序列
<400>36
gggcagcttggatacactcattg23
<210>37
<211>23
<212>dna
<213>人工序列
<400>37
ggataactgattgggaccgttgg23
<210>38
<211>19
<212>dna
<213>人工序列
<400>38
gcgttgaggagagcgtcac19
<210>39
<211>23
<212>dna
<213>人工序列
<400>39
ggatcactaacgaacagcaaacc23
<210>40
<211>23
<212>dna
<213>人工序列
<400>40
tgggttgtggtgaagtaaatggc23
<210>41
<211>23
<212>dna
<213>人工序列
<400>41
taatggcggtgttcgtggtaatg23
<210>42
<211>22
<212>dna
<213>人工序列
<400>42
actagcctttccaccatgtagc22
<210>43
<211>20
<212>dna
<213>人工序列
<400>43
tcaaggcgtgcagcagtagc20
<210>44
<211>21
<212>dna
<213>人工序列
<400>44
ccacctaagctgtcgcaacac21
<210>45
<211>23
<212>dna
<213>人工序列
<400>45
tcagtggatcactaacgaacagc23
<210>46
<211>22
<212>dna
<213>人工序列
<400>46
tttgtgctgggttgtggtgaag22
<210>47
<211>23
<212>dna
<213>人工序列
<400>47
tccgatcccatgaaatccaaacc23
<210>48
<211>23
<212>dna
<213>人工序列
<400>48
tgcaaagacttagcctcactagc23
<210>49
<211>23
<212>dna
<213>人工序列
<400>49
tcctactcttcccaaccctcatc23
<210>50
<211>22
<212>dna
<213>人工序列
<400>50
tgctatggaatttgggccacac22
<210>51
<211>23
<212>dna
<213>人工序列
<400>51
tcgcatccactttgggtatcctc23
<210>52
<211>23
<212>dna
<213>人工序列
<400>52
agttggacgaatgttgtgtctcc23
<210>53
<211>23
<212>dna
<213>人工序列
<400>53
tctcgatctcaactcgaacaacc23
<210>54
<211>23
<212>dna
<213>人工序列
<400>54
accaccaccaactttcctgtaag23
<210>55
<211>23
<212>dna
<213>人工序列
<400>55
tgatgatcggatcgggtctgatg23
<210>56
<211>22
<212>dna
<213>人工序列
<400>56
cgccaggctaaaggctagactg22
<210>57
<211>22
<212>dna
<213>人工序列
<400>57
tgctgacgctgaatcctgagac22
<210>58
<211>23
<212>dna
<213>人工序列
<400>58
ggtagatttcgggcttcgagttg23
<210>59
<211>23
<212>dna
<213>人工序列
<400>59
tggaattgcaactgattgtgacc23
<210>60
<211>23
<212>dna
<213>人工序列
<400>60
agggtgaaatgttggcttgttcc23
<210>61
<211>23
<212>dna
<213>人工序列
<400>61
tggattcatcacaacaggctgac23
<210>62
<211>23
<212>dna
<213>人工序列
<400>62
tgctaatgcgtttgcaaggagag23
<210>63
<211>22
<212>dna
<213>人工序列
<400>63
tggcctaaatgcgggcttcttc22
<210>64
<211>23
<212>dna
<213>人工序列
<400>64
agttggtgcttagtgttgctctg23
<210>65
<211>21
<212>dna
<213>人工序列
<400>65
tgtcaaggcgtgcagcagtag21
<210>66
<211>22
<212>dna
<213>人工序列
<400>66
gcactagccacctaagctgtcg22
<210>67
<211>23
<212>dna
<213>人工序列
<400>67
tgtgactgtgataggcaaatcgc23
<210>68
<211>23
<212>dna
<213>人工序列
<400>68
ttaggccaactagcagtctacgc23
<210>69
<211>22
<212>dna
<213>人工序列
<400>69
tgtgctgacgctgaatcctgag22
<210>70
<211>22
<212>dna
<213>人工序列
<400>70
cgggcttcgagttgggtaattg22
<210>71
<211>23
<212>dna
<213>人工序列
<400>71
ttgaattgccgtgaaatggtctc23
<210>72
<211>20
<212>dna
<213>人工序列
<400>72
ggcccaagcgatacctaccc20
<210>73
<211>23
<212>dna
<213>人工序列
<400>73
ttggtatggagcgaggaactaac23
<210>74
<211>23
<212>dna
<213>人工序列
<400>74
gaggaattgaagtggctcacatg23
<210>75
<211>23
<212>dna
<213>人工序列
<400>75
tttatccactcaggatgctgtgc23
<210>76
<211>23
<212>dna
<213>人工序列
<400>76
gtcccacctcagcctattattgc23