基于四交群体的遗传连锁图谱构建方法

文档序号:400891阅读:499来源:国知局
专利名称:基于四交群体的遗传连锁图谱构建方法
技术领域
本发明属于生物学、数学和计算科学技术领域,具体涉及一种基于四交群体的遗传连锁图谱构建方法。
背景技术
遗传连锁图谱的构建具有重要的理论和应用价值,其在基因定位、图位克隆、辅助标记选择、研究基因组的组织结构、通过比较作图研究植物的起源与进化等方面都起到了重要作用。遗传连锁图谱的构建首先要选择合适的遗传作图群体。到目前为止,多数植物物种构建遗传连锁图谱多采用单自交群体的衍生群体,这些群体在染色体上只有两个等位位点,遗传差异较少。对某些遗传多态性较差的物种,如烟草、棉花等用这些群体构建遗传连锁图谱的效果不是十分理想。为获得到较好质量的图谱,研究者往往选择遗传差异较大的亲本配制组合进行遗传作图及QTL (Quantitative Trait Locus,数量性状位点)定位,但育种家在育种实践中,为了克服遗传基础狭窄的不足,常利用多个亲本进行复合杂交或多次杂交,以综合多个亲本的优良性状。因此实践中所用的亲本相对于作图亲本,遗传差异要小得多。这就使得遗传作图和育种实践不能紧密结合,而且利用遗传差异相对较小亲本组合进行遗传作图及 QTL定位,得到的结果常不能令人满意,还会因遗传背景发生变化而使QTL定位的结果应用到新的遗传背景时,MAS (遗传标记辅助育种)的效率大为降低(Fangetal,2001)。在我国以复合杂交或多次杂交育成的品种占新育成的品种的五分之二左右(Huang,1996),因此研究多个亲本轮环交配群体进行遗传连锁图谱构建对育种实践具有十分积极地意义。另通过 Internet 网址http://linkage. rockefeller, edu/禾口 ftp"ftp-genome. wi.mit.edu/获得关于遗传分析的软件的相关各种信息。根据美国Rockefeller大学统计遗传实验室所提供的信息,遗传作图软件已达100多种,而且新的软件还在不断涌现。常用的软件有 CarthaGene>Mapmaker>G-Mende 1 >Manager QTX 禾口 JoinMap 等。其中 Mapmaker 可应用于各种类型的实验群体进行遗传作图,是目前应用最为广泛的作图软件之一,但当对于大量标记(超过1000个标记)的连锁测验时,往往难以实现,且这个程序不能用于分析多亲本交配群体。在利用四交群体的方法研究上,MaliePaard于1994年提出了用异交物种的全同胞家系进行QTL作图的方法,并在苹果上应用。Xu于1996年首次提出了用自交物种的四交群体进行QTL定位的方法,并提出了分析四交群体中QTL加性效应和显性效应的模型,同时也分析了四交群体用于QTL定位的优点。他认为在QTL定位上,用四交群体检测QTL的效率要明显高于单交群体。而且还可以降低因亲本抽样而发生统计上
11类错误的概率。Ritter等(Ritter et al,1990; Artis et al 1994; MaliePaard et al,1997)提出了在全同胞交群体中不同标记形态组合的重组率计算公式和推断连锁相的数学算法,为异交植物利用全同胞交群体构建分子标记遗传连锁图谱奠定了基础。对于在作物育种实践中经常出现的四交群体来说,其群体遗传结构与异交物种全同胞交群体完全相同,而且每个位点在两个Fl亲本中的连锁相是完全已知的,不需要推断。因此,在自交作物利用四交群体构建分子标记遗传连锁图谱也是完全可行的。

发明内容
本发明的目的是针对现有技术的不足,使用四交群体作为遗传连锁图谱构建的群体,提供一种基于四交群体的遗传连锁图谱构建方法。步骤(1).分子标记信息的采集。1-1.准备分子标记的电泳实验中点样样品,点样样品包括亲本材料和四交群体材料。亲本材料为四个具有明显遗传差异的亲本PI、P2、P3、P4,以及亲本Pl和P2为一组杂交产生Fl亲本PA,亲本P3和P4为一组杂交产生Fl亲本PB ;四交群体材料为Fl亲本PA 和PB杂交产生;分子标记的数目为m,四交群体个数为n,其中n>100 ;
1-2.对分子标记的电泳实验中m个分子标记的胶带进行观察;对每一个分子标记都用a、b、c、d表示不同带型,亲本Pl的带型记作aa,与亲本Pl相同的带型均记为aa ; 若亲本P2与亲本Pl带型不同,则亲本P2带型记作ΙΛ ; 若亲本P3与亲本P1、亲本P2带型均不同,则亲本P3带型记作cc; 若亲本P4与亲本P1、亲本P2、亲本P3带型均不同,则亲本P4带型记作dd ; 1-3.确认亲本PA和亲本PB的带型,
若亲本Pl与亲本P2带型组合相同,亲本PA的带型为aa,否则记为ab ; 若亲本P3与亲本P4的带型组合为aa与aa,则亲本PB的带型记为aa ; 若亲本P3与亲本P4的带型组合为aa与ΙΛ,则亲本PB的带型记为ab ; 若亲本P3与亲本P4的带型组合为ΙΛ与aa,则亲本PB的带型记为ab ; 若亲本P3与亲本P4的带型组合为ΙΛ与ΙΛ,则亲本PB的带型记为ΙΛ ; 若亲本P3与亲本P4的带型组合为aa与cc,则亲本PB的带型记为ac ; 若亲本P3与亲本P4的带型组合为cc与aa,则亲本PB的带型记为ac ; 若亲本P3与亲本P4的带型组合为ΙΛ与cc,则亲本PB的带型记为be ; 若亲本P3与亲本P4的带型组合为cc与ΙΛ,则亲本PB的带型记为be ; 若亲本P3与亲本P4的带型组合为cc与dd,则亲本PB的带型记为cd ; 1-4.确认四交子代个体的带型,四交群体中每个个体用ch表示, a.当亲本PA的带型为aa时,其对应的四交子代个体带型记为,其中“_”处的字母由该四交子代个体相对应亲本PB的带型决定; 当亲本PB的带型为aa时,“_”处记为a ;
当亲本PB的带型为ab时,若该四交子代个体的带型和亲本PA的带型相同,则“_”记为a,否则记为b。当亲本PB的带型为ΙΛ时,“_”处记为b ;
当亲本PB的带型为ac时,若该四交子代个体的带型和亲本PA的带型相同,则“_”记为a,否则记为c;当亲本PB的带型为be时,若该四交子代个体的带型包含记为ΙΛ的亲本中的一条带型,则“_”记为b,否则记为c;
当亲本PB的带型为cd时,若该四交子代个体的带型包含记为cc的亲本的一条带型, 则“_”处记为c,否则记为d;
b.当亲本PA的带型为ab时,其对应的四交子代个体的带型如下 当亲本PB的带型为aa时,若该四交子代个体的带型和亲本PA的带型相同,则记为ab, 否则记为aa ;
当亲本PB的带型为ab时,若该四交子代个体与亲本PA和亲本PB的带型相同,四交子代个体的带型记为ab,若与亲本Pl的带型相同,四交子代个体的带型记为aa,否则记为 bb ;
当亲本PB的带型为ΙΛ时,若该四交子代个体的带型和亲本PA相同,则四交子代个体的带型记为ab,否则记为ΙΛ;
当亲本PB的带型为ac时,若该四交子代个体的带型和亲本Pl的带型相同,则四交子代个体的带型记为aa,若该四交子代个体的带型和亲本PB的带型相同,则四交子代个体的带型记为ac,否则记为be ;
当亲本PB的带型为be时,若该四交子代个体的带型和亲本PA带型相同时,则该四交子代个体带型记为ab ;若该四交子代个体的带型和亲本PB的带型相同时,则该四交子代个体的带型记为be;若该四交子代个体的带型和记为ΙΛ的亲本带型相同,则该四交子代个体的带型记为ΙΛ ;若该四交子代个体的带型与所有亲本的带型皆不同,但该个体的带型包含有一条记录为aa的亲本的带型和一条记录为cc的亲本的带型,则该四交子代个体的带型记为ac ;
当亲本PB的带型记为cd时,若该四交子代个体的带型包含有一条记录为aa的亲本的带型和一条记录为cc的亲本的带型,则该子代个体带型记为ac ;若该四交子代个体的带型包含有一条记录为aa的亲本的带型和一条记录为dd的亲本的带型,则该四交子代个体带型记为ad ;若该四交子代个体的带型包含有一条记录为ΙΛ的亲本的带型和一条记录为cc 的亲本的带型,则该四交子代个体带型记为be ;若该四交子代个体的带型包含有一条记录为ΙΛ的亲本的带型和一条记录为dd的亲本的带型,则该四交子代个体带型记为bd ;
1-5.每个分子标记对应的亲本P1、P2、P3和P4以及亲本PA、PB电泳实验带型都存在以下类型
亲本PI、P2、P3和P4存在4种不同带型,亲本PA和亲本PB带型记为ab和cd ; 亲本PI、P2、P3和P4存在3种不同带型,亲本PA和亲本PB带型记为:ab和ac、ab和 be、aa 禾口 be、ab 禾口 cc ;
亲本PU P2、P3和P4存在2种不同带型,亲本PA和亲本PB带型记为aa和bb、aa和 ab、ab和ab ;其中若亲本PA和亲本PB带型aa和ΙΛ,则不具有多态性;
亲本P1、P2、P3和P4只存在1种不同带型,亲本PA和亲本PB带型记为aa和aa,且不具有多态性;
1-6.对所有分子标记的信息都进行整理记录,将不具有遗传多态性的分子标记剔除掉,将具有遗传多态性的分子标记信息保存在txt文本中;txt文本的内容为一个M行N列的信息矩阵,其中M>=2,N=n+3,剔除后分子标记的数目为M-I ;信息矩阵内部用空格作为间隔符,信息矩阵数据中第2列、第3列分别记录亲本PA、亲本PB的带型信息;第4~ η列记录四交子代个体ch带型信息;信息矩阵数据第一列中2 m行记录分子标记的名称,信息矩阵数据的第一行和第一列记录为Unit ; 步骤O).分子标记间距离估测
2-1.两分子标记各四交子代个体基因型条件概率的推导,构建分子标记连锁图谱首先需要估算染色体任意两分子标记的重组率,若第一个分子标记为标记A,第二个分子标记为标记B,标记A和标记B的重组率为r。根据孟德尔分离重组和摩尔根遗传连锁规律,推
导出四亲本交配群体各带型的概率Α } I [Mi, Ρ^),该四交子代个体双亲的亲本PA和亲本PB标记基因型分别为Mi和Pi,四交子代个体的标记基因型为α。若A位点和B位点亲本PA和亲本PB都记为ab和cd,则表示为aa bb Xcc dd,产生的配子分别为aa、ab、ba、bb和cc、cd、dc、dd。其对应的概率为(l_r)/2、r/2、 r/2、(l-r)/2和(l_r)/2、r/2、r/2、(l_r)/2。Q由来自两个不同亲本的配子组配而来,其相应的概率即为这两个配子的乘积。同理推出,标记A和标记B对应不同亲本类型时,Gl 对应的条件概率尸《 }丨沙4印)为(1t)2/4、(1-,)"4、,2/4、(l-r)r/2、,74+(l"r)2/4、 ,72、(1-r) /4、r/4、l/4、(1τ)/4 + r/4、(1τ)/2、r/2、1/2,| {坏,/ })取值由 Mi
和Pi及G的类型决定;
2-2.利用最大似然法估测两个分子标记间的重组率r
= ZlnPim 丨(Mi, φ(1)
i-1
根据步骤2-1和公式(1),将r值从0. 001变化到0. 5,每一步长为0. 001,并带入公式 (1)计算似然函数值,从而获得似然函数的变化曲线;似然函数曲线的最高点对
应的值即为所求的重组率r的估计值;
2-3.重复步骤2-1和2-2,对任意两个分子标记间的重组率r进行估测,得出所有分子标记间重组率r,将重组率r整理成分子标记的距离矩阵;
步骤(3).构建连锁群
3-1.对步骤(2)的距离矩阵进行聚类,首先将各个分子标记都看为单个连锁群,分子标记的距离矩阵即为连锁群的距离系数矩阵;找出距离系数最小的一对连锁群,将该对连锁群合并为一个新的连锁群并取代该对连锁群;
3-2.计算新连锁群和其他连锁群之间的距离系数,得到连锁群之间的新的距离系数矩阵,重复步骤3-1,直到所有连锁群间的距离系数都达到设定的限值。步骤连锁群内分子标记顺序排列
4-1.若连锁群内分子标记数目大于2,则对该连锁群内所有分子标记的顺序进行重新排列,如步骤4-2 ;若连锁群内分子标记数目为1或者2,则分子标记的顺序不进行重新排列;
4-2.选取需要排序的一个连锁群,选取连锁群内任意三个分子标记的组合,对每个组合进行排序;
假设需要确定分子标记A、分子标记B、分子标记C的排列顺序,比较分子标记A和分子标记B重组率r、分子标记A和分子标记C重组率r、分子标记B和分子标记C的重组率r 大小,若分子标记A和分子标记B的重组率r大于分子标记A和分子标记C的重组率r,且大于分子标记B和分子标记C的重组率r,则分子标记A、分子标记B、分子标记C的顺序为 ACB ;
排序完毕后,得到一个包含这个连锁群内所有三个标记顺序组合的顺序矩阵,该顺序矩阵中以开始的三个分子标记顺序为基准,组成新的连锁群,将其余分子标记插入这个连锁群的起始位置、末端位置或者连锁群内某两个分子标记的中间;
4-3.重复步骤4-2,直到对所有需要排序的连锁群内所有分子标记的顺序都排列完毕,并将结果输出到Result, txt文件。本发明方法有益效果
本发明利用的四交群体其染色体上具有2 ~ 4个等位位点,能较好的遗传差异,增加多
态性,从而提高遗传图谱的覆盖率,并且降低以往所采用方法中所造成的遗传统计上Il类误差的概率。本发明中所采用的数据记录格式用以往的记录格式相比,更为简洁,且能够较好的将具有3 4个等位位点的遗传信息表示出来,便于整理分析。


图1是本发明方法的四交群体图。图2是本发明方法中具有四个等位位点的胶带信息的编码规则图。图3是本发明方法流程图。
具体实施例方式下面结合附图对本发明作进一步说明。步骤(1).分子标记信息的采集
1-1.准备分子标记的电泳实验中点样样品,点样样品包括亲本材料和四亲本交配群体材料。如图1所示,亲本材料为四个具有明显遗传差异的亲本P1、P2、P3、P4,以及亲本Pl 和P2为一组杂交产生Fl亲本PA,亲本P3和P4为一组杂交产生Fl亲本PB ;四亲本交配群体材料为Fl亲本PA和PB杂交产生;分子标记的数目为m,四亲本交配群体个数为n,其中 n>100 ;
1-2.如图2所示,对分子标记的电泳实验中m个分子标记的胶带进行观察;对每一个分子标记都用a、b、c、d表示不同带型,亲本Pl的带型记作aa,与亲本Pl相同的带型均记为aa ;
若亲本P2与亲本Pl带型不同,则亲本P2带型记作ΙΛ ; 若亲本P3与亲本P1、亲本P2带型均不同,则亲本P3带型记作cc; 若亲本P4与亲本P1、亲本P2、亲本P3带型均不同,则亲本P4带型记作dd ; 1-3.确认亲本PA和亲本PB的带型,
若亲本Pl与亲本P2带型组合相同,亲本PA的带型为aa,否则记为ab ; 若亲本P3与亲本P4的带型组合为aa与aa,则亲本PB的带型记为aa ;若亲本P3与亲本P4的带型组合为aa与ΙΛ,则亲本PB的带型记为ab ; 若亲本P3与亲本P4的带型组合为ΙΛ与aa,则亲本PB的带型记为ab ; 若亲本P3与亲本P4的带型组合为ΙΛ与ΙΛ,则亲本PB的带型记为ΙΛ ;若亲本P3与亲本P4的带型组合为aa与cc,则亲本PB的带型记为ac ;
若亲本P3与亲本P4的带型组合为cc与aa,则亲本PB的带型记为ac ; 若亲本P3与亲本P4的带型组合为ΙΛ与cc,则亲本PB的带型记为be ; 若亲本P3与亲本P4的带型组合为cc与ΙΛ,则亲本PB的带型记为be ; 若亲本P3与亲本P4的带型组合为cc与dd,则亲本PB的带型记为cd ; 1-4.确认四交子代个体的带型,四亲本交配群体中每个个体用ch表示,
a.当亲本PA的带型为aa时,其对应的四交子代个体带型记为,其中“_”处的字母由该四交子代个体相对应亲本PB的带型决定;
当亲本PB的带型为aa时,“_”处记为a ;
当亲本PB的带型为ab时,若该四交子代个体的带型和亲本PA的带型相同,则“_”记为a,否则记为b。 当亲本PB的带型为ΙΛ时,“_”处记为b ;
当亲本PB的带型为ac时,若该四交子代个体的带型和亲本PA的带型相同,则“_”记为a,否则记为c;
当亲本PB的带型为be时,若该四交子代个体的带型包含记为ΙΛ的亲本中的一条带型,则“_”记为b,否则记为c;
当亲本PB的带型为cd时,若该四交子代个体的带型包含记为cc的亲本的一条带型, 则“_”处记为c,否则记为d;
b.当亲本PA的带型为ab时,其对应的四交子代个体的带型如下
当亲本PB的带型为aa时,若该四交子代个体的带型和亲本PA的带型相同,则记为ab, 否则记为aa ;
当亲本PB的带型为ab时,若该四交子代个体与亲本PA和亲本PB的带型相同,四交子代个体的带型记为ab,若与亲本Pl的带型相同,四交子代个体的带型记为aa,否则记为 bb ;
当亲本PB的带型为ΙΛ时,若该四交子代个体的带型和亲本PA相同,则四交子代个体的带型记为ab,否则记为ΙΛ;
当亲本PB的带型为ac时,若该四交子代个体的带型和亲本Pl的带型相同,则四交子代个体的带型记为aa,若该四交子代个体的带型和亲本PB的带型相同,则四交子代个体的带型记为ac,否则记为be;
当亲本PB的带型为be时,若该四交子代个体的带型和亲本PA带型相同时,则该四交子代个体带型记为ab ;若该四交子代个体的带型和亲本PB的带型相同时,则该四交子代个体的带型记为be;若该四交子代个体的带型和记为ΙΛ的亲本带型相同,则该四交子代个体的带型记为ΙΛ ;若该四交子代个体的带型与所有亲本的带型皆不同,但该个体的带型包含有一条记录为aa的亲本的带型和一条记录为cc的亲本的带型,则该四交子代个体的带型记为ac ;
当亲本PB的带型记为cd时,若该四交子代个体的带型包含有一条记录为aa的亲本的带型和一条记录为cc的亲本的带型,则该子代个体带型记为ac ;若该四交子代个体的带型包含有一条记录为aa的亲本的带型和一条记录为dd的亲本的带型,则该四交子代个体带型记为ad ;若该四交子代个体的带型包含有一条记录为ΙΛ的亲本的带型和一条记录为cc 的亲本的带型,则该四交子代个体带型记为be ;若该四交子代个体的带型包含有一条记录为ΙΛ的亲本的带型和一条记录为dd的亲本的带型,则该四交子代个体带型记为bd ;1-5.每个分子标记对应的亲本P1、P2、P3和P4以及亲本PA、PB电泳实验带型都存在以下类型
亲本PI、P2、P3和P4存在4种不同带型,亲本PA和亲本PB带型记为ab和cd ;
亲本PI、P2、P3和P4存在3种不同带型,亲本PA和亲本PB带型记为ab和ac、ab 禾口 be、aa 禾口 be、ab 禾口 cc ;
亲本PU P2、P3和P4存在2种不同带型,亲本PA和亲本PB带型记为aa和bb、aa和 ab、ab和ab ;其中若亲本PA和亲本PB带型aa和ΙΛ,则不具有多态性;
亲本P1、P2、P3和P4只存在1种不同带型,亲本PA和亲本PB带型记为aa和aa,且不具有多态性;1-6.对所有分子标记的信息都进行整理记录,将不具有遗传多态性的分子标记剔除掉,将具有遗传多态性的分子标记信息保存在txt文本中;txt文本的内容为一个M行N列的信息矩阵,其中M>=2,N=n+3,剔除后分子标记的数目为M-I ;信息矩阵内部用空格作为间隔符,信息矩阵数据中第2列、第3列分别记录亲本PA、亲本PB的带型信息;第4 η列记录四交子代个体ch带型信息;信息矩阵数据第一列中2 ~ m行记录分子标记的名称,信息矩阵数据的第一行和第一列记录为Unit ;
步骤O).分子标记间距离估测2-1.如图3所示,两分子标记各四交子代个体基因型条件概率的推导,构建分子标记连锁图谱首先需要估算染色体任意两分子标记的重组率,若第一个分子标记为标记A,第二个分子标记为标记B,标记A和标记B的重组率为r。根据孟德尔分离重组和摩尔根遗传连
锁规律,推导出四亲本交配群体各带型的概率汽{σο I (Mi, Pi)),该四交子代个体双亲的亲本PA和亲本PB标记基因型分别为Mi和Pi,四交子代个体的标记基因型力
若A位点和B位点亲本PA和亲本PB都记为ab和cd,则表示为aa || bb X cc (( dd,产生的配子分别为aa、ab、ba、bb和cc、cd、dc、dd。其对应的概率为(l_r)/2、r/2、 r/2、(l-r)/2和(l_r)/2、r/2、r/2、(l_r)/2。O由来自两个不同亲本的配子组配而来,其相应的概率即为这两个配子的乘积。同理推出,标记A和标记B对应不同亲本类型时,G 对应的条件概率尸忍)为(1t)2/4、(1-,)"4、,2/4、(l-r)r/2、r74+(l-r)2/4、 ,72、(It) /4、r/4、l/4、(1τ)/4 + r/4、(1τ)/2、r/2、1/2,汽( }丨印)取值由 Mi
和Pi及的类型决定;2-2.利用最大似然法估测两个分子标记间的重组率r
权利要求
1.基于四交群体的遗传连锁图谱构建方法,其特征在于如下步骤 步骤(1).分子标记信息的采集1-1.准备分子标记的电泳实验中点样样品,点样样品包括亲本材料和四交群体材料, 亲本材料为四个具有明显遗传差异的亲本PI、P2、P3、P4,以及亲本Pl和P2为一组杂交产生Fl亲本PA,亲本P3和P4为一组杂交产生Fl亲本PB ;四交群体材料为Fl亲本PA和PB 杂交产生;分子标记的数目为m,四交群体个数为n,其中n>=100 ;1-2.对分子标记的电泳实验中m个分子标记的胶带进行观察;对每一个分子标记都用a、b、c、d表示不同带型,亲本Pl的带型记作aa,与亲本Pl相同的带型均记为aa ; 若亲本P2与亲本Pl带型不同,则亲本P2带型记作ΙΛ ; 若亲本P3与亲本P1、亲本P2带型均不同,则亲本P3带型记作cc; 若亲本P4与亲本P1、亲本P2、亲本P3带型均不同,则亲本P4带型记作dd ; 1-3.确认亲本PA和亲本PB的带型,若亲本Pl与亲本P2带型组合相同,亲本PA的带型为aa,否则记为ab ; 若亲本P3与亲本P4的带型组合为aa与aa,则亲本PB的带型记为aa ; 若亲本P3与亲本P4的带型组合为aa与ΙΛ,则亲本PB的带型记为ab ; 若亲本P3与亲本P4的带型组合为ΙΛ与aa,则亲本PB的带型记为ab ; 若亲本P3与亲本P4的带型组合为ΙΛ与ΙΛ,则亲本PB的带型记为ΙΛ ;若亲本P3与亲本P4的带型组合为aa与cc,则亲本PB的带型记为ac ;若亲本P3与亲本P4的带型组合为cc与aa,则亲本PB的带型记为ac ; 若亲本P3与亲本P4的带型组合为ΙΛ与cc,则亲本PB的带型记为be ; 若亲本P3与亲本P4的带型组合为cc与ΙΛ,则亲本PB的带型记为be ; 若亲本P3与亲本P4的带型组合为cc与dd,则亲本PB的带型记为cd ; 1-4.确认四交子代个体的带型,四交群体中每个个体用ch表示,a.当亲本PA的带型为aa时,其对应的四交子代个体带型记为,其中“_”处的字母由该四交子代个体相对应亲本PB的带型决定;当亲本PB的带型为aa时,“_”处记为a ;当亲本PB的带型为ab时,若该四交子代个体的带型和亲本PA的带型相同,则“_”记为a,否则记为b ;当亲本PB的带型为bb时,“_”处记为b ;当亲本PB的带型为ac时,若该四交子代个体的带型和亲本PA的带型相同,则“_”记为a,否则记为c;当亲本PB的带型为be时,若该四交子代个体的带型包含记为ΙΛ的亲本中的一条带型,则“_”记为b,否则记为c;当亲本PB的带型为cd时,若该四交子代个体的带型包含记为cc的亲本的一条带型, 则“_”处记为c,否则记为d;b.当亲本PA的带型为ab时,其对应的四交子代个体的带型如下当亲本PB的带型为aa时,若该四交子代个体的带型和亲本PA的带型相同,则记为ab, 否则记为aa ;当亲本PB的带型为ab时,若该四交子代个体与亲本PA和亲本PB的带型相同,四交子代个体的带型记为ab,若与亲本Pl的带型相同,四交子代个体的带型记为aa,否则记为 bb ;当亲本PB的带型为ΙΛ时,若该四交子代个体的带型和亲本PA相同,则四交子代个体的带型记为ab,否则记为ΙΛ;当亲本PB的带型为ac时,若该四交子代个体的带型和亲本Pl的带型相同,则四交子代个体的带型记为aa,若该四交子代个体的带型和亲本PB的带型相同,则四交子代个体的带型记为ac,否则记为be ;当亲本PB的带型为be时,若该四交子代个体的带型和亲本PA带型相同时,则该四交子代个体带型记为ab ;若该四交子代个体的带型和亲本PB的带型相同时,则该四交子代个体的带型记为be ;若该四交子代个体的带型和记为ΙΛ的亲本带型相同,则该四交子代个体的带型记为ΙΛ ;若该四交子代个体的带型与所有亲本的带型皆不同,但该个体的带型包含有一条记录为aa的亲本的带型和一条记录为cc的亲本的带型,则该四交子代个体的带型记为ac ;当亲本PB的带型记为cd时,若该四交子代个体的带型包含有一条记录为aa的亲本的带型和一条记录为cc的亲本的带型,则该子代个体带型记为ac ;若该四交子代个体的带型包含有一条记录为aa的亲本的带型和一条记录为dd的亲本的带型,则该四交子代个体带型记为ad ;若该四交子代个体的带型包含有一条记录为ΙΛ的亲本的带型和一条记录为cc 的亲本的带型,则该四交子代个体带型记为be ;若该四交子代个体的带型包含有一条记录为油的亲本的带型和一条记录为dd的亲本的带型,则该四交子代个体带型记为bd ;1-5.每个分子标记对应的亲本P1、P2、P3和P4以及亲本PA、PB电泳实验带型都存在以下类型亲本PI、P2、P3和P4存在4种不同带型,亲本PA和亲本PB带型记为ab和cd ;亲本PI、P2、P3和P4存在3种不同带型,亲本PA和亲本PB带型记为:ab和ac、ab和 be、aa 禾口 be、ab 禾口 cc ;亲本PU P2、P3和P4存在2种不同带型,亲本PA和亲本PB带型记为aa和bb、aa和 ab、ab和ab ;其中若亲本PA和亲本PB带型aa和ΙΛ,则不具有多态性;亲本P1、P2、P3和P4只存在1种不同带型,亲本PA和亲本PB带型记为aa和aa,且不具有多态性;1-6.对所有分子标记的信息都进行整理记录,将不具有遗传多态性的分子标记剔除掉,将具有遗传多态性的分子标记信息保存在txt文本中;txt文本的内容为一个M行 N列的信息矩阵,其中M>=2,N=n+3,剔除后分子标记的数目为M-I ;信息矩阵内部用空格作为间隔符,信息矩阵数据中第2列、第3列分别记录亲本PA、亲本PB的带型信息;第4 ~ η列记录四交子代个体ch带型信息;信息矩阵数据第一列中2 ~ m行记录分子标记的名称,信息矩阵数据的第一行和第一列记录为Unit ;步骤O).分子标记间距离估测2-1.两分子标记各四交子代个体基因型条件概率的推导,构建分子标记连锁图谱首先需要估算染色体任意两分子标记的重组率,若第一个分子标记为标记A,第二个分子标记为标记B,标记A和标记B的重组率为r,根据孟德尔分离重组和摩尔根遗传连锁规律,推导出四交群体各带型的概率汽! (Mi, fD),该四交子代个体双亲的亲本PA和亲本PB标记基因型分别为Mi和Pi,四交子代个体的标记基因型为d ;若A位点和B位点亲本PA和亲本PB都记为ab和cd,则表示为aa || bb Xcc|j dd, 产生的配子分别为aa、ab、ba、bb和cc、cd、dc、dd,其对应的概率为(l_r)/2、r/2、r/2、 (l-r)/2和(l-r)/2、r/2、r/2、(l_r)/」一由来自两个不同亲本的配子组配而来,其相应的概率即为这两个配子的乘积;同理推出,标记A和标记B对应不同亲本类型时-对应的条件概率Ρ( }| 坏,巧))为(1_,)74、(l-r)r/4、r74、(l"T)r/2、r2/4+(It)2/4、r2/2、 (It) /4、,/4、1/4、(1-,)/4 + r/4、(It)/2、,/2、1/2,汽仲} | (MiJ))取值由 Mi 和 Pi及J的类型决定;2-2.利用最大似然法估测两个分子标记间的重组率r HL(SGi))) ^fiInP(Ia) I (Mi,切(1)根据步骤2-1和公式(1),将r值从0. 001变化到0. 5,每一步长为0. 001,并带入公式 (1)计算似然函数值,从而获得似然函数的变化曲线;似然函数曲线的最高点对应的值即为所求的重组率r的估计值;2-3.重复步骤2-1和2-2,对任意两个分子标记间的重组率r进行估测,得出所有分子标记间重组率r,将重组率r整理成分子标记的距离矩阵;步骤(3).构建连锁群3-1.对步骤(2)的距离矩阵进行聚类,首先将各个分子标记都看为单个连锁群,分子标记的距离矩阵即为连锁群的距离系数矩阵;找出距离系数最小的一对连锁群,将该对连锁群合并为一个新的连锁群并取代该对连锁群;3-2.计算新连锁群和其他连锁群之间的距离系数,得到连锁群之间的新的距离系数矩阵,重复步骤3-1,直到所有连锁群间的距离系数都达到设定的限值;步骤连锁群内分子标记顺序排列4-1.若连锁群内分子标记数目大于2,则对该连锁群内所有分子标记的顺序进行重新排列,如步骤4-2 ;若连锁群内分子标记数目为1或者2,则分子标记的顺序不进行重新排列;4-2.选取需要排序的一个连锁群,选取连锁群内任意三个分子标记的组合,对每个组合进行排序;假设需要确定分子标记A、分子标记B、分子标记C的排列顺序,比较分子标记A和分子标记B重组率r、分子标记A和分子标记C重组率r、分子标记B和分子标记C的重组率r 大小,若分子标记A和分子标记B的重组率r大于分子标记A和分子标记C的重组率r,且大于分子标记B和分子标记C的重组率r,则分子标记A、分子标记B、分子标记C的顺序为 ACB ;排序完毕后,得到一个包含这个连锁群内所有三个标记顺序组合的顺序矩阵,该顺序矩阵中以开始的三个分子标记顺序为基准,组成新的连锁群,将其余分子标记插入这个连锁群的起始位置、末端位置或者连锁群内某两个分子标记的中间;4-3.重复步骤4-2,直到对所有需要排序的连锁群内所有分子标记的顺序都排列完毕,并将结果输出到Result, txt文件。
全文摘要
本发明公布了一种基于四交群体的遗传连锁图谱构建方法。传统方法遗传基础狭窄,且遗传作图和育种实践不能紧密结合。本发明方法使用四亲本轮回交配群体作为遗传连锁图谱构建的群体,首先对分子标记信息的采集,准备分子标记的电泳实验中点样样品,并对分子标记的电泳实验中m个分子标记的胶带进行观察;然后对分子标记间距离估测,利用最大似然法估测两个分子标记间的重组率r,将重组率r整理成分子标记的距离矩阵;再构建连锁群,最后对连锁群内分子标记顺序排列。本发明利用的四交群体其染色体上具有2~4个等位位点,能较好的遗传差异,增加多态性,从而提高遗传图谱的覆盖率,降低以往所采用方法中所造成的遗传统计上Ⅱ类误差的概率。
文档编号C12Q1/68GK102492776SQ20111042262
公开日2012年6月13日 申请日期2011年12月16日 优先权日2011年12月16日
发明者余世洲, 周佳萍, 徐海明, 肖炳光, 马亚楠 申请人:浙江大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1