基于RIL群体的扩展三向测交设计QTL作图法的制作方法

文档序号:11251229阅读:769来源:国知局

本发明属于植物数量遗传学领域,具体涉及基础群体为重组自交系(ril)群体的扩展三向测交设计(attc,augmentedtriple-testcrossdesign)qtl作图法。



背景技术:

利用杂种优势可显著提升农作物产量,nciii设计(northcarolinadesigniii)和ttc设计(triple-testcrossdesign)是研究杂种优势的两种优良遗传设计,广泛应用于农作物杂种优势qtl分析。nciii设计包含基础作图群体(如重组自交系ril、加倍单倍体dh、回交群体bc或f2群体等)及其与两亲本分别回交的回交群体(分别记为l1i、l2i)。ttc设计则在nciii设计的基础上,增加了基础作图群体与f1测交的测交群体(记为l3i)。nciii或ttc设计的产生,使得所研究群体不再只限于两个纯系杂交的f2代及其随机交配的衍生后代,而能适用于任意基因频率和基因型频率的群体,如ril、dh和bc群体等,以及以这些群体为“基本群体”衍生的群体。nciii或ttc设计一方面能够检测上位性效应的存在,另一方面是能更为有效地检测显性变异分量均值或显性效应。

2011,何小红等(hexiaohongetal.,2011,plosone,6(9):e24575)发展了ttc设计qtl作图法,主要包含两步:第一步是将所有的增广主效和互作效应纳入统一的遗传模型中,根据l1i、l2i和l3i的转换公式,通过实验贝叶斯方法(empiricalbayesapproach),获得qtl的增广主效、增广互作效应和三种纯合互作效应的估计值;第二步是根据第一步获得的部分纯互作效应、增广主效和增广互作效应,根据由l1i、l2i和l3i推导的若干公式,再计算各qtl位点的纯主效和互作效应。2012年,何小红等(hexiaohongetal.2012,chinscibulljuly,57(21)2655-2665)发展了nciii设计的qtl作图法,类似于ttc设计的qtl作图法,将所有的增广主效和互作效应纳入统一的遗传模型中,根据l1i、l2i的转换公式,通过实验贝叶斯方法(empiricalbayesapproach),获得qtl的增广主效、增广互作效应的估计值,模拟数据结果表明其统计效率优于复合线性区间作图法(cim),且可以估计互作效应。然而,现有基于nciii设计的qtl作图法中,qtl位点中检测的各遗传效应混合,无法明晰杂种优势的遗传机理。ttc设计的qtl作图法虽然可获得各位点纯合遗传效应,但相对nciii设计,需增加基础群体与f1代杂交所获得的测交群体,需增加一定的人力、物力、财力及时间。

attc设计包含l1i、l2i,l3i以及基础作图群体自交一代获得的l4i,以ril群体为基础作图群体的attc设计中,l4i与ril的遗传期望值一致,在进行qtl定位时直接用ril代替l4i,即此时attc与nciii设计中涉及的材料一致,无需增加杂交工作量。现已有大量的nciii遗传交配设计下的qtl定位文章发表,不同的材料或不同的qtl定位法,如区间作图法、复合区间作图法、多区间作图法、贝叶斯回归法等,结果有差异大,虽然这些结果可互为补充,但由于各位点遗传效应混合,无法明确比较各位点的纯遗传效应。为充分挖掘现有nciii设计下数据集的信息,发展一种具有较高检测效率并能从多方面获得各位点的纯遗传效应的qtl作图法对扩充丰富遗传交配设计内容,更好地研究作物杂种优势遗传基础具有很大的意义。



技术实现要素:

本发明所要解决的技术问题是:针对上述nciii设计的qtl作图法的不足,提供了一种基础群体为重组自交系ril群体的扩展三向测交设计(ril-basedattcdesign)的qtl作图法,该方法涉及到的群体与以ril为基本群体的nciii设计中的相同(ril,l1i和l2i),该方法引入贝叶斯方法(empiricalbayesapproach)fast-eblasso(caixiaodongetal.,2011),对全基因组进行二维扫描,分两步获得该遗传模型中各qtl位点的各种纯主效应和上位性效应。

1998年,刘定富等在ttc设计的基础上提出了“扩展三向测交(attc)”设计,并将其应用于一级统计分量和上位性效应分析,从多个方面获得加性显性模型下各种均值分量的估值。从而在不增加杂交工作量情况下,提供各种检验上位性的方法,还能从多个方面获得加性显性模型下各种均值分量(加性、显性、上位性)的估值。但该设计仅用于遗传方差组分或遗传效应均值估计,目前未见利用该设计进行单因子效应分析(qtl分析)的报道。

本发明所采用的技术方案是:提供一种基于ril群体的扩展三向测交设计(attc设计)qtl作图法,解决现有以ril群体为基础作图群体的nciii设计qtl作图法无法解析各位点纯合遗传效应的缺陷。本作图法在nciii设计(northcarolinadesigniii)的基础上,不增加杂交工作量,检验qtl和互作对的纯合遗传效应,且不失统计效率。本发明的作图法包括如下步骤:

步骤a,构建群体的数据集转换模型:以重组自交系ril为基础群体进行attc设计,选择数据集转换公式z1i=l1i+l2i、z2i=l1i-l2i和z4i=l1i+l2i-l4i,根据在f∞尺度下的ril、l1i、l2i和l4i的遗传期望值(表1-4),推测出ril-basedattc设计下的z1i、z2i和z4i的遗传期望值(表5-7);其中,由于ril群体各位点纯合,基础群体ril自交一次的l4i与ril的遗传期望值一致,在进行qtl定位时直接用ril代替l4i;

步骤b,根据上述f∞尺度下的z1i、z2i和z4i的遗传期望值,假设存在两个qtl,将z1i、z2i和z4i的表型值表示为(注:其中z1i、z2i推断公式来源于hexiaohongetal.2011):

其中:μ为ril群体中四种纯合子的平均基因型值;ak和dk为第k个qtl的加性和显性效应,k=1,2;分别是两个qtl间的加×加互作、加×显互作、显×加互作、显×显互作效应;分别为ril中第i个株系的指示变量;e1i,e2i,e4i是剩余误差,分别符合分布;

再根据在f∞尺度下的z1i、z2i和z4i的遗传期望值,将上述式(1)-式(3)分别转化为式(4)-式(6):

其中,式(4)中

式(5)中,

式(6)中,

扩展到q个(q为≥1的整数)qtl时,则将公式(4)、(5)、(6)分别写为:

其中,公式(7)中,是第k个qtl(模型中含q个qtl,即k=1,2…q,l=2,3…q,k≠l)的增广加性效应;是第k和l个qtl(k=1,2…q-1,l=2,3…q,k≠l)之间的增广上位性效应,相关系数由第i个ril株系的第k和l个qtl决定;

公式(8)中,是第k个qtl的增广显性效应,k=1,2…q,l=2,3…q,k≠l;是第k和l个qtl之间的增广上位性效应,相关系数由第i个ril株系的第k和l个qtl决定;k=1,2…q-1,l=2,3…q,k≠l;公式(9)中,k=1,2…q,l=2,3…q,k≠l;均是第k和l个qtl之间的增广上位性效应,相关系数由第i个ril株系的第k和l个qtlqtl决定,k=1,2…q-1,l=2,3…q,k≠l;

步骤c,根据贝叶斯分析方法两步估计qtl纯主效应和上位效应:对公式(7)、(8)、(9)均套用线性模型(10)进行分析;其中,q是标记数目(预设每个标记为一个qtl位点),每两个标记k与l为一对qtl互作对(k=1,2…q-1;l=2,3…q;k≠l);μ是整体平均值;xki指代个体i的标记k,用-1或1代表作图群体中的两种标记基因型;xkli代表个体i中第k和第l个qtl间的上位基因型;ak和ikl代表对应的增广主效应和上位性效应,如式(10)中的ak对应(7)、(8)、(9)中的ak*、dk*ei为符合n(0,σ2)正态分布的剩余误差;

将式(10)进一步缩写为y=μ+xgβg+xgg'βgg'+e(11),其中,向量βg=[a1...ak]和βgg'=[i12...ikl]代表所有标记的增广主效应和互作效应,xg和xgg'为不同效应的对应相关系数设计矩阵,e为符合n(0,σ2)正态分布的剩余误差;或将公式(11)写为最简约的形式:y=μ+xβ+e(12),定义x=[xg,xgg’]。

由于预设每一个标记为一个主效qtl位点,每两个标记为一对qtl互作对,使得公式(12)中需估计的自变量为p>>n(样本容量),为此,首先,通过fastempiricalbayesianlasso(caixiaodongetal.,2011)法将标记效应值较小的缩减为零,该方法对效应值较大的几乎无影响,为有选择性的“缩减”,“缩减”效率增强,大大减小计算复杂度,节约运算时间,最终筛选并保留效应较大的自变量。然后,采用zhangetal.(2005)提出的改进似然比测验法,分两步筛选扫描标记,获得显著的qtl位点或互作对。以此,经第一轮可获得公式(7)、(8)和(9)中qtl位点的增广效应:ak*dk*第二轮,根据的公式转型,即可分解得到各位点的纯主效应a,d和纯上位性效应

与现有技术相比,本发明的优点或有益效果:相比完全ttc设计法qtl作图法,本扩展三向测交设计(ril-basedattcdesign)qtl作图法能减少一次杂交工作量,即省去基础群体ril与f1代杂交,构建测交群体l3i群的过程。对于田间工作,大大节省了人力物力;且并未降低qtl定位和各遗传效应估计的统计效率。相比现有的nciii设计qtl作图法,ril-basedattcdesignqtl作图法又可以解析各位点的各项纯合主效和互作效应。提高了解析杂种优势遗传基础的精确性。

具体实施方式

本发明为一种基于扩展三向测交设计(attc)的qtl作图法,其步骤具体如下:

步骤a:构建群体的数据集转换模型。

根据刘定富提出的attc设计,以ril、bc或f2群体为基础群体,attc设计中包含的数据集转换公式有:z1i=l1i+l2i、z2i=l1i-l2i、z3i=l1i+l2i-2l3i、z4i=l1i+l2i-l4i、z5i=l1i+l2i+l3i和z6i=2l3i-l4i。当以ril为基本群体的attc设计,只需要利用到z1i、z2i和z4i即可对各位点的纯合遗传效应进行解析。此时,只需要利用到以上公式中的l1i、l2i和l4i。在f∞尺度下,ril、l1i、l2i和l4i中每个个体(ril、l1i、l2i和l4i)的不同基因型遗传期望值详见下表1-表4(hexiaohongetal.,2012)。由于ril群体各位点纯合,基础群体ril自交一次的l4i与ril的遗传期望值一致,因此进行qtl定位时,直接用ril代替l4i,由此可省去基础群体ril自交的人力、物力、财力、时间。下表5-7是在f∞尺度下,根据表1-表4的ril、l1i、l2i和l4i的遗传期望值推测出(依hexiaohongetal.,2012进行推测)的ril-basedattc设计(基于ril的扩展三向测交设计)下的z1i、z2i和z4i中不同基因型的遗传期望值(其中z1i、z2i参考hexiaohongetal.,2012)。

表1f∞尺度下ril的各基因型遗传期望值

表2f∞尺度下l1i的各基因型遗传期望值

表3f∞尺度下l2i的各基因型遗传期望值

表4f∞尺度下l4i的各基因型遗传期望值

表5f∞尺度下ril-basedattc设计下的z1i各基因型遗传期望值

表6f∞尺度下ril-basedattc设计下的z2i各基因型期望遗传值

表7f∞尺度下ril-basedattc设计下的z4i各基因型期望遗传值

步骤b:根据以上f∞尺度下的z1i、z2i和z4i的各基因型遗传期望值(表5-表7,其中z1i、z2i参照hexiaohongetal.,2011),假设存在两个qtl,则将z1i、z2i和z4i的表型值表示为:

其中:μ为ril群体中四种纯合子的平均基因型值;ak和dk为第k个qtl的加性和显性效应(k=1,2);分别是两个qtl间的加×加互作、加×显互作、显×加互作、显×显互作效应;分别为ril中第i个株系的指示变量;e1i,e2i,e4i是剩余误差,分别符合分布。

根据表5,因为公式(1)可简化为公式(4),其中,

根据表6,因为公式(2)可简化为公式(5),其中,

根据表7,因为公式(3)可转化为公式(6),其中,得到的公式(4)-(6)如下:

扩展到q(q为≥1的整数)个qtl位点时,以上公式(4)、(5)(6)可写为:

其中,公式(7)中,是第k个qtl的增广加性效应(模型中含q个qtl,即k=1,2…q,l=2,3…q,k≠l);第k和l个qtl之间的增广上位性效应(k=1,2…q-1,l=2,3…q,k≠l);相关系数由第i个ril株系的第k和lqtl决定。

公式(8)中,是第k个qtl的增广显性效应(k=1,2…q,l=2,3…q,k≠l);第k和l个qtl之间的增广上位性效应(k=1,2…q-1,l=2,3…q,k≠l);相关系数由第i个ril株系的第k和l个qtl决定。

公式(9)中,k=1,2…q,l=2,3…q,k≠l;均是q第k和l个qtl之间的增广上位性效应,相关系数由第i个ril株系的第k和l个qtl决定,k=1,2…q-1,l=2,3…q,k≠l。

步骤c:两步估计qtl纯主效应和上位效应。

对公式(7)、(8)、(9)均可套用线性模型(10)进行分析。

预设每个标记为一个qtl所在位点,每两个标记间的互作为一个qtl互作对,式(10)中,q是所有染色体上的总标记数目;μ是整体平均值;xki指代个体i的第k个标记,用-1或1代表作图群体中的两种标记基因型;xkli代表个体i中第k和第l个qtl间的上位基因型;ak和ikl代表对应的增广主效应和上位性效应;ei为符合n(0,σ2)正态分布的剩余误差。

模型(10)进一步可写为y=μ+xgβg+xgg'βgg'+e(11);

其中,向量βg=[a1...ak]和βgg'=[i12...ikl]代表所有标记的增广主效应和互作效应,xg和xgg'为不同效应的对应相关系数设计矩阵,e为符合n(0,σ2)正态分布的剩余误差。或将公式(11)写为最简约的形式:y=μ+xβ+e(12),定义x=[xg,xgg']。

由于连锁和上位性互作存在于多个qtl中,当同时考虑多个位点时,遗传效应的数量将会非常大,远大于样本个数n(p>>n)。如果考虑环境协变量,p会更大。为控制此超饱和模型,empiricalbayesianlasso(eblasso,经验贝叶斯lasso)算法可极大的减少计算负担,且不增加假阳性率(cai等2011)因此,本发明根据cai等(2011)提出的fast-eblasso法,将标记效应值较小的缩减为零,该方法对效应值较大的几乎无影响,为有选择性的“缩减”,“缩减”效率增强,大大减小计算复杂度,节约运算时间,最终筛选并保留效应较大的自变量。

然后,采用zhangetal.(2005)提出的改进似然比测验法,分两步筛选扫描标记,第一步,挑选的标记,是正态分布的标准差。第二步,将挑选的标记进行极大似然比测验,测验统计公式为:lrj=-2[l(θ-j)-l(θ)],其中,θ为第二步中的特征向量,θ-j为不包含现有检测的遗传效应βj的特征向量,l(θ)和l(θ-j)分别是θ和θ-j的最大似然值函数。lr高于设定阈值(一般为11.5)时,即为显著的qtl位点或互作对。

经第一轮可获得公式(7)、(8)和(9)中qtl位点的增广效应:ak*dk*第二轮,根据的公式转型,即可分解得到各位点的纯主效应a,d和纯上位性效应

下面举例详细说明,对任一两显著qtl位点(分别用1和2标明),表5-7中,各效应a1、a2、d1、d2、所对应的列即为其指示变量(或)(或)在各种基因型中所对应的值。

根据表5,因为公式(1)可简化为公式(4),其中,

根据表6,因为公式(2)可简化为公式(5),其中,

根据表7,因为公式(3)可转化为公式(6),其中,得到的公式(4)-(6)如下:

∵通过qtl定位,根据公式(6)z4i获得的值,根据公式(4)由z1i获得的值,根据公式(5)由z2i获得的值。

计算获得

再根据计算获得

又∵通过qtl定位可由公式(4)和(5)获得a1*、a2*、d1*、d2*的值,且

∴通过d1*和d2*估计值以及前述计算获得的值,推算得到

最终所有的纯主效应a1、a2、d1、d2和上位性效应均能估计到。

参考文献:

hexiaohong,zhangyuanming.acompletesolutionfordissectingpuremainandepistaticeffectsofqtlintripletestcrossdesign.2011.plosone,6(9):e24575.

hexiaohong,huzhongli,zhangyuanming.genome-widemappingofqtlassociatedwithheterosisintheril-basednciiidesign.chinesesciencebulletin,2012,57(21):2655-2665.

caixiaodong,huanganhui,xushizhong.fastempiricalbayesianlassoformultiplequantitativetraitlocusmapping.2011,bmcbioinformatics12:211.

zhangyuanming,xushizhong.apenalizedmaximumlikelihoodmethodforestimatingepistaticeffectsofqtl.2005,heredity,95:96–104.

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1