一种连续性状和阈性状基因组育种值联合估计的贝叶斯方法

文档序号:10655814阅读:545来源:国知局
一种连续性状和阈性状基因组育种值联合估计的贝叶斯方法
【专利摘要】本发明公开了一种连续性状和阈性状基因组育种值联合估计的贝叶斯方法。该方法为基于线-阈模型的新贝叶斯方法,称为LT?BayesCπ,用于连续性状和阈性状联合分析。使用模拟数据和第十四届QTL?MAS国际研讨会公共数据验证LT?BayesCπ,其基因组预测的准确性与基于单性状模型的BayesCπ、BayesTCπ进行比较,同时研究了其性能表现的影响因素。本发明结果表明,在所有情形下,LT-BayesCπ对阈性状的基因组预测准确性比BayesTCπ显著增加,然而对连续性状的准确性与BayesCπ相当。
【专利说明】
-种连续性状和闕性状基因组育种值联合估计的贝叶斯方法
技术领域
[0001] 本发明设及一种连续性状和阔性状基因组育种值联合估计的贝叶斯方法。
【背景技术】
[0002] 随着单核巧酸多态(SNP)忍片和基因型测序技术的发展,许多全基因组多态被用 于动植物育种实践。基因组选择可不需个体本身表型信息,而使用全基因组标记信息,预测 种畜遗传价值。在经典的基因组预测过程中,首先使用同时有基因型和表型信息的个体组 成参群估计SNP效应,然后使用运些估计的效应构建预测方程,基于候选个体的基因型去计 算他们的基因组育种值(GEBVs)。因此,在基因组选择中,一个合适的模型是准确预测基因 组育种值的关键。
[0003] 许多贝叶斯模型被提出去估计基因组育种值。在第一篇基因组选择论文中,两个 贝叶斯方法(BayesA和BayesB)被提出去估计基因组育种值,被广泛用于后续的基因组选择 研究。然而,BayesA和BayesB有两个缺点。一个缺点是,无论基因型或表型的数量,位点特异 方差的完全条件后验分布的自由度相对于其先验分布只增加了 1,如Gianola等人所指出, SNP效应的压缩率严重依赖于尺度参数巧。另一个缺点是,对于BayesB,某个位点SNP效应值 为零的概率值31为已知。为了解决运两个缺点,Habier等人提出了两个新方法Bayes时和 BayesDii。对于BayesDr,一个共同方差赋于非零效应SNP替代位点特异方差,而对于BayesD n,位点特异方差的先验逆卡方分布的尺度参数巧作为未知参数,其先验分布为Gammad, 1) DBayesOr和BayesDiT都把JT作为一个未知参数,从数据推断获得。
[0004] Wang等人拓展常规的S种估计连续性状基因组育种值的贝叶斯方法(BayesA、 BayesB和BayesDi)为阔模型方法,相应地称为BayesTA、BayesTB和BayesTO,用于阔性状基 因组育种值估计。模拟研究结果表明,对于阔性状,运S种新的BayesT方法表现均优于相应 的常规贝叶斯方法。BayesT枕在S种新方法中表现最好,被推荐为阔性状基因组选择的方 法。
[0005] 目前,单性状模型通常被用于基因组预测实践。理论上,对于遗传相关的多性状, 联合基因组评估比单性状基因组预测准确性更高。然而,连续性状和阔性状的联合分析尚 缺少。本发明提出一个基于线一阔模型的新贝叶斯方法,称为LT-BayesDr,用于连续性状和 阔性状联合分析。使用模拟数据和第十四届QTL-MAS国际研讨会公共数据验证LT-BayesDi, 其基因组预测的准确性与基于单性状模型的BayesDi、BayesT时进行比较,同时研究了其性 能表现的影响因素。

【发明内容】

[0006] 本发明要解决的技术问题是提供一种连续性状和阔性状基因组育种值联合估计 的贝叶斯方法。
[0007] 为了解决上述技术问题,本发明采用的技术方案是,连续性状和阔性状基因组育 种值联合估计的贝叶斯方法,包括W下步骤:
[000引 (I)模型
[0009]令y' i={yi,i}(i = l,2,'。,n)为连续性状观察值向量,y'2 = {y2,i}(i = l,2,…,n) 为阔性状观察值向量,1/二UiKi = 1,2,…,n)为与阔性状相关联的潜在变量向量;线-阔 模型为
[0010]其中&口)为固定效应向量;gi口)为SNP效应向量;eiw为随机残差向量;乂1口)为&(2) 的关联矩阵;Z是基因型指示矩阵(赋值0、1和2分别对应于基因型的11、12和22);
[00川令/ =[/1,]/ ],给定0和g时,V服从如下分布:
[0012]
[0013] 其中护=[e'i,e'2],g'=[g'i,g'2],
5
[0014] 然后给定e,g和Re,则抽样模型为:
[0015]
[0016]
[0017]阔性状的潜在变量是观测不到的,其残差方差不可估;因此,在本研究中阔性状的 残差方差固定为蠕至;
[001引 (2)LT-Bayes时的MCMC执行过程
[0019] a)先验分布
[0020] 在本研究中,下面的先验分布是为了构建一个分级模型;
[00別]对于"固定'效应0:
[0022] 0 I Rnin ,Rnax~U (Rnin ,Rnax);
[0023] 对 SNP 效应 g:
[0024] 每个SNP对于两个性状都为零效应和至少对于某一个性状为非零效应的概率分别 为JT和I-JT ;对于后者,SNP效应先验分布为二元正态分布,即:
[0025]
[0026]
[0027] Go和Re的先验分布都是逆威夏特分布:
[0032] 其中T=Ktl, . . .,tk-l) I ;[0033] 对于SNP效应为零的概率值31:
[002引
[0029]
[0030]
[0031]
[0034] P(JT)~U (0,1);
[0035] b)联合后验分布
[0036] 参数向量增加潜在变量1和指示变量5,表示为(Q,1,5),其中Q=(0,g,Go,Re,t, n);
[0037] 参数向量的联合后验分布为:
[003引 p( Q,1,8 |yi,y2)Kp(yi,y2| Q,l,S)p( Q,1,8)
[0039] =p(yi,l I Q )p(y21 Q ,l)p( Q ,5);
[0040] c)完全条件后验分布 [0041 ] 潜在变量
[0045] dr個定"效应和SNP效应
[0042] 潜在变量Ii的完全条件后验分布是Wtw到为截断点的截断正态分布,其期望和 方差如下:
[0043]
[0044]
[0046] 建立混合模型方程组(mixed model equations,MME ,则目i的 完全条件后验分布为:
[0047]
[004引
[0049] e)方差-协方差矩阵
[0050] SNP效应和残差效应的方差-协方差矩阵完全条件后验分布为:
[0化1 ]
[0化2]
[0053] 其他参数的完全条件后验分布和吉布斯抽样过程与单性状方法BayesT时的相似。
[0054] 本发明的有益效果是:
[0055] 本发明提出一个基于线一阔模型的新贝叶斯方法,称为LT-BayesDi,用于连续性 状和阔性状联合分析。结果表明,在所有情形下,LT-BayesDi对阔性状的基因组预测准确性 比BayesTOr显著增加,然而对连续性状的准确性与BayesOr相当。
【附图说明】
[0056] 下面结合附图和【具体实施方式】对本发明作进一步详细的说明。
[0057] 图1是本发明实施例的标准情形下,随即选取一个重复的WL模拟效应及SNP估计 效应绝对值。面板Q_traitA和Q_trait B显示QTL模拟效应绝对值。面板Cpi_trait A, LTCpi_trait A,TCpi_trait B,LTCpi_trait B分别显不BayesO,LT-BayesO,BayesTO方 法对性状A或性状B估计的SNP效应绝对值。
[0化引图2是本发明实施例中当QTL数量20-500时,S世代各方法基因组育种值准确性。
[0059]图3是本发明实施例中当性状A遗传力0.3-0.別寸,S世代各方法基因组育种值准 确性。
[0060] 图4是本发明实施例中当阔性状发生率0.05-0.5时,=世代各方法基因组育种值 准确性。
【具体实施方式】
[0061] 本实施例提出一个基于线一阔模型的新贝叶斯方法,称为LT-BayesDi,用于连续 性状和阔性状联合分析。
[0062] 1.方法
[0063] 1.1 模型
[0064] 令y' i={yi,i}(i = l,2,'。,n)为连续性状观察值向量,y'2 = {y2,i}(i = l,2,…,n) 为阔性状观察值向量,1/二UiKi = 1,2,…,n)为与阔性状相关联的潜在变量向量。线-阔 模型[15]为
[0065] 其中01(2)为固定效应向量;gl(2)为SNP效应向量;ei(2)为随机残差向量;Xl(2)为01(2) 的关联矩阵;Z是基因型指示矩阵(赋值0、1和2分别对应于基因型的11、12和22)。令= [y' 1,1'],给定0和g时,V服从如下分布:
[0066]
[0067]其中 0'=[0'i,0'2],g'=[g'i,g'2],

[006引然后给定e,g和Re,则抽样模型为:
[0069]
[0070]
[0071] 阔性状的潜在变量是观测不到的,其残差方差不可估。因此,在本研究中阔性状的 残差方差固定为磅
[0072] 1.2 LT-Bayes时的MCMC执行过程
[0073] a)先验分布
[0074] 在本研究中,下面的先验分布是为了构建一个分级模型。
[00巧]对于"固定'效应0:
[0076] 0 I Rnin ,Rnax~U (Rnin ,Rnax)。
[0077] 对 SNP 效应 g:
[0078] 每个SNP对于两个性状都为零效应和至少对于某一个性状为非零效应的概率分别 为JT和1-31。对于后者,SNP效应先验分布为二元正态分布,即:
[0081 ] Go和Re的先验分布都是逆威夏特分布:
[0079]
[0080]
[0082]
[0083]
[0084]
[0085]
[0086] 其中T = { (tl,. . .,tk-l) I 。
[0087] 对于SNP效应为零的概率值31:
[0088] P(JT)~U (0,1)。
[0089] b)联合后验分布
[0090] 参数向量增加潜在变量1和指示变量S,表示为(Q,l,s),其中Q=化,g,Go, Re, t, 31)。
[0091] 参数向量的联合后验分布为:
[0092] p(Q ,l,5|yi,y2)〇cp(yi,y2| Q ,l,5)p(Q ,1,5)
[0093] 可(yi,l I Q )p(y21 Q,l)p( Q,8)。
[0094] c)完全条件后验分布 [00巧]潜在变量
[0096] 潜在变量Ii的完全条件后验分布是Wtw到为截断点的截断正态分布,其期望和 方差如下:
[0099] dr'固定"效应和SNP效应
[0097]
[009引
[0100] 建立混合模型方程组(mixed model equations,MME)
则目i的 完全条件后验分布为:
[0101]
[0102]
[0103] e)方差-协方差矩阵
[0104] SNP效应和残差效应的方差-协方差矩阵完全条件后验分布为:
[0105]
[0106]
[0107]其他参数的完全条件后验分布和吉布斯抽样过程与单性状方法BayesT时的相似。 [010引1.3模拟试验
[0109] 模拟数据
[0110] 为评估新提出的方法LT-Bay esDi,我们使用多性状基因组模拟软件GPOPSIM产生 的模拟数据开展一系列模拟试验。
[0111] 数据模拟开始于100个个体构成的基础群,接着是保持群体大小不变,经历没有世 代重叠的1000个历史世代,标记为-999至O世代。在每个历史世代,50头公畜与50头母畜随 即交配,每个交配产生2个后代(1公、1母)。所有位点标记在基础群中起始都是单一同态的, 多态性位点标记在后续的世代中Wl. 25 Xicr3的突变率增生,但会因遗传漂变降低多态, 经过一些历史世代达到平衡状态。1000个历史世代后,另外再模拟六个世代,编号为1-6代。 在1世代,群体大小由100扩大到1000,由0世代的50头公畜与50头母畜随机交配产生。1-5世 代,每世代从500头公畜中随机选出50头公畜作为下一世代的父亲,500头母畜全作为下一 世代的母亲。2-6世代,为了保持每一代群体大小数为1000,50头公畜随机与500头母畜交 配,每头母畜产生2个后代(1公、1母)。1-2世代为本次试验的参考群,3-6世代为验证群。
[0112] 模拟的基因组由5条染色体组成,总长5M(1M/染色体)。每条染色体上,均匀分布 2000个标记,每两个标记之间包含一个潜在的QTL。最终真实的WL从潜在的WL中随机抽 取。化Idane图距函数被用于计算相邻位点的重组率。
[0113] 模拟两个遗传相关的性状(表示为性状A和性状B),性状A是一个服从正态分布的 连续性状,性状B是一个二分类性状,其潜在变量服从正态分布。所有抽样的WL被分为S 组,第一组、第二组和第S组。第一组WL为多效性同时影响两个性状,而第二组和第S组 Q化仅仅分别影响性状A、性状B。第一组中WL的等位基因替代效应抽自一个根据两性状间 遗传相关(MB)而变化的二元正态分布,第二组和第S组中WL的等位基因替代效应抽自一 元正态分布。除了 = 0时,第一组、第二组和第=组的OTL数比值设定为0.0:0.5:0.5,两性 状间相关(MB)为其他时,第一组、第二组和第=组的OTL数比值都设定为0.8:0.1:0.1。等位 基因的替代效应重新尺度化使性状A和性状B的加性遗传方差分别等于2.0和1.0。环境相关 设定为0.0,两个性状的环境效应独立地从一元正态分布抽取。
[0114] 真实育种值(TBV)由所有OTL效应的和构成,加上环境效应,产生性状A的表型值和 性状B的潜在变量值。1-6世代所有个体都模拟了基因型和真实育种值,但只有1-2世代的 2000个体(参考群)赋予了表型值或潜在变量值。对于性状B,根据假设的发生率设定一个阔 值,潜在变量值低于阔值的表型值为0,否则表型值为1。
[0115] 我们首先模拟了 一个标准情形,参数设定为:两性状遗传力續-和燦々化 数目60;性状A和B遗传相关MB = 0.5;性状B发生率0.30 (即,30 %的个体表型值为1)。为研究 新方法基因组预测的影响因素,相对于标准情形改变有关参数,设置可选情形:遗传相关 (0.0,0.2和0.80);9化数目(20,200和500);连续性状A遗传力:(>錢5和0.8);二分类性 状B遗传力:3和0.5);性状B的发生率(0.05,0.1和0.5)。对于每种情形,均模拟20个 重复。
[0116] 第十四届QTL-MAS国际研讨会公共数据
[0117] 第十四届Q^-MAS国际研讨会公共数据(Szydlowski M,F*aczyAska PiQl'LMAS 2010:simulated dataset.BMC Proc 2011,5Suppl 3(Suppl 3) :S3.)由连续的五个世代 (F0-F4)的3226个个体组成。所有个体都模拟了基因型记录,然而只有F0-F3世代的2326个 个体有两个性状的表型记录:一个数量性状Q和一个二分类性状B。有表型记录的个体(F0- F3世代)和没有表型记录的个体(F4世代)分别作为参考群和验证群。基因组由5条染色体构 成,每条染色体长lOOMbp,共模拟10031个两等位基因的SNP标记,没有任何缺失数据和判型 错误。数量性状Q受37个WL控制(其中,30个加性QTL,4个上位OTL和3个印记QTL)。30个加性 Q化中,22个加性WL影响二分类性状B,且不受其他WL的控制。侠义遗传力化2),对于数量 性状Q在公畜和母畜分别为0.52和0.39,而对于二分类性状B遗传力为0.48。两个性状间的 遗传相关在公畜和母畜分别0.59和0.68。
[011引 SNP效应估计
[0119] S种贝叶斯方法都被用于参考群体进行SNP效应估计。新提出的LT-BayesDi方法 用于连续性状和阔性状的联合分析,而BayesDi和BayesT时分别用于连续性状和阔性状的 分析。对于每种模型,马尔科夫链都由50000个循环的吉布斯抽样产生,最初的30000个循环 作为burn-in期被去掉。SNP效应的估计值由burn-in期之后所有SNP效应抽样值取平均获 得。
[0120] 基因组预测准确性
[0121] 验证群中个体的基因组育种值是根据它们的标记基因型把所有标记效应求和获 得。对于每个性状,真实育种值和基因组育种值的相关系数(rTBV,GEBV)用于衡量准确性,真实 育种值对基因组育种值的回归系数(bTBV,GEBV)用于评估基因组预测的无偏性。然而,对于二 分类性状,因为限定Ve=I,所W基因组育种值的尺度与真实育种值的不一样。如此,bTBV,GEBV 必须使月
正回原始尺度,其中Ven是模拟的真实残差方差。此外,实施T检验 比较LT-BayesO与单性状方法BayesO或BayesTO之间的准确性差异。
[0122] 2 结果
[0123] 2.1模拟数据
[0124] 2.1.1标准情形下SNP效应的估计值
[0125] 图1展示了在标准情形下随机选择一个重复的WL模拟效应(图lQ_trait A和图 lQ_trait B) ,BayesO对性状A估计的SNP效应(图 lCpi_trait A) ,LT-BayesO对性状A估计 的SNP效应(图lLTCpi_trait A),BayesTC3i对性状B估计的SNP效应(图lTCpi_hait B)和 LT-BayesDi对B性状估计的SNP效应(图ILTCpi_trai t B)。连续性状A和阔性状B的WL模拟 效应范围分别为0-0.75和0-0.77 ,BayesDr和LT-BayesDr对连续性状A估计的SNP效应范围 分别为0-0.55和0-0.70 ,BayesTO和LT-Bayes时对阔性状B估计的SNP效应范围分别为0- 0.14和0-0.21。所有方法都定位到了包含大效应OTL的片段。
[0126] 2.1.2标准情形下基因组育种值的准确性
[0127] 表1列出了在标准情形下3-6世代(验证群)基因组育种值的准确性,即G邸Vs和模 拟真实育种值的相关系数。对于所有的方法,其准确性如预期地随着世代下降,除了LT- BayesDi对性状B的准确性第5世代略低于第6世代,可能是由于抽样误差。对于阔性状B,在 所有世代中LT-BayesDr均比BayesT时准确性高,都约提高了 11 % (表1)。然而对于连续性状 A,LT-BayesDr和BayesDr比较,在所有世代中并没有提高。总之,对于性状B,LT-Bayes时的 准确性显著高于BayesT〇i(P<〇. OOl),对于性状A,其准确性与Bayes时相当(P〉0.1)。
[0128] 表1标准情况下3-6世代,=种方法获得的基因组育种值的准确性 [01291
[0130]
[0131] 注:20个重复的平均数±5.6.
[0132] 2.1.3遗传相关对基因组预测的影响
[0133] 表2展示了在四种不同遗传相关(0.00,0.20,0.50和0.80)情形下,S世代基因组 预测的准确性。
[0134] 对于连续性状A,无论两个性状的遗传相关性强弱,LT-BayesO和Bayes时估计基 因组育种值的准确性基本相同。表明对于连续性状,LT-Bayes时和Bayes时表现相当。同时, 也显示随着两性状间遗传相关性的增加,LT-Bayes时和Bayes时准确性差异有减小趋势。
[0135] 对于阔性状B,在两个性状没有遗传相关的情况下,LT-BayesDr比Bayes时的基因 组预测准确性低5%。然而,随着遗传相关性的增力日,LT-BayesDi基因组预测的准确性急剧 增加,运与BayesTO的表现不同,也与LT-BayesC3i、BayesC3T对连续性状A的表现不同。随着 两性状间遗传相关性的增加,LT-Bayes时相对于BayesTDr的准确性改进也逐渐增加,特别 当遗传相关系数达0.50和0.80时,前者比后者准确性分别显著提高0.116和0.201。值< 0.001)。
[0136] 表2四种不同遗传相关情形下=世代基因组育种值的准确性
[0137]
[013 引
[0139] 注:林冲值<0.001,*冲值<0.01,冲值<0.05
[0140] 除估计基因组育种值之外,我们提出的LT-BayesDi可更好的预测两性状间的遗传 相关、残差相关和真实QTL比例(31值)。如表3所示,在所有不同遗传相关情形下,LT-BayesOr 获得n的估计值都是非常接近设定值0.006的。同时,在大部分情况下,遗传相关和残差相关 的估计值也近似等于设定值,除了在遗传相关系数设定为0.80时,遗传相关和残差相关的 估计值分别比设定值低0.13和高0.02。
[0141] 表3四种不同遗传相关情形下LT-BayesDi估计的遗传相关(《),残差相关,真 实QTL比例錢)
[0142]
[0143]
[0144] 注:设定的残差相关和JT分别是0和0.006
[0145] 模拟的真实育种值对估计的基因组育种值的回归系数用于评价基因组预测的无 偏性。如表4所示,对于连续性状A,Bayes时的回归系数接近于1,LT-BayesCiI基因组预测无 偏性稍差点。对于阔性状B,LT-Bayes时和BayesTOi产生了很大的偏差,尽管LT-Bayes时比 BayesTOi表现得好很多,但在所有情况下他们得到的回归系数都比1.0大。
[0146] 表4四种不同遗传相关情形下=世代模拟的真实育种值对估计的基因组育种值的 回归系数
[0147]
[014引 2.1.4 QTL数目对基因组预测的影响
[0149] 如图2所示,BayesDi、BayesT时和LT-BayesDr都对影响性状的WL数目敏感,它们 的基因组预测准确性随着Q化数目增加而迅速降低。当的'L数目从20增加到500时,BayesDi、 BayesT时和LT-Bayes时(性状A)、LT-Bayes时(性状B)的GEBVs准确性分别减少0.141, 0.131,0.156和0.169。在相同情形下,我们新提出LT-BayesDr方法,对于连续性状A,与单性 状Bayes时方法表现相当,而对于阔性状B,比单性状BayesT时方法表现好。
[0150] 在WL数目为20、60、200和500时,LT-BayesDr和Bayes时对连续性状A的准确性差 异分别是0.002,0.010,0.012和0.017。然而,不同的是对于阔性状B,在所有的情形下,LT- Bayes时的基因组预测准确性比BayesT时,分别高出0.113,0.116,0.095,0.075,表明LT- BayesO显著优于 BayesTO(P<〇. OOl)
[0151] 2.1.5连续性状A的遗传力对基因组预测的影响
[0152] 图3显示了不同的性状A遗传力情况下=种方法在=世代基因组育种值准确性(遗 传相关为0.5)。正如预期,随着性状A遗传力从0.3增加到0.8 ,Bayes时和LT-BayesDr(性状 A)的基因组育种值准确性也持续增加。在所有情形下,BayesT时(性状B)的基因组育种值准 确性都没有变化。然而,当性状A遗传力从0.3增加到0.別寸,LT-BayesDr(性状B)的基因组育 种值准确性从0.581增加到0.632。运表明连续性状A遗传力的增加有利于提高LT-BayesDr 对阔性状B的基因组预测准确性。
[0153] 2.1.6阔性状B的发生率对基因组预测的影响
[0154] 图4显示了阔性状B不同发生率情况下各方法估计基因组育种值的准确性。当发生 率从5 %上升到50 %时,LT-Bayes时和BayesTOi方法对阔性状B估计基因组育种值的准确性 持续增加。然而,连续性状A的基因组预测准确性不受阔性状B发生率的影响。在阔性状B不 同发生率情况下,LT-Bayes时和Bayes时对连续性状A估计基因组育种值准确性没有变化。
[0155] 2.2第十四届QTL-MAS国际研讨会公共数据
[0156] 为评估我们新提出的LT-BayesDi方法的效果,我们也分析了第十四届QTL-MAS国 际研讨会公共数据,该数据包含相关的连续性状Q和二分类性状B。对于每种贝叶斯方法,使 用不同的随机数重复分析了 10次。表5展示了验证群中基因组育种值的准确性和无偏性。对 于连续性状Q,LT-BayesDi方法比Bayes时的基因组预测准确性有微小提高,虽然在我们的 模拟试验中LT-Bayes时和BayesDr的准确性相当。同样地,和BayesTO相比,LT-Bayes时方 法对二分类性状B的估计基因组育种值准确性(P<0.001)和无偏性都有明显改进,运和我们 的模拟试验结果相似。
[0157] 表5第十四届QTL-MAS国际研讨会公共数据验证群中=种方法的准确性和无偏性 [015 引
[0159] 注:不同随机数进行10次计算结果的平均数及标准误
[0160] 3 讨论
[0161] 在传统的遗传评估中,多性状模型是为了利用遗传相关性状的信息来增加估计育 种值准确性,已被广泛用于育种值估计实践。自从基因组选择概念于2001年被提出,许多模 型,如GBLUP,BayesA,BayesB,BayesO,被开发用于基因组预测,并且大部分研究关注于单 个连续性状基因组预测。最近,有若干研究将BayesA、BayesB、Bayes时拓展用于单个阔性 状。最近,一些研究将性状间的相关结构纳入考虑,多个连续性状进行联合基因组预测,结 果表明可获得更准确的基因组预测。然而,连续性状与阔性状/二分类性状进行联合基因组 预测的研究仍缺少。本实施例开发了新方法LT-BayesDi去处理遗传相关的连续性状和阔性 状的联合基因组预测。模拟数据和第十四届QTL-MAS国际研讨会公共数据的研究结果表明, 在所有情形下,当使用LT-Bayes时对连续性和阔性状进行联合分析,对于阔性状,LT- BayesDr的准确性和无偏性都显著优于单性状方法BayesTOr,而对于连续性状,其准确性和 无偏性与单性状方法BayesOr相似。
[0162] 性状间遗传相关是多性状联合分析获得好效果的基本条件。两性状间遗传相关是 由于多效QTL同时影响两个性状和/或影响不同性状QTL的连锁不平衡。在我们的模拟研究 中,性状间的遗传相关主要由于共同QTL的多效性。模拟研究结果表明,性状间遗传相关越 大,联合分析获益更多(表2)。然而,当遗传相关为零时,对于两个性状都是联合基因组预测 的准确性低于分开的单个性状分析。Jia和化nnink也报道了该现象,对于没有遗传相关的 两个连续性状,两性状模型比单性模型的表现差。原因可能是,在此情形下,多性状模型会 导致相关性的非零估值,从而错误信息会在性状间共享。
[0163] 在该模拟研究中,绝大多数情形下,连续性状没有从联合分析受益。一个原因是二 分类性状的遗传力低(0.1),不能提供足够的信息帮助连续性状提高准确性。其他的连续性 状研究也获得类似结果。Jia和化nnink模拟了两个遗传力分别为0.1和0.5的连续性状,对 于遗传力为0.5的性状,其准确性没有提高,而对于遗传力为0.1的性状,其准确性显著提 高。本实施例中,对于第十四届Qll^-MAS国际研讨会公共数据,两个性状的遗传力分别为 蜡和1;|二IlS,都在0.5附近,使用LT-Bayes时进行联合分析,其连续性状和二分类性 状的准确性都比单性状分析提高了,表明新提出的方法对于具有高遗传力的连续性状和二 分类性状都有提高预测准确性的潜力。
[0164] 控制性状的Q化数目影响贝叶斯方法基因组预测的准确性成为共识,我们的研究 结果也再次证实此点。所有方法的准确性都随着OTL数目的上升而下降。当WL数目上升,平 均的每个WL效应值变小,假如遗传方差固定,那么在该参考群体中估计SNP效应的准确性 会降低。
[0165] 当连续性状的遗传力上升,LT-Bayes时的准确性不但对于连续性状增加,而且对 于阔性状也增加。当二分类性状的遗传力上升,LT-BayesDi的准确性不但对于二分类性状 增加,而且对于连续性状也增加(图3)。研究结果表明,低遗传力性状可从相关的高遗传力 性状获得信息,从而得到更高的预测准确性,Jia和化nnink和Guo等也观察到类似情况。该 研究结果也与传统的遗传评估研究结论相一致,使用多性状模型的益处对于低遗传力性状 更重要。
[0166] 随着二分类性状的发生率向0.5增加,其基因组育种值的准确性也增加。原因在于 小发生率的性状需要更大的参考群体去估计方差组分和获得足够的基因组育种值准确性。 另一方面,连续性状基因组预测的准确性不受二分类性状发生率变化的影响(图4)。运可能 由于LT-Bayes时中的方差-协方差矩阵没有改变,从而对连续性状的影响是可忽略的。
[0167] 4结论
[016引本实施例的研究表明基于线-阔模型的LT-BayesDr适用于连续性状和阔性状基因 组育种值的联合预测。特别地,相对于单性状分析,使用LT-BayesDi进行联合分析可显著提 高二分类性状的准确性。两个性状间的遗传相关越大,获益会越多。连续性状或/和二分类 性状的遗传力增大对两个性状准确性的提高都有利,尤其对于二分类性状。二分类性状发 生率仅对二分类性状的预测准确性有影响。LT-BayesDi是连续性状和阔性状联合分析的一 个可选方法。
[0169] W上所述的本发明实施方式,并不构成对本发明保护范围的限定。任何在本发明 的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明的权利要求保护范 围之内。
【主权项】
1.连续性状和阈性状基因组育种值联合估计的贝叶斯方法,包括以下步骤: ⑴模型 令 y' i={yi,i}(i = l,2,···,]!)为连续性状观察值向量,y' 2 = {y2, i} (i = 1,2,…,η)为阈 性状观察值向量,I/ = {li}(i = l,2,···,η)为与阈性状相关联的潜在变量向量;线-阈模型 为其中⑵为固定效应向量;gl⑵为SNP效应向量;ei⑵为随机残差向量;X1⑵为β 1(2)的关 联矩阵;Z是基因型指示矩阵,其中赋值0、1和2分别对应于基因型的11、12和22;阈性状的潜在变量是观测不到的,其残差方差不可估;因此,阈性状的残差方差固定为(2)LT-BayesDr 的 MCMC 执行过程 a)先验分布 下面的先验分布是为了构建一个分级模型; 对于"固定"效应β: β I finin,U ( β??π,finax ); 对SNP效应g: 每个SNP对于两个性状都为零效应和至少对于某一个性状为非零效应的概率分别为π 和1-31:对于后者,SNP效应先验分布为二元ιΗ杰分布,即:其中 T= {(tl,· · ·,tk-1) I …<tk-lStmax}; 对于SNP效应为零的概率值JT : P(JT)~U (0,1); b)联合后验分布 参数向量增加潜在变量1和指示变量δ,表示为(Ω,1,δ),其中Ω 参数向量的联合后验分布为: ρ(Ω ,l,5|yi,y2)〇cp(yi,y2| Ω ,1,δ)ρ(Ω ,1,δ) = p(yi,l I Ω )p(y21 Ω ,1)ρ( Ω ,δ); C )完全条件后验分布 潜在变量 潜在变量h的完全条件后验分布是以到k为截断点的截断正态分布,其期望和方差 如下.d) "固定"效应和SNP效应 建立混合模型方程组_ = r,其cI1?θ?的完全条件后验分布为:e) 方差-协方差矩阵 SNP效应和残差效应的方差-协方差矩阵完全条件后验分布为:其他参数的完全条件后验分布和吉布斯抽样过程与单性状方法BayesTCJi的相似。
【文档编号】G06F19/24GK106022005SQ201610357061
【公开日】2016年10月12日
【申请日】2016年5月21日
【发明人】王重龙, 丁向东, 李秀金, 钱蓉, 张勤
【申请人】安徽省农业科学院畜牧兽医研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1