一种通过基因组数据对遗传力进行评估的算法

文档序号:9751164阅读:1022来源:国知局
一种通过基因组数据对遗传力进行评估的算法
【技术领域】
[0001] 本发明涉及基因工程领域,具体是一种通过基因组数据对遗传力进行评估的算 法。
【背景技术】
[0002] 目前的遗传力评估方法主要利用个体间的亲缘关系,采用各种统计手段,如方差 分析法、相关分析法等进行推断,该方法要进行完整的系谱记录,然而对于有些物种来说, 进行系谱记录工作量非常大甚至很难实现,比如水产动物;另外,传统的遗传力评估方法是 把基因组信息当作"黑箱子"进行处理,这样无法捕获到基因从亲本到子代传递的具体信 息,即无法准备捕获到孟德尔抽样误差,导致估计误差较大;为了解决传统遗传力估计方法 中系谱记录工作量大和无法准确捕获孟德尔抽样误差的问题,需要对现有技术进行改进改 良。

【发明内容】

[0003] 本发明的目的在于提供一种克服传统遗传力估计中的误差较大和系谱记录繁琐 的问题。通过基因组数据对遗传力进行评估的算法,以解决上述【背景技术】中提出的问题。
[0004] 本发明不进行个体的系谱记录,直接对所有个体的基因组进行测序,结合个体的 性能记录和基因组标记信息,估计出基因组育种值的估计准确度,进而估计出性状的遗传 力。
[0005] 为实现上述目的,本发明提供如下技术方案: 一种通过基因组数据对遗传力进行评估的算法,对于某一数量性状,通过使用不同数 量的参考群个体进行全基因组的标记效应的估计,进而得到估计群的育种值,并计算出估 计准确度;上述过程其实就是基因组选择的具体过程,此发明中采用GBLUP作为计算标记效 应的算法,GBLUP算法在2001年由Meuwissen等人发明,其先验分布认为基因组所有标记位 点的效应方差是相等的,标记效应可以通过下述公式计算得出:
其中,居为总体平均值;为所有标记位点的效应向量;基因组估计育种值(GEBV)通过 将所有标记位点的效应相加而获得,即GEBV= Σ Xigi; GEBV估计准确性通过计算GEBV与真实 育种值(TBV)的相关系数,即r(GEBV,TBV);同时,Daetwyler等人在2008年推导出了在GBLUP算 法估计育种值的情况下,riGEBV,TBV)的另一计算公式为:
其中,化为参考群的个体数量;h2为所研究的性状的遗传力;Μ为决定该性状的有效基 因组片段的数目;然而在实际生产中,无法得知TBV的具体数值,因此用表型值(Υ)替代TBV, 推导出GEBV与Y的关系为:
在公式(3)中,通过调整ΝΡ的大小可获得不同的r(CEBV,Y)的值,拟合该曲线方程,拟合的 方式采用曲线直线化,对公式(3)进行整理,得到线性方程:
该方程相当于线性回归模型y = a+bx,其中y为r (cebv, γ)的平方的倒数,X为NP的倒数,方 程的截距a即是遗传力的倒数,通过求该方程的截距的倒数,求出遗传力的估计值。
[0006] 作为本发明进一步的方案:对所有个体基因组进行测序,获得SNP信息,所有个体 的SNP位点对应,缺失数据通过imputation方法补齐。
[0007] 作为本发明再进一步的方案:为防止单次估计误差较大,采用多次杂交验证的方 法,反复从总体中随机抽取参考群体和估计群体,来获得接近真实值的估计结果。
[0008] 作为本发明再进一步的方案:使用不同的参考群数目结合GBLUP算法来计算基因 组各个标记的效应值,以得到估计群的育种值,通过对估计群的育种值和表型值进行相关 分析得到估计准确度 与现有技术相比,本发明的有益效果是:本发明通过基因组的数据对数量性状的遗传 力进行评估,所研究的成果可直接应用于动植物数量性状育种中,本发明的算法可以在不 建立家系的基础上,通过全基因组标记来预测性状的遗传力,解决了系谱记录繁琐甚至很 难实现的问题,并且由于测序可以捕获到孟德尔抽样误差,本发明的算法相对记录系谱数 据能够获得更准确的系谱信息。
【附图说明】
[0009] 图1为本发明的算法流程图。
[0010] 图2为本发明中体重和体长两个性状的GEBV准确度随参考群体大小变化的趋势 图。
[0011]图3为本发明中体重和体长两个性状的GEBV准确度和参考群体大小按照公式4转 换后的趋势图。
[0012] 其中,横坐标的值为参考群个体数的倒数值;纵坐标的值为GEBV准确度的平方的 倒数;R2为回归方程的决定系数。
【具体实施方式】
[0013] 下面结合【具体实施方式】对本专利的技术方案作进一步详细地说明。
[0014] 请参阅附图1-3,一种通过基因组数据对遗传力进行评估的算法,对于某一数量性 状,通过使用不同数量的参考群个体进行全基因组的标记效应的估计,进而得到估计群的 育种值,并计算出估计准确度;通过基因组估计准确度与参考群体大小进行曲线直线化拟 合,拟合出的回归方程的截距的倒数为遗传力的估计值;其特征在于:基因组选择的具体过 程采用GBLUP作为计算标记效应的算法,基因组所有标记位点的效应方差是相等的,标记效 应通过以下公式计算得出:
其中,S为总体平均值;_为所有标记位点的效应向量;基因组估计育种值(GEBV)通 过将所有标记位点的效应相加获得,即GEBV= Σ Xigi; GEBV估计准确性通过计算GEBV与真实 育种值(TBV)的相关系数,即r(GEBv,TBv)得出;在GBLUP算法估计育种值的情况下,r(GEBv,TBv)的 另一计算公式为:
其中,化为参考群的个体数量;h2为所研究的性状的遗传力;Μ为决定该性状的有效基 因组片段的数目;在实际生产中,无法得知TBV的具体数值,因此用表型值(Υ)替代TBV,推导 出GEBV与Υ的关系% ·
在公式(3)中,通过调整NP的大小可获得不同的r(CEBV,Y)的值,拟合该曲线方程,拟合的 方式采用曲线直线化,对公式(3)进行整理,得到线性方程:
该方程相当于线性回归模型y = a+bx,其中y为r (cebv, γ)的平方的倒数,X为NP的倒数,方
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1