一种快速估计基因组育种值的方法和应用的制作方法

文档序号:6538909阅读:1433来源:国知局
一种快速估计基因组育种值的方法和应用的制作方法
【专利摘要】本发明属于生物信息学领域,提供了一种快速估计基因组育种值的方法,包括SNP芯片数据编辑;整理系谱文件;利用系谱信息构建A阵,从A阵中挑出具有SNP基因型的个体,根据个体间A阵元素构建子矩阵A22;利用高密度SNP芯片信息构建G阵,利用公共开源LAPACK数学库中DGEMM过程快速构建G阵;构建H矩阵,调用公共开源LAPACK数学库中DGETRF和DGETRI矩阵求逆子程序,快速求得A阵、A22阵以及G阵的逆矩阵,进而根据以上分块逆矩阵求解H逆矩阵;通过混合模型方程组求解个体的基因组育种值。本方法加快了利用综合系谱信息和基因组信息估计基因组育种值的计算速度,可推进基因组选择在动物育种领域的应用。
【专利说明】一种快速估计基因组育种值的方法和应用
【技术领域】
[0001]本发明属于生物信息学【技术领域】,具体涉及一种利用系谱信息和基因组信息快速估计基因组育种值的方法和应用。
【背景技术】
[0002]在畜禽育种领域,人工选择在品种培育和性状改良方面起着举足轻重的作用。自2007年来,随着各畜禽的全基因组高密度SNP芯片相继问世,基因组选择开始广泛用于畜禽育种领域,尤其奶牛育种。
[0003]基因组选择的广泛应用与相应计算方法的发展密不可分。基于SNP效应方差的不同,基因组选择计算方法主要分为两大类:BLUP类方法和BAYES类方法。无论是BAYES类方法还是BLUP类方法,都是基于具有表型信息的SNP分型参考群个体,预测SNP分型候选个体,仅利用了参考群体和候选群体的基因组信息,而参考群体大小对基因组育种值估计准确性影响很大,参考群体越大,则基因组育种值估计准确性越高。但目前高密度SNP芯片成本仍然较高,这制约了基因组选择在更多畜禽分子育种中的应用。另一方面,基因组选择需要依赖传统的常规育种体系,需要根据常规育种估计的传统育种值作为新的表型,用来预测候选群体的基因组育种值,这造成了信息的双重利用,在BLUP方法中尤为明显。在传统育种值估计中,已经利用了基于系谱信息的个体亲缘关系,而在基因组育种值估计中,又利用了基于基因组信息的个体间亲缘关系,因此造成了个体关系的双重计算(doublecounting),从而引起基因组育种值估计偏差。因此如果能够同时利用系谱信息和基因组信息,直接根据个体的表型测定值估计候选群体的基因组育种值,则不仅能提高基因组育种值估计的准确性,而且能够将常规育种体系和基因组选择体系融为一体,使畜禽育种体系更完善。
[0004]目前,综合基因组信息和系谱信息的估计基因组育种值方法仍存在实施上的困难,主要体现在(I)如何挑选无SNP基因型个体加入参考群体,不恰当的加入系谱信息不仅不能提高基因组育种值估计的准确性,而且带来计算时间的呈指数增加,满足不了实际育种的需要;(2)个体亲缘关系矩阵的快速构建和求逆。综合基因组信息和系谱信息能够更准确反映个体间亲缘关系,如何快速构建包含系谱信息和基因组信息,反映参考群体和候选群体个体间关系的H矩阵并求逆,不恰当的方法可能导致无法求解,将直接影响到基因组育种值评估的效率。因此,急需解决快速准确估计基因组育种值的问题。

【发明内容】

[0005]育种值:种畜的种用价值,在数量遗传学中把决定某一数量性状的基因加性效应总和称为某一性状的个体育种值。
[0006]基因组育种值:个体全基因组的SNP效应累加得到的育种值。
[0007]参考群体:群体内个体具有SNP芯片基因型信息和表型数据信息,根据此参考群体可以估计整个基因组SNP标记效应,进而预测候选群体个体的基因组育种值。[0008]候选群体:由仅具有SNP芯片基因型信息的个体组成。
[0009]针对现有技术不足,本发明的目的是提供一种快速估计基因组育种值的方法。
[0010]为实现上述目的,本发明提供了一种快速估计基因组育种值的方法,包括以下步骤,
[0011]步骤SI,SNP芯片数据编辑;
[0012]步骤S2,整理系谱文件;
[0013]步骤S3,利用系谱信息构建亲缘关系矩阵-A阵,从A阵中挑出具有SNP基因型的个体,根据个体间A阵元素构建子矩阵A22 ;
[0014]步骤S4,利用高密度SNP芯片信息构建基因组关系矩阵-G阵,利用公共开源
LAPACK数学库中DGEMM过程快速构建G阵,所述G阵根据
【权利要求】
1.一种快速估计基因组育种值的方法,其特征在于,包括以下步骤, 步骤SI,SNP芯片数据编辑; 步骤S2,整理系谱文件; 步骤S3,利用系谱信息构建亲缘关系矩阵-A阵,从A阵中挑出具有SNP基因型的个体,根据个体间A阵元素构建子矩阵A22 ; 步骤S4,利用高密度SNP芯片信息构建基因组关系矩阵-G阵,利用公共开源LAPACK




Jff数学库中DGEMM过程快速构建G阵,所述G阵根据编构建,每个SNP位点用1、2进行等位基因编码,Pt代表第i个SNP第2个等位基因频率,z的行数代表个体数,z的列数代表所用的SNP位点数; 步骤S5,构建H矩阵,包含基于系谱信息的矩阵A和基于基因组信息的矩阵G,调用公共开源LAPACK数学库 中DGETRF和DGETRI矩阵求逆子程序,快速求得A阵、A22阵以及G阵的逆矩阵,进而根据以上分块逆矩阵,获得综合系谱信息和基因组信息的H逆矩阵; 步骤S6,根据H矩阵,获取H矩阵中个体表型值; 步骤S7,通过混合模型方程组求解个体的基因组育种值。
2.根据权利要求1所述的方法,其特征在于,所述步骤SI具体包括以下步骤, 步骤SI I,SNP芯片数据读取,读取SNP芯片数据,并用压缩格式存储文件以节省硬盘空间; 步骤S12,缺失基因型填充,利用Beagle程序将芯片基因型中存在缺失的SNP标记或个体进行填充,提闻芯片基因型检测质量; 步骤S13,质量控制,所述质量控制参数为每个SNP标记检出率和最小等位基因频率、哈代-温伯格平衡检验和/或个体检出率。
3.根据权利要求1所述的方法,其特征在于,步骤S2中所述整理系谱文件是根据SNP芯片数据个体,从整体系谱文件中挑出具有SNP芯片信息的个体,向上追溯父母系谱信息5-10代,并根据SNP信息对系谱文件父母及后代亲缘关系进行亲子鉴定并根据亲子鉴定结果调整原始系谱文件,主要表现为原始系谱文件亲子关系与亲子鉴定结果不一致时,系谱文件按亲子鉴定结果重新编排。
4.根据权利要求1所述的方法,其特征在于,所述步骤S4还包括根据A矩阵校正G矩阵,生成新的矩阵G*,以使基于系谱信息的A矩阵和基于基因组信息的G阵尺度相同或接近,降低估计偏差。
5.根据权利要求1-4任一所述的方法在动物育种方面的应用。
【文档编号】G06F19/24GK103914632SQ201410067415
【公开日】2014年7月9日 申请日期:2014年2月26日 优先权日:2014年2月26日
【发明者】丁向东, 李秀金, 张勤, 王胜 申请人:中国农业大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1