基于基因拷贝数变异位点对林木群体基因型分型的方法与流程

文档序号:12167902阅读:来源:国知局

技术特征:

1.基于基因拷贝数变异位点对林木群体基因型的分型方法,其特征在于,包括以下步骤:

1)将林木物种中已经公布的基因组序列作为参考序列,操作界面的每个窗口上显示连续的、非重叠的、大小相等区域,每个窗口能在空间上左右调整;

2)将所述林木物种的不同个体测序,将所述测序得到的reads比对到所述步骤1)的参考序列上,将每个窗口内比对到的reads数目作为读取深度信号;

3)根据每个窗口内reads的GC含量和偏差,空间上左右调整得到所述窗口的读取深度信号值,根据调整后的读取深度信号值得到不同个体在每个窗口内的读取深度信号值形成的数据集,再根据所述数据集计算得到中值;

4)根据步骤3)得到的中值对所述步骤2)得到的读取深度信号值进行数据标准化处理,得到校正后的读取深度信号值;

5)根据步骤4)得到的校正后的读取深度信号值计算不同个体在所述窗口中拷贝数,以拷贝数为2的拷贝数设为正常拷贝,所述正常拷贝的基因型为(1;1);

6)当所述步骤5)中得到的拷贝数发生变异,且所述窗口内读取深度信号与正常拷贝的窗口相比有显著地增高时,属于基因拷贝数发生重复的结构变异;对重复拷贝数CN为3或4的基因位点进行分型,所述分型的方法具体为:将标准化校正后读取深度信号值的1.25<读取深度信号值<1.75范围内的基因拷贝数变异位点设为杂合重复,杂合重复的基因型为(1;2);将标准化校正后的1.75<读取深度信号值<2.25的基因拷贝数变异位点设为纯合重复,纯合重复的基因型为(2;2);

7)当所述步骤5)中得到的拷贝数发生变异,且所述窗口内读取深度信号与无拷贝数变异的窗口相比有显著地降低时,属于基因拷贝数发生缺失的结构变异;对所述缺失的结构变异进行分型,所述分型的方法具体为:将标准化校正后的读取深度信号值<0.10的基因拷贝数变异位点设为纯合缺失,设定纯合缺失的基因型为(0;0);将标准化校正后的读取深度信号值为0.10<读取深度信号值<0.75的位点设为杂合缺失,设定杂合缺失的基因型为(0;1);

所述步骤6)和7)没有时间顺序的限定。

2.根据权利要求1所述的分型方法,其特征在于,所述步骤1)中窗口的大小固定,所述窗口的大小为500bp。

3.根据权利要求1所述的分型方法,其特征在于,所述步骤2)中读取深度信号值由CNVnator软件计算得到。

4.根据权利要求1所述的检测方法,其特征在于,所述步骤3)调整所述窗口的读取深度信号值的具体方法是:调整读取深度信号值使GC含量达到48~52%和偏差小于5%。

5.根据权利要求1所述的检测方法,其特征在于,所述步骤3)中值的计算方法为:将每个个体得到的读取深度信号值的数据集按从小到大的顺序排列,位于该数列中间位置的数值为该个体的读取深度信号值的中值。

6.根据权利要求1所述的检测方法,其特征在于,所述步骤4)中数据标准化处理按照式I计算;所述式I为x′=xi-Me/Std(x),其中x′为得到的新数据,xi为原始数据,Me为该列数据集中的中值,Std(x)为标准差。

7.根据权利要求1所述的分型方法,其特征在于,所述步骤5)中计算不同个体在窗口中拷贝数的方法为:以正常拷贝数2个拷贝为中心,将标准化后的读取深度信号值经过四舍五入后,取最接近的整数作为该个体在该窗口中的拷贝数。

8.根据权利要求1所述的检测方法,其特征在于,所述步骤5),步骤6)和步骤7)中基因型的获得是基于自然群体中的平衡选择定律。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1