一种遗传变异检测方法与流程

文档序号:12542361阅读:来源:国知局
一种遗传变异检测方法与流程

技术特征:
1.一种遗传变异检测系统,其包括:1)从测试样本获得测序序列的模块;2)将所述测序序列与参考基因组序列进行比对的模块;3)将所述参考基因组序列划分窗口,统计比对至各窗口的测序序列数目,基于所述测序序列数目得到各窗口的统计量的模块;4)对于一段参考基因组序列,基于其上所有窗口的统计量在该段参考基因组序列上的变化,获得两侧窗口的统计量发生显著性变化的位置,这些位置即为测试样本遗传变异位点在参考基因组序列上的位置的模块,5)对遗传变异位点进行筛选,得到筛选后的遗传变异位点的模块,其中,所述对遗传变异位点进行筛选,得到筛选后的遗传变异位点包括:对于每个所述遗传变异位点至在前遗传变异位点和在后遗传变异位点之间的两段序列,统计所述两段序列包含的窗口的统计量组成的两个数值群体的差异,去除其差异显著性值最大且大于预设阈值的遗传变异位点;重复上述过程,直至所有遗传变异点的差异显著性值都小于预设阈值,所述差异显著性通过游程检验进行,去除游程检验显著性值最大且大于预设阈值的遗传变异位点;重复上述过程,直至所有遗传变异点的游程检验显著性值都小于预设阈值,通过以下步骤获得所述预设阈值:a)用对照样本代替测试样本,根据上述步骤1)至5)得到遗传变异位点,b)对于每个所述遗传变异位点至在前遗传变异位点和在后遗传变异位点之间的两段序列,统计它们包含的窗口的统计量组成的两个数值群体的差异,去除所述差异最不显著的遗传变异位点;c)重复上述步骤b),直至剩余候选突破点数等于预期值Nc,Nc=Lc/T,Lc是基因组序列的长度,理论极限精度T是理论上能检测到的片段大小,当窗口大小均值为W,窗口滑动长度为S,游程检验的每个群体窗口数为N时,理论极限精度T=W+S*N,在所有剩余候选突破点的显著性值中,最小值为所述预设阈值。2.权利要求1的系统,其中所述测序序列片段长度为25-100nt。3.权利要求2的系统,其中所述测序序列片段长度为35-100nt。4.权利要求1的系统,其中所述测序序列片段数目为至少1百万条。5.权利要求1的系统,所述窗口具有相同的参考唯一比对序列数目。6.权利要求1的系统,所述窗口之间有重叠或无重叠。7.权利要求1的系统,所述统计量是对比对至窗口的测序序列数目进行标准化处理得到的近似符合正态分布的统计量。8.权利要求7的系统,所述标准化是基于比对至所有窗口的平均测序序列数目。9.权利要求1的系统,所述遗传变异位点是所述统计量由递增变成递减的拐点与下一个同样的拐点之间的中位点,且两个所述遗传变异位点之间包括至少50个窗口长度。10.权利要求9的系统,两个所述遗传变异位点之间包括至少70个窗口长度。11.权利要求10的系统,两个所述遗传变异位点之间包括至少100个窗口长度。12.权利要求11的系统,两个所述遗传变异位点之间包括100个窗口长度。13.一种遗传变异检测系统,包括:1)根据权利要求1-12任一项的系统,得到一段参考基因组序列上的遗传变异位点的模块;2)将所述遗传变异位点之间的片段进行置信选择的模块。14.权利要求13的系统,所述将所述遗传变异位点之间的片段进行置信选择包括:i)通过窗口的统计量的分布模式,计算统计量的分布概率,并设定阈值;ii)将筛选后的遗传变异位点之间的片段中窗口的统计量均值与所述阈值进行比较,通过比较结果确定遗传位点之间的片段是否异常。15.权利要求14的系统,所述将所述遗传变异位点之间的片段进行置信选择包括:i)通过窗口的统计量的分布模式,计算统计量的分布概率,并设定第一阈值和第二阈值;ii)将筛选后的遗传变异位点之间的片段中窗口的统计量均值与所述第一阈值和第二阈值进行比较,如果片段中窗口的统计量小于第一阈值,则该片段为片段缺失,如果大于第二阈值,则该片段为片段重复。16.权利要求15的系统,所述第一阈值为累计概率为0.05处的统计量的值,并且/或者所述第二阈值为累计概率为0.95处的统计量的值。17.一种胎儿遗传变异的检测系统,其包括:获取含胎儿核酸的母体样本的模块;对所述母体样本进行测序的模块;使用权利要求1-12任一项所述的系统或权利要求13-16任一项所述的系统,检测遗传变异的模块。18.权利要求17的系统,所述母体样本为母体外周血。
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1