用于鉴定单体型的装置和方法与流程

文档序号:21280288发布日期:2020-06-26 23:33阅读:来源:国知局

技术特征:

1.一种用于基于参考核苷酸序列鉴定多个样本核苷酸序列中的单体型的装置(400),其特征在于,装置(400)包括处理单元(401),处理单元(401)用于:

通过基于所述参考核苷酸序列从所述多个样本核苷酸序列中提取多个等位基因序列产生初始等位基因序列组,其中所述多个等位基因序列中的每个等位基因序列中的每个等位基因与所述参考核苷酸序列中的核苷酸位点相关联;

通过将来自所述初始等位基因序列组的在重叠序列部分具有相同等位基因并且属于相同单体型的那些等位基因序列组组合成聚合等位基因序列,基于所述初始等位基因序列组产生第一聚合等位基因序列组,其中第一聚合等位基因序列组包含所述聚合等位基因序列和来自所述初始等位基因序列组的未组合成聚合等位基因序列的等位基因序列;

通过连接来自第一聚合等位基因序列组的相邻等位基因序列对,基于第一聚合等位基因序列组产生第二聚合等位基因序列组,其中相邻等位基因序列包含相邻核苷酸位点中的等位基因,但没有重叠等位基因;

基于第二聚合等位基因序列组鉴定所述多个样本核苷酸序列中的单体型。

2.根据权利要求1所述的装置(400),其特征在于,处理单元(401)还用于通过从所述初始等位基因序列组中去除偶然变体来过滤所述初始等位基因序列组。

3.根据权利要求2所述的装置(400),其特征在于,处理单元(401)用于通过从所述初始等位基因序列组中去除偶然变体来过滤所述初始等位基因序列组,方法是从所述初始等位基因序列组中去除出现频率低于过滤阈值的那些等位基因序列,其中所述出现频率表示等位基因序列在所述初始等位基因序列组中的重复次数。

4.根据前述权利要求中任一项所述的装置(400),其特征在于,处理单元(401)还用于从第一聚合等位基因序列组中去除等位基因序列,所述等位基因序列是第一聚合等位基因序列组中的至少一个其他等位基因序列的各部分。

5.根据前述权利要求中任一项所述的装置(400),其特征在于,处理单元(401)用于通过从所述多个样本核苷酸序列中提取等位基因序列来产生所述初始等位基因序列组,所述等位基因序列具有至少一个核苷酸不匹配相应核苷酸位点处的参考核苷酸序列的相应核苷酸。

6.根据前述权利要求中任一项所述的装置(400),其特征在于,处理单元(401)用于将来自所述初始等位基因序列组的具有重叠等位基因部分的那些等位基因序列组合成聚合序列,其中所述聚合序列包含来自等位基因序列的重叠序列部分和非重叠等位基因,所述等位基因序列按照与等位基因相关的核苷酸位点顺序排序,尤其是根据这些等位基因序列中的每个等位基因序列与参考核苷酸序列的比对排序。

7.根据前述权利要求中任一项所述的装置(400),其特征在于,如果第二聚合等位基因序列组的等位基因序列数量大于预期值,则处理单元(401)还用于通过基于统计学方法计算第二聚合等位基因序列组的每个等位基因序列的概率测量来鉴定所述多个样本核苷酸序列中的单体型,其中所述概率测量通过基于概率测度鉴定第二聚合等位基因序列组中的单体型指示等位基因序列属于单体型的概率。

8.根据权利要求7所述的装置(400),其特征在于,所述统计方法包括基于隐马尔可夫模型(hiddenmarkovmodel,简称hmm)的贝叶斯方法。

9.根据前述权利要求中任一项所述的装置(400),其特征在于,处理单元(401)还用于在重复次数低于重复阈值的情况下,确定所述参考核苷酸序列中的重复次数并基于所述参考核苷酸序列鉴定多个样本核苷酸序列中的单体型。

10.根据前述权利要求中任一项所述的装置(400),其特征在于,处理单元(401)还用于:

(i)如果所述参考核苷酸序列具有下一个核苷酸符号,则基于所述下一个核苷酸符号产生哈希码;

(ii)如果所述生成的哈希码已经是一组生成的哈希码的一部分,则增加计数器值,或者,如果所述生成的哈希码不是所述一组生成的哈希码的一部分,则将所述生成的哈希码添加到所述一组生成的哈希码;

(iii)只要所述计数器值小于预定义的阈值计数器值,则重复(i)和(ii);

(iv)如果所述计数器值小于所述预定阈值计数器值,基于所述参考核苷酸序列鉴定所述多个样本核苷酸序列中的单体型。

11.根据权利要求10所述的装置(400),其特征在于,处理单元(401)用于基于所述下一个核苷酸符号通过以下方式生成所述哈希码:

将所述核苷酸符号(a、c、g或t)替换为用两位表示的唯一序列;

将所述哈希码的当前值向左移2位;

对所述移位的哈希码和相应用两位表示的唯一序列采用按位or运算;

对所述按位or运算的结果采用二进制掩码,其中所述二进制掩码的前两位为0,所述二进制掩码的其余位为1。

12.一种用于基于参考核苷酸序列鉴定多个样本核苷酸序列中的单体型的方法(500),其特征在于,方法(500)包括:

通过基于参考核苷酸序列从所述多个样本核苷酸序列中提取多个等位基因序列产生(501)初始等位基因序列组,其中所述多个等位基因序列中的每个等位基因序列中的每个等位基因与所述参考核苷酸序列中的核苷酸位点相关联;

通过将来自所述初始等位基因序列组的在重叠序列部分具有相同等位基因并且属于相同单体型的那些等位基因序列组组合成聚合等位基因序列,基于所述初始等位基因序列组产生(503)第一聚合等位基因序列组,其中第一聚合等位基因序列组包含所述聚合等位基因序列和来自所述初始等位基因序列组的未组合成聚合等位基因序列的等位基因序列;

通过连接来自第一聚合等位基因序列组的相邻等位基因序列对,基于第一聚合等位基因序列组产生(505)第二聚合等位基因序列组,其中相邻等位基因序列包含相邻核苷酸位点中的等位基因,但没有重叠等位基因;

基于第二聚合等位基因序列组鉴定(507)所述多个样本核苷酸序列中的单体型。

13.根据权利要求12所述的方法(500),其特征在于,方法(500)还包括通过从所述初始等位基因序列组中去除偶然变体来过滤所述初始等位基因序列组。

14.根据权利要求13所述的方法(500),其特征在于,通过从所述初始等位基因序列组中去除所述偶然变体来过滤所述初始等位基因序列组的步骤包括从所述初始等位基因序列组中去除出现频率低于过滤阈值的那些等位基因序列,其中所述出现频率表示等位基因序列在所述初始的等位基因序列组中的重复次数。

15.根据权利要求12至14中任一项所述的方法(500),其特征在于,方法(500)还包括从第一聚合等位基因序列组中去除等位基因序列,所述等位基因序列是第一聚合等位基因序列组中的至少一个其他等位基因序列的各部分。

16.根据权利要求12-15中任一项的方法(500),其特征在于,产生所述初始等位基因序列组的步骤(501)包括从所述多个样本核苷酸序列中提取等位基因序列,所述等位基因序列具有至少一个核苷酸不匹配相应核苷酸位点处的参考核苷酸序列的相应核苷酸。

17.根据权利要求12-16中任一项所述的方法(500),其特征在于,组合步骤包括将来自所述初始等位基因序列组的具有重叠等位基因部分的那些等位基因序列组合成聚合序列,其中所述聚合序列包含来自等位基因序列的重叠序列部分和非重叠等位基因,所述等位基因序列按照与等位基因相关的核苷酸位点顺序排序,尤其是根据这些等位基因序列中的每个等位基因序列与参考核苷酸序列的比对排序。

18.根据权利要求12至17中任一项所述的方法(500),其特征在于,如果第二聚合等位基因序列组的等位基因序列数量大于预期值,则鉴定所述多个样本核苷酸序列中的单体型的步骤(507)包括基于统计学方法计算第二聚合等位基因序列组的每个等位基因序列的概率测量,其中所述概率测量通过基于概率测度鉴定第二聚合等位基因序列组中的单体型指示等位基因序列属于单体型的概率。

19.根据权利要求12至18中任一项所述的方法(500),其特征在于,方法(500)还包括以下步骤:

(i)如果所述参考核苷酸序列具有下一个核苷酸符号,则基于所述下一个核苷酸符号产生哈希码;

(ii)如果所述生成的哈希码已经是一组生成的哈希码的一部分,则增加计数器值,或者,如果所述生成的哈希码不是所述一组生成的哈希码的一部分,则将所述生成的哈希码添加到所述一组生成的哈希码;

(iii)只要所述计数器值小于预定义的阈值计数器值,则重复步骤(i)和(ii);

(iv)如果所述计数器值小于所述预定阈值计数器值,基于所述参考核苷酸序列鉴定所述多个样本核苷酸序列中的单体型。

20.根据权利要求19所述的方法(500),其特征在于,基于所述下一个核苷酸符号产生所述哈希码的步骤包括:

将所述核苷酸符号(a、c、g或t)替换为用两位表示的唯一序列;

将所述哈希码的当前值向左移2位;

对所述移位的哈希码和相应用两位表示的唯一序列采用按位or运算;

对所述按位or运算的结果采用二进制掩码,其中所述二进制掩码的前两位为0,所述二进制掩码的其余位为1。

21.一种计算机程序,其特征在于,包括:程序代码,用于在计算机或处理器上运行时执行根据权利要求12至20的方法(500)。


技术总结
本发明涉及一种用于基于参考核苷酸序列鉴定多个样本核苷酸序列中的单体型的装置(400)。装置(400)包括处理单元(401),处理单元(401)用于:通过基于所述参考核苷酸序列从多个样本核苷酸序列中提取多个等位基因序列来产生初始等位基因序列组,其中所述多个等位基因序列中的每个等位基因序列中的每个等位基因与所述参考核苷酸序列中的核苷酸位点相关联;通过将来自所述初始等位基因序列组的在重叠序列部分具有相同等位基因并且属于相同单体型的那些等位基因序列组组合成聚合等位基因序列,基于所述初始等位基因序列组产生第一聚合等位基因序列组,其中第一聚合等位基因序列组包含所述聚合等位基因序列和来自所述初始等位基因序列组的未组合成聚合等位基因序列的等位基因序列;通过连接来自第一聚合等位基因序列组的相邻等位基因序列对,基于第一聚合等位基因序列组产生第二聚合等位基因序列组,其中相邻等位基因序列包含相邻核苷酸位点中的等位基因,但没有重叠等位基因;基于第二聚合等位基因序列组鉴定所述多个样本核苷酸序列中的单体型。

技术研发人员:德米特里·尤里耶维奇·伊格纳托夫;亚历山大·尼古拉耶维奇·菲利波夫;张学仓
受保护的技术使用者:华为技术有限公司
技术研发日:2017.07.20
技术公布日:2020.06.26
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1