一种基因组多重扩增测序产物中突变信息的检测方法与流程

文档序号:11951435阅读:来源:国知局

技术特征:

1.一种基因组多重扩增测序产物中突变信息的检测方法,其特征在于,步骤为,

(1)测序数据的质量评估和预处理,过滤掉不合适的测序数据,得到第一测序序列;优选的,所述不合适的测序数据指的是Q20低于80%,或N碱基比例大于20%;

(2)引物识别:使用来源于覆盖所检测基因的测序引物,对上述第一测序序列进行来源识别,将可以识别的测序序列为第二测序序列;优选的,可以识别的测序序列指的是引物序列与测序序列的碱基差异在2个以内;

(3)序列组装:对第二测序序列中可实现每条扩增子的完全覆盖的两端的测序数据,进行序列组装,将其两条片段的重合序列部分进行合并和质量值的重新计算;得到第三测序序列;

(4)序列比对:根据来源于覆盖所检测基因的测序引物的序列位置,从标准参考基因组切取参考序列文件,进而将所述第二测序序列或第三测序序列与所述参考基因序列进行序列比对;得到第四测序序列;

(5)变异检测:对所述第四测序序列,采用碱基比较的方式,统计每一个位置上测序序列与所述参考序列的异同,得到初步的变异信息;

(6)序列变异精校准:

对于相互靠近的突变,将其进行合并,重新计算碱基的突变位置和突变类型;尤其,如果存在其中一侧为插入或缺失的类型,需要对合并后的碱基定位进行调整;得到校准后的第五测序片段;

对于插入类型,以基因的转录方向为准,如果插入片段的第一位碱基与插入位置的右侧第一位碱基相同,则将其向转录方向移动,直至不满足此条件为止;得到校准后的第五测序片段;

对于缺失类型,以基因的转录方向为准,如果缺失片段的第一位碱基与缺失位置的右侧第一位碱基相同,则将其向转录方向移动,直至不满足此条件为止;得到校准后的第五测序片段;

(7)序列变异统计输出:根据最高丰度的第五测序片段类型计算得到目标片段的纯合或杂合状态;最终得到基因组多重扩增测序产物中的突变信息。

2.权利要求1所述基因组多重扩增测序产物中突变信息的检测方法,其特征在于,所述引物识别的具体算法为:

(1)循环所有来源于覆盖所检测基因的测序引物组合;

(2)每次截取测序序列两端和当前来源于覆盖所检测基因的测序引物组合相同的片段进行全局比对,并进行打分,同时记录比对过程中的碱基错配个数和插入缺失个数;

(3)根据比对打分确定最佳引物来源,并根据最佳引物来源中的碱基错配个数和插入缺失个数判定测序序列是否为非特异扩增。

3.权利要求1所述基因组多重扩增测序产物中突变信息的检测方法,其特征在于,所述序列组装为:

(1)将测序序列的后端数据进行反向互补,使其与前端序列具有相同读取方向;

(2)将后端序列与前端序列进行不同位置的对齐操作,进而在每种对齐条件下计算后续序列相同与不同的打分值,选取最高打分值作为前后两条序列的最佳组装起点;

(3)从最佳比对起点开始,选取两条序列上重合位置测序质量最高的碱基作为最终组装序列的碱基;如果遇到两个不同碱基的质量值相同,则优选前段碱基序列的碱基类型;

(4)输出组装后的序列片段,并根据如下原则重新计算碱基质量值打分:

a.如果两个碱基相同,则质量值为两只相加,但不高于最高质量值上限;

b.如果两个碱基不同,则质量值为两者中的较大者,如两者相同,则任取一个。

4.权利要求1所述基因组多重扩增测序产物中突变信息的检测方法,其特征在于,所述序列比对的方式为全局比对算法,其具体算法原理如下:

(1)参数设定:对比对过程中的打分值进行定义,可以采取两种方式:

a.定义碱基相同、碱基错配、碱基插入缺失、碱基插入缺失延伸的分值;

b.定义打分矩阵,即每种碱基间的相互错配可以具有各自不同的分值,以考虑生物过程中碱基突变的实际概率值。

(2)打分矩阵初始化:

a.将参考序列的每一个碱基作为打分矩阵的一列,首列留空;

b.将测序序列的每一个碱基作为打分矩阵的一行,首行留空;

c.将打分矩阵的第二行和第二列根据碱基插入缺失、碱基插入缺失延伸的分值进行填充,以定义在序列首端存在插入缺失的情况。

(3)打分矩阵填充:将打分矩阵从左向右、自上而下进行填充。填充过程中遵循以下原则:

a.每个空位分别计算由左侧、上方、左上方延伸而来的得分;

b.在计算过程中,来自于左上方的情况需要计算当前位置对应的参考序列碱基和测序序列碱基是否相同,相同则加上“碱基相同”对应的分值,不相同则加上“碱基错配”对应的分值;如果来自于上方或左侧,需要考虑前一步碱基是否为插入缺失,如果是插入缺失,则加上“碱基插入缺失延伸”的分值,如果不是则加上“碱基插入缺失”的分值。

c.将3种情况下计算得到的最高分作为此处的比对分值;并记录此处的路径来源。

(4)最优路径回溯:从打分矩阵的右下角开始回溯,选取每一个位点的路径来源,得到最优比对结果,即测序序列与参考序列的位置对应关系。

5.权利要求1所述基因组多重扩增测序产物中突变信息的检测方法,其特征在于,所述变异检测的判定方法为:

如果测序序列与参考序列相同,此处没有变异;

如果测序序列与参考序列不同,此处存在碱基替换类型的序列变异;

如果测序序列对应参考序列上的空位,此处存在序列插入类型的序列变异;

如果测序序列的空位对应参考序列上的碱基,此处存在序列缺失类型的序列变异。

6.权利要求1所述基因组多重扩增测序产物中突变信息的检测方法,其特征在于,所述序列变异统计输出的实施过程为:

(1)将所有测序序列的片段根据引物序列进行分类;

(2)在每一个引物序列内部统计出现次数最多和次多的序列类型,得到最佳序列与次佳序列;

(3)计算最佳序列与次佳序列中次佳序列所占的比例;

(4)根据设定的阈值和染色体倍数判定此目标片段为纯合区域或杂合区域。在二倍体中,若高于阈值则为纯合,输出最佳序列所得到的变异信息;反之为杂合,输出最佳序列与次佳序列所得到的变异信息;而在单倍体中,如人类的性染色体,则直接判定为纯合,输出最佳序列所得到的变异信息。

7.权利要求1所述基因组多重扩增测序产物中突变信息的检测方法,其特征在于,所述基因组是二倍体基因组。

8.权利要求7所述基因组多重扩增测序产物中突变信息的检测方法,其特征在于,所述基因组是人类基因组。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1