核酸序列拼接方法及装置的制造方法_4

文档序号:8528373阅读:来源:国知局
到小排列后,将长度依照排序累加,当累加和达到大于或者等于总长度一般的那条序列的长度,N50_num表示长度累加到大于或者等于总长度一半时候所累加的序列的数量,N90表示将序列按照长度从大到小排列后,将长度依照排序累加,当累加和达到大于或者等于总长度0.9倍时候的那条序列的长度,N90_num表示长度累加到大于或者等于总长度0.9倍时候所累加的序列的数量,Total number O=10bp)表示大于或者等于10bp的序列的总数量,Total length表示所有序列长度的总和,Total number (>=2kb)表示大于2kb的序列的数量,Average length表示序列的平均长度,NG50表示以基因组的真实或者估计大小作为总长所计算出来的N50,NG90表示以基因组的真实或者估计大小作为总长所计算出来的N90。
[0056]从上述统计结果看,补洞后,新版本的N50,N90相比旧版本提升了 3_4倍,在数量上大大减少,说明新版本scaftig普遍较旧版本长,平均长度也较旧版本有较大提升,从一个更客观的数据,NG50及NG90来看,新版本的结果有较明显提升。
[0057]图15为Maize基因组scaftig评价结果,图示中含义类似图13。从上述统计结果看出,新版本在基因组覆盖度比旧版本高,从scaftig数量与总长可以看出,新版本整体上更长,完整性也更好。从准确性上看,新版本的mismatch数量与比例都比旧版本略小,indel数量也较旧版本低,因而新版本的准确性较好。
[0058]综上可知,本发明一种实施方式的设计思想是:以de Bruijn图为框架,在构建完成的kmer图基础上加入连通的Illumina数据;利用连通的reads长度的优势,将长reads比对到kmer图的边上,获得长reads跨过的边信息集,然后根据一定的条件设定在kmer图上选取符合条件的边作为锚点,以锚点为基准,通过跨过锚点边的reads比对到其它边的信息构建出以锚点边为中心的局部子图;通过对局部子图的去低覆盖度分叉、合并子图等操作,获得进一步化简、优化处理的子图,从而可以输出contig及进行后续其它处理。由此带来的有益效果是:1)更好解决SOAPdenovo组装过程中重复序列的组装难题,获得更长的contig ;2)使用本发明产生的contig进行scaffold构建,获得更好的scaffold构建结果;3)改善补洞效果以及提高基因组的总体覆盖率。
[0059]本发明各实施例中处理的核酸序列可以是人造基因序列片段或者是通过基因测序仪测序得到的基因序列片段,该基因序列片段可以是DNA片段或RNA片段,本发明各实施例中对DNA片段和对RNA片段的处理方法无任何区别。
[0060]本领域技术人员可以理解,上述实施方式中各种方法的全部或部分步骤可以通过程序来指令相关硬件完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器、随机存储器、磁盘或光盘等。
[0061]依据本发明的另一方面还提供一种核酸序列拼接装置,包括:数据输入单元,用于输入数据;数据输出单元,用于输出数据;存储单元,用于存储数据,其中包括可执行的程序;处理器,与上述数据输入单元、数据输出单元及存储单元数据连接,用于执行存储单元中存储的可执行的程序,该程序的执行包括完成上述实施方式中各种方法的全部或部分步骤。
[0062]以上内容是结合具体的实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换。
【主权项】
1.一种核酸序列拼接方法,其特征在于,包括: 接收测序序列,所述测序序列包括读段和测通数据; 根据所述读段构建原始拼接图; 将所述测通数据比对到所述原始拼接图的边上; 从原始拼接图的边集中选择锚点边,所述锚点边的两端没有分叉且跨过该锚点边的读段的路径没有冲突; 构建以所述锚点边为中心的局部子图; 化简所述局部子图,在化简结果中重复选择锚点边进行处理直至不存在新的锚点边; 对处理后剩余的局部子图进行合并,将合并结果作为拼接结果输出。
2.如权利要求1所述的核酸序列拼接方法,其特征在于,将所述测通数据比对到所述原始拼接图的边上这一步骤或这一步骤之前包括: 对构建得到的原始拼接图,根据所述原始拼接图的拓扑结构,去除因碱基错误和/或测序错误形成的读段及该读段关联的所有边。
3.如权利要求1所述的核酸序列拼接方法,其特征在于,从原始拼接图的边集中选择锚点边这一步骤包括: 根据比对结果和拓扑结构,去除原始拼接图中含有测序错误的读段及该读段关联的所有边; 根据原始拼接图的边集中各条边的边覆盖深度信息和边末端分叉信息,从原始拼接图的边集中确定出各边的类型; 选择原始拼接图的边集中的非错误边和非重复边作为锚点边。
4.如权利要求3所述的核酸序列拼接方法,其特征在于,所述选择原始拼接图的边集中的非错误边和非重复边作为锚点边这一步骤包括: 选择原始拼接图的边集中的符合标准的杂合边作为锚点边,所述杂合边包括形成为泡状结构且组成泡状结构的两条边的覆盖深度相近且都不大于平均覆盖深度;所述符合标准指,将所述组成泡状结构的两条边进行比对,两条边的碱基数量相差不超过第一阈值且错配碱基数量不超过第二阈值; 任选地,所述组成泡状结构的两条边的覆盖深度为0.1-0.8倍的平均覆盖深度; 任选地,所述第一阈值为10,所述第二阈值为10%。
5.如权利要求1所述的核酸序列拼接方法,其特征在于,构建以所述锚点边为中心的局部子图这一步骤包括: 对每一条所述锚点边,通过跨过所述锚点边的读段的比对信息,得到所述锚点边向两端延伸的边界信息,根据所述边界信息获得所述锚点边的局部子图。
6.如权利要求1所述的核酸序列拼接方法,其特征在于,化简所述局部子图这一步骤包括: 根据局部子图中各分叉的支持数和/或覆盖度,去除低于预设支持数和/或预设覆盖度的分叉,并根据该分叉对应的读段,去除包含该读段的其余局部子图; 和/或,对局部子图中的一条锚点边,以该条锚点边为中心,将与该条锚点边关联且不存在路径冲突的所有局部子图融合为一个局部子图。
7.如权利要求1所述的核酸序列拼接方法,其特征在于,对处理后剩余的局部子图进行合并这一步骤包括: 对处理后剩余的局部子图,判断其中的第一局部子图是否包含第二局部子图的一个锚点边, 如果是,再判断所述第一局部子图的各边和所述第二局部子图的各边之间是否存在冲关, 如果不存在,则合并所述第一局部子图和所述第二局部子图为最终拼接图。
8.如权利要求7所述的核酸序列拼接方法,其特征在于,合并所述第一局部子图和所述第二局部子图为最终拼接图这一步骤包括: 选择所述第一局部子图的第一个锚点边作为最终拼接图的边集的起点,选择所述第二局部子图的最后一个锚点边作为最终拼接图的边集的终点, 将所述起点与所述终点之间的第一局部子图和第二局部子图中的边进行复制,并将复制的边加入最终拼接图的边集中。
9.一种核酸序列拼接装置,其特征在于,包括: 接收模块,用于接收测序序列,所述测序序列包括读段和测通数据; 原始构建模块,用于根据所述读段构建原始拼接图; 比对模块,用于将所述测通数据比对到所述原始拼接图的边上; 选择模块,用于从原始拼接图的边集中选择锚点边,所述锚点边的两端没有分叉且跨过该锚点边的读段的路径没有冲突; 子图构建模块,用于构建以所述锚点边为中心的局部子图; 化简模块,用于化简所述局部子图,在化简结果中重复选择锚点边进行处理直至不存在新的锚点边; 合并模块,用于对处理后剩余的局部子图进行合并,将合并结果作为拼接结果输出。
10.一种包括如权利要求9所述的核酸序列拼接装置的基因组测序设备。
【专利摘要】本发明公开了一种核酸序列拼接方法及装置,包括:接收测序序列,测序序列包括读段和测通数据;根据读段构建原始拼接图;将测通数据比对到原始拼接图的边上;从原始拼接图的边集中选择锚点边;构建以锚点边为中心的局部子图;化简局部子图,在化简结果中重复选择锚点边进行处理直至不存在新的锚点边;对处理后剩余的局部子图进行合并,将合并结果作为拼接结果输出。依据本发明的方法,通过将测通数据比对到由读段构建得的原始拼接图,从中选择出锚点边并据此构建局部子图,再通过对局部子图的化简和合并得到更长的路径,达到解决锚点边之间的重复序列的路径选择问题,进而可完成测序序列的拼接任务,为提升scaffold构建效果提供可能。
【IPC分类】G06F19-20, G06F19-18
【公开号】CN104850761
【申请号】CN201410053255
【发明人】李振宇, 陈燕香, 张 浩, 袁剑颖, 张广鑫, 李一萱
【申请人】深圳华大基因科技有限公司
【公开日】2015年8月19日
【申请日】2014年2月17日
当前第4页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1