拼接错误检测方法和系统的制作方法

文档序号:6363753阅读:207来源:国知局
专利名称:拼接错误检测方法和系统的制作方法
技术领域
本发明涉及脱氧核糖核酸(DNA)中的拼接错误检测,和核糖核酸(RNA)中的过度表达和表达不足检测。
背景技术
利用把脱氧核糖核酸(DNA)分成具有呈序列的多个碱基的多个片段或多个段的方法,可以确定DNA基因组序列。每个片段中的碱基序列的确定与片段的顺序的确定相结合,可以用于确定DNA的整个序列。片段顺序的确定可以利用生物信息学拼接方法,借助计算机模拟(in-silico)实现。

发明内容
在本发明的ー个方面,检测基因序列拼接中的错误的方法包括定义一系列基因 数据的拼接(A),把读取段(read)数据收集到读取段库(L)中,绘制读取段大小与每个大小的读取段的数目的直方图,利用覆盖度C使分布(D)标准化,从而获得具有平均值(μ)和标准偏差(σ)的D',并保留未用于获得D'的位置(i),利用A和D'收集读取段的子集
利用Si计算平均值(Ui)和标准偏差(▲ A),在显示器上把结果输出给用户。在本发明的另ー个方面,检测基因序列中的错误的系统包括存储器、显示器和处理器,所述处理器操作以定义一系列基因数据的拼接(A),把读取段数据收集到读取段库(L)中,绘制读取段大小与每个大小的读取段的数目的直方图,利用覆盖度C使分布(D)标准化,从而获得具有平均值(μ)和标准偏差(σ)的D',并保留未用于获得D'的位置(i),利用A和D'收集读取段的子集ム),利用Si计算平均值(Ui)和标准偏差(· a ),在显示器上把结果输出给用户。通过本发明的技术,可实现另外的特征和优点。这里详细说明本发明的其它实施例和方面,所述其它实施例和方面被视为要求保护的发明的一部分。为了更好地理解本发明的优点和特征,应參考下面的说明和附图。


当说明书完结时,在权利要求书中特别指出和明确要求保护被视为本发明的主题。根据结合附图的下述详细说明,本发明的上述及其它特征和优点是显而易见的,附图中图I图解说明多个DNA序列、和把所述序列分成多个片段的划分。图2图解说明用于确定序列中的错误的系统200的例证实施例。图3A和3B图解说明可用图2的系统执行的例证处理方法的方框图。图4图解说明读取段的频次(frequency)的直方图。
具体实施方式
通过利用例如压缩空气设备(雾化器)或者限制性内切酶,把脱氧核糖核酸(DNA)分成具有呈序列的多个碱基的多个片段或多个段,可以确定DNA基因组序列。图I图解说明多个类似的DNA序列、和把所述序列分成多个片段的划分。在这方面,多个相似的DNA链102 (例如,50或更多个的DNA链)可被分离成或切割成具有多个碱基106 (例如50 500个碱基)的多个片段104。片段104不必被切割成相同的长度。一旦切割好片段104,就读取段104,以识别碱基106并确定所识别的碱基106在每个片段中的位置;从而产生每个片段104的读取段数据;可替换地,可以读取段的端部(例如,从每一端起的100个碱基),以识别碱基。可利用例如包括核苷酸的荧光标记和高分辨率激光成像的边合成边测序处理,来进行片段的读取。所得到的数据包括多个读取段,其中,每个读取段识别碱基106、和碱基106在每个片段104中的位置。读取段数据被分组成包括特定长度的读取段的频次(即,具有特定长度的碱基的读取段的数目)的读取段库(L)。覆盖度(C)是与被测序的DNA中的某个位置重叠的片段104的副本的平均数。除了被测序的片段104的长度之外,当DNA序列的长度已知时,可知覆盖度C。当DNA基因组序列的长度未知时,用户可提供估计的长度。读取段数据可被“重新拼接”,从而产生表示一部分或者整个DNA基因组序列的拼接(A)数据。例如,可通过考虑到读取段中的碱基之间的重叠,在可能的地方连接重叠的读取段,并利用拼接器(计算机模拟的生物信息学工具)进行所述拼接。拼接数据包括向 量V = <1, Ci, li, I2,,该向量包括在给定位置i的读取段计数Ci和读取段长度I。向量的一个例子包括V =〈34,3,10,12,102〉,指示位置34分别与长度为10、12、102的3个读取段重叠。读取段数据的重新拼接可能包括拼接中的顺序错误,因为恢复片段的准确原始顺序可能较困难。下面说明的例证方法和系统改进了拼接中的错误的检测。在这方面,图2图解说明用于确定序列中的错误的系统200的例证实施例。图解说明的实施例包括与显示设备204、输入设备206和存储器208通信连接的处理器202,并且存储器208保存读取段数据201和拼接203。图3A和3B图解说明可由系统200执行的例证处理方法的方框图。參见图3A,在方框302,定义包括读取段数据的拼接(A)。在方框304,把读取段数据收集到读取段库(L)中。在方框306,绘制出自L的读取段大小与每个大小的读取段的数目的直方图。图4中图解说明了直方图的ー个例子。在方框308,利用覆盖度C使分布D标准化,以获得(D'),其中,D'是L的预期标准分布,并且具有平均值μ和标准偏差σ。所述标准化是通过滤出不可能表示覆盖度C的向量V (利用用户给出的上下限),利用关于A的覆盖度C进行的。利用最后步骤的输出,重新计算读取段库。保留未用于获得D'的位置(i)。在方框310,对于拼接A中的每个位置(i),把与位置i重叠的读取段的子集X c I收集到向量Vi中。在方框312中,根据Si计算平均值(Ui)和标准偏差在方框314(图3B),计算Ui相对于读取段库的μ的偏差。在方框316,确定相对于读取段库的σ的偏差。在
方框318,利用阈值确定μ i和(Af j的例外偏差(即,在阈值之外的偏差)。在方框320,可把结果输出给显示设备,以供用户分析。对于拼接中的每个位置i,当平均值(Ui)偏离预期值超过给定阈值,或者标准偏差大于给定阈值时,位置i被标记为可能被误拼接。用户随后可通过用另ー种方法重新拼接数据,生成另外的读取段并重新拼接,或者通过利用序列信息的备选来源,来专注于校正这些标记区域中的可能的拼接错误。类似的处理可用于RNA数据,不过标记的位置与过表达(overexpression)或表达不足 Uinder expressionノ 相关。这里使用的术语只是用于说明具体的实施例,并不意图限制本发明。这里使用的単数形式意图还包括复数形式,除非上下文明确地另有所示。另外要明白当用在本说明书中吋,术语“包含”指定所陈述的特征、整数、步骤、操作、部件和/或组件的存在,不过并不排除ー个或多个其它特征、整数、步骤、操作、部件、组件和/或它们的组合的存在或増加。下面的权利要求中的所有装置或步骤加功能部件的对应结构、材料、动作和等同物意图包括与明确要求保护的其它部件结合地实现功能的任意结构、材料或动作。提供本发明的说明是出于举例说明的目的,而不是穷举的,或者意图把本发明局限于所公开的形式。对本领域的普通技术人员来说,多个修改和变化是显而易见的,而不脱离本发明的精神和范围。选择并说明实施例是为了更好地解释本发明的原理和实际应用,以及使本领域的其他普通技术人员能够关于具有适合于预期特定应用的各种修改的各个实施例,理解本发明。 这里说明的附图只是ー个例子。存在相对于所述附图或者其中说明的步骤(或操作)多个变化,而不脱离本发明的精神。例如,可按照不同的顺序执行各个步骤,或者可以増加、删除或修改各个步骤。所有这些变换被视为要求保护的发明的一部分。虽然说明了本发明的优选实施例,不过显然本领域的技术人员现在和未来可以做出在下面的权利要求的范围内的各种改进和提高。这些权利要求应被解释,以维护对首先说明的发明的恰当保护。
权利要求
1.ー种用于检测基因序列拼接中的错误的方法,所述方法包括 定义一系列基因数据的拼接A ; 把读取段数据收集到读取段库L中; 绘制读取段大小与每个大小的读取段的数目的关系的直方图; 利用覆盖度C使分布D标准化,从而获得具有平均值μ和标准偏差σ的D',并保留未用于获得D'的位置i; 利用A和D'收集读取段的子集&匸L ; 利用Si计算平均值μ i和标准偏差·^"·Cri; 在显示器上把结果输出给用户。
2.按照权利要求I所述的方法,其中,所述方法还包括关于读取段库中的每个位置i,计算Ui相对于μ的偏差。
3.按照权利要求I所述的方法,其中,所述方法还包括关于读取段库中的每个位置i,确定だ·OV相对于σ的偏差。
4.按照权利要求2所述的方法,其中,所述方法还包括比较所述偏差与阈值,以识别大于或小于阈值的偏差。
5.按照权利要求3所述的方法,其中,所述方法还包括比较所述偏差与阈值,以识别大于或小于阈值的偏差。
6.按照权利要求4所述的方法,其中,所述方法包括在显示器上,把识别的偏差的位置i输出给用户。
7.按照权利要求5所述的方法,其中,所述方法包括在显示器上,把识别的偏差的位置i输出给用户。
8.按照权利要求I所述的方法,其中,所述拼接是通过用于序列拼接的计算机模拟生物信息学方法定义的。
9.按照权利要求I所述的方法,其中,读取段数据包括脱氧核糖核酸(DNA)片段中的多个碱基的位置和标识符。
10.按照权利要求I所述的方法,其中,读取段库包括多个读取段数据。
11.ー种用于检测基因序列中的错误的系统,该系统包括 存储器; 显不器;和 处理器,操作以定义一系列基因数据的拼接A,把读取段数据收集到读取段库L中,绘制读取段大小与每个大小的读取段的数目的关系的直方图,利用覆盖度C使分布D标准化,从而获得具有平均值μ和标准偏差σ的D',并保留未用于获得D'的位置i,利用A和D'收集读取段的子集& d ,利用Si计算平均值μ i和标准偏差·^·q ,在显示器上把结果输出给用户。
12.按照权利要求11所述的系统,其中,所述处理器还操作以关于读取段库中的每个位置i,计算μ i相对于μ的偏差。
13.按照权利要求11所述的系统,其中,所述处理器还操作以关于读取段库中的每个位置i,确定A·σν相对于σ的偏差。
14.按照权利要求12所述的系统,其中,所述处理器还操作以比较所述偏差与阈值,以识别大于或小于阈值的偏差。
15.按照权利要求13所述的系统,其中,所述处理器还操作以比较所述偏差与阈值,以识别大于或小于阈值的偏差。
16.按照权利要求14所述的系统,其中,所述处理器还操作以在显示器上,把识别的偏差的位置i输出给用户。
17.按照权利要求15所述的系统,其中,所述处理器还操作以在显示器上,把识别的偏差的位置i输出给用户。
18.按照权利要求11所述的系统,其中,所述拼接是通过用于序列拼接的计算机模拟生物信息学方法定义的。
19.按照权利要求11所述的系统,其中,读取段数据包括脱氧核糖核酸(DNA)片段中的多个碱基的位置和标识符。
20.按照权利要求11所述的系统,其中,读取段库包括多个读取段数据。
全文摘要
本公开涉及拼接错误检测方法和系统。一种检测基因序列拼接中的错误的方法,该方法包括定义一系列基因数据的拼接(A),把读取段数据收集到读取段库(L)中,绘制读取段大小与每个大小的读取段的数目的直方图,利用覆盖度C使分布(D)标准化,从而获得具有平均值(μ)和标准偏差(σ)的D′,并保留未用于获得D′的位置(i),利用A和D′收集读取段的子集利用Si计算平均值(μi)和标准偏差并且在显示器上把结果输出给用户。
文档编号G06F19/22GK102682225SQ20121002010
公开日2012年9月19日 申请日期2012年1月21日 优先权日2011年1月21日
发明者L·P·帕里达, N·海米内 申请人:国际商业机器公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1