通过利用递归算法校正dna测序数据中的异相误差的系统和方法

文档序号:6360128阅读:293来源:国知局
专利名称:通过利用递归算法校正dna测序数据中的异相误差的系统和方法
技术领域
本发明涉及分子生物学领域。更具体而言,本发明涉及一种递归方法,用于校正通过一般所谓的“合成测序”(SBS)技术产生的核酸序列数据中的相位同步误差。
背景技术
合成测序(SBS) —般是指用于确定核酸样本中一个或多个核苷酸的身份或序列构成的方法,其中所述方法包括分步合成与要被确定其核苷酸序列构成的模板核酸分子互补的单链多核苷酸分子。例如,SBS技术通常通过在对应序列位置向与模板分子的核酸种类互补的新生多核苷酸分子添加单个核酸(也称为核甘酸)种类而工作。一般利用本领域 中已知的多种方法来检测向新生分子添加核酸种类,这些方法包括,但不限于,所谓的焦磷酸测序,所述焦磷酸测序可以包括酶促或电子(即利用ISFET或其他相关技术的pH检测)检测策略或荧光检测方法,在一些实施例中,其可以采用可逆的终止子。典型地,该过程迭代,直到合成了完全(即,所有序列位置被表示)或期望的与模板互补的序列长度为止。在美国专利 No. 6274320 ;No. 7211390 ;No. 7244559 ;No. 7264929 和 No. 7335762 中描述了 SBS技术的一些实例,在此出于所有目的通过引用将所述专利的每一个整体地并入本文。在SBS的一些实施例中,寡核苷酸引物被设计成对样品模板分子的预定互补位置退火。在存在核酸聚合酶的情况下,为引物/模板复合物提供核甘酸种类。如果核甘酸种类与对应于样本模板分子上直接与寡核苷酸引物的3’末端相邻的序列位置的核酸种类互补,那么聚合酶将利用所述核甘酸种类延伸所述引物。或者,在一些实施例中,同时为引物/模板复合物提供多个感兴趣的核甘酸种类(典型地为A、G、C和T),并且在样本模板分子上直接与寡核苷酸引物的3’末端相邻的对应序列位置处互补的核甘酸种类被掺入。在所述实施例的任一个中,可以用化学方式阻断核甘酸种类(例如在3’ -O位置处)以防止进一步延伸,并且需要在下一轮合成之前解除阻断核甘酸种类。如上所述,可以通过本领域中已知的多种方法检测核甘酸种类的掺入,例如,通过以酶促或电子方式检测焦磷酸盐(PPi)的释放(美国专利No. 6210891 ;No. 6258568和No. 6828100中描述的实例,在此出于所有目的通过引用将所述专利的每一个整体地并入本文),或通过结合到核苷酸的可检测标记。可检测标记的一些实例包括,但不限于,质量标签和荧光或化学发光标记。在典型的实施例中,例如,通过洗涤去除未掺入的核苷酸。在使用可检测标记的实施例中,通常必须在随后合成循环之前将它们灭活(例如,通过化学裂解或光漂白)。如上所述,然后可以利用另一核甘酸种类或多个感兴趣的核甘酸种类来查询模板/聚合酶复合物中的下一个序列位置。核甘酸添加、引物延伸、信号采集和洗涤的重复循环导致模板链的核苷酸序列的确定。在SBS的典型实施例中,在任何一个测序反应中同时分析大量的基本相同的模板分子或基本相同的模板分子的群体(例如103、104、105、IO6或IO7个分子),以便获得对于可靠检测而言足够强的信号。对于低信噪比需要在给定反应的群体中与基本所有模板分子相关联的新生分子的所谓的“均匀延伸”。如这里使用的,术语“均匀延伸”一般是指延伸反应的关系或相位,其中上述基本相同的模板分子的群体的每个成员均匀地执行反应中的相同步骤。例如,当模板分子在针对每个相关联的模板分子的相同序列位置执行相同的反应步骤时,可以将与模板分子的群体相关联的每个延伸反应描述为彼此同相(有时也称为相位同步或相位同步性)。不过,相关领域的普通技术人员将认识到,每个群体中的一小部分模板分子与该群体中的其余模板分子失去或脱离相位同步性(即,与该部分模板分子相关联的反应在于该群体上进行的测序反应中超前于或落后于其他模板分子)(在Ronaghi,Μ.的^Pyrosequencing sheds light on DNA sequencing”,Genome Res. 11,3-11 (2001)中描述了一些实例,在此出于所有目的通过引用将其整体地并入本文)。例如,将一个或多个核甘酸种类适当地掺入一个或多个新生分子中以将序列延伸了一个位置的反应的失败导致每个后续反应处于在群体的其余部分的序列位置之后并且与其异相的序列位置。这里将该效应称为“不完全延伸”(IE)。或者,在这里将通过在位于群体的其余部分的序列位置之前并且与其异相的序列位置中掺入一个或多个核甘酸种类而不适当地延伸新生分子称为“推进 (carry forward) ” (CF)。这里将CF和IE的组合效应称为CAFIE。关于不完全延伸的问题,可能存在几种可能的机制,其有助于可能单独地或以某种组合发生的IE。有助于IE的可能的机制的一个实例可以包括缺少被提供给模板/聚合酶复合物的子集的核甘酸种类。有助于IE的可能的机制的另一实例可以包括聚合酶分子的子集未能掺入被适当地提供用于掺入新生分子中的核甘酸种类。有助于IE的可能的机制的另一实例可以包括在模板/聚合酶复合物处没有聚合酶活动。至少部分地说明SBS方法中的IE误差的又一机制的实例可以包括由Metzger评论的所谓的循环可逆终止(CRT) (Genome Res. 2005Dec ;15(12) :1767_76,在此出于所有目的通过引用将其整体地并入本文)。在CRT中,核甘酸种类具有改性的3’-0基团(通常称为帽、保护基团或终止子),其防止在掺入单个核甘酸种类之后新生分子的进一步延伸。这些保护基团被设计成可以通过包括化学处理或光处理的多种方法之一除去。在解除3’ -O位置的保护(并生成3' -OH基团)时,可以用另一核甘酸种类延伸新生分子。不过,在由于解除保护效率不佳(解除保护不完全)导致新生分子的一部分保持被保护时,将发生相位异步。在后续循环中,保持被保护的这部分新生分子将不会得到延伸,从而将落后于群体的其余部分的序列位置并与其异相。不过,后续解除保护步骤可以成功除去至少一些先前被不适当地保持的保护基团,导致重新开始延伸,从新生分子生成信号并继续与群体的其余部分异相。本领域的普通技术人员将认识到可能存在其他有助于IE的因素,并且由此其不限于上文提供的实例。本发明目前描述的实施例的系统和方法针对的是校正可能因为任何这种单个或组合的原因或机制造成的IE误差。例如,校正由于耦合不完全解除保护和后续成功解除保护导致的IE误差是本发明的一个目的。对于CF的问题,可能存在几种可能的机制,其有助于可能单独地或以某种组合发生的CF。例如,一种可能的机制可以包括从先前循环剩余的过多核甘酸种类。可能发生这种情况,因为在循环结束时执行的洗涤过程将从该循环除去非常大多数的,但未必是全部的核甘酸种类。在本实例中,结果可能包括“G”核甘酸种类循环中存在的一小部分的“A”核甘酸种类,如果在模板分子中的对应序列位置存在互补的“T”核甘酸种类,则导致新生分子的一小部分的延伸。导致推进效应的可能的机制的另一实例可以包括聚合酶误差,例如向不与模板分子上的核甘酸种类互补的新生分子中不适当地掺入核甘酸种类。至少部分地说明SBS方法中的CF的又一机制的实例可以包括由Metzger评论的所谓的循环可逆终止(CRT) (Genome Res。2005 Dec ;15(12) : 1767-76,在上面通过引用被并入)。在本实例中,如上文相对于IE所描述的,可以采用3’-0受保护的核苷酸种类的制备,其中某一部分的核甘酸分子将缺少保护基团,或已经丢失了保护基团。也可能在预期的解除保护步骤之前在测序过程期间发生保护基团的丢失。解除保护基团的任何这种缺少都将导致一些新生分子一次被延伸了超过一个核甘酸种类。一部分新生分子的这种不适当的多延伸导致它们在序列位置中向前移动并与群体的其余部分的序列位置异相。由此,未被保护的核苷酸和/或过早解除保护的核苷酸,可以至少部分地有助于涉及CRT的SBS方法中的CF。本发明目前描述的实施例的系统和方法针对的是校正可能因为任何这种单个或组合的原因或机制造成的CF误差。例如,校正由于缺少保护基团而出现的CF误差是本发明的一个目的。 此外,目前描述的本发明实施例的系统和方法针对的是IE误差和CF误差两者的校正,其中对于相同测序反应中的群体,两个类型的误差可能以某种组合发生。例如,IE和CF均可能由于如上所述的单个或组合的原因或机制而产生。普通技术人员将认识到,IE和CF误差的潜在可能在延伸反应期间在每个序列位置发生,并由此可能在所得到的序列数据中具有明显的累积效应。例如,在朝向“序列读取”结束时,该效应可能变得尤其引人注目。这里使用的术语“读取”或“序列读取” 一般是指从单个核酸模板分子或模板核酸分子的多个基本相同的副本的群体获得的整个序列数据。此外,IE和CF效应可以为利用SBS方法可靠测序的模板分子的长度(有时称为“读取长度”)强加上限,因为序列数据的质量随着读取长度增加而降低。例如,一种SBS方法可以在称为“Phred”质量分数为20或更好的典型运行中产生包括超过2500万个序列位置的序列数据(Phred质量分数为20意味着预测序列数据为具有99%或更高的精确度)。尽管对于SBS方法而言,Phred质量为20的总体测序处理量显著高于由本领域的技术人员所称的Sanger测序方法产生的序列数据,该方法采用了毛细管电泳技术,当前SBS方法的代价是读取长度显著更短(Margulies等人,2005, Nature437 :376-80,在此出于所有目的通过引用将其整体地并入本文)。由此,通过避免或校正IE和CF误差产生的序列数据退化来提高读取长度的上限会导致SBS方法总体测序处理量的增加。因此,希望提供一种系统和方法,旨在校正通过核酸测序的合成测序法产生的序列数据中的IE和/或CF误差。这里引用了多个参考文献,在此出于所有目的通过引用将其全部公开整体地并入本文。此外,不论上文如何表述,这些参考文献中的任一个都不被视为这里主张的主题的发明的现有技术。

发明内容
本发明的实施例涉及核酸序列的确定。更具体而言,本发明的实施例涉及递归方法和系统,用于校正通过SBS对核酸测序期间获得的数据中的相位同步误差。描述了一种用于校正与从模板分子群体产生的序列数据的相位同步相关联的误差的方法的实施例,该方法包括以下步骤检测响应于测序反应期间引入的核甘酸种类而产生的信号;针对从每个核甘 酸种类检测的信号产生观测的值;利用推进值(carryforward value)和不完全延伸值从观测的值定义正掺入值和负掺入值;利用从与负掺入值相关联的观测的值导出的噪声值修订推进值和不完全延伸值;利用修订的推进值和修订的不完全延伸值重新定义正掺入值和负掺入值;以及重复修订和重新定义的步骤,直到正掺入值和负掺入值收敛为止。在一些实施方式中,该方法重复,直到推进值和不完全延伸值收敛为止。而且,描述了一种用于校正与从模板分子群体产生的序列数据的相位同步相关联的误差的系统或仪器,该系统或仪器包括测序仪器,其检测响应于测序反应期间引入的多个核甘酸种类而产生的多个信号;以及计算机,该计算机包括在其上存储的可执行代码,其执行包括以下步骤的方法针对从每个核甘酸种类检测的信号产生观测的值;利用推进值和不完全延伸值从观测的值定义正掺入值和负掺入值;利用噪声值修订推进值和不完全延伸值,其中噪声值是从与负掺入值相关联的观测的值导出的;利用修订的推进值和修订的不完全延伸值重新定义正掺入值和负掺入值;以及重复修订和重新定义的步骤,直到推进值和不完全延伸值收敛为止。更确切地说,本发明提供了一种用于递归地校正与从模板分子的基本相同的副本的群体产生的序列数据的相位同步相关联的误差的方法,该方法包括(a)检测响应于测序反应期间引入的多个核甘酸种类而产生的多个信号;(b)针对从每个核甘酸种类检测的信号产生观测的值;(C)利用推进值和不完全延伸值从观测的值定义多个正掺入值和多个负掺入值;(d)利用噪声值修订推进值和不完全延伸值,其中噪声值是从与负掺入值相关联的多个观测的值导出的;(e)利用修订的推进值和修订的不完全延伸值重新定义该多个正掺入值和该多个负掺入值;以及(f)重复步骤(d)-(e),直到该多个正掺入值和该多个负掺入值收敛为止。在本发明的范围之内,并行执行多个测序反应,其中针对测序反应中的每一个执行步骤(a)-(f)。优选地,所述正掺入值和所述负掺入值是整数,最优选地,所述正掺入值是I,所述负掺入值是O。可以利用参数估计模型确定步骤(C)中采用的推进值和不完全延伸值。在步骤(c)之前,可以利用阈值值分配所述正掺入值和所述负掺入值,其中在所述观测的值高于阈值值时分配正掺入值,在所述观测的值低于阈值值时分配负掺入值。所述阈值值优选包括在O和I之间的范围内的值,最优选地,所述阈值值包括约为O. 2的值。也可以通过利用参考序列定义阈值值,以预测没有核甘酸种类存在的多个位置。噪声值可以是与来自引入的多个核甘酸种类的负掺入值相关联的观测的值的平均值。优选地,所述引入的多个核甘酸种类包括前48个引入的核甘酸种类。在一个实施例中,本发明还提供了一种用于递归地校正与从模板分子的基本相同的副本的群体产生的序列数据的相位同步相关联的误差的方法,该方法包括以下步骤(a)检测响应于测序反应期间引入的多个核甘酸种类而产生的多个信号;(b)针对从每个核甘酸种类检测的信号产生观测的值;(C)利用推进值和不完全延伸值从观测的值定义多个正掺入值和多个负掺入值;(d)利用噪声值修订推进值和不完全延伸值,其中噪声值是从与负掺入值相关联的多个观测的值导出的;(e)利用修订的推进值和修订的不完全延伸值重新定义该多个正掺入值和该多个负掺入值;以及(f)重复步骤(d)-(e),直到所述推进值和所述不完全延伸值收敛为止。 本发明还提供了用于递归地校正与从模板分子的基本相同的副本的群体产生的序列数据的相位同步相关联的误差的系统或仪器,该系统或仪器包括(a)测序仪器部件,其检测响应于测序反应期间引入的多个核甘酸种类而产生的多个信号;(b)计算机,该计算机包括在其上存储的可执行代码,其执行包括以下步骤的方法i.针对从每个核甘酸种类检测的信号产生观测的值;ii.利用推进值和不完全延伸值从观测的值定义多个正掺入值和多个负掺入值;iii.利用噪声值修订推进值和不完全延伸值,其中噪声值是从与负掺入值相关联的多个观测的值导出的;iv.利用修订的推进值和修订的不完全延伸值重新定义该多个正掺入值和该多个负掺入值;以及V.重复步骤iii-iv,直到所述推进值和所述不完全延伸值收敛为止。在本发明的范围之内,该系统或仪器并行执行多个测序反应,其中针对测序反应的每个执行步骤(i)-(v)。优选地,所述正掺入值和所述负掺入值是整数,最优选地,所述正掺入值是I,所述负掺入值是O。可以利用参数估计模型确定步骤(C)中采用的推进值和不完全延伸值。在步骤(c)之前,可以利用阈值值分配所述正掺入值和所述负掺入值,其中在所述观测的值高于阈值值时分配正掺入值,在所述观测的值低于阈值值时分配负掺入值。所述阈值值优选包括在O和I之间的范围内的值,最优选地,所述阈值值包括约为O. 2的值。也可以通过利用参考序列定义阈值值,以预测没有核甘酸种类存在的多个位置。噪声值可以是与来自引入的多个核甘酸种类的负掺入值相关联的观测的值的平均值。优选地,所述引入的多个核甘酸种类包括前48个引入的核甘酸种类。以上实施例和实施方式未必彼此包含或排除,并且可以以不冲突的以及其他可能的任何方式被组合,无论它们与相同的还是与不同的实施例或实施方式关联地呈现。一个实施例或实施方式的描述并不打算相对于其他实施例和/或实施方式是限制性的。而且,在本说明书中别处描述的任何一个或多个功能、步骤、操作或技术可以在替代实施方式中与发明内容中描述的任何一个或多个功能、步骤、操作或技术组合。由此,以上实施例和实施方式是说明性的而非限制性的。


从以下结合附图进行的详细描述将更清楚地理解以上和其他特征。在附图中,类似的附图标记表示类似的结构、元件或方法步骤,附图标记最左边的数字表示参考元件首先出现在其中的图的编号(例如,元件160首先出现在图I中)。不过,所有这些约定旨在是典型的或说明性的,而非限制性的。图I是用于将理论流图转换成观测的流图的数学模型的一个实施例的简化图形表不;图2是图I的映射模型的反演的一个实施例的简化图形表示;
图3a是包括图I和2的映射模型的正向和逆向矩阵计算的模型的一个实施例的简化图形表示;图3b是利用图3a的正向模型的正向矩阵计算的一个实施例的简化图形表示;图4a是利用图3a的反演模型的逆向矩阵计算的一个实施例的简化图形表示;图4b是利用图3a和4a的反演模型,使用不同级的迭代校正获得的结果的一个实施例的简化图形表示;图5是目前描述的发明的CAFIE误差校正方法的结果的一个实施例的简化图形表示;图6是参数值跨越基本相同的模板分子的群体的样本的分布的一个实施例的简化图形表示;图7是仅IE校正的效果,以及CAFIE校正的效果的一个实施例的简化图形表示;图8是递归地校正η次迭代的序列数据中的相位同步误差的方法的一个实施例的简化图形表示;以及图9是测序结果的一个实施例的简化图形表示,示出了利用用于校正序列数据中的相位同步误差的递归算法,在碱基位置,针对读取长度和误差相对于前述实施例的优点。
具体实施例方式这里使用的术语“流图(flowgram) ”一般是指由SBS方法,尤其是基于焦磷酸盐的测序方法(也称为“焦磷酸测序”)产生的序列数据的图形表示,且可以更具体地称作“焦磷酸测序谱图(pyrogram) ”。当在流图上绘制时,针对每个流的检测到的光或其他信号(例如pH变化)的值可以大约为零(表示在下一个序列位置,流中的核甘酸种类不和模板中的核甘酸种类互补,并由此不被掺入),或大约为一(表示检测到掺入了恰好一个与模板中的核甘酸种类互补的核甘酸种类),或大约是大于一的整数(表示检测到掺入了与模板中的两个连续核甘酸种类互补的流中存在的核甘酸种类的两个或更多副本)。这里使用的术语“运行”或“测序运行” 一般是指在一个或多个模板核酸分子的测序操作中执行的一系列测序反应。这里使用的术语“流”一般是指向包括模板核酸分子的环境中添加溶液的顺次或迭代循环,其中溶液可以包括用于添加到新生分子的核甘酸种类或其他试剂,例如可以在测序反应中或为了减小来自核甘酸种类的先前流循环的遗留(carryover)或噪声效应而采用的缓冲剂或酶。这里使用的术语“流循环”一般是指有顺序的一系列流,其中在该循环期间使核甘酸种类流动一次(即,流循环可以包括按照τ、A、C、G核甘酸种类的次序顺序添加,但其他序列组合也被视为该定义的一部分)。典型地,流循环是在循环之间具有相同流序列的重复循环。这里使用的术语“读取长度”一般是指可以被可靠测序的模板分子的长度的上限。存在很多因素有助于系统和/或过程的读取长度,包括,但不限于模板核酸分子中的GC含
量程度。这里使用的术语“二进制编码列表”(如下所述,有时表示为P’或q’)一般是指核甘酸种类流的列表,包括二进制值,表示与完成的测序运行相关联的每个核甘酸种类的正或负掺入事件(即,负掺入事件表示核甘酸种类未被成功掺入)的状态。当由在核甘酸 流动期间观测的信号值的强度计算的值大于阈值信号值时,将每个核甘酸掺入事件定义为正掺入事件,或者当由观测的信号值的强度计算的值小于阈值信号值时,将每个核甘酸掺入事件定义为负掺入事件。然后为每个定义的核甘酸掺入事件分配等效二进制数,从而由“O”表示负掺入,由“I”表示正掺入。例如,在测序流次序为TCAG的情况下,前4个流之内“A”和“G”的正掺入事件将导致0,0,1,I的“二进制编码列表”。在这里可互换地使用术语“二进制编码列表”和“二进制列表”。这里使用的术语“阈值”一般是指从对于给定测序运行的观测的流图计算的值,并且是指与从不和核甘酸种类掺入事件相关联的源检测的信号(有时也称为“背景信号”)水平相关联的数值。这里使用的术语“新生分子”一般是指正在通过掺入与模板分子中的对应核甘酸种类互补的核甘酸种类由模板相关的DNA聚合酶延伸的DNA链。这里使用的术语“核甘酸种类” 一般是指通常被掺入到新生核酸分子中的核酸单体类型的身份,所述核酸单体类型包括嘌呤(腺嘌呤,鸟嘌呤)和嘧啶(胞嘧啶,尿嘧啶,胸腺嘧啶)。这里使用的术语“完成效率”一般是指在给定流期间适当延伸的新生分子的百分t匕。这里使用的术语“不完全延伸率”一般是指未能适当延伸的新生分子的数目与所有新生分子的数目的比率。目前描述的发明的一些实施例校正了每个流的检测的信号以说明上述CF和IE机制。例如,本发明的一个方面包括假定CF和IE的给定水平,计算任何已知序列的相位同步性损失的程度。测序过程的实施例可以包括Sanger型技术,一般被称为杂交测序(SBH)、连接测序(SBL)或掺入测序(SBI)技术的技术。此外,测序技术可以包括所谓的聚合酶克隆测序(polony sequencing)技术;纳米孔、波导和其他单分子检测技术;或可逆的终止子技术。如上所述,优选的技术可以包括合成测序方法。例如,一些SBS实施例对核酸模板的基本相同的副本的群体测序,并且通常采用一个或多个寡核苷酸引物,所述寡核苷酸引物被设计成对样品模板分子的预定互补位置或附着到模板分子的一个或多个连接物退火。在存在核酸聚合酶的情况下,为引物/模板复合物提供核甘酸种类。如果核甘酸种类与对应于样本模板分子上直接与寡核苷酸引物的3’末端相邻的序列位置的核酸种类互补,那么聚合酶将利用所述核甘酸种类延伸所述引物。或者,在一些实施例中,同时为引物/模板复合物提供多个感兴趣的核甘酸种类(典型地为A、G、C和T),并且在样本模板分子上直接与寡核苷酸引物的3’末端相邻的对应序列位置处互补的核甘酸种类被掺入。在所述实施例的任一个中,可以用化学方式阻断核甘酸种类(例如在3’-O位置处)以防止进一步延伸,并且需要在下一轮合成之前解除阻断核甘酸种类。还将认识到,向新生分子的末端添加核甘酸种类的过程与上面针对向引物末端添加描述的过程基本相同。如上所述,可以通过本领域中已知的多种方法检测核甘酸种类的掺入,例如,通过利用酶促反应过程产生光检测焦磷酸盐(PPi)的释放或通过检测pH变化(美国专利No. 6210891 ;No. 6258568和No. 6828100中描述的实例,在此出于所有目的通过引用将所述专利的每一个整体地并入本文),或通过结合到核苷酸的可检测标记。可检测标记的一些实例包括,但不限于,质量标签和荧光或化学发光标记。在典型的实施例中,例如,通过洗涤去除未掺入的核苷酸。此外,在一些实施例中,可以对未掺入的核苷酸进行酶降解,例如,举例来说,利用腺苷三磷酸双磷酸酶或焦磷酸酶的降解,如在2008年6月27日提交的题为 “System and Method for Adaptive Reagent Control in Nucleic Acid Sequencing,,的序号为No. 12/215455的美国专利申请和2009年I月29日提交的题为“System and Methodfor Improved Signal Detection in Nucleic Acid Sequencing”的序号为 No. 12/322284的美国专利申请中所述的;在此出于所有目的通过引用将所述美国专利申请的每一个整体地并入本文。在使用可检测标记的实施例中,通常必须在随后合成循环之前将它们灭活(例如,通过化学裂解或光漂白)。如上所述,然后可以利用另一核甘酸种类或多个感兴趣的核甘酸种类来查询模板/聚合酶复合物中的下一个序列位置。核甘酸添加、延伸、信号采集和洗涤的重复循环导致模板链的核苷酸序列的确定。继续本实例,通常在任何一个测序反应中同时分析大量的基本相同的模板分子或基本相同的模板分子的群体(例如103、104、105、IO6或IO7个分子),以便获得对于可靠检测而言足够强的信号。而且,目前描述的本发明的实施例的系统和方法可以包括利用为在计算机系统上执行而存储的计算机可读介质的一些设计、分析或其他操作的实施方式。例如,几个实施例在下面被详细描述为处理检测到的信号和/或分析利用SBS系统和方法产生的数据,其中可以在计算机系统上实施所述处理和分析实施例。供目前描述的发明使用的计算机系统的示范性实施例可以包括任何类型的计算机平台,例如工作站、个人计算机、服务器或任何其他目前或将来的计算机。然而,本领域普通技术人员应当认识到,如本文所述的前述计算机平台被特别地配置成执行所述发明的专门操作,并且不被视为通用计算机。计算机典型地包括已知部件,例如处理器、操作系统、系统存储器、存储器储存装置、输入-输出控制器、输入-输出装置和显示装置。本领域普通技术人员还要理解,存在很多可能的计算机的配置和部件,并且还可以包括高速缓冲存储器、数据备份单元和很多其他装置。显示装置可以包括提供视觉信息的显示装置,该信息通常可以在逻辑和/或物理上被组织成像素阵列。还可以包括界面控制器,其可以包括用于提供输入和输出界面的多种已知的或未来的软件程序中的任一种。例如,界面可以包括通常被称为“图形用户界面”(常称为GUI)的界面,其向用户提供一个或多个图形表示。通常使界面能够利用本领域普通技术人员已知的选择或输入手段接受用户输入。
在相同或替代实施例中,计算机上的应用可以采用包括被称为“命令行界面”(常称为CLI)的界面的界面。CLI典型地在应用和用户之间提供基于文本的交互。典型地,命令行界面通过显示装置以文本行的形式呈现输出并接收输入。例如,一些实施方式可以包括所谓的“外壳”,例如相关领域中的普通技术人员已知的Unix外壳,或采用面向对象类型的编程架构的 Microsoft Windows Powershell,例如 Microsoft. NET 框架。相关领域中的普通技术人员将认识到,界面可以包括一个或多个⑶I、CLI或其组
口 O处理器可以包括市售处理器,例如Intel Corporation制造的Celeron 、Core 或 Pentium 处理器,Sun Microsystems 制造的 SPARC 处理器,AMD Corporation 制造的Athlon 、Sempron 、Phenom 或Opteron 处理器,或者其可以是可获得的或将变成可获得的的其他处理器之一。处理器的一些实施例可以包括所谓的多核处理器和/或被使得能够在单核或多核配置中采用并行处理技术。例如,多核架构典型地包括两个或更多处理器“执行核”。在本实例中,每个执行核可以作为独立处理器运行,其使得能够并行执行多线程。此 夕卜,相关领域中的普通技术人员将认识到,可以以一般所谓的32或64位架构、或现在已知的或将来可能开发的其他架构配置来配置处理器。处理器典型地执行操作系统,其可以是,例如来自Microsoft Corporation的Windows ⑧类型的操作系统(例如 Windows XP、Windows Vista ⑧或 Windows _7);来自 Apple Computer Corp.的 Mac OS X 操作系统(例如 Mac OS X vlO. 6 “Snow Leopard,,操作系统);从很多供应商或所谓的开放源可获得的Unix⑧或Linux类型操作系统;另一种或未来的操作系统;或其某种组合。操作系统以众所周知的方式与固件和硬件对接,并促进处理器协调和执行各种可以以多种编程语言写成的计算机程序的功能。操作系统,典型地与处理器协作,协调并执行计算机的其他部件的功能。操作系统还提供调度、输入-输出控制、文件和数据管理、存储器管理、以及通信控制与相关服务,全部都依据已知的技术。系统存储器可以包括多种已知或未来存储器储存装置中的任一种。实例包括任何通常可获得的随机存取存储器(RAM)、磁性介质,例如驻留硬盘或带、光学介质,例如读写光盘,或其他存储器储存装置。存储器储存装置可以包括多种已知或未来装置中的任一种,包括光盘驱动器、带驱动器、可移动硬盘驱动器、USB或闪存驱动器、或软盘驱动器。这种类型的存储器储存装置通常从程序存储介质(未示出)读取和/或向其写入,所述程序存储介质例如分别是光盘、磁带、可移动硬盘、USB或闪存驱动器、或软磁盘。可以将这些程序存储介质或者现在使用的或可能以后会开发的其他存储介质中的任一种视为计算机程序产品。如将要认识到的,这些程序存储介质典型地存储计算机软件程序和/或数据。计算机软件程序,也称为计算机控制逻辑,通常存储在结合存储器储存装置使用的系统存储器和/或程序储存装置中。在一些实施例中,描述了一种计算机程序产品,其包括具有存储在其中的控制逻辑(计算机软件程序,包括程序代码)的计算机可用介质。控制逻辑当由处理器执行时使处理器执行这里所描述的功能。在其他实施例中,主要在硬件中利用例如硬件状态机实施一些功能。实施硬件状态机以便执行这里所述的功能对于相关领域中的技术人员而言将是显而易见的。输入-输出控制器可以包括多种已知装置中的任一种,用于从用户(无论是人还是机器,无论是本地的还是远程的)接受和处理信息。这样的装置包括,例如,调制解调器卡、无线卡、网络接口卡、声卡、或用于多种已知输入装置中的任一种的其他类型的控制器。输出控制器可以包括用于多种已知显示装置中的任一种的控制器,所述显示装置用于向用户(无论是人还是机器,无论是本地的还是远程的)呈现信息。在目前描述的实施例中,计算机的功能元件通过系统总线彼此通信。计算机的一些实施例可以利用网络或其他类型的远程通信与一些功能元件通信。如对于相关领域中的技术人员明显的是,仪器控制和/或数据处理应用,如果以软件实施,那么可以被加载到系统存储器和/或存储器储存装置中以及从系统存储器和/或存储器储存装置被执行。仪器控制和/或数据处理应用的全部或部分也可以驻留在存储器储存装置的只读存储器或类似装置中,这种装置不需要仪器控制和/或数据处理应用首先通过输入-输出控制器被加载。相关领域中的技术人员将理解,可以由处理器以已知的 方式向系统存储器中、或高速缓冲存储器中、或两者中加载仪器控制和/或数据处理应用、或其部分,如有利于执行。而且,计算机可以包括在系统存储器中存储的一个或多个库文件、实验数据文件和因特网客户端。例如,实验数据可以包括与一个或多个实验或化验相关的数据,例如检测到的信号值,或与一个或多个SBS实验或过程相关联的其他值。此外,因特网客户端可以包括被使得能够利用网络访问另一个计算机上的远程服务的应用,并且可以例如包括一般所谓的“网络浏览器”。在本实例中,一些通常采用的网络浏览器包括可从MicrosoftCorporation 获得的 Microsoft Internet Explorer 8,可从Mozilla Corporation 获得的 Mozilla Firefox 3· 6,可从 Apple Computer Corp.获得的 Safari 4,可从 Google Corporation获得的Google Chrome,或本领域中当前已知的或将来要开发的其他类型的网络浏览器。而且,在相同或其他实施例中,因特网客户端可以包括或可以是被使得能够通过网络访问远程信息的专用软件应用的元件,例如用于生物学应用的数据处理应用。网络可以包括本领域的普通技术人员公知的很多不同类型的网络中的一个或多个。例如,网络可以包括局域网或广域网,其采用通常所谓的TCP/IP协议族来通信。网络可以包括包含互连计算机网络的全球系统的网络,其通常被称为因特网,或者还可以包括各种内部网架构。相关领域中的普通技术人员还将认识到,在网络化环境中的一些用户可能偏好采用一般所谓的“防火墙”(有时也称为包过滤器,或边界保护装置)来控制往返于硬件和/或软件系统的信息流量。例如,防火墙可以包括硬件或软件元件或其某种组合,并且典型地被设计成强制执行由用户(例如,举例来说,网络管理员等)设置的安全策略。在上面通过引用并入的2007年2月15日提交的题为“System and Method forCorrecting Primer Extension Errors in Nucleic Acid Sequence Data,,的序号为US2007/004187的PCT专利申请中提供了前述实施例的实例,并且所述实例至少部分地基于如下发现,即可以通过IE和CF的数学模型将理论流图转换成真实观测的流图。例如,理论流图表示从序列读取产生的数据,其不具有来自上述CAFIE机制的误差或其他类型的背景误差。沿着相同的线,观测的流图表示从序列读取产生的数据,其包括所述CAFIE和其他背景误差因素的某种度量。在本实例中,误差因素中的一些或全部可以被精确地逼近并且被应用于理论流图模型,以提供从实际测序运行获得的真实数据的表示。此外,这里描述的前述实施例还至少部分地基于如下概念人们可以利用数学模型的反演由观测的流图逼近理论流图。由此,继续上文的实例,可以向在观测的流图中表示的实际测序数据应用误差的近似值以产生表示除去了所有或基本所有误差因素的目标核酸的序列构成的理论流图。一些前述实施例校正了每个流的检测的信号以说明上述CF和IE机制。例如,一个方面包括假定CF和IE的给定水平,计算任何已知序列的相位同步性损失的程度。下面示出的表I提供了对于IE和CF的数学建模阈值的实例,对于不同读取长度,所述阈值提供99%或更好的精确度(例如,读取是至少99%,表示模板分子的实际序列)。表I中呈现的预测值示出了对于各种读取长度CF和IE效应对测序精确度的影响,以及实现大致99%的读取精确度可以容忍的IE和CF误差的程度。表I表明,对于未校正的读取,可允许不大于I %的CF率(假设对于该群体IE等于零),以便使大约100个序列位置的读取长度为99%精确(即,99%或更高的完成效率)。而且,可允许不大于O. 25%的IE率 (假设CF率等于零),以便使大约100个序列位置的读取长度为99%精确。表I.在不同读取长度导致99%精确度的预测误差率
读取长度(碱基)100200400
不完全延伸0.0 0.0025 0.0 0.0013 0.0 0.0007
推进0.01 0.0 0.005 0.0 0.003 0.00
预测的粕·确度 99% -99% -99% -99% 99% -99%将要理解,表I中呈现的值仅仅是出于说明的目的,并且不应被视为限制性的。普通技术人员将认识到,几个因素可能有助于值的可变性,例如基因组或参考序列和用于对预测进行公式化的其他参数。例如,SBS方法的典型实施例一般实现从I %变动到2%的CF率,而IE率从O. 1%变动到O. 4% (即,完成效率从99. 6%变动到99.9% )。如上所述,CF和IE的校正是合乎需要的,因为相位同步性的损失在读取长度上具有累积效应,并随着读取长度增大而使读取质量退化。在一些前述实施例中,假设表不CF和IE的值在基本相同的模板分子群体的整个读取中基本恒定,例如,举例来说,驻留在PicoTiterPlate阵列或诸如ISFET型装置的其他类型的孔阵列的单个孔之内的模板分子群体。这允许利用两个简单参数“完成效率”和“推进”,而没有对模板分子的实际序列的任何先验了解,在整个读取中对每个序列位置进行数值校正。已经发现前述实施例的系统和方法对于确定和校正在模板分子群体中出现的CF和IE的量非常有效。例如,已经实施了前面的校正实施例,其针对每个孔中驻留的基本相同的模板分子的每个群体应用从每个流检测的信号值的校正以说明CF和IE。前述实施例将相位同步性的缺少建模为非线性映射方稈(I)M (ρ, ε , λ ) = q其中-M 为 CAFIE 映射
-ρ为理论流图[作为数组]-λ是完成效率参数- ε是推进参数-q为观测的流图[作为数组]
可以通过利用方程(I)中给出的映射模型公式将理论流图转换成真实观测的流图以估计IE和CF。可以通过例如通过对具有已知序列的多核苷酸模板分子测序分析被引入到观测的流图(q)的误差,来产生用于这样的映射公式的模型。图I中示出了由方程(I)给出的数学模型的实例。例如,在图I的左手侧,理论流图101是理论流图(P)的说明性表示,其示出在与其关联的核甘酸种类相邻的括号中描述的理想化信号强度值。理论流图101的每个理想化值是整数或零。在本实例中,值“I”表示由单个核甘酸掺入推导出的100%检测的信号强度,“O”表示0%信号(例如,在包括I百万个新生分子和I百万个基本相同的模板分子的群体的孔中,“ I ”表示在每个新生分子被延伸了单个核甘酸时推导出的信号,“ 2 ”表示在每个新生分子被延伸了两个核苷酸时推导出的信号,等等)。在图I的右手侧,观测的流图103是来自观测(或模拟)的流图(q)的检测的信号强度值的说明性表示。类似地,流图103中的每个信号强度值被描述在与其关联的核甘酸种类相邻的括号中。在图I的右手侧还有流105,其提供表示与核苷酸和信号值相关联的迭代流序列的代表性数目(例如,流105的每一迭代表示添加核甘酸种类、之后是洗涤过程)。例如,如图I中所示的流I与流105的所述迭代中引入的“C ”核甘酸种类相关联,并对应于理论流图101和观测的流图103的信号值。在图I的实例中,针对每个流105迭代,理论流图101和观测的流图103之间的信号强度值之差至少部分地表示相位同步的损失。例如,在观测的流图103中表示的信号值不是整数,而是每个针对流105的同一迭代通常稍高于或稍低于理论流图101中表示的理想值。可以利用参数113的已知值估计表示为“M”的映射模型110。例如,参数113包括ε (推进)参数和λ (完成效率)参数。可以采用参数113估计映射模型110并将理论流图(P) 101的信号值转换成观测的值(q) 103。在本实例中,由映射模型110表示的误差值随着流105的每一迭代而累积,并以指数方式增长。继续上文的实例,由误差值表示的误差可以在理论上随着每个流以指数方式增长。例如,与基本相同的模板分子的每个群体相关联的相位同步化测序反应在流迭代之后变成三个不同的相位同步化子群体。所述子群体包括相位同步化反应的第一子群体,其中在相对于模板分子的合适的序列位置处适当地掺入流中的核甘酸种类(例如没有CAFIE效应);相位同步化反应的第二子群体,其中已经发生来自CF机制的不适当的掺入,并且反应在相对于第一群体的序列位置前面;以及相位同步化反应的第三子群体,其中已经发生来自IE机制的不适当的掺入,并且反应在第一群体的序列位置后面。在本实例中,在下一流迭代时,三个子-子群体将由上述三个子群体的每个形成,等等。相关领域的普通技术人员将认识到,在第η个流迭代时,将存在对在流η的信号有贡献的相位同步化反应的3n个群体。进一步继续上文的实例,图2提供映射模型110的反演的说明性表示,在图2中所述映射模型110的反演被表示为反演映射模型210。例如,通过估计参数113的正确值(例如,ε (推进)和λ (完成效率)参数两者的值),将观测的流图(q) 103的信号值反演回去,以给出理论流图(P) 101的信号值。相关领域中的普通技术人员将认识到,提供图I和2中所表示的信号值仅仅是出于说明的目的,并且宽范围的信号值是可能的。由此,不应将它们示为限制性的。一些实施例以下面概述的两个相继阶段(i)和(ii)执行反演映射对于每个核甘酸种类流i :(i)_通过核甘酸种类添加延伸新生分子
权利要求
1.一种用于递归地校正与从模板分子的基本相同的副本的群体产生的序列数据的相位同步相关联的误差的方法,该方法包括 (a)检测响应于测序反应期间引入的多个核甘酸种类而产生的多个信号; (b)针对从每个核甘酸种类检测的信号产生观测的值;(C)利用推进值和不完全延伸值从观测的值定义多个正掺入值和多个负掺入值; (d)利用噪声值修订推进值和不完全延伸值,其中噪声值是从与负掺入值相关联的多个观测的值导出的; (e)利用修订的推进值和修订的不完全延伸值重新定义该多个正掺入值和该多个负掺入值;以及 (f)重复步骤(d)-(e),直到该多个正掺入值和该多个负掺入值收敛为止。
2.根据权利要求I所述的方法,其中 所述正掺入值和所述负掺入值是整数,并且优选地,所述正掺入值是I,所述负掺入值是O。
3.根据权利要求I所述的方法,其中 利用参数估计模型确定步骤(C)中采用的推进值和不完全延伸值。
4.根据权利要求I所述的方法,其中 在步骤(c)之前,利用阈值值分配所述正掺入值和所述负掺入值,其中在所述观测的值高于阈值值时分配正掺入值,在所述观测的值低于阈值值时分配负掺入值。
5.根据权利要求4所述的方法,其中 所述阈值值包括在O和I之间的范围内的值,并且优选地,所述阈值值约为O. 2。
6.根据权利要求4所述的方法,其中 通过利用参考序列定义阈值值,以预测没有核甘酸种类存在的多个位置。
7.根据权利要求I所述的方法,其中 噪声值是与来自引入的多个核甘酸种类的负掺入值相关联的观测的值的平均值,并且优选地,所述引入的多个核甘酸种类包括前48个引入的核甘酸种类。
8.根据权利要求I所述的方法,其中 并行执行多个测序反应,其中针对测序反应中的每一个执行步骤(a)-(f)。
9.一种用于递归地校正与从模板分子的基本相同的副本的群体产生的序列数据的相位同步相关联的误差的方法,该方法包括以下步骤 (a)检测响应于测序反应期间引入的多个核甘酸种类而产生的多个信号; (b)针对从每个核甘酸种类检测的信号产生观测的值;(C)利用推进值和不完全延伸值从观测的值定义多个正掺入值和多个负掺入值; (d)利用噪声值修订推进值和不完全延伸值,其中噪声值是从与负掺入值相关联的多个观测的值导出的; (e)利用修订的推进值和修订的不完全延伸值重新定义该多个正掺入值和该多个负掺入值;以及 (f)重复步骤(d)-(e),直到所述推进值和所述不完全延伸值收敛为止。
10.一种用于递归地校正与从模板分子的基本相同的副本的群体产生的序列数据的相位同步相关联的误差的仪器,该仪器包括(a)测序仪器部件,其检测响应于测序反应期间引入的多个核甘酸种类而产生的多个信号; (b)计算机,该计算机包括在其上存储的可执行代码,其执行包括以下步骤的方法 i.针对从每个核甘酸种类检测的信号产生观测的值; ii.利用推进值和不完全延伸值从观测的值定义多个正掺入值和多个负掺入值; iii.利用噪声值修订推进值和不完全延伸值,其中噪声值是从与负掺入值相关联的多个观测的值导出的; iv.利用修订的推进值和修订的不完全延伸值重新定义该多个正掺入值和该多个负掺入值;以及 V.重复步骤iii-iv,直到所述推进值和所述不完全延伸值收敛为止。
11.根据权利要求10所述的仪器,其中 所述正掺入值和所述负掺入值是整数,并且优选地,所述正掺入值是I,所述负掺入值是O。
12.根据权利要求10所述的仪器,其中 利用参数估计模型确定步骤(ii)中采用的推进值和不完全延伸值。
13.根据权利要求10所述的仪器,其中 在步骤(ii)之前,所述计算机利用阈值值分配所述正掺入值和所述负掺入值,其中在所述观测的值高于阈值值时分配正掺入值,在所述观测的值低于阈值值时分配负掺入值。
14.根据权利要求13所述的仪器,其中 所述阈值值包括在O和I之间的范围内的值,并且优选地,所述阈值值约为O. 2。
15.根据权利要求13所述的系统,其中 所述计算机利用参考序列定义阈值值,以预测没有核甘酸种类存在的多个位置。
16.根据权利要求10所述的系统,其中 噪声值是与来自通过测序仪器引入的多个核甘酸种类的负掺入值相关联的观测的值的平均值,并且优选地,所述引入的多个核甘酸种类包括前48个引入的核甘酸种类。
17.根据权利要求10所述的仪器,其中 所述测序系统并行执行多个测序反应,其中所述计算机针对测序反应中的每一个执行步骤(i)-(v)。
全文摘要
描述了一种用于校正与从模板分子的群体产生的序列数据的相位同步相关联的误差的方法的实施例,该方法包括以下步骤检测响应于测序反应期间引入的核甘酸种类而产生的信号;针对从每个核甘酸种类检测的信号产生观测的值;利用推进值和不完全延伸值从观测的值定义正掺入值和负掺入值;利用从与负掺入值相关联的观测的值导出的噪声值修订推进值和不完全延伸值;利用修订的推进值和修订的不完全延伸值重新定义正掺入值和负掺入值;以及重复修订和重新定义的步骤,直到正掺入值和负掺入值收敛为止。
文档编号G06F19/24GK102834828SQ201180017716
公开日2012年12月19日 申请日期2011年3月29日 优先权日2010年3月31日
发明者Y-J·陈, C·T·A·黄 申请人:霍夫曼-拉罗奇有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1