序列校正方法与序列校正装置的制作方法

文档序号:493610阅读:281来源:国知局
专利名称:序列校正方法与序列校正装置的制作方法
序列校正方法与序列校正装置相关申请案的交互參照此申请案主张于2009/12/23送入之美国临时申请案号61/282,168的效益,其全文并入于此为參考文献。藉由序列表之提出的引入经由EFS-Web提交为一 text档案的一序列表被引入于此。包含序列表之text档案被命名为“9044-A23432-US_Seq_Listing. txt” ;其创作日期为2010/12/13 ;且其大小为
I,662 字节(bytes)。本发明的背景
技术领域
本发明系关于ー种序列校正的方法,且特别关于ー种根据序列子集(seed)的序列校正方法。
背景技木A.单分子测序技术(single-molecule sequencing technology)的发展基因测序的方法近年有许多突破。传统的测序方法以复制之模板分子群进行测序 (Nucleic Acids Research 2000, v28, No. 20e87 ;Nature2005, v437, 376-380.) 模板分子群之测序意指于一次反应中同时合成1000个以上之一 DNA模板的复制品。由于多分子的酶反应,无法百分之百的同步进行,而且,分子群中各个分子的核酸聚合反应,也可能产生不同的错误。因此随着碱基加入反应次数的増加,反应信号将越来越混杂,使的信号之判读越来越困难。因此,藉由使用传统测序的方法,测序的处理长度及准确度均受到限制,并使后续序列组合的复杂度升高。所以,单分子测序方法使用単一的核酸分子,作为测序反应的模板来进行测序(Proc. Natl. Acad. Sci.,100:3960-64, 2003)。故,其可减缓由于加入碱基数量增加导致之错误所引起的反应信号越来越混杂而使得信号判读越来越困难的相关问题。也可使读序列解读的长度大幅提闻。B.应用循环重复测序方法及序列校正方法改善单分子DNA测序的正确率不论单分子测序的优点,对于测序原始数据而言,其错误率远高于传统测序方法。根本上是由于单分子荧光信号非常微弱,所以自单分子测序反应中所产生之随机错误,均表现于序列原始信息中。需注意的是,不像多分子测序,对于单分子测序而言,无法使用整体平均。因此亟需要低成本、快速且正确的単一分子测序。例如,对于ー个环型DNA分子而言,若可重复执行藉由滚环扩增法(rolling circle amplification)的测序反应,贝U可降低随机错误的可能性做多次的循环重复测序。基本上,对于错误校正而言,可对ー相同DNA片段的重复读出进行校正,藉由在其中进行比较(US2006/0024711A1,W02009/017678A2)。C.现有技术的分析传统的序列比对方法,例如Smith-Waterman、Needleman-Wunsch、FASTA、BLAST 及FLAG等,使用动态规划(dynamic programming)的算法,或者由它所改良的算法为其核心。当多条序列需要被重复比较时,这些方法显示大于O(N2)的复杂度。然而,这些方法以生物进化造成之序列多样性为基础,因此若将这些方法直接应用于比对产生自一复制模板之多次读出的序列,可能造成比对结果有偏差。序列比对之传统算法的比较分析
权利要求
1.一种序列校正的方法,包括 (a)藉由一接收单元,获得来自一相同来源的一第一读出序列与一第二读出序列; (b)藉由一测定单元,设定一比较条件;以及 (C)藉由该测定单元,根据该比较条件比较该第一读出序列与该第二读出序列以产生一序列比较结果;以及 (d)藉由该测定单元,根据该序列比较结果输出一校正序列, 其中该比较条件系根据该第一读出序列之一第一序列子集目录与该第二读出序列之一第二序列子集目录来设定, 其中该第一读出序列的该第一序列子集目录包括复数个具有一特定长度的第一序列子集,该复数个第一序列子集构成复数个具有不同序列子集起始位置的第一序列子集组,且该第二读出序列的该第二序列子集目录包括复数个具有一特定长度的第二序列子集,该复数个第二序列子集构成复数个具有不同序列子集起始位置的第二序列子集组,且其中该第一序列子集目录之该第一序列子集的该特定长度与该第二序列子集目录之该第二序列子集的该特定长度为相同之特定长度。
2.如权利要求第I项所述之序列校正的方法,其中该第一读出序列与该第二读出序列为来自一单一的序列。
3.如权利要求第2项所述之序列校正的方法,其中该单一的序列为一多段连结之重复序列。
4.如权利要求第3项所述之序列校正的方法,其中该多段连结之重复序列具有引物-DNA的重复形态。
5.如权利要求第I项所述之序列校正的方法,其中该第一序列子集或该第二序列子集的该特定长度为一至少大于2的正整数。
6.如权利要求第I项所述之序列校正的方法,其中该第一序列子集或该第二序列子集的该特定长度为一 3-9的正整数。
7.如权利要求第I项所述之序列校正的方法,其中选择该第一序列子集或该第二序列子集的该特定长度的准则可包括一使用者的经验、序列的长度或来自该序列校正方法所先前校正之序列的准确度。
8.如权利要求第I项所述之序列校正的方法,其中该步骤(c)包括 比较该第一序列子集目录与该第二序列子集目录以产生共同片段与非共同的区域,其中一个共同片段由至少一个共同的序列子集所构成且无间断的介于两个非共同的区域之间,又该共同片段越长,则包含于其中之该共同的序列子集的数量越多,且其中藉由比较该第一序列子集目录与该第二序列子集目录所产生的所有共同片段形成一共同片段组合; 测定该共同片段组合对该第一读出序列或该第二读出序列的一覆盖率;以及 当该覆盖率的值满足一预定值时,自该共同片段组合产生该序列比较结果。
9.如权利要求第8项所述之序列校正的方法,其中当该覆盖率的值未满足该预定值时,更包括 改变构成该第一读出序列之该第一序列子集目录的该第一序列子集的该特定长度与构成该第二读出序列之该第二序列子集目录的该第二序列子集的该特定长度; 于该非共同的区域比较由具有该经改变之特定长度之第一序列子集所构成的该第一序列子集目录与由具有该经改变之特定长度之第二序列子集所构成的该第二序列子集目录,以产生第二共同片段与第二非共同的区域,其中该第二共同片段与该第一共同片段组合构成一第二共同片段组合; 测定该第二共同片段组合对该第一读出序列或该第二读出序列的一覆盖率;以及 当该覆盖率的值满足该预定值时,产生由该第二共同片段组合所产生的该序列比较结果。
10.如权利要求第8项所述之序列校正的方法,更包括 当该覆盖率未满足该预定值时,持续改变该特定长度直到该覆盖率直到该覆盖率满足该预定值。
11.如权利要求第8项所述之序列校正的方法,其中,该共同的序列子集被定义为,当该第一读出序列之一序列子集的内容与该第二读出序列之一序列子集的内容在一相对应之区域或一区域接近该相对应区域为相同时的该第一读出序列之该序列子集与该第二读出序列之该序列子集。
12.如权利要求第I项所述之序列校正的方法,其中该步骤(c)包括 比较该第一序列子集目录与该第二序列子集目录以产生共同片段与非共同的区域,其中一个共同片段由至少一个共同的序列子集所构成且无间断的介于两个非共同的区域之间,又该共同片段越长,则包含于其中之该共同的序列子集的数量越多,且其中藉由比较该第一序列子集目录与该第二序列子集目录所产生的所有共同片段形成一共同片段组合; 测定该共同片段组合对该第一读出序列或该第二读出序列的一覆盖率; 当该覆盖率的值满足一预定值时,以最小位置变动原则来调整该非共同的区域;以及 自该经调整之共同片段组合与该非共同的区域产生该序列比较结果。
13.如权利要求第12项所述之序列校正的方法,其中当该覆盖率的值未满足该预定值时,更包括 改变构成该第一读出序列之该第一序列子集目录的该第一序列子集的该特定长度与构成该第二读出序列之该第二序列子集目录的该第二序列子集的该特定长度; 于该非共同的区域比较由具有该经改变之特定长度之第一序列子集所构成的该第一序列子集目录与由具有该经改变之特定长度之第二序列子集所构成的该第二序列子集目录,以产生第二共同片段与第二非共同的区域,其中该第二共同片段与该第一共同片段组合构成一第二共同片段组合; 测定该第二共同片段组合对该第一读出序列或该第二读出序列的一覆盖率;以及 当该覆盖率的值满足该预定值时,以最小位置变动原则来调整该非共同的区域;以及 自该经调整之共同片段组合与该非共同的区域产生该序列比较结果。
14.如权利要求第12项所述之序列校正的方法,更包括 当该覆盖率未满足该预定值时,持续改变构成该第一读出序列之该第一序列子集目录的该第一序列子集的该特定长度与构成该第二读出序列之该第二序列子集目录的该第二序列子集的该特定长度直到该覆盖率直到该覆盖率满足该预定值。
15.如权利要求第12项所述之序列校正的方法,其中,该共同的序列子集被定义为,当该第一读出序列之一序列子集的内容与该第二读出序列之一序列子集的内容在一相对应之区域或一区域接近该相对应区域为相同时的该第一读出序列之该序列子集与该第二读出序列之该序列子集。
16.如权利要求第12项所述之序列校正的方法,其中该最小位置变动原则包括 将各个非共同的区域分成更短之序列子集的组合,并移动各个更短之序列子集的组合之该第一读出序列与该第二读序列之各个碱基的对准位置,以使当进行比较时,可使最多数量之该第一读出序列与该第二读出序列之相同的碱基被对准,其中各个更短之序列子集的组合具有至少一种对准方式; 给予各更短之序列子集的组合之各个被相同对准的碱基一正分数,并给予各更短之序列子集的组合之各个未被相同对准的碱基一负分数;以及 计算该非共同的区域之各个更短之序列子集的组合的总分,并选择具有最高分数之该非共同的区域之更短之序列子集的组合的对准方式。
17.—种序列校正的方法,包括 (a)藉由一接收单元,获得来自一相同来源的复数条读出序列; (b)藉由一测定单元,选择该复数条读出序列之一为一模板序列; (C)藉由该测定单元,设定一比较条件; (d)藉由该测定单元,根据该比较条件比较该模板序列与各个其它之读出序列以分别产生比较结果; (e)藉由该测定单元,根据所有分别产生之比较结果来产生一序列比较结果;以及 (f)藉由该测定单元,根据该序列比较结果输出一校正序列, 其中该比较条件系根据该模板序列之一第一序列子集目录与未被选择之该复数条读出序列之复数个第二序列子集目录来设定, 其中该模板序列的该第一序列子集目录包括复数个具有一特定长度的第一序列子集,该复数个第一序列子集构成复数个具有不同序列子集起始位置的第一序列子集组,且该未被选择之读出序列的该第二序列子集目录包括复数个具有一特定长度的第二序列子集,该复数个第二序列子集构成复数个具有不同序列子集起始位置的第二序列子集组,且其中该第一序列子集目录之该第一序列子集的该特定长度与该第二序列子集目录之该第二序列子集的该特定长度为相同之特定长度。
18.如权利要求第17项所述之序列校正的方法,其中该复数条读出序列为来自一单一的序列。
19.如权利要求第18项所述之序列校正的方法,其中该单一的序列为一多段连结之重复序列。
20.如权利要求第19项所述之序列校正的方法,其中该多段连结之重复序列具有引物-DNA的重复形态。
21.如权利要求第17项所述之序列校正的方法,其中该第一序列子集或该第二序列子集的该特定长度为一至少大于2的正整数。
22.如权利要求第17项所述之序列校正的方法,其中该第一序列子集或该第二序列子集的该特定长度为一 3-9的正整数。
23.如权利要求第17项所述之序列校正的方法,其中选择该第一序列子集或该第二序列子集的该特定长度的准则可包括一使用者的经验、序列的长度或来自该序列校正方法所先前校正之序列的准确度。
24.如权利要求第17项所述之序列校正的方法,其中于该步骤(d)中比较该模板序列与一条未被选择之读出序列,包括 比较该第一序列子集目录与该第二序列子集目录以产生共同片段与非共同的区域为该比较结果,其中一个共同片段由至少一个共同的序列子集所构成且无间断的介于两个非共同的区域之间,又该共同片段越长,则包含于其中之该共同的序列子集的数量越多,且其中藉由比较该第一序列子集目录与该第二序列子集目录所产生的所有共同片段形成一共同片段组合; 测定该共同片段组合对该模板序列或该未被选择之读出序列的一覆盖率;以及 当该覆盖率的值满足一预定值时,于该步骤(e)中使用该共同片段。
25.如权利要求第24项所述之序列校正的方法,更包括 当该覆盖率未满足该预定值时, 持续改变构成该第一读出序列之该第一序列子集目录的该第一序列子集的该特定长度与构成该第二读出序列之该第二序列子集目录的该第二序列子集的该特定长度直到该覆盖率直到该覆盖率满足该预定值。
26.如权利要求第24项所述之序列校正的方法,其中该步骤(e),更包括 以于该模板序列中的适合位置来对齐获得自该步骤(d)之所有共同片段的所有位置; 根据所有共同片段来计算对应于各自之模板序列碱基的各碱基内容的信心分数; 当对应于各自之模板序列碱基的各碱基内容的信心分数满足一特定分数时,设定于该模板序列中的该碱基为一确定位置,且当对应于各自之模板序列碱基的各碱基内容的信心分数未满足一特定分数时,设定于该模板序列中的该碱基为一未确定位置; 根据于该模板序列中所有被设定为确定位置的碱基与所有被设定为未确定位置的碱基来产生该序列比较结果; 测定所有确定位置对该序列比较结果的一完成率;以及 当该完成率满足一特定临界值时,于该步骤(f)中使用该序列比较结果。
27.如权利要求第26项所述之序列校正的方法,其中当该覆盖率的值未满足该预定值时,更包括 重复该步骤(c)-(d),其中自没有该第一模板的该复数条读出序列选择一新的模板序列,且停止比较该第一模板,且其中自比较该新的模板序列与该其它读出序列来产生新的共同片段与新的非共同的区域; 以于该序列比较结果中的适合位置来对齐所有新的共同片段的所有位置; 根据对应于该未确定位置所在位置之新的共同片段来计算各个未确定位置之内容的信心分数,各个未确定位置对应于该序列比较结果之分别的碱基; 设定于该序列比较结果中之未确认位置的各个碱基为一新的确定位置,当其信心分数满足一特定分数时,且仍然设定于该序列比较结果中之未确认位置的各个碱基为一未确定位置,当其信心分数未满足一特定分数时; 根据该序列比较结果与新的确定位置来产生该一新的序列比较结果; 测定所有确定位置对该新的序列比较结果的一完成率;以及 当该完成率满足一特定临界值时,于该步骤(f)中使用该新的序列比较结果。
28.如权利要求第26项所述之序列校正的方法,更包括,在该步骤(f)之前,以最小位置变动原则来调整该序列比较结果之未确认位置。
29.—种序列校正装置,包括 一接收单元,其用以获得来自一相同来源的一第一读出序列与一第二读出序列;以及 一测定单元,其用以执行包括下列之步骤 (a)设定一比较条件; (b)根据该比较条件比较该第一读出序列与该第二读出序列以产生一序列比较结果;以及 (C)根据该序列比较结果输出一校正序列, 其中该比较条件系根据该第一读出序列之一第一序列子集目录与该第二读出序列之一第二序列子集目录来设定, 其中该第一读出序列的该第一序列子集目录包括复数个具有一特定长度的第一序列子集,该复数个第一序列子集构成复数个具有不同序列子集起始位置的第一序列子集组,且该第二读出序列的该第二序列子集目录包括复数个具有一特定长度的第二序列子集,该复数个第二序列子集构成复数个具有不同序列子集起始位置的第二序列子集组,且其中该第一序列子集目录之该第一序列子集的该特定长度与该第二序列子集目录之该第二序列子集的该特定长度为相同之特定长度。
30.如权利要求第29项所述之序列校正装置,其中该步骤(c)包括 比较该第一序列子集目录与该第二序列子集目录以产生共同片段与非共同的区域,其中一个共同片段由至少一个共同的序列子集所构成且无间断的介于两个非共同的区域之间,又该共同片段越长,则包含于其中之该共同的序列子集的数量越多,且其中藉由比较该第一序列子集目录与该第二序列子集目录所产生的所有共同片段形成一共同片段组合; 测定该共同片段组合对该第一读出序列或该第二读出序列的一覆盖率;以及 当该覆盖率的值满足一预定值时,自该共同片段组合产生该序列比较结果。
31.一种序列校正装置,包括 一接收单元,其用以获得来自一相同来源的复数条读出序列;以及 一测定单元,其用以执行包括下列之步骤 (a)选择该复数条读出序列之一为一模板序列; (b)设定一比较条件; (C)根据该比较条件比较该模板序列与各个其它之读出序列以分别产生比较结果; (d)根据所有分别产生之比较结果来产生一序列比较结果;以及 (e)根据该序列比较结果输出一校正序列, 其中该比较条件系根据该模板序列之一第一序列子集目录与未被选择之该复数条读出序列之复数个第二序列子集目录来设定, 其中该模板序列的该第一序列子集目录包括复数个具有一特定长度的第一序列子集,该复数个第一序列子集构成复数个具有不同序列子集起始位置的第一序列子集组,且该未被选择之读出序列的该第二序列子集目录包括复数个具有一特定长度的第二序列子集,该复数个第二序列子集构成复数个具有不同序列子集起始位置的第二序列子集组,且其中该第一序列子集目录之该第一序列子集的该特定长度与该第二序列子集目录之该第二序列子集的该特定长度为相同之特定长度。
32.如权利要求第31项所述之序列校正装置,其中该步骤(c)包括 比较该第一序列子集目录与该第二序列子集目录以产生共同片段与非共同的区域为该比较结果,其中一个共同片段由至少一个共同的序列子集所构成且无间断的介于两个非共同的区域之间,又该共同片段越长,则包含于其中之该共同的序列子集的数量越多,且其中藉由比较该第一序列子集目录与该第二序列子集目录所产生的所有共同片段形成一共同片段组合; 测定该共同片段组合对该模板序列或该未被选择之读出序列的一覆盖率;以及 当该覆盖率的值满足一预定值时,于该步骤(e)中使用该共同片段。
全文摘要
本发明提供一种序列校正的方法,包括(a)藉由一接收单元,获得来自一相同来源的一第一读出序列与一第二读出序列;(b)藉由一测定单元,设定一比较条件;(c)藉由该测定单元,根据该比较条件比较该第一读出序列与该第二读出序列以产生一序列比较结果;以及(d)藉由该测定单元,根据该序列比较结果输出一校正序列,其中该比较条件系根据该第一读出序列之一第一序列子集目录与该第二读出序列之一第二序列子集目录来设定。
文档编号C12Q1/68GK102686740SQ201080041764
公开日2012年9月19日 申请日期2010年12月23日 优先权日2009年12月23日
发明者潘诏智, 范振业, 黄百纲 申请人:财团法人工业技术研究院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1