专利名称:精确序列信息及修饰碱基位置确定的方法
精确序列信息及修饰碱基位置确定的方法
本案主张于2008年11月7日申请之美国暂时专利申请案第61/112,548号之优 先权,以及于2009年4月7日申请之美国暂时专利申请案第61/167,313号之优先权,两者 并入本文作为参考。
发明所属的技术领域:
本案涉及确定核酸序列的方法及确定核酸中修饰碱基位置的方法。
现有技术
DNA测序技术的最近发展增加了在基因组层次上高度个人化、预防医学的可能性。 而且由一个或多个族群中的多个个体快速获取大量的序列信息的可能性,可在生物医学科 学上开辟基因组革命的新阶段。
基因型间的单一碱基差异可产生实质的表型效应。例如已有超过300个突变确 认位于编码苯丙氨酸羟化酶(PAH)的基因中,该酶在苯丙氨酸代谢及蛋白质与神经递质的 生物合成中,将苯丙氨酸(phenylalanine)转换为酪氨酸(tyrosine),该突变造成酶活性 丧失及高苯丙氨酸症(hyperphenylalaninaemia)及苯酮尿症(phenylketonuria)的疾病 (如 Jennings et al. , Eur J Hum Genet 8,683—696 (2000))。
序列信息可使用Sanger测序法获得,Sanger测序法中,标记的双脱氧基链终止序 列(dideoxy chain terminator)的核苷酸类似物并入大量的引物延伸反应中,分开不同长 度的产物并分析确定该并入的终止序列之相同性(如Sanger et al. ,Proc Natl Acad Sci USA 74, 5463-5467 (1997) ) 0确实有许多基因组序列依此技术被确定。然而以Sanger测序 获取序列信息的成本及速度受到限制。
新的测序技术可以每日数兆碱基的惊人速度产生序列信息,每一个碱基的成本低 于 Sanger 测序(如 Kato,Int J Clin Exp Med 2,193-202 (2009))。但是,使用这些测序 技术所得的原始信息较传统的Sanger测序产生更多的错误。这是因为获得的信息来自于 个体DNA分子,而非一个庞大的族群。
例如通过合成的单一分子测序中,因为装置错过一个微弱讯号、或者缺少来自荧 光染料脱色的信号、或因为聚合酶作用太快以致未被装置检测到,可能会略过一个碱基。所 有上述事件皆导致原始序列中的缺失错误。同样地,突变错误及插入错误也会因为潜在的 较微弱信号及较传统方法快速的反应等简单原因,更高频率地发生。
低精确度的序列信息更难以组合(assemble)。在大规模测序中,例如测序一个完 整的真核基因组,其DNA分子被切成较小片段。这些片段同时被测序,然后组合所得的读 取,重新构筑原始样本DNA分子的完整序列。切成片段的过程可由例如机械性剪切或酶性 切断所达成。
将序列的小读取组合成大的基因组需要片段的读取精确到足以正确地组合在一 起。这对于由Sanger法产生的原始测序信息通常是正确的,Sanger法可具有超过95%的 原始信息正确性。精确的单一分子测序技术可应用于检测核酸样本中的单一碱基修饰或突 变。然而,因为上述的限制,单一分子测序技术的原始信息精确度可能降低。个别读取原始序列的精确度可低至 60-80% (如 Harris et al.,Science 320 106-109 (2008)) 因此,
提供精确的单一分子测序方法是有用的。
而且,DNA甲基化在基因表达调节中扮演关键角色,例如,启动子处的甲基化通 常导致转录沉默(transcriptional silencing)。甲基化也已知是基因组印迹(genomic imprinting)及X染色体失活的必要机制。然而,辨识复杂的整个基因组甲基化概貌 (profile)的过程受到限制。因此以高通量确认DNA甲基化概貌的方法是有用的,而且此方 法也提供对序列的精确确认。
发明内容
在一些实施方案中,本发明提供确认核酸样本序列之方法,包括(a)提供环状核 酸分子,该分子包括至少一个插入样本单元,该插入样本单元包括核酸插入物及该核酸样 本,其中该插入物具有已知序列;(b)获取序列信息,该序列信息包括至少两个插入样本单 元,其中形成包含至少两个插入样本单元的核酸分子;(c)通过比较该插入物的序列与该 插入物中的已知序列,计算步骤(b)序列信息的至少两个插入物的序列的分数(score); (d)根据位于紧邻该核酸样本序列的重复序列的上游及下游之该插入物的一或两个序列的 分数,接受或拒绝步骤(b)所得之序列信息的核酸样本序列的至少两个重复序列;(e)汇 编一个接受序列组,该接受序列组包含步骤(d)中接受的核酸样本序列的至少一个重复序 列;及(f)使用该接受序列组,确认该核酸样本序列。
在一些实施方案中,本发明提供一种系统,包括可操作连接于计算装置的测序装 置,该计算装置包括处理器、储存装置、汇流排系统(bus system)、及至少一个使用者界面 元件,该储存装置由包括操作系统、使用者界面软件、及使用说明的程序编码,该程序当由 该处理器执行时,视需要根据使用者输入,执行下述方法(a)从环状核酸分子获取序列信 息,该环状分子包括至少一个插入样本单元,该插入样本单元包括核酸插入物及核酸样本, 其中(i)该插入具有已知序列,(ii)该序列信息包括至少两个插入样本单元的序列,及 (iii)产生一核酸分子包含至少两个插入样本单元;(b)通过比较该插入物的序列与该插 入物的已知序列,计算步骤(a)的序列信息至少两个插入物的序列的分数;(c)根据紧邻于 该核酸样本序列的重复序列上游及下游的插入物的一或二个序列的分数,接受或拒绝步骤 (a)的序列信息中核酸样本序列的至少两个重复序列;(d)汇编一个接受序列组,该接受序 列组包括步骤(c)接受的核酸样本序列至少一个重复序列;及(e)使用该接受序列组确定 该核酸样本序列,其中,使用该系统的输出,产生至少一个(i)核酸样本的序列;或(ii)指 示在核酸样本中至少一个位置上有修饰碱基的标记。
在一些实施方案中,本发明提供一种程式编码的储存装置,包括操作系统、使用者 界面软件及指示说明,当由下述操作系统的处理器运行时,即该操作系统包括可操作连接 于包括处理器、储存装置、汇排流系统及至少一个使用者界面元件以及选择性具有使用者 输入的计算装置的测序装置,该程序执行下述方法(a)从环状核酸分子获取序列信息,该 环状分子包含至少一个插入样本单元,该插入样本单元包括核酸插入物及核酸样本,其中 ⑴该插入物具有已知序列,( )该序列信息包括至少两个插入样本单元的序列,及(iii) 产生含至少两个插入样本单元的核酸分子;(b)通过比较该插入物的序列与该插入物的已 知序列,计算步骤(a)的序列信息至少两个插入物的序列的分数;(c)根据紧邻于该核酸样本序列的重复序列上游及下游的插入物的一或两个序列的分数,接受或拒绝步骤(a)之序 列信息的核酸样本序列的至少两个重复序列;(d)汇编接受序列组,该接受序列组包含步 骤(C)接受的核酸样本序列至少一个重复序列;及(e)使用该接受序列组,确认该核酸样本 序列,其中,该方法导致用于产生下述的输出,即至少一个(i)核酸样本的序列;或(ii)指 示在核酸样本中至少一个位置上有修饰碱基的标记。
在一些实施方案中,本发明提供一种确认双链核酸样本的序列及该序列中至少一 个修饰碱基的位置的方法,包括(a)将双链核酸样本的正向链和反向链锁在一起,形成一 环状配对互锁分子(circular pair-locked molecule) ; (b)经由单一分子测序获得该环 状配对互锁分子的序列信息,其中该序列信息包括该环状配对互锁分子的正向链及反向 链的序列;(c)比较该环状配对互锁分子的正向链及反向链的序列,确认该双链核酸样本 的序列;(d)改变该环状配对互锁分子中特定类型碱基的碱基配对特异性(base-pairing specificity),产生改变的环状配对互锁分子;(e)获得该改变的环状配对互锁分子的序 列信息,其中该序列信息包括该改变的正向链及反向链的序列;及(f)通过比较该改变的 正向链及反向链的序列,确认该双链核酸样本序列中修饰碱基的位置。
在一些实施方案中,本发明提供一种确认双链核酸样本之方法,包括(a)锁住核 酸样本的正向链与反向链在一起,形成一环状配对互锁分子;(b)经由单一分子测序,获得 该环状配对互锁分子的序列信息,其中序列信息包括该环状配对互锁分子的正向链及反向 链的序列;及(c)比较该环状配对互锁分子的正向链及反向链的序列,确认该双链核酸样 本的序列。
在一些实施方案中,本发明提供一种确认双链核酸样本的序列及该序列中至少一 个修饰碱基的位置之方法,包括(a)锁住核酸样本的正向链与反向链在一起,形成一环状 配对互锁分子;(b)经由单一分子测序,获得该环状配对互锁分子的序列信息,其中序列信 息包括该环状配对互锁分子的正向链及反向链的序列;及(c)比较该环状配对互锁分子的 正向链及反向链的序列,确定该双链核酸样本的序列及在该双链核酸样本序列中至少一个 修饰碱基的位置。
在一些实施方案中,本发明提供一种确定双链核酸样本的序列及该序列中至少一 个修饰碱基位置的方法,包括
(a)将核酸样本的正向链及反向链锁在一起,形成一环状配对互锁分子;(b)改变 该环状配对互锁分子中特定形式之碱基的碱基配对特异性;(c)通过单一分子测序,获得 该环状配对互锁分子的序列信息,其中序列信息包括该环状配对互锁分子的正向链及反向 链的序列;及(d)通过比较该环状配对互锁分子的正向链及反向链的序列,确定该双链核 酸样本的序列及在该双链核酸样本序列中至少一个修饰碱基的位置。
在一些实施方案中,本发明提供一种确定双链核酸样本的序列及该序列中至少一 个修饰碱基位置的方法,包括
(a)将核酸样本的正向链及反向链锁在一起,形成一环状配对互锁分子;(b)通过 单一分子测序,获得该环状配对互锁分子的序列信息,其中序列信息包括该环状配对互锁 分子的正向链及反向链的序列;(c)比较该环状配对互锁分子的正向链及反向链的序列, 确定该双链核酸样本的序列;(d)通过单一分子测序,获得该环状配对互锁分子的序列信 息,其中使用至少一个区分碱基及其修饰形式的核苷酸类似物,获得序列信息,该序列信息包括在至少一个位置上并入至少一个鉴别标记的核苷酸类似物;及(e)通过比较该正向链 及反向链的序列,确定该双链核酸样本序列中修饰碱基的位置。
在一些实施方案中,本发明提供一种确定双链核酸样本的序列及该序列中至少一 个修饰碱基位置的方法,包括(a)将核酸样本的正向链及反向链锁在一起,形成一环状配 对互锁分子;(b)通过单一分子测序,获得该环状配对互锁分子的序列信息,其中使用至少 一个区分碱基及其修饰形式的核苷酸类似物,获得序列信息,该序列信息包括在至少一个 位置上并入至少一个鉴别标记的核苷酸类似物;及(c)比较该环状配对互锁分子的正向链 及反向链的序列,确认该双链核酸样本的序列及在该双链核酸样本序列中至少一个修饰碱 基的位置。
本发明其它的目的及优点将在下面描述部分中说明,且部分从描述的角度来看是 显而易见的,或者可通过实施本发明而学习。本发明的目的和优点将通过后附的权利要求
所特别指明的要件及组合而了解及达成。
前述的一般说明及下述的详细描述应了解仅为示例性的,如同所声明,不能用以 限制本发明。
附图并入并构成本说明书的一部分,说明本发明的数个实施方式,与描述一起用 于解释本发明的原理。
实施方式
定义
为了使本发明容易了解,定义各项名词如下。在此未定义的名词具有本发明所属 相关技术领域:
中具有通常知识者一般了解的意义。如”一”、”一个”及”该”并非仅表示单 一个体,可包括特定实例可用以说明的一般群组。此述学术用语用于说明本发明的特定实 施方案,但其除在权利要求
中描述者,并非用于限制本发明。
“核酸”包含寡核苷酸及多核苷酸。
“杂交的高度严谨条件”表示两核酸彼此间必须具有高度同质性(homology)才能 进行杂交的条件。杂交的高度严谨条件例如在4X氯化钠/柠檬酸钠(SSC)中、65或70°C 下杂交,或在4X SSC及50%甲酰胺中、在约42或50°C下杂交,之后伴随至少一次、至少两 次、或至少三次在IX SSC中、65或70°C下洗涤。
“解链温度(melting temperature) ”表示一半的核酸在溶液中为链解开(melted) 状态,另一半核酸为链未解开(immelted)状态时的温度,假设有足够的互补核酸存在。 在寡核苷酸存在超过互补序列的情形时,解链温度为一半的互补序列与该寡核苷酸连接 (anneal)的温度。当核酸插入物可形成发卡结构(hairpin)的情形时,解链温度为一半 的插入物为部分自我杂交的”发卡结构”时的温度。由于解链温度受条件影响,此述讨论 的寡核苷酸解链温度为在50mM氯化钠水溶液中、具有0.5μ M寡核苷酸时的解链温度。 解链温度可由多种本领域已知方法估算,例如使用最接近热平衡参数(Allawi et al., Biochemistry, 36,10581-10594 (1997))及标准的热力学方程计算。
如果核酸分子中的一个位置具有一个独特序列及其长度与组成使互补寡核苷酸 具有可接受的解链温度,例如从45 V至70°C、从50 V至70°C、从45°C至65°C、从50 V至 65°C、从 55°C至 70°C、从 60°C至 70°C、从 55°C至 60°C、从 60°C至 65°C、或从 50°C至 55°C, 则该位置适合引物连接。[0033]“延伸引物、寡核苷酸、或核酸”表示在该引物、寡核苷酸、或核酸上添加至少一个 核苷酸。此包括以聚合酶(polymerase)或连接酶(Iigase)活性催化的反应。
“测序引物”是可连接至核酸分子中适合引物连接及测序反应中延伸的位置,以产 生序列信息的寡核苷酸。
当核酸插入物可部分自体杂交且自体杂交形式具有至少15°C的解链温度时,核酸 插入物可形成发卡结构(hairpin)。
“突出(overhang),,为位于双链核酸分子或发卡结构末端的单链片段。
“重复序列”为在一个核酸中出现超过一次以上的序列。当重复序列存在一个 核酸分子中时,所有该序列,包括第一次出现的序列,都认为是重复序列。重复序列包括 彼此反向互补(reverse complement)的序列,例如发生在环状配对互锁分子(circular pair-locked molecule)中。重复序列也包括非完全相同但衍生自相同序列的序列,例 如因为在合成中错误加入的事件或其它聚合酶的错误使序列不同,或者一开始相同或 完整的反向互补的序列,但因为过程中的修饰作用而使序列不同,例如因为光化学转化 (photochemical transition) ^MMiprlSl^hS (bisulfite treatment)白勺|^tf|5#ffl。
当核酸插入物及核酸样本中没有其它插入的重复序列介于该核酸插入物及核酸 样本之间时,该核酸插入物及核酸样本紧邻于对方的上游或下游。在单链分子中,上游表示 5’端方向,下游表示3’端方向。在双链分子中,此极性可任意决定或可根据具方向性的组 成元件(例如启动子、编码序列等)的极性来决定,如果大多数的组成元件方向相同的话。 以RNA聚合酶开始合成的方向为下游确定启动子的极性。以从起始密码子向终止密码子的 方向为下游确定编码序列的极性。
如果两个重复序列彼此为反向互补,或者其中之一或两者为彼此反向互补的衍生 物时,该两个重复序列彼此是正向及反向关系,具有相反的方向(orientation)。定为正向 的重复序列可任意决定或根据如前述该重复序列中组成元件的极性而确定。
修饰碱基是除了腺嘌呤(adenine)、胸腺嘧啶(thymine)、鸟嘌呤(guanine)、胞嘧 啶(cytosine)或尿嘧啶(uracil)以外,可位于核酸或核苷酸中如前述的一个或一个以上 的碱基。
多义密码子(ambiguity code)表示一个序列中的碱基组合的密码子,换句话说, 任何其表示的碱基皆可存在,例如Y =嘧啶(C、U或T) ;R =嘌呤(A或G) ;W =弱(A、T或 U) ;S=强(G 或 C) ;K=酮基(T、U 或 G) ;M=胺基(C 或 A) ;D =非 C(A、G、T 或 U) ;V =非 T 或 U(A、C 或 G) ;H =非 G(A、C、T 或 U) ;B =非 A(C、G、T 或 U)。
位置权重矩阵(position weight matrix)是行(row)对应核酸序列中的位置、列 (column)对应碱基,或者相反对应的矩阵,矩阵中的每一个组成元件是特定位置上的特定 碱基的权重(weight)。通过合计序列中各碱基的权重,可确定该序列对照位置权重矩阵的 分数(score),例如,当序列为ACG时,分数为矩阵第1栏的A权重、第2栏的C权重、及第3 栏的G权重的总和,假设这些栏对应该碱基的位置。通过反复对一序列确定对照矩阵的分 数,可对一个长度大于该矩阵中位置数目的序列运作位置权重矩阵,其起始位置在每一运 作中增加一个位置。在该方法中,可确认产生对应该矩阵的最大或最小分数的序列中的位 置。
“储存装置”表示可由计算机获取的数字信息的储存库,包括RAM、ROM、硬盘、非挥
13发性固态记忆体、光碟、磁碟及其等同物。
“信息结构”是一个物体或含有信息的储存装置中的变量(variable)。信息结构 可含有标量数据(scalar data)(例如个别特征、数量、或字符串)、标量数据的集合(例如 标量的矩阵或阵列)、或递归的集合(例如包含次表(sub-list)、矩阵、阵列和/或标量作 为元件的表列(list),该表列可为多维度的(multidimentional),其中所述次表可含有次 表、矩阵、阵列和/或数值作为元件)。
核酸样本
本发明方法包括确认核酸样本序列和/或确认核酸样本中修饰碱基的位置。”核 酸样本”指本发明方法中待确认的序列和/或修饰碱基位置的核酸。
核酸样本可获自例如DNA(包括基因组DNA、cDNA、mtDNA、叶绿体DNA、及染色体 外或细胞外DNA,但不限于此)或RNA(包括mRNA、初级转录本RNA、tRNA、rRNA、miRNA, siRNA、及snoRNA,但不限于此),但不限于此。核酸样本可来自个体、患者、样本、细胞培 养物、生物膜(biofilm)、器官、组织、细胞、孢子、动物、植物、真菌、原生生物、细菌、古细菌 (archaeron)、病毒或病毒粒体(virion)。在一些实施方案中,核酸样本获自环境样本,例如 来自土壤或水,核酸样本可获自环境样本,无须特别了解核酸是否为细胞、细胞外或病毒来 源。而且,核酸可获自化学或酶催化反应,包括合成、重组、或自然发生的核酸经酶修饰的反 应,例如经甲基转移酶(methyltransferase)催化。
在一些实施方案中,核酸样本是上述来源经过处理的样本。例如分离的核酸 可经剪切片段化,例如经过超声波振动或通过小孔径的移液(pipetting),或通过酶消 化,例如内切酶(endonuclease)而片段化,该内切酶可为限制性内切酶(restriction endonuclease)。在一些实施方案中,核酸样本至少具有一个突出(overhang)。分离 的核酸可先被克隆(clone)并在宿主细胞和/或载体(vector),例如细菌或酵母菌的 人造染色体、微染色体(minichromosome)、质粒(plasmid)、粘粒(cosmid)、染色体外元 件(extrachromosomal element)、或染色体整合构建体(chromosomalIy integrated construct)中增殖。
提供环状核酸分子
在一些实施方案中,本发明方法包括提供环状核酸分子,该环状核酸分子包含插 入样本单元,该插入样本单元含有核酸插入物和核酸样本,其中该插入物具有已知序列。该 环状核酸分子可为单链或双链。
在一些实施方案中,该环状核酸分子是由其来源物分离得到的环状构造分子,如 果该环状核酸分子的序列部分是已知的,则其可作为核酸插入物(例如该环状分子所含的 基因序列中保守的基序(conserved motif)可能是已知的,或者根据该分子在高度严谨条 件下与另一已知序列核酸杂交的能力,可知含有某一序列)。在一些实施方案中,在知道该 核酸插入物序列来自严谨杂交性质的情形下,对该核酸插入物序列的认识并不精确。在一 些实施方案中,在该环状核酸分子具有已知骨架序列(backbone sequence)或者经工程改 造(engineered)含有已知序列的情形下,则对该核酸插入物序列具有精确的认识。
在一些实施方案中,该环状核酸分子来自体外(in vitro)反应或将该核酸样本 与核酸插入物一起并入该环状分子的反应。体外反应,在一些实施方案中,可包括连接酶 (Iigase)催化的接合(ligation)和/或其它,例如可由多种酶催化的链连接反应(strand
14joining reaction),包括重组酶(recombinases)禾口拓扑异构酶(topoisomerases)。DNA连 接酶或RNA连接酶,在接头(adapter)分子或联结子(linker)存在或不存在下,可用于使 一线状模板的两端酶性连接,形成环状。例如,T4RNA连接酶偶联单链DNA或RNA,如Tessier et al.,Anal Biochem,158 171-78 (1986)所述。CIRCLIGASE (TM) (Epicentre, Madison, Wis.)也可用于催化单链核酸接合。或者,双链连接酶,例如E. coli或T4 DNA连接酶,可用 于环化反应。
在一些实施方案中,提供该环状核酸分子包括以含有互补区域的引物(primer) (引物可为具有已知序列的5’垂悬(flap)的任意引物,该已知序列可作为核酸插入 物)放大一核酸模板(template),环化该经扩增的核酸,例如通过连接酶或重组酶催化。 该经扩增的核酸,在一些实施方案中,可在环化之前对其末端进行处理,例如限制切割 (restriction)或磷酸化。
在一些实施方案中,该环状核酸分子通过进行化学环化作用提供。化学 方法采用已知的偶联剂(coupling agent),例如BrCN与咪唑及二价金属、N-氰基 咪唑(N-cyanoimidazole)与ZnCl2、l_ (3- 二甲基氨基丙基)_3_乙基碳化二亚胺 (ethylcarbodiimide)盐酸盐、及其它碳化二亚胺(carbodiimides)与羰基二咪唑 (carbonyl diimidazole)。线状模板的末端也可以通过缩合(condense) 5,-磷酸与3,-羟 基或5’ -羟基与3’ -磷酸而连接。
在一些实施方案中,环状核酸分子为环状配对互锁分子(circular pair-locked molecule ;cPLM)。此类型的分子在下面详述。
提供核酸样本的正向及反向重复序列;环状配对互锁分子
在一些实施方案中,本发明方法包括提供核酸样本的正向及反向重复序列,及将 该正向链及反向链锁在一起形成cPLM。cPLM的一般结构如图3所示。cPLM是单链环状核酸 分子,包括核酸样本的正向及反向重复序列,该重复序列由核酸插入物包围,如图3A所示。 该核酸插入物可为相同或相异。在一些实施方案中,该插入物具有至少50nt或至少IOOnt 的长度。在一些实施方案中,该插入物的长度为50或IOOnt至10,000或50,OOOnt0
线状双链核酸样本的双链可彼此锁在一起,形成cPLM,例如通过接合(Iigate)在 分子端形成发卡结构(hairpin)的核酸插入物。在一些实施方案中,形成发卡结构的核酸 插入物具有至少 20°C、25°C、30°C、35°C、40°C、45°C、50°C、55°C、60°C、65°C或 70°C 的解链 温度。该接合(ligation)可为平端(blunt-end)或粘性末端(sticky-end)连接。发卡结 构结构具有碱基对的干区(stem region)及未配对的环区(loop region)。在一些实施方案 中,插入的核酸包括至少20、22、25、30、或35个核苷酸大小的环区。在一些实施方案中,该 环区适合引物连接。在一些实施方案中,该环区以至少451、501、551、601、651或701 的解链温度与引物连接。
在一些实施方案中,该核酸样本包含不同的粘性末端(sticky end),例如可由限 制酶分解不同的限制位(restriction sites)而产生,这些不同的粘性末端有利于不同的 核酸插入物接合(ligation)。在一些实施方案中,以此方式待转换的双链核酸可通过沿着 含有所希望的样本序列的模板延伸包含已知序列的5’垂悬(flap)的任意引物而获得。
双链核酸的双链也可经由酶处理使双链端转换成发卡结构,彼此双链锁在一 起形成cPLM,例如经由重组酶(recombinanase)与双链分子的一端形成磷酸酪氨酸(phosphotyrosin)连结,之后另一链对该磷酸酪氨酸的连结作亲核性攻击(nucleophilic attack),形成发卡结构。λ整合酶(integrase)及Flp重组酶等家族成员(如 Chen et al. , Cell 69,647-658(1992) ;Roth et al. , Proc Natl Acad Sci USA 90, 10788-10792(1993))是该重组酶的实例。在一些实施方案中,核酸样本包括酶的识别序列, 该酶使双链端转换成发卡结构。在一些实施方案中,使双链端转换成发卡结构的酶的识别 序列附着于该核酸样本,例如通过接合(ligation)。
在一些实施方案中,样本核酸开始以单链形式获得,在形成cPLM前,转换成双链 形式。此可通过例如使发卡结构(hairpin)与突出(overhang)接合至该样本核酸的3’端, 然后由该接合的发卡结构自3’端延伸,形成互补链而达成。之后可将第二发卡结构连接至 该分子,形成cPLM。
核酸插入物
本发明的方法包括提供和/或使用环状核酸分子,包括cPLM,该环状核酸分子包 括至少一个核酸插入物。在一些实施方案中,该至少一个核酸插入物具有部分的、不精确 的、或完全的已知序列,如上所述。在一些实施方案中,该至少一个核酸插入物的序列是 完全已知的。在一些实施方案中,该至少一个核酸插入物包括寡核苷酸的合适结合位点 (binding site),该寡核苷酸包括测序引物。在一些实施方案中,该至少一个插入核酸形成 发卡结构(hairpin)。
在一些实施方案中,该至少一个核酸插入物具有10-300个、15-250个、30-200 个、或30-100个核苷酸残基的长度。在一些实施方案中,该至少一个核酸插入物具有 450C -70°C或 50°C -65°C 的解链温度。
在一些实施方案中,该至少一个核酸插入物包括一启动子(promoter),例如T7 RNA 聚合酶启动子(如 Guo et al.,J Biol Chem 280,14956-14961 (2005))。启动子由 RNA 聚合酶辨识,是RNA合成开始的位置。其它的启动子在该技术领域:
中亦是已知的。
插入样本单元
本发明中使用的环状核酸分子包括至少一个核酸样本及至少一个核酸插入物,组 成至少一个插入样本单元。插入样本单元为核酸片段,其中核酸插入物位于紧邻核酸样本 的上游或下游。
在一些实施方案中,该环状核酸分子是cPLM,包含两个插入样本单元,在此二插入 样本单元中的核酸样本彼此互为相反方向(orientation),S卩,一个是核酸样本的正向重复 序列,另一个是反向重复序列。需注意cPLM可考虑为包含两个插入样本单元,其中该插入 物位于该样本的上游或下游,亦即,依照如图3B所示结构的cPLM,依序包含组成元件11 (正 向重复序列)、14 (插入物)、12 (反向重复序列)、及13 (插入物),13接回11,使该环封闭。 不论该插入样本单元是否是11与14及12与13,或13与11及14与12,该分子包含两个 插入样本单元。在实施例中,当该插入物的方向(orientation)和/或其相对于该样本的 定位(positioning)是功能上显著的时,例如该插入物包括一启动子或引物结合位点,其 最有效于组合该插入样本单元,从而组合该插入物与样本朝向引物结合位点或启动子的方 向,亦即,该样本可由引物结合位点或启动子开始由聚合酶复制。
获取序列信息
测序方法
16[0071]本发明方法包括获取序列信息。在一些实施方案中,包括至少两个插入样本单元 的核酸分子在获取序列信息的步骤中产生。在一些实施方案中,包含至少两个插入样本单 元的核酸分子可通过从提供的环状核酸分子合成而产生。在一些实施方案中,包含至少两 个插入样本单元的核酸分子可通过改变提供的环状核酸分子而产生,例如通过将该环状核 酸分子转换为线状核酸分子,在一些实施方案中,该核酸分子可为单链。在一些实施方案 中,核酸分子中的至少一个磷酸二酯键(phosphodiester)在获取序列信息的步骤中形成 或断裂,该核酸分子可为提供的环状核酸分子或其模板合成产物。
在一些实施方案中,序列信息通过合成方法测序而获得。在一些实施方案中,序 列信息使用单一分子测序方法而获得。在一些实施方案中,单一分子测序方法选自焦磷 酸测序(pyrosequencing)、可逆终止密码子测序(reversible terminator sequencing)、 连接测序(ligation sequencing)、纳米孔测序(nanopore sequencing)、及第三代测序 (third-generation sequencing)。
在一些实施方案中,序列信息使用大量(bulk)测序方法而获得,例如Sanger测序 或 Maxam-Gilbert 测序。
单一分子测序方法与大量测序方法不同在于,单一核酸分子是否为测序过程的一 部分而分离。核酸分子可为单链或双链,就目的而言,两个粘合的核酸链被认为是单一分 子。单一分子的分离可发生在微孔(microwell)中,经由使用纳米孔(nanopore),以可光学 切割(optically resolvable)形式直接或间接附着于基底物质,例如显微玻片,或者以任 何其它容许由个别分子获得序列信息的方式。在间接附着中,单一分子通过连接于该单一 分子(例如蛋白质或寡核苷酸)的连接结构(linking structure)附着于基底物质。特别 是单一分子被分离、之后扩增,序列信息直接由该扩增产物中获得的方法仍被认为是单一 分子方法,因为单一分子被分离,并作为该序列信息的基本来源。(相反地,在大量测序方法 中,使用含有多分子的核酸样本,获得含有源自多个分子信号的信息)。在一些实施方案中 进行单一分子测序,其中冗余序列(redundant sequence)获得自同一分子。冗余序列可通 过在一个分子中对至少两个直接或倒转(inverted)的重复序列测序而获得,或者通过对 该分子的相同部份进行一次以上的测序而获得。冗余序列可为完全冗余或有某些变异的部 分的冗余,例如因为特定类型碱基的碱基配对特异性(base pairing specificity)改变所 造成的差异,或者因为测序过程中可能发生的错误所造成的差异。在一些实施方案中,碱基 配对特异性的改变可发生于测序之前。在一些实施方案中,相同的分子被测序数次,可选地 经中间处理(intervening treatment),该中间处理选择性地改变重复测序之间发生的特 定类型碱基的碱基配对特异性。
Sanger测序涉及使用标记的双脱氧基链终止序列(dideoxy chain terminator),是该技术领域:
所周知的(如 Sanger et al. , Proc Natl Acad Sci USA 74, 5463-5467(1997))。Maxam-Gilbert测序涉及在核酸样本的部分进行多重部分化学降解 反应,之后检测及分析片段,推测该序列,亦是该技术领域:
所周知的(如Maxam et al., Proc Natl Acad Sci USA 74,560-564(1977))。另一大量测序方法是通过杂交测序,其中 根据该样本对复数个序列的杂交性质,推导该样本序列,例如在微阵列或生物芯片中(如 Drmanac,et al. , Nat Biotechnol 16,54-58(1998))。
单一分子测序方法一般性的讨论于,例如Kato,Int J Clin Exp Med 2,
17193-202 (2009),并作为本案参考。
焦磷酸测序(pyrosequencing)、可逆终止密码子测序(reversible terminator sequencing)及连接测序(ligation sequencing)被认为是第二代测序方法。一般而言,这 些方法使用产生自单一分子的扩增产物,与产生自其它分子的扩增产物在空间上分离。该 空间上的分离可通过使用乳化液、皮升(picoliter)孔、或固定于玻片上进行。序列信息通 过核苷酸上的荧光获得,在获取信息后,去除新并入的核苷酸的荧光,并对下一个核苷酸重 复此过程。
在焦磷酸测序(pyrosequencing)中,由聚合反应中释放的焦磷酸离子在ATP硫酸 化酶(sulfurylase)催化下与腺嘌呤5,磷酸硫酸(adenosine 5,phosphosulfate)反应, 产生ATP,ATP之后驱动荧光素(Iuciferin)在荧光素酶(Iuciferase)催化下转换为氧化 荧光素(oxyluciferin)及光。由于荧光为瞬间的,在此方法中不需要另一个分离步骤去除 荧光。此时加入一种脱氧核苷酸三磷酸(dNTP),根据在反应位点上的dNTP产生的明显信 号,辨别序列信息。可市购的Roche GS FLX仪器使用此方法获得序列。此技术及其应用如 下述详细讨论,例如 Ronaghi et al.,Anal Biochem 242,84—89 (1996)及 Marguilies et al. , Nature 437,376-380 (2005)(更正于 Nature 441,120(2006))。
可逆终止密码子测序(reversible terminator sequencing)中,在单一碱基延 伸反应里并入经荧光染料标记的核苷酸类似物(analog),因为阻断基(blocking group) 的存在,该核苷酸类似物是可逆的链终止密码子。根据荧光团(fluorophore)确认碱基, 换句话说,每一个碱基与不同的荧光团配对。在获取荧光/序列信息后,化学性移除该荧 光团及阻断基,重复此周期,以获取序列信息的下一个碱基。发光GA仪器(Illumina GA instrument)即以此方法操作。该技术及其应用详细讨论于如Ruparel et al. ,Proc Natl Acad Sci USA 102,5932-5937(2005)及 Harris et al. , Science 320,106-109(2008)。
连接测序(ligation sequencing)中使用连接酶使具有突出的部份双链的寡核苷 酸与待测序的核酸连接,该核酸具有突出,为了使接合(ligation)发生,该二个突出必须 互补。部分双链寡核苷酸的突出的碱基可根据连接至该部分双链寡核苷酸和/或连接至 与该部分双链寡核苷酸的其它部分杂交的次级核苷酸之荧光团而确认。获取荧光信息后, 该接合复合体(ligated complex)在结合位点的上游被切割,例如使用IIs型限制酶,如 Bbvl,其在距离其识别位点固定距离的位置(该识别位点包含于该部分双链寡核苷酸中) 切割。该切割反应在紧邻先前突出的上游暴露出新的突出,并重复此过程。此技术及其应 用详细讨论于如 Brenner et al.,Nat Biotechnol 18,630-634 (2000)。在一些实施方案 中,本发明方法采用连接测序,获得环状核酸分子的滚环扩增产物,及使用该滚环扩增产物 作为模板,进行连接测序。
纳米孔测序(nanopore sequencing)中,单链核酸分子经孔穿过,例如使用电泳驱 动力(electrophoretic driving force),分析该单链核酸分子穿过孔时所获得的信息,推 测序列。该信息可为离子电流信息,其中每一个碱基改变该电流,例如经由部分阻断通过孔 的电流,使电流为不同、可区别的程度。
第三代测序中,使用表面涂覆具有多小洞( 50nm)的铝涂层之玻片,作为零模式 波导(如Levene et al. ,Science 299,682-686 (2003))。该铝表面经由聚磷酸化学,例如 聚乙烯磷酸化学使DNA聚合酶附着而受到保护(如Karlach et al. ,Proc Natl Acad Sci
18USA 105,1176-1181(2008))。这导致DNA聚合酶分子优先附着于该铝涂层洞中暴露的二氧 化硅(silica)。该设置使逐渐消失的波现象(wave phenomena)被用于减少荧光背景,允许 使用较高浓度的荧光标记的dNTP。荧光团(fluorophore)附着于dNTP的末端磷酸,从而在 并入dNTP时释放荧光,但是荧光团不附着于新并入的核苷酸,表示该复合体可立即进行另 一周期的并入。通过该方法可检测该铝涂层洞中个别引物模板复合体的dNTP的并入(如 Eid et al, Science 323,133-138(2009))
测序模板;获得的测序信息量
在一些实施方案中,序列信息直接获自环状核酸分子,亦即使用该环状核酸分子 作为模板。作为模板的环状核酸分子可为环状配对互锁分子。在一些实施方案中,序列信 息获得自产物核酸分子,其自身使用环状核酸分子作为模板而合成,即获得序列信息所使 用的模板可为由环状核酸分子模板合成的产物核酸分子。在一些实施方案中,序列信息获 自环状核酸分子模板及合成自环状核酸分子模板的产物核酸分子。
在一些实施方案中进行滚环扩增(rolling circle amplication),包含使用环状 核酸分子为模板,合成含有至少两个插入样本单元的产物核酸分子。在一些实施方案中,滚 环扩增包括合成含有至少3、4、5、10、15、20、25、50或100个插入样本单元的产物核酸分子。 使用滚环扩增以制造大量模板复制物在该技术领域:
中是周知的(如Blanco et al. ,J Biol Chem 264,8935-8940(1989)及Ban6r et al. ,Nucleic Acids Res 26,5073-5078 (1998))。 滚环扩增可为测序的一部分,其中该环状核酸分子为测序的模板,或合成作为测序模板的 产物核酸分子。
不考虑模板,根据本发明方法获得的序列信息包括该核酸样本序列的至少两个重 复序列,该至少两个重复序列在一些实施方案中包括该核酸样本序列中至少一个正向重复 序列及该核酸样本序列中至少一个反向重复序列。在一些实施方案中,序列信息包括该核 酸样本序列的至少3、4、5、10、15、20、25、50或100个重复序列。在一些实施方案中,序列信 息包括该核酸样本序列的至少2、3、4、5、10、15、20、25、50或100个正向重复序列。在一些 实施方案中,序列信息包括该核酸样本序列的至少2、3、4、5、10、15、20、25、50或100个反向 重复序列。在一些实施方案中,序列信息包括该核酸样本序列的至少2、3、4、5、10、15、20、 25,50或100个正向及反向重复序列。
计算分数
在一些实施方案中,本发明方法包括通过比较该插入物的序列与该插入物中的已 知序列,计算该序列信息中至少两个插入物序列的分数。在一些实施方案中,当该插入物序 列只有部分已知或不精确地已知,该核酸插入物的已知序列可包括不确定或未知的位置, 例如通过使用多义密码子(ambiguity code)或位置权重矩阵(position weight matrix)。
比较该插入物的序列与该插入物中的已知序列包括确认该序列信息中至少两个 插入物的序列。确认该序列在一些实施方案中可以通过目视观察进行,即通过人用视觉扫 描序列信息并发现其中的插入核酸序列,或通过计算机帮助比对的方法(如国际专利申请 案公开号W02009/017678)。在一些实施方案中,序列的确认可通过识别该序列的演算法扫 描序列信息而进行,例如对序列信息中的多个位置进行重复或探索计算分数,确认对应最 接近该核酸插入物中已知序列的局部极值(local extrema)。在一些实施方案中,对至少两 个核酸插入物序列的鉴别可与计算分数同时进行,两种方法可使用相同分数。[0090]在一些实施方案中,计算分数包括使用适当比对演算法进行比对,此方法在 本领域中多数为已知且容易取得,例如BLAST、MEGABLAST、Smith-Waterman比对及 Needlemen-Wunsch 比对(如 Altschul et al.,J Mol Biol 215,403-410 (1990))。适当的 比对演算法包括容许间隔(gap)及不容许间隔的演算法。或者,在一些实施方案中,计算分 数包括使用演算法分析序列,例如对序列运行位置权重矩阵(position weight matrix)并 计算对应该序列的矩阵元件的总和。这样,可计算分数,如通过将该矩阵以逐步的方式用于 序列读取来计算局部最大值的。
在一些实施方案中,该分数与该至少两个核酸插入序列对已知序列的接近程度 呈正相关(例如精确匹配(match)的最大可能分数)。该正相关分数包括同一性百分比 (percent identity)、位分数(bit scores)、及符合碱基计数(matching base count),但 不限于此。
在一些实施方案中,该分数与该至少两个核酸插入序列对已知序列的接近程度 呈负相关(例如精确匹配的最小可能分数)。该负相关分数包括e值(e-value)、误配数 (number of mismatches)、误配数及间隔(gap)、误配百分比(percent mismatched)、及误 配/间隔百分比(percent mismatched/gapped),但不限于此。
在一些实施方案中,以比率(rate)为基础计算分数。比率基础上计算的分数的可 能范围不会作为待比较的序列长度的函数而改变。比率基础上计算的分数例如同一性百分 比(percent identity)及误配/ 间隔百分比(percent mismatched/gapped),但不限于此。
在一些实施方案中,以计数(count)为基础计算分数。计数基础上计算的分数的 可能范围会作为待比较的序列长度的函数而改变。计数基础上计算的分数例如位分数(bit scores)、误配数(number of mismatches)、误配及间隔数(number of mismatches and gaps)及匹配碱基计数(matching base count),但不限于此。
接受或拒绝核酸样本序列的重复序列;接受序列组
在一些实施方案中,本发明方法包括接受或拒绝该序列信息中核酸样本序列的重 复序列,根据该核酸样本序列的重复序列上游及下游紧邻的插入物之一或两个序列分数来 决定。因此在不同的实施例中,紧邻该核酸插入物的上游及下游两者的分数、其中之一的分 数、或特定的其中之一的分数,用于决定是否接受或拒绝该序列信息中的核酸样本序列。
在一些实施方案中,当分数与该至少两个核酸插入物序列对已知序列的接近程度 为正相关时,若分数大于、大于或等于阈值(threshold value),则接受序列。适当阈值的选 择与多重因素有关,包括使用分数的类型、测序方法的错误率、对时间及冗余(redundancy) 的考量。
接受及拒绝该核酸样本序列的重复序列可由多种方式进行,从而使得使用至少一 个接受的重复序列,不使用任何一个拒绝的重复序列,来确定该核酸样本序列。接受及拒绝 重复序列可以与或可以不与汇编接受序列组以协调的方式进行。例如当接受的重复序列接 受进入新的信息结构时,该接受的重复序列的序列可被复制,该信息结构变成接受序列组。 或者,当被拒绝时,拒绝的重复序列可被删除或盖写(例如以”0”或”X”字母标示无信息或 排除的信息),在此情形时,一旦拒绝的序列被删除或盖写,原始信息结构就被修改,从而变 成接受序列组。在这些实例中,接受及拒绝重复序列与汇编接受序列组以协同的方式进行。
在一些实施方案中,核酸样本序列的重复序列可因额外的因素被拒绝,例如长度
20偏离该核酸样本序列中其它重复序列的长度(如图7B)。例如,如果该核酸样本序列的 重复序列的长度,偏离其它核酸样本序列的平均值或中间值长度的阈值范围(threshold extent),或偏离接受序列组的预定版本的平均值或中间值长度的阈值范围(threshold extent),其中该接受序列组包括如前述根据紧邻该核酸样本序列重复序列的上游及下游 的插入物之一或两个序列的分数而接受的该核酸样本序列的重复序列,则该核酸样本序列 的重复序列被拒绝,计算中间值长度或平均长度可以考虑或可以不考虑暂时移除可能拒绝 的该核酸样本序列的重复序列。阈值范围(threshold extent)可以绝对长度表示,例如1、 2、5、10、20或50个核苷酸,或以相对长度表示,例如1%、2%、5%、10%、20%或50%,或者 以统计测量表示,例如标准差,如0. 5、1、1.5、2、2. 5、3、3. 5、4或5个标准差。
或者,序列可被标记(flagged)为接受或拒绝,且在标记过程完成之后,接受的序 列可被复制,形成新的信息结构,或者拒绝的序列可被删除或盖写,产生不同的接受序列 组。
接受序列组可选自包括单一信息字符串(single data string)及多元件变异 (multi-element variable)的形式,该单一信息字串包括该核酸样本序列的至少一个接受 的重复序列及任何额外的连锁状态的接受重复序列,该多元件变异的每一元件表示该核酸 样本或其次部分(subpart)序列中接受的重复序列。在一些实施方案中,该多元件变异选 自一目录(list)、阵列(array)、散列(hash)及矩阵(matrix)。任何容许储存核酸样本序 列至少一个接受的重复序列及随后确定核酸样本序列之信息结构形式皆适合使用。
在一些实施方案中,当接受序列组的形式不同于原始序列信息的形式(例如原始 序列资料为字符串(string)形式,接受序列组为多元件信息结构形式,例如阵列),在获得 该原始序列信息之后及产生最终接受序列组之前,原始序列信息可剖析为包含重复序列、 插入样本单元、或位于紧邻上游插入物及下游插入物的样本重复序列的组成元件,此剖析 (parsing)步骤可发生在上述计算分数的步骤之前或之后。
确定该核酸样本序列;共有序列(consensus sequences);置信水平(confidence levels)
在一些实施方案中,本发明包括确定核酸样本的序列。
确定核酸样本序列的模式可根据在接受序列组中核酸样本重复序列的数目有条 件地选择。例如,当接受序列组仅包含一个接受的重复序列,核酸样本序列可确认为该接受 的重复序列的序列。当接受序列组包含两个或至少三个接受的重复序列时,核酸样本序列 可确认为该接受的重复序列之共有序列(如下所述)。当接受序列组包含至少三个接受重 复序列时,对于共有序列如何确认有更多选择。
共有序列(consensus sequence)
共有序列由接受的重复序列比对而确定(如上述”计算分数”段落所述),比对中 在接受的重复序列具有相同碱基的位置上,共有序列也包含该碱基。在一些实施方案中, 在比对中接受的重复序列不包含相同碱基的位置上,共有序列则包含适当的多义密码子 (ambiguity code)(例如当接受的重复序列为A及G的位置上,以R表示)。在一些实施 方案中,在比对中接受的重复序列不包含相同碱基的位置上,共同性序列则包含N或其它 表示未知碱基的符号。在一些实施方案中,在比对中接受的重复序列不包含相同碱基的位 置上,共有序列则包含在获取序列时产生更强或更有力的讯号接受的重复序列的碱基(例
21如,如果原始信息为荧光形式,根据发出的较亮荧光(在一些实施方案中,是在适当的正常 化和/或标准化之后)的碱基位于共有序列中)。
当共有序列从包含至少三个接受的重复序列的接受序列组中确认时,在一些实施 方案中,共有序列的每一个位置的碱基可经由多数决(majority vote)而确定;即,将存在 于接受的重复序列一半以上的位置的碱基,置于共有序列对应的位置。当接受的重复序列 在该位置上不一致从而对该位置无法得到多数决时,共有序列中该位置的碱基则以其它方 式确定,例如可使用复数决(plurality vote)(即,将最常出现于接受的重复序列中一位置 上的碱基,置于共有序列中对应的位置),或可使用前述方法。
在一些实施方案中,当从包含至少三个接受重复序列的接受序列组确认共有序列 时,该共有序列的每一个位置的碱基,在一些实施方案中,可根据该接受重复序列的位置上 每一个碱基的频率而被确定。因此,该共有序列可以核酸样本每一个位置的每一个碱基可 能性的概率表示。此表示可以位置权重矩阵(position weight matrix)形式表示。在一 些实施方案中,位置权重矩阵的组成元件为在接受重复序列比对中每一个位置所观察到的 每一个碱基的频率。
在一些实施方案中,位置权重矩阵的组成元件由接受重复序列比对中每一个位置 所观察到的每一个碱基的频率来计算,其它因素也可以用于此计算,例如当获得序列中以 较其它重复序列具有较强或较稳固的信号所获得的一些接受的重复序列时,接受的重复序 列可给予较多权重(weight),和/或其它重复序列给予较少权重。调整权重的程度可基于 例如信号强度而定量确定,或者为固定的调整,例如以相对强信号获得的碱基,其权重可增 加如50 %或100 %,和/或以相对弱讯号获得的碱基,其权重可减少如33 %或50 %。
在一些实施方案中,位置权重矩阵的组成元件为衍生自每一位置的每一碱基(可 能如上述权重)转换频率(transformed frequencies)的值。频率可通过,例如对数化 (logarithmically)或指数化(exponentiation)转换,在一些实施方案中,转换具有降低 碱基权重(down weighting bases)禾口 /或提高碱基权重(up weighting bases)的作用, 其中被降低权重碱基鲜少在位置上观察到,和/或被提高权重的碱基则通常在位置上观察 到。例如,如果T在N个接受重复序列的比对中一位置上出现M次,其中N > 2且M < Ν/2, C出现其余次数(即N减M的次数),则在一些实施方案中,这些频率的转换可导致在位置 权重矩阵中T权重少于Ν/Μ(或对应的百分比),和/或C权重大于(N-M) /N(或对应的百分 比)。在一些实施方案中,选择转换方式从而使得仅仅最常观察到的碱基(或在频率相同情 况下的多个碱基)权重提高。
置信水平(confidencelevels)
在一些实施方案中,对于核酸样本序列中至少一个位置确定置信水平。置信水平 可以数种方式表现,例如整体碱基判断精确值(overall base call accuracy value),以百 分比或phred分数(phred score),或错误率表示。在一些实施方案中,置信水平由位置上 最常见的碱基频率来确认,或由非最常见碱基的组合频率而确认。在一些实施方案中,这些 频率如上述被转换、提高权重和/或降低权重。
确定整体序列的置信水平;实时(real time)确定核酸样本的序列及置信水平和 /或确定核酸样本的序列及置信水平至一希望的置信水平
在一些实施方案中,本发明方法包括确定整体序列的置信水平。整体序列的置
22信水平可以数种方式表现,例如为整体碱基判断精确值(overall base call accuracy
value),以百分比或phred分数(phred score)表示;或错误率;或为序列中错误的预期数目。
个别位置的置信水平,如上段所述,可用于计算整体序列的置信水平。例如所有的 置信水平可确定为核酸样本序列每一位置的置信水平的统计族群的算数平均值、几何平均 值、中间值、或模式置信水平(modal confidential level)。在一些实施方案中,核酸样本 序列每一位置的置信水平的统计族群在计算整体序列的置信水平前经过处理,例如排除离 群值(outlier)。
在一些实施方案中,本发明方法包含实时确定核酸样本序列及置信水平。这些实 施例中,在测序步骤中获得的信息进行确定序列及置信水平并同时获取额外的序列信息, 例如来自滚环扩增产物的额外重复序列。当获得该额外的序列信息时,被确定的序列及置 信水平皆被更新。在一些实施方案中,实时过程持续到达到预先选择的置信水平为止。预 先选择的置信水平可为,例如90%,95%,99%,99. 5%,99. 9%,99. 95%或99. 99%的碱基 判断精确度。预先选择的置信水平可针对整体序列或序列中部分位置的序列,可选自例如 50%,67%,75%,80%,85%,90%,95%,98%,99%,99. 5%及 99. 9%的值。
多样本;组合(assembling)重叠群(contig)
在一些实施方案中,本发明方法包括使用至少一个相同来源、物种、或品系 (strain)作为具有如下序列的核酸样本的其它样本,其中该序列与该核酸样本序列部分 重叠,重复该方法的步骤,从而确定至少一个其它序列,并组合原始样本序列与该至少一个 其它序列,形成一个重叠群。在一些实施方案中,本发明方法包括使用许多样本重复该方 法的步骤,从而产生长度超过0. 5、1、2、5、10或IOOkb的重叠群,或超过1、2、5、10、100或 1,000Mb的重叠群。在一些实施方案中,该重叠群代表核酸分子的完整序列,或除了核酸分 子中异染色质(heterochromatic)或抵抗(refractory)区域之外的完整序列,可为例如染 色体、微染色体(mini chromosome)、人工染色体、病毒基因组(viral genome)、或染色体外 元件,但不限于此。重叠群的组合可使用该技术领域:
已知方法进行。
修饰的碱基
在一些实施方案中,核酸样本包括至少一个修饰碱基,例如5-甲基胞嘧啶 (5-methylcytosine)、5_ 溴尿啼唆(5-bromouracil)、尿啼唆(uracil) >5,6- 二氧尿啼唆 (5,6-dihydrouracil)、核糖胸腺嘧啶(ribothymine)、7_ 甲基鸟嘌呤(7-methylguanine)、 次黄嘌呤(hypoxanthine)、或黄嘌呤(xanthine)。尿嘧啶在DNA链中可为修饰碱基,核糖胸 腺嘧啶在RNA链中可为修饰碱基。在一些实施方案中,双链核酸样本中至少一个修饰碱基 以不同于其优选配对碱基的碱基配对特异性(base pairing specificity)进行配对。这 出现于,例如当双链分子的一个碱基进行将该碱基由标准碱基转换成修饰碱基的反应(例 如因为偶发的氧化作用,或暴露于诱变剂(mutagenizing agent)下,例如放射线或化学诱 变原(mutagen)),且该修饰碱基具有不同的优选配对碱基时。
优选的配对碱基基于华生-克立克(Watson-Crick)碱基配对规则。例如腺嘌呤 (adenine)的优选配对碱基为胸腺嘧啶(thymine)(或尿嘧啶(uracil)),反之亦然;胞嘧 啶(cytosine)的优选配对碱基为鸟嘌呤(guanine),反之亦然。修饰碱基的优选配对碱基 在该技术领域:
中一般是周知的,或可基于位于类似前述标准碱基的氢键供体与受体的存在
23而预测。例如次黄嘌呤(hypoxanthine)在嘌呤环的6位上具有一氢键受体(双键氧),类 似鸟嘌呤,因此其优选的配对碱基为胞嘧啶,胞嘧啶在嘧啶环的6位上具有一氢键受体(胺 基)。特别是次黄嘌呤可由腺嘌呤脱氨作用(deamination)而形成。由于DNA中的腺嘌呤 正常应与胸腺嘧啶配对,该脱氨反应可导致次黄嘌呤-胸腺嘧啶配对,其中该修饰碱基次 黄嘌呤不与其优选配对碱基配对。胞嘧啶也可经脱胺而形成尿嘧啶。就DNA而言,尿嘧啶 视为修饰碱基,且如果其与鸟嘌呤配对(可由正常双链DNA中的胞嘧啶脱氨作用而造成), 则也是修饰碱基尿嘧啶未与其优选配对碱基配对的情形。
修饰碱基的检测;改变特定类型碱基的碱基配对特异性
在一些实施方案中,本发明的方法包括改变特定类型碱基的碱基配对特异性 (base pairing specificity)。改变特定类型碱基的碱基配对特异性包括特异地改变未修 饰版本碱基(例如胞嘧啶)的碱基配对特异性。此情形中,不改变至少一种修饰类型碱基 (例如5-甲基胞嘧啶)的碱基配对特异性。
或者,改变特定类型碱基的碱基配对特异性可包括特异地改变修饰类型的碱基 (例如5-甲基胞嘧啶)碱基配对特异性,但不改变未修饰类型碱基(例如胞嘧啶)。
在一些实施方案中,改变特定类型碱基的碱基配对特异性包括光化学转化 (photochemical transition),将5-甲基胞嘧啶(非未修饰的胞嘧啶)转换成胸腺嘧啶 (如 Matsumura et al. ,Nucleic Acids Symp Ser No. 51,233—234 U007))。该反应将进行 光化学转化的碱基的碱基配对特异性由鸟嘌呤改变成腺嘌呤(鸟嘌呤与5-甲基胞嘧啶配 对,腺嘌呤与胸腺嘧啶配对)。
在其它实施方案中,改变特定类型碱基的碱基配对特异性包括重亚硫酸转换 (bisulfite conversion),将胞嘧啶(但非5-甲基胞嘧啶)转换成尿嘧啶(如Laird et al. , Proc Natl Acad Sci USA 101,204-209(2004) ^Zilberman et al. , Development 134,3959-3965 (2007))。此反应将进行重亚硫酸转换的碱基的碱基配对特异性由鸟嘌呤改 变成腺嘌呤(鸟嘌呤与胞嘧啶配对,腺嘌呤与尿嘧啶配对)。
在另外的其它实施方案中,修饰碱基的检测可不需改变步骤,例如当该修饰碱 基具有相对于该碱基未修饰类型的改变的碱基配对特异性的情况下。该碱基的实例可 包括5-溴尿嘧啶、尿嘧啶、5,6- 二氢尿嘧啶、核糖胸腺嘧啶(ribothymine)、7-甲基鸟 曙吟(7-methylguanine)、次黄 口票吟(hypoxanthine)、或黄口票吟(xanthine)。如 Brown, Genomes,2nd Ed. , John Wiley & Sons, Inc. , New YORK, NY,2002, chapter 14,"Mutation, Repair, and Recombination”讨论5-溴尿嘧啶倾向发生酮-烯醇互变现象(keto-enol tautomerization),导致其与鸟嘌呤的配对相对于与腺嘌呤的配对增加,以及因腺嘌呤脱 氨作用形成次黄嘌呤(次黄嘌呤优先与胞嘧啶配对,胜于胸腺嘧啶)。
区别碱基及其修饰型的核苷酸类似物(nucleotide analog)
在一些实施方案中,使用至少一个区别碱基及其修饰型的核苷酸类似物(“区别 类似物”,优先与一碱基配对,但不与其它碱基及其修饰型配对)获得序列信息。核苷酸类 似物可如其为4个标准碱基以外的第5个碱基而被使用及被检测,例如通过在可逆终止密 码子测序或连接测序中使用差别(differential)的标记,或者将其用于焦磷酸测序中,其 中核苷酸可一次加入一个然后清洗去除。在一些实施方案中,该区别的类似物在其对应的 天然核苷酸加入之前加入(如在焦磷酸测序中)或以其同系(congate)天然核苷酸浓度之
2410-100倍以上的浓度范围(如在可逆终止密码子测序中)提供。例如区别的类似物可为脱 氧鸟嘌呤三磷酸(deoxyguanosine triphosphate)类似物,其区分胞嘧啶及5_甲基胞嘧啶 (例如其与胞嘧啶配对,但不与5-甲基胞嘧啶配对)。该类似物可以高于脱氧鸟嘌呤三磷 酸浓度10-100倍范围的浓度提供。在此情形下,该类似物通常应会在其有其优先配对的碱 基的相对位置并入,但是天然碱基通常并入该类似物非优选配对的碱基的相对位置。
区别类似物的实例可见于美国专利USP 7,399,614,包括例如以下的分子,其可区
别未修饰的胞嘧啶及5-甲基胞嘧啶,即优选与前者分子配对
权利要求
1.一种确定核酸样本序列的方法,包括a.提供环状核酸分子,所述环状核酸分子包括至少一个插入样本单元,所述插入样本 单元包括核酸插入物及所述核酸样本,其中所述插入物具有已知序列;b.获取序列信息,所述序列信息包括至少两个插入样本单元的序列,其中产生包含至 少两个插入样本单元的核酸分子;c.通过比较所述插入物的序列与所述插入物中的已知序列,计算步骤(b)序列信息的 至少两个插入物序列的分数(score);d.根据位于紧邻所述核酸样本序列的重复序列的上游及下游的所述插入物的一个或 二个序列的分数,接受或拒绝步骤(b)所得的序列信息的核酸样本序列的至少两个重复序 列;e.汇编接受序列组,所述接受序列组包含步骤(d)中接受的核酸样本序列的至少一个 重复序列;及f.使用所述接受序列组,确定所述核酸样本序列。
2.如权利要求
1所述的方法,其中,获取序列信息包括单一分子测序(single molecule sequencing)0
3.如权利要求
2所述的方法,其中所述单一分子测序包括以选自通过合成作用的单一 分子测序及连接测序(ligation sequencing)的方法测序。
4.如权利要求
3所述的方法,其中所述单一分子测序包括通过合成的实时 (real-time)单一分子测序。
5.如权利要求
3所述的方法,其中所述单一分子测序包括通过选自下组合成作用 的单一分子测序焦磷酸测序(pyrose(luencing)、可逆终止密码子测序(reversible terminator sequencing)及第三代须Ij序(third-generation sequencing)。
6.如权利要求
3所述的方法,其中所述单一分子测序包括纳米孔测序(nanopore sequencing)。
7.如权利要求
1所述的方法,其中提供环状核酸分子,包括使所述核酸样本连接 (Iigate)至所述核酸插入物,形成所述环状核酸分子。
8.如权利要求
1的所述的方法,其中所述环状核酸分子是双链的。
9.如权利要求
1所述的方法,其中所述核酸样本自RNA样本获得。
10.如权利要求
1所述的方法,其中所述核酸样本自基因组DNA样本获得。
11.如权利要求
1所述的方法,其中所述环状核酸分子包括至少两个插入样本单元。
12.如权利要求
1所述的方法,其中所述核酸插入物包括启动子,且合成所述产物核 酸分子包括使所述启动子与识别所述启动子的RNA聚合酶接触,之后合成包括核糖核苷酸 (ribonucleotide)残基的产物核酸分子。
13.如权利要求
1所述的方法,其中所述核酸插入物具有30°C至90°C范围的解链温度。
14.如权利要求
1所述的方法,其中所述核酸插入物具有14-200个核苷酸残基范围的 长度。
15.如权利要求
1所述的方法,其中所述接受序列组为选自多元件变异及单一信息字 符串(string)的形式,包括步骤(b)的序列信息经过处理,对步骤(e)中拒绝的核酸样本 序列的重复序列进行缺少、盖写或省略。
16.如权利要求
1所述的方法,其中所述接受序列组是多元件变异形式,选自列表 (list)、阵列(array)、散列(hash)及矩阵(matrix)的类型。
17.如权利要求
1所述的方法,其中所述核酸样本序列的至少两个重复序列在步骤(d) 被接受,且所述核酸样本序列的确定包括基于在步骤(d)被接受的核酸样本序列的至少两 个重复序列进行的共有序列(consensus sequence)的确定。
18.如权利要求
17所述的方法,其中所述共有序列包括以概率表示的碱基,所述碱基 位于至少一个步骤(d)中接受的核酸样本序列的至少两个重复序列彼此不同的位置上。
19.如权利要求
17所述的方法,其中所述核酸样本序列的至少三个重复序列在步骤 (d)中被接受,且共有序列的确定包括在步骤(d)中被接受的所述核酸样本序列的至少三 个重复序列的多数决(majority vote)的确定。
20.如权利要求
17所述的方法,其中所述共有序列是位置权重矩阵(positionweight matrix)0
21.如权利要求
17所述的方法,其中所述共有序列为平铺式序列(flatsequence) 0
22.如权利要求
21所述的方法,其中所述平铺式序列(flatsequence)包括至少一个 多义密码子(ambiguity code)。
23.如权利要求
17所述的方法,其中所述共有序列包括置信水平(confidence level)ο
24.如权利要求
23所述的方法,其中所述置信水平以选自碱基频率、信息含量、及 Phred质量分数(phred quality score)的形式表示。
25.如权利要求
23所述的方法,其中权利要求
1所述之步骤(b)-(f)是实时(real time)进行的,所述共有序列及置信水平是实时(real time)更新的。
26.如权利要求
25所述的方法,其中所述方法进行直到在预先选择百分比的共有序列 位置达成规定的最小置信水平(a set minimum level of confidence)为止。
27.如权利要求
沈所述的方法,进一步包括当预先选择百分比的位置达到所述规定的 最小置信水平时产生警告。
28.如权利要求
沈所述的方法,其中所述所述规定的最小置信水平为选自90%、95%、 99%、99· 5%、99· 9%、99· 95% 或 99. 99% 的碱基判断精确度(base call accuracy)。
29.如权利要求
1所述的方法,进一步包括以至少一个其它的核酸样本重复权利要求
1 的步骤,所述其它的核酸样本与权利要求
1的核酸样本有相同来源、物种或品系,且具有与 权利要求
1的核酸样本序列部分重叠的序列,从而确定至少一个其它序列,和组合所述至 少一个其它序列与步骤(f)的序列,形成重叠群。
30.如权利要求
1所述的方法,其中步骤(c)的分数用于评估步骤(b)作为整体的序列 信息置信水平。
31.如权利要求
1所述的方法,其中分数的计算包括确定所述序列信息的至少两个插 入物与所述插入物的已知序列之间的错配(mismatch)数量。
32.如权利要求
1所述的方法,其中分数的计算包括确定所述序列信息的至少两个插 入物与所述插入物的已知序列之间的同一性百分比(percent identity) 0
33.如权利要求
1所述的方法,其中分数的计算包括进行所述序列信息的至少两个插 入物与所述插入物的已知序列之间的比对。
34.如权利要求
33所述的方法,其中进行比对包括使用选自BLAST、MEGABLAST、 Smith-Waterman 比对及 Needleman-Wunsch 比对的演算法。
35.如权利要求
1所述的方法,其中所述分数是以计数(count)和比率(rate)为基础产生。
36.如权利要求
1所述的方法,其中接受或拒绝步骤(b)序列信息的核酸样本序列的至 少两个重复序列包括,接受是具有分数大于或等于预定阈值(threshold)的紧邻于样本插 入物序列上游或下游的所述核酸样本序列的至少两个重复序列,及拒绝不是的。
37.一种系统,包含可操作连接于计算装置的测序装置,所述计算装置包括处理器、储 存装置、汇流排系统(bus system)、及至少一个使用者界面元件,所述储存装置由包括操作 系统、使用者界面软件、及使用说明(instruction)的程序编码,当所述程序由所述处理器 执行时,可选地由使用者输入,进行下述方法,包括a.从环状核酸分子获取序列信息,所述环状分子包含至少一个插入样本单元,所述插 入样本单元包括核酸插入物及核酸样本,其中(i)所述插入物具有已知序列,( )所述序列信息包括至少两个插入样本单元的序列,及(iii)产生包含至少两个插入样本单元的核酸分子;b.通过比较所述序列与所述插入物的已知序列,计算步骤(a)的序列信息的至少两个 插入物的序列的分数;c.根据紧邻于所述核酸样本序列的重复序列上游及下游的插入物之一或二个序列的 分数,接受或拒绝步骤(a)序列信息的核酸样本序列的至少两个重复;d.汇编接受序列组,所述接受序列组包含步骤(c)接受的核酸样本序列至少一个重复 序列;及e.使用所述接受序列组确定所述核酸样本序列,其中,所述系统的输出用于产生至少一个(i)核酸样本的序列;或(ii)在核酸样本中 至少一个位置上有修饰碱基的说明。
38.一种储存装置,由包括操作系统、使用者界面软件及指示说明的程序编码,其中所 述程序由下述的操作系统的处理器运行时,即所述系统包括可操作连接于计算装置的测序 装置,其中所述计算装置包括处理器、储存装置、汇排流系统及至少一个使用者界面元件, 可选地由使用者输入,执行下述方法,包括a.由环状核酸分子获取序列信息,所述环状分子包含至少一个插入样本单元,所述插 入样本单元包括核酸插入物及核酸样本,其中(i)所述插入物具有已知序列,( )所述序列信息包括至少两个插入样本单元的序列,及(iii)产生包含至少两个插入样本单元的核酸分子;b.通过比较所述序列与所述插入物的已知序列,计算步骤(a)的序列信息至少两个插 入物序列的分数;c.根据紧邻于所述核酸样本序列的重复序列上游及下游的插入物之一或二个序列的 分数,接受或拒绝步骤(a)之序列信息的核酸样本序列的至少两个重复;d.汇编接受序列组,所述接受序列组包含步骤(c)接受的核酸样本序列的至少一个重复序列;及e.使用所述接受序列组确定所述核酸样本序列,其中,上述方法得到的输出用于产生至少一个(i)核酸样本的序列;或(ii)在核酸样 本中至少一个位置上有修饰碱基的说明。
39.一种确定双链核酸样本的序列及所述序列中至少一个修饰碱基位置的方法,包括a.将双链核酸样本的正向链及反向链锁在一起,形成一环状配对互锁分子(circular pair-locked molecule);b.通过单一分子测序获得所述环状配对互锁分子的序列信息,其中所述序列信息包括 所述环状配对互锁分子的正向链及反向链的序列;C.通过比较所述环状配对互锁分子的正向链及反向链的序列,确定所述双链核酸样本 的序列;d.改变所述环状配对互锁分子中特定类型之碱基的碱基配对特异性(base-pairing specificity),产生改变的环状配对互锁分子;e.获取所述改变的环状配对互锁分子的序列信息,其中所述序列信息包括所述改变的 正向链及反向链的序列;及f.通过比较所述改变的正向链及反向链的序列,确定所述双链核酸样本序列中修饰碱 基的位置。
40.如权利要求
39所述的方法,其中所述双链核酸样本是自细胞来源、病毒来源、或环 境来源获得的初级分离物。
41.如权利要求
40所述的方法,其中所述初级分离物在权利要求
39之步骤(a)之前维 持在25°C或25°C以下及实质上没有二价阳离子及核酸修饰酶存在的条件下。
42.如权利要求
39所述的方法,其中所述双链核酸样本获得自体外(invitro)反应或 细胞外核酸。
43.如权利要求
39所述的方法,其中对环状配对互锁分子中特定形式碱基的碱基配对 特异性的改变包括重亚硫酸(bisulfite)处理。
44.如权利要求
39所述的方法,其中对环状配对互锁分子中特定形式碱基的碱基配对 特异性的改变包括光化学转化(photochemical transition)。
45.如权利要求
39所述的方法,其中将所述正向链及反向链锁在一起包括使两个核酸 插入物分别连接(join)至所述双链核酸样本的两端(one to each end),所述两个核酸插 入物为相同或不同。
46.如权利要求
45所述的方法,其中所述核酸插入物具有14-200个核苷酸残基范围的长度。
47.如权利要求
45所述的方法,其中所述核酸插入物具有已知序列。
48.如权利要求
45所述的方法,其中所述核酸插入物形成具有突出(overhang)的发卡 结构(hairpin),所述核酸样本具有可与所述核酸插入物的突出相容的突出。
49.如权利要求
45所述的方法,其中序列信息的获取包括使引物退火(anneal)至模 板,并延伸所述引物,其中所述引物与至少一个所述核酸插入物的至少一部分互补。
50.如权利要求
45所述的方法,其中至少一个所述核酸插入物包括启动子,序列信息的获取包括使所述启动子与识别所述启动子的RNA聚合酶接触,之后合成包含核糖核苷酸 残基的产物核酸分子。
51.如权利要求
45所述的方法,其中连接(join)是通过连接反应(ligation)达成。
52.如权利要求
39所述的方法,其中所述双链核酸样本包括复数个样本联结(link)在一起。
53.如权利要求
52所述的方法,其中所述复数个样本通过中间核酸插入物 (intervening nucleic acid inserts)连接。
54.如权利要求
53所述的方法,其中将所述正向链及反向链锁在一起,包括连接 (Iigate)复合体,所述复合体由所述核酸插入物的突出与所述核酸样本的可相容的突出接 触所形成。
55.如权利要求
39所述的方法,其中所述双链核酸样本是基因组(genomic)DNA片段。
56.如权利要求
39所述的方法,其中所述双链核酸样本包括至少一个RNA链。
57.如权利要求
39所述的方法,其中所述单一分子测序包括选自通过合成作用的单一 分子测序及连接测序(ligation sequencing)的方法。
58.如权利要求
39所述的方法,其中所述单分子测序包括通过合成作用的实时单一分 子测序。
59.如权利要求
39所述的方法,其中所述单一分子测序包括选自下组方法的通过合成 作用的单一分子测序焦磷酸测序(pyrosequencing)、可逆终止密码子测序(reversible terminator sequencing)、及第三代须Ij序(third-generation sequencing)。
60.如权利要求
39所述的方法,其中所述单一分子测序包括纳米孔测序(nanopore sequencing)。
61.如权利要求
39所述的方法,其中所述环状配对互锁分子的正向链及反向链经由核酸插入物而锁在一起;步骤(b)获得的序列信息包括所述环状配对互锁分子序列的至少两个拷贝,每一个拷 贝包括第一及第二插入样本单元的序列;所述第一及第二插入样本单元的序列包括插入序列,所述插入序列可相同或不同,和 方向相反(oppositely oriented)的核酸样本序列的重复序列;及该方法进一步包括g.比较所述序列信息中的至少四个插入物的序列与所述插入物的已知序列,计算所述 至少四个插入物序列的分数;h.根据紧邻所述样本序列上游及下游的插入物的1个或2个序列的分数,接受 或拒绝所述序列信息中所含的核酸样本序列的至少四个重复序列,条件是每个方向 (orientation)至少一个样本序列被接受;i.汇编接受序列组,所述接受序列组包括步骤(g)接受的每个方向至少一个样本序 列;及j.使用所述接受序列组,确定所述核酸样本的序列。
62.一种确定双链核酸样本序列的方法,包括a.将核酸样本的正向链与反向链锁在一起,形成环状配对互锁分子;b.经由单一分子测序,获取所述环状配对互锁分子的序列信息,其中序列信息包括所述环状配对互锁分子的正向链及反向链的序列;及c.通过比较所述环状配对互锁分子的正向链及反向链的序列,确定所述双链核酸样本 的序列。
63.一种确定双链核酸样本的序列及所述序列中至少一个修饰碱基的位置的方法,包括a.将核酸样本的正向链及反向链锁在一起,形成环状配对互锁分子;b.通过单一分子测序,获得所述环状配对互锁分子的序列信息,其中序列信息包括所 述环状配对互锁分子的正向链及反向链的序列;及c.通过比较所述环状配对互锁分子的正向链及反向链的序列,确定所述双链核酸样本 的序列及在所述双链核酸样本序列中至少一个修饰碱基的位置。
64.如权利要求
63所述的方法,其中所述双链核酸分子包括至少一个选自下组 的修饰碱基5-溴尿嘧啶(5-bromouracil)、尿嘧啶(uracil)、5,6- 二氢尿嘧啶(5, 6-dihydrouracil)、核糖胸腺嘧啶(ribothymine)、7_ 甲基鸟嘌呤(7-methylguanine)、次 黄嘌呤(hypoxanthine)及黄嘌呤(xanthine)。
65.如权利要求
63所述的方法,其中所述双链核酸样本中的至少一个修饰碱基与具有 不同于其优选配对碱基的碱基配对特异性的碱基配对。
66.一种确定双链核酸样本的序列及所述序列中至少一个修饰碱基位置的方法,包括a.将核酸样本的正向链及反向链锁在一起,形成环状配对互锁分子;b.改变所述环状配对互锁分子中特定形式碱基的碱基配对特异性;c.通过单一分子测序,获得所述环状配对互锁分子的序列信息,其中序列信息包括所 述环状配对互锁分子的正向链及反向链的序列;及d.通过比较所述环状配对互锁分子的正向链及反向链的序列,确定所述双链核酸样本 的序列及在所述双链核酸样本序列中至少一个修饰碱基的位置。
67.一种确定双链核酸样本的序列及所述序列中至少一个修饰碱基位置的方法,包括a.将核酸样本的正向链及反向链锁在一起,形成一环状配对互锁分子;b.通过单一分子测序,获得所述环状配对互锁分子的序列信息,其中序列信息包括所 述环状配对互锁分子的正向链及反向链的序列;c.比较所述环状配对互锁分子的正向链及反向链的序列,确定所述双链核酸样本的序列;d.通过单一分子测序,获得所述环状配对互锁分子的序列信息,其中使用至少一个区 别碱基及其修饰形式的核苷酸类似物(nucleotide analog)获得序列信息,所述序列信息 包括至少一个位置上并入至少一个鉴别标记的核苷酸类似物;及e.通过比较所述正向链及反向链的序列,确定所述双链核酸样本序列中修饰碱基的位置。
68.一种确定双链核酸样本的序列及所述序列中至少一个修饰碱基位置的方法,包括a.将核酸样本的正向链及反向链锁在一起,形成环状配对互锁分子;b.通过单一分子测序,获得所述环状配对互锁分子的序列信息,其中使用至少一个区 分碱基及其修饰形式的核苷酸类似物获得序列信息,所述序列信息包括在至少一个位置上 并入至少一个鉴别标记的核苷酸类似物;及c.通过比较所述环状配对互锁分子的正向链及反向链的序列,确定所述双链核酸样本 的序列及在所述双链核酸样本序列中至少一个修饰碱基的位置。
专利摘要
本发明公开确认核酸样本的序列和/或核酸样本中修饰碱基的位置的方法,该核酸样本以具有已知序列的核酸插入物的环状分子呈现,该方法包含获取至少两个插入样本单元的序列信息。在一些实施例中,本发明方法包括使用环状配对互锁分子获取序列信息。在一些实施例中,本发明方法包括通过比较核酸样本序列与核酸插入物的已知序列,计算核酸插入物序列的分数,及根据紧邻于核酸样本序列的重复序列上游或下游之一个或两个插入物的序列分数,接受或拒绝该核酸样本序列的重复序列。
文档编号C12Q1/68GKCN102076871SQ200980125207
公开日2011年5月25日 申请日期2009年11月6日
发明者潘诏智, 简虹琪, 范振业, 邱创汎, 陈惠玲 申请人:财团法人工业技术研究院导出引文BiBTeX, EndNote, RefMan