复杂核酸序列数据的处理和分析的制作方法

文档序号:6495578阅读:144来源:国知局
复杂核酸序列数据的处理和分析的制作方法
【专利摘要】本发明涉及用于分析核酸序列数据的逻辑,其采用导致序列准确度实质性改善,并且可以例如与长片段读取结果(LFR)方法的使用结合使用以对序列变异定相的算法。
【专利说明】复杂核酸序列数据的处理和分析
[0001]对相关申请的交叉引用
[0002]本申请要求2011年4月14日提交的美国临时专利申请N0.61/517,196的优先权权益,其在此通过提及完整并入。
[0003]本申请要求2011年8月25日提交的美国临时专利申请N0.61/527,428的优先权权益,其在此通过提及完整并入。
[0004]本申请要求2011年10月12日提交的美国临时专利申请N0.61/546,516的优先权权益,其在此通过提及完整并入。
[0005]发明背景
[0006]需要用于分析复杂核酸的改善的技术,例如特别是用于改善序列准确度及用于分析具有经由核酸扩增引入的大量误差的序列的方法。
[0007]此外,需要用于测定对高等生物体基因组的亲本贡献,即人基因组的单元型定相(phasing)的改善的技术。用于单元型定相的方法,包括计算方法和实验定相综述于Browning and Browning, Nature Reviews Geneticsl2:703—7014,2011。
[0008]发明概述
[0009]本发明提供了用于分析源自复杂核酸测序的序列信息的技术(如本文中定义的),其导致单元型定相、误差降低和其它特征,基于算法和分析技术,与长片段读取结果(LFR)技术结合开发。
[0010]依照本发明的一个方面,提供了用于测定一种或多种生物体(也就是说,个别生物体或生物体群体)的复杂核酸(例如全基因组)序列的方法。此类方法包括:(a)在一个或多个计算装置接收复杂核酸的多个读取结果;并(b)用计算装置从所述读取结果产生复杂核酸的装配序列,所述装配序列在70,75,80,85,90或95%或更高的响应率时每兆碱基包含小于 1.0, 0.8,0.7,0.6,0.5,0.4,0.3,0.2,0.1, 0.08,0.07,0.06,0.05 或 0.04 假单核苷酸变体,其中通过一种或多种计算装置实施所述方法。在一些方面,计算机可读的非短暂存储介质存储一种或多种顺序的指令,所述指令包含在由一种或多种计算装置执行时引起所述一种或多种计算装置实施此类方法的步骤的指令。
[0011]依照一个实施方案(其中此类方法牵涉单元型定相),所述方法进一步包括鉴定装配序列中的多个序列变体,并对序列变体定相(例如70,75,80,85,90,95%或更多的序列变体)以产生定相序列,即对序列变体定相的序列。可以在误差校正背景中使用此类定相信息。例如,依照一个实施方案,此类方法包括将与至少两个(或三个或更多个)定相序列变体的定相不一致的序列变体鉴定为误差。
[0012]依照另一个此类实施方案,在此类方法中,接收复杂核酸的多个读取结果的步骤包括从多个等分试样之每个接收多个读取结果的计算装置和/或其计算机逻辑,每个等分试样包含复杂核酸的一个或多个片段。关于提供此类片段的等分试样的信息可用于校正误差或响应碱基,该碱基在其它情况中会是“无响应”。依照一个此类实施方案,此类方法包括计算装置和/或其计算机逻辑,其基于来自两个或更多个等分试样的位置的初步碱基响应(preliminary base call),在所述装配序列的所述位置处响应碱基。例如,方法可以包括基于来自至少两个、至少三个、至少四个或超过四个等分试样的初步碱基响应,在所述装配序列的某个位置处响应碱基。在一些实施方案中,此类方法可以包括若碱基响应在至少两个、至少三个、至少四个等分试样或超过四个等分试样中存在,则将其鉴定为真的。在一些实施方案中,此类方法可以包括若碱基响应在至少大多数(或至少60%、至少75%或至少80%)对装配序列中所述位置做出初步碱基响应的等分试样中存在,则将其鉴定为真的。依照另一个此类实施方案,此类方法包括计算装置和/或其计算机逻辑,其在碱基响应在来自两个或更多个等分试样的读取结果中存在三次或更多次时将该碱基响应鉴定为真的。
[0013]依照另一个此类实施方案,通过鉴定与每个片段附接的等分试样特异性标签(或等分试样特异性标签组)测定读取结果起源的等分试样。任选地,此类等分试样特异性标签包含误差校正或误差检测代码(例如Reed-Solomon误差校正码)。依照本发明的一个实施方案,在对片段和附接的等分试样特异性标签测序后,所得的读取结果包含标签序列数据和片段序列数据。若标签序列数据是正确的,即若标签序列匹配用于等分试样鉴定的标签序列,或备选地若标签序列数据具有可以使用误差校正代码校正的一个或多个误差,则可以使用包括此类标签序列数据的读取结果用于所有目的,特别是用于第一计算机方法(例如在一个或多个计算装置上执行),其需要标签序列数据并产生第一输出,包括但不限于单元型定相、样品多路复用、库多路复用、定相或基于正确标签序列数据的任何误差校正方法(例如基于鉴定特定读取结果的起源等分试样的误差校正方法)。若标签序列是不正确的并且不能校正,则不将包含此类不正确标签序列数据的读取结果弃去,而且在第二计算机方法(例如由一个或多个计算装置执行)中使用,所述第二计算机方法不需要标签序列数据,包括但不限于定位、装配和基于集合的统计学,并且产生第二输出。
[0014]依照另一个实施方案,此类方法进一步包括:提供复杂核酸的某个区域的第一定相序列的计算装置和/或其计算机逻辑,所述区域包含短串联重复;比较所述区域的第一定相序列的读取结果(例如规则(regular)或配偶-对(mate-pair)读取结果)与所述区域的第二定相序列的读取结果(例如使用序列覆盖)的计算装置和/或其计算机逻辑;和基于所述比较鉴定第一定相序列或第二定相序列之一中短串联重复扩充的计算装置和/或其计算机逻辑。
[0015]依照另一个实施方案,所述方法进一步包括计算装置和/或其计算机逻辑,其从生物体的至少一个亲本获得基因型数据,并从读取结果和基因型数据产生复杂核酸的装配序列。
[0016]依照另一个实施方案,所述方法进一步包含实施步骤的计算装置和/或其计算机逻辑,所述步骤包括:对所述复杂核酸的第一区比对多个所述读取结果,由此创建比对读取结果间的重叠;鉴定所述重叠内的N个杂合候选物;聚簇2N至4N种可能性的空间或其选定子空间,由此创建多个簇;鉴定两个具有最高密度的簇,每个鉴定的簇包含基本上无噪音的中心;并对所述复杂核酸的一个或多个别的区域重复前述步骤。对每个区域鉴定的簇可以限定重叠群,并且这些重叠群可以彼此匹配以形成重叠群组,一个代表每个单元型。
[0017]依照另一个实施方案,此类方法进一步包括提供一定量的复杂核酸,并对复杂核酸测序以产生读取结果。
[0018]依照另一个实施方案,在此类方法中,复杂核酸选自下组:基因组、外显子组(exome)、转录物组、甲基化组(methylome)、不同生物体基因组的混合物、和生物体的不同细胞类型的基因组的混合物。
[0019]依照本发明的另一个方面,提供了通过任何上述方法产生的装配的人基因组序列。例如,一个或多个计算机可读的非短暂存储介质存储通过任何上述方法产生的装配的人基因组序列。依照另一个方面,计算机可读的非短暂存储介质存储一种或多种顺序的指令,所述指令包含在由一种或多种计算装置执行时引起所述一种或多种计算装置实施任何、一些或所有上述方法的指令。
[0020]依照本发明的另一个方面,提供了用于测定人全基因组序列的方法,此类方法包括:(a)在一个或多个计算装置接收所述基因组的多个读取结果;并(b)用所述一个或多个计算装置从所述读取结果产生所述基因组的装配序列,所述装配序列在70%或更大的基因组响应率时包含每千兆碱基小于600个假杂合单核苷酸变体;依照一个实施方案,基因组的装配序列具有70%或更多的基因组响应率和70%或更大的外显子组响应率。在一些方面,计算机可读的非短暂存储介质存储一种或多种顺序的指令,该指令包含在由一种或多种计算装置执行时引起所述一种或多种计算装置实施本文中描述的任何发明方法的指令。
[0021]依照本发明的另一个方面,提供了用于测定人全基因组序列的方法,此类方法包括:(a)在一个或多个计算装置接收来自多个等分试样之每个的多个读取结果,每个等分试样包含基因组的一个或多个片段;并(b)用所述一种或多种计算装置从所述读取结果产生所述基因组的定相装配序列,所述装配序列在70%或更大的基因组响应率时包含每千兆碱基小于1000个假单核苷酸变体。在一些方面,计算机可读的非短暂存储介质存储一种或多种顺序的指令,该指令包含在由一种或多种计算装置执行时引起所述一种或多种计算装置实施此类方法的指令。
[0022]附图简述
[0023]图1A和IB显示了测序系统的例子。
[0024]图2显示了可以在测序仪和/或计算机系统中使用或与测序仪和/或计算机系统结合使用的计算装置的例子。
[0025]图3显示了 LFR算法的一般体系结构。
[0026]图4显示了对邻近杂合SNP的成对分析。
[0027]图5显示了选择假设和将得分归入假设的例子。
[0028]图6显示了图构建。
[0029]图7显示了图优化。
[0030]图8显示了重叠群比对。
[0031 ] 图9显示了亲本辅助通用定相。
[0032]图10显示了天然的重叠群分离。
[0033]图11显示通用定相。
[0034]图12显示使用LFR进行的误差检测。
[0035]图13显示了降低假阴性数目的方法的例子,其中,不管读取结果的数目是如何的小,也能够产生可信的杂合SNP响应。
[0036]图14显示了用解析单元型的克隆覆盖法检测人胚胎中CTG重复的扩充(expansion)。
[0037]图15的图显示了用多重置换扩增(MDA)方案对纯化的基因组DNA标准品(1.031、8.25和66皮克[pg])和I或10个PVP40细胞进行的扩增,如实施例1中描述的。
[0038]图16显示了用两种MDA方案扩增得出的与GC偏爱有关的数据。测定跨整个板的平均循环数目,并将其从每个个别标志物扣除以计算“Λ循环”数目。相对于每个标志物周围的1000个碱基对的GC含量对Λ循环绘图以指示每个样品的相对GC偏爱(未显示)。将每个Λ循环的绝对值求和以创建“Λ和”量度。较低的Λ和、以及数据相对于GC含量的相对平坦曲线产生了被较好呈现的全基因组序列。Λ和是61 (对于我们的MDA方法)和287(对于SurePlex扩增的DNA),这指示我们的方案比SurePlex方案产生小得多的GC偏爱。
[0039]图17显示了样品7C和IOC的基因组覆盖。使用相对于单倍体基因组覆盖标准化的100千碱基覆盖窗的10兆碱基移动平均值对覆盖绘图。拷贝数目I和3处的虚线分别代表单倍体和三倍体拷贝数目。这两个胚胎是男性的,并且对于X和Y染色体具有单倍体拷贝数目。在这些样品中未发现全染色体或染色体大区段的其它丧失或获得。
[0040]图18是用于本发明方法的条形码衔接头设计的实施方案的示意图。LFR衔接头由独特的5’条形码衔接头、共同的5’衔接头和共同的3’衔接头组成。共同的衔接头均设计为具有不能与3’片段连接的3’双脱氧核苷酸,这消除衔接头二聚体的形成。在连接后,将衔接头的封闭部分除去,并用未封闭的寡核苷酸替换。通过随后用Taq聚合物进行切口平移并用Τ4连接酶进行连接来解决剩余的切口。
[0041]图19显示了累积GC覆盖图。对LFR和标准库绘制GC的累积覆盖以比较GC偏爱差异。对于样品ΝΑ19240 (a和b),对整个基因组(c)和仅编码部分(d)两者绘制3个LFR库(重复1、重复2、和10个细胞)和I个标准库。在所有LFR库中,高GC区中的覆盖丧失是明显的,其在含有更高比例的富含GC的区域的编码区(b和d)中是更明显的。
[0042]图20显示了基因组装配物之间的单元型分型表现的比较。将标准装配库和LFR装配库的变体响应组合,并作为用于定相的基因座来使用,除了规定的情况外。LFR定相率基于亲本定相杂合SNP的计算。*对于那些没有亲本基因组数据的个体(NA12891、NA12892和NA20431),通过用定相杂合SNP的数目除以预期为真的杂合SNP数目(尝试要进行定相的SNP的数目-50,000个预期误差),来计算定相率。N50计算基于相对于NCBI构件36 (在NA1924010个细胞和高覆盖及NA20431高覆盖的情况中为构件37)人参照基因组的所有重叠群总装配长度。由于所有DNA变性成单链后在384孔板上被分散,致使单倍体片段覆盖比细胞数目大4倍。起始DNA不足量解释了 NA20431基因组中较低的定相效率。#10个细胞的样品用含有超过10个细胞的各个孔(其可能是这些细胞在收集过程中处在细胞周期各个阶段的结果)的覆盖来衡量。定相率范围为84%至97%。
[0043]图21显示了 LFR单元分型算法。(a)变量提取:从加标签的等分试样的读取结果提取变量。10碱基Reed-Solomon码确保能经由误差校正而实现标签恢复。(b)杂合SNP对的连接性评估:针对某个邻域内的每个杂合SNP对,计算共享等分试样的矩阵。环I是一条染色体上的总体杂合SNP。环2是染色体上位于环I杂合SNP的邻域中的总体杂合SNP。此邻域由预期的杂合SNP数目和预期的片段长度来限制。(c)图的生成:产生无向图,其中结点对应于杂合SNP,而连接(connections)对应于那些SNP间关系的最佳假设的方向(orientation)和强度。(如本文中使用的,“结点”是可以具有一个或多个数值的数据[数据项或数据对象],所述数值代表多核苷酸序列中的碱基响应或其它序列变异(例如杂合性或indel (插入缺失))。)方向是二元的(binary)。图21分别描绘了杂合SNP对之间的翻转和未翻转的关系。强度通过对共享等分试样矩阵的要素采用模糊逻辑操作来限定。
(d)图优化:经由最小跨度树操作来优化所述图。(e)重叠群产生:将每个子树简化成重叠群,这通过使第一杂合SNP保持未改变、并使所述子树上的其它杂合SNP基于其通向第一杂合SNP的路径而翻转或不翻转来进行。对每个重叠群指派亲本I (Pl)和亲本2(P2)是任意的。全染色体树中的缺口限定所述染色体上不同子树/重叠群的边界。(f)将LFR重叠群定位到亲本染色体:使用亲本信息,将母亲或父亲标签置于每个重叠群的Pl和P2单元型上。
[0044]图22显示了重复LFR文库间的单元型不一致性。在所有共享的定相杂合SNP基因座处比较来自样品NA12877和NA19240的两个重复文库。这是全面比较,因为大多数定相基因座在两个文库间是共享的。
[0045]图23显示了通过LFR实现的误差降低。单独的标准文库杂合SNP响应、以及与LFR响应的组合都独立地通过重复LFR文库来定相。一般地,LFR引入约10倍以上的假阳性变体响应。这最可能因在基于phi29的多重置换扩增期间随机掺入不正确碱基而发生。重要的是,若要求杂合SNP响应必须要定相,并且要可见于三个或更多个独立孔中,则误差的降低是显著的,结果也好于没有误差校正的标准文库。LFR也可以从标准文库除去误差,这将响应准确度改善约10倍。
[0046]图24显示了无响应的位置的LFR再响应。为了证明LFR挽救无响应的位置的潜力,在染色体18上选择通过标准软件未响应(没有响应)的三个实例位置。通过将它们用作为LFR重叠群一部分的C/T杂合SNP定相,可以部分或完全响应这些位置。共享孔(针对成对碱基中每个碱基都有至少一个读取结果的那些孔;一对接受评估的基因座有16对碱基)的分布容许将三个N/N位置再响应到A/N、C/C和T/C响应中,并将C-A-C-T和T-N-C-C限定为单元型。使用孔的信息容许LFR精确响应那些在2-3个预期孔中只有少到2-3个读取结果(比无孔信息的情况少约3倍)的等位基因。
[0047]图25显示了在每个分析样品中具有多个不利变异的基因的数目。
[0048]图26显示了在NA20431中具有等位表达差异、并具有能改变TFBS的SNP的基因。在被证明有显著的等位表达差异的非穷尽基因列表中,发现6个基因具有能改变TFBS的SNP,其与观察到的等位基因之间的表达差异相关联。相对于NCBI构件37给出所有位置。“⑶S”代表编码序列,且“UTR3”代表3’非翻译区。
[0049]发明详述
[0050]如本文中及所附权利要求书中使用的,单数形式“一个”、“一种”、和“所述/该”包括复数提及物,除非上下文另有明确规定。如此,例如提及“聚合酶”指一种试剂或此类试剂的混合物,并且提及“所述方法”包括提及本领域技术人员已知的等同步骤和/或方法,
坐坐寸寸ο
[0051]除非另有定义,本文中使用的所有技术和科学术语与本发明所属领域普通技术人员的通常理解具有相同的意义。为了描述及公开出版物中描述并且可以与目前描述的方法结合使用的装置、组合物、配制剂和方法,本文中提及的所有出版物通过提及并入本文。
[0052]在提供数值范围的情况下,应当理解本发明内涵盖每个居间数值,除非上下文另有明确规定,至下限单位的十分之一,介于所述范围的上限和下限之间以及该陈述范围中的任何其它陈述或居间数值。这些较小范围的上限和下限可以独立包括在内,较小范围也涵盖在本发明内,服从陈述范围中的任何明确排除界限。在陈述范围包括界限之一或两者的情况中,本发明中还包括排除那些包括的界限两者之任一的范围。
[0053]在以下描述中,列出大量具体详情以提供对本发明的更彻底理解。然而,本领域技术人员会显而易见的是,可以在没有一个或多个这些具体详情的情况下实施本发明。在其它情况中,尚未描述公知的特征和本领域技术人员公知的规程以避免使本发明难理解。
[0054]虽然本发明主要参照具体实施方案描述,还涵盖的是,在读取结果本公开内容后,其它实施方案对于本领域技术人员会变得显而易见,并且意图此类实施方案包含在本发明方法内。
[0055]测序系统和数据分析
[0056]在一些实施方案中,可以通过测序系统实施DNA样品(例如诸如代表全人基因组的样品)的测序。图1中显示了测序系统的两个例子。
[0057]图1A和IB是实例测序系统190的框图,所述测序系统190配置为实施依照本文中描述的实施方案的用于核酸序列分析的技术和/或方法。测序系统190可以包含多个子系统或者与多个子系统联系,所述子系统诸如例如一个或多个测序仪诸如测序仪191、一个或多个计算机系统诸如计算机系统197和一个或多个数据储存库诸如数据储存库195。在图1A中显示的实施方案中,系统190的多个子系统可以通过一个或多个网络193通信连接,所述网络193可以包括包交换或其它类型的网络基础设施装置(例如路由器、开关等),其配置为促成远程系统间的信息交换。在图1B中显示的实施方案中,测序系统190是测序装置,其中多个子系统(例如诸如测序仪191、计算机系统197和可能数据储存库195)是通信和/或操作偶联并在测序装置内集成的组件。
[0058]在一些操作背景中,图1A和IB中显示的实施方案的数据储存库195和/或计算机系统197可以在云计算环境196内配置。在云计算环境中,可以将包含数据储存库的存储装置和/或包含计算机系统的计算装置分配并例示,作为效用且按需要使用;如此,云计算环境作为服务提供基础设施(例如物理和虚拟机器、原始/块存储、防火墙、负载均衡器、聚合器(aggregator)、网络、存储簇(storage cluster),等等)、平台(例如可以包含操作系统的计算装置和/或解决办法栈(solution stack)、编程语言执行环境、数据库服务器、网络服务器、应用服务器,等等)和实施任何存储相关和/或计算任务必需的软件(例如应用、应用编程界面或API,等等)。
[0059]注意到在多个实施方案中,本文中描述的技术可以通过包含各种构造和形式因素的一些或所有上述子系统和组件(例如诸如测序仪、计算机系统和数据储存库)的多种系统和装置实施;如此,应当以例示性而非限制性意义看待图1A和IB中显示的实例实施方案和构造。
[0060]测序仪191配置并可操作为接受源自生物学样品碎片的靶核酸192,并且对靶核酸实施测序。可以使用可以实施测序的任何合适的机器,其中此类机器可以使用各种测序技术,其包括但不限于通过杂交测序、通过连接测序、通过合成测序、单分子测序、光学序列检测、电磁序列检测、电压变化序列检测和适合于从DNA产生读取结果测序结果的任何其它现在已知或以后开发的技术。在多个实施方案中,测序仪可以测序靶核酸,并且可以产生读取结果测序结果,其可以包含或不包含缺口,并且可以是或不是配对-对(或成对末端)读取结果。如图1A和IB中显示的,测序仪191测序靶核酸192,并获得读取结果测序结果194,其得到传送以(暂时和/或持久)存储于一个或多个数据储存库195和/或通过一个或多个计算机系统197处理。
[0061]数据储存库195可以在一个或多个存储装置(例如硬盘驱动器、光盘、固态驱动器等)上执行,所述存储装置可以配置为盘阵列(例如诸如SCSI阵列)、存储簇或任何其它合适的存储装置构造。数据储存库的存储装置可以配置为系统190的内部/集成组件或与系统190可附接的外部组件(例如诸如外部硬驱动机或盘阵列)(例如如图1B中显示的),和/或可以以合适的方式通信互连,所述合适的方式诸如例如网格、存储簇、存储区网络(SAN)和/或网络附接存储(NAS)(例如如图1A中显示的)。在多个实施方案和实现中,数据储存库可以在存储装置上以一个或多个以文件存储信息的文件系统、以一个或多个以数据记录存储信息的数据库和/或以任何其它合适的数据存储构造执行。
[0062]计算机系统197可以包含一个或多个计算装置,其包含通用处理器(例如中央处理单元或CPU)、存储器和计算机逻辑199,其与配置数据和/或操作系统(OS)软件一起可以实施本文中描述的一些或所有技术和方法,和/或可以控制测序仪191的操作。例如,本文中描述的任何方法(例如用于误差校正、单元型定相,等等)可以完全或部分由计算装置实施,所述计算装置包含处理器,该处理器可以配置为执行逻辑199,用于实施方法的各个方法。此外,虽然方法步骤可以以编号步骤呈现,但是应当理解本文中描述的方法的步骤可以同时(例如通过计算装置簇平行进行)或以不同次序实施。计算机逻辑199的功能性可以以单一集成模块(例如在集成逻辑中)执行或者可以在两个或更多个软件模块中组合,所述软件模块可以提供一些别的功能性。
[0063]在一些实施方案中,计算机系统197可以是单一计算装置。在其它实施方案中,计算机系统197可以包含多个计算装置,其可以在网格、簇或在云计算环境中通信和/或可操作互连。此类多个计算装置可以在不同形状因子(form factor)诸如计算结点、刀片(blade),或任何其它合适的硬件构造中配置。出于这些原因,应当以例示性而非限制性意义看待图1A和IB中的计算机系统197。
[0064]图2是作为测序仪和/或计算机系统的一部分的实例计算装置200的框图,所述计算装置200可以配置为执行用于实施各种数据处理和/或控制功能性的指令。
[0065]在图2中,计算装置200包含直接或经由一个或多个系统总线诸如总线275间接互连的几个组件。此类组件可以包含但不限于键盘278、持久性存储装置279 (例如诸如固定盘、固态盘、光盘等等)和显示适配器282,一个或多个显示装置(例如诸如IXD监视器、平板监视器、等离子屏等)可以与所述显示适配器282偶联。外围设备和输入/输出(I/O)装置(其与I/O控制器271偶联)可以通过本领域中已知的多种手段(包括但不限于一个或多个串行端口、一个或多个并行端口和一个或多个通用串行总线(USB)与计算装置200连接。外部接口 281 (其可以包括网络接口卡和/或串行端口)可以用于连接计算装置200与网络(例如诸如因特网或局域网络(LAN))。外部接口 281还可以包括许多输入接口,其可以从各种外部装置诸如例如测序仪或其任何组件接受信息。经由系统总线275的互连容许一个或多个处理器(例如CPU) 273与每个连接的组件通信并且执行来自系统存储器272和/或来自存储装置279的指令(和/或控制其执行)及各个组件间的信息交换。系统存储器272和/或存储装置279可以作为一个或多个计算机可读的非短暂存储介质体现,所述计算机可读的非短暂存储介质存储由处理器273执行的指令序列及其它数据。此类计算机可读的非短暂存储介质包括但不限于随机存取存储器(RAM)、只读存储器(ROM)、电磁介质(例如诸如硬盘驱动器、固态驱动器、拇指存储器(thumb drive)、软盘等)、光学介质诸如紧致磁盘(CD)或数字通用盘(DVD)、闪速存储器等。各种数据值和其它结构化或未结构化信息可以从一个组件或子系统输出到另一个组件或子系统,可以经由显示适配器282和合适的显示装置对用户呈现,可以通过网络经由外部接口 281发送到远程装置或远程数据储存库,或者(暂时和/或永久)存储于存储装置279上。
[0066]由计算装置200实施的任何方法和功能性可以以模块或集成方式使用硬件和/或计算机软件以逻辑形式执行。如本文中使用的,“逻辑”指在由一个或多个计算装置的一个或多个处理器(例如CPU)执行时可操作为实施一个或多个功能性和/或返回一个或多个结果形式的数据或由其它逻辑元件使用的数据的一组指令。在多个实施方案和实现中,任何给定的逻辑可以作为由一个或多个处理器(例如CPU)可执行的一个或多个软件组件、作为一个或多个硬件组件诸如专用集成电路(Application-Specific IntegratedCircuit, ASIC)和 / 或现场可编程门阵列(Field-Programmable Gate Array, FPGA),或者作为一个或多个软件组件和一个或多个硬件组件的任何组合执行。任何特定逻辑的软件组件可以不限于作为独立软件应用、作为客户机-服务器系统中的客户机、作为客户机-服务器系统中的服务器、作为一个或多个软件模块、作为一个或多个功能库以及作为一个或多个静态和/或动态连接库执行。在执行期间,任何特定逻辑的指令可以作为一个或多个计算机过程、线程、纤维和任何其它合适的运行时间实体体现,所述运行时间实体可以在一个或多个计算装置的硬件上例示,并且可以是分配的计算资源,其可以包括但不限于存储器、CPU时间、存储空间和网络带宽。
[0067]用于LFR过程的技术和算法
[0068]碱某响应
[0069]使用本发明的组合物和方法对靶核酸测序的总体方法记载于本文中及例如美国专利申请公开文本2010/0105052-A1;公布的专利申请号W02007120208, W02006073504, WO2007133831 和 US2007099208 以及美国专利申请N0.11/679,124; 11/981, 761; 11/981, 661;11/981,605;11/981, 793;11/981, 804;11/451, 691;11/981, 607;11/981, 767;11/982, 467;11/451,692;11/541, 225;11/927, 356;11/927, 388;11/938, 096;11/938, 106;10/547, 214;11/981,730;11/981,685;11/981, 797;11/934,695;11/934,697;11/934, 703;12/265, 593;11/938,213;11/938,221;12/325, 922;12/252, 280;12/266, 385;12/329, 365;12/335, 168;12/335,188;和12/361,507,其通过提及完整并入本文用于所有目的。还可见Drmanac etal.,Science327,78-81,2010。长片段读取(LFR)方法已经披露于美国专利申请N0.12/816,365,12/329,365,12/266,385,和 12/265,593 及美国专利 N0.7,906,285,7,901,891 和7,709,197,其在此通过提及完整收入。本文中提供了进一步的详细和改进。
[0070]在一些实施方案中,数据提取会依赖于两类图像数据:划分表面上所有DNB位置的明视场图像,和在每个测序循环期间获得的荧光图像组。数据提取软件可以用于鉴定具有明视场图像的所有对象,然后对于每个此类对象,软件可以用于计算每个测序循环的平均荧光值。对于任何给定的循环,有四个数据点,其对应于以不同波长拍摄的四个图像,用以询问所述碱基是否是A、G、C或T。合并这些原始数据点(在本文中又称为“碱基响应”),对每个DNB产生不连续的读取结果测序结果。[0071]计算装置可以装配鉴定碱基群体以提供关于靶核酸的序列信息和/或鉴定靶核酸中特定序列的存在。例如,计算装置可以通过执行各种逻辑依照本文中描述的技术和算法装配鉴定碱基群体;此类逻辑的例子是以任何合适的编程语言诸如Java、C++、Perl、Python和任何其它合适的常规和/或面向对象的编程语言书写的软件代码。在以一个或多个计算机过程形式执行时,此类逻辑可以读取结果、书写和/或以其它方式处理结构化和未结构化的数据,该数据可以以各种结构在持久性存储上和/或在易失性存储器中存储;此类存储结构的例子包括但不限于文件、表、数据库记录、阵列、列表、向量、变数、存储器和/或处理器寄存器、从面向对象类别例示的持久性和/或存储器数据对象和任何其它合适的数据结构。在一些实施方案中,通过比对从对多个DNB实施的多个测序循环获得的重叠序列将鉴定的碱基装配成完整序列。如本文中使用的,术语“完整序列”指部分或整个基因组及部分或整个靶核酸的序列。在别的实施方案中,由一个或多个计算装置或其计算机逻辑实施的装配方法利用可以用于“拼凑”重叠序列以提供完整序列的算法。在又一些实施方案中,参照表用于辅助将鉴定的序列装配成完整序列。可以使用关于选择生物体的现有测序数据编译参照表。例如人基因组数据可以经由国立生物技术信息中心于ftp.ncb1.nih.gov/refseq/release,或者经由 J.Craig Venter Institute 于 www.jcv1.0rg/researchhuref/访问。整个人基因组信息或人基因组信息的子集可以用于创建用于特定测序询问的参照表。另外,特定参照表可以从源自特定群体的经验数据,包括来自具有特定种族性、地理传统、宗教或文化限定群体的人类的遗传序列构建,因为人基因组内的变异可以随其中含有的信息起源而使参照数据倾斜。,例如美国专利公开文本N0.2011-0004413,名称为“Method and System for Calling Variations in a Sample PolynucleotideSequence with Respect to a Reference Polynucleotide Sequence”(其通过提及并入本文用于所有目的)中提供了用于响应与参照多核苷酸序列相比多核苷酸序列中的变异及用于多核苷酸序列装配(或重新装配)的例示性方法。
[0072]在本文中讨论的发明的任何实施方案中,核酸模板和/或DNB群体可以包含许多靶核酸以基本上覆盖整个基因组或整个靶多核苷酸。如本文中使用的,“基本上覆盖”意指分析的核苷酸(即靶序列)量含有当量至少两个拷贝的靶多核苷酸,或在另一个方面,至少10个拷贝,或在另一个方面,至少20个拷贝,或在另一个方面,至少100个拷贝。靶多核苷酸可以包含DNA片段,其包含基因组DNA片段和cDNA片段及RNA片段。用于重新构建靶多核苷酸序列的步骤的指导可以参见以下参考文献,其通过提及并入:Lander et al, Genomics, 2:231-239 (1988) ; Vingron et al, J.Mol.Biol., 235:1-12 (1994);及类似的参考文献。
[0073]在一些实施方案中,对测序的复杂核苷酸的每个询问位置产生四幅图像,一幅用于每种颜色染料。通过调节染料和背景强度之间的串扰测定图像中每个点的位置和四种颜色中每种的所得强度。定量模型可以拟合至所得的四维数据集。以质量得分对给定点响应碱基,所述质量得分反映四个强度多么好地拟合所述模型。
[0074]可以通过一个或多个计算装置或其计算机逻辑在几个步骤中实施每个视场的四幅图像的碱基响应。首先,使用修改的形态学“图像打开”操作针对背景校正图像强度。由于DNB的位置与照相机像素位置排在一起,强度提取作为来自经背景校正的图像的像素强度的简单读取结果完成。然后,针对光学和生物学信号串扰两者的几个来源校正这些强度,如下文描述的。然后,将经校正的强度通到概率模型,其最终对每个DNB产生四种可能碱基响应结果的四种可能性的组。然后,使用预先拟合的逻辑回归将几种度量组合以计算碱基响应得分。
[0075]强度校正:使用作为由一个或多个计算装置执行的计算机逻辑执行的线性回归模型校正生物学和光学串扰的几个来源。线性回归优于解卷积方法,该解卷积方法在计算上更昂贵的并且产生具有相似质量的结果。光学串扰的来源包括四个荧光染料谱间的过滤带重叠,和邻近DNB间由于其极其接近处的光衍射所致的侧面串扰。串扰的生物学来源包括先前循环的不完全清洗、探针合成误差和污染邻近位置信号的探针“滑动”、在询问锚定(anchor) “外部”(与锚定更远离的)碱基时不完全锚定延伸。线性回归用于测定DNB强度中可以使用任一邻近DNB的强度或来自先前循环或其它DNB位置的强度预测的部分。然后,从初始提取强度扣除可以通过串扰的这些来源解释的强度部分。为了测定回归系数,线性回归模型的左侧的强度需要主要仅由“背景”强度,即正在实施回归的给定碱基不会响应的DNB的强度组成。这需要使用初始强度进行的预响应(pre-calling)步骤。一旦选择没有特定碱基响应(具有合理置信度)的DNB,计算装置或其计算机逻辑实施串扰来源的同时回归:
[0076]
【权利要求】
1.测定一种或多种生物体的复杂核酸的序列的方法,该方法包括: (a)在一个或多个计算装置上接收所述复杂核酸的多个读取结果;并 (b)用所述一个或多个计算装置从所述读取结果产生所述复杂核酸的装配序列(assembled sequence),所述装配序列在70%或更大的响应率(call rate)时每兆碱基包含不到I个假单核苷酸变体。
2.权利要求1的方法,其进一步包括鉴定所述装配序列中的多个序列变体,并对所述多个序列变体定相(phase)以产生定相序列。
3.权利要求2的方法,其包括对至少三个所述序列变体定相,并将与至少两个序列变体的定相不一致的序列变体鉴定为误差(error)。
4.权利要求2的方法,其中所述装配序列是全基因组序列,所述方法包括对至少70%的所述序列变体定相。
5.权利要求2的方法,其中所述装配序列是全基因组序列,所述方法包括对至少80%的所述序列变体定相。
6.权利要求2的方法,其中所述装配序列是全基因组序列,所述方法包括对至少85%的所述序列变体定相。
7.权利要求2的方法,其中所述装配序列是全基因组序列,所述方法包括对至少90%的所述序列变体定相。
8.权利要求2的方法,其中所述装配序列是全基因组序列,所述方法包括对至少95%的所述序列变体定相。
9.权利要求1的方法,其中接收所述复杂核酸的多个读取结果的步骤是,接收多个等分试样之每个的多个读取结果,每个等分试样包含所述复杂核酸的一个或多个片段。
10.权利要求9的方法,其包括响应所述装配序列一个位置处的碱基,是基于两个或更多个等分试样在该位置处的初步碱基响应来进行。
11.权利要求9的方法,其包括将两个或更多个等分试样的读取结果中出现3次或更多次的喊基响应鉴定为真的。
12.权利要求9的方法,其中将等分试样特异性标签附着于每个所述片段,所述方法还包括,通过鉴定所述等分试样特异性标签,来确定是哪个等分试样给出了所述读取结果。
13.权利要求12的方法,其中所述等分试样特异性标签包含误差校正代码,并且每个读取结果包含标签序列数据和片段序列数据,其中所述标签序列数据是正确的标签序列数据或包含一个或多个误差的不正确标签序列数据;该方法进一步包括: (C)使用所述误差校正代码来校正所述不正确标签序列数据,由此产生经校正的标签序列数据和不能校正的标签序列数据; (d)在要求标签序列数据的第一计算机方法中,使用包含所述正确标签序列数据和所述经校正的标签序列数据的读取结果,并且产生第一输出;并 (e)在不要求标签序列数据的第二计算机方法中,使用包含所述不能校正的标签序列数据的读取结果,并且产生第二输出。
14.权利要求13的方法,其中所述第一计算机方法选自:样品多路复用、库多路复用、定相、和采用标签序列数据的误差校正方法。
15.权利要求13的方法,其中所述第二计算机方法包括定位、装配和基于集合的统计学。
16.权利要求13的方法,其中所述误差校正代码是Reed-Solomon码。
17.权利要求1的方法,其中所述方法进一步包括: (c)提供所述复杂核酸的一个区域的第一定相序列,所述区域包含短串联重复; (d)将所述区域的第一定相序列的读取结果与所述区域的第二定相序列的读取结果进4丁比较;并 (e)基于所述比较,鉴定所述短串联重复在所述第一定相序列或所述第二定相序列之一中的扩充。
18.权利要求1的方法,其进一步包括从所述生物体的至少一个亲本获得基因型数据,并从所述读取结果和所述至少一个亲本的基因型数据产生所述复杂核酸的装配序列。
19.权利要求1的方法,其进一步包括添加群体基因型数据,并从所述读取结果和所述群体基因型数据产生所述复杂核酸的装配序列。
20.权利要求1的方法,其进一步包括: (C)比对所述复杂核酸的第一区的多个读取结果,由此在被比对的读取结果之间创建重叠; (d)鉴定所述重叠内的N个杂合候选物,其中N是大于2的整数; (e)聚簇所述N个杂合候选物的2N至4n种可能性的空间或所述空间的选定子空间,由此创建多个簇; (f)鉴定两个具有最高密度的簇,每个被鉴定的簇包含基本上无噪音的中心;并 (g)对所述复杂核酸的一个或多个别的区域重复步骤(a)-(d)。
21.权利要求1的方法,其中所述装配序列每兆碱基包含少于0.8个假单核苷酸变体。
22.权利要求1的方法,其中所述装配序列每兆碱基包含少于0.6个假单核苷酸变体。
23.权利要求1的方法,其中所述装配序列每兆碱基包含少于0.4个假单核苷酸变体。
24.权利要求1的方法,其中所述装配序列每兆碱基包含少于0.2个假单核苷酸变体。
25.权利要求1的方法,其中所述装配序列每兆碱基包含少于0.1个假单核苷酸变体。
26.权利要求1的方法,其中所述装配序列有所述复杂核酸至少80%的响应率。
27.权利要求1的方法,其中所述装配序列具有至少85%的响应率。
28.权利要求1的方法,其中所述装配序列具有至少90%的响应率。
29.权利要求1的方法,其进一步包括:(a)提供一定量的所述复杂核酸,并(b)对所述量的所述复杂核酸测序以产生所述多个读取结果。
30.权利要求1的方法,其中所述复杂核酸选自下组:基因组、外显子组(exome)、转录物组、甲基化组(methylome)、不同生物体基因组的混合物、一个生物体的不同细胞类型的基因组的混合物、及它们的子集。
31.权利要求1的方法,其中所述生物体是哺乳动物。
32.权利要求1的方法,其中所述生物体是人。
33.一种或多种计算机可读的非短暂存储介质,其存储通过权利要求1的方法产生的装配人基因组序列。
34.计算机可读的非短暂存储介质存储指令,其在由一种或多种计算装置执行时引起所述一种或多种计算装置实施权利要求1的方法。
35.一种测定人基因组序列的方法,该方法包括: (a)在一个或多个计算装置上接收所述基因组的多个读取结果;并 (b)用所述一个或多个计算装置从所述读取结果产生所述基因组的装配序列,所述装配序列在70%或更大的基因组响应率时包含每千兆碱基小于600个假单核苷酸变体。
36.权利要求34的方法,其中所述人基因组的装配序列包含70%的基因组响应率和70%或更大的外显子组响应率。
37.计算机可读的非短暂存储介质存储指令,其在由一种或多种计算装置执行时引起所述一种或多种计算装置实施权利要求35的方法。
38.一种测定人基因组序列的方法,该方法包括: (a)在一个或多个计算装置上接收来自多个等分试样之每个的多个读取结果,每个等分试样包含所述人基因组的片段;并 (b)用所述一种或多种计算装置从所述读取结果产生所述基因组的定相装配序列,所述装配序列在70%或更大的基因组响应率时包含每千兆碱基小于1000个的假单核苷酸变体。
39.计算机可读的非短暂存储介质存储指令,其在由一种或多种计算装置执行时引起所述一种或多种计算装置实施权利要求38的方法。
【文档编号】G06F19/22GK103843001SQ201280029331
【公开日】2014年6月4日 申请日期:2012年4月13日 优先权日:2011年4月14日
【发明者】R.卓马纳克, B.A.彼得斯, B.G.科尔马尼 申请人:考利达基因组股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1