核酸序列的增量二级分析的制作方法

文档序号:31833762发布日期:2022-10-18 20:10阅读:36来源:国知局
核酸序列的增量二级分析的制作方法
核酸序列的增量二级分析
1.相关申请的交叉引用
2.本技术要求2020年3月11日提交的美国临时专利申请号62/988,374的权益,该临时专利申请的全部内容全文以引用方式并入本文。


背景技术:

3.本公开涉及核酸序列分析。
4.核酸测序仪是被配置为使核酸测序过程自动化的仪器。核酸测序是确定核酸序列中核苷酸的顺序的过程。核酸可包括脱氧核糖核酸(dna)或核糖核酸(rna)。
5.核酸测序仪被配置为接收核酸样品并生成各自表示核酸样品中的核苷酸的顺序的输出数据,该输出数据被称为一个或多个“读段”(read)。dna样品中的核苷酸可包括一种或多种碱基,这些碱基包括形成任何组合的鸟嘌呤(g)、胞嘧啶(c)、腺嘌呤(a)和胸腺嘧啶(t)。rna样品中的核苷酸可包括一种或多种碱基,这些碱基包括形成任何组合的g、c、a和尿嘧啶(u)。
6.可使用映射和比对引擎来将由dna测序仪生成的读段映射到参考基因组的已知核苷酸序列。将读段映射到参考基因组的已知核苷酸序列可由使用散列表索引的映射和比对引擎来实现。


技术实现要素:

7.本公开涉及用于执行增量二级分析的系统、方法和计算机程序。增量二级分析涉及在通过核酸测序仪完成样品的核酸测序之前对样品的核酸读段执行一个或多个二级分析操作的过程。该一个或多个二级分析操作可包括核酸读段映射、核酸读段比对、变体检出或它们的任何组合。
8.根据本公开的一个创新方面,公开了一种用于执行核酸序列读段的增量二级分析的方法。在一个方面,该方法包括以下动作:(i)获取描述由核酸测序设备在第一读段间隔期间生成的多个第一读段的第一数据,其中该第一读段中的每个读段表示第一有序核苷酸序列;(ii)获取描述由该核酸测序设备在该第一读段间隔之后执行的第二读段间隔期间生成的多个第二读段的第二数据,其中该第二读段中的每个读段表示第二有序核苷酸序列,其中在获取该第二数据的同时:(a)通过该核酸测序设备向映射和比对单元提供该第一数据作为输入,(b)从该映射和比对单元接收比对结果;并且(c)存储所接收的比对结果,以及之后(iii)指示该映射和比对单元开始将表示该第二多个读段的该第二数据与参考序列比对。
9.其他型式包括执行由在计算机可读存储设备上编码的指令所定义的方法的动作的对应系统、装置和计算机程序。
10.这些和其他版本可任选地包括以下特征中的一个或多个特征。例如,在一些具体实施中,使用可编程逻辑设备实施该映射和比对单元的至少一部分。
11.在一些具体实施中,可编程电路是现场可编程门阵列(fpga)。
12.在一些具体实施中,使用专用集成电路(asic)实施该映射和比对单元的至少一部分。
13.在一些具体实施中,该映射和比对单元被包括在该核酸测序设备内。
14.在一些具体实施中,该第一读段中的一个或多个读段包括表示第一样品标识符的数据,并且该第二读段中的一个或多个读段包括表示第二样品标识符的数据。
15.在一些具体实施中,该方法还可包括在获取该第二数据的同时:基于至少第一样品标识符或第二样品标识符将该一个或多个第一读段组织成相应组,并且生成组织统计量,这些组织统计量指示对应于每个样品标识符的第一读段的数目。
16.在一些具体实施中,该方法还可包括在比对读段簇的第二部分之前或同时,提供表示对应于该多个第一读段的存储的比对结果的输出数据。
17.在一些具体实施中,该方法还可包括指示该映射和比对模块开始将表示该第一多个读段的该数据与参考序列进行后续比对。
18.在一些具体实施中,该方法还可包括在获取该第二数据的同时,确定与该参考序列进行比对的表示该第一多个读段的该第一数据的一组可能变体。
19.在一些具体实施中,表示该第二多个读段的该第二数据的至少一部分被比对,同时获取表示该第二多个读段的第二数据的至少不同部分。
20.在一些具体实施中,指示该映射和比对单元在完全获取该第二数据之前以预定数目的测序循环开始对表示该第二多个读段的该第二数据进行比对。
21.根据本公开的另一个创新方面,公开了另一种用于执行核酸序列读段的增量二级分析的方法。在一个方面,该方法可包括以下动作:(i)生成多个第一实体标识符,其中每个实体第一标识符对应于将在第一读段间隔期间生成的特定读段,(ii)生成多个第二实体标识符,其中每个第二实体标识符对应于将在第二读段间隔期间生成的特定读段;(iii)获取描述由核酸测序设备在该第一读段间隔期间基于多个不同样品生成的多个第一读段的第一数据,其中该多个第一读段中的每个读段对应于至少该第一实体标识符或该第二实体标识符,其中在获取该第一数据的同时,该方法还包括:基于与该第一读段中的每个读段相关联的第一实体标识符或第二实体标识符将该多个第一读段组织成有组织的组,通过该核酸测序设备,将这些有组织的多个读段提供给映射和比对单元,该映射和比对单元被配置为将碱基检出与参考序列比对,从该映射和比对单元接收比对结果,并且存储所接收的比对结果,(iv)获取描述由该核酸测序设备在该第一读段间隔之后执行的该第二读段间隔期间基于多个不同样品生成的多个第二读段的第二数据,其中该多个第二读段中的每个读段对应于至少该第一实体标识符或该第二实体标识符,以及(v)通过该核酸测序设备将该第二数据提供给映射和比对单元,该映射和比对单元被配置为将该第二数据与参考序列比对。
22.其他型式包括执行由在计算机可读存储设备上编码的指令所定义的方法的动作的对应系统、装置和计算机程序。
23.这些和其他版本可任选地包括以下特征中的一个或多个特征。例如,在一些具体实施中,使用可编程逻辑设备实施该映射和比对单元的至少一部分。
24.在一些具体实施中,可编程电路是现场可编程门阵列(fpga)。
25.在一些具体实施中,使用专用集成电路(asic)实施该映射和比对单元的至少一部分。
26.在一些具体实施中,该映射和比对单元被包括在该核酸测序设备内。
27.在一些具体实施中,该多个第一读段的组织包括生成指示对应于每个实体标识符的读段的数目的数据。
28.在一些具体实施中,在获取该第二数据的同时,针对每个有组织的第一读段组确定与参考序列比对的有组织的第一读段组的一组可能变体。
29.根据本公开的另一个创新方面,公开了另一种用于执行核酸序列读段的增量二级分析的方法。在一个方面,该方法可包括以下动作:获取描述由核酸测序设备在第一测序运行的第一读段间隔期间生成的多个第一读段的第一数据,获取描述由该核酸测序设备在第一读段间隔之后执行的第一测序运行的第二读段间隔期间生成的多个第二读段的第二数据,其中在获取该第二数据的至少一部分的同时:启动对该第一数据或第二数据的一个或多个二级分析操作的执行,使用该核酸测序设备执行第二测序运行,其中在使用核酸测序设备执行该第二测序运行的同时:继续对至少该第一数据或该第二数据的一个或多个二级分析操作的执行,并且存储表示该二级分析操作的结果的结果数据。
30.其他型式包括执行由在计算机可读存储设备上编码的指令所定义的方法的动作的对应系统、装置和计算机程序。
31.根据本公开的另一个创新方面,公开了一种用于执行核酸序列读段的二级分析的方法。在一个方面,该方法可包括以下动作:获取一个或多个基因组工作流属性,基于该一个或多个基因组工作流属性确定用于可编程电路的工作流上下文切换类型,其中该工作流上下文切换类型定义该可编程电路的重新配置循环,以及指示可编程电路控制器使用所确定的上下文切换类型执行二级分析。
32.其他型式包括执行由在计算机可读存储设备上编码的指令所定义的方法的动作的对应系统、装置和计算机程序。
33.除非另有定义,否则本文所用的所有技术和科学术语的含义与本发明所属领域的普通技术人员通常理解的含义相同。虽然与本文所述的方法和材料类似或等同的方法和材料也可用于本发明的实践或测试,但合适的方法和材料如下所述。本文提及的所有出版物、专利申请、专利和其他参考文献均全文以引用方式并入本文。如发生矛盾,以本说明书及其所包括的定义为准。此外,所述材料、方法和示例仅为例示性的,并非旨在进行限制。
34.根据以下具体实施方式和权利要求,本发明的其他特征和优点将显而易见。
附图说明
35.图1a是示出描述二级分析操作的线性序列的现有技术工作流的示例的示意图。
36.图1b是用于使用位于核酸测序仪内的二级分析单元对一个或多个样品执行增量二级分析的系统的示例的情境图。
37.图2是用于根据图1b的工作流图执行增量二级分析的过程的示例的流程图。
38.图3是用于使用位于远离核酸测序仪的二级分析单元来执行一个或多个样品的增量二级分析的系统的示例的情境图。
39.图4是用于根据图3的工作流图执行增量二级分析的过程的示例的流程图。
40.图5是用于使用核酸测序仪内的二级分析单元执行一个或多个样品的增量二级分析的系统的示例的情境图。
41.图6是用于根据图5的工作流图执行增量二级分析的过程的示例的流程图。
42.图7是描述在用于使用二级分析单元执行增量二级分析的过程期间执行的操作工作流的工作流图的示例。
43.图8是用于根据图7的工作流图执行增量二级分析的过程的示例的流程图。
44.图9是用于执行动态可编程电路上下文切换的过程的示例的流程图。
45.图10是可用于实施用于执行增量二级分析的系统的系统部件的示例的框图。
具体实施方式
46.核酸测序仪对生物样品的核酸测序是一个耗时且昂贵的任务。常规系统采用线性工作流,诸如图1a中所示的线性工作流。此类常规工作流线性地、串联地执行包括以下的操作:(i)初级分析以生成核酸测序读段,(ii)对所生成的核酸测序读段进行二级分析以生成比对读段和变体,以及在一些情况下,(iii)使用二级分析结果诸如在变体检出期间识别的变体进行三级分析。三级分析可包括例如对所识别的变体进行分类、确定所识别的变体的相关性、基于所识别的变体确定诊断、基于所识别的变体确定治疗等。
47.参考图1a,描述了执行一个或多个样品的测序运行172a的常规工作流170a。测序运行172a包括在时间t1期间的聚类操作、包括在时间t2a期间生成样品第一读段的测序操作的第一读段间隔“read 1”,以及包括在另一时间t2b期间生成样品第二读段的测序操作的第二读段间隔“read2”。在测序运行172a期间,第一初级分析100a处理数据以生成第一读段和第二读段。初级分析100a可包括例如图像的处理以生成这些读段中的每个读段的核苷酸或碱基的序列。在第一初级分析100a结束之后,二级分析100b开始。在图1a的此示例中,使用核酸测序仪的软件资源执行二级分析100b,并且该二级分析包括对在第一测序运行172a的初级分析100a期间生成的读段进行解复用、映射和比对所解复用的读段,以及然后在时间t3期间全部进行变体检出。只有在完成二级分析之后,才能通过核酸测序仪执行下一次初级分析100c。因此,通过使用核酸测序仪的常规二级分析软件采用常规工作流,在启动第一测序运行172a的第一初级分析100a之后,直到可执行第二测序运行172b的第二初级分析100c至少需要tsum=t1+t2a+t2b+t3,在一些情况下,大约56小时-99小时。此外,这产生的结果是测序仪停机的时间段,在这些时间段中测序仪不执行二级分析和消耗试剂,在一些情况下至少30小时-48小时,从而降低仪器吞吐量、在给定时间间隔中处理的核苷酸的数目以及对来自试剂销售的收入流的负面影响。
48.常规系统以这种方式操作是因为常规的核酸测序仪缺乏并行运行初级分析和二级分析操作的计算资源。相反,常规核酸测序仪的软件计算资源专用于在初级分析期间的测序操作,并且然后这些相同的计算资源专用于在二级分析期间解复用、映射、比对和变体检出操作。在一些具体实施中,解复用可包括排序操作。
49.本公开通过将二级分析操作的方面卸载到具有被配置为使用硬件电路执行一个或多个二级分析操作的硬连线数字逻辑的可编程逻辑单元来解决这些问题。这大大减少了执行二级分析操作所需的时间t3。此外,本公开并行化测序操作,诸如如本文所述的聚类、初级分析、其他测序操作或它们的组合,以及二级分析,以通过修改常规核酸测序设备来减少从第一测序运行172a开始到第二测序运行172b开始的总体处理时间tsum,从而执行本文所述的并行化工作流操作。
50.使用本公开的技术获得多个其他优点。首先,本公开可用于节省核酸测序仪在测序运行期间使用的试剂。例如,通过在测序运行期间开始二级分析操作并在测序完成之前完成二级分析操作的至少一部分,本公开可生成统计量,诸如比对统计量、解复用统计量等,并且评估所生成的统计量以衡量在初级分析期间生成的读段质量。如果统计量指示由核酸测序仪生成的读段的质量较差,则可终止初级分析,可重新配置测序仪的输入,并且可重新启动使用核酸测序仪的另一测序运行。因此,此过程可通过停止初级分析测序运行而不使用所有试剂来完成低质量测序运行,从而节省本来是为了完成整个第一初级分析测序运行而消耗的试剂的至少一部分。
51.其次,本公开的并行化工作流可使三级分析能够比常规系统更早地开始,从而允许更快地识别某些诊断和治疗。例如,在一些情况下,使用常规计算架构的常规工作流可能需要tsum=大约56小时-99小时才能开始三级分析。然而,在本公开的一些具体实施中,三级分析可在测序完成之后在仅仅2小时-12小时或几小时内开始。在一些情况下,这可能是特别有利的,诸如例如,更快地确定患者症状是否与病毒或细菌相关。然而,存在多种情况,其中在几个小时内确定治疗相对于在一些情况下,3天-4天确定治疗可提供实质性益处,例如,使患者能够有机会在感染(或其他疾病)引起不可逆损伤之前被施用抗生素(或其他类型的药物或治疗)。
52.根据本公开中描述的特征,这些和其他优点将变得显而易见。
53.图1b是用于使用位于核酸测序仪内的二级分析单元140对一个样品105执行增量二级分析的系统100的示例的情境图。系统100包括核酸测序仪110、一个或多个流动池120、一个或多个二级分析单元140、一个或多个处理单元150和一个或多个存储器160。在图1b的示例中,二级分析单元140位于测序仪110内。然而,本公开不限于此。相反,二级分析单元140可位于一个或多个远程计算机内,该一个或多个远程计算机使用一个或多个有线或无线网络如lan、wan、蜂窝网络、互联网或它们的任何组合通信地耦接到测序仪110。二级分析单元140可包括存储器140、可编程电路142、处理单元150、存储器160或它们的任何组合。出于本说明书的目的,二级分析可包括映射操作、比对操作、变体检出操作或它们的任何子集或组合。在一些具体实施中,核酸测序仪可使用处理单元150、存储器160或两者来执行与二级分析不相关的其他操作。
54.核酸测序仪110的一个或多个处理单元150可包括一个或多个处理器,该一个或多个处理器被配置成执行软件指令以实现由这些软件指令定义的功能性。例如,一个或多个处理单元150可获取并执行定义存储在存储器160中的解复用单元162的软件指令,以实现解复用单元162的功能性。该一个或多个处理单元150可包括一个或多个中央处理单元(cpu)、一个或多个图形处理单元(gpu)或它们的任何组合。
55.本说明书中使用术语“单元”来描述用于执行指定功能的软件模块、硬件模块或两者的组合。本文描述的特定“单元”为硬件、软件还是两者的组合可基于其使用的上下文来确定。例如,驻留在可编程电路142中的“映射和比对单元”142a是硬件单元,其功能性通过硬连线数字逻辑门或硬连线数字逻辑块来实现。又如,驻留在存储器160中的“解复用单元”162是软件单元,其功能性由执行定义“解复用单元”162的软件指令的处理单元150实现。又如,“处理单元”150是通过处理软件指令来实现功能性的硬件设备,并且因此“处理单元”150的功能是硬件和软件的组合。类似地,“二级分析单元”140可包括用于与硬连线可编程
电路142a交互的硬件和软件的组合。
56.核酸测序仪110是被配置为执行测序操作诸如初级分析的设备。初级分析可包括通过核酸测序仪110接收生物样品105诸如血液样品、组织样品或唾液,以及由核酸测序仪110生成输出数据诸如一个或多个读段130-1、130-2、130-3、130-4、132-1、132-2、132-3、132-4、134-1、134-2、134-3、134-4,每个读段表示所接收的生物样品的核酸序列的核苷酸顺序。核酸测序仪110的测序可在多个读段间隔中执行,其中第一读段间隔“read 1”生成一个或多个第一读段,该一个或多个第一读段表示来自核酸序列片段(或链)的第一部分或末端的核苷酸的顺序,该第一部分或末端已经被克隆扩增到与流动池120结合的模板核酸片段的克隆分组中,并且第二读段间隔“read 2”分别表示来自核酸序列片段的第二部分(例如另一末端)的核苷酸的顺序的一个或多个第二读段,该第二部分已经被克隆扩增到与流动池120结合的模板核酸片段的克隆分组中。与流动池120结合的模板核酸片段的相应克隆分组在本文中可称为簇,诸如簇1 122-1、簇2 122-2、簇3 122-3、簇4 122-4、簇5 122-5、簇n 122-n。
57.因此,在每个读段间隔期间,将针对在相应簇中克隆扩增的核酸片段的每个末端由核酸测序设备110生成单个读段。也就是说,测序循环的第一读段间隔将产生“read 1”,并且测序循环的第二读段间隔将产生“read 2”。在一些具体实施中,核酸序列可对同一簇内的核酸片段的多个克隆进行测序,用于成像和确定或识别读段序列。
58.因此,每个读段表示特定核酸序列片段的一部分。例如,假设大约600个核苷酸的短核酸序列片段,则第一读段可表示核酸序列片段的第一末端的150个有序核苷酸,并且第二读段可表示核酸序列片段的另一末端的150个有序核苷酸。然而,这些数字仅仅是示例,并且核酸测序仪110可以与本公开的精神和范围一致的方式配置,该核酸测序仪生成短核酸序列和与此处提及的那些相比长度不同的相应读段。参考图1b、图3和图5描绘此概念的简单型式,以将本公开的原理传达给技术人员。具体地说,这些图描绘了由核酸测序仪110生成的其核酸模板与流动池120结合并被克隆扩增的成簇核酸序列片段的相应末端的读段。
59.在一些具体实施中,生物样品可包括dna样品,并且核酸测序仪110可处理dna。在此类具体实施中,由核酸测序仪生成的读段130-1、130-2、130-3、130-4、132-1、132-2、132-3、132-4、134-1、134-2、134-3、134-4中的所测序核苷酸的顺序可包括形成任何组合的鸟嘌呤(g)、胞嘧啶(c)、腺嘌呤(a)和胸腺嘧啶(t)中的一者或多者。在其他具体实施中,核酸测序仪110可处理rna,并且生物样品可包括rna样品。在此类rna具体实施中,由核酸测序仪生成的读段中的所测序核苷酸的顺序可包括形成任何组合的g、c、a和尿嘧啶(u)中的一者或多者。因此,虽然图1b的示例描述了对基于dna样品的由g、c、a和t组成的读段的处理,但本公开不限于此。相反,其他具体实施可处理基于rna样品的由c、g、a和u组成的读段。
60.然而,rna测序不需要使用rna测序仪。例如,在一些具体实施中,核酸测序仪110可以是对具有g、c、a和t中的一者或多者的样品和生成的读段进行测序的dna测序仪。然后,在此类具体实施中,核酸测序仪110可将所生成的读段转录为cdna以表示所测序样品的rna。在此类具体实施中,读段将使用包括形成任何组合的g、c、a和尿嘧啶(u)的碱基来表示。
61.在一些具体实施中,核酸测序仪110可包括下一代测序仪(ngs),该下一代测序仪被配置为通过使用大规模并行测序技术以实现超高吞吐量、可扩展性和速度的方式生成给
定样品的序列读段诸如读段130-1、130-2、130-3、130-4、132-1、132-2、132-3、132-4、134-1、134-2、134-3、134-4。ngs使得能够对整个基因组进行快速测序,能够扩大到深度测序的靶区域中,利用rna测序(rna-seq)发现新型rna变异和剪接位点,或定量mrna用于基因表达分析,表观遗传因子诸如全基因组dna甲基化和dna蛋白相互作用的分析,癌症样品测序以研究罕见体细胞变异和肿瘤亚克隆,以及研究人类或环境中的微生物多样性。
62.生成核酸测序读段的过程包括样品制备、簇生成和测序的阶段。第一阶段包括样品制备,该样品制备包括将衔接子序列添加到每个dna片段的末端。通过降低的循环扩增,引入另外的基序,诸如可用于识别衍生读段的样品和与流动池120寡核苷酸互补的区域的任何必要的索引。在固体支持物上的样品制备的一个或多个示例描述于美国专利号9,683,230中,该专利全文以引用方式并入本文。第二阶段包括聚类,其中例如使用扩增试剂对每个dna片段进行等温扩增。在固体支持物上的核酸的等温扩增的一个或多个示例在美国专利号7,972,820中更详细地描述,该专利全文以引用方式并入本文。流动池120可包括具有多个泳道的载玻片,其中每个泳道包括两种类型的寡核苷酸的坪(lawn)。杂交是通过两种类型的寡核苷酸的第一种与流动池表面上的该寡核苷酸的互补寡核苷酸连接来实现的。聚合酶产生杂交片段的互补序列。可使用诸如桥式扩增的技术克隆扩增dna片段。在系统100和工作流170b的具体实施中,在工作流170b的时间t1期间发生聚类阶段。然而,本公开不限于此。相反,在一些具体实施中,聚类可开始,并且在时间t1之前执行、脱离仪器执行或两者。在此类具体实施中,可从运行时间计算中去除时间t1,并且测序运行可在例如t2a开始。此类t1前和/或脱离仪器聚类可在图1的系统100、图3的系统300、图5的系统500、图7的系统700或本公开的任何其他具体实施中实施。在桥式扩增之后,反向片段被切割掉,仅留下正向片段。
63.第三阶段包括通过核酸测序仪110在时间t2a和t2b期间的测序操作的执行。在时间t2a期间,核酸测序仪110针对第一读段间隔“read 1”执行x个测序操作循环,以生成对应于在相应簇122-1、122-2、122-3、122-4、122-5、122-n中克隆扩增的每个相应核酸序列片段的第一末端的第一读段,其中x和n可以是大于零的任何正整数。每个dna簇的第一读段包括对应于与特定簇相关联的相应dna的一部分的碱基检出串。例如,读段130-1包括对应于与簇1 122-1相关联的核酸片段的第一末端的碱基检出串,读段130-3包括对应于与簇2 122-2相关联的核酸片段的第一末端的碱基检出串,读段132-1包括对应于与簇3 122-3相关联的核酸片段的第一末端的碱基检出串,读段132-3包括对应于与簇4 122-4相关联的核酸片段的第一末端的碱基检出串,读段134-1包括对应于与簇5 122-5相关联的核酸片段的第一末端的碱基检出串,并且读段134-3包括对应于与簇n 122-n相关联的核酸片段的第一末端的碱基检出串。每个碱基检出对应于或表示核苷酸。可使用测序过程诸如边合成边测序来生成这些读段。表示读段130-1、130-3、132-1、132-3、134-1和134-3的数据可输出到核酸测序仪110的存储器160、输入到二级分析单元140的存储器144或两者。
64.在系统100和图1b的具体实施中,在工作流170b的第一读段间隔的时间t2a期间测序的这些第一读段130-1、130-3、132-1、132-3、134-1和134-3表示与每个簇相关联的dna片段的第一末端上的核苷酸数目。例如,在一些具体实施中,通过核酸测序仪110测序的dna片段可包括600个核苷酸。第一读段130-1、130-3、132-1、132-3、134-1和134-3簇可表示例如在相应簇中扩增的600个核苷酸dna片段的第一末端的前150个核苷酸。每个读段间隔是大
规模并行过程,该过程可同时对数亿个dna片段簇进行测序。一旦第一读段间隔在t2a结束时完成,核酸测序仪110就可在时间t2b期间启动第二读段间隔,该第二读段间隔对每个簇中的每个dna片段的另一末端进行测序以生成第二读段130-2、130-4、132-2、132-4、134-2、134-4。例如,读段130-2包括对应于与簇1 122-1相关联的核酸片段的第二末端的碱基检出串,读段130-4包括对应于与簇2 122-2相关联的核酸片段的第二末端的碱基检出串,读段132-2包括对应于与簇3 122-3相关联的核酸片段的第二末端的碱基检出串,读段132-4包括对应于与簇4122-4相关联的核酸片段的第二末端的碱基检出串,读段134-2包括对应于与簇5 122-5相关联的核酸片段的第二末端的碱基检出串,并且读段134-4包括对应于与簇n 122-n相关联的核酸片段的第二末端的碱基检出串。在系统100和图1的这个具体实施中,第二读段间隔在工作流170b的大约时间=t1+t2a开始。
65.在常规系统中,如参考图1a所描述,直到在时间=t1+t2a+t2b结束时第二读段间隔“read 2”结束之后才会发生二级分析操作,诸如第一读段130-1、130-3、132-1、132-3、134-1和134-3的映射和比对。然而,如本公开所描述的图1b的系统100被配置为在时间=t1+t2a时启动第一读段130-1、130-3、132-1、132-3、134-1、134-3的二级分析操作,其中第一读段130-1、130-3、132-1、132-3、134-1、134-3的二级分析在第二读段间隔“read 2”期间开始并发生,同时核酸测序仪110正在执行第二读段间隔“read 2”的测序操作以生成第二读段130-2、130-4、132-2、132-4、134-2、134-4。
66.系统100通过将第一读段的二级分析操作卸载到二级分析单元140的可编程电路142a来实现这种并行处理优点。将二级分析操作卸载到二级分析单元140释放核酸测序仪110的处理单元150、存储器160或两者以继续第二读段间隔“read 2”的初级分析操作的执行,以通过对dna簇的另一末端进行测序而生成第二读段130-2、130-4、132-2、132-4、134-2、134-4,同时对第一读段中的一个或多个读段进行二级分析。因此,本公开使得诸如初级分析的测序操作能够与一个或多个二级分析操作并行进行。
67.二级分析单元140包括可编程电路142,该可编程电路可被动态地配置为包括一个或多个二级分析操作单元,诸如映射和比对单元142a以执行一个或多个二级分析操作。动态地配置可编程电路142以包括二级分析操作单元(诸如映射和比对单元142a)可包括例如向可编程电路142提供一个或多个指令,该一个或多个指令使得可编程电路142将可编程电路142的硬件逻辑门布置成硬连线数字逻辑配置,该硬连线数字逻辑配置被配置为在硬件逻辑中实现映射和比对单元142a的功能性。可编程电路142的硬件逻辑门可使用已编译的硬件描述语言代码等来实现。可编程电路142的初始配置和可编程电路142的后续重新配置可通过执行由核酸测序仪110或托管可编程电路142的其他计算机满足的软件触发器来启动。例如,在图1b的系统100的具体实施中,在read 1间隔周期结束时,核酸测序仪110或托管可编程电路142的其他计算机可执行软件指令,这些软件指令触发可编程电路的重新配置以执行映射和比对操作。上述软件触发的此类执行可例如使已编译的硬件描述语言代码装载到可编程电路142的存储器中,该存储器可由可编程电路控制执行并且引起可编程电路142逻辑门的重新配置。映射和比对单元142a的配置功能可包括获取一个或多个读段,诸如第一读段130-1、130-3、1s32-1、132-3、134-1、134-3,将所获取的第一读段130-1、130-3、132-1、132-3、134-1、134-3映射到一个或多个参考序列位置,然后将所映射的第一读段130-1、130-3、132-1、132-3、134-1、134-3与一个或多个参考序列位置比对。参考序列可包
括对应于已知基因组的有组织的一系列核苷酸。
68.响应于一个或多个指令布置可编程电路142的硬件逻辑门可包括配置逻辑门(诸如与门、或门、或非门、异或门或它们的任何组合)以执行映射和比对单元142a的数字逻辑功能。例如,通过美国专利号9,679,104或美国公布号2020/0372031更详细地描述了使用可编程逻辑电路(诸如fpga)来执行映射和比对单元的功能的示例,这些专利各自在此全文以引用方式并入。另选地或除此之外,布置硬件逻辑门可包括动态地配置的逻辑块,该逻辑块包括可定制的硬件逻辑单元以执行包括加法、乘法、比较等的复杂计算操作。硬件逻辑门、逻辑块或它们的组合的精确布置由所接收的指令定义。所接收的指令可包括已编译的硬件描述语言(hdl)程序代码或从已编译的hdl程序代码导出,该已编译的hdl程序代码由实体写入并且定义将被编程的二级分析操作单元的示意性布局。hdl程序代码可包括以诸如极高速集成电路硬件描述语言(vhdl)、verilog等语言编写的程序代码。实体可包括起草hdl程序代码的一个或多个人类用户、生成hdl程序代码的一个或多个人工智能代理,或它们的组合。
69.在一些具体实施中,可编程电路142可包括可根据需要由核酸测序仪110动态地配置和重新配置以执行特定工作流的一个或多个现场可编程门阵列(fpga)、复杂可编程逻辑设备(cpld)或可编程逻辑阵列(pla)或它们的组合。例如,在一些具体实施中,可能有利的是使用可编程逻辑电路142作为映射和比对单元142a,如上所述。然而,在其他具体实施中,可能有利的是使用可编程电路142来执行变体检出功能或支持变体检出的功能,诸如隐马尔可夫模型(hmm)单元。在其他具体实施中,可编程电路142还可被动态地配置为支持一般计算任务,诸如压缩和解压缩,因为可编程电路142的硬件逻辑能够比使用由一个或多个处理单元150执行的软件指令执行相同任务快得多地执行这些任务以及上文提到的其他任务。
70.可编程电路142是一种类型的集成电路的示例,可提供本文所述的本公开的优点。然而,其他类型的集成电路可用作二级分析单元140的硬连线数字逻辑,该硬连线数字逻辑可卸载核酸测序仪110的二级分析以释放核酸测序仪110的资源以供初级分析。例如,在一些具体实施中,二级分析单元140可被配置为使用一个或多个专用集成电路(asic)。虽然不可重新编程,但一个或多个asic可设计有一个或多个二级分析操作单元(诸如映射和比对单元、变体检出单元、变体检出计算支持单元等)的定制硬件逻辑,以加速和并行地执行二级分析操作。在一些具体实施中,使用asic作为实现一个或多个二级分析操作单元的功能性的二级分析单元140的硬连线逻辑电路甚至可比使用可编程电路更快。因此,技术人员将理解,asic可用于代替本文所述的任何实施方案中的fpga。
71.例如,在一些具体实施中,可编程逻辑电路142可使用被动态地配置为解压缩单元的fpga来实施,以访问表示从核酸测序仪接收的第一读段130-1、130-3、132-1、132-3、134-1、134-3的数据并且解压缩表示第一读段的数据(例如,如果从核酸测序仪接收的读段被压缩)。解压缩单元可存储存储在存储器144或160中的已解压缩的读段。在此类具体实施中,fpga然后可被动态地重新配置为映射和比对单元142a以执行存储在存储器144或160中的已解压缩的第一读段的映射和比对。映射和比对单元142a然后可将表示已映射和已比对读段的数据存储在存储器144或160中。接下来,fgpa可被动态地重新配置成变体检出单元或被配置为执行支持软件变体检出单元(例如,hmm单元)的功能并执行变体检出操作以生成
输出数据的单元,测序系统100可使用该输出数据来基于所存储的表示已映射和已比对的读段的数据生成变体检出格式(vcf)文件。使用fpga执行的这些硬件模块的高执行速度可将读段的二级分析从常规方法的30小时至48小时减少到几分钟内执行。虽然一系列操作被描述为包括解压缩、映射和比对,并且描述了变体检出操作,但是本公开不限于执行所有这些操作。相反,可编程电路142可被动态地配置为根据需要以任何顺序执行任何操作单元,以并行化从核酸测序仪110卸载的二级分析。
72.参考图1a的示例,核酸测序仪110可配置二级分析单元140的可编程电路142以包括映射和比对单元142a。核酸测序仪110可接收样品105,诸如实体(诸如人类、非人动物或植物)的核酸。核酸测序仪110可在工作流170b的时间t1期间制备样品105并执行簇生成。核酸测序仪110可执行测序操作,诸如第一读段间隔期间的边合成边测序,以在时间t1之后发生的时间t2a期间生成第一读段130-1、130-3、132-1、132-3、134-1、134-3。在时间t1+t2a结束时,核酸测序仪110完成第一读段130-1、130-3、132-1、132-3、134-1、134-3的测序并且开始对第二读段130-2、130-4、132-2、132-4、134-2、134-4进行测序。
73.核酸测序仪110被配置为将二级分析操作,诸如第一读段130-1、130-3、132-1、132-3、134-1、134-3的映射和比对与测序操作,诸如第二读段间隔的边合成边测序并行化以在时间段t2b期间生成第二读段130-2、130-4、132-2、132-4、134-2、134-4。映射和比对单元142a可生成映射和比对结果149并将映射和比对结果存储在核酸测序仪110的存储器160、存储器144、核酸测序仪110可访问的一些其他存储器、核酸测序仪110的用户可访问的一些其他存储器或它们的组合中。结果149可包括描述映射和比对统计量的数据,诸如例如,提供映射质量的指示的映射质量(mapq)分数、提供比对质量的指示的比对分数等的数据。
74.在图1a的示例中,使用可编程电路142的硬连线数字逻辑实施的映射和比对单元142a的超快执行时间使得映射和比对单元142a能够在由核酸测序仪110执行第二读段间隔所需时间的一小部分内执行第一读段130-1、130-3、132-1、132-3、134-1、134-3的映射和比对。例如,在一些具体实施中,可编程电路142可在几分钟内执行第一读段130-1、130-3、132-1、132-3、134-1、134-3的映射和比对,而第二读段130-2、130-4、132-2、132-4、134-2、134-4的测序可能需要12小时至24小时。因此,可通过核酸测序仪110、核酸测序仪110的用户或两者来评估映射和比对结果149,并且可基于如映射和比对统计量所指示的第一读段130-1、130-3、132-1、132-3、134-1、134-3的映射和比对的质量来确定核酸测序仪110是否应该继续对第二读段130-2、130-4、132-2、132-4、134-2、134-4进行测序。
75.关于第二读段130-2、130-4、132-2、132-4、134-2、134-4的测序是否应该继续的这种确定可由核酸测序仪110自动做出,由核酸测序仪110的用户手动做出,或者基于描述来自两者的确定的数据做出。例如,核酸测序仪110可被配置为确定映射和比对统计量,诸如第一读段130-1、130-3、132-1、132-3、134-1和134-3的比对分数是否满足预定阈值。如果一个或多个比对分数满足预定阈值,则核酸测序仪110可继续对第二读段130-2、130-4、132-2、132-4、134-2、134-4进行测序。另选地,如果确定该一个或多个比对分数不满足预定阈值,则核酸测序仪110可终止第二读段130-2、130-4、132-2、132-4、134-2、134-4的测序。
76.又如,在一些具体实施中,映射和比对结果149可由核酸测序仪110的用户手动查看。在此类情况下,用户可基于如比对分数所指示的第一读段130-1、130-3、132-1、132-3、
134-1、134-3的比对质量来确定核酸测序仪110是否继续对第二读段130-2、130-4、132-2、132-4、134-2、134-4进行测序。
77.又如,可通过核酸测序仪110和用户两者基于由映射和比对结果149所指示的比对分数所指示的第一读段的比对质量来确定第二读段的测序是否应该继续。在此类具体实施中,可获取描述核酸测序仪110和用户的确定的数据,并且在一些具体实施中,如果核酸测序仪110和用户都同意应该终止第二读段间隔,则核酸测序仪110将仅终止第二读段间隔。
78.在其他具体实施中,可计算两个确定的加权平均值以产生表示核酸测序仪110和用户两者的确定的累积分。在此类具体实施中,核酸测序仪110可仅在累积分未能满足预定质量阈值时终止。在其他具体实施中,表示比对统计量的数据、表示用户确定是否应该继续对第二读段间隔进行测序的数据、表示第一读段中的一个或多个读段的数据、其他数据(诸如表示样品105的特征的数据)或它们的组合,可被矢量化并输入到人工智能代理,诸如已经被训练以确定核酸测序仪110是否应该继续对第二读段间隔进行初级分析的机器学习模型。在此类具体实施中,机器学习模型可基于标记为“终止第二读段间隔”或“继续第二读段间隔”或其相应等同物的标记训练数据进行预先训练。所标记的训练数据可包括表示将在运行时提供给机器学习模型的相同输入类型的数据。此类输入类型可包括表示比对统计量的数据、表示用户确定是否应该继续对第二读段间隔进行测序的数据、表示第一读段中的一个或多个读段的数据、其他数据(诸如表示样品105的特征的数据)或它们的组合。
79.使用基于第一读段130-1、130-3、132-1、132-3、134-1、134-3与一个或多个参考序列的映射和比对生成的映射和比对结果149能够节省由核酸测序仪110在第二读段间隔期间使用的试剂以生成第二读段130-2、130-4、132-2、132-4、134-2、134-4。例如,第一读段130-1、130-3、132-1、132-3、134-1、134-3的差比对分数可指示存在许多问题,诸如受污染的样品105、测序错误、它们的组合等。因此,在此类情况下,不是使用可能非常昂贵的试剂在第二读段间隔期间对第二读段进行测序,并且进一步延迟开始运行另一轮初级分析所花费的时间,而是可将核酸测序仪110关闭,重新配置,然后用于开始另一个样品的初级分析,该初级分析的时间只是让核酸测序仪110完成该核酸测序仪低质量测序运行所花费的时间的一小部分。在一些具体实施中,一旦确定第一读段的映射和比对质量令人满意,核酸测序仪110就可丢弃映射和比对结果149。在其他具体实施中,与第二读段间隔并行执行的第一读段的映射和比对可用作第一读段的最终数据运行的映射和比对结果。
80.继续图1b的示例,在确定映射和比对结果令人满意之后,核酸测序仪110就可继续第二读段间隔的执行以生成第二读段。一旦生成第二读段130-2、130-4、132-2、132-4、134-2、134-4,核酸测序仪110就可指示二级分析单元140开始该二级分析单元的最终二级分析数据运行。最终二级分析数据运行可包括使用二级分析单元140映射和比对第一读段130-1、130-3、132-1、132-3、134-1、134-3和第二读段130-2、130-4、132-2、132-4、134-2、134-4。因为使用可编程电路142a实施这些二级分析操作,所以这些二级分析操作可与第二测序运行并行执行,并且在执行第二测序运行所需时间的一小部分内执行。
81.与常规系统相比,这提供了一个优点,即能够在对先前测序运行的读段进行二级分析的同时进行后续测序运行。也就是说,常规核酸测序仪在第一测序运行完成后需要等待大约24小时-48小时才能开始第二测序运行,如图1a所示,核酸测序仪110可使用在可编程电路142中实施的映射和比对单元142a来使第一测序运行的读数的二级分析与第二测序
运行的执行并行。因此,与使用由图1a描述的系统和工作流的常规系统相比,图1b的核酸测序仪110可用于在更短的时间段内执行更多的测序运行。因此,通过将二级分析计算任务卸载到二级分析单元140的可编程电路142来使测序运行和二级分析并行化可增加来自另外的试剂销售的收入。
82.在一些具体实施中,核酸测序仪110还可具有软件程序,诸如解复用单元162和存储在存储器160中的变体检出单元164。核酸测序仪的一个或多个处理器150可处理这些单元的软件指令,以便实现这些单元的功能性。例如,在一些具体实施中,可使用核酸测序仪110同时对多个样品的dna片段进行测序。在此类情况下,解复用单元162可用于实施解复用技术,该解复用技术基于诸如已添加到每个所生成的读段的条形码的索引来组织读段并识别与每个读数相关联的样品。又如,处理器150可用于执行变体检出单元164,该变体检出单元可分析已映射和已比对的读段以识别任何变体的出现,诸如单核苷酸多态性(snp)、插入/缺失(indel)、结构变异等的出现。在一些具体实施中,可编程电路142可被动态地重新配置以辅助变体检出处理。例如,可编程电路142可被动态地重新配置以包括hmm单元,该hmm单元可用于执行关于变体在已映射和已比对的读段的一个或多个参考位置处的可能出现的概率计算。在一些具体实施中,变体检出单元164可被配置为与第二测序运行的测序操作并行地执行来自read1间隔的已映射和已比对读段的变体检出操作。
83.图1b的示例描述了具有8个核苷酸的读段的示例。然而,本公开不限于此。相反,呈现这种简单的示例是为了以易于理解的方式解释本公开的特征。实际上,在一些具体实施中,本公开的dna片段可各自具有例如至多600个核苷酸、至多1000个核苷酸或更多,并且该片段的每个读段可具有例如,从该dna片段每个末端的50个核苷酸、75个核苷酸、150个核苷酸、200个核苷酸、300个核苷酸、500个核苷酸或更多。然而,可采用具有不同长度dna片段和不同长度的读段的本公开的具体实施。同样,图1b或任何其他图中的任何内容都不应被解释为限制片段簇的数目。例如,核酸测序仪110可执行大规模并行测序,同时对数百万簇多个片段进行测序。
84.图2是用于根据图1b的工作流图执行增量二级分析的过程200的示例的流程图。通常,过程200包括获取表示由核酸测序设备在第一读段间隔期间生成的多个第一读段的第一数据(210),获取表示由核酸测序设备在第一读段间隔之后执行的第二读段间隔期间生成的多个第二读段的第二数据(220),在阶段220中获取第二数据的同时,(i)对表示由核酸测序仪生成的多个第一读段的第一数据执行一个或多个二级分析操作,并且(ii)存储第一多个读段的二级分析的结果(230),以及之后,对所获取的表示第二多个读段的第二数据与参考数据执行二级分析。为了方便起见,这些阶段将在下文更详细地描述为由诸如图1b的系统100的测序系统执行。
85.测序系统可通过获取210表示由核酸测序设备在第一读段间隔期间生成的多个第一读段的第一数据来开始执行过程200。获取第一数据可包括在由核酸测序设备生成第一数据之后将表示多个第一读段的第一数据存储在存储器设备(诸如二级分析单元的存储器设备)中。二级分析单元的存储器设备可以是可由被配置为执行二级分析操作的二级分析单元的集成电路访问的存储器单元。集成电路可包括一个或多个可编程电路、一个或多个asic或它们的组合。多个第一读段中的每个读段可由有序核苷酸序列组成。在一些具体实施中,有序核苷酸序列可对应于核酸片段的第一末端的核苷酸。核酸测序设备可包括任何
核酸测序设备,包括能够对dna或rna进行测序的测序仪。
86.该测序系统可通过获取220表示由核酸测序设备在第一读段间隔之后执行的第二读段间隔期间生成的多个第二读段的第二数据来继续过程200的执行。获取第二数据可包括在由测序设备生成第二数据之后将表示多个第二读段的第二数据存储在二级分析单元的存储器中。二级分析单元的存储器设备可以是可由被配置为执行二级分析操作的二级分析单元的集成电路访问的存储器单元。集成电路可包括一个或多个可编程电路、一个或多个asic或它们的组合。在一些具体实施中,获取第二数据的至少一部分,同时由核酸测序设备生成第二数据的另一部分。多个第二读段中的每个读段可由有序核苷酸序列组成。在一些具体实施中,有序核苷酸序列可对应于与核酸片段的第一末端相对的该核酸片段的第二末端的核苷酸。
87.在测序系统在阶段220处获取第二数据的同时,测序系统可在阶段230处对表示多个第一读段的第一数据执行一个或多个二级分析操作。在一些具体实施中,对表示多个第一读段的第一数据执行一个或多个二级分析操作可包括:(i)通过核酸测序设备将第一数据提供给映射和比对单元以将表示多个第一读段的第一数据与参考序列比对,(ii)使用映射和比对单元将表示多个第一读段的第一数据与参考序列比对,(iii)从映射和比对单元接收将表示多个第一读段的第一数据与参考序列比对的比对结果,以及(iv)在阶段204处完成获取第二数据之前,存储所接收的比对结果。比对结果可包括描述表示第一多个读段的第一数据与参考序列的比对的质量的比对统计量。比对统计量可包括例如mapq分数、比对分数等中的一个或多个。在其他具体实施中,比对结果可包括已映射和已比对的读段,这些读段可作为输入提供给变体检出器以确定潜在变体。
88.在一些具体实施中,可提供描述比对结果的输出数据以供一个或多个人类用户查看。例如,描述比对结果的输出数据可在例如,耦接到核酸测序设备或在另一个房间或建筑物中提供的显示器上输出。另选地或除此之外,描述比对结果的输出数据可使用通信地耦接(例如,直接或间接地)到核酸测序设备的打印机输出,以打印描述比对结果的报告。
89.在一些具体实施中,映射和比对单元的至少一部分在集成电路中实施,该集成电路诸如安装在核酸测序设备中的可编程电路或asic。例如,可编程电路或asic可实施表查找功能、smith-waterman算法或质量分数确定。然而,在其他具体实施中,可在由核酸测序设备执行的软件中执行映射和比对单元的一个或多个操作。例如,控制可编程电路和对比对结果进行排序可在软件中实施。在其他具体实施中,映射和比对单元可在一个或多个远程计算机中的可编程电路、asic、可执行软件或它们的组合中实施,该一个或多个远程计算机使用一个或多个网络通信地耦接到核酸测序设备。在此类具体实施中,表示读段、比对结果等的数据可使用一个或多个网络在核酸测序设备与一个或多个托管映射和比对单元的远程计算机之间进行通信。
90.测序系统、其他处理系统或一个或多个人类用户可在阶段220中获取第二数据的同时评估比对结果。例如,可评估比对结果以确定比对是否具有足够的质量以继续在阶段220中获取第二数据。在一些具体实施中,如果第一多个读段的比对结果不能满足预定阈值,则可指示核酸测序仪停止在阶段220中获取第二数据。另选地,如果确定第一多个读段的比对结果满足预定阈值,则可允许核酸测序仪继续在阶段220中获取第二数据。
91.在具体实施中,在阶段220处其他获取第二数据的同时,可评估已映射和已比对的
第一读段以检测已映射和已比对的第一读段与一个或多个参考序列之间的潜在变体。此类具体实施可使得能够比常规方法更快地实现已映射和已比对的第一读段的三级分析,这些常规方法会禁止在完成第一读段间隔和第二读段间隔两者之前开始三级分析。因此,在进行三级分析之前,无需等待第二读段间隔完成即可获得初始诊断,从而提前多达12小时-24小时或更长时间开始治疗。
92.测序系统可通过在阶段240处指示对第二数据执行二级分析操作(例如,指示映射和比对单元开始将表示第二多个读段的第二数据与参考序列比对)来继续过程200的执行。在一些具体实施中,测序系统200可始终进行到阶段240。此类具体实施仍然提供了加速三级分析和减少核酸测序设备的停机时间的技术优点。然而,在其他具体实施中,如果确定所接收的描述表示多个第一读段的第一数据的比对质量的比对结果满足预定质量阈值,则过程200的执行可仅继续指示映射和比对单元开始将表示第二多个读段的第二数据与参考序列比对。
93.在一些具体实施中,测序系统可依赖于在获取第二数据的同时在阶段220处执行的第一数据的映射和比对、变体检出或两者的二级分析结果。在其他具体实施中,与在阶段230处执行的第一数据相关的这些初始二级分析结果可在评估这些分析结果以确定第一读段间隔的质量之后丢弃。在此类情况下,测序系统可在阶段240处执行第二数据的二级分析之前或之后启动第一数据的二级分析的第二迭代。
94.图3是用于使用位于远离核酸测序仪310的二级分析单元340来执行一个或多个样品的增量二级分析的系统300的示例的情境图。系统300与参考图1b描述的系统100大体相同,但有一些改变。一个改变是二级分析单元340位于远离核酸测序仪310的一个或多个计算机320中。对于未明确提及的图3的任何附图标记,由附图标记识别的部件具有与图1中的该部件对应特征相同的特征。例如,除非参考图3描述另外的或不同的特征,否则相应的簇322-1、322-2、322-3、322-4、322-5、322-n分别具有与图1的簇122-1、122-2、122-3、122-4、122-5、122-n相同的含义。
95.图3的示例与图1b的示例之间的另一个差异是在图3的示例中,处理多个样品。因此,由系统300中的核酸测序仪310产生的读段具有针对每个读段生成的索引。该索引在图3中由连接到每个读段的标记s1、s2和s3表示。在此示例中,s2、s2、s3是用于识别分别基于第一样品、第二样品或第三样品生成的读段的串。尽管在此使用术语s1、s2、s3描述索引,但是本公开不限于将文本串用作样品标识符,因为这些术语被用作说明索引概念的示例。相反,在一些具体实施中,条形码或其他数据可用作读段的样品标识符。在一些具体实施中,可通过将表示索引的合成核苷酸添加到每个生成的读段来生成样品标识符。
96.参考图3的示例,核酸测序仪310或远程计算机320可配置二级分析单元340的可编程电路342以包括映射和比对单元342a。核酸测序仪310可接收多个样品105、106、107。样品105、106、107可包括例如来自不同实体的核酸样品。不同实体可以是不同的人、不同的动物、不同的植物等。核酸测序仪310可在工作流370的时间t1期间制备样品105、106、107并执行簇生成。核酸测序仪310可执行测序操作,诸如第一读段间隔的边合成边测序,以在时间t1之后发生的时间t2a期间产生第一读段330-1、330-3、332-1、332-3、334-1、334-3。在时间t1+t2a结束时,核酸测序仪310完成第一读段330-1、330-3、332-1、332-3、334-1、334-3的测序,并且开始在时间t3a期间的第一读段间隔期间生成第一读段的索引。在时间t1+t2a+t3a
结束时,核酸测序仪310完成第一读段周期的索引生成,并且针对将在时间t3b期间的第二读段间隔期间生成的第二读段生成索引。在时间t1+t2a+t3a+t3b结束时,核酸测序仪310开始对第二读段330-2、330-4、332-2、332-4、334-2、334-4进行测序。
97.核酸测序仪310被配置为并行化二级分析操作,诸如第一读段330-1、330-3、332-1、332-3、334-1、334-3的映射和比对,同时核酸测序仪310执行测序操作,诸如第二读段间隔的边合成边测序以在时间段t2b期间产生第二读段330-2、330-4、332-2、332-4、334-2、334-4。该过程类似于参考图1b的示例描述的过程。然而,在图3的示例中,已经对多个样品进行测序。因此,在进行其他二级分析操作(诸如映射和比对以及变体检出)之前,基于每个读段的索引,需要将多个第一读段解复用成组。一旦将多个第一读段解复用,就可对第一读段的所解复用的组执行一个或多个二级分析操作。在一些具体实施中,系统300可基于解复用操作生成解复用统计量,并且可评估所存储的统计量以确定所测序读段的质量。
98.在图3的示例中,直到时间t1+t2a+t3a+t3b结束时才能开始对第一读段的二级分析,因为在时间t3a和t3b期间的索引操作完成之前,无法将第一读段组织成解复用组。一旦在时间t1+t2a+t3a+t3b结束时完成第二索引,核酸测序仪310可通过网络112向远程计算机320提供多个第一读段。远程计算机320可接收多个第一读段并将该多个第一读段存储在存储器344中。在核酸测序仪310在时间t2b期间执行第二读段间隔的同时,二级分析单元340可使用处理单元350访问存储器344中的多个第一读段,并且使用解复用单元362基于每个读段的索引或样品标识符将多个第一读段330-1、330-3、332-1、332-3、334-1、334-3解复用成组。可使用解复用操作来实现解复用,以基于索引来组织第一读段。所解复用的第一读段可存储在存储器344中。然后,映射和比对单元342a可访问存储在存储器344中的读段,并在第二读段间隔期间对所解复用的第一读段执行映射和比对操作。
99.二级分析单元340可生成可用于评估由核酸测序仪生成的读段的质量的统计量。在一些具体实施中,二级分析单元可基于解复用操作生成解复用统计量。映射和比对单元342a可针对存储在存储器344中的每个第一读段组生成映射和比对结果和统计量。映射和比对单元342a可将结果359存储在存储器360中,或者将结果359提供回核酸测序仪310。
100.结果359可包括解复用统计量、映射和比对结果、映射和比对统计量、变体检出统计量或它们的任何组合。解复用统计量可包括对应于每个样品标识符的读段的数目。映射和比对结果可包括到参考序列的表示一个或多个已映射的读段的数据。映射和比对统计量可包括描述例如提供映射质量的指示的mapq分数、提供比对质量的指示的比对分数等的数据。核酸测序仪310可接收结果359并将所接收的结果存储在存储器160中。
101.在图3的示例中,使用可编程电路342的硬连线逻辑实施的映射和比对单元342a的超快执行时间使得映射和比对单元342a能够在由核酸测序仪310执行第二读段间隔所需时间的一小部分内执行第一读段330-1、330-3、332-1、332-3、334-1、334-3的相应解复用组的映射和比对。例如,在一些具体实施中,可编程电路342a可在几分钟内执行第一读段330-1、330-3、332-1、332-3、334-1、334-3的解复用组的映射和比对,而第二读段330-2、330-4、332-2、332-4、334-2、334-4在第二读段间隔期间的测序可能需要12小时至24小时。因此,可通过核酸测序仪310、远程计算机320、核酸测序仪310或远程计算机320的用户、人工智能代理或模型或它们的组合来评估结果359,并且可基于第一读段330-1、330-3、332-1、332-3、334-1、334-3的解复用的质量、第一读段330-1、330-3、332-1、332-3、334-1、334-3的解复用
组的映射和比对的质量或两者来确定核酸测序仪310是否应该在第二读段间隔期间继续测序操作以生成第二读段330-2、330-4、332-2、332-4、334-2、334-4。
102.关于在第二读段间隔期间生成第二读段330-2、330-4、332-2、332-4、334-2、334-4的测序操作是否应该继续的确定可由核酸测序仪310自动做出,由核酸测序仪的用户手动做出,由人工智能代理或模型自动做出,或者基于描述来自它们的组合的确定的数据做出,如参考图1b的示例所描述。另选地或除此之外,远程计算机320、计算机320的用户或人工智能代理或模型或它们的组合可基于结果359确定在第二读段间隔期间生成第二读段330-2、330-4、332-2、332-4、334-2、334-4的测序是否应该继续。结果359的此类分析可由远程计算机320、远程计算机320的用户、人工智能代理或模型或它们的组合以与参考图1b的描述中核酸测序仪310、核酸测序仪310的用户或人工智能代理或模型或它们的组合对结果149的评估所描述的相同的方式进行评估。在人工智能代理或模型的情况下,除了在图1b的描述中描述的其他输入数据类型之外,人工智能模型还可在包括解复用特征的输入数据类型上进行训练。
103.在一些具体实施中,解复用统计量可与映射和比对统计量分开评估或结合评估,以确定由核酸测序仪310生成的读段的质量。例如,核酸测序仪310或远程计算机320可存储表示每个相应样品标识符的预期读段数目的数据。然后,核酸测序仪310、远程计算机320、用户、人工智能代理或它们的组合可确定解复用统计量是否包括对应于每个样品标识符的读段的数目,该数目在每个样品标识符的预期读数段目的阈值误差量内。如果解复用统计量在每个样品标识符的预期读段数目的阈值误差量内,则核酸测序仪310、远程计算机320、人类用户、人工智能代理或它们的组合可确定测序操作应该继续。另选地,如果确定解复用统计量不在每个样品标识符的预期读段数目的阈值误差量内,则核酸测序仪310、远程计算机320、用户、人工智能代理或模型或它们的组合可确定应该终止测序运行。
104.在一些具体实施中,结果359可能不需要从远程计算机320传输回核酸测序仪310。相反,远程计算机320、远程计算机320的用户或人工智能代理或模型可将数据传输回核酸测序仪310,指示核酸测序仪310是否应该基于计算机320对结果359的分析、计算机320的用户对该结果的分析或人工智能代理或模型对该结果的分析而继续生成第二读段330-2、330-4、332-2、332-4、334-2、334-4。然后,核酸测序仪可基于从远程计算机320接收的数据在实际上不接收结果359的情况下确定是继续还是终止第二读段间隔。
105.在又一具体实施中,核酸测序仪还可考虑多个确定,类似于参考图1b描述的确定。例如,在一些具体实施中,可获取描述核酸测序仪310、核酸测序仪310的用户、远程计算机320、远程计算机320的用户、人工智能代理或模型或它们的任何组合的确定的数据,并且在此类具体实施中,如果核酸测序仪310、核酸测序仪310的用户、远程计算机320、远程计算机320的用户、人工智能代理或模型或它们的任何组合同意应终止第二读段间隔,则核酸测序仪310将仅终止第二读段间隔。在其他具体实施中,可基于核酸测序仪310、核酸测序仪310的用户、远程计算机320、远程计算机320的用户、人工智能代理或它们的任何组合中的一个或多个的确定的加权平均值来生成累积分,然后基于该累积分确定第二读段间隔是否应该终止。在此类具体实施中,如果累积分低于预定阈值,则可终止第二读段间隔。另选地,如果累积分高于预定阈值,则可继续第二读段间隔。
106.使用这些技术,图3的系统300提供参考图1b描述的类似技术优点。也就是说,如果
结果359指示第一读段的比对是低质量比对,则系统300可节省用于生成第二读段的试剂。一旦确定解复用统计量、映射和比对结果、映射和比对统计量或它们的组合的质量令人满意,核酸测序仪310就可丢弃结果359。在其他具体实施中,与第二读段并行执行的第一读段的映射和比对可用作最终数据运行的第一读段的映射和比对。
107.继续图3的示例,在确定结果359令人满意之后,核酸测序仪310可继续第二读段的执行。一旦生成第二读段330-2、330-4、332-2、332-4、334-2、334-4,核酸测序仪310就可使用指示二级分析单元340开始该二级分析单元最终二级分析数据运行的网络112向远程计算机320传输指令。最终数据运行可包括基于每个第二读段的样品标识符将第二读段330-2、330-4、332-2、332-4、334-2、334-4解复用成有组织的第二读段组,然后使用二级分析单元340映射和比对第二读段330-2、330-4、332-2、332-4、334-2、334-4。在一些具体实施中,如果已丢弃有组织的第一组读段的映射和比对结果,则最终数据运行可对第一读段和第二读段两者执行映射和比对操作。因为使用可编程电路342a来实施这些操作,所以这些操作可与第二测序运行374并行执行,并且在执行第二测序运行374所需时间的一小部分内执行。这提供了优于常规系统的优点,即能够在对先前的测序运行372执行二级分析的同时继续随后的测序运行,从而减少图1a所示的常规系统中发生的测序仪停机时间。
108.除了解复用以及映射和比对之外,二级分析单元340还可执行变体检出操作。例如,处理单元350可用于执行变体检出单元364,该变体检出单元可分析已映射和已比对的读段以识别任何变体的出现,诸如单核苷酸多态性(snp)、插入/缺失(indel)、结构变异等的出现。在一些具体实施中,可编程电路342可例如由远程计算机320动态地重新配置以辅助变体检出处理。例如,可编程电路342可被动态地重新配置以包括hmm单元,该hmm单元可用于执行关于变体在已映射和已比对的读段的一个或多个参考位置处的可能出现的概率计算。使用诸如fpga的可编程电路来执行变体检出操作的示例在例如美国公布号2016/0180019、美国公布号2016/0306922和美国公布号2019-0259468中有更详细的描述,这些公布各自的全部内容在此全文以引用方式并入。
109.图3的示例描述了具有8个核苷酸和3个样品的读段的示例。然而,本公开不限于此。相反,呈现这种简单的示例是为了以易于理解的方式解释本公开的特征。实际上,在一些具体实施中,本公开的dna片段可具有例如至多600个核苷酸、至多800个核苷酸、至多1,000个核苷酸或更多,并且该片段的每个读段可具有例如,从该核苷酸dna片段每个末端的50个核苷酸、75个核苷酸、150个核苷酸、200个核苷酸、300个核苷酸、500个核苷酸或更多。同样,图3或任何其他图中的任何内容都不应被解释为限制片段簇的数目。例如,核酸测序仪310可执行大规模并行测序,同时对数百万簇多个片段进行测序。
110.尽管图3的示例涉及用于生成具有索引或样品标识符的读段的多个样品,但是本公开不限于此。相反,系统300还可用于处理单个样品,该样品生成未编索引的读段,因为所有读段属于同一样品。在此类具体实施中,可在第一读段间隔“read 1”之后立即启动第二读段间隔“read 2”,而不生成任何索引的情况下执行相同的过程。然后,一旦完成第一读段间隔“read 1”,就可启动第二读段间隔“read 2”,同时将第一读段的二级分析与第二读段间隔并行化。单个样品具体实施与多个样品具体实施之间唯一的实质性差异是索引生成和解复用阶段不需要在单个样品中执行,因为所有读段与同一样品相关联。
111.图4是用于根据图3的工作流图执行增量二级分析的过程400的示例的流程图。通
常,过程400包括获取描述由核酸测序设备在第一读段间隔期间从多个不同样品生成的多个第一读段的第一数据(410),获取描述由核酸测序设备在第一读段间隔(410)之后执行的第二读段间隔期间从多个不同样品生成的多个第二读段的第二数据(420),在阶段420中获取第二数据的同时,(i)基于与第一读段中的每个读段相关联的至少第一样品标识符或第二样品标识符将多个第一读段组织成有组织的组,(ii)针对每个有组织的第一读段组对有组织的第一读段组进行二次分析操作并且(iii)存储每个第一读段组的二级分析的结果(430),以及之后,指示二级分析单元开始(a)基于至少第一样品标识符或第二样品标识符将多个第二读段组织成多个有组织的组(440),并且(b)针对每个有组织的第二读段组,对有组织的第二读段组或对有组织的第一读段组和第二读段组执行二级分析操作(450)。为了方便起见,而非限制,这些阶段将在下文更详细地描述为由诸如图3的系统300的测序系统执行。
112.测序系统可通过获取410描述由核酸测序设备在第一读段间隔期间从多个不同样品生成的多个第一读段的第一数据来开始执行过程400。获取第一数据可包括在由测序设备生成第一数据之后将表示多个第一读段的第一数据存储在存储器设备(诸如二级分析单元的存储器设备)中。二级分析单元的存储器设备可以是可由被配置为执行二级分析操作的二级分析单元的集成电路访问的存储器单元。集成电路可包括一个或多个可编程电路、一个或多个asic或它们的组合。
113.多个第一读段中的每个读段可由有序核苷酸序列组成。在一些具体实施中,有序核苷酸序列可对应于核酸片段的第一末端的核苷酸。核酸片段可被克隆扩增以促进测序,并且在此类具体实施中,有序核苷酸序列可通过分析核酸片段的多个克隆以生成读段的核苷酸来确定。每个第一读段可包括识别用于生成第一读段的样品的数据。在一些具体实施中,识别样品的数据可包括条形码。核酸测序设备可包括任何核酸测序设备,包括dna测序仪或rna测序仪。
114.该测序系统可通过获取420描述由核酸测序设备在第一读段间隔之后执行的第二读段间隔期间从多个不同样品生成的多个第二读段的第二数据来继续过程400的执行。获取第二数据可包括在由测序设备生成第二数据之后将表示多个第一读段的第二数据存储在二级分析单元的存储器中。二级分析单元的存储器设备可以是可由被配置为执行二级分析操作的二级分析单元的集成电路访问的存储器单元。集成电路可包括一个或多个可编程电路、一个或多个asic或它们的组合。
115.在一些具体实施中,获取第二数据的至少一部分,同时由核酸测序设备生成第二数据的另一部分。多个第二读段中的每个读段可由有序核苷酸序列组成。在一些具体实施中,有序核苷酸序列可对应于与核酸片段的第一末端相对的该核酸片段的第二末端的核苷酸。核酸片段可被克隆扩增以促进测序,并且在此类具体实施中,有序核苷酸序列可通过分析核酸片段的多个克隆以生成读段的核苷酸来确定。每个第二读段可包括识别第二读段所源自的样品的数据。在一些具体实施中,识别样品的数据可包括条形码。
116.在阶段420中获取第二数据的同时,测序系统可使用二级分析单元来并行化多个第一读段的另外的处理。在一些具体实施中,另外的并行化处理可包括(i)基于与第一读段中的每个读段相关联的至少第一样品标识符或第二样品标识符将表示多个第一读段的数据组织成有组织的组,(ii)针对每个有组织的第一读段组对有组织的第一读段组进行二级
分析操作,以及(iii)存储每个第一读段组的二级分析的结果(430)。
117.当有多个样本在测序时,需要基于样品标识符将多个第一读段组织成有组织的组,以获取相关的二级分析处理。这可包括执行一个或多个解复用操作以将具有不同第一样品标识符的第一读段组映射到相应有组织的组,其中每个有组织的第一读段组具有相同的样品标识符。可生成描述解复用操作的质量的解复用统计量。例如,解复用统计量可指示对应于每个样品标识符的第一读段的数目。在一些具体实施中,二级分析单元可将结果数据返回到核酸测序仪,将结果数据提供给一个或多个人工智能代理或模型,或者将结果数据输出到描述解复用统计量的一个或多个人类用户。在此类情况下,基于由解复用统计量描述的解复用操作的质量,测序系统可确定此时是继续过程400还是终止过程400。另选地,如下所述,在执行映射和比对操作之后,此类解复用统计量可作为结果数据返回。
118.一旦已经组织了多个第一读段,测序系统就可针对每个有组织的第一读段组对有组织的第一读段组执行一个或多个二级分析操作。针对每个有组织的第一读段组,对有组织的第一读段组执行二级分析操作可包括(i)通过核酸测序设备将有组织的第一读段组提供给映射和比对单元,以将有组织的第一读数组与参考序列进行比对,(ii)使用映射和比对单元将有组织的第一读段组与参考序列进行比对,(iii)从映射和比对单元接收结果,以及(iv)在阶段420处完成第二数据的获取之前存储所接收的结果数据。
119.结果数据可包括解复用统计量或映射和比对统计量。解复用统计量可包括描述解复用操作的质量的数据,诸如对应于每个样品标识符的第一读段的数目。映射和比对统计量可包括描述每个有组织的第一读段组与相应参考序列比对的质量的数据。映射和比对统计量可包括例如mapq分数、比对分数等中的一个或多个。在其他具体实施中,映射和比对结果可包括针对每个有组织的第一读段组的已映射和已比对读段,该第一读段组可作为输入提供给变体检出器,用于确定针对每个有组织的第一读段组的已映射和已比对读段与相应参考序列之间的潜在变体。
120.在一些具体实施中,可提供描述针对每个有组织的第一读段组的结果数据的输出数据以供一个或多个人类用户查看。例如,描述针对每个有组织的第一读段组的结果数据的输出数据可在耦接到例如核酸测序设备或在另一个房间或建筑物中提供的显示器上输出。另选地或除此之外,描述针对每个有组织的第一读段组的结果数据的输出数据可使用通信地耦接(例如,直接或间接地)到核酸测序设备的打印机输出,以打印描述针对每个有组织的第一读段组的比对结果的报告。
121.在一些具体实施中,测序系统、远程计算机、一个或多个人类用户、人工智能代理或模型或它们的组合可在阶段420中获取第二数据时评估结果数据。例如,可评估结果数据以确定所解复用的第一读段、第一读段的映射和比对或两者是否具有足够的质量以继续在阶段420中获取第二数据。在一些具体实施中,如果针对有组织的第一读段组的结果数据不满足一个或多个预定规则或阈值,则可指示核酸测序仪停止在阶段420中获取第二数据。另选地,如果确定针对有组织的第一读段组的结果数据满足一个或多个预定规则或阈值,则可允许核酸测序仪继续在阶段420中获取第二数据。
122.在一些具体实施中,可评估每个有组织的已映射和已比对的第一读段组,以在阶段420处获取第二数据时检测潜在变体。此类具体实施可以使得能够比常规方法更快地实现针对每个组所识别的变体的三级分析,这些常规方法会禁止在完成第一读段间隔和第二
读段间隔两者之前开始三级分析。因此,在进行三级分析之前,无需等待第二读段间隔完成即可获得初始诊断,从而比常规方法提前多达12小时-24小时开始治疗。
123.测序系统可通过在阶段430处指示映射和比对单元开始基于至少第一样品标识符或第二样品标识符将多个第二读段组织成多个有组织的第二读段组来继续过程400的执行。需要基于第二样品标识符将多个第二读段组织成有组织的组,以获取第二读段的相关二级分析处理。这可包括执行一个或多个解复用操作以将具有不同样品标识符的第二读段组映射到不同有组织的组,其中每个有组织的第二读段组具有相同的第二样品标识符。测序系统可针对每个有组织的第二读段组继续过程400的执行,该过程对有组织的第二读段组执行二级分析操作(阶段440)。在一些具体实施中,可对第一读段和第二读段的组合执行二级分析操作。
124.在一些具体实施中,测序系统可进行到阶段430和440。此类具体实施仍然提供了加速三级分析和减少核酸测序仪的停机时间的技术优点。然而,在其他具体实施中,通过测序系统执行过程400可仅继续将多个第二读段组织成多个有组织的组(430),并且如果确定描述第一读段的解复用质量、第一读段的映射和比对质量或两者的每个有组织的第一读段组的接收的结果数据满足一个或多个预定质量规则或阈值,则执行诸如映射和比对、变体检出或两者的二级分析操作。
125.在一些具体实施中,测序系统可依赖于在获取第二数据时在阶段420处执行的有组织的第一读段组的映射和比对、变体检出或两者的二级分析结果。在其他具体实施中,与在阶段420处执行的有组织的第一读段组相关的这些初始二级分析结果可在评估这些分析结果以确定第一读段间隔的质量之后丢弃。在此类情况下,测序系统可在阶段430和440处有组织的第二读段组的二级分析之前或之后启动有组织的第一读段组的二级分析的第二迭代。
126.图5是用于使用核酸测序仪内的二级分析单元执行一个或多个样品的增量二级分析的系统500的示例的情境图。系统500与参考图3描述的系统300大体相同,但有一些差异。一个差异是二级分析单元540位于核酸测序仪510内。对于未明确提及的图5的任何附图标记,由附图标记识别的部件具有与图1或图3中的该部件对应特征相同的特征。例如,除非参考图5描述另外的或不同的特征,否则相应的簇522-1、522-2、522-3、522-4、522-5、522-n分别具有与图1的簇122-1、122-2、122-3、122-4、122-5、122-n相同的含义。
127.图5的示例与图3的示例之间的另一个差异是核酸测序仪已经被配置为在第一读段间隔之前生成每个读段的样品标识符或索引。这在工作流570中示出,其显示出ind1和ind2在聚类阶段之后并且在工作流570的第一读段间隔“read 1”第一读段之前生成。这与图3的示例中的样品标识符或索引的生成不同,因为图3的索引是在第一读段间隔之后生成的。尽管图5和图6的具体实施被描述为针对“read 1”和“read 2”生成单独的样品标识符或索引,但本公开不限于此。相反,本公开的具体实施可仅生成指代特定片段的“read 1”和“read 2”两者的单个样品标识符或索引标识符。
128.在生成读段时,可在运行时执行在第一读段间隔之前生成样品标识符的益处,即将读段组织成具有相同样品标识符的解复用组。鉴于所有样品标识符的生成和在运行时基于样品标识符组织读段的能力,系统500能够在第一读段间隔期间开始对有组织的第一读段组进行二级分析。在这种情况下,可在第一读段间隔期间获取并评估每个有组织的第一
次读段组的二级分析结果数据,该二级分析结果数据包括解复用统计量、映射和比对统计量或两者,从而使得能够在结果数据指示结果不令人满意时选择终止第一读段间隔,从而节省试剂。
129.此外,在第一读段间隔期间开始对有组织的第一读段组执行二级分析的能力使得能够比参考图1b和图3描述的系统的示例甚至更快地过渡到三级分析操作。图5的系统可比图1b和图3的系统更快地过渡到三级分析,因为在第一读段间隔期间,可识别基于已映射和已比对的第一读段并用作三级分析的输入的初始变体组。这使得三级分析能够在第一读段间隔开始后少于约几小时内开始。这与图1b和图3的示例相反,这些示例分别在测序完成之前无法使用所识别的已映射和已比对读段的变体作为输入来开始三级分析。
130.参考图5的示例,核酸测序仪510可配置二级分析单元540的可编程电路542以包括映射和比对单元542a。核酸测序仪510可接收多个样品105、106、107。样品105、106、107可包括例如来自不同物种的核酸样品。不同物种可以是不同的人、不同的动物、不同的植物等。核酸测序仪510可在工作流570的时间t1期间制备样品105、106、107并执行簇生成。
131.在聚类阶段结束时,核酸测序仪510开始针对将由核酸测序仪510在时间t2a期间产生的每个第一读段生成索引或样品标识符。在时间t2a结束时,核酸测序仪510开始针对将由核酸测序仪510在时间t2b期间产生的每个第二读段生成索引或样品标识符。每个读段的索引或样品标识符可包括可用于在读段与样品之间创建逻辑关系的任何数据。因此,在图5的示例中的时间t1+t2a+t2b结束时,已经针对将由核酸测序仪510在第一读段间隔期间生成的每个第一读段创建索引或样品标识符,并且还已经针对将由核酸测序仪510在第二读段间隔期间生成的每个第二读段创建索引或样品标识符。
132.核酸测序仪510被配置为并行化二级分析操作,诸如第一读段530-1、530-3、532-1、532-3、534-1、534-3的至少一部分的映射和比对,同时核酸测序仪510继续执行测序操作,诸如在时间t3期间第一读段间隔的边合成边测序。在图3的示例中,可能无法实现开始在第一读段间隔期间对第一读段的至少一部分进行二级分析,因为直到第一读段间隔完成之后才生成每个读段的索引或样品标识符。相反,在图5的示例中,将由核酸测序仪510生成的每个读段的索引或样品标识符索引是预先创建的。
133.在图5的示例中,直到工作流570的时间t1+t2a+t2b完成之后,第一读段间隔才开始。在t1+t2a+t2b期满之后,核酸测序仪570可开始第一读段间隔。开始第一读段间隔可包括启动初级分析测序操作,诸如边合成边测序,以产生一个或多个第一读段530-1、530-3、532-1、532-3、534-1、534-3。在从第一读段间隔“read 1”的开始的时间tx之后,在时间tx期间生成的一个或多个第一读段530-1、530-3、532-1然后可存储在二级分析单元540的存储器544或二级分析单元540、处理单元150或两者可访问的其他存储器中。
134.因为核酸测序仪510对多个样品进行测序,所以核酸测序仪510需要执行组织操作以将一个或多个第一读段530-1、530-3、532-1组织成一个或多个有组织的第一读段组。可使用解复用单元562来实现组织第一读段。例如,处理单元550可访问存储在存储器544、存储器560或其他存储器中的一个或多个读段,并执行解复用单元562的编程功能以将一个或多个第一读段530-1、530-3、532-1解复用成一个或多个有组织的第一读段组。可使用一个或多个解复用操作来实现解复用,以基于相应第一读段的索引或样品标识符组织一个或多个第一读段530-1、530-3、532-1。所解复用的第一读段可存储在存储器544或映射和比对单
元542a可访问的其他存储器中。
135.映射和比对单元542a可访问存储在存储器544中的有组织的第一读段,并且在第一读段间隔期间对所解复用的第一读段执行实时映射和比对操作。二级分析单元540可针对存储在存储器544中的每个第一读段组生成结果549。结果549可包括解复用统计量、映射和比对统计量、映射和比对结果或它们的组合。二级分析单元540可将所接收的结果存储在存储器560中。解复用统计量可包括描述解复用质量的数据,诸如对应于每个样品标识符的记录数目。映射和比对统计量,诸如例如,提供每个第一读段组的映射质量的指示的mapq分数、提供每个第一读段组的比对质量的指示的比对分数等。映射和比对结果549可包括描述已映射和已比对读段的数据。在一些具体实施中,这些映射和比对结果可随着更多的第一读段生成并映射和比对到相应的参考序列而动态更新。
136.在图5的示例中,使用可编程电路542的硬连线逻辑实施的映射和比对单元542a的超快执行时间使得映射和比对单元542a能够在由核酸测序仪510执行第一读段间隔所需时间的一小部分内执行第一读段530-1、530-3、532-1、532-3、534-1、534-3的相应解复用组的映射和比对。例如,在一些具体实施中,可编程电路542a可在第一读段间隔“read 1”期间以分钟或更短的时间在硬连线逻辑中对在时间tx期间生成的第一读段的解复用组执行映射和比对,而使用由处理单元150执行的软件执行整个第一读段间隔可能需要12小时到24小时。因此,核酸测序仪510或一个或多个人类用户可评估第一读段的二级分析的结果549,这些第一读段诸如在时间tx期间生成的那些第一读段,而第一读段的其余部分由核酸测序仪510在时间t3期间生成。然后,核酸测序仪510、核酸测序仪510的用户、人工智能代理或模型或它们的组合可基于解复用操作、映射和比对操作或两者的质量,通过结果549确定核酸测序仪510是否应该继续在第一读段间隔期间的测序操作的执行。对于在第一读段间隔期间的测序操作是否应该继续的这种确定可由核酸测序仪510自动做出,由人工智能代理或模型自动做出,由核酸测序仪的用户做出或者基于描述来自这些实体中的每个实体的确定的数据做出,如参考图1b的示例所描述。
137.使用这些技术,图5的系统500提供参考图1b描述的甚至更好的技术优点。也就是说,如果结果549指示在第一读段间隔期间已经生成的第一读段的至少一部分的解复用、在第一读段间隔期间已经生成的第一读段的一部分的比对或两者的质量低,那么系统500可节省将用于继续在第一读段间隔期间生成另外的读段的试剂。一旦确定已经生成的第一读段的解复用质量、已生成的第一读段的映射和比对质量或两者都令人满意,核酸测序仪510就可丢弃映射和比对结果549。在其他具体实施中,与第一读段间隔并行执行的已经生成的第一读段的映射和比对可用作第一读段的最终数据运行的映射和比对。
138.除了解复用以及映射和比对之外,二级分析单元540还可在第一读段间隔“read 1”期间执行一个或多个已映射和已比对的第一读段组的变体检出操作。例如,处理单元550可用于执行变体检出单元564,该变体检出单元可分析已映射和已比对的读段以识别任何变体的出现,诸如单核苷酸多态性(snp)、插入/缺失(indel)、结构变异等的出现。在一些具体实施中,可编程电路542可例如由核酸测序仪510动态地重新配置以辅助变体检出处理。例如,可编程电路542可被动态地重新配置以包括hmm单元,该hmm单元可用于执行关于变体在已映射和已比对的读段的一个或多个参考位置处的可能出现的概率计算。然后,核酸测序仪510或其他计算机设备可使用任何所识别的变体在第一读段间隔“read 1”期间执行一
个或多个三级分析操作。这可帮助基于三级分析加快对实体的治疗。实体可包括患者、人、受试者、植物、动物等。
139.在系统500的示例中,如果基于解复用统计量、映射和比对统计量或两者的质量低的确定来确定终止第一读段间隔,则系统500还可终止第二读段间隔“read 2”。因此,系统500提供优于图1b或图3的系统的示例的另外的优点,因为在检测到低质量的解复用结果、映射和比对结果或两者的事件下可节省甚至更多的试剂。
140.然而,参考系统500的示例,如果确定解复用结果、映射和比对结果或两者满足阈值质量水平,则系统500可开始执行第二读段间隔“read2”,如工作流570中所示。在一些具体实施中,系统500可生成第二读段间隔“read 2”而不会并行化第二读段的二级分析。这种执行可能是优选的,因为例如系统500已经在第一读段间隔“read 1”期间评估了测序质量。然而,在其他具体实施中,系统500可以与第一读段的二级分析与第一读段间隔并行化相同的方式并行化第二读段的二级分析。
141.图5的示例描述了具有8个核苷酸和3个样品的读段的示例。然而,本公开不限于此。相反,呈现这种简单的示例是为了以易于理解的方式解释本公开的特征。实际上,在一些具体实施中,本公开的dna片段可具有例如至多600个核苷酸、至多800个核苷酸、至多1,000个核苷酸或更多,并且该片段的每个读段可具有例如,从该dna片段每个末端的50个核苷酸、75个核苷酸、150个核苷酸、200个核苷酸、300个核苷酸、500个核苷酸或更多。同样,图5或任何其他图中的任何内容都不应被解释为限制片段簇的数目。例如,核酸测序仪510可执行大规模并行测序,同时对数百万簇多个片段进行测序。
142.尽管图5的示例涉及用于生成具有索引或样品标识符的读段的多个样品,但是本公开不限于此。相反,系统500还可用于处理单个样品,该样品生成未编索引的读段,因为所有读段属于同一样品。在此类具体实施中,可在聚类阶段之后立即启动第一读段间隔来执行相同的过程。然后,一旦在第一读段间隔“read 1”期间生成第一读段的一部分,系统500就可将第一读段的所生成的部分提供给映射和比对单元542a以供映射和比对,同时在第一读段间隔期间生成第一读段的剩余部分,而不需要执行解复用阶段。在此具体实施中,第一读段不需要解复用,因为它们都与同一样品相关联。类似性,然后可使用第一读段间隔“read 1”分析已映射和已比对的第一读段的部分的变体,如上所述。如关于图5的示例所解释的,可对是否继续第一读段间隔和第二读段间隔进行类似的确定。总之,图5的系统500的单个样品具体实施与图5的多个样品具体实施之间的实质性差异在于对于该单个样品具体实施,不需要执行解复用阶段。
143.图6是用于根据图5的工作流图执行增量二级分析的过程600的示例的流程图。通常,过程600包括生成多个第一样品标识符,其中每个第一样品标识符对应于将在第一读段间隔期间生成的特定读段(610),生成多个第二样品标识符,其中每个第二样品对应于将在第二读段间隔期间生成的特定读段(620),获取描述由核酸测序设备在第一读段间隔期间从多个不同样品生成的多个第一读段的第一数据,其中多个第一读段中的每个读段对应于第一样品标识符或第二样品标识符中的至少一个样品标识符(630),在阶段630获取第一数据的同时,(i)基于与第一读段中的每个读段相关联的至少第一样品标识符或第二样品标识符将多个第一读段组织成有组织的组,(ii)针对每个有组织的第一读段组对有组织的第一读段组执行二级分析操作,并且(iii)存储每个第一读段组的二级分析的结果(640),获
取描述由核酸测序设备在第一读段间隔之后执行的第二读段间隔期间,从多个不同样品生成的多个第二读段的第二数据,其中多个第二读段中的每个读段对应于第一样品标识符或第二样品标识符中的至少一个样品标识符(650),以及对所获取的第二数据执行二级分析(660)。为了方便起见,而非限制,这些阶段将在下文更详细地描述为由诸如图5的系统500的测序系统执行。
144.测序系统可通过生成610多个第一样品标识符来开始执行过程600,其中每个第一样品标识符对应于将在第一读段间隔期间生成的特定读段。在一些具体实施中,每个第一样品标识符可包括索引标签序列。在将相应样品固定以供测序之前,可将索引标签序列连接到每个样品的靶多核苷酸。索引标签可以是作为模板制备步骤的一部分添加到靶标的合成的核苷酸序列。因此,文库特异性索引标签是连接到样品的靶分子中的每个靶分子的核酸序列标签,该文库特异性索引标签的存在指示或用于识别从中分离出这些靶分子的实体。在一些具体实施中,索引标签序列可包括嵌入合成序列中的条形码。
145.测序系统可通过生成多个第二样品标识符在阶段620处继续过程600的执行,其中每个第二样品标识符对应于将在第一读段间隔之后发生的第二读段间隔期间生成的特定读段。在一些具体实施中,每个第二样品标识符可包括索引标签序列。在将相应样品固定以供测序之前,可将索引标签序列连接到每个样品的靶多核苷酸。索引标签可以是作为模板制备步骤的一部分添加到靶标的合成的核苷酸序列。因此,文库特异性索引标签是连接到样品的靶分子中的每个靶分子的核酸序列标签,该文库特异性索引标签的存在指示或用于识别从中分离出这些靶分子的实体。在一些具体实施中,索引标签序列可包括嵌入合成序列中的条形码。
146.测序系统可通过获取描述由核酸测序设备在第一读段间隔期间从多个不同样品生成的多个第一读段的第一数据在阶段630处继续过程600的执行,其中多个第一读段中的每个读段对应于第一样品标识符中的一个样品标识符。获取第一数据可包括在由测序设备生成第一数据之后将表示一个或多个第一读段的第一数据存储在二级分析单元的存储器中。二级分析单元的存储器设备可以是可由被配置为执行二级分析操作的二级分析单元的集成电路访问的存储器单元。集成电路可包括一个或多个可编程电路、一个或多个asic或它们的组合。在一些具体实施中,获取第一数据的至少一部分,同时由核酸测序设备生成第一数据的另一部分。也就是说,可获取表示第一组一个或多个读段的数据并将该数据存储在二级分析单元的存储器中,同时由核酸测序设备在第一读段间隔期间生成一个或多个其他第一读段。
147.多个第一读段中的每个读段可由有序核苷酸序列组成。在一些具体实施中,有序核苷酸序列可对应于核酸片段的第一末端的核苷酸。核酸片段可被克隆扩增以促进测序,并且在此类具体实施中,有序核苷酸序列可通过分析核酸片段的多个克隆以生成读段的核苷酸来确定。在第一读段间隔之前生成的每个第一读段的每个第一样品标识符分别对应于第一读段所源自的特定样品。测序系统可使用第一样品标识符来确定与任何特定的第一读段相关联的样品。在一些具体实施中,识别样品的数据可包括条形码。
148.在第一读段间隔期间在阶段630处获取第一数据的同时,测序系统可使用二级分析单元来实时并行化已经由核酸测序仪生成的一个或多个第一读段的另外的处理。在一些具体实施中,另外的处理可包括(i)基于与第一读段中的每个读段相关联的至少第一样品
标识符或第二样品标识符将多个第一读段组织成有组织的组,(ii)针对每个有组织的第一读段组对有组织的第一读段组进行二级分析操作,以及(iii)存储每个第一读段组的二级分析的结果(阶段640)。
149.在对多个样品进行测序时,需要基于样品标识符将一个或多个第一次读段组织成有组织的组,以获取相关的二级分析处理。这可包括执行一个或多个解复用操作以将具有不同第一样品标识符的一个或多个第一读段映射到相应有组织的组,其中每个有组织的第一读段组具有相同的样品标识符。可生成描述解复用操作的质量的解复用统计量。例如,解复用统计量可指示对应于每个样品标识符的第一读段的数目。在一些具体实施中,二级分析单元可将结果数据返回到核酸测序仪,将结果数据提供给一个或多个人工智能代理或模型,或者将结果数据输出到描述解复用统计量的一个或多个人类用户。在此类情况下,基于由解复用统计量描述的解复用操作的质量,测序系统可确定此时是继续过程600还是终止过程600。另选地,如下所述,在执行映射和比对操作之后,此类解复用统计量可作为结果数据返回。
150.一旦已经组织了一个或多个第一读段,测序系统就可针对每个有组织的第一读段组使用二级分析单元对有组织的与第一读段间隔的剩余部分并行的第一读段组执行一个或多个二级分析操作。针对每个有组织的第一读段组,对有组织的第一读段组执行二级分析操作可包括(i)通过核酸测序设备将有组织的第一读段组提供给映射和比对单元,以将有组织的第一读数组与参考序列进行比对,(ii)使用映射和比对单元将有组织的第一读段组与参考序列进行比对,(iii)从映射和比对单元接收结果数据,以及(iv)在阶段630处完成第一数据的获取之前存储所接收的比对结果数据。
151.结果数据可包括解复用统计量或映射和比对统计量。解复用统计量可包括描述解复用操作的质量的数据,诸如对应于每个样品标识符的第一读段的数目。映射和比对统计量可包括描述每个有组织的第一读段组与相应参考序列比对的质量的数据。映射和比对统计量可包括例如mapq分数、比对分数等中的一个或多个。在其他具体实施中,映射和比对结果可包括针对每个有组织的第一读段组的已映射和已比对读段,该第一读段组可作为输入提供给变体检出器,用于确定针对每个有组织的第一读段组的已映射和已比对读段与相应参考序列之间的潜在变体。
152.在一些具体实施中,可提供描述针对每个有组织的第一读段组的结果数据的输出数据以供一个或多个人类用户查看。例如,描述针对每个有组织的第一读段组的结果数据的输出数据可在例如耦接到核酸测序设备或在另一个房间或建筑物中提供的显示器上输出。另选地或除此之外,描述针对每个有组织的第一读段组的比对结果的输出数据可使用通信地耦接(例如,直接或间接地)到核酸测序设备的打印机输出,以打印描述针对每个有组织的第一读段组的比对结果的报告。
153.在一些具体实施中,测序系统、一个或多个人类用户、一个或多个人工智能代理或模型或它们的组合可在阶段630中获取第一数据时评估比对结果。例如,可评估结果数据以确定所获取的第一读段的解复用、所获取的第一读段的映射和比对,或两者的组合是否具有足够的质量以继续在阶段630中获取第一数据。在一些具体实施中,如果针对有组织的第一读段组的结果数据不满足一个或多个预定规则或阈值,则可指示核酸测序仪停止在阶段630中的第一读段间隔期间获取第一数据。另选地,如果确定针对有组织的第一读段组的结
果数据满足一个或多个预定规则或阈值,则可允许核酸测序仪继续在阶段630中的第一读段间隔期间获取第一数据。
154.在一些具体实施中,可评估每个有组织的已映射和已比对的第一读段组,以在阶段630处获取第一数据时检测潜在变体。此类具体实施可使得能够比常规方法更快地实现针对每个组所识别的变体的三级分析,这些常规方法会禁止在完成阶段630中的第一读段间隔和阶段650中的第二读段间隔两者之前开始三级分析。因此,在进行三级分析之前,无需等待第一读段间隔、第二读段间隔以及第一读段间隔和第二读段的映射和比对完成即可获得初始诊断,以便比图1a中示出的常规方法提前数天开始治疗。
155.在阶段630结束时,测序系统可通过获取650描述由核酸测序设备在第一读段间隔之后执行的第二读段间隔期间从多个不同样品生成的多个第二读段的第二数据来继续过程600的执行,其中多个第二读段中的每个读段对应于至少第一样品标识符或第二样品标识符中的一个样品标识符。获取第二数据可包括在由测序设备生成第二数据之后将表示在第二读段间隔期间生成的一个或多个第二读段的第二数据存储在二级分析单元的设备的存储器中。二级分析单元的存储器设备可以是可由被配置为执行二级分析操作的二级分析单元的集成电路访问的存储器单元。集成电路可包括一个或多个可编程电路、一个或多个asic或它们的组合。在一些具体实施中,获取第二数据的至少一部分,同时由核酸测序设备生成第二数据的另一部分。也就是说,可获取表示第二组一个或多个读段的数据并将该数据存储在测序仪的存储器中,同时由核酸测序设备在第二读段间隔期间生成一个或多个其他第二读段。
156.多个第二读段中的每个读段可由有序核苷酸序列组成。在一些具体实施中,有序核苷酸序列可对应于与核酸片段的第一末端相对的该核酸片段的第二末端的核苷酸。核酸片段可被克隆扩增以促进测序,并且在此类具体实施中,有序核苷酸序列可通过分析核酸片段的多个克隆以生成读段的核苷酸来确定。在第二读段间隔之前生成的每个第二读段的每个第二样品标识符分别对应于第二读段的特定标识符。测序系统可使用第二样品标识符来确定与任何特定的第二读段相关联的样品。在一些具体实施中,识别样品的数据可包括条形码。
157.测序系统可通过对所获取的第二数据执行660二级分析来继续过程600的执行。在一些具体实施中,测序系统可在阶段650完成后进行到阶段660。在过程600的上下文中,这可能在仍然实现本公开的益处中的至少一些益处的同时发生,这些益处诸如加速三级分析(因为可在阶段640中的第一读段间隔期间评估测序质量)以及减少核酸测序仪的停机时间。然而,本公开不限于此。相反,在一些具体实施中,测序系统可以与第一读段的二级分析与第一读段间隔并行化相同的方式并行化第二读段的二级分析。
158.在一些具体实施中,测序系统可依赖于在第一读段间隔期间获取第一数据时在阶段640处执行的有组织的第一读段组的映射和比对、变体检出或两者的二级分析结果。在其他具体实施中,与在阶段640处执行的有组织的第一读段组相关的这些初始二级分析结果可在评估这些分析结果以确定第一读段间隔的质量之后丢弃。在此类情况下,测序系统可在阶段660处有组织的第二读段组的二级分析之前或之后启动有组织的第一读段组的二级分析的第二迭代。
159.图7是描述在用于使用二级分析单元执行增量二级分析的过程期间执行的操作工
作流的工作流图770的示例。工作流图770与图3中所示的工作流图370相同。然而,在图7中,将在最终数据运行期间执行的另外的操作的序列710已经覆盖在工作流图770的顶部。
160.在一些具体实施中,最终数据运行可包括二级分析或其他另外的处理,这将产生具有阈值置信水平的二级分析结果。在常规测序系统中,在第一读段间隔和第二读段间隔都完成之前,无法通过常规测序系统实现最终数据运行。此外,此类常规系统在第一测序运行结束与第二测序运行开始之间还具有测序仪停机时间,如图1a所示。尽管描述了使用阈值置信水平的示例性具体实施,但是可采用不利用此类阈值的其他具体实施。
161.在图7的示例中,诸如图3或图5的测序系统的测序系统可被配置为在第二读段间隔结束之前在时间ty处开始最终数据运行。时间ty可以是例如从第二读段间隔结束的预定数目的一个或多个测序循环,其中一个循环是指从读段生成单个核酸所需的时间。在一些具体实施中,核酸测序仪可被配置为检测从第二读段间隔“read 2”结束算起预定数目的测序循环的时间,并对在第一读段间隔“read 1”期间生成的一个或多个第一读段启动二级分析的执行。第一读段可包括一个或多个有组织的读段组,该一个或多个有组织的读段组先前已经在图7的工作流中的时间t3b结束时被解复用。启动二级分析的执行可包括,例如,指示二级分析单元执行映射和比对、已映射和已比对读数的变体检出或两者。
162.一旦启动,二级分析单元就可继续执行在第一测序运行的第一读段间隔和第二读段间隔期间生成的读段的二级分析操作,直到完成所触发的二级分析操作为止。如图7所示,使用二级分析单元执行二级分析操作可在第一测序运行期间开始,并在第一测序运行完成后开始的第二测序运行期间继续执行。对在第一测序运行期间生成的读段的二级分析操作将在第二测序运行期间完成。因此,对应于第一测序运行的二级分析与第二测序运行的操作的这种并行化使得核酸测序仪能够继续测序运行,而几乎没有测序仪停机时间,从而增加了试剂消耗和由此产生的收入。与第一测序运行的二级分析重叠的第二测序运行的操作可包括但不限于第二测序运行的设置、聚类或初级分析。
163.在图7的示例中,不执行第一测序运行的二级分析和第二测序运行的操作的并行化以评估由核酸测序仪生成的读段的质量,以努力确定第二读段间隔是否应该继续。相反,第二测序运行的二级分析和操作的并行化是作为最终数据运行的一部分执行的,从而使得最终结果数据适合在后续操作中,诸如在三级分析期间使用。
164.图8是用于根据图7的工作流图执行增量二级分析的过程800的示例的流程图。通常,获取描述由核酸测序设备在第一测序运行的第一读段间隔期间生成的多个第一读段的第一数据(810),获取描述由核酸测序设备在第一读段间隔之后执行的第一测序运行的第二读段间隔期间生成的多个第二读段的第二数据(820),在阶段820处获取第二数据的至少一部分的同时,启动对至少第一数据或第二数据的一个或多个二级分析操作的执行(830),使用核酸测序设备执行第二测序运行(840),并且在使用核酸测序设备在阶段840处执行第二测序运行的同时,(i)继续对第一数据或第二数据的一个或多个二级分析操作的执行,并且(ii)存储表示二级分析操作的结果的结果数据(850)。为了方便起见,而非限制,这些阶段将在下文更详细地描述为分别由诸如图1a、图3或图5的系统100、300或500的测序系统执行。
165.测序系统可在阶段810处通过获取描述由核酸测序设备在第一测序运行的第一读段间隔期间生成的多个第一读段的第一数据来开始执行过程800。获取第一数据可包括在
由核酸测序设备生成第一数据之后将描述多个第一读段的第一数据存储在存储器设备(诸如二级分析单元的存储器设备)中。二级分析单元的存储器设备可以是可由被配置为执行二级分析操作的二级分析单元的集成电路访问的存储器单元。集成电路可包括一个或多个可编程电路、一个或多个asic或它们的组合。
166.多个第一读段中的每个读段可由有序核苷酸序列组成。在一些具体实施中,有序核苷酸序列可对应于核酸片段的第一末端的核苷酸。核酸片段可被克隆扩增以促进测序,并且在此类具体实施中,有序核苷酸序列可通过分析核酸片段的多个克隆以生成读段的核苷酸来确定。核酸测序设备可包括任何核酸测序设备,包括dna测序仪或rna测序仪。第一测序运行可包括通过核酸测序设备对一个或多个生物样品的初级分析的完整执行。完整的第一测序运行的阶段的示例在图7中示出,并且包括聚类阶段、第一读段间隔和第二读段间隔。在一些具体实施中,诸如图7所示的一个具体实施,初级分析还可包括一个或多个索引阶段。
167.测序系统可在阶段820处通过获取描述由核酸测序设备在第一读段间隔之后执行的第一测序运行的第二读段间隔期间生成的多个第二读段的第二数据来继续过程800的执行。获取第二数据可包括在由测序设备生成第二数据之后将表示多个第二读段的第二数据存储在二级分析单元的存储器中。二级分析单元的存储器设备可以是可由被配置为执行二级分析操作的二级分析单元的集成电路访问的存储器单元。集成电路可包括一个或多个可编程电路、一个或多个asic或它们的组合。在一些具体实施中,获取第二数据的至少一部分,同时由核酸测序设备生成第二数据的另一部分。多个第二读段中的每个读段可由有序核苷酸序列组成。在一些具体实施中,有序核苷酸序列可对应于与核酸片段的第一末端相对的该核酸片段的第二末端的核苷酸。核酸片段可被克隆扩增以促进测序,并且在此类具体实施中,有序核苷酸序列可通过分析核酸片段的多个克隆以生成读段的核苷酸来确定。
168.在阶段820处获取第二数据的至少一部分的同时,测序系统可在阶段830处通过启动对第一数据或第二数据的一个或多个二级分析操作的执行来继续过程800的执行。启动一个或多个二级分析操作的执行可包括动态地配置可编程电路以包括硬连线逻辑以执行二级分析操作,然后对在第一测序运行期间生成的一个或多个读段执行至少一个二级分析操作。例如,测序系统可动态地配置可编程电路作为映射和比对单元,然后使用映射和比对单元的硬连线逻辑来执行在第一测序运行期间生成的至少一个读段的映射和比对。在其他具体实施中,启动一个或多个二级分析操作的执行可包括指示asic执行硬连线数字逻辑以对在第一测序运行期间生成的一个或多个读段执行二级分析操作。
169.在一些具体实施中,诸如当在第一测序运行期间对多个样品进行测序时,可能需要在映射和比对之前将第一读段或第二读段组织成解复用组。在此类具体实施中,也可在阶段820期间执行第一读段、第二读段或两者的组织的至少一部分。
170.测序系统可在阶段840处通过使用核酸测序设备执行第二测序运行来继续过程800的执行。第二测序运行可包括通过核酸测序设备对一个或多个生物样品进行初级分析的完整执行。在一些具体实施中,第二测序运行可对一个或多个与在第一测序运行期间测序的那些生物样品不同的生物样品进行测序。第二测序运行可包括聚类阶段、第一读段间隔和第二读段间隔。在一些具体实施中,初级分析还可包括一个或多个索引阶段。
171.在阶段840处使用核酸测序设备执行第二测序运行的同时,(i)继续850对第一数
据或第二数据的一个或多个二级分析操作的执行,并且(ii)存储表示二级分析操作的结果的结果数据。分别继续对在阶段810或820期间生成的第一数据或第二数据的一个或多个二级分析操作的执行,可包括继续对第一数据和第二数据的二级分析的执行,直到对第一数据和第二数据的二级分析完成。例如,可在第一测序运行期间在阶段830处配置的硬连线映射和比对单元可继续在第二测序运行期间执行第一读段、第二读段或两者的映射和比对操作,直到完成对第一读段、第二读段或两者的映射和比对操作。
172.图9是用于执行动态可编程电路上下文切换的过程900的示例的流程图。通常,过程900可包括获取一个或多个基因组工作流属性(910),基于该一个或多个基因组工作流属性确定用于可编程电路的工作流上下文切换类型,其中该工作流上下文切换类型定义该可编程电路的重新配置(920),以及指示可编程电路控制器使用所确定的上下文切换类型执行二级分析(930)。为了方便起见,而非限制,这些阶段将在下文更详细地描述为分别由诸如图1a、图3或图5的系统100、300或500的测序系统执行。
173.测序系统可在阶段910处通过获取一个或多个基因组工作流属性开始执行过程900。在一些具体实施中,该一个或多个工作流属性可包括识别由核酸测序仪的用户选择的工作流的工作流标识符。基因组工作流可包括例如全基因组测序工作流、富集工作流、rna工作流、扩增子工作流、单细胞rna工作流等。另选地或除此之外,该一个或多个工作流属性可包括描述由核酸测序仪测序的样品的数目的数据。另选地或除此之外,该一个或多个工作流属性可包括用于执行工作流的预定时间阈值。另选地或除此之外,该一个或多个工作流属性可包括可用于核酸测序仪的可用计算资源的量。
174.测序系统可在阶段920处通过基于一个或多个基因组工作流属性确定用于可编程电路的工作流上下文切换类型来继续过程900的执行,其中该工作流上下文切换类型定义可编程电路的重新配置。确定工作流上下文切换类型可包括基于该一个或多个工作流属性从多个上下文切换类型中选择特定工作流上下文切换类型。
175.上下文切换类型定义了如何在运行时动态地重新配置可编程电路。例如,第一可编程电路上下文可包括可编程电路交错比对和变体检出操作。在此类具体实施中,可编程电路可被配置为映射和比对单元,以将对应于第一样品的读段与参考序列进行比对,动态地重新配置为变体检出单元,以对对应于第一比对样品的读段执行变体检出操作,动态地重新配置为将对应于第二样品的读段映射和比对到参考序列,动态地重新配置为变体检出单元以对对应于第二比对样品的读段执行变体检出操作等。在此上下文中,可编程电路可在映射和比对与变体检出操作之间来回动态地切换。当只有一个样品或少量样品时,该第一可编程电路上下文是优选的。
176.又如,第二可编程电路上下文可包括可编程电路,该可编程电路执行所有必要的比对,然后对比对的读段执行所有必要的变体检出操作。在此类具体实施中,可编程电路可被配置为映射和比对单元,并且比对第一样品、比对第二样品、比对第三样品等,直到所有样品已比对并且然后被动态地重新配置为变体检出单元以对第一比对样品执行变体检出操作,对第二比对样品执行变体检出操作,对第三比对样品执行变体检出操作等。因为上下文切换是一项昂贵的计算功能,所以当工作流具有大量样品时,可选择该第二可编程电路上下文。
177.在一些具体实施中,测序系统可以多种方式在前述上下文切换类型之间确定。例
如,在一些具体实施中,测序系统可获取诸如指示核酸测序仪用户的工作流选择的工作流标识符的数据。在一些具体实施中,测序系统可被编程为自动选择与所获取的工作流标识符逻辑相关的特定上下文切换类型。逻辑关系可包括例如工作流标识符和上下文切换类型之间的一对一映射。
178.另选地或除此之外,测序系统可基于样品数目在前述上下文切换类型之间确定。例如,可建立预定阈值数目的样品。然后,如果核酸测序仪确定特定工作流具有超过阈值数目的样品,则核酸测序仪可选择第二可编程上下文。另选地,如果核酸序列确定样品的数目不超过样品的阈值数目,则核酸测序仪可选择第一可编程上下文。
179.另选地或除此之外,测序系统可基于所估计的二级分析运行时间在前述上下文切换类型之间确定。例如,核酸测序仪可被编程为分析描述接收的工作流的数据,并且使用默认可编程电路上下文估计所估计的二级分析运行时间,其中该默认可编程电路上下文是第一可编程电路上下文。在此类具体实施中,如果所估计的二级分析运行时间小于预定阈值时间,则核酸测序仪可选择第一可编程电路上下文。另选地,如果所估计的二级分析运行时间超过预定阈值时间,则核酸测序仪可选择第二可编程电路上下文。
180.这些前述具体实施仅仅是可由本公开采用的可编程电路上下文类型和上下文切换的示例。这些示例中的任何一个都不应被视为限制本公开的范围。相反,其他可编程电路上下文类型和上下文切换类型落入本公开的范围内。
181.测序系统可在阶段930处通过指示可编程电路控制器使用所确定的上下文切换类型执行二级分析来继续过程900的执行。可编程电路控制器可包括配置可编程电路的可编程逻辑的软件、硬件或两者的组合。基于所接收的指令,可编程电路控制器可动态地配置可编程电路以包括硬连线数字逻辑,该硬连线数字逻辑被配置为执行由指令识别的上下文切换类型。
182.图10是可用于实施用于执行增量二级分析的系统的系统部件的示例的框图。
183.计算设备1000旨在表示各种形式的数字计算机,诸如膝上型电脑、台式电脑、工作站、个人数字助理、服务器、刀片式服务器、大型机和其他适当的计算机。在一些具体实施中,计算设备1000可以是核酸测序仪,诸如图1、图3或图5的核酸测序仪。移动计算设备1050旨在表示各种形式的移动设备,诸如个人数字助理、移动电话、智能电话、移动嵌入式无线电系统、无线电诊断计算设备和其他类似的计算设备。此处所示的部件、它们的连接和关系以及它们的功能仅意在作为示例,并不意在限制。
184.计算设备1000包括处理器1002、存储器1004、存储设备1006、连接到存储器1004和多个高速扩展端口1010的高速接口1008和连接到低速扩展端口1014和存储设备1006的低速接口1012。处理器1002、存储器1004、存储设备1006、高速接口1008、高速扩展端口1010和低速接口1012中的每一者使用各种总线互连,并且可安装在公共母板上或视情况以其他方式安装。处理器1002可处理用于在计算设备1000内执行的指令,包括存储在存储器1004中或存储设备1006上的指令,以在外部输入/输出设备(诸如耦接到高速接口1008的显示器1016)上显示gui的图形信息。在其他具体实施中,可视情况将多个处理器和/或多个总线与多个存储器和多种类型的存储器一起使用。此外,可连接多个计算设备,每个设备提供操作的一些部分(例如,作为服务器库、一组刀片式服务器或多处理器系统)。在一些具体实施中,处理器1002是单线程处理器。在一些具体实施中,处理器1002是多线程处理器。在一些
具体实施中,处理器1002是量子计算机。
185.存储器1004将信息存储在计算设备1000内。在一些具体实施中,存储器1004是一个或多个易失性存储器单元。在一些具体实施中,存储器1004是一个或多个非易失性存储器单元。存储器1004还可以是另一种形式的计算机可读介质,诸如磁盘或光盘。
186.存储设备1006能够为计算设备1000提供海量存储。在一些具体实施中,存储设备1006可以是或包括计算机可读介质,诸如软盘设备、硬盘设备、光盘设备或磁带设备、闪存存储器或其他类似的固态存储器设备,或设备阵列,包括存储区域网络中的设备或其他配置。指令可存储在信息载体中。当由一个或多个处理设备(例如,处理器1002)执行指令时,这些指令执行一种或多种方法,诸如上文所描述的那些方法。指令还可由一个或多个存储设备,诸如计算机或机器可读介质(例如,存储器1004、存储设备1006或处理器1002上的存储器)存储。高速接口1008管理计算设备1000的带宽密集型操作,而低速接口1012管理较低带宽密集型操作。这种功能分配仅为示例。在一些具体实施中,高速接口1008(例如通过图形处理器或加速器)耦接到存储器1004、显示器1016,并且耦接到高速扩展端口1010,该端口可接受各种扩展卡(未示出)。在该具体实施中,低速接口1012耦接到存储设备1006和低速扩展端口1014。低速扩展端口1014(该端口可包括各种通信端口(例如usb、蓝牙、以太网、无线以太网))可例如通过网络适配器耦接到一个或多个输入/输出设备,诸如键盘、指向设备、扫描仪或联网设备诸如交换机或路由器。
187.计算设备1000可以多种不同的形式实施,如图所示。例如,该计算设备可被实施为标准服务器1020,或者在一组此类服务器中被实施多次。此外,该计算设备可在个人计算机诸如膝上型计算机1022中实施。该计算设备还可被实施为机架式服务器系统1024的一部分。另选地,来自计算设备1000的部件可与移动设备诸如移动计算设备1050中的其他部件组合。此类设备中的每一者可包括计算设备1000和移动计算设备1050中的一个或多个设备,并且整个系统可由彼此通信的多个计算设备组成。
188.移动计算设备1050包括处理器1052、存储器1064、输入/输出设备诸如显示器1054、通信接口1066和收发器1068以及其他部件。移动计算设备1050还可设置有存储设备,诸如微驱动器或其他设备,以提供额外的存储。处理器1052、存储器1064、显示器1054、通信接口1066和收发器1068中的每一者使用各种总线互连,并且这些部件中的若干部件可安装在公共母板上或视情况以其他方式安装。
189.处理器1052可执行移动计算设备1050内的指令,包括存储在存储器1064中的指令。处理器1052可被实施为包括独立的多个模拟处理器和数字处理器的芯片的芯片组。处理器1052可提供例如移动计算设备1050的其他部件的协调,诸如对用户接口的控制、由移动计算设备1050运行的应用程序,以及由移动计算设备1050进行的无线通信。
190.处理器1052可通过耦接到显示器1054的控制接口1058和显示接口1056与用户通信。显示器1054可以是例如tft(薄膜晶体管液晶显示器)显示器或oled(有机发光二极管)显示器或其他适当的显示技术。显示接口1056可包括用于驱动显示器1054以向用户呈现图形和其他信息的适当电路系统。控制接口1058可接收来自用户的命令并且转换这些命令以提交给处理器1052。此外,外部接口1062可提供与处理器1052的通信,以便实现移动计算设备1050与其他设备的近区通信。外部接口1062可例如在一些具体实施中提供有线通信,或者在其他具体实施中提供无线通信,并且还可使用多个接口。
191.存储器1064将信息存储在移动计算设备1050内。存储器1064可被实施为一个或多个计算机可读介质、一个或多个易失性存储器单元或一个或多个非易失性存储器单元中的一者或多者。还可提供扩展存储器1074并通过扩展接口1072将其连接到移动计算设备1050,该扩展接口可包括例如simm(单列直插式存储器模块)卡接口。扩展存储器1074可为移动计算设备1050提供额外的存储空间,或者还可为移动计算设备1050存储应用程序或其他信息。具体地说,扩展存储器1074可包括用于执行或补充上述过程的指令,并且还可包括安全信息。因此,例如,扩展存储器1074可被提供为用于移动计算设备1050的安全模块,并且可被编程为具有允许移动计算设备1050安全使用的指令。此外,安全应用程序可经由simm卡连同附加信息一起提供,诸如将识别信息以不可破解的方式放置在simm卡上。
192.存储器可包括例如闪存存储器和/或nvram存储器(非易失性随机存取存储器),如下所述。在一些具体实施中,指令存储在信息载体中,使得在由一个或多个处理设备(例如,处理器1052)执行指令时,这些指令执行一种或多种方法,诸如上文所描述的那些方法。指令还可由一个或多个存储设备,诸如一个或多个计算机或机器可读介质(例如,存储器1064、扩展存储器1074或处理器1052上的存储器)存储。在一些具体实施中,可例如通过收发器1068或外部接口1062在传播信号中接收指令。
193.移动计算设备1050可通过通信接口1066进行无线通信,该通信接口在一些情况下可包括数字信号处理电路。通信接口1066可提供各种模式或协议下的通信,诸如gsm语音通话(全球移动通信系统)、sms(短消息服务)、ems(增强信息服务)或mms消息传送(多媒体信息服务)、cdma(码分多址)、tdma(时分多址)、pdc(个人数字蜂窝)、wcdma(宽带码分多址)、cdma2000或gprs(通用分组无线电服务)、lte、5g/6g蜂窝等。此类通信可例如通过使用射频的收发器1068发生。此外,可发生近程通信,诸如使用蓝牙、wi-fi或其他此类收发器(未示出)。此外,gps(全球定位系统)接收器模块1070可向移动计算设备1050提供附加的导航相关和位置相关的无线数据,该无线数据可由在移动计算设备1050上运行的应用程序视情况使用。
194.移动计算设备1050还可使用音频编解码器1060可听地通信,该音频编解码器可从用户接收口头信息并且将其转换为可用的数字信息。音频编解码器1060同样可诸如通过扬声器(例如,在移动计算设备1050的手持终端中)为用户生成可听声。这种声音可包括来自语音电话呼叫的声音,可包括录制的声音(例如,语音消息、音乐文件等),并且还可包括由在移动计算设备1050上操作的应用程序生成的声音。
195.移动计算设备1050可以多种不同的形式实施,如图所示。例如,该移动计算设备可被实施为移动电话1080。该移动计算设备还可被实施为智能电话1082、个人数字助理或其他类似的移动设备的一部分。
196.已经描述了多个具体实施。然而,应当理解,在不脱离本公开的实质和范围的前提下,可进行各种修改。例如,可使用上文所示的各种形式的流程,其中步骤重新排序、添加或移除。
197.本说明书中描述的本发明的实施方案和所有功能操作可在数字电子电路系统中实施,或在计算机软件、固件或硬件中实施,包括本说明书中公开的结构以及这些结构的结构等同物或它们中一者或多者的组合。本发明的实施方案可实施为一个或多个计算机程序产品,例如,在计算机可读介质上编码以供数据处理装置执行或控制数据处理装置的操作
的计算机程序指令的一个或多个模块。计算机可读介质可以是机器可读存储设备、机器可读存储基板、存储器设备、实现机器可读传播信号的物质的组成或它们中的一者或多者的组合。术语“数据处理装置”可涵盖用于处理数据的所有装置、设备和机器,包括例如可编程处理器、计算机或多个处理器或计算机。除了硬件之外,装置还可包括创建用于所讨论的计算机程序的执行环境的代码,例如构成处理器固件、协议栈、数据库管理系统、操作系统或它们中一者或多者的组合的代码。传播的信号是人工生成的信号,例如,机器生成的电气、光学或电磁信号,生成该信号以编码用于传输到合适的接收器装置的信息。
198.计算机程序(也称为程序、软件、软件应用程序、脚本或代码)可以任何形式的编程语言(包括编译或解释语言)编写,并且该计算机程序可以任何形式部署,包括作为独立程序或作为模块、部件、子例程或适用于计算环境中的其他单元。计算机程序不一定对应于文件系统中的文件。程序可存储在保持其他程序或数据的文件的一部分(例如,存储在标记语言文档中的一个或多个脚本)中,存储在专用于所讨论的程序的单个文件中或存储在多个协调文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。计算机程序可被部署成在一个计算机上或在位于一个站点处或分布在多个站点上并通过通信网络互连的多个计算机上执行。
199.本说明书中描述的过程和逻辑流程可由执行一个或多个计算机程序的一个或多个可编程处理器执行,以通过对输入数据进行操作并生成输出来执行功能。过程和逻辑流程也可由专用逻辑电路执行,并且装置也可被实施为专用逻辑电路,例如fpga(现场可编程门阵列)或asic(专用集成电路)。
200.适用于执行计算机程序的处理器包括例如通用和专用微处理器两者,以及任何种类的数字计算机的任何一个或多个处理器。通常,处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元素是用于执行指令的处理器和用于存储指令和数据的一个或多个存储器设备。通常,计算机还将包括或可操作地耦接以从一个或多个用于存储数据的海量存储设备(例如,磁盘、磁光盘或光盘)接收数据或将数据转移到该一个或多个海量存储设备或两者。然而,计算机不需要具有此类设备。此外,计算机可嵌入另一个设备中,例如,平板计算机、移动电话、个人数字助理(pda)、移动音频播放器、全球定位系统(gps)接收器等等。适用于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备,包括例如半导体存储器设备,例如,eprom、eeprom和闪存设备;磁盘,例如内部硬盘或可移动盘;磁光盘;以及cd rom和dvd-rom盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。
201.为了提供与用户的交互,本发明的实施方案可在计算机上实施,该计算机具有用于向用户显示信息的显示设备(例如crt(阴极射线管)或lcd(液晶显示器)监视器),以及用户可用来向该计算机提供输入的键盘和指向设备(例如鼠标或轨迹球)。也可使用其他类型的设备来提供与用户的交互;例如,提供给用户的反馈可以是任何形式的感官反馈,例如视觉反馈、听觉反馈或触觉反馈;并且可以任何形式接收来自用户的输入,包括声音、语音或触觉输入。
202.本发明的实施方案可在计算系统中实施,该计算系统包括后端部件(例如,作为数据服务器)或包括中间件部件(例如,应用程序服务器)或包括前端部件(例如,具有图形用户界面或web浏览器的客户端计算机),用户可与本发明的具体实施或一个或多个此类后端
部件、中间件部件或前端部件的任何组合进行交互。该系统的部件可通过数字数据通信的任何形式或介质(例如,通信网络)互连。通信网络的示例包括局域网(“lan”)和广域网(“wan”),例如互联网。
203.该计算系统可包括客户端和服务器。客户端和服务器通常彼此远离,并且通常通过通信网络进行交互。客户端和服务器的关系借助于在相应计算机上运行并彼此具有客户端-服务器关系的计算机程序而产生。
204.虽然本说明书含有许多细节,但这些不应被解释为对本发明的范围或可要求保护的范围的限制,而是作为对本发明的特定实施方案特有的特征的描述。在本说明书中在单独实施方案的上下文中描述的某些特征也可以组合形式在单个实施方案中实施。相反,在单个实施方案的上下文中描述的各种特征也可以单独地或以任何合适的子组合在多个实施方案中实施。此外,尽管特征可在上文中描述为以某些组合起作用,并且甚至最初也如此要求保护,但在一些情况下,可从组合中删除来自要求保护的组合的一个或多个特征,并且所要求保护的组合可针对子组合或子组合的变型。
205.类似地,虽然以特定顺序在附图中描绘操作,但是这不应被理解为要求以所示的特定顺序或按顺序执行此类操作,或者要求执行所有说明的操作以实现期望的结果。在某些情况下,多任务和并行处理可能是有利的。此外,上文所描述的实施方案中各种系统部件的分离不应被理解为在所有实施方案中都需要此类分离,并且应当理解,所描述的程序部件和系统通常可集成在单个软件产品中或打包到多个软件产品中。
206.在提及特定文件格式的每种情况下,其他文件类型或格式可被替代。例如,html文件可由xml、json、普通文本或其他类型的文件替换。此外,在提及特定数据结构(诸如表格或哈希表)的情况下,可使用其他数据结构(诸如电子表格、关系数据库或结构化文件)代替所提及的数据结构。
207.其他实施方案
208.应当理解,虽然本发明已结合其具体实施方式进行描述,但是前述具体实施方式旨在说明而非限制本发明的范围,该范围由所附权利要求的范围来限定。其他方面、优点和修改是在以下权利要求的范围之内。
209.已经描述了本发明的特定实施方案。其他实施方案也在以下权利要求书的范围内。例如,权利要求中叙述的步骤可以不同的顺序执行并且仍然会实现期望的结果。
210.已经描述了多个实施方案。然而,应当理解,在不脱离本发明的实质和范围的情况下,可进行各种修改。此外,附图中所示的逻辑流程不需要所示的特定顺序或有序顺序来实现所需的结果。此外,可在所述流程中提供其他步骤,或者可消除步骤,并且可将其他部件添加到所述系统或从所述系统中移除。因此,其他实施方案也在以下权利要求书的范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1