用于检测串联重复区的方法、系统和计算机可读介质与流程

文档序号:21546695发布日期:2020-07-17 17:56阅读:238来源:国知局
用于检测串联重复区的方法、系统和计算机可读介质与流程

相关文献的交叉引用

根据35usc§119(e),本申请要求2017年12月1日提交的美国临时申请62/593,547和2017年12月13日提交的美国临时申请no.62/598,053的权益。前述申请的全部内容通过引用并入本文。

本申请一般涉及用于检测串联重复区的方法、系统和计算机可读介质,更具体地,涉及基于或使用核酸测序数据和下一代测序技术或系统检测串联重复区的方法、系统和计算机可读介质。



背景技术:

可以以各种方式获得核酸测序数据,包括使用下一代测序系统,例如实施iontorrenttm测序技术的ionpgmtm,ionprotontm和ions5tm系统(例如,参见2011年5月24日授权的美国专利第7,948,015号,2010年6月3日公开的美国专利申请公开案第2010/0137143号,2009年1月29日公开的美国专利申请公开案第2009/0026082号,和2010年11月11日公开的美国专利申请公开案第2010/0282617号,其全部内容通过引用合并于此)。这样的下一代测序系统可以与用于目的靶标的引物结合使用,该引物可以以各种方式设计或制备,包括如2012年11月22日公开的美国专利申请公开案第2012/0295819号所述,其以全文引用的方式并入本文中。已经讨论了flt3突变的各个方面,包括pawar等人,recentadvancesandnovelagentsforflt3mutatedacutemyeloidleukemia,”stemcellinvestigation1:7(march18,2014)(doi:10.3978/j.issn.2306-9759.2014.03.03)。需要新的和改进的方法、系统和计算机可读介质,以更好和更准确地检测串联重复区。

附图说明

并入到说明书中且形成说明书的一部分的附图示出了一个或多个示例性实施方式且用以解释各个示例性实施方式的原理。附图仅是示例性和解释性的,且不应理解为以任何方式产生限制或约束。

图1示出了用于使用核酸测序和/或分析的串联重复区检测的示例性系统。

图2示出了使用核酸测序和/或分析的用于串联重复区的示例性系统。

图3示出了部分映射的读段的实例。

图4示出了读段-参考比对的布置的实例,其中串联重复区的两侧与参考比对。

图5示出了对具有重复区插入片段的读段-参考比对的“比对起点”布置的实例。

图6示出了对具有重复区插入片段的读段-参考比对的“比对终点”布置的实例。

图7示出了用于检测串联重复区的示例性方法。



技术实现要素:

根据各种示例性实施方式,提供了用于检测串联重复区的各种方法以及用于检测串联重复区的各种相关系统和计算机可读介质,包括关于flt3状态的信息的基因组区域或突变的检测,如下文进一步描述。

根据示例性实施方式,提供了用于检测样品的flt3基因中的内部串联重复区的方法,所述方法包括:(a)在引物库的存在下扩增核酸样品以产生多个扩增子,引物库包括多个靶向flt3基因外显子的靶特异性引物;(b)对扩增子进行测序以产生多个读段;(c)将读段映射至参考序列,其中所述参考序列包括flt3基因外显子的被靶向区域,其中所述映射产生包括所述读段与所述参考序列的多个比对以及对应于沿着参考序列的位置的多个列的堆积,其中多个读段的一部分被部分地映射到用于多个部分映射的读段的参考序列,其中部分映射的读段包括映射部分、软剪接部分和断点;(d)分析与堆积的列相交的部分映射的读段以进行串联复制,包括:(i)通过将软剪接部分与和断点相邻的映射部分进行比较来检测软剪接部分中的重复区;(ii)确定在软剪接部分中重复区的插入片段的读段;(iii)基于插入片段尺寸将部分映射的读段分配给一个类别,以产生与多种插入片段尺寸相对应的多个类别,每个类别包含与具有相应的插入片段尺寸的部分映射的读段相对应的多个成员;(e)将类别转换成与该列相对应的特征,其中特征包括插入片段尺寸和插入片段位置处的插入片段序列;(f)合并对应于表示同一插入片段的一列或多列的特征,以确定串联重复区的位置和尺寸。

根据示例性实施方式,提供了一种用于检测样本的flt3基因中的内部串联重复区的系统,该系统包括机器可读存储器和配置为执行机器可读指令的处理器,该指令在由处理器执行时,使系统执行一种方法,所述方法包括:(a)接收多个读段,其中多个读段对应于flt3基因外显子的多个靶区域;(b)将读段映射至参考序列,其中所述参考序列包括flt3基因外显子的被靶向区域,其中所述映射产生包括所述读段与所述参考序列的多个比对以及对应于沿着参考序列的位置的多个列的堆积,其中多个读段的一部分被部分地映射到用于多个部分映射的读段的参考序列,其中部分映射的读段包括映射部分、软剪接部分和断点;(c)分析与堆积的列相交的部分映射的读段以进行串联复制,包括:(i)通过将软剪接部分与和断点相邻的映射部分进行比较来检测软剪接部分中的重复区;(ii)确定在软剪接部分中重复区的插入片段的尺寸;(iii)基于插入片段尺寸将部分映射的读段分配给一个类别,以产生与多种插入片段尺寸相对应的多个类别,每个类别包含与具有相应的插入片段尺寸的部分映射的读段相对应的多个成员;(d)将类别转换成与该列相对应的特征,其中特征包括插入片段尺寸和插入片段位置处的插入片段序列;(e)合并对应于表示同一插入片段的一列或多列的特征,以确定串联重复区的位置和尺寸。

根据示例性实施方式,提供了一种包括机器可读指令的计算机可读介质,所述机器可读指令在被加载到机器可读存储器中并由处理器执行时被配置为使系统执行用于检测样品的flt3基因中的内部串联重复区的方法,所述方法包括:(a)接收多个读段,其中多个读段对应于flt3基因的外显子的多个靶区域;(b)将读段映射至参考序列,其中所述参考序列包括flt3基因外显子的被靶向区域,其中所述映射产生包括所述读段与所述参考序列的多个比对以及对应于沿着参考序列的位置的多个列的堆积,其中多个读段的一部分被部分地映射到用于多个部分映射的读段的参考序列,其中部分映射的读段包括映射部分、软剪接部分和断点;(c)分析与堆积的列相交的部分映射的读段以进行串联复制,包括:(i)通过将软剪接部分与和断点相邻的映射部分进行比较来检测软剪接部分中的重复区;(ii)确定在软剪接部分中重复区的插入片段的尺寸;(iii)基于插入片段尺寸将部分映射的读段分配给一个类别,以产生与多种插入片段尺寸相对应的多个类别,每个类别包含与具有相应的插入片段尺寸的部分映射的读段相对应的多个成员;(d)将类别转换成与该列相对应的特征,其中特征包括插入片段尺寸和插入片段位置处的插入片段序列;(e)合并对应于表示同一插入片段的一列或多列的特征,以确定串联重复区的位置和尺寸。

具体实施方式

以下描述和本文所述的各种实施方式仅是示例性和解释性的,且不应理解为以任何方式限制或约束。根据以下描述,本教导的其他实施方式、特征、目的和优点将显而易见。

根据各种示例性实施方式,提供了用于检测串联重复区的方法、系统和计算机可读介质,包括检测给出flt3状态信息的基因组区域或突变。flt3基因中的内部串联重复区称为flt3-itd。

在各种实施方式中,dna(脱氧核糖核酸)可以称为由4种类型的核苷酸组成的核苷酸链;a(腺嘌呤)、t(胸腺嘧啶)、c(胞嘧啶)和g(鸟嘌呤),并且rna(核糖核酸)由4种类型的核苷酸组成:a、u(尿嘧啶)、g和c。某些核苷酸对以互补方式彼此特异性结合(称为互补碱基配对)。也就是说,腺嘌呤(a)与胸腺嘧啶(t)配对(然而,在rna的情况下,腺嘌呤(a)与尿嘧啶(u)配对),并且胞嘧啶(c)与鸟嘌呤(g)配对。当第一核酸股结合于由与第一股中的核苷酸互补的核苷酸组成的第二核酸股时,两个链结合以形成双股。在各种实施方式中,“核酸测序数据”、“核酸测序信息”、“核酸序列”、“基因组序列”、“基因序列”或“片段序列”或“核酸测序读段”表示指示核苷酸碱基(例如腺嘌呤、鸟嘌呤、胞嘧啶和胸腺嘧啶/尿嘧啶)在dna或rna分子(例如全基因组、全转录组、外显子组、寡核苷酸、聚核苷酸、片段等)中的次序的任何信息或数据。

在各种实施方式中,“多核苷酸”、“核酸”或“寡核苷酸”是指通过核苷间键接合的核苷(包括脱氧核糖核苷、核糖核苷或其类似物)的线形聚合物。通常,多核苷酸包含至少三个核苷。通常,寡核苷酸的尺寸在数个单体单元(例如3-4个)到数百个单体单元范围内。每当多核苷酸(如寡核苷酸)由字母序列(如“atgcctg”)表示时,应理解,除非另外指出,否则核苷酸按从左到右的5'->3'次序并且“a”表示脱氧腺苷,“c”表示脱氧胞苷,“g”表示脱氧鸟苷,且“t”表示胸苷。如在所属领域中作为标准,字母a、c、g和t可以用于指碱基本身、核苷或包含碱基的核苷酸。

短语“下一代测序”或ngs是指这样的测序技术:相比于传统的基于桑格尔(sanger)和毛细电泳法的方法具有增加的通量,例如能够一次产生数十万相对较小序列读段。下一代测序技术的一些实例包括(但不限于)合成测序、连接测序以及杂交测序。

在各种实施方式中,对于核酸分子群体的多个靶标特异性序列进行扩增产生的靶标核酸,可以进行测序。在一些实施方式中,扩增可以包括使一个或多个目标特异性引物对与靶标序列杂交、延伸引物对的第一引物、使来自核酸分子群体的经延伸的第一引物产物变性、使经延伸的第一引物产物与引物对的第二引物杂交、延伸第二引物以形成双股产物,以及在双股产物之外消化靶标特异性引物对以产生多个经扩增的靶标序列。在一些实施方式中,经扩增的靶标序列可以与一个或多个衔接子连接。在一些实施方式中,衔接子可以包括一个或多个核苷酸条形码或标记序列。在一些实施方式中,经扩增的靶标序列一旦与衔接子连接,即可经历切口平移反应和/或进一步扩增以产生衔接子连接的经扩增的靶标序列的文库。多重扩增的例示性方法描述于2012年11月22日公开的美国专利申请公开案第2012/0295819号中,其以全文引用的方式并入本文中。

在各种实施方式中,进行多重pcr扩增的方法包括:使具有正向和反向引物的多个靶标特异性引物对与靶标序列群体接触以形成多个模板/引物双螺旋;向所述多个模板/引物双螺旋中添加dna聚合酶和dntp的混合物,在足够温度下持续足够时间,以经由模板依赖性合成来延伸每个靶标-特异性引物对中的正向或反向引物(或二者),从而产生多个经延伸的引物产物/模板双螺旋;使经延伸的引物产物/模板双螺旋变性;使来自靶标-特异性引物对的互补引物与经延伸的引物产物退火;以及在dna聚合酶和dntp存在下延伸经退火的引物以形成多个靶标-特异性双链核酸分子。

在一些实施方式中,本公开的方法包括选择性扩增在含有多个核酸分子的样品中的靶标序列,并且使经扩增的靶标序列与至少一个衔接子和/或条形码连接。用于分子生物学文库制备技术的衔接子和条形码是所属领域的技术人员众所周知的。如本文中所使用的衔接子和条形码的定义与本领域中使用的术语一致。举例来说,条形码的使用允许在每个多重反应中检测和分析多个样品、来源、组织或核酸分子群体。条形码化和经扩增的目标序列含有独特的核酸序列,通常是短的6-15个核苷酸的序列,其鉴别和区分一个经扩增的核酸分子与另一个经扩增的核酸分子,即使当减去条形码的两个核酸分子都含有相同的核酸序列时也是如此。衔接子的使用允许以均匀的方式扩增每个经扩增的核酸分子并且有助于减少股偏差。衔接子可以包括通用衔接子或专用衔接子,二者都可以在下游使用以执行一个或多个不同的功能。举例来说,由本文中公开的方法制备的经扩增的目标序列可以连接到可以在下游用作克隆扩增平台的衔接子。衔接子可以充当模板股用于使用第二组引物进行后续扩增,并且因此实现衔接子连接的经扩增的目标序列的通用扩增。在一些实施方式中,用于产生扩增子池的目标核酸的选择性扩增可以进一步包含将一个或多个条形码和/或衔接子连接到经扩增的目标序列。引入条形码的能力可以增强样品通量,并且允许同时分析多个样品或物质来源。

在本申请中,“反应限制区域”通常是指可以将反应限制在其中的任何区域,并且包括例如“反应室”、“孔”和“微孔”(其中的每一个可以互换使用)。举例来说,反应限制区域可以包括:其中固体基板的物理或化学属性可以允许对感兴趣反应定位的区域,以及可以特异性结合感兴趣分析物的基板表面的离散区域(如具有与这类表面共价连接的寡核苷酸或抗体的离散区域)。反应限制区域可以是中空的或具有明确限定的形状和体积,其可以制造成基板。这些后面类型的反应限制区域在本文中称为微孔或反应室,并且可以使用任何合适的微制造技术制造。例如,反应限制区域也可以是不具有孔的基板上的基本上平坦的区域。

多个所限定的空间或反应限制区域可以布置成阵列,并且每个限定的空间或反应限制区域可以与至少一个传感器电连通,以允许检测或测量一个或多个可检测或可测量的参数或特征。这种阵列在本文中称为传感器阵列。传感器可以将反应副产物的存在、浓度或量的变化(或反应物的离子特性的变化)转换成输出信号,所述输出信号可以电子记录,例如以电压水平或电流水平的变化形式,其继而可以被处理以提取关于化学反应或所需关联事件(例如,核苷酸掺入事件)的信息。传感器可以包括至少一个化学敏感性场效应晶体管(“chemfet”),其可以被配置成产生与化学反应的性质或其附近的感兴趣目标分析物相关的至少一个输出信号。这类特性可以包括反应物、产物或副产物的浓度(或浓度变化),或物理性质的值(或这类值的变化),如离子浓度。例如,对于限定的空间或反应限制区域的ph值的初始测量或询问可以表示为电信号或电压,其可以被数字化(例如,转换为电信号或电压的数字表示)。这些测量值和表示中的任一个都可以被视为原始数据或原始信号。

在一些实施方式中,通过从样品获得的模板多核苷酸股的多重扩增,样品可以被制备以用于检测flt3基因中内部串联重复区。多重扩增可以使用靶向flt3基因外显子的区域的一组引物。flt3-itd可能出现在该基因的外显子14和15中。

图1示出了使用核酸测序和/或分析来检测串联重复区的示例性系统。该系统包括用于核酸测序和/或分析的设备或子系统11,包括碱基调用引擎13、变体调用引擎14和串联重复区检测引擎15的计算服务器/节点/设备12,以及显示器16,显示器16可以是内部和/或外部的。用于核酸测序和/或分析的设备或子系统11可以是可以从核酸样品生成核酸序列数据的任何类型的仪器,其可以包括:核酸测序仪器、实时/数字/定量的pcr仪器、微阵列扫描仪等。核酸样品可以包括已知为正常样品或已知为肿瘤样品的核酸样品。计算服务器/节点/设备12可以是工作站、大型计算机、分布式计算节点(“云计算”或分布式联网系统的一部分)、个人计算机、移动设备等。碱基调用引擎13可以是任何合适的碱基调用器,并且可以被配置为包括各种信号/数据处理模块,其可以被配置为从用于核酸测序和/或分析的装置或子系统11接收信号/数据,以对于一些或全部测序数据集确定碱基调用和测序读段的序列。在一个实施方式中,碱基调用引擎13可以是在torrent套件软件(thermofisherscientificinc.)中实现的碱基调用器。在一个实施方式中,碱基调用引擎13可以实现2012年5月3日公开的美国专利申请公开案第2012/0109598号中和/或2013年3月7日公开的美国专利申请公开案第2013/0060482号描述的一个或多个特征,其全部内容通过引用整体并入本文。碱基调用引擎13还可以包括用于将读段映射或比对到参考序列或基因组的映射或比对模块,所述参考序列或基因组可以是完整/部分基因组,完整/部分外显子组等。在实施方式中,映射或比对模块可以包括任何合适的比对器,例如,包括洪torrent射比对程序(tmap)。该示例性系统还可以包括客户端设备终端17,该客户端设备终端17可以包括数据分析api或模块,并且可以经由网络连接18通信地连接到计算服务器/节点/设备12,网络连接18可以是“硬线连接”物理网络连接(例如因特网、lan、wan、vpn等)或无线网络连接(例如wi-fi、wlan等)。变体调用引擎14可以被配置为包括各种信号/数据处理模块,其可以被配置为进行变体调用并将后处理应用于变体调用,这可以包括注释各种变体调用和/或特征,从流空间转换数据到基本空间,过滤变体并格式化变体数据以供客户端设备终端17显示或使用。可以使用任何合适的变体调用器进行变体调用。在实施方式中,变体调用器可以是torrent变体调用器(thermofisherscientificinc.)。在实施方式中,用于核酸测序和/或分析的装置或子系统11以及计算服务器/节点/设备12可以集成到包括存在于单个外壳19中的组件的单个仪器或系统中。客户端设备终端17可以被配置为向计算服务器/节点/设备12及其模块和/或操作参数传达信息和/或控制计算服务器/节点/设备12及其模块和/或操作参数的操作。在实施方式中,系统19可以与样本10一起使用,样本10使用包括一种或多种用于串联重复区检测和/或flt3检测的引物的组合物或试剂盒制备。串联重复区检测引擎15可以执行本文进一步描述的一种或多种方法。

图2示出了用于使用核酸测序和/或分析进行串联重复区检测的示例性系统。该系统包括用于核酸测序和/或分析的装置或子系统,其包括一个或多个测序室和传感器以及流量控制器,流量控制器被配置为控制各种试剂向一个或多个测序室和传感器中的流动,各种试剂包括dnpt试剂、测序引物、聚合酶、洗涤试剂和准备好的模板。该系统还包括计算服务器/节点/设备,所述计算服务器/节点/设备包括ram/rom、存储器、接口、处理器和gpu/fpga,所有这些均连接到总线,并连接从而控制输入和显示器,显示器可以是内部和/或外部的。该系统可以与一个或多个样品一起使用,所述一个或多个样品可以使用包括样品制备试剂和flt3检测引物的试剂盒制备,用以获得制备的模板。可以对计算服务器/节点/设备进行编程以执行碱基调用过程、变体调用过程和串联重复区检测过程。样品可以包括已知为正常样品或已知为肿瘤样品的核酸样品。计算服务器/节点/设备可以是工作站、大型计算机、分布式计算节点(“云计算”或分布式网络系统的一部分)、个人计算机、移动设备等。碱基调用过程可以是任何合适的碱基调用器并且可以被配置为确定某些或全部测序数据集的碱基调用和测序读段的序列。在实施方式中,碱基调用过程可以是在torrent套装软件(thermofisherscientificinc.)中执行的碱基调用器。在实施方式中,碱基调用过程可以执行2012年5月3日公开的美国专利申请公开案第2012/0109598号和/或2013年3月7日公开的美国专利申请公开案第2013/0060482号中描述的一个或多个特征,其全部内容通过引用整体并入本文。碱基调用过程还可以包括用于将读段与参考序列或基因组映射或比对的映射或比对过程,所述参考序列或基因组可以是完整/部分基因组、完整/部分外显子组等。在一个实施方式中,所述映射或比对过程可以包括任何合适的比对器,例如包括torrent映射比对程序(tmap)。控制输入可以经由网络连接可通信地连接到计算服务器/节点/设备,该网络连接可以是“硬线连接”物理网络连接(例如,互联网、lan、wan、vpn等)或无线网络连接(例如,wi-fi、wlan等)。变体调用过程可以被配置为包括各种信号/数据处理过程,所述信号/数据处理过程可以被配置为进行变体调用并将对变体调用应用后处理,其可以包括注释各种变体调用和/或特征、将数据从流空间转换为基本空间、过滤变体和格式化变体数据。可以使用任何合适的变体调用器进行变体调用。在实施方式中,变体调用器可以是torrent变体调用器(thermofisherscientificinc.)。在实施方式中,用于核酸测序和/或分析的装置或子系统、和计算服务器/节点/设备可以集成到包括存在于单个外壳中的组件的单个仪器或系统中。串联重复区检测过程可以执行本文进一步描述的一种或多种方法。

在一些实施方式中,标准管线中的变体调用器可以检测包括多个碱基对的插入片段。但是,长插入片段(例如10个碱基对或以上)的存在通常会导致读段的部分对齐,其中插入片段本身和下游参考匹配将被排除在比对之外(其有时也称为软剪接)。插入片段靠近3'末端的读段特别受到影响。软剪接部分不通过标准管道处理,因此不会检测到软剪接部分中的插入片段。对长插入片段缺少检测的原因之一是,映射或比对过程可能仅部分映射具有较长插入片段的读段,并软剪接读段的未映射部分。图3示出了部分映射的读段的实例。图3显示在正向读段和反向读段中存在的串联重复区的“拷贝1”和“拷贝2”。对于正向和反向读段中的每一个,串联重复区的一个拷贝与参考未对齐。未对齐的拷贝和读段的后续部分被软剪接。在图3的实例中,对于正向读段和反向读段,映射了串联重复区部分的一个拷贝,由“匹配”部分表示,并且另一拷贝和读段的后续部分被软剪接,由“软剪接”部分表示。bam文件可以包括部分映射读段的序列,并标记软剪接部分。

图4示出了读段-参考比对的布置的实例,其中串联重复区的两侧与参考比对。在该实例中,映射或比对过程将读段中的串联复制的侧翼部分412、“拷贝1”部分414和侧翼部分416与参考的相应部分402、404和406比对。短插片段(例如少于10个碱基对)可能会出现这种情况。读段的“拷贝2”插入片段部分418没有映射到参考,但是可以由标准管道中的变体调用器检测到。在一些实施方式中,当两个侧翼都被映射到参考时,最大插入片段长度取决于映射或比对过程。通常,超过20-30bp的缺口无法可靠比对。例如,torrent映射比对程序(tmap)的默认配置在某些情况下可能支持最多50bp的插入片段。当读段较长且插入片段的两侧都包含具有35个碱基或更多碱基的与参考序列相匹配的侧翼序列时,可以达到最高50bp的插入片段。

图5示出了对具有重复区插入片段的读段-参考比对的“比对起点”布置的实例。“比对起点”实例对应于读段映射到参考501的反向股的情况。对于这种情况,软剪接部分513出现在比对或映射的部分511之前。图6示出了对具有重复区插入片段的读段-参考比对的“比对终点”布置的实例。“比对终点”实例对应于读段映射到参考521的正向股的情况。对于这种情况,软剪接部分533出现在比对或映射的部分531之后。图5和图6中的比对按照记录在bam文件中的方向显示,其中“比对起点”沿反向(3'→5'),“比对终点”沿正向(5'→3')。上面的箭头线描绘了附图标记501和521,下面的两个箭头线描绘了映射部分511和531以及部分映射的读段的未映射或软剪接的部分513和533。读段的软剪接部分513和533分别显示在映射部分511和531的下方(就像从比对中掉下那样)。“比对起点”实例中的重复区片段对应于参考501中的部分504、映射部分511中的“拷贝2”部分514和软剪接部分513中的“包括1”部分518。在图6的“比对终点”实例中,重复区片段对应于参考521中的部分524、映射部分531中的“拷贝1”部分534和软剪接部分533中的“拷贝2”部分538。重复区片段在参考中出现一次,但在读段中出现两次。在图5的“比对起点”实例中,重复区的读段上游(5')的映射部分511的一部分由部分516示出,并且其与参考501的匹配由部分506示出。在图6的“比对终点”实例中,重复区的读段上游(5')的映射部分531的一部分由部分536示出,并且其在参考521上的匹配由部分526示出。分别在软剪接部分513和533上粘贴插入片段518和538的读段部分称为锚定部分512和532。在“比对起点”实例中,锚定部分512与参考501上的部分502匹配。在“比对终点”实例中,锚定部分532与参考521上的部分522匹配。对于“比对起点”实例,在与读段部分匹配的部分周围的参考501的其余部分在部分502的左侧和部分506的右侧示出。对于“比对终点”实例,在与读段匹配的部分周围的参考521的其余部分显示在部分526的左侧和部分522的右侧。

根据实施方式,内部串联重复区(itd)检测算法分析在3'端具有长的软剪接的读段。该算法可以检查读段是否存在3'处的锚点,该锚点与比对边缘相邻的参考区域匹配。锚在读段上的偏移量可以确定插入片段的尺寸。该算法还可以检查读段中是否存在重复区,例如在映射部分中出现第一拷贝而在软剪接区中出现第二拷贝的情况。拷贝之间的距离可以确定重复区的尺寸。这样的测试甚至可以检测部分捕获的重复区,其中读段不能完全覆盖插入片段。同样,在实施方式中,算法考虑两个侧翼对齐的良好映射的插入片段(例如在图4的实例中)。对于参考中的每个位置,算法都会对在任何覆盖读段中出现的每种尺寸的插入片段进行计数。看到所有读段后,这些计数代表观察到的插入片段的检测到的等位基因频率。

例如,对于正向读段,在3'端的长的软剪接对应于图6中的“比对终点”。该算法可以检查读段是否存在锚532,该锚532匹配与比对边缘相邻的参考区域,例如参考部分522。锚532与读段上比对边缘的偏移可以确定插入片段尺寸。该算法还可以检查读段以确定该读段中是否存在重复区,例如在映射部分531中出现第一拷贝(例如“拷贝1”534)和在软剪接部分位置533中出现第二拷贝(例如“拷贝2”538)的情况。

例如,对于反向读段,在3'端的长的软剪接应于图5中的“比对起点”。与上述类似,该算法可以检查读段是否存在的锚512,该的锚512匹配与对比边缘相邻的参考区域,例如参考部分502。锚512与读段上比对边缘的偏移可以确定插入片段尺寸。该算法可以进一步检查读段以确定该读段中是否存在重复区,例如在软剪接部分513中出现第一拷贝(例如“拷贝1”518)和在映射部分511中出现第二拷贝(例如“拷贝2”514)的情况。

根据实施方式,itd检测算法可以由处理器根据表1中给出的伪代码算法概述来执行。如权利要求中所述,步骤的顺序是示例性的,并且在本发明的范围内步骤可以有不同顺序。

表1:

根据步骤1,按照步骤2到23分析堆积中的每一列。可从bam文件中获得有关堆积的比对序列读段信息。堆积指示在用于flt3-itd检测的目标位置与参考对齐的读段。根据步骤2,按照步骤3到20分析与堆积中特定列相交的每个读段。

步骤3可以确定在与列对应的读段的位置中是否存在插入片段。例如,在两个侧翼都被映射并且插入片段序列记录在bam文件中的情况下,标准处理管道中的变体调用器可以指示插入片段。图4给出了在位置405处的插入片段418(“拷贝2”)的实例。如果存在插入片段,则可以根据步骤4按照其尺寸可选地过滤插入片段。用户可以设置最小插入片段尺寸,例如8个碱基。对于步骤5,可以可选地检查插入片段以确定它是否是与插入片段相邻的读段的映射部分的重复区。例如,参考图4,可以将插入片段418(“拷贝2”)与读段的映射部分414(“拷贝1”)进行比较,以确定其是否为重复区。对于步骤6,可以基于插入片段尺寸将具有插入片段的读段归属到类别。

步骤7可以确定读段中对应于该列的位置是否包含与参考比对的终点和软剪接起点。参考图6的“比对终点”实例,比对终点和软剪接起点的终点位置由断点525指示。步骤8可以确定软剪接是否具有足够的尺寸。用户可以设置足够的软剪接尺寸,例如8-10个碱基。步骤9在读段和参考的软剪接部分中找到锚。对于图6的实例,将读段的软剪接部分533和断点525之后的参考521的部分进行比较,以找到指示读段中的锚532和参考的锚部分522的匹配部分。可以将字符串匹配方法应用于与断点相邻的软剪接部分和未映射的参考部分,以确定匹配的锚部分。字符串匹配方法可以提供锚的长度、锚在读段中的位置、以及锚在参考中的位置。用户可以设置最小锚长度,例如12个碱基。表2给出了这样的实例:查找在读段和参考中的锚位置以及通过python编程语言中的代码实现的锚长度。

表2

步骤10检查与列相交的位置附近的读段是否存在重复区。对于图6的实例,将读段的软剪接部分533和断点525之前的读段的映射部分531进行比较,以找到指示读段中的串联重复区的“拷贝1”534和“拷贝2”538的匹配部分。可以将字符串匹配方法应用于与断点525相邻的软剪接部分533和映射部分531,以确定读段的匹配部分。字符串匹配方法可以提供相对于串联重复区的断点的偏移,例如相对于断点525的“拷贝1”534和“拷贝2”538。字符串匹配方法还可以提供匹配部分的长度。表3给出了这样的实例:在python编程语言中的代码实现的在断点附近查找串联重复区的偏移量。

表3

步骤11可以使用锚位置得出插入片段的尺寸。插入片段的尺寸可通过从断点到软剪接部分中的锚位置的距离确定。表4给出这样的实例:基于由python编程语言中的代码实现的锚位置确定插入片段尺寸。

表4

如果锚长度小于最小锚长度,则可能无法根据锚位置确定插入片段的尺寸。对于这种情况,通过重复区检测确定的偏移量可用于计算插入片段的尺寸。插入片段的尺寸是从第一次出现重复区片段的起点到第二次重复区片段的起点的距离。表5给出这样的实例:基于通过python编程语言中的代码实现的重复区检测来确定插入片段尺寸。

表5

也可以评估部分重复区,其中软剪接拷贝截短。用户可以设置最小重复区尺寸,例如10个碱基。

步骤12可以可选地基于用户偏好按尺寸、位置、锚属性和/或重复区属性进行过滤。例如,可以根据各种条件(例如,以下内容)滤除部分映射的读段:

1)锚长度小于阈值;

2)重复区的拷贝相距不超过一定数量的碱基;

3)重复区的拷贝尺寸超过阈值;

4)重复区起点距离读段边缘不小于一定数量的碱基;

5)重复区拷贝中的错配数大于最大错配数。

步骤13可以基于针对读段确定的插入片段尺寸将读段归属到类别。在给定列上具有特定插入片段尺寸证据的各读段均归属到同一类别。对于与给定列相交的读段,可能有多种插入片段尺寸。

步骤14可以确定读段中对应于该列的位置是否包含与参考比对的起点和软剪接末端。参考图5的“比对起点”实例,比对起点和软剪接终点的位置由断点505指示。如图5所示,用于对比情况起点的步骤适合于与读段的映射部分相对的软剪接部分的布置。在步骤15中,可以检查软剪接是否具有足够的尺寸。步骤16可以在读段和参考的软剪接部分中找到锚。对于图5的实例,将读段的软剪接部分513和断点505之前的参考501的部分进行比较,以找到指示读段中的锚512和参考的锚部分502的匹配部分。字符串匹配方法可以应用于与断点相邻的软剪接部分和未映射的参考部分,以确定匹配的锚部分(如以上关于步骤9所述)。字符串匹配方法可以提供锚的长度、锚在读段中的位置、以及锚在参考中的位置。用户可以设置最小锚长度,例如12个碱基。表6给出了这样的实例:查找在读段和参考中的锚位置以及通过python编程语言中的代码实现的锚长度。

表6

步骤17可以检查在与列相交的位置附近的读段中是否存在重复区。对于图5的实例,将读段的软剪接部分513和断点505之后的读段的映射部分511进行比较,以找到指示读段中串联重复区的“拷贝1”518和“拷贝2”514的匹配部分。可以将字符串匹配方法应用于与断点505相邻的软剪接部分513和映射部分511,以确定读段的匹配部分。字符串匹配方法可以提供相对于串联重复区的断点的偏移,所述串联重复区例如相对于断点505的“拷贝1”518和“拷贝2”514。字符串匹配方法还可以提供匹配部分的长度。表7给出这样的实例:在python编程语言中的代码实现的断点附近查找串联重复区的偏移量。表7

步骤18可以使用锚位置得出插入片段的尺寸。插入片段的尺寸可通过从断点到软剪接部分中的锚位置的距离确定。表8给出了这样的实例:由python编程语言中的代码实现的基于锚位置确定插入片段尺寸。

表8

如果锚长度小于最小锚长度,则可能无法根据锚位置确定插入片段的尺寸。对于这种情况,通过重复区检测确定的偏移量可用于计算插入片段的尺寸。插入片段的尺寸是从第一次出现重复区片段的起点到第二次重复区片段的起点的距离。表9给出这样的实例:由python编程语言中的代码实现的基于重复区检测确定插入片段尺寸。

表9

也可以评估部分重复区,其中软剪接拷贝截短。用户可以设置最小重复区尺寸,例如10个碱基。

步骤19可以根据用户的喜好选择性地按尺寸、位置、锚属性和/或重复区属性进行过滤(如上面关于步骤12所述)。例如,如果重复区中的错配数大于最大错配数,则可以过滤掉某些重复区。

步骤20可以基于为读段确定的插入片段尺寸将该读段归属到类别。在给定列上具有特定插入片段尺寸的证据的各读段均归属到同一类别。对于与给定列相交的读段,可能有多种插入片段尺寸。

表10给出了函数“查找_匹配”的实例,该函数用于在表2和表6中给出的锚检测代码实例,并在以下表12中给出的合并特征的实例中使用,该函数由python编程语言中的代码实现。

表10

表11给出了表3和表7中给出的重复区检测代码实例中函数“max_dup”的实例,该实例由python编程语言中的代码实现。

表11

在表11的第8行中,“difflib”是用于字符串匹配的python库函数。字符串匹配法的各个方面在boyer,roberts.和moore,j.strother,(1977年10月)“afaststringsearchingalgorithm,”acm通讯20:10.762-772(doi:10.1145/359842.359859)中进行了描述。

步骤21可以使用绝对计数和相对于该位置处的覆盖范围的计数,基于类别中成员的数量来过滤每一列的类别。例如,最小计数可以设置为4。覆盖率是类别中成员数与插入位置覆盖率的比率。例如,最小覆盖率可以被设置为0.0025。最小计数和最小覆盖率可以由用户设置。具有不满足最小计数或最小覆盖率的成员数量的类别可以被过滤掉。

步骤22可以将频繁类别转换为“特征”并标准化特征的位置。特征包括描述性信息,例如在特定位置出现的特定尺寸的插入片段和内容。

步骤23可以记录针对该位置存在的特征。对于与堆积中的列相对应的每个位置,记录该位置上存在的特征。

步骤24可以合并代表相同插入片段的特征。可以使用单链路聚类(一种不相交集计算算法)合并这些特征。如果特征出现在兼容的位置,即第一特征的至少一个边缘出现在与第二特征的任何边缘接近的位置,具有小于给定阈值的相似尺寸并且在其尺寸的一部分上具有匹配内容的特征,则将它们视为有链接。表12给出了使用单链路聚类合并特征的实例,该聚类由python编程语言中的代码实现。

表12

单链路聚类和不相交集计算算法的各个方面描述于galler,bernarda.;fischer,michaelj.(may1964)“animprovedequivalencealgorithm,”communicationsoftheacm.7.pp.301–303(doi:10.1145/364099.364331);hopcroft,j.e.;ullman,j.d.(1973),"setmergingalgorithms,"siamjournaloncomputing,2(4):294-303(doi:10.1137/0202024);tarjan,roberte.;vanleeuwen,jan(1984)."worst-caseanalysisofsetunionalgorithms,"journaloftheacm.31(2):245–281(doi:10.1145/62.2160);和galil,z.,italiano,g.(1991),"datastructuresandalgorithmsfordisjointsetunionproblems,"acmcomputingsurveys,23:319-344(doi:10.1145/116873.116878)。

步骤25可以为用户生成flt3-itd检测结果的报告。

图7示出了用于检测串联重复区的示例性方法。在步骤701中,将多个模板多核苷酸股放置在传感器阵列上的多个位置,并且从样品获得模板多核苷酸链,并使用用于flt3检测的引物组通过多重扩增进行制备。在步骤702中,将布置在传感器阵列上的位置中的多个模板多核苷酸股暴露于一系列测序试剂流,测序试剂流包括核苷酸种类和聚合酶,以获得模板多核苷酸股的原始测序数据读段。在步骤703中,使用被配置为调用原始测序数据读段的碱基和映射调取的读段的碱基调用引擎,以及被配置为从映射的读段中识别和注释变体的变体调用引擎,将原始测序数据读段转换为经处理的测序数据。在步骤704中,使用本文所述的方法来分析经处理的测序数据以检测或识别一个或多个串联重复区事件。

将此处描述的重复区检测方法的结果与标准管道的变体调用器的结果进行比较。测试应用于dna片段的工程化构建体样品,包括已知位置和插入片段长度以模拟flt3-itd结构。dna片段被扩增并被核酸测序系统加工,包括碱基调用、映射和变体调用。表13显示了测试样品的结果。

表13

“已知插入片段”列给出了正向读段中插入片段的位置,反向读段中插入片段的位置以及插入片段尺寸。“变体调用器”列给出了由标准管道的变体调用器确定的插入片段尺寸的结果。“itd检测”列给出了通过本文所述的重复区检测确定的插入片段尺寸的结果。“%读段”列给出了检测到串联重复区的总读段的百分比。显示了对同一样品进行的多次测试的结果。以上结果表明,对于变异调用器未能检测到(nodet)插入片段的样品,例如对于样品03(插入片段尺寸=64)、21(插入片段尺寸=64)和26(插入片段尺寸=114),重复区检测方法是成功的。对于样品18(插入片段尺寸=193),变体调用器结果为插入片段尺寸=1,而重复区检测方法的结果为插入片段尺寸=97,为插入片段的真尺寸的一半。对于样品19(插入尺寸=97),变体调用器结果为插入片段尺寸=1,而重复区检测方法的结果为插入片段尺寸=98。这些结果表明,特别是对于具有较大插入片段尺寸的样本,重复区检测方法相对于标准管道的变体调用器提供了准确性的改啥。

根据示例性实施方式,提供了用于检测样品的flt3基因中的内部串联重复区的方法,所述方法包括:(a)在引物库的存在下扩增核酸样品以产生多个扩增子,引物库包括多个靶向flt3基因外显子的靶特异性引物;(b)对扩增子进行测序以产生多个读段;(c)将读段映射至参考序列,其中所述参考序列包括flt3基因外显子的被靶向区域,其中所述映射产生包括所述读段与所述参考序列的多个比对以及对应于沿着参考序列的位置的多个列的堆积,其中多个读段的一部分被部分地映射到用于多个部分映射的读段的参考序列,其中部分映射的读段包括映射部分、软剪接部分和断点;(d)分析与堆积的列相交的部分映射的读段以进行串联复制,包括:(i)通过将软剪接部分与和断点相邻的映射部分进行比较来检测软剪接部分中的重复区;(ii)确定在软剪接部分中重复区的插入片段的读段;(iii)基于插入片段尺寸将部分映射的读段分配给一个类别,以产生与多种插入片段尺寸相对应的多个类别,每个类别包含与具有相应的插入片段尺寸的部分映射的读段相对应的多个成员;(e)将类别转换成与该列相对应的特征,其中特征包括插入片段尺寸和插入片段位置处的插入片段序列;(f)合并对应于表示同一插入片段的一列或多列的特征,以确定串联重复区的位置和尺寸。分析与堆积的列相交的部分映射的读段的步骤还包括:确定部分映射的读段是否在表示比对的终点和软剪接部分的起点的断点处与列相交,其中部分映射的读段是正向读段。分析与堆积的列相交的部分映射的读段的步骤还包括:确定部分映射的读段是否在表示比对的起点和软剪接部分的终点的断点处与列相交,其中部分映射的读段是反向读段。分析与堆积的列相交的部分映射的读段的步骤还包括:确定与参考序列的与断点相邻的部分匹配的软剪接部分的锚部分。确定锚部分的步骤还包括:对与断点相邻的参考序列的软剪接部分和未映射部分应用字符串匹配方法。确定重复区的插入片段尺寸的步骤基于从断点到软剪接部分中锚部分的位置的距离。检测重复区的步骤将字符串匹配方法应用于与断点相邻的软剪接部分和映射部分。该方法还包括基于类别中成员的数量来过滤每个列的类别。过滤步骤基于类别中成员数量的绝对计数。过滤步骤基于类别中成员数与插入片段位置覆盖率的比率。合并特征的步骤还包括将单链路聚类应用于特征。

根据示例性实施方式,提供了一种用于检测样本的flt3基因中的内部串联重复区的系统,该系统包括机器可读存储器和配置为执行机器可读指令的处理器,该指令在由处理器执行时,使系统执行一种方法,所述方法包括:(a)接收多个读段,其中多个读段对应于flt3基因外显子的多个靶区域;(b)将读段映射至参考序列,其中所述参考序列包括flt3基因外显子的被靶向区域,其中所述映射产生包括所述读段与所述参考序列的多个比对以及对应于沿着参考序列的位置的多个列的堆积,其中多个读段的一部分被部分地映射到用于多个部分映射的读段的参考序列,其中部分映射的读段包括映射部分、软剪接部分和断点;(c)分析与堆积的列相交的部分映射的读段以进行串联复制,包括:(i)通过将软剪接部分与和断点相邻的映射部分进行比较来检测软剪接部分中的重复区;(ii)确定在软剪接部分中重复区的插入片段的尺寸;(iii)基于插入片段尺寸将部分映射的读段分配给一个类别,以产生与多种插入片段尺寸相对应的多个类别,每个类别包含与具有相应的插入片段尺寸的部分映射的读段相对应的多个成员;(d)将类别转换成与该列相对应的特征,其中特征包括插入片段尺寸和插入片段位置处的插入片段序列;(e)合并对应于表示同一插入片段的一列或多列的特征,以确定串联重复区的位置和尺寸。分析与堆积的列相交的部分映射的读段的步骤还包括:确定部分映射的读段是否在表示比对的终点和软剪接部分的起点的断点处与列相交,其中部分映射的读段是正向读段。分析与堆积的列相交的部分映射的读段的步骤还包括:确定部分映射的读段是否在表示比对的起点和软剪接部分的终点的断点处与列相交,其中部分映射的读段是反向读段。分析与堆积的列相交的部分映射的读段的步骤还包括:确定与参考序列的与断点相邻的部分匹配的软剪接部分的锚部分。确定锚部分的步骤还包括:对与断点相邻的参考序列的软剪接部分和未映射部分应用字符串匹配方法。确定重复区的插入片段尺寸的步骤基于从断点到软剪接部分中锚部分的位置的距离。检测重复区的步骤将字符串匹配方法应用于与断点相邻的软剪接部分和映射部分。该方法还包括基于类别中成员的数量来过滤每个列的类别。过滤步骤基于类别中成员数量的绝对计数。过滤步骤基于类别中成员数与插入片段位置覆盖率的比率。合并特征的步骤还包括将单链路聚类应用于特征。

根据示例性实施方式,提供了一种包括机器可读指令的计算机可读介质,所述机器可读指令在被加载到机器可读存储器中并由处理器执行时被配置为使系统执行用于检测样品的flt3基因中的内部串联重复区的方法,所述方法包括:(a)接收多个读段,其中多个读段对应于flt3基因的外显子的多个靶区域;(b)将读段映射至参考序列,其中所述参考序列包括flt3基因外显子的被靶向区域,其中所述映射产生包括所述读段与所述参考序列的多个比对以及对应于沿着参考序列的位置的多个列的堆积,其中多个读段的一部分被部分地映射到用于多个部分映射的读段的参考序列,其中部分映射的读段包括映射部分、软剪接部分和断点;(c)分析与堆积的列相交的部分映射的读段以进行串联复制,包括:(i)通过将软剪接部分与和断点相邻的映射部分进行比较来检测软剪接部分中的重复区;(ii)确定在软剪接部分中重复区的插入片段的尺寸;(iii)基于插入片段尺寸将部分映射的读段分配给一个类别,以产生与多种插入片段尺寸相对应的多个类别,每个类别包含与具有相应的插入片段尺寸的部分映射的读段相对应的多个成员;(d)将类别转换成与该列相对应的特征,其中特征包括插入片段尺寸和插入片段位置处的插入片段序列;(e)合并对应于表示同一插入片段的一列或多列的特征,以确定串联重复区的位置和尺寸。分析与堆积的列相交的部分映射的读段的步骤还包括:确定部分映射的读段是否在表示比对的终点和软剪接部分的起点的断点处与列相交,其中部分映射的读段是正向读段。分析与堆积的列相交的部分映射的读段的步骤还包括:确定部分映射的读段是否在表示比对的起点和软剪接部分的终点的断点处与列相交,其中部分映射的读段是反向读段。分析与堆积的列相交的部分映射的读段的步骤还包括:确定与参考序列的与断点相邻的部分匹配的软剪接部分的锚部分。确定锚部分的步骤还包括:对与断点相邻的参考序列的软剪接部分和未映射部分应用字符串匹配方法。确定重复区的插入片段尺寸的步骤基于从断点到软剪接部分中锚部分的位置的距离。检测重复区的步骤将字符串匹配方法应用于与断点相邻的软剪接部分和映射部分。该方法还包括基于类别中成员的数量来过滤每个列的类别。过滤步骤基于类别中成员数量的绝对计数。过滤步骤基于类别中成员数与插入片段位置覆盖率的比率。合并特征的步骤还包括将单链路聚类应用于特征。

根据示例性实施方式,提供了用于检测样品中串联重复区的方法,其包括:(a)将多个模板多核苷酸股布置在传感器阵列上的多个位置,其中所述模板多核苷酸链获自所述样品,并使用用于flt3检测的引物组通过多重扩增进行制备;(b)将设置在传感器阵列位置处的多个模板多核苷酸股暴露于包含核苷酸种类和聚合酶的一系列测序试剂流,以获得模板多核苷酸股的原始测序数据读段;(c)使用配置为调用原始测序数据读段的碱基和映射调取读段的碱基的碱基调用引擎,以及配置为从映射的读段中识别和注释变体的变体调用引擎,将原始测序数据读段转换为经处理的测序数据;(d)使用本文所述的方法分析经处理的测序数据以检测或鉴定一个或多个串联重复区事件。

根据示例性实施方式,提供了用于检测串联重复区的系统,其包括:在传感器阵列上多个位置的多个模板多核苷酸股,其中所述模板多核苷酸链获自所述样品,并使用用于flt3检测的引物组通过多重扩增进行制备;机器可读的存储器;以及配置成执行机器可读指令的处理器,所述机器可读指令在由所述处理器执行时使所述系统执行用于检测样品中的串联重复区的方法,所述方法包括:(a)将设置在传感器阵列位置处的多个模板多核苷酸股暴露于包含核苷酸种类和聚合酶的一系列测序试剂流,以获得模板多核苷酸股的原始测序数据读段;(b)使用配置为调用原始测序数据读段的碱基和映射调取读段的碱基的碱基调用引擎,以及配置为从映射的读段中识别和注释变体的变体调用引擎,将原始测序数据读段转换为经处理的测序数据;(c)使用本文所述的方法分析经处理的测序数据以检测或鉴定一个或多个串联重复区事件。

根据示例性实施方式,提供了包括机器可读指令的计算机可读介质,所述机器可读指令在被加载到机器可读存储器中并由处理器执行时被配置成使系统执行用于检测样品中串联重复区的方法,所述方法包括:(a)将设置在传感器阵列多个位置处的多个模板多核苷酸股暴露于包含核苷酸种类和聚合酶的一系列测序试剂流,以获得模板多核苷酸股的原始测序数据读段,其中模板多核苷酸股获自样品,并使用用于flt3检测的引物组通过多重扩增进行制备;(b)使用配置为调用原始测序数据读段的碱基和映射调取读段的碱基的碱基调用引擎,以及配置为从映射的读段中识别和注释变体的变体调用引擎,将原始测序数据读段转换为经处理的测序数据;(c)使用本文所述的方法分析经处理的测序数据以检测或鉴定一个或多个串联重复区事件。

根据各种实施方式,可以使用适当配置和/或编程的硬件和/或软件元件来执行或实现本文描述的教导和/或实施方式的一个或多个特征。

硬件元件的实例可以包括:通过本地接口电路以通信方式耦合的处理器、微处理器、输入和/或输出设备(i/o)(或外部设备)、电路元件(例如晶体管、电阻器、电容器、电感器等)、集成电路、专用集成电路(asic)、可编程逻辑装置(pld)、数字信号处理器(dsp)、场可编程门阵列(fpga)、逻辑门、寄存器、半导体装置、芯片、微芯片、芯片组等。本地接口可包括例如一个或多个总线或其它有线或无线连接、控制器、缓冲器(缓存器)、驱动器、中继器和接收器等,以允许硬件组件之间的适当通信。处理器是用于执行软件,尤其是存储在存储器中的软件的硬件装置。处理器可以是任何定制的或市售的处理器、中央处理单元(cpu)、与计算机相关联的若干处理器中的辅助处理器、基于半导体的微处理器(例如呈微芯片或芯片组的形式)、宏处理器,或通常用于执行软件指令的任何装置。处理器还可以表示分布式处理架构。i/o设备可包括输入设备,例如键盘、鼠标、扫描仪、麦克风、触摸屏、用于各种医疗设备和/或实验室仪器的接口、条形码读段器、触控笔、激光读段器、射频装置读段器等。此外,i/o设备还可以包括输出设备,例如打印机、条形码打印机、显示器等。最后,i/o设备还可包括以输入和输出的形式连通的设备,例如调制器/解调器(调制解调器;用于接入另一个装置、系统或网络)、射频(rf)或其它收发器、电话接口、网桥、路由器等。

软件的实例可包含软件组件、程序、应用、计算机程序、应用程序、系统程序、机器程序、操作系统软件、中间件、固件、软件模块、例程、子例程、函数、方法、操作步骤、软件接口、应用程序接口(api)、指令集、计算代码、计算机代码、代码段、计算机代码段、字、值、符号或其任何组合。在存储器中的软件可包括一个或多个独立程序,其可包括用于执行逻辑功能的可执行指令的有序列表。在存储器中的软件可包括根据本发明的教导用于识别数据流的系统和任何适合的定制或可商购的操作系统(o/s),其可控制如系统等其它计算机程序的执行,并且提供排程、输入-输出控制、文件和数据管理、存储器管理、通信控制等。

根据各种示例性实施方式,可使用可存储指令或指令集的适当地配置和/或编程的非暂时性机器可读介质或物件来执行或实施本文所述的教导和/或示例性实施方式的一个或多个特征,所述指令或指令集如果由机器执行,那么可使机器执行根据示例性实施方式的方法和/或操作。这类机器可以包括例如任何合适的处理平台、计算平台、计算装置、处理装置、计算系统、处理系统、计算机、处理器、科学或实验室仪器等,并且可使用硬件和/或软件的任何合适的组合来实施。机器可读介质或物件可包括例如任何合适类型的存储器单元、存储器装置、存储器物件、存储器介质、存储装置、存储物件、存储介质和/或存储单元,例如存储器、可移动介质或不可移动介质、可擦除介质或不可擦除介质、可写或可重写介质、数字或模拟介质、硬盘、软盘、只读存储器光盘(cd-rom)、可刻录光盘(cd-r)、可重写光盘(cd-rw)、光盘、磁性介质、磁光介质、可移动存储卡或盘、各种类型的数字多功能光盘(dvd)、磁带、磁带盒等,包括适用于计算机的任何介质。存储器可包括易失性存储器元件(例如随机存取存储器(ram,如dram、sram、sdram等))和非易失性存储器元件(例如rom、eprom、eerom、闪存储器、硬盘驱动器、磁带、cdrom等)中的任一个或组合。此外,存储器可并入电子、磁性、光学和/或其它类型的存储介质。存储器可以具有分布式、集群、远程或云架构,其中各种组件彼此远离地定位,但仍通过处理器接入。指令可包括使用任何适合的高阶、低阶、面向对象、可视、经编译和/或经解译的编程语言执行的任何合适类型的代码,如源代码、经编译的代码、经解译的代码、可执行码、静态代码、动态代码、加密的代码等。

除非本文另外明确指定,否则本文使用的生物化学,细胞生物学,遗传学,分子生物学,核酸化学,核酸测序和有机化学的术语、技术和符号遵循相关领域的标准论文和教科书。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1