将靶标富集的序列读出分配到基因组位置的方法_4

文档序号:9810886阅读:来源:国知局
任意两个序列之间的同一性百分比的确定。这种数学算法的优选的非限制性实例是Myers
Miller,CAB10S, 4:11 (1988)的算法,其通过引用被整体并入本文;Smith等人,Adv.Appl.Math., 2:482 (1981)的局部同源性算法,其通过引用被整体并入本文;Needleman和ffunsch, JMB, 48:443(1970)的同源性比对算法,其通过引用被整体并入本文;Pearson和Lipman, Proc.Natl.Acad.Sc1.USA, 85:2444(1988)的搜索相似性方法,其通过引用被整体并入本文;Karlin 和 Altschul, Proc.Natl.Acad.Sc1.USA, 87:2264 (1990)的算法,其通过引用被整体并入本文;如在 Karlin 和 Altschul, Proc.Natl.Acad.Sc1.USA, 90:5873 (1993)中被修改的,其通过引用被整体并入本文;
[0078]在某些实施方式中,指示每个匹配的捕获序列与序列读出之间的序列相似性程度的评分基于匹配的捕获序列与序列读出之间的序列同一性的长度、匹配的捕获序列与序列读出之间的字符串编辑距离、在序列读出内每个错配的位置、或它们的组合。因此,在某些实施方式中,指示每个匹配的捕获序列与序列读出之间的序列相似性程度的评分是加权评分,其中所述评分基于代表匹配的捕获序列与序列读出之间的序列同一性的长度的值,以及通过匹配的捕获序列与序列读出之间的字符串编辑距离、在序列读出内每个错配的位置、或它们的组合来加权所述值。在一些情况下,加权包括:从匹配的捕获序列与序列读出之间的序列同一性的长度中减去字符串编辑距离。在一些情况下,加权涉及:相较于朝向序列读出末端的错配,更重地加权朝向序列读出开头的错配。
[0079]如图1和2中所示,在匹配的捕获序列被识别为具有高于阈值的计算评分(120、220)之后,序列读出可被分配到捕获序列(122、222)。因此,本公开的另一方面包括:如果对匹配的捕获序列计算的评分高于阈值,则将序列读出分配到基因组位置。在某些实施方式中,分配(122、222)涉及:在数据结构(例如,表)中,使序列读出与具有高于阈值的计算的序列相似性评分的匹配的捕获序列相关联,并将数据结构写入存储器中,例如存储器中的计算机文件。在某些实施方式中,序列读出被分配到所有具有高于阈值的计算的序列相似性评分的匹配的捕获序列。在某些实施方式中,序列读出被分配到如下匹配的捕获序列,其计算的序列相似性评分高于对序列读出的所有其它匹配的捕获序列计算的序列相似性评分。在某些实施方式中,序列读出被分配到如下匹配的捕获序列,其计算的序列相似性评分高于阈值且高于对序列读出的所有其它匹配的捕获序列计算的序列相似性评分。
[0080]在某些实施方式中,本公开的方法包括分配步骤,所述分配步骤还包括:在所有匹配的捕获序列中,将具有最高的计算评分的匹配的捕获序列识别为最佳匹配,和通过将序列读出添加到匹配最佳匹配的捕获序列的独特(unique)序列读出的集合来将序列读出分配到基因组位置,其中集合中的每个独特序列读出包含与集合中的所有其它序列读出的子序列相同的子序列。在这种情况下,可利用属于相同集合的所有序列读出中最高的计算评分来代表分配的质量。在某些实施方式中,可利用属于相同集合的所有序列读出中计算评分的平均值来代表分配的质量。在一些实施方式中,与集合中的所有其它序列读出的子序列相同的子序列可以是条码序列。因此,被分配到相同的捕获序列且具有相同条码序列的序列读出可能代表源自相同的片段化基因组片段的扩增的DNA片段。在某些实施方式中,方法还包括:对被分配到捕获序列的独特序列读出的集合的数目进行计数。
[0081]在某些实施方式中,如果对匹配的捕获序列的计算评分均不高于阈值,则序列读出被注释为不分配到任何基因组位置或捕获序列。在某些实施方式中,对匹配的捕获序列的计算评分均不高于阈值的序列读出被注释为通过替代方法进一步处理。
[0082]在一些实施方式中,与序列读出的匹配捕获序列的序列相似性评分相比较的阈值是预定的恒定值。在某些实施方式中,与序列读出的匹配捕获序列的序列相似性评分相比较的阈值可由用户提供。在某些实施方式中,与序列读出的匹配捕获序列的序列相似性评分相比较的阈值基于序列读出的质量来确定。
[0083]在一些实施方式中,对多个序列读出实施所述方法,从而将多个序列读出分配到基因组位置。可顺次分配多个序列读出,例如在单个处理器上;或者,可通过主题方法并行分配多个序列读出,例如,在多个处理器上同时分配;或者,可出现二者的组合。可对来自一次测序运行的所有序列读出(102、202)、来自多次测序运行的所有序列读出(102、202)、或来自一次或多次测序运行的序列读出(102、202)的子集执行所述方法。
[0084]上述方法可以在计算机上实施。在某些实施方式中,可以将通用计算机配置成用于本文公开的方法和程序的功能装置。这样计算机的硬件架构是本领域的普通技术人员所熟知的,可以包含包括一个或多个处理器(CPU)、随机访问存储器(RAM)、只读存储器(R0M)、内部或外部数据存储介质(例如,硬盘驱动器)的硬件组件。计算机系统还可以包含处理和向显示部件输出图形信息的一个或多个图形板。上述组件可以经由计算机内部的总线适当地互连。该计算机可以进一步包含与例如监视器、键盘、鼠标、网络等的通用外部组件通信的适当界面。在一些实施方式中,该计算机可以能够并行处理,或可以是配置成并行或分布式计算的网络的一部分,以便提高本方法和程序的处理能力。在一些实施方式中,可以将从存储介质中读取的程序代码写入插入计算机中的扩展板或与计算机连接的扩展单元提供的存储器中,以及在扩展板或扩展单元中提供的CPU等可以按照程序代码的指令实际执行部分或所有操作,以便完成下面所述的功能。在另一些实施方式中,可以使用云计算系统执行该方法。在这些实施方式中,可以将数据文件和程序输出到云计算机,该云计算机运行该程序,并将输出返回给用户。
[0085]在某些实施方式中,系统可以包含包括如下的计算机:a)中央处理单元;b)主非易失性存储驱动器,其可以包括一个或多个硬盘驱动器,用于存储软件和数据,其中该存储驱动器受盘控制器控制;c)系统存储器,例如,高速随机访问存储器(RAM),用于存储系统控制程序、数据、和应用程序,包括从非易失性存储驱动器装载的程序和数据,系统存储器也可以包括只读存储器(ROM) ;d)用户界面,包括例如鼠标、小键盘(keypad)、和显示器的一个或多个输入或输出设备;e)与任何有线或无线通信网络,例如,打印机连接的任选网络接口卡;以及f)互连系统的上述元件的内部总线。
[0086]计算机系统的存储器可以是可以存储由处理器检索的信息的任何器件,可以包括磁或光器件、或固态存储器件(例如,易失性或非易失性RAM)。存储器或存储单元可以具有相同或不同类型的多于一个物理存储器件(例如,存储器可以具有例如多个驱动器、卡、或多个固态存储器件或它们的某种组合的多个存储器件)。关于计算机可读介质,“永久存储器”指的是永久的存储器。永久存储器不会因计算机或处理器的供电终止而被擦除。计算机硬驱动器ROM (即,不用作虚拟存储器的ROM)、CD-ROM、软盘和DVD都是永久存储器的例子。随机访问存储器(RAM)是非永久(即,易失性)存储器的例子。永久存储器中的文件可以是可编辑的和可重写的。
[0087]计算机的操作主要通过中央处理单元执行的操作系统来控制。该操作系统可以存储在系统存储器中。在一些实施方式中,该操作系统包括文件系统。除了操作系统之外,系统存储器的一种可行实施包括实现下面所述的方法多种编程文件和数据文件。在某些情况下,编程可以包含程序,其中该程序可以由多种模块、和允许用户人工选择或改变程序的输入或程序使用的参数的用户界面模块构成。该数据文件可以包括程序的多种输入。
[0088]在某些实施方式中,可以以“编程”的形式将依照本文所述的方法的指令编码到计算机可读介质中,其中如本文所使用的术语“计算机可读介质”指的是参与到将指令和/或数据提供给计算机用以执行和/或处理的任何存储或传输介质。存储介质的例子包括软盘、硬盘、光盘、磁光盘、CD-ROM、CD-R、磁带、非易失性存储卡、ROM、DVD-ROM、蓝光盘、固态盘、和附在网络上存储体(NAS),无论这样的器件是在计算机的内部还是外部。可以将包含信息的文件“存储”在计算机可读介质上,其中“存储”指的是记录信息,以便计算机日后可对其访问和检索。
[0089]本文所述的计算机实施方法可以使用程序来执行,该程序可以用任何数量计算机编程语言的一种或多种编写。这样的语言包括,例如,Java(太阳微系统公司(Sum Microsystems, Inc., Santa Clara, CA))、Visual Basic (微软公司(MicrosoftCorp., Redmond, WA))、C++ (AT&T Corp., Bedmister, NJ),以及任何许多其它的。
[0090]在任何实施方式中,可以将数据传送给“远程位置”,其中“远程位置”指的是除了执行程序的位置之外的位置。例如,远程位置可以是相同城市中的另一个位置(例如,办公室、实验室等)、不同城市中的另一个位置、不同州中的另一个位置、或不同国家中的另一个位置等。这样,当一个项目被指示成彼此“远程”时,则意味着两个项目可以处在同一个房间中但相互分开,或至少在不同房间或不同建筑物中,并且可以相隔至少一公里,10公里,或至少100公里。“通讯”信息指的是在适当通信通道(例如,私人或公用网络)上发送将那个信息表示成电信号的数据。“传送”项目指的是无论通过物理地输送那个项目还是其它方式(在可行的情况下),让那个项目从一个位置转到下一个位置的任何手段,并且至少在数据的情况下,包括物理地输送携带数据或通讯数据的介质。通信介质的例子包括无线电或红外线传输通道,以及与另一个计算机或联网设备、和互联网的网络连接,或包括电子邮件传输和将信息记录在网站上等。
[0091]一些实施方式包括在单台计算机上、跨过计算机的网络、跨过计算机的网络的网络,例如,跨过网络云、跨过局域网、在手持计算机设备上等的实施。在某些实施方式中,本文所述的一个或多个步骤在计算机程序上实施。这样的计算机程序执行本文所述的一个或多个步骤。在一些实施方式中,主题方法的实施包括本文所述、编码在计算机可读介质上和可在通信网络上传输的多种数据结构、类别和调节器。
[0092]本发明的软件、网络、互联网、云、或其它存储和计算机网络实现可以利用标准编程技术来完成,以便完成多种分配、计算、识别、评分、评估、生成或丢弃步骤。
[0093]在某些实施方式中,如上所述,本公开的计算机实施方法被编码成序列读出分配程序。因此,本文提供将序列读出分配到基因组位置的方法,所述方法包括:将用于富集核酸样品的捕获序列的集合输入含上述序列读出分配程序的计算机系统中,所述富集是通过与集合中的多个捕获序列杂交来实现的,其中所述序列读出分配程序包括以下指令:访问含序列读出的文件,其中所述序列读出获自经富集的核酸样品,和通过下述将所述序列读出分配到基因组位置:如果所述序列读出包含捕获序列的一个或多个子序列,则将捕获序列识别为所述序列读出的匹配,使用计算机计算指示每个匹配的捕获序列和序列读出之间的序列相似性程度的评分,如果对匹配的捕获序列计算的评分高于阈值,则将序列读出分配到基因组位置;将含序列读出的文件输入序列读出分配程序;和执行序列读出分配程序。在一些实施方式中,可在还储存有含序列读出(10
当前第4页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1