基于回归的多级pcr分析系统的制作方法

文档序号:5865357阅读:324来源:国知局
专利名称:基于回归的多级pcr分析系统的制作方法
基于回归的多级PCR分析系统优先权要求本申请要求2008年9月9日提交的题为“基于回归的多级PCR分析系统(MULTI-STAGE, REGRES SION-BASED PCR ANALYSIS SYSTEM)” 的美国临时申请 No. 61/095,410(代理人案号No. 002558-083200US)的优先权,并且是该临时申请的非临时申请,该申请No. 61/095,410的全部内容通过引用通用地结合于此。
背景技术
本发明一般涉及分析数据处理系统和方法,其分析诸如聚合酶链反应(PCR)的呈现扩增的生物和/或化学反应所产生的数据。
许多实验过程呈现量的扩增。例如,在PCR中,该量可能对应于已被复制的DNA链的片段的数量,该数量在PCR数据曲线的扩增区中所呈现的扩增阶段期间急剧增加。PCR 数据典型地是由显示出线性漂移基线的区域所描述的,该区域是扩增区中的指数生长的前兆。当消耗品耗尽时,该曲线翻转并渐近。呈现扩增的其它实验过程包括细菌生长过程。
实验过程的量经由数据信号从实验设备检测得到。例如,可通过对来自在各个孔或管中进行的一种或多种反应的不同激发波长和发射波长进行成像来收集该数据。该数据信号包含多个数据点,对这些数据点进行分析以确定与扩增有关的信息。所收集的数据然后典型地被存储以便将来使用。
可能利用PCR数据进行的分析的一个示例被称为基线测定。基线表示数据中的噪声或仪器专属电平,而非扩增。为了更好地分析数据的扩增区,通常需要从数据信号中去掉线性漂移基线。此类基线测定能有助于确定基线以上的实际扩增水平。对于某些类型的分析,由于基线基于每个曲线而不同,因此这样允许对不同曲线的扩增级之间的比较。基线测定的示例能在美国专利公开2006/(^69947中找到,该专利公开通过引用结合在此用于所有目的。
通常利用PCR数据进行的另一分析是计算一些以绝对值或相对值表示的反应中的特定靶分子的定量。这能通过指定与基准阈值相对应的目标信号阈值来实现。达到该目标阈值所需的循环数量随后被称为Ct值。用于确定反应的Ct值的先前方法通常受例如对原始数据或原始数据中的噪声的建模准确度限制。
虽然存在用于这些和其它类型的分析的方法,但从放大系统收集的数据通常包括显著的噪声和其它不定方面,这些方面会妨碍对反应特性的高效和准确的确定。因此,需要用于分析扩增曲线的新方法。

发明内容
实施例提供用于分析数据以确定PCR过程或呈现扩增的其它过程的性质的系统、 方法以及装置。在一个实施例中,可使用多级函数拟合来提高所确定性质的准确度。在一个方面中,这些性质包括基线、扩增过程(不管扩增是否存在)的基准定量值(例如,Ct值) 以及扩增过程的效率。
根据一个实施例,提供了一种根据表示反应的扩增过程的数据集来确定生物和/ 或化学反应的一种或更多种性质的方法。接收表示一具有基线部分和生长部分的曲线的数据点集。每个数据点表示扩增过程期间的物质的物理量。处理器计算逼近该数据点集的第一函数。从该第一函数提取一个或更多个参数。处理器使用这一个或更多个参数来计算逼近该数据点集的第二函数。利用第二函数来确定生物和/或化学反应的一种或更多种性质。
根据另一实施例,提供了一种确定由生物和/或化学反应的扩增过程所产生的扩增曲线的基线区域的方法。接收表示一具有基线部分和生长部分的曲线的数据点集。处理器计算逼近该数据点集的函数。计算该函数的一阶导数以获得一阶导数函数。处理器通过从一阶导数函数的一对应点到一固定位置对一阶导数函数进行积分以获得对应的积分面积来确定基线区域的结尾。积分面积在特定范围内的点被选择作为基线区域的结尾。也确定基线区域的起点。
根据另一实施例,提供了一种根据表示反应的扩增过程的数据集来确定生物和/ 或化学反应的基准值的方法。接收表示一具有基线部分和生长部分的曲线的数据点集。处理器确定逼近该数据点集的函数。处理器确定逼近该数据点集的函数。处理器计算该函数的至少两个导数。确定扩增过程中每一个导数具有最大值时的对应时间。将该生物和/或化学反应的基准值计算为对应时间的加权平均值。
在一个实施例中,通过检查数据的斜率或逼近该数据的函数是否具有大于阈值的斜率来区分所收集的数据中表示扩增的数据与表示突变或其它错误的数据。在另一实施例中,使用包含漂移项的经修改S形函数(sigmoid function)来逼近表示扩增过程的数据。
本发明的其它实施例涉及与本文中所描述方法相关联的系统和计算机可读介质。
参照以下详细描述和附图,可获得对本发明的本质和优点的更好理解。


图1示出PCR扩增曲线的示例。
图2示出从扩增过程测得的原始数据的示例。
图3是示出根据本发明一实施例的分析来自扩增反应的数据点的方法的流程图。
图4是表示突变而不是实际扩增的数据曲线的图示。
图5是示出根据本发明一实施例的确定数据曲线的一分段是否示出扩增的方法的流程图。
图6是示出根据本发明一实施例的确定扩增曲线的基线区域的方法的流程图。
图7是根据本发明一实施例的由基线测定法产生的扩增数据和曲线的曲线图。
图8是已利用本发明一实施例进行基线测定的许多PCR曲线的图示。
图9是示出根据本发明一实施例的通过执行多级函数拟合来分析扩增曲线以确定扩增反应的性质的方法的流程图。
图10是根据本发明一实施例的经修改S形函数与PCR数据之间的拟合的图示。
图11是根据本发明一实施例的PCR曲线的各个最大导数的计算的图示。
图12是示出根据本发明一实施例的通过执行多函数拟合来分析扩增曲线以确定 Ct值的方法的流程图。
图13是根据本发明一实施例的处理实时PCR数据的系统。
具体实施例方式本发明提供用于处理和分析来自扩增反应的结果的技术,例如用于确定该反应的多种不同性质。各个实施例尤其可用于分析来自PCR扩增过程的数据,以根据该数据的函数形式来确定例如基线、定量值(例如Ct值)以及不同的特性区域。然而,应当理解,本发明的示教可适用于处理可包括噪声的任何数据集或曲线,尤其处理以其它方式呈现生长 (扩增,诸如细菌生长过程)的曲线。
I.扩增曲线 扩增(生长)曲线显示出量何时随时间增加。此类曲线能由聚合酶链反应(PCR) 产生。典型的PCR生长曲线的数据能以二维曲线图表示,例如其中循环数定义了 χ轴且累积生长指标定义了 y轴。典型地,累积生长指标是由荧光标记物产生的荧光强度值。根据所使用的特定标记和/或检测方案,可使用其它指标。多个示例包括发光强度、生物发光强度、磷光强度、电荷转移、电压、电流、功率、能量、温度、黏度、光散射、辐射强度、反射率、透射率以及吸收率。循环的定义也能包括时间、处理循环、单位操作循环和生殖循环。
图1示出PCR曲线100的示例,其中绘制了典型PCR过程的强度值110与循环数 120的关系。值110可以是任何感兴趣的物理量,而循环数可以是与过程中的时间或步骤数相关联的任何单元。此类扩增曲线典型地具有线性部分(区域)130、随后是生长(扩增) 部分140、然后是渐近部分150,如图1所示。还可能存在附加类型的特性,诸如向下弯曲的数据。生长部分可能具有指数的、S形、高次多项式或对生长进行建模的其它类型的逻辑函数或逻辑曲线。
为了理解所涉及的实验过程,确定生长部分140的位置和形状是重要的。例如,在 PCR过程中,可能需要确定扩增的起始处,该起始处出现在基线部分(线性部分130)的末端 160处。此外,对生长部分140的形状的分析通常包括“基线测定”或从PCR曲线100减掉线性部分130。
图2示出呈现扩增的实时PCR曲线200。最开始,该数据在区域230呈现线性特性, 而在稍后的循环中,在区域MO中出现扩增。当将图2与图1进行对比时,清楚的是,实时 PCR曲线中通常存在的噪声和其它不定性会使为了确定潜在的反应性质而进行的对数据的任何分析比图1中所示的较理想模型难得多。
可分析这些曲线以用于多种不同目的。在本文中描述了其中一些目的。
II.扩增曲线分析综述 图3是示出根据本发明一实施例的分析来自扩增反应的数据点的方法的流程图。 取决于实施例的特定需求,图3中的许多步骤是可选的。此外,图3中概述的多个步骤中的许多步骤能与其它步骤无关地进行。例如,图12中所示的基线分析能与任何Ct确定无关地进行。执行图3中的一些步骤的特定方法在稍后参照其它附图进行描述。
在步骤310,接收从经历扩增的生物或化学反应获得的原始数据以供分析。在一些实施例中,该原始数据表示从该反应收集的各种光波长。在一个实施例中,该数据是在该反应的每个循环之后测得的光强。可将例如每个循环的荧光值集合形式的该原始数据装载到存储器中,以对其进行分析。
在步骤320,在进行进一步分析之前,可根据颜色来分离这些光波长。在一个实施例中,产生每孔标准化的颜色分离矩阵,该矩阵能从仪器校准数据导出。该矩阵可具体取决于装载到该孔中的染料。在一个方面中,使用诸如逆矩阵或奇异值分解的矩阵运算来根据原始数据计算颜色分离的数据。可将颜色分离的数据输出为一组曲线,每条曲线通过染料、 步骤号以及孔序号来标识。对于每种颜色以及每个孔采样和步骤存在一扩增曲线。这些输出曲线在向用户显示之前已减掉了基线。
在步骤330,分析颜色分离的原始数据以确定该数据是否表明潜在的反应中已经发生扩增。可进行各种分析来确定是否已经发生扩增。确定无扩增的分析的示例包括,曲线太短、曲线中的数据值的标准差是否充分小、曲线中的数据点的函数拟合是否具有负斜率、 以及数据与其线性拟合之差是否相对于数据点改变符号足够时间。通过为各种目的而引用结合的美国专利申请2006/0271308公开了一种确定数据是否呈现统计线性特性以区分线性数据与可能表示扩增的数据的方法。在一些实施例中,进行最大幅值斜率界限分析以确定该数据是否表明已经发生扩增,该分析将在稍后详细描述。
如果未发生扩增,则一些实施例将不对该数据进行任何进一步分析。如果已经发生扩增,则一些实施例将继续方法300。
在步骤340,进行基线分析。基线一般涉及与扩增过程无关的影响。例如,强度信号中可能存在偏置、漂移、噪声或其它伪像,且并非是潜在的扩增过程的结果。该基线分析可按照各种方式进行。在一些实施例中,通过从原始数据的函数逼近(拟合)来创建概率分布函数,从而确定基线的末端在特定置信水平内,来进行基线分析。稍后在本公开内容中更详细讨论该基线分析。在一个实施例中,可使用S形函数作为原始数据的函数逼近。
在步骤350,执行函数拟合以创建与原始数据紧密匹配的函数逼近。在一些实施例中,可使用来自步骤340的函数拟合作为用于步骤350的拟合。在其它实施例中,执行新的函数拟合,该新的函数拟合可基于前一函数拟合。以下更详细地描述这样的多级拟合。在一个实施例中,使用经修改的S形函数作为该函数逼近。
在步骤360,一些实施例使用来自步骤350的函数逼近来确定Ct值。如上所讨论,可使用扩增曲线的Ct值来计算反应中的特定靶分子的以绝对值或相对值表示的一些定量。在一些实施例中,利用函数逼近的两个导数的加权平均来确定Ct值。
在步骤330的结果表明无扩增的一些实施例中,方法300可将基线区域的末端设置到最后一个循环,和/或将Ct值设置于该曲线与其平均值的交点处。
III.确定是否存在扩增 如上关于步骤330所述,可对数据是否表示扩增反应进行分析。在一个实施例中, 进行最大扩增斜率界限分析。
在多种情况下,存在由于仪器在运行期间受到撞击或干扰而引起的数据突变。在该情况下,该数据会显示看起来表示扩增的急剧突变,但它实际上是错误的伪像。显示该特性的曲线的极端示例在图4中示出。在图4中,RFU指的是相对荧光,而循环指的是PCR反应(或任何显示扩增型特性的过程)的扩增循环。实施例使用用于真实扩增的最大允许斜率来区分真实扩增与任何伪像(诸如由错误引起的数据突变)。
图5是示出根据本发明一实施例的确定数据曲线段是否显示扩增的方法500的流程图。在各个实施例中,可在基线测定之前、基线测定之后或作为基线测定过程的一部分来执行方法500。例如,可分析基线从起始到末尾的曲线部分以确定扩增特性,而且如果存在扩增特性,则可应用方法500。
在步骤510,接收来自经历扩增的生物或化学反应的数据以供分析。在一些实施例中,该数据可被颜色分离。所接收的数据典型地具有基线部分和生长部分。
在步骤520,利用该数据进行函数拟合以获得该数据的函数逼近。该函数逼近可由一些实施例用于确定潜在的反应的各种特性。在一些实施例中,将S形函数用于函数逼近。 在其它实施例中,可仅对该数据的一部分执行函数拟合。
在步骤530,进行函数逼近分析以确定函数拟合的斜率是否超过最大扩增斜率界限(MASB)。可对该数据曲线的每个点进行对函数拟合的斜率分析。
在步骤M0,对于斜率超过最大扩增斜率的那些位置(例如分段),可将数据视为非扩增。在一个实施例中,如果方法500的分析移除了所有可能的扩增区域,则可将该数据曲线归类为非扩增。在扩增区域的确在突变之后存在的另一实施例中,则将基线区域的起始设置在紧接突变之后。
用于最大斜率推导的一个实施例如下。在一个方面中,以下方程示出实际扩增曲线的斜率的上界为恒定最大效率的理想纯指数扩增曲线的斜率。
考虑扩增,其中yn表示经过基线测定的数据,而&表示循环N时的扩增效率。
yN+1 = (l+EN)yN 由于该特性是指数的,所以导数可以通过In空间(In是自然对数)中的差来逼近。因此,该导数可以写成 In (yN+1)-In (yN) = ln(l+EN) 利用中值定理,可以看出
权利要求
1.一种根据表示生物和/或化学反应的扩增过程的数据集来确定所述反应的一种或更多种性质的方法,所述方法包括接收表示一具有基线部分和生长部分的曲线的数据点集,每个数据点表示物质在扩增过程期间的物理量;利用处理器计算逼近所述数据点集的第一函数; 从所述第一函数提取一个或更多个参数;利用所述处理器使用所述一个或更多个参数来计算逼近所述数据点集的第二函数;以及利用所述第二函数确定所述生物和/或化学反应的一种或更多种性质。
2.如权利要求1所述的方法,其特征在于,所述一种或更多种性质包括与所述扩增过程相关联的量化值。
3.如权利要求1所述的方法,其特征在于,所述一个或更多个参数被用作为用于所述第二函数的初始值,且其中计算所述第二函数包括改变一个或更多个所述初始值以减小所述第二函数与所述数据点集之间的误差。
4.如权利要求3所述的方法,其特征在于,所述第二函数是包含漂移项的经修改S形函数。
5.如权利要求4所述的方法,其特征在于,所述经修改S形函数被表示为
,其中
以及 是在所述经修改S形函数与所述数据点集的拟合过程期间确定的数字,且其中χ是所述扩增过程的循环数。
6.如权利要求5所述的方法,其特征在于,所述一个或多个参数包括%、%、 以及 。
7.如权利要求1所述的方法,其特征在于,所述一个或多个参数包括所述扩增过程中的时间ct,所述第一函数在所述时间Ct具有一指定值。
8.如权利要求7所述的方法,其特征在于,使用所述时间Ct来计算逼近所述数据点集的第二函数包括定义以Ct为中心的时间窗口 ;使用所述时间窗口内的所述数据点来确定所述第二函数,以使所述第二函数逼近所述时间窗口内的数据点。
9.如权利要求8所述的方法,其特征在于,所述第二函数是6阶或更高阶的多项式。
10.如权利要求7所述的方法,其特征在于,确定第一时间和第二时间的加权平均值作为所述时间Ct,其中所述第一函数的二阶导数在所述第一时间具有最大值,且所述第一函数的三阶导数在所述第二时间具有最大值。
11.如权利要求1所述的方法,其特征在于,还包括选择所述基线部分的结尾作为所述扩增过程的第一时间,其中所述第一函数的一阶导数函数从所述第一时间到所述一阶导数函数的峰值的积分面积在一指定值范围内。
12.如权利要求1所述的方法,其特征在于,还包括分析所述第一函数以确定所述第一函数的斜率是否超过最大扩增斜率;以及如果所述第一函数确定具有超过所述最大扩增斜率的位置,则将包含所述位置的分段视为所述扩增曲线的非扩增分段。
13.如权利要求12所述的方法,其特征在于,所述最大扩增斜率是In(2. 0)乘以正被计算斜率的位置处的数据点的值。
14.一种确定由生物和/或化学反应的扩增过程所产生的扩增曲线的基线区域的方法,所述方法包括接收表示一具有基线部分和生长部分的曲线的数据点集,每个数据点表示物质在扩增过程期间的物理量;利用处理器确定逼近所述数据点集的函数;计算所述函数的一阶导数以获得一阶导数函数;通过以下步骤确定基线区域的结尾对于多个点利用所述处理器从对应点到所述一阶导数函数的一固定位置对所述一阶导数函数积分,以获得对应积分面积;以及选择积分面积在一指定范围内的点作为所述基线区域的结尾;以及确定所述基线区域的起始。
15.如权利要求14所述的方法,其特征在于,所述一阶导数函数包括所述函数的一阶导数减去一初始数据点处的一阶导数。
16.如权利要求15所述的方法,其特征在于,所述选定点的积分面积是所述一阶导数函数从所述初始点到所述固定位置的面积的预定百分比。
17.如权利要求14所述的方法,其特征在于,还包括识别所述一阶导数函数的峰值,其中所述一阶导数函数上的所述固定位置是所述一阶导数函数的峰值。
18.如权利要求17所述的方法,其特征在于,所述积分从所述一阶导数函数上的峰值进行到所述一阶导数函数的起始,以获得所述对应积分面积。
19.如权利要求14所述的方法,其特征在于,确定所述基线区域的起始包括确定一个数据点到下一数据点的值的增加是否大于预定量;以及如果超过所述预定量,则将所述基线的起始选择为在所述一个数据点之后。
20.如权利要求14所述的方法,其特征在于,确定所述基线区域的起始包括,如果所述基线区域的一个或多个数据点未在阈值内逼近线性特性,则从所述基线区域截去所述一个或多个数据点,其中从所述基线区域截去一个或更多个数据点包括i)将所述基线区域定义为从所述数据点集的起始到所确定的基线区域的结尾的多个数据点; )基于所述基线区域内的多个数据点的线性特性来分析所述基线区域以确定所述基线区域是否呈现非扩增特性;iii)如果所述基线区域未在所述阈值内逼近线性特性,则从所述基线区域移除至少一个前沿数据点;iv)重复步骤ii-iii直到a)基线区域呈现非扩增特性;或b)步骤ii-iii已被重复预定次数。
21.一种根据表示生物和/或化学反应的扩增过程的数据集来确定所述反应的基准值的方法,所述方法包括接收表示一具有基线部分和生长部分的曲线的数据点集,每个数据点表示物质在扩增过程期间的物理量;利用处理器确定逼近所述数据点集的函数;利用所述处理器计算所述函数的至少两个导数;确定所述扩增过程中每个导数具有最大值时的相应时间;计算所述相应时间的加权平均值作为所述生物和/或化学反应的所述基准值。
22.如权利要求21所述的方法,其特征在于,所述至少两个导数包括二阶导数和三阶导数。
23.如权利要求22所述的方法,其特征在于,所述二阶导数由(1-p)加权,而所述三阶导数由P加权,且其中P具有在0. 3-0. 7的范围内的值。
24.如权利要求21所述的方法,其特征在于,还包括设定用于所述加权平均值的权重,以使基准曲线的效率为100%。
全文摘要
提供了用于分析数据以确定PCR过程或呈现扩增或生长的其它过程的性质的系统和方法。可将表示扩增的数据与表示突变或其它错误的数据区分开。在确定这些性质时可使用含漂移项的经修改S形函数。扩增数据的多级函数拟合能提供一个或多个性质的提高的准确度和一致性。可通过分析数据的一阶导数函数的积分面积来确定扩增数据的基线。还可根据扩增数据的不同导数函数的最大值的位置确定基准量化值,例如可使用二阶和三阶导数的最大值位置的加权平均值。
文档编号G01N33/48GK102187215SQ200980140557
公开日2011年9月14日 申请日期2009年9月9日 优先权日2008年9月9日
发明者J·雷纳 申请人:生物辐射实验室股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1