利用双s形的曲率分析的pcr肘确定的制作方法

文档序号:6606879阅读:178来源:国知局
专利名称:利用双s形的曲率分析的pcr肘确定的制作方法
技术领域
本发明广泛地涉及用于处理表示S形曲线或生长曲线的数据的系统和方法,并且 更具体地涉及用于确定PCR扩增曲线中的特征周期阈值(Ct)或肘值(elbow value)或其 它生长曲线中的肘值的系统和方法。
背景技术
聚合酶链反应(PCR)是一种用于酶合成或扩增限定的核酸序列的离体方法。该反 应典型地利用两种寡核苷酸引物,这两种寡核苷酸引物杂交成相对股并且位于模板或要被 扩增的目标DNA序列的侧面。通过热稳定DNA聚合酶来催化这些引物的延伸。包括由聚合 酶引起的模板变性、引物退火和退火引物的延伸的一系列重复周期导致特定DNA片断的指 数累积。荧光探针或标记典型地被用于促进扩增过程的检测和量化的方法中。在图1中示出了典型的实时PCR曲线,其中针对典型的PCR过程画出了荧光强度 值对周期数。在这种情况下,在PCR过程的每一周期中监控PCR产物的形成。通常在温度循 环器中测量扩增,该温度循环器包括用于在扩增反应过程中测量荧光信号的部件和装置。 这种温度循环器的例子是Roche Diagnostics LightCycler (Cat. No. 20110468)。借助荧光 标记的杂交探针来例如检测扩增产物,该荧光标记的杂交探针仅仅在它们被结合到目标核 酸上时才发射荧光信号,或者在某些情况下也借助结合到双股DNA上的荧光染料来例如检 测扩增产物。对于典型的PCR曲线来说,识别在基线区域末端处的通常被称为肘值或周期阈值 (Ct)的过渡点极其有助于理解PCR扩增过程的特征。该Ct值可被用作PCR过程的效率 的量度。例如,针对要被分析的所有反应确定所规定的信号阈值,并且针对目标核酸以及 针对例如标准或看家(housekeeping)基因的参考核酸确定用于达到该阈值所需的周期数 (Ct)。基于针对目标核酸和参考核酸所获得的Ct值,可以确定目标分子的绝对或相对拷 贝■ (Gibson·入的 Genome Research 6 995-1001 ;Bieche ^AW Cancer Research 59 2759-2765,1999 年;WO 97/46707 ;WO 97/46712 ;WO 97/46714)。图 1 中在基线区域 15 的 末端处的区域20中的肘值将在周期数30的区域中。可以利用几种现有方法来确定PCR曲线中的肘值。例如,各种当前方法将实际的 肘值确定为这样的值,在该值的情况下荧光达到被称为AFL(任意荧光值)的预定水平。其 它当前方法可以利用周期数,其中荧光对周期数的二阶导数达到最大值。所有这些方法都 具有缺点。例如,一些方法对异常(有噪声的)数据敏感,并且AFL值方法对具有高基线的 数据集不适用。特别是在高滴定量的情况下,用于确定图1中所示的生长曲线的基线停止 (或基线的终点)的传统方法不能令人满意地工作。此外,这些算法典型地具有被拙劣地定 义的、线性相关的并且(如果可能)常常非常难以优化的多个(例如50或更多)参数。
因此,期望提供用于确定曲线、例如S形曲线或生长曲线、以及尤其是PCR曲线中 的肘值的系统和方法,该系统和方法克服上述的和其它的缺点。

发明内容
本发明提供用于确定S形或生长型曲线中的例如肘值的特征过渡值的新颖的、有 效的系统和方法。在一种实施方案中,本发明的系统和方法特别有助于确定PCR扩增曲线 中的周期阈值(Ct)。根据本发明,具有通过Levenberg-Marquardt (LM)回归方法所确定的参数的双S 形函数被用于找到拟合PCR数据集的曲线的近似。一旦已经确定参数,就可以利用一个或 多个所确定的参数来使曲线标准化。在标准化之后,处理标准化曲线以确定该曲线在沿着 该曲线的一些或所有点处的曲率,例如以便产生表示曲率对周期数的数据集或图。出现最 大曲率的周期数对应于Ct值。该Ct值然后被返回并且可以被显示或另外被用于进一步的 处理。在本发明的第一方面中,提供一种计算机实现的、确定生长曲线的基线区域的末 端处的点的方法,该方法包括以下步骤-接收表示生长曲线的数据集,所述数据集包括多个数据点,每一个数据点都具有 一对坐标值;-通过将Levenberg-Marquardt(LM)回归方法应用于双S形函数以确定该函数的 参数来计算拟合所述数据集的曲线的近似;-利用所确定的参数使所述曲线标准化,以生成标准化曲线;以及-处理所述标准化曲线,以确定具有最大曲率的点,其中所述具有最大曲率的点表 示生长曲线的基线区域的终点。在本发明的第二方面中,提供一种计算机可读介质,该计算机可读介质包括用于 控制处理器以确定生长曲线的基线区域的末端处的点的代码,该代码包括指令,所述指令 用于-接收表示生长曲线的数据集,所述数据集包括多个数据点,每一个数据点都具有 一对坐标值;-通过将Levenberg-Marquardt(LM)回归方法应用于双S形函数以确定该函数的 参数来计算拟合所述数据集的曲线的近似;-利用所确定的参数使所述曲线标准化,以生成标准化曲线;以及-处理所述标准化曲线,以确定具有最大曲率的点,其中所述具有最大曲率的点表 示生长曲线的基线区域的终点。在本发明的又一方面中,提供一种动态聚合酶链反应(PCR)系统,包括-动态聚合酶链反应分析模块,该动态聚合酶链反应分析模块产生表示动态聚合 酶链反应扩增曲线的聚合酶链反应数据集,所述数据集包括多个数据点,每一个数据点都 具有一对坐标值,其中所述数据集包括感兴趣区域中的数据点,该感兴趣区域包括周期阈 值(Ct);以及-智能模块,该智能模块适于通过以下方式来处理所述聚合酶链反应数据集以确 定周期阈值
-通过将Levenberg-Marquardt(LM)回归方法应用于双S形函数以确定该函数的 参数来计算拟合所述数据集的曲线的近似;-利用所确定的参数使所述曲线标准化,以生成标准化曲线;以及-处理所述标准化曲线,以确定具有最大曲率的点,其中所述具有最大曲率的点表 示生长曲线的周期阈值(Ct)。


参照说明书的包括附图和权利要求的剩余部分,将认识到本发明的其它特征和优 点。下面根据附图详细地描述本发明的进一步的特征和优点以及本发明的各种实施例的 结构和操作。在附图中,相似的参考数字表示相同或功能相似的元件。图1示出被绘制为荧光强度对周期数的典型PCR生长曲线的例子。图2示出用于确定生长曲线的基线区域的终点或PCR曲线的Ct值的方法流程。图3示出根据本发明的一个实施例的峰值识别和替换方法的详细方法流程。图4示出包括参数a_g的双S形方程的分解。图5示出参数(d)对曲线和(e)的位置、拐点的χ值的影响,其中除了参数⑷之 外图5中的所有曲线具有相同的参数值。图6示出针对不同参数集的三个曲线形状的例子。图7示出根据一个方面的用于确定双S形方程参数(e)和(g)的值的方法。图8示出用于初始参数集的Levenberg-Marquardt回归方法的方法流程。图9示出根据一个实施例的、用于确定PCR过程的肘值的更详细的方法流程。图IOa示出利用双S形拟合于实验数据的典型生长曲线,以及图IOb示出图IOa的双S形曲线的曲率图。图11示出与具有最大曲率的点相切的、叠加于图IOa中的生长曲线中的圆。图12a示出生长曲线的数据集的例子。图12b示出图12a的数据集的图。图13示出对图12的数据集的双S形拟合。图14示出在利用方程(6)的基线减去方法标准化之后图12(图13)的数据集(以 及双S形拟合)。图15示出图14的标准化数据集的曲率对周期数的图。图16示出具有最大曲率半径的圆与图14的标准化数据集的叠加。图17示出“缓慢生长器”数据集的例子。图18示出图17的数据集以及在利用方程(6)的基线减去方法标准化之后的双S 形拟合。图19示出图18的标准化数据集的曲率对周期数的图。图20示出一组PCR生长曲线的图,包括复制运行和负采样。图21示出描述软件和硬件资源之间的关系的一般框图。
具体实施例方式本发明提供用于确定S形或生长曲线中的过渡值、例如基线区域的终点或PCR扩增曲线的肘值或Ct值的系统和方法。在某些方面中,具有通过Levenberg-Marquardt (LM) 回归方法所确定的参数的双S形函数被用于找到曲线的近似。一旦已经确定参数,就可以 利用一个或多个所确定的参数来使曲线标准化。在标准化之后,处理标准化曲线,以确定沿 着曲线的一些或所有点处的曲线曲率,例如以产生表示曲率对周期数的数据集或图。出现 最大曲率的周期数对应于该Ct值。该Ct值然后被返回并且可以被显示或另外被用于进一 步的处理。在图1中示出了在PCR过程的上下文中的生长或扩增曲线10的一个例子。如所 示的那样,曲线10包括停滞期区域15和指数生长期区域25。停滞期区域15 —般被称作基 线或基线区域。这种曲线10包括连接停滞期和指数生长期区域的感兴趣的过渡区域20。 区域20 —般被称作肘或肘区域。肘区域20典型地限定基线的终点和基本过程的生长或扩 增率的过渡。识别区域20中的特定过渡点可以有助于分析基本过程的特性。在典型的PCR 曲线中,识别被称为肘值或周期阈值(Ct)的过渡点有助于理解PCR过程的效率特性。可以提供类似的S形曲线或生长曲线的其他方法包括细菌法、酶法和结合法。 在细菌生长曲线中,例如,感兴趣的过渡点已被称作停滞期中的时间Θ。产生可根据本 发明被分析的数据曲线的其他特定方法包括链置换扩增(SDA)方法、基于核酸序列的 扩增(NASBA)方法和转录介导的扩增(TMA)方法。可以分别在Wang,Sha-Sha等人的 “Homogeneous Real-Time Detection of Single-Nucleotide Polymorphisms by Strand Displacement Amplification on the BD ProbeTec ET System"(Clin Chem 2003 49(10) 1599)禾口 Weusten, Jos J. A. M.等人的"Principles of Quantitation of Viral Loads Using Nucleic Acid Sequence-Based Amplification in Combination With Homogeneous Detection Using Molecular Beacons”(Nucleic Acids Research, 2002 30(6) 26)中找 到SDA和NASBA方法和数据曲线的例子。因此,尽管本文的剩余部分将在本发明对PCR曲 线的适用性方面来讨论本发明的实施例和方面,但应理解的是,本发明可以被应用于涉及 其他方法的数据曲线。如图1中所示,例如可在二维坐标系统中表示典型的PCR生长曲线的数据,其中 PCR周期数定义χ轴并且累积的多核苷酸生长的指示器定义y轴。典型地,如图1中所示, 累积生长的指示器是荧光强度值,因为荧光标记的使用可能是最广泛使用的标记方案。然 而,应理解的是,可以根据所使用的具体标记和/或检测方案使用其他指示器。累积信号生 长的其他有用的指示器的例子包括发光强度、化学发光强度、生物发光强度、磷光强度、电 荷转移、电压、电流、功率、能量、温度、粘性、光散射、放射性强度、反射率、透射率和吸收率。 周期的定义也可以包括时间、方法周期、单元操作周期和再生周期。一般方法概述根据本发明,可以参照图2简要地描述用于确定单个S形曲线中的过渡值、例如动 态PCR扩增曲线的肘值或Ct值的方法100的一个实施例。在步骤110中,接收或另外获取 表示曲线的实验数据集。在图1中示出了所绘制的PCR数据集的例子,其中对于PCR曲线 来说y轴和χ轴分别表示荧光强度和周期数。在某些方面中,数据集应包括连续的并且沿 着轴等间隔的数据。在本发明的示范性实施例中,可以通过利用传统的个人计算机系统来实施该方 法,该个人计算机系统包括、但不限于用于输入数据集的例如键盘、鼠标等的输入装置;用于表示曲线区域中的感兴趣的特定点的显示装置、例如监控器;对于执行该方法中的每 一步骤来说必要的处理装置、例如CPU ;例如调制解调器的网络接口 ;用于存储数据集、在 处理器上运行的计算机代码等等的数据存储装置。此外,也可以在PCR装置中实施该方法。在图21中显示了根据本发明的系统。该图示出说明软件和硬件资源之间的关系 的一般框图。该系统包括可以位于温度循环器装置中的动态PCR分析模块和是计算机系统 的一部分的智能模块。经由网络连接或直接连接将数据集(PCR数据集)从分析模块传输 至智能模块,或反之亦然。由在处理器上运行的并存储于智能模块的存储装置上的计算机 代码根据如图2中所示的方法来处理数据集,并在处理之后,将数据集传输回分析模块的 存储装置,其中可以在显示装置上显示所修改的数据。在具体实施例中,也可以在PCR数 据获取装置中实现智能模块。在方法100在驻留于例如温度循环器的PCR数据获取装置中的智能模块(例如执 行指令的处理器)中实施的情况下,在数据正被收集时数据集可以被实时地提供给智能模 块,或者数据集可以被存储于存储单元或缓冲器中,并在已经完成实验之后被提供给智能 模块。类似地,数据集可以经由通向获取装置的网络连接(例如LAN、VPN、内部网、因特网 等)或直接连接(例如USB或其它直接有线或无线连接)被提供给单独的系统、例如桌上 计算机系统或其它计算机系统,或在例如CD、DVD、软盘等的便携式介质上被提供。在某些 方面中,数据集包括具有一对坐标值(或二维矢量)的数据点。对于PCR数据来说,该对坐 标值典型地表示周期数和荧光强度值。在已经在步骤110中接收或获取数据集之后,可以 分析该数据集以确定基线区域的终点。在步骤120中,计算曲线的近似。在该步骤的过程中,在一个实施例中,具有通过 Levenberg-Marquardt (LM)回归方法或其它回归方法所确定的参数的双S形函数被用于 找到表示数据集的曲线的近似。该近似据说是“稳健的”,因为异常数据或峰值点对曲线拟 合的质量具有最小的影响。下面将论述的图13示出所接收的数据集和通过根据本发明将 Levenberg-Marquardt回归方法用于确定双S形函数的参数所确定的数据集的稳健近似的 图的例子。在某些方面中,在处理数据集以便确定基线区域的终点之前去除或替换数据集中 的异常数据或峰值点。在数据集在步骤110中被获取之前或之后可以发生峰值去除。图3 示出用于识别并替换表示PCR或其它生长曲线的数据集中的峰值点的方法流程。在步骤130中,在步骤120中所确定的参数例如被用于使曲线标准化,以便去除基 线斜率,如将在下面更详细地描述的那样。以该方式进行的标准化允许在不必确定或指定 曲线的基线区域的终点或基线停止位置的情况下确定Ct值。在步骤140中,然后处理标准 化曲线以确定Ct值,如将在下面更详细地论述的那样。LM回归方法如将在下面论述的,图3的步骤502至524示出用于近似数据集的曲线并确定拟 合函数的参数(步骤120)的方法流程。根据本发明的一个实施例,这些参数可以被用于使 曲线标准化、例如修改或去除表示S形或生长型曲线、例如PCR曲线的数据集的基线斜率 (步骤130)。在已经处理了数据集以产生具有被去除或被替换的峰值点的、修改后的数据 集的情况下,可以根据步骤502至524来处理修改后的无峰值的数据集,以确定拟合函数的 参数。
在所示出的一个实施例中,Levenberg-Marquardt (LM)方法被用于计算数据集的 稳健的曲线近似。该LM方法是非线性回归方法;它是一种使非线性函数和数据集之间的 距离最小化的迭代技术。该方法的作用就像最陡下降方法和Gauss-Newton方法的组合一 样在当前近似并不很好地拟合时,它的作用就像最陡下降方法一样(更慢,但更可靠地收 敛),但在当前近似变得更精确时,于是它的作用将像Gauss-Newtom方法一样(更快,但不 太可靠地收敛)。该LM回归方法被广泛地用于解决非线性回归问题。一般,该LM回归方法包括需要各种输入并提供输出的算法。在一个方面中,该输 入包括要处理的数据集、被用于拟合数据的函数以及函数的参数或变量的初始猜测。该输 出包括用于使函数和数据集之间的距离最小化的函数的参数集。根据一个实施例,拟合函数是以下形式的双S形
Ax) = a + bx +------τ,r-。( 1 )
(l + exp—Kl + exp"0^))作为拟合函数的该方程的选择基于其拟合典型的PCR曲线或其它生长曲线可能 采用的不同曲线形状的灵活性和能力。本领域的技术人员应理解,可以随意地使用上面的 拟合函数或其它拟合函数的变型。双S形方程(1)具有7个参数a、b、c、d、e、f和g。该方程可被分解为常数、斜 率和双S形的和。双S形自身是两个S形的相乘。图4示出双S形方程(1)的分解。参数 d、e、f和g决定两个S形的形状。为了示出它们对最终曲线的影响,考虑单个S形
1_, (2)
l + exp-—)其中参数d决定曲线的“锐度”,并且参数e决定拐点的χ值。图5示出参数d对 曲线的影响以及参数e对拐点的χ值的位置的影响。在下面,表1描述参数对双S形曲线 的影响。表1 双S形参数描述 在一个方面中,为了防止曲线采用不切实际的形状,应限制双S形方程的“锐度” 参数d和f。因此,在一个方面中,d<_l或d>l. 1或f<_l或f>l. 1的任何迭代都 被认为是不成功的。在其它方面中,可以使用对参数d和f的不同限制。因为Levenberg-Marquardt算法是迭代算法,所以典型地需要用于拟合的函数的 参数的初始猜测。初始猜测越好,近似将越好,并且算法将向局部最小值收敛就越不可能。由于双S形函数的复杂性和PCR曲线或其它生长曲线的各种形状,所以对每一参数的一次 初始猜测可能不足以防止算法有时向局部最小值收敛。因此,在一个方面中,输入多个(例 如3个或更多个)初始参数集并保存最佳结果。在一个方面中,大部分参数被保持为在所 使用的多个参数集上恒定;仅仅参数c、d和f可以对于多个参数集中的每一个来说是不同 的。图6示出针对不同参数集的三个曲线形状的例子。这三个参数集的选择指示表示PCR 数据的曲线的三种可能的不同形状。应理解的是,可以处理多于三个的参数集并保存最佳 结果。如图3中所示,在步骤510中确定LM方法的初始输入参数。这些参数可以通过操 作者输入或可以被计算。根据一个方面,根据如下面所论述的步骤502、504和506确定或
设置参数。初始参数(a)的计算参数(a)是基线的高度;它的值对于所有初始参数集来说是相同的。在一个方面 中,在步骤504中,参数(a)被赋予数据集中的第三个最低y轴值、例如荧光值。这提供稳 健的计算。当然,在其它方面中,参数(a)可被随意地赋予任何其它荧光值、例如最低y轴 值、第二最低值等等。初始参数(b)的计算参数(b)是基线和曲线的平稳段的斜率。它的值对于所有初始参数集来说是相同 的。在一个方面中,在步骤502中,将0. 01的静态值赋予(b),因为理想地不应存在任何斜 率。在其它方面中,参数(b)可被赋予不同值,例如范围从0至大约0.5的值。初始参数(C)的计算参数(c)表示曲线的平稳段的高度减去基线的高度,这被表示为绝对荧光增加或 AFI。在一个方面中,对于第一个参数集来说,c = AFI+2,而对于最后两个参数来说,c = AFL·这在图6中被示出,其中对于最后两个参数集来说,c = AFI。对于第一个参数集来 说,c = AFI+2。该改变是由于通过第一个参数集所建模的曲线的形状,该形状不具有曲线 的平稳段。参数(d)和(f)的计算参数(d)和(f)限定两个S形的锐度。因为不存在针对这些参数基于曲线来给出 近似的方法,所以在一个方面中在步骤502中使用三个静态代表值。应理解的是,其它静态 或非静态值可被用于参数(d)和/或(f)。这些对对所遇到的PCR曲线的最普遍的形状建 模。在下面,表2示出针对如图6中所示的不同参数集的(d)和(f)的值。表2:参数d和f的值 参数(e)和(g)的计算在步骤506中,确定参数(e)和(g)。参数(e)和(g)限定两个S形的拐点。在一 个方面中,它们在所有初始参数集中都采用相同的值。参数(e)和(g)可以具有相同或不 同的值。为了找到近似,在一个方面中,使用超过强度、例如荧光的平均值的第一点(其不是峰值)的χ值。根据该方面的用于确定(e)和(g)的值的方法在图7中被示出并在下面 进行论述。参照图7,最初,确定曲线(例如荧光强度)的平均值。接着确定超过平均值的第 一数据点。然后确定是否a.该点不位于曲线的起点附近、例如在最初的5个周期内;b.该点不位于曲线的终点附近、例如在最后的5个周期内;以及c.该点周围的导数(例如在它周围的2个点的半径中)没有显示出符号的任何改 变。如果它们显示出符号的任何改变,则该点可能是峰值并且因此应被丢弃。在下面,表3示出根据一个方面的如图6中所使用的初始参数值的例子。表3 初始参数值 返回图3,一旦在步骤510中设置了所有参数,就利用输入数据集、函数和参数执 行LM方法520。传统上,Levenberg-Marquardt方法被用于解决非线性最小平方问题。传 统的LM方法计算被定义为曲线近似和数据集之间的误差的平方和的距离量度。然而,当 最小化该平方和时,它给予异常数据一个重要的权重,因为它们的距离大于非峰值数据点 的距离,这常常导致不合宜的曲线或不太理想的曲线。因此,根据本发明的一个方面,通过 最小化绝对误差的和来计算近似和数据集之间的距离,因为这不给予异常数据同样大的权 重。在该方面中,通过下式来给出近似和数据之间的距离距离=Σ Iy数据_y近似I。⑶如上所述,在一个方面中,如在步骤522和524中所示,输入并处理多个(例如3个)初始参数集中的每一个并保存最佳结果,其中最佳参数是在方程(3)中提供最小或最 小化距离的参数集。在一个方面中,大部分参数在多个参数集中被保持恒定 ’仅仅c、d和f 可以对于每一个参数集来说是不同的。应理解的是,可以使用任何数量的初始参数集。图8示出根据本发明的用于参数集的LM方法520的方法流程。如上面所解释的, Levenberg-Marquardt方法的作用可以就像最陡下降方法或像Gauss-Newton方法一样。它 的作用取决于衰减因数λ。λ越大,Levenberg-Marquardt算法的作用就将越像最陡下降 方法一样。另一方面,λ越小,Levenberg-Marquardt算法的作用就将越像Gauss-Newton 方法一样。在一个方面中,λ以0.001开始。应理解的是,λ可以以任何其它值开始,例如 从大约0. 000001至大约1. 0。如前所述,Levenberg-Marquardt方法是迭代技术。根据一个方面,如图8中所示, 在每一次迭代过程中执行下面的操作1.计算在先的近似的Hessian矩阵(H)。2.计算在先的近似的转置Jacobian矩阵(Jt)。3.计算在先的近似的距离向量(d)。4.使Hessian矩阵对角线增大当前衰减因数λ Haug = H λ(4)5.求解增大的方程HaugX = JTd(5)6.将增大的方程的解χ添加到函数的参数中。7.计算新的近似和曲线之间的距离。8.如果具有新的参数集的距离小于具有先前的参数集的距离·认为该迭代是成功的。·保存或存储该新的参数集。·将衰减因数λ例如减小因数10。如果具有新的参数集的距离大于具有先前的参数集的距离·认为该迭代是不成功的。 丢弃该新的参数集。·将衰减因数λ例如增大因数10。在一个方面中,图8的LM方法迭代,直至达到了下列标准之一1.已经运行了规定次数的(N次)迭代。该第一标准防止算法无限地迭代下去。 例如,在如图10中所示的一个方面中,缺省迭代值N是100。如果算法能够收敛,则100次 迭代应足以使算法收敛。一般地,N的范围可以从小于10至100或更大。2.两次成功迭代之间的距离的差值小于阈值、例如0. 0001。当该差值变得非常小 时,已经达到所期望的精度并且继续迭代是无意义的,因为解不会变得显著更好。3.衰减因数λ超过规定值,例如大于102°。当λ变得非常大时,该算法不会比当 前解更好地收敛,因此继续迭代是无意义的。一般地,该规定值可以大大小于或大于102°。标准化在已经确定参数之后,在一个实施例中,利用一个或者多个所确定的参数使曲线 标准化(步骤130)。例如,在一个方面中,曲线可以通过减去曲线的线性生长部分而被标准化或被调节成具有零基线斜率。在数学上,这被表示为dataNew(BLS) = data-(a+bx)(6)其中CktaNew(BLS)是在基线减去之后的标准化信号,例如被减去或被去除线性 生长或基线斜率的数据集(数据)。参数a和b的值是通过利用用于使曲线回归的LM方程 所确定的那些值,并且χ是周期数。因此,对于沿着Χ轴的每一个数据值来说,从数据中减 去常数a和斜率b乘以χ值,以生成具有零基线斜率的数据曲线。在某些方面中,在对数据 集应用LM回归方法以确定标准化参数之前从数据集中去除峰值点。在另一方面中,可以根据下面的方程将曲线标准化或调节成具有零斜率dataNew (BLSD) = (data-(a+bx))/a,(7a)其中CktaNew(BLSD)是在基线减去和除法之后的标准化信号,例如被减去或被去 除线性生长或基线斜率并且结果被a除的数据集(数据)。参数a和b的值是通过利用用 于使曲线回归的LM方程所确定的那些值,并且χ是周期数。因此,对于沿着χ轴的每一个 数据值,从数据中减去常数a和斜率b乘以χ值并且用参数a的值来除该结果,以生成具有 零基线斜率的数据曲线。在一个方面中,方程(7a)对于参数“a” > 1来说是有效的;在参 数“a” < 1的情况下,则使用下面的方程dataNew(BLSD) = data-(a+bx)ο(7b)在某些方面中,在将LM回归方法应用于数据集以确定标准化参数之前从数据集 中去除峰值点。在又一方面中,可以根据下面的方程来标准化或调节曲线dataNew(BLD) = data/a,(8a)其中CktaNew(BLD)是在基线除法之后的标准化信号,例如被参数a除的数据集 (数据)。参数a和b的值是通过利用用于使曲线回归的LM方程所确定的那些值,并且χ 是周期数。在一个方面中,方程(8a)对于参数“a”彡1来说是有效的;在参数“a” < 1的 情况下,则使用下面的方程dataNew(BLD) = data+(1-a)ο(8b)在某些方面中,在将LM回归方法应用于数据集以确定标准化参数之前从数据集 中去除峰值点。在又一方面中,可以根据下面的方程来标准化或调节曲线dataNew(PGT) = (data—(a+bx))/c,(9a)其中CktaNew(PGT)是在基线减去和除法之后的标准化信号,例如被减去或被去 除线性生长或基线斜率并且结果被c除的数据集(数据)。参数a、b和c的值是通过利用 用于使曲线回归的LM方程所确定的那些值,并且χ是周期数。因此,对于沿着χ轴的每一 个数据值,从数据中减去常数a和斜率b乘以χ值并且用参数c的值来除该结果,以生成具 有零基线斜率的数据曲线。在一个方面中,方程(9a)对于参数“C” > 1来说是有效的;在 参数“c”< 1并且“C”彡0的情况下,则使用下面的方程dataNew(PGT) = data-(a+bx)。(9b)在某些方面中,在将LM回归方法应用于数据集以确定标准化参数之前从数据集 中去除峰值点。本领域技术人员应理解的是,利用如通过Levenberg-Marquardt或其它回归方法所确定的参数,其它标准化方程可以被用于标准化和/或修改基线。曲率确定在已经利用方程(6)、(7)、⑶或(9)或其它标准化方程之一使曲线标准化之后, 可以确定Ct值。在一个实施例中,如参照图9所述的,将曲率确定过程或方法应用于标准 化曲线,其中图9示出用于确定动态PCR曲线中的肘值或Ct值的方法流程。在步骤910中, 获取数据集。在确定方法在驻留于例如温度循环器的PCR数据获取装置中的智能模块(例 如执行指令的处理器)中实施的情况下,在数据正被收集时数据集可以被实时地提供给智 能模块,或者数据集可以被存储于存储单元或缓冲器中,并在已经完成实验之后被提供给 智能模块。类似地,数据集可以经由通向获取装置的网络连接(例如LAN、VPN、内部网、因 特网等)或直接连接(例如USB或其他直接有线或无线连接)被提供给单独的系统、例如 桌上计算机系统,或在例如CD、DVD、软盘等的便携式介质上被提供。在已经接收或获取数据集之后,在步骤920中,确定曲线的近似。在该步骤的过程 中,在一个实施例中,具有通过Levenberg-Marquardt回归方法所确定的参数的双S形函数 被用于找到表示数据集的曲线的近似。此外,在如参照图3所述的步骤920之前,可以从数 据集中去除峰值点。例如,在步骤910中所获取的数据集可以是已经去除峰值的数据集。在 步骤930中,使曲线标准化。在某些方面中,利用上述方程(6)、(7)、(8)或(9)之一使曲线 标准化。例如,可以利用如在步骤920中所确定的双S形方程的参数将基线设置为零斜率, 以便如经由上面的方程(6)那样减去基线斜率。在步骤940中,为了确定沿着标准化曲线 的点处的曲率,将方法应用于标准化曲线。可以返回和/或显示曲率对周期数的图。具有 最大曲率的点对应于肘或Ct值。在步骤950中,将结果例如返回至执行分析的系统或请求 分析的单独的系统。在步骤960中,显示Ct值。也可以显示例如整个数据集或曲线近似的 附加数据。可以利用与执行图9的分析的系统相耦合的显示装置、例如监控器屏幕或打印 机来再现图形显示,或者可将数据提供给单独的系统以便在显示装置上再现。根据一个实施例,为了获得该曲线的Ct值,确定最大曲率。在一个方面中,针对标 准化曲线上的一些或所有点确定曲率。可以显示曲率对周期数的图。通过下面的方程来给 出曲线的曲率 考虑通过下面的方程所给出的半径为a的圆 方程(11)的曲率是kappa(X) = _(l/a)。因此,曲率的半径等于曲率的负倒数。 由于圆的半径是恒定的,所以通过-(1/a)来给出它的曲率。现在考虑图10b,图IOb是图 IOa的PCR数据集的拟合的曲率图。可以认为在具有最大曲率的位置处出现Ct值,该Ct值 在周期数Ct = 21. 84处出现。该Ct值有利地与图IOa中示出的PCR生长曲线相比较。最大曲率处的曲率半径(对应于21. 84的Ct值)是半径=1/0. 2818 = 3. 55周期。在图11中示出了叠加于图IOa中的PCR生长曲线中的具有该半径的圆。如图11所示, 具有对应于最大曲率的半径的圆表示可在PCR曲线的生长区域的起始处被叠加、同时保持 与曲线相切的最大圆。具有小(最大)曲率半径的曲线将具有陡的生长曲线,而具有大(最 大)曲率半径的曲线将具有浅的生长曲线。如果曲率半径极其大,这表示不具有明显信号 的曲线。下面示出在计算曲率时所需的方程(1)的双S形的一阶和二阶导数。一阶导数 方程(13) 二阶导数 例子图12a示出生长曲线的原始数据的例子。将双S形/LM方法应用于图12b中所示 的原始数据图产生如下面的表4中所示的、方程(1)中的七个参数的值表4 在图13中示出了图12中所示的数据的双S形拟合,该双S形拟合表示数据点的 非常精确的估计。这些数据然后根据方程(6)(基线减去)被标准化,以获得图14中所示 出的图。图14中示出的实线是方程(1)对已经根据方程(6)被标准化的数据集的双SB/ LM应用。图15示出图14的标准化曲线的曲率对周期数的图。在周期数34. 42处以0. 1378 的曲率出现曲率的最大值。因此基于最大曲率处的周期数,Ct = 34. 42,并且曲率半径= 1/0. 1378 = 7. 25。在图16中示出了具有该曲率半径的圆与标准化数据集的叠加。在图17中示出了 “缓慢生长器(slow-grower) ”数据集的例子。该数据集的双S 形拟合和利用基线减去、即方程(6)的标准化产生图18中示出的拟合结果。在图19中示 出了相应的曲率图。在周期数25. 90处出现最大曲率,其中曲率=0. 00109274,对应于曲率 半径=915。该大的曲率半径表明这是缓慢生长器数据集。作为另一例子,考虑图20中所示出的成组的PCR生长曲线。下面在表15中示出 了利用现有方法(“阈值”)与利用在(BLSD-方程(7))基线减去和除法之后的曲率方法所 获得的Ct值的比较。
表5表明,计算Ct值的曲率方法(在这种情况下在利用BLSD标准化之后)给出 比现有阈值方法更小的Cv (变化系数)。此外,利用曲率方法所计算的曲率半径(ROC)提供 一种区分线性曲线和实际生长曲线的简单方法。结论根据本发明的一个方面,提供一种计算机实现的、确定生长曲线的基线区域的末 端处的点的方法。该方法典型地包括以下步骤接收表示生长曲线的数据集,该数据集包括 多个数据点,每一个数据点都具有一对坐标值;并且通过将Levenberg-Marquardt (LM)回 归方法应用于双S形函数以确定该函数的参数来计算拟合数据集的曲线的近似。该方法进 一步典型地包括利用所确定的参数使曲线标准化,以产生标准化曲线,并且处理该标准化 曲线,以确定具有最大曲率的点的坐标值,其中该点表示生长曲线的基线区域的终点。在一 个方面中,处理该标准化曲线,以确定沿着曲线的一些或所有点处的曲率。在具体实施例 中,该方法进一步包括显示标准化曲线的曲率图。在一个方面中,数据集表示动态聚合酶链反应(PCR)方法、细菌法、酶法或结合法 的生长曲线。在某一实施例中,通过荧光强度值、发光强度值、化学发光强度值、磷光强度 值、电荷转移值、生物发光强度值或吸收率值之一来表示扩增多核苷酸的累积。在另一实施例中,曲线是动态聚合酶链反应(PCR)方法的扩增曲线,并且基线区 域的末端处的点表示动态PCR曲线的肘值或周期阈值(Ct),其中具有最大曲率的点表示Ct值。在某些方面中,该对坐标值表示扩增多核苷酸的累积和周期数。在另一方面中,该方法 进一步包括返回Ct值。在又一方面中,该方法进一步包括显示Ct值。
在某些方面中,标准化包括减去曲线的线性生长部分。在某些方面中,所接收的数 据集包括已被处理以去除一个或多个异常数据或峰值点的数据集。在某些方面中,双S形函数具有下面的形式a + bx+ (“—如));+ — 胸)’并且计算包括迭代地确定该函数的参数a、
b、c、d、e、f和g中的一个或多个。在具体实施例中,至少确定参数数a和b,并且标准化包 括从曲线中减去线性生长部分a+bx。在另一具体实施例中,至少确定参数a,并且标准化包 括用参数a来除曲线。在又一具体实施例中,至少确定参数a和b,并且标准化包括从曲线 中减去线性生长部分a+bx,并用参数a来除该结果。在另一实施例中,至少确定参数a、b和C,并且标准化包括从曲线中减去线性生长 部分a+bx,并用参数c来除该结果。根据本发明的另一方面,提供一种计算机可读介质,该计算机可读介质包括用于 控制处理器以确定生长曲线的基线区域的末端处的点的代码。该代码典型地包括指令,该 指令用于接收表示生长曲线的数据集并且通过将Levenberg-Marquardt (LM)回归方法应 用于双S形函数以确定该函数的参数来计算拟合数据集的曲线的近似,其中该数据集包括 多个数据点,每一个数据点都具有一对坐标值。该代码也典型地包括用于利用所确定的参 数来使曲线标准化以产生标准化曲线并且处理该标准化曲线以确定具有最大曲率的点的 坐标值的指令,其中该点表示生长曲线的基线区域的终点。在具体实施例中,该计算机可读介质进一步包括用于显示标准化曲线的曲率图 的指令。在某一方面中,该代码进一步包括用于返回或显示基线区域的末端处的点的坐标 值的指令。在某一方面中,数据集表示动态聚合酶链反应(PCR)方法、细菌法、酶法和结合法 的生长曲线。在另一方面中,该计算机可读介质进一步包括用于显示Ct值的指令。在又一 实施例中,该计算机可读介质进一步包括用于返回Ct值的指令。在某些实施例中,数据集表示动态聚合酶链反应(PCR)方法的生长曲线,并且基 线区域的末端处的点表示生长曲线的肘或周期阈值(Ct)。在另一实施例中,该对坐标值表 示扩增多核苷酸的累积和周期数。在又一实施例中,通过荧光强度值、发光强度值、化学发 光强度值、磷光强度值、电荷转移值、生物发光强度值或吸收率值之一来表示扩增多核苷酸 的累积。在一个方面中,用于处理的指令包括用于确定沿着标准化曲线的一些或所有点处 的曲率的指令。在某些方面中,用于标准化的指令包括用于从数据集中减去线性生长部分 的指令。在另一方面中,曲线是动态聚合酶链反应(PCR)方法的扩增曲线。并且基线区域 的末端处的点表示动态PCR曲线的肘或周期阈值(Ct),其中具有最大曲率的点表示Ct值。在某些实施例中,双S形函数具有下面的形式a + bx+^ ++ 6χρ’并且用于计算的指令包括用于迭代地确定 该函数的参数a、b、c、d、e、f和g中的一个或多个的指令。
在某一方面中,至少确定参数数a和b,并且用于标准化的指令包括用于从曲线中 减去线性生长部分a+bx的指令。在另一方面中,至少确定参数a、b和c,并且用于标准化 的指令包括用于从曲线中减去线性生长部分a+bx并用参数c来除该结果的指令。在又一 方面中,至少确定参数a,并且用于标准化的指令包括用于用参数a来除曲线的指令。在又 一方面中,至少确定参数a和b,并且用于标准化的指令包括用于从曲线中减去线性生长部 分a+bx并用参数a来除该结果的指令。根据本发明的又一方面,提供一种动态聚合酶链反应(PCR)系统。该系统典型地 包括动态聚合酶链反应分析模块,该动态聚合酶链反应分析模块产生表示动态PCR扩增曲 线的PCR数据集,该数据集包括多个数据点,每一个数据点都具有一对坐标值,其中该数 据集包括感兴趣区域中的数据点,该感兴趣区域包括周期阈值(Ct),并且该系统典型地包 括智能模块,该智能模块适于处理PCR数据集以确定Ct值。该智能模块典型地通过以下方 式来处理PCR数据集,即通过将Levenberg-Marquardt (LM)回归方法应用于双S形函数以 确定该函数的参数来计算拟合数据集的曲线的近似,利用所确定的参数来使曲线标准化以 便产生标准化曲线,以及处理该标准化曲线以确定具有最大曲率的点的坐标值,其中该点 表示生长曲线的周期阈值(Ct)。在某些方面中,双S形函数具有下面的形式α + Ζ>Χ+(1 + 6χρ-‘^1 + 6χρ-/(Μ)’其中计算包括迭代地确定该函数的参数^
b、c、d、e、f和g中的一个或多个。在具体实施例中,至少确定参数数a和b,并且标准化包 括从曲线中减去线性生长部分a+bx。在另一具体实施例中,至少确定参数a和b,并且标准 化包括从曲线中减去线性生长部分a+bx,并用参数a来除该结果。在又一具体实施例中,至 少确定参数a,并且标准化包括用参数a来除曲线。在另一具体方面中,至少确定参数a、b和C,并且标准化包括从曲线中减去线性生 长部分a+bx,并用参数c来除该结果。在一个方面中,处理标准化曲线,以确定沿着该曲线的一些或所有点处的曲率,其 中具有最大曲率的点表示Ct值。在某一实施例中,智能模块进一步适于再现标准化曲线的 曲率图的显示。在某些方面中,标准化包括从数据集中减去线性生长部分。在具体实施例中,通过 从曲线中减去线性生长部分a+bx来使曲线拟合标准化。在某一实施例中,智能模块进一步适于返回Ct值。在另一实施例中,智能模块进 一步适于显示Ct值。在另一方面中,该对坐标值表示扩增多核苷酸的累积和周期数。在具体实施例中, 通过荧光强度值、发光强度值、化学发光强度值、磷光强度值、电荷转移值、生物发光强度值 或吸收率值之一来表示扩增多核苷酸的累积。在某一实施例中,动态PCR分析模块驻留于动态温度循环器装置中,并且智能模 块包括可通信耦合至分析模块的处理器。在另一确定实施例中,智能模块包括驻留于通过 网络连接或直接连接之一耦合至分析模块的计算机系统中的处理器。应理解的是,包括曲线拟合和曲率确定方法的Ct确定方法可以以在计算机的处 理器上运行的计算机代码来实施。该代码包括用于控制处理器以实施Ct确定方法的各个方面和步骤的指令。该代码典型地被存储于硬盘、RAM或例如CD、DVD等的便携式介质上。 类似地,可以在例如温度循环器的PCR装置中实施处理器,该温度循环器包括执行存储于 耦合至处理器的存储单元中的指令的处理器。可以通过通向代码源的网络连接或直接连接 或利用众所周知的便携式介质将包括这种指令的代码下载至PCR装置存储单元。本领域技术人员应理解的是,可以利用例如C、C++、C#、Fortran、VisualBasic 等的多种编程语言以及例如Mathematica的、提供有助于数据可视化和分析的预先打包 的例行程序、函数和程序的应用来对本发明的肘确定方法进行编码。应用的另一例子是 MATLAB 。虽然已经通过例子并根据具体实施例描述了本发明,但应理解的是本发明并不局 限于所公开的实施例。相反,旨在覆盖对本领域技术人员来说将是显而易见的各种修改和 相似配置。因此,所附的权利要求的范围应符合最宽泛的解释,以便包括所有这种修改和相 似配置。
权利要求
一种用于测量聚合酶链反应(PCR)扩增的效率的方法,该方法包括以下步骤 在扩展反应过程中测量荧光信号的荧光强度值,其中这些荧光信号被用于检测扩增; 针对要被分析的所有反应以及参考核酸确定所规定的荧光信号阈值以及达到该阈值所需要的周期(Ct)数,其中生长曲线的周期(Ct)阈值这样来确定 接收表示生长曲线的数据集,所述数据集包括多个数据点,每一个数据点都具有一对坐标值; 通过将Levenberg Marquardt(LM)回归方法应用于双S形函数以确定该函数的参数来计算拟合所述数据集的曲线的近似; 利用所确定的参数使所述曲线标准化,以生成标准化曲线;以及 处理所述标准化曲线,以确定具有最大曲率的点,其中所述具有最大曲率的点表示生长曲线的基线区域的终点, 通过将针对要被分析的每个反应的周期阈值(Ct)与所述参考核酸的周期阈值(Ct)相比较来确定该聚合酶链反应(PCR)扩增的效率。
2. 一种用于确定聚合酶链反应(PCR)扩增中的目标分子的绝对或相对拷贝数的方法, 该方法包括以下步骤-在扩展反应过程中测量荧光信号的荧光强度值,其中这些荧光信号被用于检测扩增;-这样来确定生长曲线的周期阈值(Ct)-接收表示生长曲线的数据集,所述数据集包括多个数据点,每一个数据点都具有一对 坐标值;-通过将Levenberg-Marquardt (LM)回归方法应用于双S形函数以确定该函数的参数 来计算拟合所述数据集的曲线的近似;-利用所确定的参数使所述曲线标准化,以生成标准化曲线;以及 -处理所述标准化曲线,以确定具有最大曲率的点,其中所述具有最大曲率的点表示生 长曲线的基线区域的终点,-通过将所确定的周期阈值(Ct)与标准曲线、参考核酸的周期阈值(Ct)或与绝对数量 表示的标准核酸相比较来确定该聚合酶链反应(PCR)扩增中目标分子的绝对或相对拷贝 数。
3.权利要求1或2的方法,其中标准化包括从所述数据集中减去线性生长部分。
4.权利要求1或2的方法,其中处理包括确定沿着所述标准化曲线的一些或所有点处 的曲率。
5.权利要求4的方法,进一步包括显示所述标准化曲线的曲率图。
6.权利要求1或2的方法,其中所述双S形函数具有下面的形式a + fa+(1 + 6χρ-^-)χ + exp-/^-^)) ’并且其中计算包括迭代地确定该函数的参数a、b、c、d、e、f和g中的一个或多个。
7.权利要求6的方法,其中至少确定参数a和b,并且其中标准化包括从所述曲线中减 去线性生长部分a+bx。
8.权利要求6的方法,其中至少确定参数a,并且其中标准化包括用参数a来除所述曲线。
9.权利要求6的方法,其中至少确定参数a和b,并且其中标准化包括从所述曲线中减 去线性生长部分a+bx,并用参数a来除该结果。
10.权利要求6的方法,其中至少确定参数a、b和c,并且其中标准化包括从所述曲线 中减去线性生长部分a+bx,并用参数c来除该结果。
11.权利要求1的方法,进一步包括返回Ct值。
12.权利要求1的方法,进一步包括显示Ct值。
13.一种用于测量聚合酶链反应(PCR)扩增的装置,包括-用于在扩展反应过程中测量荧光信号的荧光强度值的装置,其中这些荧光信号被用 于检测扩增;-动态聚合酶链反应分析模块,该动态聚合酶链反应分析模块产生表示动态聚合酶 链反应扩增曲线的聚合酶链反应数据集,所述数据集包括多个数据点,每一个数据点都具 有一对坐标值,其中所述数据集包括感兴趣区域中的数据点,该感兴趣区域包括周期阈值 (Ct);以及_智能模块,该智能模块适于通过以下方式来处理聚合酶链反应数据集以确定周期阈 值(Ct)-通过将Levenberg-Marquardt (LM)回归方法应用于双S形函数以确定该函数的参数 来计算拟合所述数据集的曲线的近似;-利用所确定的参数使所述曲线标准化,以生成标准化曲线;以及 -处理所述标准化曲线,以确定具有最大曲率的点,其中所述具有最大曲率的点表示生 长曲线的周期阈值(Ct)。
14.权利要求13的装置,其中所述双S形函数具有下面的形式“ + ~+(l + eXp-^w^l + expj"))’并且其中计算包括迭代地确定该函数的参数&、b、c、d、e、f和g中的一个或多个。
15.权利要求13的装置,其中处理包括确定沿着所述标准化曲线的一些或所有点处的曲率。
16.权利要求15的装置,其中所述智能模块进一步适于再现所述标准化曲线的曲率图 的显示。
17.权利要求13的装置,其中所述动态聚合酶链反应分析模块驻留于动态温度循环器 装置中,并且其中所述智能模块包括能够通信耦合至所述分析模块的处理器。
18.权利要求13的装置,其中所述智能模块包括驻留于通过网络连接或直接连接之一 耦合至所述分析模块的计算机系统中的处理器。
19.权利要求13的装置,其中所述智能模块还包括用于通过将针对要被分析的每个反 应的周期阈值(Ct)与参考核酸的周期阈值(Ct)相比较来确定该聚合酶链反应(PCR)扩增 的效率的装置。
20.权利要求13的装置,其中所述智能模块还包括用于通过将所确定的周期阈值(Ct) 与标准曲线、参考核酸的周期阈值(Ct)或与绝对数量表示的标准核酸相比较来确定该聚 合酶链反应(PCR)扩增中目标分子的绝对或相对拷贝数的装置。
全文摘要
本发明提供用于确定S形或生长型曲线中的例如肘值的特征过渡值、例如PCR扩增曲线中的周期阈值(Ct)的系统和方法。具有通过Levenberg-Marquardt(LM)回归方法所确定的参数的双S形函数被用于找到拟合PCR数据集的曲线的近似。一旦已经确定参数,就可以利用一个或多个所确定的参数来使曲线标准化。在标准化之后,处理标准化曲线以确定曲线在沿着该曲线的一些或所有点处的曲率,例如以产生表示曲率对周期数的数据集或图。出现最大曲率的周期数对应于Ct值。该Ct值然后被返回并且可以被显示或另外被用于进一步的处理。
文档编号G06K9/00GK101908037SQ20101024164
公开日2010年12月8日 申请日期2006年12月19日 优先权日2005年12月20日
发明者J·王, R·T·库尔尼克 申请人:霍夫曼-拉罗奇有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1