通过利用可变聚类端点的聚类分析的ct确定的制作方法

文档序号:430874阅读:180来源:国知局
专利名称:通过利用可变聚类端点的聚类分析的ct确定的制作方法
技术领域
本发明广泛地涉及用于处理表示S形曲线或生长曲线的数据的系统和方法,并且更具体地涉及用于确定实时PCR扩增曲线中的特征周期阈值(Ct)或肘值(elbow value)的系统和方法。
背景技术
聚合酶链反应(PCR)是一种用于酶合成或扩增限定的核酸序列的离体方法。该反应典型地利用两种寡核苷酸引物,这两种寡核苷酸引物杂交成相对股并且位于模板或要被扩增的目标DNA序列的侧面。通过热稳定DNA聚合酶来催化这些引物的延伸。包括由聚合酶引起的模板变性、引物退火和退火引物的延伸的一系列重复周期导致特定DNA片断的指数累积。荧光探针或标记典型地被用于实时PCR或动态PCR,以便促进扩增方法的检测和量化。
在图1中示出了典型的动态PCR曲线,其中针对典型的PCR方法画出了荧光强度值对周期数。在这种情况下,在PCR方法的每一周期中监控PCR产物的形成。通常在温度循环器中测量扩增,该温度循环器包括用于在扩增反应方法中测量荧光信号的部件和装置。这种温度循环器的例子是Roche Diagnostics LightCycler(Cat.No.20110468)。借助淬火的荧光标记的杂交探针来例如检测扩增产物,该淬火的荧光标记的杂交探针仅仅在它们被结合到目标核酸序列上并且随后由于DNA聚合酶的5′至3′核酸酶活性而退化之后才发射荧光信号。其他例子包括在核酸扩增方法中所产生的荧光信号,其中荧光染料结合到双股DNA上并且经历它们的荧光量子产额的增加。
对于标识通常被称为肘值或周期阈值(Ct)的过渡点的典型动态PCR生长曲线来说,极其有助于理解PCR扩增方法的特征。该Ct值可被用作PCR方法的效率的量度。例如,针对要被分析的所有反应确定所规定的信号阈值。然后针对目标核酸以及针对例如标准或看家(housekeeping)基因的参考核酸确定用于达到该信号阈值所需的周期数(Ct)。基于针对目标核酸和参考核酸所获得的Ct值,可以确定目标分子的绝对或相对拷贝数(Gibson等人的Genome Research6995-1001;Bieche等人的Cancer Research 592759-2765,1999年WO97/46707;WO97/46712;WO97/46714)。在图1中通过标记20粗略示出肘值35。
可以利用几种现有方法来确定动态PCR曲线中的更精确的肘值。例如,各种方法将肘的实际值(Ct)确定为这样的值,在该值情况下荧光达到被称为AFL(任意荧光值)的预定信号电平。其他方法利用周期数,其中荧光对周期数的二阶导数达到最大值。所有这些方法都具有缺点。例如,求导方法对异常(有噪声的)数据敏感,并且AFL方法对肘前PCR周期中的平均基线荧光水平的变化敏感。数据的标准化也可能提供附加问题。此外,这些算法典型地具有许多常常难以优化的参数。这导致灵敏度和假阳性之间的折衷,该折衷降低这些算法方法的效用。
因此,期望提供用于确定曲线、例如S形曲线以及尤其是动态PCR曲线中的肘值的新的系统和方法,该系统和方法克服这些缺点和其他缺点。

发明内容
本发明提供用于确定S形或生长型曲线上的例如肘值的特征过渡值的新颖的、有效的方法。在一个实施方案中,本发明的方法尤其有助于确定动态PCR扩增曲线中的周期阈值(Ct)。
根据本发明的一个方面,提供一种计算机实现的用于确定曲线区域中感兴趣的特定点的方法,该方法包括-接收表示曲线的数据集,该数据集包括多个第一数据点,每一个第一数据点都具有一对坐标值(x,y),其中如果在二维坐标系中观察,该数据集包括感兴趣区域;-将变换应用于包括感兴趣区域的数据集的至少一部分,以产生变换后的数据集,其中该变换后的数据集包括多个第二数据点,每一个第二数据点都具有一对坐标值(y′,y*),其中第二数据点的y′坐标值是相应的第一数据点的y坐标值,并且该第二数据点的y*坐标值是随后的第一数据点的y坐标值;-确定该变换后的数据集中的第二数据点的多个聚类;-确定所述聚类中的每一聚类的线性斜率;-针对每一聚类确定该聚类的斜率与邻近聚类的斜率的比率;以及
-比较比率;其中具有最大或最小比率的聚类的端点表示数据曲线中感兴趣的特定点。
根据本发明的另一方面,提供一种计算机可读介质,该计算机可读介质包括用于控制处理器以确定动态PCR扩增曲线中的周期阈值(Ct)的代码,该代码包括指令,该指令用于-接收表示数据曲线的数据集,该数据集包括多个第一数据点,每一个第一数据点都具有一对坐标值(x,y),其中如果在二维坐标系中观察,该数据集具有感兴趣区域;-将变换应用于包括感兴趣区域的数据集的至少一部分,以产生变换后的数据集,其中该变换后的数据集包括多个第二数据点,每一个第二数据点都具有一对坐标值(y′,y*),其中第二数据点的y′坐标值是相应的第一数据点的y坐标值,并且该第二数据点的y*坐标值是随后的第一数据点的y坐标值;-确定该变换后的数据集中的第二数据点的多个聚类;-确定所述聚类中的每一聚类的线性斜率;-针对每一聚类确定该聚类的斜率与邻近聚类的斜率的比率;以及-比较比率;其中具有最大或最小比率的聚类的端点表示数据曲线中感兴趣的特定点。
根据本发明的又一方面,提供一种动态PCR系统,该动态PCR系统包括-PCR分析模块,该PCR分析模块产生表示动态PCR扩增曲线的PCR数据集,该数据集包括多个第一数据点,每一个第一数据点都具有一对坐标值(x,y),其中所述数据集包括感兴趣区域中的数据点,该感兴趣区域包括周期阈值(Ct);以及-智能模块,该智能模块适于通过以下方式来处理PCR数据以确定Ct值-将变换应用于包括感兴趣区域的PCR数据集的至少一部分,以产生变换后的数据集,其中该变换后的数据集包括多个第二数据点,每一个第二数据点都具有一对坐标值(y′,y*),其中第二数据点的y′坐标值是相应的第一数据点的y坐标值,并且该第二数据点的y*坐标值是随后的第一数据点的y坐标值;以及-确定该变换后的数据集中的第二数据点的多个聚类;-确定所述聚类中的每一聚类的线性斜率;-针对每一聚类确定该聚类的斜率与邻近聚类的斜率的比率;以及-比较比率;其中具有最大或最小比率的聚类的端点表示PCR扩增曲线中的Ct值。
参照说明书的包括附图和权利要求的剩余部分,将认识到本发明的其他特征和优点。本发明的进一步的特征和优点以及本发明的各个实施例的结构和操作将参照附图在下面详细描述。在附图中,相似的参考数字表示相同或功能上相似的元件。


图1示出被绘制为荧光强度对周期数的典型PCR生长曲线的例子;图2示出被绘制为在周期(n+1)时的荧光强度对在周期(n)时的荧光强度的、图1的典型PCR生长曲线的例子;图3示出根据一个实施例的用于确定PCR方法的肘值的方法;图4a示出扩增曲线的数据集的表示,并且图4b示出根据本发明的聚类分析方法的相应分区表数据的表示;图5a示出具有内插的数据点的、图4a的数据集的表示,并且图5b示出根据本发明的聚类分析方法的相应分区表数据的表示;图6示出以0.1增量进行线性内插的图1的数据,因此周期数乘以10;图7示出所绘制的图6的内插数据的荧光值,其中x值表示在周期(n)时的荧光,并且y值表示在周期(n+1)时的荧光,通过不同的着色的框来表示五个聚类;图8示出根据本发明分析的所绘制的数据集的例子;图9示出根据本发明分析的所绘制的数据集的另一例子;图10示出由通过温度循环器处理的并根据本发明分析的10个相同采样得到的荧光信号的曲线图的例子;图11示出具有高基线斜率的PCR数据曲线;图12示出在通过基线减法校正之后图11的曲线;
图12a示出用于说明基线斜率对Ct确定的影响的多个曲线;图12b针对图12a的曲线示出Ct对基线斜率的曲线;图13示出数据曲线;图14示出具有在周期20处的峰值的图13的数据曲线;图15示出具有在周期25处的峰值的图13的数据曲线;图16示出线性内插的数据集;图17示出可被分类为表示“缓慢生长物”的数据集;图18示出根据本发明的示范性系统,该系统包括温度循环器装置和计算机系统,该计算机系统包括智能模块。
具体实施例方式
本发明提供用于确定S形或生长曲线、例如基线区域的端部中的过渡值或动态PCR扩增曲线的肘值或Ct值的系统和方法。本发明的系统和方法也提供关于数据信号是否是噪声信号的指示。在某些方面中,聚类分析算法被应用于数据信号以确定信号中的多个数据聚类。一个聚类的端点表示Ct值;该系统和方法提供用于确定端点表示Ct值的特定聚类的稳健技术。该Ct值然后被返回并可被显示或被用于进一步的处理。在某些方面中,具有通过Levenberg-Marquardt(LM)回归方法确定的参数的双S形函数被用于找到曲线的近似。在某些方面中,利用曲线近似和参数来对数据信号进行预处理、例如使数据信号标准化和/或去除可能存在于数据信号中的峰值或异常数据点。
在根据本发明的用于确定动态PCR扩增曲线数据集中的肘或Ct值的具体方法中,可以在荧光强度(y轴)对周期数(x轴)的二维图中使PCR数据集可视化。对该数据集进行变换以产生数据点的分区表,该分区表具有包括在周期n时的荧光y(n)的一列以及包括在周期(n+i)时的荧光y(n+i)的第二列,其中i典型地为1或更大。将聚类分析方法应用于分区表数据集,以确定分区表数据集中的多个聚类。聚类分析是一种具有以下目标的分析工具,即将例如数据点或矢量的不同对象分成组,以便如果属于相同的组,则任何两个对象之间的相关程度最大,否则最小。在一个方面中,所使用的聚类方法包括k平均值聚类算法,其中所确定的聚类的数目k是大于或等于3的整数值。在另一方面中,围绕中心点的划分(Partitioning Around Medoids,PAM)算法被用于确定3个或更多聚类。利用所确定的聚类,确定每一聚类的线性斜率。例如,基于聚类中的点的y(n+1)对n来确定聚类的斜率。针对每一聚类,确定该聚类的斜率与邻近聚类的斜率的比率。然后比较该比率。具有最大或最小比率的聚类的端点表示数据曲线中感兴趣的特定点。表示PCR曲线的肘值或Ct值的数据点被确定为所确定的聚类之一的端点,并返回或显示对应于该数据点的周期数。
在图1中示出了在动态PCR方法的上下文中的扩增曲线10的一个例子。如所示的那样,曲线10包括停滞期区域15和指数生长期区域25。这种曲线包括连接停滞期和指数生长期的感兴趣的过渡区域20。区域20一般被称作肘或肘区域。肘区域20典型地限定基本方法的生长或扩增率的过渡,并且确定区域20中的特定过渡点可以有助于分析基本方法的特性。在典型的PCR曲线中,确定被称为肘值或周期阈值(Ct)的过渡点极其有助于理解PCR方法的效率特性。可以提供类似的S形曲线或生长曲线的其他方法包括细菌法、酶法和结合法。在细菌生长曲线中,例如,感兴趣的过渡点已被称作停滞期中的时间入。因此,尽管本文的剩余部分将在本发明对PCR曲线的适用性方面来讨论本发明,但应理解的是,本发明可以被应用于涉及其他方法的数据曲线。
产生可根据本发明被分析的数据曲线的其他特定方法包括链置换扩增(SDA)方法、基于核酸序列的扩增(NASBA)方法和转录介导的扩增(TMA)方法。可以分别在Wang,Sha-Sha等人的“HomogeneousReal-Time Detection of Single-Nucleotide Polymorphisms byStrand Displacement Amplification on the BD ProbeTec ETSystem”(Clin Chem 2003 49(10)1599)和Weusten,Jos J.A.M.等人的“Principles of Quantitation of Viral Loads Using NucleicAcid Sequence-Based Amplification in Combination WithHomogeneous Detection Using Molecular Beacons”(Nucleic AcidsResearch,2002 30(6)26)中找到SDA和NASBA方法和数据曲线的例子。
如图1中所示,例如可在二维坐标系统中表示典型的PCR生长曲线数据,其中PCR周期数定义x轴并且累积的多核苷酸生长的指示器定义y轴。典型地,如图1中所示,累积生长的指示器是荧光强度值,因为荧光标记的使用可能是最广泛使用的标记方案。然而,应理解的是,可以根据所使用的具体标记和/或检测方案使用其他指示器。累积信号生长的其他有用的指示器的例子包括发光强度、化学发光强度、生物发光强度、磷光强度、电荷转移、电压、电流、功率、能量、温度、粘性、光散射、放射性强度、反射率、透射率和吸收率。周期的定义也可以包括时间、方法周期、单元操作周期和再生周期。
聚类分析方法和变型根据本发明,可以如下简要地描述用于确定S形曲线中的过渡值、例如动态PCR扩增曲线的肘值或Ct值的方法的一个实施例。典型地,如图1中所示的那样绘制PCR数据,其中针对周期数绘出荧光。尽管该显示给出重要信息,但它不给出关于连续点如何彼此接近的信息。如果替代地针对在周期(n)时的荧光绘出在周期(n+1)时的荧光,则获得图2中所示的曲线图。当以这种方式绘制数据时,存在数据的聚类是明显的。通过不同标记区域来表示3个聚类在低荧光值处的区域35表示基线区域;在高荧光值处的区域45表示平坦区域;以及区域40表示指数区域。如将是显而易见的那样,也可以通过附加的聚类来表示数据,以给出数据所表示的不同区域的更精确的截止。这些聚类可以有利地被用于确定PCR扩增曲线的Ct值。在某些方面中,确定5个聚类。
在图3中示出了用于利用聚类分析来确定动态PCR曲线中的肘值的方法100的一个实施例。在步骤110中,获取数据集。在本发明的示范性实施例中,可以通过利用传统的个人计算机系统来实施该方法,该个人计算机系统包括、但不限于用于输入数据集的例如键盘、鼠标等的输入装置;用于表示曲线区域中的感兴趣的特定点的显示装置、例如监控器;对于执行该方法中的每一步骤来说必要的处理装置、例如CPU;例如调制解调器的网络接口;用于存储数据集、在处理器等上运行的计算机代码的数据存储装置。此外,也可以在PCR装置中实施该方法。在方法100在驻留于例如温度循环器的PCR数据获取装置中的智能模块(例如执行指令的处理器)中实施的情况下,在数据正被收集时数据集可以被实时地提供给智能模块,或者数据集可以被存储于存储单元或缓冲器中,并在已经完成试验之后被提供给智能模块。类似地,数据集可以经由通向获取装置的网络连接(例如LAN、VPN、内部网、因特网等)或直接连接(例如USB或其他直接有线或无线连接)被提供给单独的系统、例如桌上计算机系统,或在例如CD、DVD、软盘等的便携式介质上被提供。智能模块可以包括连接至动态PCR分析模块或与动态PCR分析模块分离的计算机系统中的处理器,或者它可以包括直接耦合至动态PCR分析模块的处理器,例如两个部件都可以包括动态PCR温度循环器。在某些方面中,数据集包括具有表示周期数和荧光强度值的一对坐标值(或二维矢量)的数据点。
在已经在步骤110中接收或获取数据集之后,可以利用聚类分析来分析数据集。根据在数据集中所获取的数据点的数量,可能期望增加数据点的数量以提高通过方法100确定的Ct值的分辨率。因此,在一个实施例中,在步骤120中通过在现有数据点之间进行内插来确定附加的数据点。在步骤120中,使例如线性内插函数、三次样条函数或最小平方拟合函数的函数拟合数据点。这可以利用软件应用Mathematica或者其他应用来完成。例如,在一个方面中,以1.0或更小、例如0.05或0.01的周期数间隔例如利用线性内插函数或利用三次样条函数或最小平方拟合函数在现有数据点之间内插数据点。在一个方面中,Levenberg-Marquardt回归方法被用于内插数据值。更具体地,拟合函数、例如具有通过Levenberg-Marquardt回归方法确定的参数的双S形函数被用于找到数据曲线的近似。一旦已经确定曲线近似,就可以以所期望的内插尺度内插数据值。用于利用Levenberg-Marquardt回归方法来确定曲线近似和拟合参数的有用系统和方法在本领域中是已知的。
在步骤120中,内插的数据点也与实际的数据点一起被存储以形成表示周期数和荧光强度的数据点(x,y)的较大的表或矩阵。图4示出扩增曲线的数据集的例子,并且图5示出具有以0.1增量内插的数据的图4的数据集的例子。然后在步骤130中处理该数据集(或最初获取的没有执行内插的数据集)或其一部分,以产生一组具有坐标(y′,y*)的数据点,其中y′坐标值是表中的相应数据点的y坐标值,并且其中y*坐标值是表中的随后的数据点的y坐标值。在Mathematica中,例如,这可以利用分区函数来执行以产生分区表。在一个方面中,随后的点是该系列连续数据点中直接随后的数据点,以便产生具有表示在周期(n+1)时的荧光和在周期(n)时的荧光的矢量值的分区表。图4和5分别示出未被内插的数据集和内插后的数据集的例子和以这种方式变换以便每一矢量表示[y(n),y(n+1)]的这些数据集的相应分区表,其中y是周期数。在另一方面中,随后的数据点包括不是直接在相应数据点之后的数据点,以便产生具有矢量值[y(n),y(n+i)]的分区表,其中i≥2。通常,在步骤130中产生具有矢量值[y(n),y(n+i)]的分区表,其中i≥1。
返回图3,在步骤140中,将聚类分析算法应用于分区表以确定分区表数据集中的多个聚类。在某些方面中,将聚类算法应用于分区表以确定3个或更多数据聚类。例如,在一个方面中,将k平均值聚类算法应用于分区表,其中k大于或等于3。在另一方面中,将围绕中心点的划分(PAM)算法应用于分区表以确定3个或更多聚类。在步骤150中,确定扩增曲线的Ct值。在一个方面中,Ct值被确定为步骤140中所确定的聚类的起点或端点。对于PCR扩增数据来说,在一个方面中,有利的是确定分区表数据集中的5个数据聚类(例如k=5)。在这种情况下,通过第一聚类(例如具有最小荧光值的聚类)中的最后的数据点来确定Ct值。在一个方面中,如果从步骤120开始使用内插数据,则通过第一聚类中的最后的数据点除以(1/增量值)+0.9来确定Ct值。例如,如果第一聚类的最后的值的索引等于352,其中使用0.1周期的内插增量,则Ct值将被计算为(352/(1/0.1))+0.9=352/10+0.9=35.2+0.9=36.1。应理解的是,可以这样改变该计算,以致加上(或减去)不同于0.9的数。在步骤160中,该Ct值例如在监控器或打印输出、LCD屏幕等上被显示,或者另外被提供给系统的操作者。应理解的是,可以通过利用聚类中的不同于端点的点来获得Ct值,例如可以使用紧邻端点的点(例如端点-1)、远离端点的两个点(例如端点-2)等。当内插(步骤120)被用于提供附加的数据点时,假如内插增量是充分小的,则可以利用端点-1,-2等等,并获得“充分精确的”Ct值。例如,如果以0.01增量内插并使用端点-1,则Ct值将“偏离”0.01,这是十分无关紧要的。
图6和7示出应用于图1的数据集的方法100的例子。图6示出以0.1增量进行线性内插的图1的数据,因此周期数乘以10。图7示出所绘制的图6的内插数据的荧光值,其中x值表示在周期(n)时的荧光,而y值表示在周期(n+1)时的荧光。通过不同的颜色来表示五个聚类。利用方法100,该数据的Ct值被确定为Ct=35.9。
应理解的是,可以以在计算机系统的处理器上运行的计算机代码来实施Ct确定方法100或其一部分。该代码包括用于控制处理器以执行确定方法100的各个方面和步骤的指令。该代码典型地被存储于硬盘、RAM或例如CD、DVD等的便携式介质中。类似地,可以在PCR装置、例如包括执行存储于耦合至处理器的存储单元中的指令的处理器的温度循环器中实施方法100或其一部分。可以通过通向代码源的网络连接或直接连接或利用众所周知的便携式介质将包括这种指令的代码下载到PCR装置存储单元上。
下面示出被配置用于对荧光值的矢量yd执行方法100的操作的Mathematica的例子ClustMod[yd_]:=Module[{},IntF=Interpolation[yd,InterpolationOrder→1];
IntTable=Table[IntF[x],{x,1,Length[yd],0.1}];
ParYd=Partition[IntTable,2,1];
fc=FindClusters[ParYd->Range[Length[ParYd]],5];
N[Last[fc[[1]]]/10]+0.9]除了k平均值聚类算法之外,本领域的技术人员将理解可以使用其他聚类算法。通常,聚类分析包括多种算法类型,每种算法类型都具有以下目标将例如数据点或矢量的不同对象分成组,以便如果属于相同组,则任何两个对象之间的相关程度最大,否则最小。根据所规定的相似性规则、例如距离量度(例如Euclidian距离),聚类算法将对象放入聚类中。但是,推理地(a-priori)判定所获得的聚类组的数量的k平均值聚类是多种已知聚类算法之一。另一种类型的被称为围绕中心点的划分(PAM)的聚类算法找到数据点(中心点),围绕该数据点使剩余数据聚类;用户可以指定聚类的数量或允许算法确定存在多少个聚类。另一种类型的聚类算法、即合并分级聚类(AgglomerativeHierarchical Clustering,AHC)利用合并分级方法,该方法以其自身的聚类中的组的每一元素开始并合并最近的聚类,直至剩余k个。其他类型的聚类算法包括接合或树聚类算法以及期望最大化聚类算法。可以在Brain S.Everitt、Sabine Landau和Morven Leese的“ClusterAnalysis,4th Edition”(Arnold publishers,London,2001年)中找到关于本领域中的技术人员将了解的这些或其他聚类算法的附加信息。
于此公开的聚类分析方法特别有助于分析PCR生长曲线,其中试样在基线的荧光信号的范围内产生荧光信号的显著增加。尽管这是一般的情况,但可以存在这样的情况,在这些情况中信号增加最小,例如在这些情况中试样是缓慢的生长物;强度信号在基线值范围内基本上不增加。在这种情况中,可以期望在不同于第一聚类的端部的周期数处具有所确定的Ct值。根据一个实施例,计算所确定的聚类中每一个聚类、例如在确定了5个聚类的情况下聚类1-5中的数据点的线性斜率。例如针对聚类中的点基于y(n+1)对n来确定聚类的斜率。其后,计算邻近斜率的比率、例如斜率2/斜率1、斜率3/斜率2、斜率4/斜率3、和斜率5/斜率4。紧接着比较这些比率,并且无论哪个比率最大,确定使用哪一个聚类端点。例如,如果斜率2/斜率1是最大的,则使用聚类1的端点,而如果斜率3/斜率2是最大的,则使用聚类2的端点等等。替代地,可以如下确定比率斜率1/斜率2,斜率2/斜率3,斜率3/斜率4,斜率4/斜率5。在这种情况下,无论哪个比率最小,确定使用哪一个聚类端点。例如,如果斜率1/斜率2是最小的,则使用聚类1的端点,而如果斜率2/斜率3是最小的,则使用聚类2的端点,等等。
此外,有利的是通过使用利用本发明的聚类分析技术所确定的信息来计算两个诊断值。这些值是相对荧光增加(RFI)和绝对荧光增加(AFI)。根据一个实施例,通过计算第一和最后聚类、例如在确定了5个聚类的情况下聚类1和聚类5中的数据的平均荧光值来确定RFI和AFI值。然后通过下式来计算RFI和AFIRFI=(平均荧光聚类5)/(平均荧光聚类1)AFI=(平均荧光聚类5)-(平均荧光聚类1)试样研制者典型地利用RFI和AFI的某些最小截止值,以接受或拒绝数据集。
根据一个实施例,提供用于确定在步骤110中所获取的数据集(例如PCR数据集)是否有噪声或显示出趋势的方法。最初,在步骤1中,将原始数据集(例如不具有内插值)分成分区表,该分区表具有包括在周期(n)时的荧光的第一列以及包括在周期(n+1)时的荧光的第二列,类似于图3的步骤130。接着,在步骤2中,利用聚类分析算法、例如k平均值群计算法,针对该被分区的数据集确定3个或更多聚类。该分析的结果是原始数据的索引。其后,在步骤3中,按照递增的索引的顺序对所确定的聚类结果进行排序,并确定步骤2和步骤3的结果是否相同。如果相同,则这表明在数据中存在确定的趋势;如果结果不同,则数据基本上是纯噪声,并作为Ct值返回例如“-1”的值,以指示数据基本上是噪声数据。如果该数据显示出趋势,则如上所述继续数据的分析以确定Ct值。否则停止分析,并给出为“-1”的Ct。
以下面的Mathematica代码示出用于确定趋势数据对噪声数据的代码的例子ClustModSM[yd_]:=Module[{},ParYd=Partition[yd,2,1];
fc=FindClusters[ParYd->Range[Length[ParYd]],3];
Last[fo[[1]]]]ClustModT[yd_]:=Module[{},ClustModSM[yd];
fcSM=Flatten[fc];
fcSMSort=Sort[foSM];
If[fcsM=fcSMSort,ClustMod [yd],-1]]在某些方面中,期望确定数据集是否基本上是噪声而不是有效信号。根据一个实施例,几个检查可以被用于确定噪声的存在。
根据一个方面,一种被用于确定噪声的存在的检查包括在不在周期数之间内插荧光信号的情况下确定3个(或更多)聚类。然后对这些聚类中的每一个聚类执行线性回归,并且针对每一情况计算荧光信号对周期数的相关系数(R2)。如果每一R2的相关系数小于0.1,则产生错误消息。
根据另一噪声确定方法,确定对应于每一聚类的最后的端点的周期数。然后进行检查,以测试是否pt1<pt2<pt3<pt4<pt5(其中pt1是第一聚类的端点,pt2是第二聚类的端点等等)。如果情况不是如此,则产生错误消息。
根据另一测试,进行检查,以确定荧光信号对周期数的所有数据点是否是线性的。因此,根据一个方面,利用所有数据点来计算相关系数(R2)。如果R2的值>0.99,则确定数据是线性的,并且产生合适的错误消息。
已经对种类广泛的数据集、即正常数据和“问题”数据测试了本发明的聚类分析方法,并且本发明的聚类分析方法被发现是非常稳健的。此外,容易确定缓慢的生长物。总之,本发明的聚类分析的优点包括(1)不需要用于该方法的参数,该方法正好起作用。
(2)对数据集中的漂移不敏感。倾斜基线不具有影响。
(3)噪声、基线倾斜和峰值将不影响结果。
(4)该系统能够容易地确定缓慢生长物对有噪声的数据。
(5)高基线对结果不具有影响。
(6)不需要数据的标准化。
本发明有利地消除对求导的需要。这是优点,因为通常被用于确定肘值的一阶以及特别是二阶导数对有噪声的数据极其敏感。
因此,本发明有利地消除在先前的算法中发现的问题,例如(1)有噪声的、峰值数据,(2)可变基线,(3)高基线,(4)求导方法的灵敏度,以及(5)对大量参数的需要。
下面示出实现本发明的方面(例如聚类确定、斜率确定、RFI和AFI确定等等)的Mathematica计算机程序的例子的清单。
<pre listing-type="program-listing">ClustMod2[yd_]:=Module[{}, res=0; ParYd=Partition[yd,2,1]; fc=FindClusters[ParYd->Range[Length[ParYd]],3]; If[Length[fc[[1]]]>2, {regress1=Regress[yd[[fc[[1]]]],{1,x},x];Rsq1=RSquared/.regress1;}, res=-3]; If[Length[fc[[2]]]>2, {regress2=Regress[yd[[fc[[2]]]],{1,x},x];Rsq2=RSquared/.regress2;}, res=-3]; If[Length[fc[[3]]]>2, [regress3=Regress[yd[[fc[[3]]]],{1,x},x];Rsq3=RSquared/.regxess3;}, res=-3]; If[Rsp1<0.1 &amp;amp;&amp;amp; Rsq2<0.1 &amp;amp;&amp;amp; Rsq3<0.1,Noise=1,Noise=0]; If[Noise=1,res=-3]; data=Table[{i,yd[[i]]},(i,6,Length{yd]}]; regress=Regress[data,{1,x},x]; Rsq=RSquared/.regress; If[Rsq≥0.99,res="L"]; IntF=Interpolation[yd,InterpolationOrder→1]; IntTable=Table[IntF[x],{x,1,Length[yd],0.1}]; ParYd=Partition[IntTable,2,1]; fc=FindClusters[ParYd->Range[Length[ParYd]],5]; pt1=N[Last[fc[[1]]]/10]; pt2=N[Last[fc[[2]]]/10]; pt3=N[Last[fc[[3]]]/10]; pt4=N[Last[fc[[4]]]/10]; pt5=N[Last[fc[[5]]]/10]; If[pt5>pt4>pt3>pt2>pt1,pt1=pt1*1,res=-3]; data1=IntTable[[fc[[1]]]]; data2=IntTable[[fc[[2]]]]; data3=IntTable[[fd[3]]]]; data4=IntTable[[fc[[4]]]]; data5=IntTable[[fc[[5]]]]; regdata1=Regress[data1,{1,x},x]; regdata2=Regress[data2,{1,x},x]; regdata3=Rsgress[data3,{1,x},x]; regdata4=Regress[data4,{1,x},x]; regdata5=Regress[data5,{1,x},x]; slope1=(ParameterTable/.regdata1)[[1,2]][[1]]; sIope2=(ParameterTable/.regdata2)[[1,2]][[1]]; slope3=(ParameterTable/.regdata3)[[1,2]][[1]]; slope4=(ParmeterTable/.regdata4)[[1,2]][[1]]; slope5=(ParameterTable/.regdata5)[[1,2]][[1]]; slopeRatio={slope2/slope1,slope3/slope2,slope4/slope3,slope5/slope4}; MaxRatio=Max[slopeRatio]; EndPoint=Flatten[Poeition[slopeRatio,MaxRatio]][[1]]; RFI=Mean[IntTable[[fc[[5]]]]]/Mean[IntTable[[fc[[1]]]]]; AFI=Mean[IntTable[[fc[[5]]]]]-Mean[IntTable[[fc[[1]]]]]; If[(yd[[Length[yd]]]>yd[[1]])&amp;amp;&amp;amp; res≠-3 &amp;amp;&amp;amp; res]="L", {If[EndPoint=1,res=pt1+0.9];If[EndPoint=2,res=pt2+0.9];If[Endpoint=3,res=pt3+0.9];If[EndPoint=4,res=pt4+0.9];} ];</pre>
根据一个实施例,在对数据集应用聚类分析方法之前对数据集进行预处理。预处理可以包括使数据曲线标准化、去除峰值点等等。根据一个实施例,例如,可以执行利用随后的基线减法的双S形Levenberg-Marquardt(DSLM)曲线拟合。在PCR曲线具有显著的基线斜率的情况下,这种标准化可以是有利的。在利用基线减法的DSLM之后然后将利用聚类分析方法。
根据另一实施例,在利用DSLM或聚类分析方法之前去除异常值(峰值)。尽管DSLM和聚类分析方法对异常值有点不敏感,但可以通过预先执行这些方法来增加Ct确定的精确度。
总之,根据本发明的一个方面,提供用于确定曲线区域中的感兴趣的特定点的计算机实现的方法。该方法典型地包括接收表示曲线的数据集,该数据集包括多个第一数据点,每个第一数据点都具有一对坐标值(x,y),其中如果在二维坐标系中观察,则该数据集包括感兴趣的区域。该方法也典型地包括将变换应用于包括感兴趣的区域的数据集的至少一部分以产生变换后的数据集,其中变换后的数据集包括多个第二数据点,每个第二数据点都具有一对坐标值(y′,y*),其中第二数据点的y′坐标值是相应的第一数据点的y坐标值,并且第二数据点的y*坐标值是随后的第一数据点的y坐标值。该方法进一步典型地包括确定变换后的数据集中的第二数据点的多个聚类、确定每一聚类的线性斜率、并针对每一聚类确定该聚类的斜率与邻近聚类的斜率的比率、并且比较这些比率。具有最大或最小比率的聚类的端点表示数据曲线中的感兴趣的特定点。在一个方面中,邻近聚类是随后的聚类,并且具有最小比率的聚类的端点表示感兴趣的特定点。在另一方面中,邻近聚类是在前的聚类,并且具有最大比率的聚类的端点表示感兴趣的特定点。在一个方面中,曲线是动态聚合酶链反应(PCR)方法的扩增曲线,并且感兴趣的特定点表示该动态PCR曲线的肘值或周期阈值(Ct)。可以返回或显示所确定的数据点的坐标。在一个方面中,确定多个聚类包括将聚类算法、例如k平均值聚类算法(其中k≥3)应用于变换后的数据集。在另一方面中,围绕中心点的划分(PAM)算法被用于确定3个或更多聚类。在另一实施例中,该方法进一步包括确定数据集的线性生长部分并通过从数据集中减去该线性生长部分来使数据集标准化。
在另一实施例中,第一对坐标值表示周期数和扩增的多核苷酸的累积。可以通过荧光强度值、发光强度值、化学发光强度值、磷光强度值、电荷转移值、生物发光强度值或吸收率值中的一个来表示扩增的多核苷酸的累积。在这里,多个聚类可以包括3个或更多聚类。在一个方面中,确定多个聚类包括将聚类算法、例如k平均值聚类算法(其中k≥3)应用于变换后的数据集。
在某些实施例中,该方法可进一步包括在应用变换之前利用感兴趣区域中的至少第一数据点来内插附加的第一数据点。可以利用线性内插方法、三次样条方法、Levenberg-Marquardt回归方法或最小平方拟合方法之一来执行内插,并且内插可被执行用于沿着所述坐标之一以每一坐标间隔大约1.0或更小增量尺度产生第一数据点。在具体实施例中,增量尺度是大约0.1。在另一实施例中,内插包括通过将Levenberg-Marquardt(LM)回归方法应用于双S形函数以确定该函数的参数来计算拟合数据集的曲线的近似。在具体实施例中,双S形函数具有以下的形式a+bx+c(1+exp-d(x-e))(1+exp-f(x-g))]]>并且计算包括迭代地确定函数的参数a、b、c、d、e、f和g中的一个或多个。
在另一实施例中,该方法进一步包括确定数据集是否显示出趋势或基本上表示噪声数据。在具体实施例中,确定数据集是否显示出趋势或基本上表示噪声数据包括针对每一聚类计算相关系数,其中如果对每一聚类来说相关系数小于大约0.1,则数据基本上是噪声。在另一具体实施例中,确定数据集是否显示出趋势或基本上表示噪声数据包括计算每一聚类的端点值并确定每一端点是否小于或大于下一个端点值。在又一个具体实施例中,确定数据集是否显示出趋势或基本上表示噪声数据包括针对数据集计算相关系数,其中如果相关系数大于大约0.99,则数据基本上是线性的。
在另一实施例中,该方法进一步包括通过以下步骤来计算数据曲线的相对荧光增加(RFI)值-计算最后的聚类的平均值;-计算第一聚类的平均值;以及
-用第一聚类的平均值来除最后的聚类的平均值。
在另一实施例中,该方法进一步包括通过以下步骤来计算数据曲线的绝对荧光增加(AFI)值-计算最后的聚类的平均值;-计算第一聚类的平均值;以及-从最后的聚类的平均值中减去第一聚类的平均值。
该方法可进一步包括在显示装置上在二维坐标系中显示所述数据集和所述变换后的数据集中的一个或两个。在某一实施例中,该方法进一步包括在显示装置上显示感兴趣的特定点的y′坐标值。该方法的数据曲线可以表示动态聚合酶链反应(PCR)方法、细菌法、酶法或结合法之一的曲线,并且可以是S形曲线或生长曲线之一。
在该方法的某些实施例中,端点是聚类的最后的点。在具体实施例中,随后的第一数据点是一系列连续的数据点中的下一数据点。在又一具体实施例中,随后的第一数据点不是一系列连续的数据点中的下一数据点。
根据本发明的另一方面,提供包括用于控制处理器以确定动态PCR扩增曲线中的周期阈值(Ct)的代码的计算机可读介质。该代码典型地包括用于接收表示动态PCR扩增曲线的数据集的指令,该数据集包括多个第一数据点,每一个第一数据点都具有一对坐标值(x,y),其中该数据集包括感兴趣区域中的数据点,该感兴趣区域包括Ct值。该代码也典型地包括用于将变换应用于包括感兴趣区域的数据集的至少一部分以产生变换后的数据集的指令,其中变换后的数据集包括多个第二数据点,每一个第二数据点都具有一对坐标值(y′,y*),其中第二数据点的y′坐标值是相应的第一数据点的y坐标值,并且第二数据点的y*坐标值是随后的第一数据点的y坐标值。该代码也典型地包括用于确定变换后的数据集中的第二数据点的多个聚类、用于确定所述聚类中的每一聚类的线性斜率、用于针对每一聚类确定该聚类的斜率与邻近聚类的斜率的比率、和用于比较这些比率的指令。具有最大或最小比率的聚类的端点表示PCR扩增曲线中的Ct值。在一个方面中,邻近聚类是随后的聚类,并且具有最小比率的聚类的端点表示感兴趣的特定点。在另一方面中,邻近聚类是在前的聚类,并且具有最大比率的聚类的端点表示感兴趣的特定点。在一个方面中,用于确定多个聚类的指令包括用于将聚类算法、例如k平均值聚类算法(其中k≥3)应用于变换后的数据集的指令。在这里,多个聚类可以包括3个或更多聚类。在另一方面中,用于确定聚类的代码包括用于将围绕中心点的划分(PAM)算法应用于变换后的数据集以确定3个或更多聚类的指令。在另一方面中,端点是聚类的最后的点。在具体实施例中,随后的第一数据点是一系列连续的数据点中的下一数据点。在另一具体实施例中,随后的第一数据点不是一系列连续的数据点中的下一数据点。在另一实施例中,代码进一步包括用于确定数据集的线性生长部分并通过从数据集中减去该线性生长部分来使数据集标准化的指令。
在某些实施例中,第一对坐标值表示周期数和扩增的多核苷酸的累积。因此可以通过荧光强度值、发光强度值、化学发光强度值、生物发光强度值、磷光强度值,电荷转移值、或吸收率值之一来表示扩增的多核苷酸的累积。
在另一实施例中,该代码进一步包括用于利用感兴趣区域中的至少第一数据点来内插附加的第一数据点的指令。可以利用线性内插方法、三次样条方法、Levenberg-Marquardt回归方法或最小平方拟合方法之一来执行内插。在某些实施例中,执行内插,以沿着所述坐标之一以每一坐标间隔大约1.0或更小的增量尺度产生第一数据点。在一个具体实施例中,增量尺度是大约0.1。
在计算机可读介质的另一实施例中,用于内插的指令包括用于通过将Levenberg-Marquardt(LM)回归方法应用于双S形函数以确定函数的参数来计算拟合数据集的曲线的近似的指令。在某些实施例中,双S形函数具有以下形式a+bx+c(1+exp-d(x-e))(1+exp-f(x-g))]]>并且计算包括迭代地确定函数的参数a、b、c、d、e、f和g中的一个或多个。
在另一实施例中,代码进一步包括用于确定数据集是否显示出趋势或基本上表示噪声数据的指令。在一个方面中,用于确定数据集是否显示出趋势或基本上表示噪声数据的指令包括用于针对每一聚类计算相关系数的指令,其中如果对于每一聚类来说相关系数小于大约0.1,则数据基本上是噪声。在另一方面中,用于确定数据集是否显示出趋势或基本上表示噪声数据的指令包括用于计算每一聚类的端点值并确定每一端点是否小于或大于下一个端点值的指令。在另一方面中,用于确定数据集是否显示出趋势或基本上表示噪声数据的指令包括用于针对数据集计算相关系数的指令,其中如果相关系数大于大约0.99,则数据基本上是线性的。
在另一实施例中,该代码进一步包括用于通过以下步骤来计算数据曲线的相对荧光增加(RFI)值的指令-计算最后的聚类的平均值;-计算第一聚类的平均值;以及-用第一聚类的平均值来除最后的聚类的平均值。
在另一实施例中,该代码进一步包括用于通过以下步骤来计算数据曲线的绝对荧光增加(AFI)值的指令-计算最后的聚类的平均值;-计算第一聚类的平均值;以及-从最后的聚类的平均值中减去第一聚类的平均值。
在又一实施例中,该代码进一步包括用于在显示装置上在二维坐标系中显示所述数据集和所述变换后的数据集中的一个或两个的指令。在另一方面中,该代码进一步包括用于在显示装置上显示感兴趣的特定点的y′坐标值的指令。
根据本发明的的又一方面,提供动态PCR系统。该系统典型地包括PCR分析模块,该PCR分析模块产生表示动态PCR扩增曲线的PCR数据集,该数据集包括多个第一数据点,每一个第一数据点都具有一对坐标值(x,y),其中数据集包括感兴趣区域中的数据点,该感兴趣区域包括周期阈值(Ct)。该系统也典型地包括适于处理PCR数据集以通过将变换应用于包括感兴趣区域的PCR数据集的至少一部分来确定Ct值从而产生变换后的数据集的智能模块,其中变换后的数据集包括多个第二数据点,每一个第二数据点都具有一对坐标值(y′,y*),其中第二数据点的y′坐标值是相应的第一数据点的y坐标值,并且第二数据点的y*坐标值是随后的第一数据点的y坐标值。
该智能模块也典型地适用于确定变换后的数据集中的第二数据点的多个聚类、确定所述聚类中的每一聚类的线性斜率、并针对每一聚类确定该聚类的斜率与邻近聚类的斜率的比率、并比较这些比率。具有最大或最小比率的聚类的端点表示PCR扩增曲线中的Ct值。智能模块可以包括连接至动态PCR分析模块或与动态PCR分析模块分离的计算机系统中的处理器,或者它可以包括直接耦合至动态PCR分析模块的处理器,例如两个部件都可以包括动态PCR温度循环器。在后一实施例中,动态PCR分析模块驻留于动态温度循环器装置中,并且智能模块包括可通信耦合至分析模块的处理器。在另一方面中,智能模块包括驻留于通过网络连接或直接连接之一耦合至分析模块的计算机系统中的处理器。在又一方面中,智能模块进一步适于利用感兴趣区域中的至少第一数据点来内插附加的第一数据点。在具体实施例中,该智能模块进一步适于在显示装置上在二维坐标系中显示所述数据集和所述变换后的数据集中的一个或两个。在另一实施例中,智能模块进一步适于在显示装置上显示感兴趣的特定点的y′坐标值。在另一方面中,智能模块进一步适于确定数据集的线性生长部分并通过从数据集中减去线性生长部分来使数据集标准化。
在图18中例示了这种系统。该图示出说明软件和硬件资源之间的关系的一般框图。该系统包括可以位于温度循环器装置中的动态PCR分析模块和是计算机系统的一部分的智能模块。经由网络连接或直接连接将数据集(PCR数据集)从分析模块传输至智能模块,或反之亦然。在某些实施例中,由在处理器上运行的并存储于智能模块的存储装置上的计算机代码根据如图3中显示的方法来处理数据集,并在处理之后,将数据集传输回分析模块的存储装置,其中可以在显示装置上显示所修改的数据。在另一实施例中,计算机系统也可以在温度循环器装置上实现并且被集成到该温度循环器装置中。
在一个方面中,邻近聚类是随后的聚类,并且具有最小比率的聚类的端点表示感兴趣的特定点。在另一方面中,邻近聚类是在前的聚类,并且具有最大比率的聚类的端点表示感兴趣的特定点。在一个方面中,确定多个聚类包括将聚类算法、例如k平均值聚类算法(其中k≥3)应用于变换后的数据集。在另一方面中,围绕中心点的划分(PAM)算法被用于确定3个或更多聚类。
在该系统的某些实施例中,执行内插,以沿着所述坐标之一以每一坐标间隔大约1.0或更小的增量尺度产生数据点。在另一实施例中,增量尺度是大约0.1。在另一方面中,利用线性内插方法、三次样条方法、Levenberg-Marquardt回归方法或最小平方拟合方法之一来执行内插。
在该系统的另一实施例中,坐标值(x,y)表示周期数和扩增的多核苷酸的累积。在某些方面中,通过荧光强度值、发光强度值、化学发光强度值、磷光强度值、电荷转移值、生物发光强度值或吸收率值之一来表示扩增的多核苷酸的累积。
在该系统的另一实施例中,智能模块进一步适于处理PCR数据集以确定数据集是否显示出趋势或基本上表示噪声数据。在某些实施例中,确定数据集是否显示出趋势或基本上表示噪声数据包括针对每一聚类计算相关系数,其中如果对于每一聚类来说相关系数小于大约0.1,则数据基本上是噪声。在另一实施例中,确定数据集是否显示出趋势或基本上表示噪声数据包括计算每一聚类的端点值并确定每一端点是否小于或大于下一端点值。在又一实施例中,确定数据集是否显示出趋势或基本上表示噪声数据包括针对数据集计算相关系数,其中如果相关系数大于大约0.99,则数据基本上是线性的。
在系统的另一实施例中,智能模块进一步适于通过以下步骤来计算数据曲线的相对荧光增加(RFI)值-计算最后的聚类的平均值;-计算第一聚类的平均值;以及-用第一聚类的平均值来除最后的聚类的平均值。
在系统的又一实施例中,智能模块进一步适于通过以下步骤来计算数据曲线的绝对荧光增加(AFI)值-计算最后的聚类的平均值;-计算第一聚类的平均值;以及-从最后的聚类的平均值中减去第一聚类的平均值。
在系统的另一方面中,端点是聚类的最后的点。在具体实施例中,随后的第一数据点是一系列连续的数据点中的下一数据点。在另一具体实施例中,随后的第一数据点不是一系列连续的数据点中的下一数据点。
例子本发明的方法在PCR系统、例如温度循环器中特别有助于显著提高PCR结果数据的质量。下面讨论根据本发明处理的数据的例子。
图8示出根据本发明分析的所绘制的数据集的例子。利用现有的算法难以分析该特定数据集。当通过本发明的聚类Ct分析方法来处理时,Ct值被确定为13.1。
图9示出根据本发明分析的所绘制的数据集的另一例子。当利用本发明的聚类Ct分析方法来处理时,得出Ct值是35.9。包括标准化的传统方法处理该数据集有困难。
图10示出由通过温度循环器处理的并根据本发明分析的10个相同采样得到的荧光信号的曲线图的例子。在图10中示出了该数据集的重叠曲线。当利用聚类方法来处理该数据时,获得下面的统计数字标准偏差=0.356平均值=35.87变化的系数(Cv)=0.99%该低的Cv值是极好的。
考虑具有如图11中所示的极高的基线斜率的数据集。在将聚类分析方法应用于该数据集时,返回的Ct值是Ct=16.5。然而,由于该曲线的不寻常的形状,该值不是正确的。如果替代地,通过基线减法(例如利用双S形Levenberg-Marquardt方法)来校正该曲线,在图12中示出所得到的曲线。该曲线的通过聚类分析方法所获得的Ct值现在是Ct=24.6,该Ct值更加代表该基线标准化的数据集。在图12a中示出了高基线斜率影响通过聚类分析所确定的Ct值的原因。该曲线代表理论上确定的S形函数,其中唯一的变化是基线斜率的值,从初始值0变为0.4。如图12b中所示,这些曲线的Ct值从25.1变化为19.7。
将聚类分析方法应用于图13中示出的数据集产生Ct=25.1的Ct值,该Ct值是正确的。如果在周期数20处设置峰值,在图14中示出所得到的数据集。即使在存在该峰值时,通过聚类分析方法所计算的Ct值仍然是Ct=25.1。这表明聚类分析的稳健性。然而,如果在Ct值处出现峰值(在周期25处插入峰值),在图15中示出所得到的曲线图。在这种情况下,不正确地计算了该Ct,因为Ct=23.4。因此高度期望在应用聚类分析之前去除这种峰值。如果图15中示出的数据集通过levenberg-Marquardt异常值(outlier)方法(LMOM),则去除该峰值,并且所得到的数据集与图13中示出的相同,并且Ct被适当地计算为Ct=25.1。
利用在数据点之间以0.1增量进行的线性内插为该数据集(图16)所计算的Ct值得出为Ct=25.1。如果替代地以0.1增量利用双S形Levenberg-Marquardt(DSLM)的函数形式,则所计算的Ct是Ct=25.0。尽管在这种情况下Ct值的差异是较小的,但将存在这样的情况,在这些情况下数据点的曲率是这样的,使得DSLM方法明显好于线性内插。
图17中示出的数据集被分类为“缓慢的生长物”,因为荧光信号在基线值范围内的增加是小的,并且数据不具有传统的S形形状。利用聚类分析,Ct被计算为Ct=22.9,该Ct看来是不正确的。如果替代地利用可变聚类端点方法,则Ct被计算为Ct=37.3,该Ct是正确的。这种情况的斜率比率是{2.05,3.065,0.895,1.28},因此Ct对应于聚类2的端点。利用上面概括的步骤计算的RFI和AFI值分别是1.26和1.48。
本领域的技术人员应理解的是,可以利用例如C、C++、C#、Fortran、VisualBasic等的多种编程语言以及类似于Mathematica的可以提供预先打包的程序的应用、有助于数据可视化和分析的函数和程序来对本发明的方法进行编码。有助于数据可视化和分析的函数和程序的另一例子是MATLAB。
虽然已通过例子并根据具体实施例描述了本发明,但应理解的是本发明不局限于所公开的实施例。相反,如对本领域的技术人员来说将是显而易见的是,本发明意图覆盖各种修改和类似的装置。例如,贯穿全文,参照2D视图系统来描述数据集。然而,应理解的是,数据集可以在任一n维空间中被处理和可视化。例如,数据可以在3D系统(例如具有一些任意的第三维坐标)中被可视化和绘制,然后如所期望的那样对任一组两个或更多坐标值执行聚类分析变换。因此,所附的权利要求的范围应根据最宽泛的解释以便包括所有这样的修改和类似的装置。
权利要求
1.一种计算机实现的用于确定数据曲线的区域中感兴趣的特定点的方法,所述方法包括-接收表示数据曲线的数据集,所述数据集包括多个第一数据点,每一个第一数据点都具有一对坐标值(x,y),其中如果在二维坐标系中观察,所述数据集具有感兴趣区域;-将变换应用于包括感兴趣区域的数据集的至少一部分,以产生变换后的数据集,其中该变换后的数据集包括多个第二数据点,每一个第二数据点都具有一对坐标值(y′,y*),其中第二数据点的y′坐标值是相应的第一数据点的y坐标值,并且所述第二数据点的y*坐标值是随后的第一数据点的y坐标值;-确定所述变换后的数据集中的第二数据点的多个聚类;-确定所述聚类中的每一聚类的线性斜率;-针对每一聚类确定该聚类的斜率与邻近聚类的斜率的比率;以及-比较比率;其中具有最大或最小比率的聚类的端点表示所述数据曲线中感兴趣的特定点。
2.如权利要求1所述的方法,其中所述数据曲线是动态聚合酶链反应(PCR)方法的曲线,并且其中所述感兴趣的特定点表示动态聚合酶链反应曲线的肘值或周期阈值(Ct)。
3.如权利要求1所述的方法,进一步包括在应用所述变换之前,利用所述感兴趣区域中的至少第一数据点来内插附加的第一数据点。
4.如权利要求3所述的方法,其中利用线性内插方法、三次样条方法、Levenberg-Marquardt回归方法或最小平方拟合方法之一来执行内插。
5.如权利要求3所述的方法,其中执行内插,以沿着所述坐标之一以每一坐标间隔大约0.1或更小的增量尺度产生第一数据点。
6.如权利要求3所述的方法,其中内插包括通过将Levenberg-Marquardt(LM)回归方法应用于双S形函数以确定该函数的参数来计算拟合所述数据集的曲线的近似。
7.如权利要求6所述的方法,其中所述双S形函数具有以下形式a+bx+c(1+exp-d(x-e))(1+exp-f(x-g))]]>并且其中计算包括迭代地确定所述函数的参数a、b、c、d、e、f和g中的一个或多个。
8.如权利要求1所述的方法,其中所述多个聚类包括3个或更多聚类。
9.如权利要求1所述的方法,其中确定聚类包括将k平均值聚类算法应用于所述变换后的数据集,其中k大于或等于3。
10.如权利要求1所述的方法,其中确定聚类包括将围绕中心点的划分(PAM)算法应用于所述变换后的数据集以确定3个或更多聚类。
11.如权利要求8所述的方法,进一步包括确定所述数据集是否显示出趋势或基本上表示噪声数据。
12.如权利要求11所述的方法,其中确定所述数据集是否显示出趋势或基本上表示噪声数据包括针对每一聚类计算相关系数,其中如果对于每一聚类来说该相关系数小于大约0.1,则数据基本上是噪声。
13.如权利要求11所述的方法,其中确定所述数据集是否显示出趋势或基本上表示噪声数据包括计算每一聚类的端点值并确定每一端点是否小于或大于下一端点值。
14.如权利要求11所述的方法,其中确定所述数据集是否显示出趋势或基本上表示噪声数据包括针对所述数据集计算相关参数,其中如果该相关系数大于大约0.99,则数据基本上是线性的。
15.如权利要求1所述的方法,进一步包括通过以下步骤来计算所述数据曲线的相对荧光增加(RFI)值-计算最后的聚类的平均值;-计算第一聚类的平均值;以及-用第一聚类的平均值来除最后的聚类的平均值。
16.如权利要求1所述的方法,进一步包括通过以下步骤来计算所述数据曲线的绝对荧光增加(AFI)值-计算最后的聚类的平均值;-计算第一聚类的平均值;以及-从最后的聚类的平均值中减去第一聚类的平均值。
17.如权利要求1所述的方法,其中所述端点是聚类的最后的点。
18.如权利要求1所述的方法,进一步包括-确定所述数据集的线性生长部分;以及-通过从所述数据集中减去该线性生长部分来使所述数据集标准化。
19.一种计算机可读介质,该计算机可读介质包括用于控制处理器以确定动态聚合酶链反应(PCR)扩增曲线中的周期阈值(Ct)的代码,该代码包括指令,该指令用于-接收表示数据曲线的数据集,所述数据集包括多个第一数据点,每一个第一数据点都具有一对坐标值(x,y),其中如果在二维坐标系中观察,所述数据集具有感兴趣区域;-将变换应用于包括感兴趣区域的数据集的至少一部分,以产生变换后的数据集,其中该变换后的数据集包括多个第二数据点,每一个第二数据点都具有一对坐标值(y′,y*),其中第二数据点的y′坐标值是相应的第一数据点的y坐标值,并且所述第二数据点的y*坐标值是随后的第一数据点的y坐标值;-确定所述变换后的数据集中的第二数据点的多个聚类;-确定所述聚类中的每一聚类的线性斜率;-针对每一聚类确定该聚类的斜率与邻近聚类的斜率的比率;以及-比较比率;其中具有最大或最小比率的聚类的端点表示所述数据曲线中感兴趣的特定点。
20.如权利要求19所述的计算机可读介质,其中所述代码进一步包括用于利用所述感兴趣区域中的至少第一数据点来内插附加的第一数据点的指令。
21.如权利要求19所述的计算机可读介质,其中用于确定聚类的代码包括用于将k平均值聚类算法应用于所述变换后的数据集的指令,其中k大于或等于3。
22.如权利要求19所述的计算机可读介质,其中用于确定聚类的代码包括用于将围绕中心点的划分(PAM)算法应用于所述变换后的数据集以确定3个或更多聚类的指令。
23.如权利要求19所述的计算机可读介质,其中所述代码进一步包括用于确定所述数据集是否显示出趋势或基本上表示噪声数据的指令。
24.一种动态聚合酶链反应(PCR)系统,包括-动态聚合酶链反应分析模块,该动态聚合酶链反应分析模块产生表示动态聚合酶链反应扩增曲线的聚合酶链反应数据集,所述聚合酶链反应数据集包括多个第一数据点,每一个第一数据点都具有一对坐标值(x,y),其中所述数据集包括感兴趣区域中的数据点,该感兴趣区域包括周期阈值(Ct);以及-智能模块,该智能模块适于通过以下方式来处理所述聚合酶链反应数据集以确定周期阈值-将变换应用于包括感兴趣区域的聚合酶链反应数据集的至少一部分,以产生变换后的数据集,其中该变换后的数据集包括多个第二数据点,每一个第二数据点都具有一对坐标值(y′,y*),其中第二数据点的y′坐标值是相应的第一数据点的y坐标值,并且所述第二数据点的y*坐标值是随后的第一数据点的y坐标值;并且-确定所述变换后的数据集中的第二数据点的多个聚类;-确定所述聚类中的每一聚类的线性斜率;-针对每一聚类确定该聚类的斜率与邻近聚类的斜率的比率;以及-比较比率;其中具有最大或最小比率的聚类的端点表示聚合酶链反应扩增曲线中的周期阈值。
25.如权利要求24所述的系统,其中所述动态聚合酶链反应分析模块驻留于动态温度循环器装置中,并且其中所述智能模块包括可通信耦合至所述分析模块的处理器。
26.如权利要求24所述的系统,其中所述智能模块包括驻留于通过网络连接或直接连接之一耦合至所述分析模块的计算机系统中的处理器。
27.如权利要求24所述的系统,其中所述智能模块进一步适于利用感兴趣区域中的至少第一数据点来内插附加的第一数据点。
28.如权利要求27所述的系统,其中利用线性内插方法、三次样条方法、Levenberg-Marquardt回归方法或最小平方拟合方法之一来执行内插。
29.如权利要求24所述的系统,其中确定聚类包括将k平均值聚类算法应用于所述变换后的数据集,其中k大于或等于3。
30.如权利要求24所述的系统,其中确定聚类包括将围绕中心点的划分(PAM)算法应用于所述变换后的数据集以确定3个或更多聚类。
31.如权利要求24所述的系统,其中所述智能模块进一步适于通过以下步骤来计算所述数据曲线的相对荧光增加(RFI)值-计算最后的聚类的平均值;-计算第一聚类的平均值;以及一用第一聚类的平均值来除最后的聚类的平均值。
32.如权利要求24所述的系统,其中所述智能模块进一步适于通过以下步骤来计算所述数据曲线的绝对荧光增加(AFI)值-计算最后的聚类的平均值;-计算第一聚类的平均值;以及-从最后的聚类的平均值中减去第一聚类的平均值。
33.如权利要求24所述的系统,其中所述智能模块进一步适于-确定所述数据集的线性生长部分;以及-通过从所述数据集中减去该线性生长部分来使所述数据集标准化。
全文摘要
用于确定动态PCR扩增曲线中的周期阈值(Ct)的系统和方法。可以在荧光强度(y轴)对周期数(x轴)的二维图中使PCR数据集可视化。对该数据集进行变换以产生具有包括在周期(n)时的荧光的一列和包括在周期(n+i)时的荧光的第二列的数据点分区表,其中i典型地为1或更大。利用所确定的聚类基于y(n+1)对n确定每一聚类的线性斜率,并针对每一聚类确定该聚类的斜率与邻近聚类的斜率的比率。然后比较比率。具有最大或最小比率的聚类的端点表示数据曲线中感兴趣的特定点。PCR曲线的表示肘值或Ct值的数据点被确定为所确定的聚类之一的端点,并且返回或显示对应于该数据点的周期数。
文档编号C12M1/34GK1940949SQ200610159579
公开日2007年4月4日 申请日期2006年9月28日 优先权日2005年9月29日
发明者R·柯尼克 申请人:霍夫曼-拉罗奇有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1