通过无公式方法确定熔融温度的制作方法

文档序号:6582835阅读:307来源:国知局
专利名称:通过无公式方法确定熔融温度的制作方法
技术领域
—般来说,本发明涉及处理表示寡核苷酸的熔融特性的数据,更具体来说,涉及用
于根据熔融曲线数据来确定寡核苷酸样本的一个或多个熔融温度的系统和方法。
背景技术
通常在PCR实验之后直接执行的DNA熔融温度的确定是区分基因型的一个重要方 法。例如,文献中近来论述的是将检查KRAS基因用于确定哪些患者可能是非小细胞肺癌的 治疗的候选者。其KRAS基因属于野生型的患者会获益于该治疗,而如果患者具有这种基因 的突变型变异,则治疗没有有益效果。由于这些治疗往往具有较大副作用,所以确定患者的 正确基因型是非常重要的。熔融KRAS化验的使用可帮助区分患者的基因型。因此,希望提 供准确有效地确定DNA样本的熔融温度的系统和方法。

发明内容
本发明提供用于根据熔融曲线数据来确定寡核苷酸的熔融温度Tm的系统和方 法。在各个实施例中,进行熔融曲线数据集的一阶导数的数值确定。例如高斯混合模型 (G匪)函数等具有使用列文伯格-马夸尔特(Levenberg-Marquardt) (LM)回归过程所确定 的参数的模型函数用于查找一阶导数曲线的近似。数值确定的一阶导数值的最大值用作模 型函数的参数的初始条件。所确定参数提供分步熔融温度值,它们可被返回,例如被显示或 者以其它方式使用,供进一步处理。 根据本发明的一个方面,提供一种确定DNA的熔融温度Tm的计算机实现方法。该 方法通常包括接收表示DNA样本的熔融曲线的数据集,数据集包括各具有一对坐标值的多 个数据点。该方法通常还包括数值确定熔融曲线的数据点的一阶导数值;确定一阶导数 值的基线;从一阶导数值减去基线以产生修正的一阶导数值;以及确定修正的一阶导数值 的第一最大值。该方法通常还包括输出所述最大值,其中所述第一最大值表示DNA样本的 熔融温度Tm。该方法还包括以下步骤通过对高斯混合模型函数应用列文伯格_马夸尔特 (LM)回归过程以确定函数的一个或多个参数来计算拟合修正的一阶导数值的曲线的近似, 其中所述参数包括初始条件,并且第一最大值用作第一参数的初始条件;以及输出第一参 数,其中所确定的第一参数表示DNA样本的熔合温度Tm。在某些方面,该方法还包括确定一 阶导数值是否包括最接近第一最大值的台肩值。在某些实施例中,高斯混合模型包括如下 形式的表达G嬉,=fic/ (- a,)'五;cp -
/ 、2、 、-A
、 其中,i!工是第一参数,以及a工和o工是附加参数。在另一个方面,该方法进一步 包括显示第一参数值。在又另一个方面,回归过程包括列文伯格-马夸尔特(LM)回归过程。 在某些方面,该方法进一步包括以下步骤确定修正的一阶导数值的第二、第三或第四最大值,其中第二、第三或第四最大值用作第二、第三或第四参数的初始条件;以及输出第二、第 三或第四参数,其中所确定的第二、第三或第四参数表示DNA样本的第二、第三或第四熔融 温度Tm2、 Tm3或Tm4。在该方法的另一个方面,高斯混合模型包括如下形式的表达GMW2 = fxp(- a,).五;c/j
<formula>formula see original document page 6</formula> 其中,i! !是第一参数,P 2是第二参数,以及a p o p a 2和o 2是附加参数: 方法的又另一个方面,高斯混合模型包括如下形式的表达
在该
<formula>formula see original document page 6</formula>
(j3 其中,h是第一参数,h是第二参数,i^是第三参数,以及Ql、 0l、 a2、 和03是附加参数。在该方法的又另一个方面,高斯混合模型包括如下形式的表达
<formula>formula see original document page 6</formula>
其中,P i是第一参数,P 2是第二参数,P 3是第三参数,P 4是第四参数,以及a p 0l、 a2、 o2、 a3、 o3、、和04是附加参数。在该方法的另一个方面,确定第一最大值包 括对修正的一阶导数值应用加窗过程(windowing process),其中加窗过程还确定高斯混 合模型函数参数的一个或多个附加初始条件。 根据本发明的另一个方面,提供一种计算机可读介质,它存储用于控制处理器来 确定DNA的熔融温度Tm的代码。该所存储代码通常包括指令以用于接收表示DNA样本的 熔融曲线的数据集,该数据集包括各具有一对坐标值的多个数据点;数值确定熔融曲线的 数据点的一阶导数值;确定一阶导数值的基线;从一阶导数值减去基线以产生修正的一阶 导数值;以及确定修正的一阶导数值的第一最大值。该代码通常还包括用于输出第一最大 值的指令,其中所述第一最大值表示DNA样本的熔融温度Tm。该代码通常还包括指令以用 于通过对高斯混合模型函数应用列文伯格-马夸尔特(LM)回归过程以确定函数的一个 或多个参数来计算拟合修正的一阶导数值的曲线的近似,其中所述参数包括初始条件,并 且第一最大值用作第一参数的初始条件;以及输出第一参数,其中所确定的第一参数表示 DNA样本的熔融温度Tm。本文中,在某些方面,高斯混合模型包括如下形式的表达
<formula>formula see original document page 6</formula>
其中,i!工是第一参数,a工和o工是附加参数。在某些方面,该代码进一步包括用于确定一阶导数值是否包括最接近第一最大值的台肩值的指令。在另一个方面,该代码进 一步包括用于显示第一参数值的指令。在又另一个方面,该代码进一步包括指令以用于确 定修正的一阶导数值的第二最大值,其中第二最大值用作第二参数的初始条件;以及输出 第二参数,其中所确定的第二参数表示DNA样本的第二熔融温度Tm2。在某些方面,高斯混 合模型包括如下形式的表达
f<formula>formula see original document page 7</formula>V。 乂 其中,i!工是第一参数,P 2是第二参数,P 3是第三参数,以及a p o p a 2、 o 2、 a 和03是附加参数。在又另一个方面,高斯混合模型包括如下形式的表达 根据本发明的又一个方面,提供一种动力聚合酶链反应(PCR)系统,它通常包括 生成表示DNA熔融曲线的熔融曲线数据集的动力PCR分析模块,该数据集包括各具有一对 坐标值的多个数据点;以及适合于处理熔融曲线数据集以确定Tm值的智能模块。智能模块 通常通过以下来确定Tm值数值确定熔融曲线的数据点的一阶导数值;确定一阶导数值的 基线;从一阶导数值减去基线以产生修正的一阶导数值;以及确定修正的一阶导数值的第 一最大值。智能模块通常还通过将修正的一阶导数的所确定第一最大值用作Tm值并输出 所述Tm值来确定Tm值。在某些方面,智能模块通过以下来确定Tm值通过对高斯混合模 型函数应用列文伯格-马夸尔特(LM)回归过程以确定函数的一个或多个参数来计算拟合 修正的一阶导数值的曲线的近似,其中所述参数包括初始条件,并且第一最大值用作第一 参数的初始条件;以及输出第一参数,其中所确定的第一参数表示DNA样本的熔合温度Tm。 在某些方面,高斯混合模型包括如下形式的表达
7<formula>formula see original document page 8</formula> 其中,工是第一参数,以及a工和o工是附加参数。在另一个方面,智能模块进一 步适合于确定一阶导数值是否包括最接近第一最大值的台肩值。在又另一个方面,智能模 块进一步适合于确定修正的一阶导数值的第二最大值,其中第二最大值用作第二参数的 初始条件;以及输出第二参数,其中所确定的第二参数表示DNA样本的第二熔融温度Tm2。 在某些方面,确定修正的一阶导数值的第二最大值,其中第二最大值用作第二参数的初始 条件,以及高斯混合模型包括如下形式的表达
<formula>formula see original document page 8</formula>
其中,工是第一参数,P 2是第二参数,以及a p o p a 2和o 2是附加参数。在某 些方面,确定修正的一阶导数值的第三最大值,其中第三最大值用作第三参数的初始条件, 以及高斯混合模型包括如下形式的表达 其中,工是第一参数,P 2是第二参数,P 3是第三参数,以及a p o p a 2、 o 2、 a 3 和03是附加参数。在某些方面,确定修正的一阶导数值的第四最大值,其中第四最大值用 作第四参数的初始条件,以及高斯混合模型包括如下形式的表达
<formula>formula see original document page 8</formula>
其中,i!工是第一参数,P 2是第二参数,P 3是第三参数,P 4是第四参数,以及a p 0l、 a2、 o2、 a3、 o3、、和04是附加参数。在该系统的另一个方面,智能模块通过对修 正的一阶导数值应用加窗过程来确定第一最大值,其中加窗过程还确定高斯混合模型函数 参数的一个或多个附加初始条件。 参照说明书的其余部分、包括附图和权利要求将会了解本发明的其它特征和优 点。下面针对附图详细描述本发明的其它特征和优点以及本发明的各个实施例的结构和操 作。图中,相似的参考标号表示相同或功能上相似的元件。


图1图示熔融曲线的一个示例(荧光强度对温度)。
图2图示图1的熔融曲线的一阶导数曲线(荧光强度的一阶导数对温度)。
图3示出基线减法之后的图2的导数曲线(减去基线的荧光强度一阶导数对温 度)。 图4图示根据一个实施例、用于确定熔融温度的过程(无公式熔融算法的主要处 理步骤)。 图5图示根据一个实施例的熔融温度计算过程(无公式熔融算法的主要处理步 骤)。 图6图示根据一个实施例的台肩检测过程(无公式熔融算法的主要处理步骤)。
图7a和图7b分别示出单个熔融峰值的情况下的原始数据曲线和熔融曲线的示 例。 图8a和图8b分别示出两个熔融峰值的情况下的原始数据曲线和熔融曲线的示 例。 图9a和图9b分别示出两个熔融峰值的情况下的原始数据曲线和熔融曲线的示 例。 图10a和图10b分别示出单个熔融峰值加上台肩的情况下的原始数据曲线和熔融 曲线的示例。 图lla和图llb分别示出单个熔融峰值加上台肩的情况下的原始数据曲线和熔融 曲线的示例。 图12示出说明可用于实现本发明的过程和系统的软件与硬件资源之间的关系的 总体框图。 图13图示热循环装置与计算机系统之间的交互。
具体实施例方式
本发明提供用于确定DNA的熔融温度Tm的系统和方法。 本发明提供用于通过分析表示熔融曲线的数据来确定熔融温度的系统和方法。在 某些方面,进行熔融曲线数据集的一阶导数的数值确定。具有使用列文伯格-马夸尔特 (LM)回归过程所确定的参数的高斯混合模型(G匪)函数用于查找对一阶导数曲线的近似。 数值确定的一阶导数值的最大值用作GMM函数的参数的初始条件。所确定的参数提供分步 熔融(fractional melting)温度Tm值。然后Tm值被返回,并且可显示或者以其它方式使 用,供进一步处理。 PCR过程的上下文中的熔融曲线的一个示例如图l所示。如图l所示,典型熔融曲 线的数据可在二维坐标系中来表示,例如其中温度定义x轴,而累积多核苷酸的指标定义y 轴。通常,累积多核苷酸的指标是荧光强度值(fluorescent intensity value),因为荧光 标记的使用也许是最广泛使用的加标方案。但是应当理解,根据所使用的特定加标和/或 检测方案,可使用其它指标。累积信号的其它有用指标的示例包括发光强度、化学发光强 度、生物发光强度、磷光强度、电荷转移、电压、电流、功率、能量、温度、粘度、光散射、辐射强 度、反射率、透射率和吸收率。
—般过程概述 考虑图1所示的典型熔融曲线。希望从图1所示的数据获得一个或多个熔融温度。根据一个实施例,可参照图4简要地描述用于确定熔融温度的过程100。在步骤IIO,接收 或者以其它方式获取表示熔融曲线的实验数据集。绘制的熔融曲线数据集的一个示例如图
1所示,其中y轴和x轴分别表示熔融曲线的荧光强度和温度。在某些方面,数据集应当包
括连续的并且沿轴等距间隔的数据。 在过程100在驻留在例如热循环器等PCR装置中的智能模块(例如运行指令的处 理器)中来实现的情况下,数据集可在收集数据时实时地提供给智能模块,或者可存储在 存储器单元或缓冲器中并且在完成实验之后提供给智能模块。类似地,数据集可经由网络 连接(例如LAN、VPN、内联网、因特网等)或者与获取装置的直接连接(例如USB或其它直 接有线或无线连接)提供给例如台式计算机系统或其它计算机系统等独立系统,或者在例 如CD、 DVD、软盘等便携介质上提供。在某些方面,数据集包括具有一对坐标值(或2维向 量)的数据点。对于熔融数据,坐标值对通常表示温度和荧光强度值。在步骤110已经接 收或者获取数据集之后,可分析数据集以确定熔融温度。 在步骤120,数据经数值处理以确定导数值。这些曲线的熔融温度通过查找与荧 光强度相对于温度的一阶导数(y轴)的最大值对应的(分步)温度值(x轴)来获得。使 用图l所示的数据,一阶导数的对应曲线图如图2所示。在一个实施例中,对导数曲线数据 执行基线减法,以便产生修正的导数数据。在一个实施例中,基线减法通过以下来执行首 先将"MedianLeft"定义为图2中的前五个点的荧光值的中值,然后将"MedianRight"定义 为图2中的后五个点的荧光值的中值。然后定义连接图2中的"MedianLeft"点(x, y)与 "MedianRight"点(x,y)的直线。然后从所有坐标对减去这个直线的斜率(slope)和截距。 图3示出基线减法之后的导数曲线。 在一个实施例中,导数通过使用Savitzky-Golay (SG)方法来获得。[参见 A. Savitzky禾口 Marcel J. E. Golay(1964), Smoothing andDifferentiation of Data by Simplified Least Squares Procedures (通过简化最小平方过程的数据的平滑和差分), Analytical Chemistry, 36 :1627-1639,以及Press,W. H.等人,"Numerical Recipes in C, 2nd Ed. (C的数值方法,第2版)",Savitzky-Golay平滑滤波器,14. 8小节,650-655。]。 在一个实施例中,SG-2-2-2配置(意思是左侧两个点、右侧两个点和二次多项式)用于计 算原始熔融数据曲线的一阶导数。 一般来说,可使用SG方法的其它配置,例如SG-l-l-2至 SG-50-50-2。更一般来说,可使用SG-x-y-z,其中x和y是从1至50的数,而z是从1至5 的数。 导数的标量不变形式 在某些实施例中,备选方法用于计算导数,以便允许熔融温度是标量不变的。标量 不变意味着,如果荧光值与常数相乘,则所得Tm值未改变。 根据一种方法,在计算导数熔融曲线之前将荧光值除以平均荧光值,例如,y替换 为y/y,n,其中J^柳lS乂 (1) 根据另一种方法,在计算导数熔融温度之前将荧光值除以(最大荧光-最小荧 光)。 根据另一种方法,在计算熔融温度之前将荧光值的导数除以荧光值。
10
根据又另一种方法,在计算熔融温度之前将荧光值的导数除以荧光值的平均导 根据又另一种方法,在计算熔融温度之前将荧光值的导数除以荧光值的(最大 值-最小值)导数。 回到图4,在步骤130,确定一阶导数数据中的多个峰值。在一个实施例中,局部最 大化过程用于确定一阶导数中的零、一个、两个、三个或四个峰值,下面更详细地论述。可使 用原始导数数据,或者可使用减去基线的导数数据。 在一个实施例中,在步骤140确定分步Tm值。为了查找曲线的最大值,例如图2或 图3所示,在一个实施例中,将高斯混合模型拟合到数据。高斯混合模型的平均值对应于最 大值,因此对应于Tm值。在一个实施例中,曲线拟合通过以下来进行计算拟合所确定一阶 导数值或修改(减去基线的)导数值的曲线的近似,对高斯混合模型函数应用回归过程以 确定函数的一个或多个参数。在某些方面,使用列文伯格-马夸尔特回归过程。在一个实 施例中,对于单峰值的情况,使用对于一个峰值的高斯混合模型,如公式(2)所示。如果存 在两个峰值,则使用对于两个峰值的高斯混合模型,如公式(3)所示。如果存在三个峰值, 则可使用对于三个峰值的高斯混合模型,如公式(4)所示。如果存在四个峰值,则可使用对 于四个峰值的高斯混合模型,如公式(5)所示。系数的i^或(i^, y2)的回归值分别对应 于对于一个和两个峰值的Tm值。在一个实施例中使用高斯混合模型,而不是取附加导数来 查找最大值,因为更高阶导数(3阶或4阶)可变得不稳定。
, / 、2 、
1 f:c —仏、
G颜,=鄉(- 。,)匈---^ (2)
乂 G磨2 = ~(一 。l)'脚
(7,
V、
/ 、2、 <T,
(3)( 層3 =鄉(一A) ~
en
V、
「12 、
、5L m J
+
(4) £xp(-a3).~
(T3GMM4 = fic; d). ~ ~(-"3)匈
1"—^、
人 f


(72
、2 A
+
(5)
「 - /Z4 Y
(74
乂 应当理解,其它模型/函数可用于代替高斯混合模型,这是本领域的技术人员显 而易见的。其它模型的示例包括Bete、 Binomial、 C塞hy、 Chi、 ChiSqimre、 Exponential、 Extreme Value、 FRatio、 Gamma、 Gumbel、 Laplace、 Logistic、 Maxwell、 Pareto、 Rayleight、StudentT和Weibull模型。 大家要理解,对于包含两个以上峰值的一阶导数数据,上述实施例适用。在这种情 况下,通过局部最大值的系数P i、i^、i^、i^的初始估计(回归值)对应于最终熔融温度。
在一个实施例中,列文伯格-马夸尔特(LM)方法用于曲线拟合公式(2) (或者公式(3)、公式(4)、公式(5))。这种方法的细节可见于参考文献[Mor6, JJ., "Levenberg-Marqimrdt Algorithm, Implementation andtheory (列文伯格_马夸尔特算 法、实现禾口理论),,,Numerical Analysis, ed. Watson, G. A丄ecture Notes in Mathematics 630, Springer-Verlag, 1977]。应当理解,可使用其它众所周知的回归方法。 一般来说,LM 回归方法包括需要各种输入并且提供输出的算法。在一个方面,该输入包括待处理的数据 集、用于拟合数据的函数(例如高斯混合模型)以及函数的参数或变量的初始猜测。该输 出包括使函数与数据集之间的距离的平方之和为最小的该函数的一组一个或多个参数。应 当理解,可使用其它回归过程,这是本领域的技术人员显而易见的。 列文伯格-马夸尔特方法的一个特征在于,它在执行回归之前需要参数值的良好 估计。对于参数a工(或a p a 2, a 3, a 4)和。工(或。p 。 2, 。 3, o 4),初始条件在所有情 况下可设置成等于常数(例如1或2)。这些参数一般不是敏感的,并且一般将收敛而不管 所使用的初始条件。参数yj或Up P2, P3, P4)可需要应当对各曲线确定的更准确初 始条件。在一个实施例中,加窗方法用于计算参数i^(或i^, P2, P3, P4)的初始条件, 下面更详细地描述。 在可选步骤150,执行一个或多个专家系统校验,以便评估结果是否有效,下面更
详细地论述。例如,如果经过实现,则专家系统校验可确定所确定结果是无效的。 在步骤160,返回Tm值,例如供显示或者进一步处理。图形显示可采用与执行图4
的分析的系统耦合的例如监视器屏幕或打印机等显示装置来呈现,或者数据可提供给独立
系统以便在显示装置上呈现。 在一些实施例中,对于G匪p Gm2、 Gm3和Gm4参数计算R2统计和/或置信(例 如95%置信)区间。这些值评估曲线拟合的质量,并且可在专家系统(下面进行描述)中 用于帮助确定所计算Tm值是有效、无效还是零(不存在样本)。这些值还可在步骤160显 示。 曲线的最大值的确定 在一个实施例中,对数据集使用加窗过程以用于确定参数ii p ii 2、 ii 3、 ii 4的初始 条件。对于包含总共两个峰值的一阶导数描述以下加窗过程。然而,如上所述,大家要理解, 这个加窗过程可适用于提供总共四个峰值的一阶导数。在一个实施例中,加窗过程通过使 用以下过程来搜索潜在局部最大值 1.在第一点开始,检查数据集的前数个(五个)点(点1-5)。 2.如果中间y点不是这五个点中的最大值,则在这五个点中不存在潜在最大值。
如果中间y点是这五个点的最大值,并且具有大于O的值(以避免将较长序列的点中具有
准确值0的中点加入潜在最大值的集合),则存在潜在最大值。将这个点加入潜在最大值的
集合S。 3.使滑动窗口前进一个点(例如这时是点2-6),并且重复进行第2项所述的过 程,再次仅接受这五个点的索引3处的最大值。对整个数据集继续进行这个过程。
4.检查表示索引3处的潜在最大值的集合的潜在最大值的结果集合S,并且查找 这个潜在最大值的集合S中的最大数据点(Smax)。 5.如果Smax等于或小于最大噪声输入参(可由用户输入或者自动确定的噪声参 数),则曲率数据中没有峰值。 6.保持来自这个集合S的其余潜在最大数据点,只要它们大于SmaxX相对最小输 入参数并且大于绝对最小输入参数。 7.如果只留下一个数据点,则仅存在一个峰值,并且曲线仅具有一个最大值。将这
个单峰值定义为P、。如果留下两个数据点,则这表示具有两个最大值的曲线。如果存在两
个以上峰值,则取具有数据集S的最高值的两个峰值,并且将具有这两个的较低循环数的
峰值作为P、返回,而将具有较高循环数的峰值作为pk2返回。 8. ii !的初始条件则为pkp而(ii p ii 2)的初始条件为(pkn pk2)。 熔融温度计算 根据一个实施例的熔融温度计算如图5所示。在步骤210,确定关于一阶导数数据 集是包括一个还是两个(还是三个、四个)峰值。如果熔融数据集的一阶导数识别为具有 单个峰值,则在步骤220,通过公式(2)所述的单分量高斯函数的非线性回归(例如使用列 文伯格-马夸尔特方法或者其它回归方法)来找到熔融曲线的最大值。初始条件通过局部 最大值搜索给出。如果熔融数据集的一阶导数识别为具有两个(或者三个、四个)峰值,则 在步骤230,通过公式(3)所述的双分量高斯函数的非线性回归(例如使用列文伯格-马 夸尔特方法)来找到熔融曲线的两个局部最大值,并且返回参数i^、 yj或者i^和P4) (与Tml、Tm2或者Tm3和Tm4对应)。初始条件通过局部最大值搜索给出。应当理解,即使 图5示出对于一个或两个峰值的熔融温度计算,但是用于两个峰值的相同熔融温度计算也 可用于三个和四个峰值。 在步骤240,台肩检测过程确定对于根据一个实施例的单导数峰值情形是否存在 台肩。如果在MELT算法中找到两个(或三个、四个)峰值,则不采取进一步行动。如果相 反找到一个峰值,则可能的是这个峰值存在台肩。下面论述根据一个实施例的台肩检测的 细节。如果没有检测到台肩,则返回h(对应于Tml)。在步骤250,对于各个参数确定置信 区间。在步骤260,对于所使用的高斯混合模型计算f值。在一个实施例中,如果G匪1(或 G匪2、G匪3、G匪4)拟合的1 2值> 0.9,或者参数(i^,。》或(i^, 。 n y 2, 。 2, y 3, o 3, P4, 。4)的置信区间不包括零,则在步骤270接受Tml(或Tml,Tm2,Tm3,Tm4)的值。否贝U, 在步骤280, Tml、(或者Tml, Tm2, Tm3, Tm4)设置作为未检测到目标(TND),以及在步骤290, 可选专家系统进行TND的最终调用或者使无效(Invalid)。
台肩检测 根据一个实施例的台肩检测过程如图6所示。在步骤310,双分量高斯模型拟合到 使用ai,2 = 2、 i! u = m±2、 o u = 2作为初始条件的相同一阶导数数据,其中m是单峰值 的熔融温度。在步骤320,潜在主峰值和台肩(较低)峰值按以上所述来确定。在步骤330, 确定关于较低峰值的高度是否至少为较高峰值的某个百分比(例如较高峰值的0. 05倍或 以上)。如果不是,则返回台肩不存在的调用,并且Tm确定处理按照图5的步骤250继续 进行。如果是,则在步骤340,对于各个参数确定置信区间,以及在步骤350,对于G匪2公式 确定R2值。在步骤360,确定关于平均数的置信区间是否至少为相互分离的某个百分度数(例如3度或以上)。如果不是,则返回台肩不存在调用,并且Tm确定处理按照图5的步骤 250继续进行。如果是,则在步骤370,确定置信区间是否不包含零,或者R2值是否大于阈 值(例如0.9)。如果不是,则返回台肩不存在调用,并且Tm确定处理按照图5的步骤250 继续进行。如果是,则在步骤380,确定在i^和112所评估的双分量高斯模型(GMM2)的二 阶导数是否为负。如果是,则进行台肩检测调用。 因此,假定LM方法收敛,在一个实施例中,如果下列条件全部成立,则检测到台 肩- —阶导数数据识别为具有正好一个局部最大值。-较低峰值的高度至少为较高峰值的0. 05倍(例如使用"e邓(_a)")。-平均数的置信区间相互分离至少3百分度。 -iip y2、 o !禾P o2的置信区间不包含零或者R2 > 0.9。-在ii工和ii 2所评估的双分量高斯模型(G匪2)的二阶导数为负。 在满足这些条件的情况下,建立台肩检测标志。结合图6、对于包含一个或两个峰
值的一阶导数描述上述台肩检测过程。然而,如上所述,应当理解,这个台肩检测过程可适
用于提供总共四个峰值的一阶导数。 专家系统校验 在一个实施例中,在步骤290(图5)实现一个或多个专家系统校验。在一个校验 中,确定全部整个熔融曲线数据的中值是否>0。如果这不成立,则结果报告为无效。在另 一个校验中,确定熔融峰值荧光数据的最大值的绝对值是否大于熔融峰值荧光数据的最小 值的绝对值。如果这不成立,则结果报告为无效。在另一个校验中,确定来自前数个(例如 五个)循环的原始荧光对温度值的中值是否大于来自最后数个(例如五个)循环的原始荧 光对温度值的中值。如果这不成立,则结果报告为无效。在又另一个校验中,二阶多项式拟 合于原始荧光对温度数据集。如果这个拟合的R2大于阈值(例如0. 99),则不存在峰值,并 且结果报告为未检测到目标(TND)。
示例 图7a和图7b分别示出单个熔融峰值的情况下的原始数据曲线和熔融曲线。所计 算的熔融温度为Tm二67.8。 图8a和图8b分别示出两个熔融峰值的情况下的原始数据曲线和熔融曲线。所计 算的熔融温度为Tml = 58. 8和Tm2 = 67. 8。 图9a和图9b分别示出两个熔融峰值的情况下的原始数据曲线和熔融曲线。所计 算的熔融温度为Tml = 57. 9和Tm2 = 68. 6。 图10a和图10b分别示出单个熔融峰值加上台肩的情况下的原始数据曲线和熔融 曲线。所计算的熔融温度为Tml = 62. 4和Tm2 = 68. 8。 图lla和图llb分别示出单个熔融峰值加上台肩的情况下的原始数据曲线和熔融 曲线。所计算的熔融温度为Tml = 61. 3和Tm2 = 68. 1。 在某个实施例中,根据本发明的Tm确定过程可通过以下来实现使用常规个人计 算机系统,其包括但不限于输入数据集的输入装置,如键盘、鼠标等;表示曲线的区域中 的特定感兴趣点的显示装置,如监视器;实施方法中的每个步骤所需的处理装置,如CPU ; 网络接口 ,如调制解调器,存储数据集的数据存储装置,运行于处理器的计算机代码等。此外,过程还可在根据本发明的PCR过程中或者在根据本发明的PCR系统中来实现。 应当理解,Tm确定过程、包括导数和台肩确定过程,可在运行于计算机系统的处理
器上的计算机代码来实现。代码包括用于控制处理器来实现Tm确定过程的各个方面和步
骤的指令。代码通常存储在硬盘、RAM或便携介质、如CD、DVD等中。类似地,过程可在例如
热循环器等PCR装置或者包括运行与处理器耦合的存储器单元中存储的指令的处理器的
其它专用装置中实现。包括这类指令的代码可通过网络连接或者到代码源的直接连接或者
使用便携介质下载到装置存储器单元,这是众所周知的。 本领域的技术人员应当理解,本发明的Tm确定过程可使用例如C 、 C++ 、 C# 、 Fortran 、 Vi sualBas i c等各种编程语言以及例如Mathematica 等提供对数据可视 化和分析有用的预打包的例程、函数和过程的应用程序来编码。后者的另一个示例是 MATLAB 。 根据本发明的系统的一个示例如图12和图13所示。图12示出说明可用于实现 本发明的过程和系统的软件与硬件资源之间的关系的总体框图。图13所示的系统包括可 位于热循环装置中的动力PCR分析模块以及作为计算机系统的组成部分的智能模块。数据 集(PCR数据集)经由网络连接或者直接连接从分析模块传递到智能模块或者反之。数据 集例如可按照图4、图5和图6所示的流程图来处理。这些流程图可方便地通过计算机系 统的硬件上存储的软件例如按照图12所示的流程图来实现。参照图12,计算机系统(400) 可包括例如用于接收在PCR反应期间所得到的荧光数据的接收部件(410)、用于根据本发 明的过程来处理所述数据的计算部件(420)、用于应用计算部件所得到的结果的应用部件 (430)以及用于在计算机屏幕上显示结果的显示部件(440)。图13示出热循环装置与计算 机系统之间的交互。该系统包括可位于热循环器装置中的动力PCR分析模块以及作为计算 机系统的组成部分的智能模块。数据集(PCR数据集)经由网络连接或者直接连接从分析 模块传递到智能模块或者反之。数据集可通过运行于处理器并且存储于智能模块的存储装 置的计算机代码按照图12来处理,并且在处理之后回传给分析模块的存储装置,其中修正 的数据可在显示装置上显示。 虽然作为示例并且根据具体实施例描述了本发明,但是大家要理解,本发明并不 局限于所公开的实施例。相反,意在涵盖本领域的技术人员显而易见的各种修改和类似布置。
权利要求
一种确定DNA的熔融温度Tm的计算机实现方法,所述方法包括-接收表示DNA样本的熔融曲线的数据集,所述数据集包括各具有一对坐标值的多个数据点;-数值确定所述熔融曲线的数据点的一阶导数值;-确定所述一阶导数值的基线;-从所述一阶导数值减去所述基线,以产生修正的一阶导数值;-确定所述修正的一阶导数值的第一最大值;以及-输出所述第一最大值,其中所述第一最大值表示DNA样本的熔融温度Tm。
2. 如权利要求l所述的方法,还包括以下步骤-通过对高斯混合模型函数应用列文伯格-马夸尔特(LM)回归过程以确定所述函数的 一个或多个参数来计算拟合所述修正的一阶导数值的曲线的近似,其中所述参数包括初始 条件,并且其中所述第一最大值用作第一参数的初始条件;以及_输出所述第一参数,其中所确定的第一参数表示DNA样本的熔融温度Tm。
3. 如权利要求2所述的方法,其中,所述高斯混合模型包括如下形式的表达<formula>formula see original document page 2</formula>其中,P i是第一参数,以及a i和o工是附加参数。
4. 如权利要求1所述的方法,进一步包括确定所述一阶导数值是否包括最接近所述 第一最大值的台肩值。
5. 如权利要求2所述的方法,进一步包括显示所述第一参数值。
6. 如权利要求l所述的方法,进一步包括以下步骤-确定所述修正的一阶导数值的第二、第三或第四最大值,其中所述第二、第三或第四 最大值用作第二、第三或第四参数的初始条件;以及-输出所述第二、第三或第四參数,其中所确定的第二、第三或第四参数表示0脆样本 的第二、第三或第四熔融温度Tm2、 Tm3或Tm4。
7. 如权利要求6所述的方法,其中,所述高斯混合模型包括如下形式的表达<formula>formula see original document page 2</formula>其中,P i是所述第一参数,P 2是所述第二参数,以及其中a p o p a 2和o 2是附加参
8.如权利要求6所述的方法,其中,所述高斯混合模型包括如下形式的表达<formula>formula see original document page 2</formula>其中,^是所述第一参数,i^是所述第二参数,i^是所述第三参数,以及c^、 h、d2、 02、 Cl3禾P 03是附加参数。
9.如权利要求6所述的方法,其中,所述高斯混合模型包括如下形式的表达<7i< i,…,,、2、2、「1, 、2 A X —〃2 )、1+乂乂2CT4、2 A其中,i^是所述第一参数,42是所述第二参数,43是所述第三参数,44是所述第四参数,以及其中a p o p a 2、 o 2、 a 3、 o 3、 a 4禾P o 4是附加参数。
10. —种计算机可读介质,包括用于控制处理器来确定DNA的熔融温度Tm的代码,所述 代码包括指令以用于_接收表示DNA样本的熔融曲线的数据集,所述数据集包括各具有一对坐标值的多个数据点;-数值确定所述熔融曲线的数据点的一阶导数值; -确定所述一阶导数值的基线;_从所述一阶导数值减去所述基线,以产生修正的一阶导数值; -确定所述修正的一阶导数值的第一最大值;以及_输出所述第一最大值,其中所述第一最大值表示DNA样本的熔融温度Tm。
11. 如权利要求10所述的计算机可读介质,其中,所述代码适合于执行如权利要求2至 9中的任一项所述的步骤。
12. —种动力聚合酶链反应(PCR)系统,包括-生成表示DNA熔融曲线的熔融曲线数据集的动力PCR分析模块,所述数据集包括各具有一对坐标值的多个数据点;以及-智能模块,适合于通过以下来处理熔融曲线数据集以确定Tm值-接收表示DNA样本的熔融曲线的数据集,所述数据集包括各具有一对坐标值的多个数据点;-数值确定所述熔融曲线的数据点的一阶导数值; -确定所述一阶导数值的基线;_从所述一阶导数值减去所述基线,以产生修正的一阶导数值; -确定所述修正的一阶导数值的第一最大值;以及_输出所述第一最大值,其中所述第一最大值表示DNA样本的熔融温度Tm。
13. 如权利要求12所述的系统,其中,所述动力PCR分析模块驻留在动力热循环装置 中,以及所述智能模块包括通信耦合到所述分析模块的处理器或者其中所述智能模块包括 驻留在计算机系统中的处理器,所述计算机系统通过网络连接或直接连接其中之一耦合到 所述分析模块。
14. 如权利要求12所述的系统,还包括显示模块,其中输出包括在所述显示模块上显 示所述Tm值。
15.如权利要求12所述的系统,其中,所述系统适合于执行如权利要求2至9中的任一 项所述的步骤。
全文摘要
本发明是通过无公式方法确定熔融温度。进行熔融曲线数据集的一阶导数的数值确定。对于一阶导数值确定基线,并且从一阶导数值减去基线以产生修正的一阶导数值。确定修正的一阶导数值的第一最大值,并且所述第一最大值表示DNA样本的熔融温度Tm。例如高斯混合模型(GMM)函数等具有使用列文伯格-马夸尔特(LM)回归过程所确定的参数的模型函数也可用于查找对一阶导数曲线的近似。数值确定的一阶导数值的最大值用作模型函数的参数的初始条件。所确定参数提供一个或多个分步熔融温度值,它们可被返回,例如被显示或者以其它方式使用,供进一步处理。
文档编号G06F19/00GK101782940SQ200910207618
公开日2010年7月21日 申请日期2009年10月16日 优先权日2008年10月17日
发明者R·T·克尼克 申请人:霍夫曼-拉罗奇有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1