基于小波分析法处理溶解曲线的方法、装置和电子终端的制作方法

文档序号:6374375阅读:183来源:国知局
专利名称:基于小波分析法处理溶解曲线的方法、装置和电子终端的制作方法
技术领域
本发明涉及筛查突变(mutationscanning)、基因分型(MutationGenotyping)、SSR分析、检测甲基化等领域,具体涉及一种基于小波分析法处理溶解曲线的方法、装置和电子终端。
背景技术
在溶解曲线的有效温度范围内,由于SNPs (Single-nucleotide ploymorphisms,单核苷酸多态性)的基因型是“成对”检测的,因此纯合型时,就会发生其中的一个峰缺失(形成峰谷),而另一峰抬高的情形。以下描述产生SNPS或实验数据的设备/仪器的相关工作过程I、在实验过程中首先提取样本。2、将提取的样本放入到毛细管中。3、在毛细管中加入内标、模版、荧光染料以及DNA扩增酶等。4、放入仪器,首先进行PCR(Polymerase Chain Reaction,聚合酶链式反应),通过温度的调节和扩增酶的作用将需要分析的STR (short tandem repeat,短串联重复序列)片段进行扩增。同时,此过程也是一个荧光染料与其相对应的DNA片段充分结合的过程。5、扩增反应完成后,通过逐渐增加温度,随着反应中双链DNA变性,荧光染料又回复到游离状态导致荧光信号降低,实验仪器将自动检测该过程中荧光强度随时间的变化细节,也就是在整个检测过程中,单位时间所对应的荧光强度数值。6、最后使用的是荧光信号改变的负的一次导数与温度的关系进行原始DNA分型图的绘制。这个设备与计算机通信,把实验数据传给计算机的过程如下整个实验完成后,相关的实验数据可以通过用户的设置,存储到与该实验仪器联网的任意一台计算机上。相关的实验数据可以通过机器自带的软件进行相关的输出,其格式具有多样性,比如excel,xml或txt等。图I为现有技术的溶解曲线图,关于图I中的术语解释如下A =Adenine腺嘌呤;C Cytosine胞卩密唳;G Guanine鸟嘌呤;T Thymine胸腺卩密卩定。纯合型指两条染色体在同一位点上拥有相同的核苷酸;杂合型指两条染色体在同一位点上拥有不同的核苷酸。CC纯合型两条染色体在该位点上具有相同的核苷酸,该核苷酸为胞嘧啶。就峰图而言,CC纯合型表示在标准参考序的某个C下面出现了一个峰,并且这个峰具备纯合型峰的特征(t匕如强度较高,以及在其参考序左右相邻的核苷酸下没有出峰等)。TT纯合型两条染色体在该位点上具有相同的核苷酸,该核苷酸为胸腺嘧啶。就峰图而言,TT纯合型表示在标准参考序的某个T下面出现了一个峰,并且这个峰具备纯合型峰的特征(比如强度较高,以及在其参考序左右相邻的核苷酸下没有出峰等XCG杂合型两条染色体在该位点上具有不同的核苷酸,该核苷酸为胞嘧啶。就峰图而言,CG杂合型表示在标准参考序的相邻两个核苷酸C,G下面分别出现了一个峰。图I中X轴表示PCR产物的退火温度,单位为摄氏度,Y轴表示荧光浓度(RFU)对温度的一阶导数,单位为mmol/L/摄氏度。如图I所示,对于杂合型,由于两峰同时出现,且峰高相近,因此融合后致使峰型不明显,峰高较纯合型低,因此,箭头10所指的两个峰就表示了杂合型,该SNP3就判为CG型。另外,箭头20所指即为峰谷,注意相应的配对峰抬高,其中箭头20的左箭头所指的SNP4判断为CC纯合型,箭头20的右箭头所指SNP2为CC纯合型,SNPl为TT纯合型。图I中箭头10表示“峰抬高”,箭头20表示“峰缺失”。通常情况下,我们用肉眼判断的经验是先看“峰缺失”和“峰抬高”,对于纯合型,这两种情况是同时出现的。对于没有出现峰缺失的连续峰,就直接判断为杂合型。其中,峰缺失和峰抬高都是针对原始数据曲线而言的,具体解释如下峰缺失就是指非常明显不是峰的地方,可以理解为非常明显的波谷;峰抬高就是指非常明显的是峰的地方,可以理解为非常明显的峰。目前,市面上还没有专门的设备能够对如上所述的溶解峰进行有效分离。发明人
在实现本发明的过程中发现,现在技术的不足至少在于纯合型峰变换后旁边会出现杂峰,从而使分析人员受到干扰;当没有出现明显“峰缺失”和“峰抬高”,而只是总体峰型较低,现有的分析技术不能给出正确的结果;目前的实验人员都是直接通过人眼查看原始数据曲线(如图I中的黑色曲线),然后通过经验来判断哪里出了峰,以及峰的具体位置,从而找到SNP位点,这样非常的消耗时间,并且可能因为经验的不足容易造成误判。

发明内容
本发明的目的在于,提供一种基于小波分析法处理溶解曲线的方法、装置和电子终端,以提高曲线图中峰型识别的效率、提高分析速度、及减少人工误判率。为达上述目的,一方面,本发明实施例提供了一种基于小波分析法处理溶解曲线的方法,所述方法包括对实验数据进行预处理;对预处理后的实验数据进行基线校正,获得基线统一的曲线图;通过小波变换对所述基线统一的曲线图进行转换,获得用于最终识别的曲线图;根据所述用于最终识别的曲线图进行峰识别,以根据识别出的峰进行基因检测。为达上述目的,另一方面,本发明实施例提供一种基于小波分析法处理溶解曲线的装置,所述装置包括预处理单元,用于对实验数据进行预处理;基线校正单元,用于对预处理后的实验数据进行基线校正,获得基线统一的曲线图;小波变换单元,用于通过小波变换对所述基线统一的曲线图进行转换,获得用于最终识别的曲线图;峰识别及基因检测单元,用于根据所述用于最终识别的曲线图进行峰识别,以根据识别出的峰进行基因检测。为达上述目的,又一方面,本发明实施例还提供一种电子终端,所述电子终端包括上述基于小波分析法处理溶解曲线的装置。本发明上述技术方案的有益技术效果在于本发明能够根据原始数据曲线图,自动将峰进行有效分离。也就是说能够将原本看不出有几个峰而需要人为根据经验判断的曲线图,转变成识别度非常高的曲线图。上述识别度是指根据温度以及荧光强度与温度的一阶导所绘制出来的分型曲线的峰图的识别度。这样大大提高了分析速度,并且减少了误判率。


为了更清楚地说明本发明 实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图I为现有技术的溶解曲线图;图2为本发明实施例与图I相对应的溶解曲线图;图3为本发明实施例的一种基于小波分析法处理溶解曲线的方法的整体流程图;图4为本发明实施例的一种基于小波分析法处理溶解曲线的方法的具体流程图;图5为本发明实施例中分别为当η为1、2、3、4、5的小波基函数的示意图;图6为本发明实施例的原始数据和变换后的数据表;图7为本发明实施例的根据图6的数据绘制的软件处理截图;图8为本发明实施例的根据图7的软件处理截图进行峰图识别的示意图;图9为本发明实施例的一种基于小波分析法处理溶解曲线的装置的整体功能框图;图10为本发明实施例的一种基于小波分析法处理溶解曲线的装置的具体功能框图。
具体实施例方式为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。本发明实施例能够根据原始数据曲线图,自动将峰进行有效分离。也就是说能够将原本看不出有几个峰而需要人为根据经验判断的曲线图(如图I中的黑色曲线),转变成识别度非常高的曲线图(如图2中的虚线曲线)。这样大大提高了分析速度,并且减少了误判率。图2中箭头10表示“峰抬高”,箭头20表示“峰缺失”。在实际应用中,数据来自于多种不同分析仪器(例如1:ΑΒΙ 7500 ;2 = Bio-RadCFX96 ;3:Roche LightCycler 480 ;4:Rotor-gene 6000 ;5:Stratagene3000),这些仪器所产生的数据具有不同量级的测量温度和荧光强度,并且监控温度间隔对于不同的仪器而言也是不同的。因此基于以上问题的考虑,本发明实施例通过对原始数据进行小波变换达到进一步分型的效果。该方法能够很好的对原始曲线进行分解,还原真实峰型,直接提供给操作员清晰明了的峰图,在一定程度上提高了劳动效率,减少人工误判率,以及进一步提高基因检测的效率。图3为本发明实施例的一种基于小波分析法处理溶解曲线的方法的整体流程图。如图3所示,该方法包括如下步骤110、对实验数据进行预处理;120、对预处理后的实验数据进行基线校正,获得基线统一的曲线图;130、通过小波变换对所述基线统一的曲线图进行转换,获得用于最终识别的曲线图;140、根据所述用于最终识别的曲线图进行峰识别,并根据识别出的峰进行基因检测。具体地,步骤110的具体处理过程可以包括对实验数据进行采样间距归一化处理以及对采样间距归一化处理后的实验数据执行数据周期扩展。可选地,在所述对采样间距归一化处理后的实验数据执行数据周期扩展之后,所述方法还包括保存原始实验数据和经过预处理后所得到的实验数据。具体地,步骤120目的是将峰图中所有曲线的y值最低点统一变换到X轴。步骤120的具体处理过程可以包括寻找一个完整周期内的起始点和终止点,以所述起始点和终止点作为参考点得到拟合直线;根据所述拟合直线对每个温度点进行强度值校正,将基线统一到X轴。所述根据所述拟合直线对每个温度点进行强度值校正是基于以下关系式校正后的强度值=原强度值-拟合直线在该点的强度值。具体地,步骤130的具体处理过程可以包括选取符合预设条件的小波基;选取符合预设条件的窗口 ;根据所述选取的小波基和选取的窗口,通过小波变换对所述基线统一的曲线图进行转换,获得用于最终识别的曲线图。具体地,步骤140中的基因检测包括筛查突变,基因分型,SSR分析(SimpleSequence Repeat :简单重复序列),甲基化检测等。步骤140中识别出来的峰,具有以下特征I.该峰的最高点的纵坐标需要分别大于其左右两个点(一共四个点)各自的纵坐标,并且其左一点的纵坐标需要大于其左二点的纵坐标,其右一点的纵坐标需要大于其右二点的纵坐标。2. "I "中所定义的峰位于经过对原始曲线使用基线校正以及小波变换方式处理之后的曲线之中,该曲线在进行峰识别的时候需要通过内置噪声过滤算法的过滤,其目的在于将曲线中的噪声点去掉根据全局单个色带以及局部基因座内的峰出现的统计规律,进行噪声峰过滤;3. I "中所定义的峰位于经过对原始曲线使用基线校正以及小波变换方式处理之后的曲线之中,该曲线需要通过内置FFT (快速傅里叶变换)算法的修正,目的在于去掉毛刺点,使曲线变得平滑通过FFT,将高频噪声峰进行过滤。4. "I "中所定义的峰位于经过对原始曲线使用基线校正以及小波变换方式处理之后的曲线之中,该曲线需要通过Peak Area算法的过滤将Area异常的峰进行过滤。5. "I "中所定义的峰位于经过对原始曲线使用基线校正以及小波变换方式处理之后的曲线之中,该曲线需要通过内置peak score算法的过滤通过对每个peak score的计算,对score低的peak进行过滤。
6. "I "中所定义的峰位于经过对原始曲线使用基线校正以及小波变换方式处理之后的曲线之中,该曲线需要通过内置相邻峰过滤算法的过滤确保该样本对应内标色中值peak的半高宽范围内,最多只存在一个峰。以下对本发明实施例的分析方法进行详细说明。图4为本发明实施例的方法流程图,如图4所示,该分析方法包括以下步骤一、预处理,实验数据转换。该过程包括以三个部分对实验数据进行采样间距归一化处理例如将实验数据的温度间隔统一到例如
O.I摄氏度,至此每一度将有10个数据点进行表示。这种转换方式平衡了不同仪器取样间隔不同的问题,使得对不同仪器的数据进行统一的算法处理提供了可能性。对于转换时出现的没有对应强度数据的温度间隔点,本实施例以与该点左右最近的实验值点为基础,采用线性插值的方式对这些点进行强度值的求解和填充。对采样间距归一化处理后的实验数据执行数据周期拓展(按照镜面复制的方式,将数据进行填补和展开)因为原始数据的有效范围一般是35摄氏度到85摄氏度,对此本实施例采用周期映射的方法将温度区间左右扩延至O摄氏度到100摄氏度。这样可以在一定程度上消除接下来的小波变换过程中由边界数据导致的奇异值,提高算法的精确度。其中,周期映射是常用的处理手段,用于扩充分析数据集,其是以原始数据的起始点和终止点位基础进行数据的镜面复制。保存原始实验数据成配置文件,并保存经过预处理后所得到的实验数据在导出转换数据时,将原始数据的数据值起始点和终止点保存到单独的配置文件中,并将这个配置文件与转换后的数据保存在同一路径下。这两个值可以直接在后面的小波变换中使用,不用实时进行计算获取,减少了算法的时间复杂度。可选地,该步骤之后还可以包括步骤将原始数据和预处理之后的数据导入到GeneMarker 中。二、基线校正将所有数据四个通道的曲线图(峰图)基线统一到X轴。作为举例而言,四个通道名称可以分别如下通道I :FAM ;通道2 =TET ;通道3 =ROX ;通道4 :CAL。通道即色带,具体为荧光色带。关于荧光色带的具体说明如下本实施例中PCR的过程实际上全称为荧光定量PCR,它是通过在PCR反应体系中加入荧光基团,利用荧光信号积累实时监测整个PCR进程,最后通过标准曲线对未知模板进行定量分析。在峰图中看到的蓝色曲线、绿色曲线等,实际上就是通过蓝色荧光、绿色荧光跟相应的DNA片段相结合,然后通过测定其浓度,所绘制出来的曲线。FAM、TET、ROX、CAL是荧光标量的简称,其为业内的行业规范。具体的相关介绍如下表CFX96六通道激发、检测光谱设计
权利要求
1.一种基于小波分析法处理溶解曲线的方法,其特征在于,所述方法包括 对实验数据进行预处理; 对预处理后的实验数据进行基线校正,获得基线统一的曲线图; 通过小波变换对所述基线统一的曲线图进行转换,获得用于最终识别的曲线图; 根据所述用于最终识别的曲线图进行峰识别,并根据识别出的峰进行基因检测。
2.根据权利要求I所述的方法,其特征在于,所述对实验数据进行预处理包括 对实验数据进行采样间距归一化处理; 对采样间距归一化处理后的实验数据执行数据周期扩展。
3.根据权利要求2所述的方法,其特征在于,在所述对采样间距归一化处理后的实验数据执行数据周期扩展之后,所述方法还包括保存原始实验数据和经过预处理后所得到的实验数据。
4.根据权利要求I所述的方法,其特征在于,所述对预处理后的实验数据进行基线校正包括 寻找一个完整周期内的起始点和终止点,以所述起始点和终止点作为参考点得到拟合直线; 根据所述拟合直线对每个温度点进行强度值校正,将基线统一到X轴。
5.根据权利要求4所述的方法,其特征在于,所述根据所述拟合直线对每个温度点进行强度值校正是基于以下关系式 校正后的强度值=原强度值-拟合直线在该点的强度值。
6.根据权利要求I所述的方法,其特征在于,所述通过小波变换对所述基线统一的曲线图进行转换,获得用于最终识别的曲线图包括 选取小波基; 选取窗口 ; 根据所述选取的小波基和选取的窗口,通过小波变换对所述基线统一的曲线图进行转换,获得用于最终识别的曲线图。
7.一种基于小波分析法处理溶解曲线的装置,其特征在于,所述装置包括 预处理单元,用于对实验数据进行预处理; 基线校正单元,用于对预处理后的实验数据进行基线校正,获得基线统一的曲线图;小波变换单元,用于通过小波变换对所述基线统一的曲线图进行转换,获得用于最终识别的曲线图; 峰识别及基因检测单元,用于根据所述用于最终识别的曲线图进行峰识别,并根据识别出的峰进行基因检测。
8.根据权利要求7所述的装置,其特征在于,所述预处理单元包括 采样间距归一化处理模块,用于对实验数据进行采样间距归一化处理 数据周期扩展模块,用于对采样间距归一化处理后的实验数据执行数据周期扩展。
9.根据权利要求7所述的装置,其特征在于,所述装置还包括 存储单元,用于保存原始实验数据和经过预处理后所得到的实验数据。
10.根据权利要求7所述的装置,其特征在于,所述基线校正单元包括 直线拟合模块,用于寻找一个完整周期内的起始点和终止点,以所述起始点和终止点作为参考点得到拟合直线; 基线统一模块,用于根据所述拟合直线对每个温度点进行强度值校正,将基线统一到X轴。
11.根据权利要求10所述的装置,其特征在于,所述基线统一模块在根据所述拟合直线对每个温度点进行强度值校正是基于以下关系式校正后的强度值=原强度值-拟合直线在该点的强度值。
12.根据权利要求7所述的装置,其特征在于,所述小波变换单元包括 第一选取模块,用于选取小波基; 第二选取模块,用于选取窗口 ; 小波变换模块,用于根据所述选取的小波基和选取的窗口,通过小波变换对所述基线统一的曲线图进行转换,获得用于最终识别的曲线图。
13.一种电子终端,其特征在于,所述电子终端包括权利要求7-12中任一项所述的基于小波分析法处理溶解曲线的装置。
14.根据权利要求13所述的电子终端,其特征在于,所述电子终端为计算机、移动通信终端、个人数字助理PDA或现场手持测量设备。
15.根据权利要求13所述的电子终端,其特征在于,所述电子终端包括 通信单元,用于通过有线和/或无线的方式将所述基于小波分析法处理溶解曲线的装置处理后的用于最终识别的曲线图、或者与所述用于最终识别的曲线图对应的数据传输到外部的其他设备。
全文摘要
本发明实施例提供了一种基于小波分析法处理溶解曲线的方法、装置和电子终端,所述方法包括对实验数据进行预处理;对预处理后的实验数据进行基线校正,获得基线统一的曲线图;通过小波变换对所述基线统一的曲线图进行转换,获得用于最终识别的曲线图;根据所述用于最终识别的曲线图进行峰识别,并根据识别出的峰进行基因检测。本发明能够根据原始数据曲线图,自动将峰进行有效分离。也就是说能够将原本看不出有几个峰而需要人为根据经验判断的曲线图,转变成识别度非常高的曲线图,从而大大提高了分析速度,并且减少了误判率,提高了基因检测的效率。
文档编号G06F19/26GK102880812SQ201210273620
公开日2013年1月16日 申请日期2012年8月2日 优先权日2012年8月2日
发明者李欣, 刘长胜 申请人:北京华生恒业科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1