用于通过谱分析鉴定dna模式的方法和系统的制作方法

文档序号:6454198阅读:149来源:国知局

专利名称::用于通过谱分析鉴定dna模式的方法和系统的制作方法
技术领域
:本发明涉及用于促进DNA谱分析的系统和方法,更特别地,涉及利用图像处理技术和/或信号处理方法以使得DNA序列数据的处理整体上或部分自动化和/或加速的系统和方法。根据本发明的示例性实施方案,本发明提供了支持一或多种下述DNA谱分析(spectmlanalysis)技术的系统或方法(i)比较直方图(comparativehistogram)方法;(ii)使用支持向量机(supportvectormachines)和遗传算法的选择/分类;和(iii)基于来自DNA序列数据的谱图提取(spectrogramextractions)的谱卑见步页(spectrovideo)方去。2.
背景技术
生物信息学寻求将大量生物学数据组织为可用于产生有用知识的可理解的信息。在生物信息学领域,已经开发了用于DNA序列谱分析的技术。谱分析技术通常代表了在手工DNA模式分析技术之上的进步,所述手工DNA模式分析技术目标是辨识作为与重要生命过程相关的生物学标记的DNA模式。传统上,在由表示四种核苷酸碱基的四个字母A、T、C和G组成的DNA序列链上直接进行自动分析。然而,由于DNA序列的巨大长度(例如最短的人类染色体长度是46.9Mb)、与有限的字母组相关的模式集合的巨大范围、以及该问题的统计学性质,这样一种直观的/手工的方法对于达到所希望的目的即使不是不可能的,也是非常低效的。DNA谱分析提供了一种方法以系统地解决从DNA序列数据中得到有用信息的问题。通常,DNA谱分析包括在一段DNA序列中辨识每一种核苷酸碱基的发生作为个体数字信号,并将四种核苷酸信号的每一种变换至一个频域(frequencydomain)。接下来可以利用频率分量(fr叫uencycomponent)的数值得到一种核苷酸碱基模式以此频率重复的强度。较高数值/值通常提示所述重复(repetition)更强烈的表现。为了提高结果的可读性,现有技术公开了一些体系,其中每一种核苷酸碱基用一种颜色表示,四种碱基的频谱(fr叫uencyspectrum)合并在一起,表示为颜色谱图。这些技术由下列文献描述D.Anastassiou,"Frequency-DomainAnalysisofBiomolecularSequences,"Bioinformatics,Vol.16,No.12,December2000,pp.1073-1081;和D.Sussillo,A.KundajeandD.Anastassiou,"SpectrogramAnalysisofGenomes,"EURASIPJournalonAppliedSignalProcessing,SpecialIssueonGenomicSignalProcessing,Vol,2004,No.1,January2004,pp.29-42.将核苷酸碱基的数值/值翻译为可视图像,即谱图(spectrogram),是用于DNA分析的有力的可视化工具。得到的像素颜色可提示四种碱基在特定频率的相对强度,并且将DNA序列表示为有色图像使得模式更易于通过视觉检测辨识。通常,一个谱图区域的色调反映其整体核苷酸组成,谱图中亮线和斑点显示特殊重复模式的存在。可以将用于生成DNA谱图的算法或技术总结为如下五步。(i)建立正对四种核苷酸碱基的二值指示符系列(binaryindicatorsequences(BISs))uA[n],uT[n]和uG[n]。针对一个特定碱基的BIS在存在所述碱基的位置取值为"l",否则取值为"0"。因此,在一个具有核苷酸序列"AACTGGCATCCGGGAATAAGGTCT"的示例性DNA序列中,BIS翻译如下AACTGGCATCCGGGAATAAGGTCT...uA[n]=110000010000001101100000uT[n]=000100001000000010000101...ue[n]=001000100110000000000010...ueM=000011000001110000011000,..上述示例性BIS模式复制于图1。基于上述DNA序列,可以将BIS值如下作图(复制于图2):<image>imageseeoriginaldocumentpage10</image>(ii)肌游/^教/f屋^/"变翁D/續feFow*7V應/om,DF"。接下来通过使用方程(l)计算每一种碱基相应BIS的DFT获得每一种碱基的频谱^[*]=1>%[">",a^o,i,…,L肌2」+iz二乂,:t,c或g(i)序列C7/^/提供了在频率A:的频率组成(frequencycontent)的度量(measure),其与A^:样本(sample)的基础周期(underlyingperiod)相等(复制于图3)。#(UAn<formula>formulaseeoriginaldocumentpage10</formula>(iii)搭Z)7F遣狭教至^^颜色。将四个DFT序列通过下列线性方程组减少为RGB空间中的三个序列,所述方程总称为方程(2):Xr[A;]=a凡[A:]+[it]+cr"c[A]+gr"G(2)W=、^[A]+[A]+cg(/cW+gg"G其中(^,"g,A)、(",G,4)、(Cr,Cg,Q)和fe,&,A)是分别针对核苷酸碱基A、T、C和G的颜色映射向量。因此得到的像素颜色(《[k],Zg[k],A[k])是颜色映射向量的叠加,通过其各自核苷酸碱基的频率分量的数值进行加权,如下所示并复制于图4。<image>imageseeoriginaldocumentpage11</image>图5和图6进一步说明了根据本发明的示例性实施方案的DFT值至颜色的映射。因此,参考图5,颜色向量针对各种核苷酸碱基A、T、C和G分别进行选择。在选择颜色向量时,通常希望提高和/或增强DNA特征的颜色对比。基于示例性颜色向量,将DFT值合并在颜色空间中,如图6所示。也可以使用其他映射技术和/或方案,例如可以将DFT值映射至HueSaturationValue(HSV空间)、YCrCb空间^V」搭像z素^f/7—众。在形成颜色谱图前,通常将每一个像素的RGB值归一化,从而使它们落入0和1之间。有多种途径实现所述归一化功能。最简单的方法是用全部值除以全局最大值(globalmaximum)。然而,这种一步方法可能降低图像的整体颜色对比。一个更好的方法是在两个水平进行归一化在第一水平,用全部像素值除以一个统计学最大值,所述统计学最大值例如等于整体平均值(overallmean)加上一个标准偏差,从而在此初始运算后,大部分像素的RGB值在0和1之间;之后,在第二水平,对于剩下的具有任何大于一的RGB值的像素,第二水平的归一化通过用每一个这种像素值除以其局部最大值mw(x,,xg,A)而一个一个进行。这种两水平方法避免了图像的整体强度由于更极端的像素值被过度降低,并且作为结果,谱像的颜色对比可以被更好地保留。图7示出了图6中合并的DFT值的示例性归一化作图。(v)^"好像K^"務f57zoW-"weFowWwrra似/om2,S7F7)。直到今天,只有单一离散傅里叶变换(DFT)窗口被考虑。然而对于长DNA序列,对于沿着序列移动的DFT窗口可能需要重复步骤(i)至(iv)。这产生颜色像素的连续条带,其中每一条带代表一个局部DNA片段的频谱。之后由这些条带的串联形成DNA谱图。下面列出的图像复制于图8和9。a)5,麵05dna片段的颜色f15频率普b)3,stft窗口Yz;4+频率10,位置dna片段的颜色谱已知在D.Anastassiou的论文("Frequency-DomainAnalysisofBiomolecularSequences,"Bioinformatics,Vol.16,No.12,December2000,pp.1073-1081)中,称为方程(8)的方程组提出步骤(ii)和(iii)的顺序可以颠倒,即可以首先将四个二值指示符序列减少为三个数字序列,&,a),之后再进行离散傅里叶变换(DFT)。但是,这需要进一步的证明,因为所述二值指示符序列不是独立函数。谱图的样子受短时傅里叶变换(STFT)窗口大小的选择、两个相邻窗口之间重叠序列的长度、以及颜色映射向量的影响很大。基本上,窗口大小决定了谱图中像素值的有效范围。较大的窗口产生显示得自较长DNA局部片段的统计学的谱图,并在辨识较宽模式中是有用的。通常,应当使窗口大小比感兴趣的重复模式的长度大几倍,同时小于包含所述模式的区域的大小。窗口重叠(windowoverlap)决定了两个相邻STFT窗口中共有的DNA片段的长度。因此,所述重叠越大,频谱从一个STFT窗口向下一个窗口的过渡就越是渐进的。越小的窗口间隔得到越高的图像分辨率,从而越容易通过图像处理或视觉检测提取特征。但是,更小的间隔也通常要求更多的计算资源。参考授予Newdl的美国专利No.6,287,773,公开了一种用于在待测核酸序列例如特征未知的EST中检测功能性比对的蛋白质序列的已知模块(block)的方法。所述Newell'773方法包括(a)用密码子使用表将蛋白质序列组逆翻译为一组功能性比对的核酸序列,并由所述功能性比对的核酸序列组产生模式(profile);(b)针对所述模式构建第一指示函数(腺嘌呤);(c)针对所述待测核酸序列构建第二指示函数(腺嘌呤);(d)计算每一个指示函数的傅里叶变换;(e)对第二指示函数的傅里叶变换进行复共轭;(f)将第一指示函数的傅里叶变换和复共轭后的第二指示函数的傅里叶变换相乘得到匹配的腺嘌呤碱基数目的傅里叶变换;(g)针对鸟嘌呤、胸腺嘧啶和胞嘧啶重复步骤(b)-(f);(h)将分别针对每一种碱基的匹配数目的傅里叶变换相加,得到总傅里叶变换(totalFouriertransform);(i)计算所述总傅里叶变换的傅里叶逆变换得到一个复级数;和(j)取所述级数的实部确定对于与所述待测序列相关的模式的可能延迟(lag)的多样性的碱基匹配的总数。所述第一指示函数使得在给定位置的值作为在特定位置腺嘌呤的百分比存在(percentagepresence)的函数在O和1之间连续。所述方法接下来可以基于针对可能延迟(lag)的多样性的碱基匹配的总数检测待测核酸序列中功能性比对的蛋白质序列的已知模块的存在,即促进序列匹配。尽管直至现在已经付出很多努力,但是仍然需要促进基因组信息迅速可视化的系统和方法。另外,也需要促进辨识重复DNA模式的系统和方法,所述重复DNA模式例如CpG岛、Alu重复、非编码RNA、串联重复和各种类型的卫星重复。还需要能够辨识显示相似谱性质的结构上或组成上相似的模式的工具。这些工具将与用于以线性顺序或核苷酸表象对序列进行比对的序列比对工具不同。进一步地,还需要用于促进使用监督和/或无监督机器学习技术迅速、全面地分析谱图像的系统和方法。另外,还需要用于提高谱图像序列的分辨率的系统和方法,例如以使得完整基因组以希望的分辨率被迅速可视化。本发明公开的系统和方法满足了这些以及其他需要。
发明内容本发明提供了对于促进DNA谱分析有益的系统和方法,更特别地,提供了使用图像处理技术和/或信号处理方法以使DNA序列数据的处理整体上或部分自动化和/或加速的系统和方法。如本文中更加详细地描述的那样,本发明的示例性系统和方法支持一或多种下述DNA谱分析技术:(i)比较直方图方法;(ii)使用支持向量机和遗传算法的选择/分类;(iii)无监督分类和发现结构新颖的DNA片段;和(iv)基于得自DNA序列数据的谱图提取的谱视频方法。本发明公开的系统和方法有很多优点,包括(i)促进基因组信息的可视化,(ii)辨识重复DNA模式,例如CpG岛、Alu重复、串联重复、卫星重复等等,(iii)使用监督和/或无监督机器学习技术迅速、全面地分析谱图像,和(iv)提高谱图像序列的分辨率,例如以使得完整基因组以可变的及所希望的分辨率被迅速可视化。根据本发明的第一个方面,通过应用傅里叶变换将由字母A、T、C、G组成的用符号表示的DNA序列变换为突出显示DNA模式共发生周期性(periodicitiesofco-occurrence)的可视表现而生成DNA谱图。本发明的系统和方法通过应用图像处理算符以在DNA谱图的垂直和水平方向上发现显著特征而促进重复DNA模式的辨识和/或定位。使用监督和/或无监督机器学习方法(machinelearningmethod)进行衍生的谱图像的迅速、全面分析。在监督模式中,根据本发明检测并对重复DNA模式分类的两种示例性方法包括(a)比较直方图方法,和(b)包括使用支持向量机和遗传算法的特征选择和分类的技术。本发明的图像处理算符对于辨识和/或定位DNA模式是有效的,所述DNA模式例如CpG岛、Alu重复、非编码RNA(例如微小RNA和核仁小分子RNA)、串联重复、各种类型的卫星重复等等。可以使用所述图像处理算符在多种生物学系统中辨识和/或定位重复元件,例如在染色体中、在基因组中、或跨(across)各种物种基因组辨识和/或定位。本发明的系统和方法克服了现有方法的局限,即处理DNA序列或基因组产生极大量的谱像,但是这些图像不能以有效的和可靠的方式得到或阐明重复模式的定位和/或将这些重复模式与生物学意义或临床意义联系起来。根据本发明的第二个方面,通过将DNA序列变换为二值指示符序列并接下来应用短时傅里叶变换并映射至颜色空间以使得输出结果可视化而生成DNA谱图。所述DNA谱图沿着DNA序列滑动以产生视频图像。所述称为"谱视频(spectrovideo)"的视频图像可以生成自非常长的DNA序列例如长DNA序列如染色体或完整基因组,以促进其可视化。与同一段序列的传统DNA谱图相比,本发明的谱视频具有更高的分辨率。另外,本发明的谱视频促进了基因组在短时间内以所希望的分辨率被可视化。可以使用谱视频分析提供或促进全基因组分析和/或在全长DNA模式(或其所希望的部分)中检测变化。对于谱视频来说,可以使用场景变换检测(scenechangedetection)方法发现线性可视特征中的中断(break)。另外,对于谱视频中的每一个场景,可以从谱区域(spectraldomain)中提取统计学特征。进一步地,来自全部(或基本上完整)的谱视频的单个场景可以使用监督聚类方法(clusteringmethod)进行聚类。事实上,可以使用本发明的无监督视频特征检测方法在谱DNA水平辨识和/或揭示全基因组相似性(genome-widesimilarities)。因此这些分析技术可以用于自动DNA分析,例如发现基因网络、重要基序、重复DNA元件、和其他显著DNA模式。从下面的详细描述中,特别是当与附图结合阅读时,可以清楚地看到本发明的系统和方法的其他有益特点和功能。为了有助于本领域普通技术人员制造和使用本发明的系统和方法,给出关于附图的参考,其中-图1示出了根据本发明使用的谱成像(spectralimaging)技术对于一段DNA序列的示例性二值指示符序列(BIS);图2示出了图1中示出的示例性BIS的作图;图3示出了图1和2中的示例性BIS的离散傅里叶变换(DFT);图4阐明了图3中示例性DFT值至颜色空间的映射;图5阐明了图3中示例性DFT值至颜色空间基于说明性颜色向量(illustrativecolorvector)的映射;图6示出了根据本发明DFT值在颜色空间中的求和;图7示出了颜色空间中DFT求和值的归一化作图;图8是一段DNA序列的示例性颜色谱(以灰度复制);图9是根据本发明示例性DNA片段的多个颜色谱条带的示例性串联;图lO是示例性CpG岛的谱像;图11是图10的CpG岛的谱像,限制为红色和绿色;图12示出了根据本发明一系列去噪后的谱图;图13是根据本发明基于绿色和红色的谱图的谱图像和边缘测量(edgemeasurements);图14示出了提取自示例性基于RGB的谱图的边缘和与其相关联的相关CpG岛分类;图15示出了根据本发明的示例性比较直方图方法/技术的流程图;图16和17是示出使用通过颜色映射得到的谱图的边缘直方图进行CpG岛检测的示例性作图;图18示出了根据本发明的示例性遗传算法-支持向量机(GA-SVM)方法/技术的流程图;图19示出了根据本发明的用于产生谱视频的示例性方法/技术的流程图;图20是得自根据本发明的示例性谱视频的图像。示例性实施方案描述本发明的系统和方法促进DNA谱分析。如本文所述,示例性系统和方法支持和/或利用下列DNA谱分析技术中的一种或几种:(i)比较直方图方法;(ii)使用支持向量机和遗传算法的选择/分类;和(iii)基于得自DNA序列数据的谱图提取的谱视频方法。根据本发明可以实现许多益处,例如(i)提高基因组信息的可视化,(ii)辨识重复DNA模式例如CpG岛、Alu重复、非编码RNA、串联重复、卫星重复等等,(iii)无监督分类和发现结构新颖的DNA片段;(iv)使用有监督的和/或无监督的机器学习技术迅速、全面分析谱图像,和(iv)提高谱图像序列的分辨率,例如以使得完整基因组以所希望的分辨率被迅速可视化。根据本发明的系统和方法,DNA谱图以传统方式产生,如前文所详细描述的并参考图l一9。例如,可以使用需要下列五个步骤的传统算法或技术产生DNA谱图(i)建立^对拜辨^穿麼滅基游二^^示,序^^'"^7zW/c她r化《we"cesz^/""J、wj/""_/、wc/"7浙"g/""7。如上所述,示例性BIS模式复制于图1,所述BIS值的作图示于图2。(ii)^S游庸教/,I/^变凍(E^"。通过使用方程(l)(复制如下)计算每一种碱基相应BIS的DFT获得每一种碱基的频谱W-l—^jtn""W=i;"x["]fi,t=0'l,...,L^/2」+lZ-AT'C或G(1)如图3所|萄°明的,序列t/A/提供了在频率A的频率组成的度量,其与A^样本的基础周期相等。(iii)/孕D7F澄俠嚴至iG5廯色。将四个DFT序列通过一组线性方程减少为RGB空间中的三个序列,所述方程复制如下<formula>formulaseeoriginaldocumentpage18</formula>(2)<formula>formulaseeoriginaldocumentpage18</formula><formula>formulaseeoriginaldocumentpage18</formula>其中(A,"g,W),("~,&),(CV,Cg,Q)和(&,&,^)是分别针对核苷酸碱基A、T、C和G的颜色映射向量。因此得到的像素颜色(《[k],Xg[k],A[k])是颜色映射向量的叠加,通过其各自核苷酸碱基的频率分量的数值进行加权(见图4)。图5和图6阐明了DFT值至颜色的映射。(iv)将像素值归一化。在形成颜色谱图前,通常将每一个像素的RGB值归一化,从而落入0和1之间。图7示出了图6中合并的DFT值的示例性归一化作图。(v)嚴好/莩屋/^变袭(S7F"o—幅DNA谱图由各个DNA序列条带的串联形成,其中每一条带通常代表一个局部DNA片段的频谱(见图8和9)。根据本发明,CpG岛可以从产生的DNA谱图像中方便地提取。CpG岛在基因组中含有5-甲基胞嘧啶的生物体中是基因的启动子区域中重要的生物学标记,并且在脊椎动物中CpG岛在细胞分化和基因表达调节中起重要作用。CpG岛被Gardiner-Garden和Frommer定义为具有至少200个碱基对(bp)的区域,其中C+G含量大于50%并且观察到的/预期的CpG比例大于0.6。CpG岛也被Takai和Jones定义为大于500bp的区域,其中C+G核苷酸含量至少为55%并且观察到的/预期的CpG比例为0.65。注意Takai和Jones的定义的目的是将CpG岛更可能地还原为与基因的5'区域相联系,并且排除大部分Alu重复元件。在两种定义中,观察到的/预期的CpG比例通过(C的数目xG的数目/片段长度)得到。参考图10,示出了在中心显示CpG岛的两幅示例性谱图。STFT窗口大小选择为120碱基对(bp),相邻两个窗口之间重叠119bp。注意在从谱图像中提取CpG时,通常不需要将A和T、C和G区分开。因此,不需要使用四个颜色向量分别用于四种核苷酸碱基,可以使用两个颜色向量,例如红(1,0,0)用于A和T,绿(O,l,O)用于C和G。相应谱图示于图11,并且在两幅图像中,CpG岛与背景的对比度都更好。这种对于颜色向量的选择也使得可以仅仅考虑红色和绿色颜色分量,而蓝色分量可以忽略。因此,本发明的颜色选择技术使得和/或促进图像的生成,其中特征更加易于分辨,即通过采用最佳颜色配置(optimalcolorscheme)得到更强的提取性能。通常,图像特征检测方法可以包括三个步骤(i)图像去噪,(ii)提取分类特征,和(iii)通过评估所述分类特征做出决定。根据本发明的系统和方法,不需要谱图像的去噪,尽管通常可以通过包括进一个适当的去噪步骤得到更强的结果。图像去噪原谱像含有噪声,除去噪声可以提高或增强检测可靠性、效率和/或性能。谱像的去噪可以使用一个或多个形态运算(morphologicaloperation)实I见。例如,通过进行形态开(morphologicalopening)之后进行形态闭(morphologicalclosing),可以除去弱像素的小区域。之后,一起关闭的含有强像素的区域可以合并。去噪通常在绿色和红色颜色空间中分别进行。仔细选择用于形态运算的结构元素(structuralelement)的形状和大小,从而使噪声被过滤掉,同时有用的详细信息保留在谱图中。已经发现高度为l像素、长度为50像素的矩形结构元素可以为与检测CpG岛相关的去噪运算提供有效参数。示例性去噪后的谱图示于图12,其中左边图像仅包括绿色和红色通道图像,相应右边图像为形态"闭"后进行"开"过滤之后。分类特征的提取通过视觉检测已经发现在CpG岛中,绿色(表示C和G)的强度通常强于红色(表示A和T)。另外,红色的强度在区域中典型地均匀地低,即基本上均一,但是在绿色空间中强度有较大波动,这从一个或多个亮点聚类(cluster)来看是很明显的。为了探讨前述均一/不均一问题,本发明的系统和方法有利地促进更强地提取分类特征。因此,根据本发明的示例性实施方案,在去噪之后的谱图上分别在绿色和红色空间中进行'Sobel,边缘检测。如本领域通常已知的,Sobel算符是计算图像强度函数的梯度逼近(approximationofthegradient)的离散微分算符(discretedifferentiationoperator)。在图像上的每一点,Sobel算符的结果或者是相应梯度向量,或者是这个向量的模。也可以使用其他边缘检测技术而不超出本发明的主要精神或范围,例如Canny边缘检测器(Cannyedgedetector)。将Sobel边缘检测应用于去噪的谱图得到边缘的二元图像,其相应于与其相邻像素具有较大强度差别的像素。已经经常发现在绿色空间中比在红色空间中有更多的边缘像素相应于CpG岛。通过边缘检测生成的二元图像通过分别沿着x轴(STFT窗口位置)和y轴(谱频率)计数边缘像素的数目被进一步处理。作为结果,得到四幅直方图对于绿色和红色空间的x-和y-直方图。最后,通过对于每一幅计算移动平均值(movingaverage)使前述直方图平滑。图13示出了反映对于基于绿色和红色的谱图的边缘读数的示例性谱像。图13的左栏示出原始图像,右栏示出在应用具有正方形2x2掩模的Sobel边缘检测之后的相应图像。右边的图像示出水平和垂直边缘直方图。因此,分类特征的提取受一系列参数的影响,所述参数可用本发明的系统和方法研究。影响分类特征的提取并根据本发明控制的参数包括(i)边缘检测方法,(ii)边缘检测的阈值,和(iii)移动平均值窗口的大小。通过评估分类特征做出决定当一幅谱图像的分类特征被辨识,即可根据本发明的系统/方法预期可以提供用于CpG岛的分类器(classifier)。用于产生分类器的两种示例性方法是(i)固定阈值方法(fixed-thresholdapproach),禾叩i)遗传算法/支持向量机(GA-SVM)方法。在本发明的固定阈值方法中,以如下途径方便地提取CpG岛(i)(x一直方图—绿色-x—直方图—红色)>阈值(在此实例中=2)(ii)弃去满足(1)的长度<200bp的区域。(m)合并同时满足(l)和(2)并且间隔小于100bp的区域。参考图14,边缘从将碱基'A,、T,映射至红色和'C,、'G,映射至绿色的颜色谱图中提取。显示为红色和绿色的边缘像素从相应颜色空间中独立提取。可以使用另一种颜色例如黄色表示与红色和绿色边缘共存相关的结果。如从示例性图13中非常明显地看到的,对于CpG岛,在直方图中沿着x轴的绿色像素的计数明显超过红色像素的计数。基于前面所述的CpG岛辨识准则,一个CpG岛被辨识为位于该DNA片段的1102至1322位核苷酸。作为比较,基于Gardiner的和Takai的定义的CpG岛也示于图14,即Gardiner(855,1524)和Takai(744,1243)。应当注意,本文列出的CpG岛辨识准则与Gardiner的和Takai的定义/准则相比是更加严格的,至少对于图14中的示例性谱图来说如此。对于本领域技术人员来说显而易见的是,CpG岛辨识准则可以通过改变可用参数值而调整。因此,在更广泛的意义上来说,本发明的示例性直方图比较系统和方法包括下列步骤、图15中示出其流程图。尽管本文示出的步骤顺序代表了本发明的系统/方法,但是应当明白本发明的系统和方法不限于本文示出的顺序。另外,本发明的系统和方法并不排除引入一或多个可以进一步增强或促进辨识过程的额外步骤,本发明的系统和方法的范围也不限于进行本文公开的每一个步骤的实现,这从本文提供的详细描述中可以明显看到。示例性比较直方图/固定阈值处理系统和方法1.向本发明的系统/方法输入长度为M的DNA序列参数N-STFT窗口大小,q-重叠,p-视分辨率(其中Mp>N)2.将长度为N的输入DNA序列变换为二值指示符序列;3.将短时傅里叶变换(STFM)应用于所述二值指示符序列并产生频域向量;4.将对于A、T、C和G的频域向量映射至颜色空间,例如RGB(红-绿-蓝)或HSV(色调-饱和度-值)颜色空间;5.使用传统边缘检测方法(例如Sobel或Canny边缘检测器)将边缘检测应用于DNA谱图像;6.针对来自RGB的红色、绿色、蓝色分量(或HSV分量,如果使用HSV颜色空间)通过使用边缘投影(edgeprojection)分别计算水平和垂直直方图。直方图也可以表示合并的颜色。例如C和G可以合并,并由绿色分量表示,A和T可以合并以表示红色分量;7.评估直方图数据。例如,对于CpG岛,可以使用下述提取准则(1)(x一直方图J录色-X-直方图—红色)>阈值(例如等于2)(2)弃去满足(l)的长度〈200bp的区域。(3)合并同时满足(l)和(2)并且间隔小于100bp的区域。8.将满足评估准则的DNA片段标记为重复元件,并且标记/记录起始和终止位置(例如CpG岛)。对于完整基因组和/或跨基因组,也有其他类型的DNA序列可以在结构水平表现重复特征。近来认识到重要功能性作用可以通过非编码RNA进行和/或与非编码RNA相关。产生发夹结构的DNA序列代表了一类这样的非编码RNA。例如,微小RNA(miRNA)是转录后调节基因表达的小RNA。麻省理工学院Whitehead学院的生物学教授DavidBartel认为miRNA可能调节人类全部基因的三分之一(CW/,CellPress,January14,2005)。本发明的处理技术典型地通过在合适的处理单元(processingunit)上运行/操作的合适的软件/程序实现。所述处理系统可以是独立运行的,例如个人计算机,或者与网络相联系(内联网、外联网、通过因特网沟通的分布式网络等等)。所述处理单元/系统典型地与合适的记忆/存储设备沟通,例如为了接触包含与本发明的系统/方法相关联的参数和值的软件/程序、数据库,以及为了(短期和长期)存储通过本发明的系统/方法产生的值/数据/图像。本发明的处理单元/系统还典型地与一或多个输出系统沟通以展示和/或记录根据本发明生成的值/数据/图像,所述输出系统例如打印机、监视器等等。因此,简而言之,本发明的系统和方法易于进行基于计算机和/或处理器的实现,如本领域技术人员已知的。对于本发明的示例性GA-SVM方法/技术,使用具有遗传算法的支持向量机评估一组特征(例如一组基于图像的特征)的质量并对其进行分级(rank)。在示例性实施方案中,本发明的评估/分级功能性(fimctionality)对于辨识例如CpG岛是有效的。另外,也可以使用递归特征消除方法(recursivefeatureeliminationmethod)和/或主成分分析(principalcomponentanalysis)以发现显著特征。注意,现有CpG岛定义,例如Gardiner和Takai的定义,指导本发明的系统和方法的实现,尽管其他定义也可以适用,这对于本领域技术人员是显而易见的。本发明的GA-SVM方法/技术的一个典型目的是发现用于CpG岛分类的特征。本发明的GA-SVM方法/技术通常包括使用具有遗传算法的支持向量机评估一组特征的质量并对其进行分级,例如用于辨识CpG岛。因此,例如可以使用本发明的GA-SVM方法/技术从具有给定长度的DNA片段,例如长度为200个碱基的DNA片段中提取已确定数目的特征,例如127个特征。根据本发明的示例性实施方案,所述特征集合的组成如下(特征总数=127):绿色像素数目(1)红色像素数目(l)绿色边缘像素数目(l)红色边缘像素数目(l)绿色边缘像素数目减去红色边缘像素数目(l)沿着频率轴的红色边缘直方图计数(61)沿着频率轴的绿色边缘直方图计数(61)可以使用各种CpG岛定义,例如Gardiner的和/或Takai的CpG岛定义。基于所选择的定义,典型地根据本发明的GA-SVM方法/技术生成大量特征,例如对于每一个谱像127个特征。总之,根据本发明的一个示例性实施方案,使用3206个DNA片段,这些片段被变换为谱图。所述特征集合从表现CpG或非CpG类别的谱图中提取。根据本发明,使用输入数据的预定百分比"训练"所述支持向量 机,例如可以使用输入数据的三分之二训练SVM(见下表)。剩余数据(例如总数的三分之一)用于本发明的GA-SVM方法/技术的测试目的。初步结果已经显示在上述127个特征中,最佳特征集合由57个元素组成,并且已经达到了最佳准确性67%。本发明的示例性GA-SVM方法/技术包括下列运算参数序列总数:<table>tableseeoriginaldocumentpage24</column></row><table>实验次数100,000如本文所描述的,示例性实施基于将碱基'A'、'T'和'C'、'G'分别分组至红色和绿色的颜色映射设置(scheme)。在这些实施中,只需要在提取算法中考虑红色和绿色分量以辨识CpG岛。但是,根据本发明,也可以使用其他颜色映射设置,在这种情况下可能需要考虑全部其他三层颜色R、G和B(或HSV)。如果合适,可以调整特征集合和选择准则以进行另外的颜色映射设置,基于本文提供的详细描述,这对于本领域技术人员是显而易见的。参考图16和17,给出了CpG岛检测结果,其中在使用颜色映射得到的谱图中使用边缘直方图。用于特征选择和分类的示例性GA-SVM系统和方法1.输入向本发明的系统/方法输入长度为M的DNA序列参数N-STFT窗口大小,q-重叠,p-视分辨率(其中Mp>N)2。将长度为N的输入DNA序列变换为二值指示符序列;3,将短时傅里叶变换(STFM)应用于所述二值指示符序列并产生频域向量;4.将对于A、T、C和G的频域向量映射至颜色空间,例如RGB或HSV;5.使用传统边缘检测方法(例如Sobd或Canny边缘检测器)将边缘检测应用于DNA谱图像;6.针对红色、绿色、蓝色分量(或HSV分量)通过使用边缘投影分别计算水平和垂直直方图。直方图也可以表示合并的颜色。例如C和G可以合并,并由绿色分量表示,A和T可以合并以表示红色分7.使用特征选择方法评估一组显著谱特征并对其进行分级,所述方法使用具有遗传算法的支持向量机。或者,可以使用递归特征消除方法和/或主成分分析以发现显著特征。例如可以使用下述特征127个特征(提取自N个碱基长的DNA片段,其中N可以变化;在一个示例性实施方案中,N是200bp长)绿色像素数目(1)红色像素数目(l)绿色边缘像素数目(l)红色边缘像素数目(l)绿色边缘像素数目减去红色边缘像素数目(l)沿着频率轴的红色边缘直方图计数(61)沿着频率轴的绿色边缘直方图计数(61)8.使用得自上一步的顶级特征的一个子集设计/实现分类器。在本发明一个示例性实施方案中,使用支持向量机分类器;但是,也可以使用其他分类器而不背离本发明的精神或范围,例如可以使用神经网络(neuralnetwork)、自组织映射(self-organizingmap,SOM)技术/系统及其他机器学习文献中已知的分类器。所述分类器检测未知的输入DNA序列并将其分类进具有重复DNA结构(例如CpG岛)的子片段。9满足评估准则的DNA片段被标记为重复元件,并且起始和终止位置被标注/记录下来(例如CpG岛)。图18示出了用于特征选择和分类的示例性GA-SVM系统/方^去的流程图,如本文前面所描述的。如同上述比较直方图/固定阈值处理系统和方法那样,本发明的GA-SVM系统/方法典型地通过在合适的处理单元上运行/操作的合适的软件/程序实现。所述处理系统可以是独立运行的,例如个人计算机,或者与网络相联系(内联网、外联网、通过因特网沟通的分布式网络等等)。所述处理单元/系统典型地与合适的记忆/存储设备沟通,例如为了接触包含与本发明的系统/方法相关的参数和值的软件/程序、数据库,以及为了(短期和长期)存储通过本发明的系统/方法产生的值/数据/图像。本发明的处理单元/系统还典型地与一或多个输出系统沟通以展示和/或记录根据本发明产生的值激据/图像,所述输出系统例如打印机、监视器等等。因此,简而言之,本发明的系统和方法易于进行基于计算机和/或处理器的实现,如本领域技术人员己知的。本发明的比较直方图/固定阈值和GA-SVM系统/方法具有很宽的适用性和用途。例如重复DNA谱分析可以用于迅速全基因组分析和用于辨识/发现长DNA序列的显著模式。事实上,辨识这些模式可用于DNA序列的表观基因组分析(epigenomicanalysis),这对于研究和诊断癌症、衰老和发育疾病是重要的和/或有用的。值得注意的是监督和无监督分类都可以在不将FFT结果映射至颜色空间的情况下进行。可以从所述4-变换的二值指示符序列中直接提取特征。在这种情况下,输入是FFT变换二值指示符序列,而不是RGB谱像。归一化可以是一个任选步骤。剩余分析在由合并以表示全向量(表示每一个DNA片段)的4-变换的指示序列组成的特征向量上进行。用于从谱图生成谱视频的系统/方法本发明的另一方面公开了用于从与DNA序列相关的谱图生成谱视频的系统/方法。非常长的DNA序列(例如可达1亿5千万碱基长的染色体)的频谱以任何所希望的分辨率都不能拟合进单一谱图框。不同于只看单幅图像,本发明的示例性系统和方法促进从谱图生成连续的视频。本发明的谱视频基本上相应于跨基因组或感兴趣的其他DNA序列"移镜(panning)"。通过谱视频,实现了在短时间内和以所希望的分辨率使基因组可视化。另外,谱视频的分析提供了全基因组分析并使得检测全长DNA模式中的改变成为可能。与同一序列的谱图相比,本发明的谱视频提供了同一序列更高的分辨率。如本文所公开的,谱视频的生成和应用提供了大量优点和/或功能性,包括-连续观察完整基因组,而不是保存及显示单幅谱图;节省时间谱视频通过将DNA谱图接在一起产生,而每次观察一幅谱图是非常耗费时间的;分析连续线性基因组模式。在低分辨率,这些模式可能延展超出单一谱图范围。使长序列在希望的分辨率和细节的精细水平可视化。能够在观察谱视频进行中改变分辨率。例如当一种感兴趣的模式出现时,本发明的系统/方法促进立即"跳"进特定子序列的更详细的细节中。本发明用于将谱图翻译为谱视频的系统/方法可以通过软件/计算机程序实现。根据本发明一个示例性实施方案,提供软件/程序以在处理单元/计算机上进行运算,这种软件适于通过跨DNA序列(例如从5,至3'端)逐步移镜谱窗口而显示完整DNA序列(或所希望的一部分)的频谱。本文描述了用于完成本发明的谱视频的示例性程序/算法。同时参考图19中列出的流程图。用于生成谱视频的示例性算法/程序(1)输入向本发明的系统/方法输入长度为M的DNA序列参数N-STFT窗口大小,q-窗口间隔(N-窗口重叠),p-视分辨率(视频图像的宽度),和v-视速度,即每帧视频移动的谱图像栏(column)的数目(其中Mp>N)。(2)初始化S=l;r=l。(3)对于全长DNA序列的长度为p的片段或子序列,在位置s开始;(4)在位置r开始将长度为N的输入DNA序列变换为二值指示符序列;(5)将短时傅里叶变换应用于二值指示符序列并产生频域向量;(6)将对于A、T、C和G的频域向量映射至颜色空间,例如RGB或HSV颜色空间;(7)如果(r-s+l)<p,则将结果可视化并向前移动q个核苷酸r=r+q。转至步骤4。(8)如果之前没有显示DNA谱像,则显示谱像。r=r+q。转至步骤4。(9)如果(r-s+l)<p+vq,则从谱像中删除第一栏并将最新生成的栏添加在最后。r=r+q。转至步骤4。(10)如果(r-s+l)>=p+vq,贝U显示谱像。s=S+Vq。r=r+q。(11)如果(r+N-l)<=M,则转至步骤4。(12)根据每个用户的要求调整视速度v。正常速度是每帧视频移动l栏。参考图20,示出了来自一段谱视频的示例性图像。如图20的图像(其受限于是静止的而不是移动的图像)中显而易见的那样,本发明的相关于谱视频的系统和方法提供了用于回顾和分析DNA序列的显著优点,例如用于已知和未知生物标记的检测。另外,对于谱视频可以使用场景变换检测方法发现线性可视特征中的中断。对于谱视频中的每一个场景,可以从谱区域中提取统计学特征。进一步地,来自全部(或基本上完整)的谱视频的单个场景可以使用无监督聚类方法进行聚类。事实上,可以使用如下更加详细地讨论的无监督视频特征检测方法在谱DNA水平辨识和/或揭示全基因组相似性。因此这些分析技术可以用于自动DNA分析,例如寻找基因网络、重要基序、谱和结构重复DNA元件、和其他显著DNA模式。无监督谱图和谱视频分析根据本发明的示例性实施方案,谱图可以用于无监督探索基因调节元件和网络。事实上,根据本发明可以预期大规模谱图分析以发现重要调节元件。可以使用无监督方法例如层次聚类(hierarchicalclustering)以确定最普遍的模式的分组。通常可以辨识/定位遍布基因组的最常见的模式而无需依赖核苷酸发生的线性相关性(即简单统计度量)。生物信息学中的传统方法使用多序列比对以发现超保守片段(ultra-conservedsegment)。然而,通过谱分析,可以使用本发明的系统和方法辨识基因组中发生的进化的和/或缓慢改变的变化,以及非超保守但是通常保守的元件。使用大规模谱图分析技术,本发明的系统和方法促进基因组的扫描并聚焦于谱保守序列一从发生的模式的相似频率的角度。不同于关注线性核苷酸顺序,本发明的系统/方法方便地检查可能只有从谱表现来看才是明显的,而用序列比对则很难辨别的结构特征。本发明的技术/方法的一个优点是单一染色体内每一种重复谱模式(repetitivespectralpattern)的分布可被例如跨整个染色体和基因组可视化。事实上,本发明的分析技术可以跨基因组应用以辨识已知的和新的模式。以这种方式可以有效地鉴定长重复元件,例如从几百碱基对到几十万碱基对,例如Alu、短发夹结构(例如微小RNA)、SINE、LINE、和CpG岛。另外,可以显示不同分辨率的模式在200bp窗口中和在100Kbp长的窗口中。这促进了新类别的重复元件的检测。在应用可使用的算法之前,可以掩盖某些重复元件,例如用户不感兴趣的元件。本文下面描述了示例性的方法/算法步骤1.对于输入DNA序列(例如染色体),用STFT窗口W(其中W〈L)生成长度为L(L是核苷酸数目)的谱图S1,并且窗口重叠为V,其中V〈W。步骤2.向右移动R个核苷酸并生成谱图Si直至到达DNA序列的末端。步骤3.对于在步骤1和2中成生的所有谱图,进行基于图像的无监督聚类(例如k-均值聚类、层次聚类)。根据本发明的方法/算法所使用的示例性相似性度量(similaritymetric)包括任何基于图像的相似性度量,例如生成C个聚类的L1度量。用于聚类的特征可以包括颜色、纹理、图像中出现的特定对象线、方块、对角线等等。步骤4.找到最大的聚类,取聚类的中心,并针对一个已知基因组资源进行搜索以发现这个聚类的元素的标签类别。例如,这可以揭示在一个特定染色体上的最为重复的元件;步骤5.选择(a)或(b)中的一个-(a)随机选取距离聚类中心最远的P幅谱图,并进行类别标签搜索。验证它们也属于同一类别。(b)使谱图和在谱图集合中的全部元件的类别标签的类型对用户可视化。如果一幅谱图处于一个聚类中,其中心已知但是距离聚类中心较远的谱图未知,则指定新元件作为聚类中心的类别标签并使区别可视化。步骤6.继续对第二大的聚类进行操作,执行/重复步骤(5)和(6)。继续对下一个最大的聚类进行操作直至聚类中心一类别标记是未知的。记为K个聚类具有已知标记,U个聚类具有未知标记。步骤7.对于具有未知标记、具有相当聚类大小的(典型地,至少最大聚类中的元件的最大数目的半数)所有U个聚类找到该模式的普遍性、在同一染色体中的统计学分布。找到跨染色体的统计学分布。步骤8.以给定的步长(例如步长=1)增加V并转至步骤(l),直至V达到W的一半,之后转至步骤(9)。步骤9.以给定的步长增加W并转至步骤(1),直至W达到L的一半,之后转至步骤(10)。步骤10.增加L并转至步骤(l)。步骤11.在V、W、和L的每一个水平总结结果。如同对于本领域技术人员所显而易见的,本发明的方法/算法可适于基于计算机的运算/实现,从而促进其自动运算。事实上,本发明的方法/算法可以方便地以无监督方式进行,从而无需用户监督和/或干预而生成用于DNA序列的V、W和L值。根据本发明,新元件可以使用步骤5通过关联性(association)辨识,即本发明的方法/算法促进具有潜在显著相似性的序列的辨识,所述相似性之前未被认识到和/或未被重视。事实上,得自第一物种的序列可以充分并且有效地与得自不同物种的已经测序的基因组进行比较以在这些物种的DNA序列中确定和/或辨识潜在的新元件。另外,新类别的元件可以通过前述方法/算法的第7步中所述技术从DNA序列中辨识出来。这些类型可以根据本发明针对其他基因组充分并且有效地进行探索。本发明的方法/算法的进一步的应用包括基因组内比较用于大规模分析的算法可以应用于已经研究的基因组的每一条染色体。之后,全部聚类中心可用于进行整体聚类(overallclustering)以发现对于该基因组的功能性重要元件(跨染色体)。比较基因组学用于大规模分析的算法可以应用于已知的200十种已经测序的基因组中的每一个基因组。之后,全部聚类中心可用于进行整体聚类以发现进化过程中的功能性保守元件。谱视频分析以发现全基因组模式在本发明进一步的示例性实施方案和实现中,可以将场景变换检测方法应用于根据上面描述的技术生成的谱视频,以在重要的线性可视特征中发现中断。对于每一个场景,可以提取来自谱域的统计学特征。另外,完整谱视频中的单个场景可以使用无监督聚类方法进行聚类。之后可以应用无监督视频特征检测方法揭示谱DNA水平的全基因组相似性。之后可以将这些无监督检测方法的结果用于自动DNA分析,以发现基因网络、重要基序、重复DNA元件和其他显著DNA模式。用于进行这种无监督检测的示例性方法/算法描述如下步骤1.生成给定DNA序列(例如一部分或完整染色体)的谱视频;步骤2.提取特征,例如给定窗口的水平和垂直边缘直方图、颜色、边缘长度、特定柱上相同颜色的数目,等等;步骤3.发现谱剪切(spectro-cut),例如使用提取的特征发现连续模式一这个技术与在胶片中发现"剪切(CUt)"相似。步骤4.聚类场景,例如存储每一个谱剪切的特征。事实上,可以使用这些特征聚类谱剪切,如同在视频中聚类场景那样。步骤5.发现具有最长元素的聚类,例如分类顺序(sortorder)并使具有特定长度的"场景"可视化。步骤6.査询同样长度的谱元素,例如属于单一场景的那些。相应于一个谱剪切的每一个片段可以针对已知基因组资源(例如NCBI)方便地査询以确定任何己知的功能重要性。因此,本发明的系统、方法和技术提供了一系列在评估、确定和/或辨识DNA序列中的重复模式、以及将这些模式与生物学和/或临床重要性相联系的有价值的工具。尽管所述系统、方法和技术通过参考其示例性实施方案所描述,但是应当了解本发明不仅限于这些示例性实施方案。相反,如同对于本领域技术人员显而易见的那样,本发明的系统、方法和技术适于进行广泛的变化、修饰和/或改进,而不背离本发明的精神或范围。本发明在其范围内清楚地包括这些变化、修饰和/或改进。权利要求1.一种用于评估在DNA序列中存在值得注意的区域的方法,包括a.提供DNA序列;b.基于所述DNA序列生成多个谱图;c.对于所述多个谱图执行至少一种下列功能(i)生成谱视频,(ii)比较直方图分析,(iii)大规模特征选择和分类(例如对于已知DNA功能元件),和(iv)无监督分类和发现结构新颖的DNA元件。2.权利要求1的方法,其中所述DNA序列代表基因组、染色体或其部分。3.前述任一项权利要求的方法,其中所述多个谱图的生成包括一或多个下列步骤(i)输入DNA序列,(ii)将DNA序列变换为二值指示符序列,(iii)将短时傅里叶变换应用于二值指示符序列以产生频域向量,(iv)将频域向量映射至颜色空间,(v)将边缘检测应用于DNA谱图像;和(vi)计算水平和垂直直方图。4.前述任一项权利要求的方法,其中所述谱视频的生成包括适于在处理单元上运行的算法。5.权利要求4的方法,其中所述算法包括-(a)输入长度为M的DNA序列;参数N-STFT窗口大小,q-窗口间隔(N-窗口重叠),p-视分辨率(视频图像的宽度),和v-视速度,即每帧视频移动的谱图像栏的数目(其中Mp>N);(b)初始化S=l;r=l;(c)对于全长DNA序列的长度为p的片段或子序列,在位置s开始;(d)在位置r开始将长度为N的输入DNA序列变换为二值指示符序列;(e)将短时傅里叶变换应用于二值指示符序列并产生频域向量;(f)将对于A、T、C和G的频域向量映射至颜色空间,例如RGB或HSV颜色空间;(g)如果(r-S+l)〈p,则将结果可视化并向前移动q个核苷酸r=r+q,转至步骤(d);(h)如果之前没有显示DNA谱像,则显示谱像,r=r+q,转至步骤(d);(i)如果(r-s+l)<p+vq,则从谱像中删除第一栏并将最新生成的栏添加在最后,r=r+q,转至步骤(d);(j)如果(r-s+l)>=p+vq,则显示谱像,s=s+vq,r=r+q;(k)如果(r+N-l)<=M,则转至步骤(d);(1)根据每个用户的要求调整视速度v,正常速度是每帧视频移动l栏。6.前述任一项权利要求的方法,其中比较直方图分析包括(a).输入长度为M的DNA序列;参数N-STFT窗口大小,q-重叠,p-视分辨率(其中Mp>N);(b)将长度为N的输入DNA序列变换为二值指示符序列;(c)将短时傅里叶变换(STFM)应用于所述二值指示符序列并产生频域向量;(d)将对于A、T、C和G的频域向量映射至颜色空间,例如RGB(红-绿-蓝)或HSV(色调-饱和度-值)颜色空间;(e)使用传统边缘检测方法(例如Sobel或Canny边缘检测器)将边缘检测应用于DNA谱图像;(f)针对红色、绿色、蓝色分量(或HSV分量)通过使用边缘投影分别计算水平和垂直直方图,直方图也可以表示合并的颜色,例如C和G可以合并,并由绿色分量表示,A和T可以合并以表示红色分量;(g)评估直方图数据,例如,对于CpG岛,可以使用下述提取准则(i)&_直方图_绿色-、直方图—红色)>阈值(例如等于2)(ii)弃去满足(1)的长度<200bp的区域(iii)合并同时满足(l)和(2)并且间隔小于100bp的区域(h)将满足评估准则的DNA片段标记为重复元件,并且标记/记录起始和终止位置(例如CpG岛)。7.前述任一项权利要求的方法,其中特征选择和分类包括-(a).输入长度为M的DNA序列;参数N-STFT窗口大小,q-重叠,p-视分辨率(其中Mp>N)(b)将长度为N的输入DNA序列变换为二值指示符序列;(c)将短时傅里叶变换(STFM)应用于所述二值指示符序列并产生频域向量;(d)将对于A、T、C和G的频域向量映射至颜色空间,例如RGB或HSV;(e)使用传统边缘检测方法(例如Sobel或Canny边缘检测器)将边缘检测应用于DNA谱图像;(f)针对红色、绿色、蓝色分量(或HSV分量)通过使用边缘投影分别计算水平和垂直直方图,直方图也可以表示合并的颜色,例如C和G可以合并,并由绿色分量表示,A和T可以合并以表示红色分量;(g)使用特征选择方法评估一组显著谱特征并对其进行分级,所述方法使用具有遗传算法的支持向量机,或者,可以使用递归特征消除方法和/或主成分分析以发现显著特征,例如可以使用下述特征127个特征(提取自N个碱基长的DNA片段,其中N可以变化;在一个示例性实施方案中,N是200bp长)绿色像素数目(1)红色像素数目(l)绿色边缘像素数目(l)红色边缘像素数目(l)绿色边缘像素数目减去红色边缘像素数目(l)沿着频率轴的红色边缘直方图计数(61)沿着频率轴的绿色边缘直方图计数(61)(h)使用得自上一步的顶级特征的一个子集设计/实现分类器,在本发明一个示例性实施方案中,使用支持向量机分类器;但是,也可以使用其他分类器而不背离本发明的精神或范围,例如可以使用神经网络、自组织映射(SOM)技术/系统及其他机器学习文献中已知的分类器,所述分类器检测未知的输入DNA序列并将其分类进具有重复DNA结构(例如CpG岛)的子片段;(i)将满足评估准则的DNA片段标记为重复元件,并且标注/记录起始和终止位置(例如CpG岛)。8.前述任一项权利要求的方法,进一步包括无监督探索所述DNA序列。9.权利要求8的方法,其中所述无监督探索包括聚类技术。10.权利要求8或9的方法,其中所述无监督探索包括-步骤1.对于输入DNA序列(例如染色体),用STFT窗口W(其中W<L)生成长度为L(L是核苷酸数目)的谱图S1,并且窗口重叠为V,其中V〈W;步骤2.向右移动R个核苷酸并生成谱图Si直至到达所述DNA序列的末端;步骤3.对于在步骤1和2中生成的所有谱图,进行基于图像的无监督聚类(例如k-均值聚类、层次聚类);根据本发明的方法/算法所使用的示例性相似性度量包括任何基于图像的相似性度量,例如生成C个聚类的Ll度量。用于聚类的特征可以包括颜色、纹理、图像中出现的特定对象线、方块、对角线等等;步骤4.找到最大的聚类,取聚类的中心,并针对一个已知基因组资源进行搜索以发现这个聚类的元素的标签类别,例如,这可以揭示Alu是在这个染色体上最为重复的元件;步骤5.选择(a)或(b)中的一个(a)随机选取距离聚类中心最远的P幅谱图,并进行类别标签搜索,验证它们也属于同一类别;(b)使谱图和在谱图集合中的全部元素的类别标签的类型对用户可视化,如果谱图处于聚类中,其中心已知但是距离聚类中心较远的谱图未知,则指定新元素作为聚类中心的类别标签并使区别可视化;步骤6.继续对第二大的聚类进行操作,执行/重复步骤(5)和(6),继续对下一个最大的聚类执行操作直至聚类中心一类别标记是未知的,记为K个聚类具有已知标记,U个聚类具有未知标记;步骤7.对于具有未知标记、具有相当聚类大小的所有U个聚类找到该模式的普遍性、在同一染色体中的统计分布,找到跨染色体的统计分布;步骤8.以给定的步长(例如步长二l)增加V并转至步骤(l),直至V达到W的一半,之后转至步骤(9);步骤9.以给定的步长增加W并转至步骤(l),直至W达到L的一半,之后转至步骤(10);步骤IO.增加L并转至步骤(1);步骤11.在V、W、和L的每一个水平总结结果。11.前述任一项权利要求的方法,其中辨识了一或多种DNA模式。12.权利要求11的方法,其中所述一或多种DNA模式包括至少一个CpG岛、一或多个Alu重复、一或多个非编码RNA、一或多个串联重复、和一或多个卫星重复。13.适于操作和/或执行前述方法中的任一种的系统。14.权利要求13的系统,包括至少一个处理器和适于完整或部分实现一或多项前述权利要求所述的方法步骤的程序。15.前述任一项权利要求的系统或方法,其中监督和/或无监督分类。16.权利要求15的系统或方法,其中所述监督和/或无监督分类在不将傅里叶变换结果映射至颜色空间的情况下进行。17.权利要求16的系统或方法,其中从傅里叶变换后的二值指示符序列中直接提取一或多个特征。18.权利要求17的系统或方法,其中所述分析在由合并以表示全向量的指示符序列组成的特征向量上进行。19.权利要求18的系统或方法,其中全向量表示每一个DNA片段。20.前述任一项权利要求的系统或方法,其中归一化是任选步聰3求。全文摘要从2001年开始已知从DNA序列提取谱图。通过应用傅里叶变换将由字母A、T、C、G组成的用符号表示的DNA序列变换为突出显示DNA模式共发生周期性的可视表现而生成DNA谱图。对于给定DNA序列或完整基因组,使用这种方法可以容易地生成大量谱像。但是,困难的部分在于阐明重复模式在哪里,以及将它们与生物学和临床意义联系在一起。本发明提供了促进定位和/或辨识重复DNA模式的系统和方法,所述重复DNA模式例如CpG岛、Alu重复、串联重复和各种类型的卫星重复。这些重复元件可以在染色体中、在基因组中、或跨各种物种基因组发现。本发明的系统和方法应用图像处理算符以在DNA谱图的垂直和水平方向上发现显著特征。本发明还公开了使用监督机器学习方法对产生的谱图像进行迅速、全面分析的系统和方法。本发明的用于检测和/或对重复DNA模式分类的系统和方法包括(a)比较直方图方法,(b)使用支持向量机和遗传算法的特征选择和分类,和(c)从多幅谱图像生成谱视频。文档编号G06F19/00GK101401101SQ200780008687公开日2009年4月1日申请日期2007年3月7日优先权日2006年3月10日发明者N·迪米特罗娃,Y·H·张申请人:皇家飞利浦电子股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1