一种dna序列的可视化方法

文档序号:6367546阅读:588来源:国知局
专利名称:一种dna序列的可视化方法
技术领域
本发明涉及一种基因序列的可视化表示方法,属于生物信息学领域。
背景技术
DNA序列由A (腺嘌呤),T (胸腺嘧啶),G (鸟嘌呤),C (胞嘧啶)四个核苷酸组成。DNA数据可以以字符的形式储存于电脑中。这种方式虽便于保存,但是却不易于人们的观察。因此开发一种辅助工具来帮助观察和分析DNA数据并从中挖掘有价值的信息,具有重要的实际意义。 自第一个DNA序列可视化模型提出以来,DNA序列可视化技术蓬勃发展,大量学者做出了巨大努力和贡献,但是在同一模型中同时解决以下五个问题是相当困难的,分别是信息丢失问题,在高维空间难以观察的问题,退化问题,长DNA序列在二维空间难以观察的问题,需要反映有用信息的问题。因此,为解决以上问题,实现肉眼观察和分析DNA数据,亟待开发新型DNA序列可视化方法。

发明内容
本发明的目的本发明是一种改进的DNA序列可视化光谱模型,该模型将A,G, T, C四条平行线周期化显示,根据DNA序列出现的顺序通过跳转规则依次在图中标记连接成折线图,实现DNA序列的可视化。本发明提出的方法可以解决原有DNA序列可视化模型的退化问题,信息丢失问题,长DNA序列在二维空间内难以观察的问题以及需要反映有用信息的问题。本发明的技术方案
DA, G, T,C平行线等距离画出4条平行线,以A,G, T, C的顺序标记四条平行线。2)A,G,T,C平行线的周期化复制四条平行线,并在平面空间中的Y轴方向进行扩展。3)跳转规则该规则包括两个部分1、当一段DNA序列的核苷酸数量大于等于10时,根据该段序列最后一个核苷酸的信息进行正或者负跳转;2、当一段序列包含了完整的A, G, T, C核苷酸信息时,根据该段序列最后一个核苷酸的信息进行正或者负跳转(若结尾核苷酸为A时,则向Y轴负方向跳一个周期;若结尾核苷酸为G时,则向Y轴负方向跳两个周期;若结尾核苷酸为T时,则向Y轴正方向跳一个周期;若结尾核苷酸为C时,则向Y轴正方向跳两个周期)。本发明与现有技术相比具有以下有益效果
原光谱图模型为二维可视化模型,并能同时解决退化问题和数据丢失问题。但是当DNA序列长度较长时,原光谱模型的可视化效果就会变差。而本发明在具有原光谱模型的优点基础上,还克服了原光谱模型的缺点本发明不仅不会出现退化和信息丢失问题,而且不论DNA序列是长或短,都能在二维空间里呈现较好的图形效果,并反映DNA序列的长度。


参照下图,通过示例方式描述本发明,其中
图I为初始光谱图,其中,A,G,T,C四条平行线等距离的画出,并且标记出来;
图2为周期化光谱图,其中,A,G, T, C平行线周期化 图3为按照DNA序列中的核苷酸顺序,依照跳转规则在图2中的平行线上做上标记; 图4是在图3的基础上,把相邻的点用直线连接,并得到最后的表示图。
具体实施例方式DNA序列可视化是指建立DNA序列的折线图,即以图形的形式将DNA序列表示出来,从而避开字符串,通过观察图片达到分析和理解DNA序列的目的,帮助人们挖掘DNA序列的有价值信息。利用MATLAB执行本发明的方法。参照图I到图4说明本发明的DNA序列可视化方法的具体实施方式
。参照图1,首先等距离画出四条平行线,并且以A,G,T,C的顺序标记四条平行线。第一个为核苷酸A (腺嘌呤),标记第一条平行线为A。第二个为G (鸟嘌呤),标记第二条平行线为G,以此类推。参照图2,将A, G, T, C四条平行线周期化显示。3,根据给定的DNA序列并依照跳转规则,在图2中做标记(即图3中的DNA序列为“ATGGTGCATCGAAGGC”)。由图3所示,第一个核苷酸为A,在第一个位置的A线上做标记。第二个核苷酸为T,在第二个位置的T线上做标记。以此类推,直到该段核苷酸的个数大于等于10个或者当DNA序列包含完整的A, G, T, C核苷酸信息时,根据该段中最后一个核苷酸的信息,发生跳转。例如,该段DNA序列中的前7个核苷酸信息“ATGGTGC”中正好包含了完整的A,G,T,C信息,同时由于“ATGGTGC”结尾处的核苷酸信息为C。因此,根据跳转规则,之后的DNA序列(“ATCGAAGGC”)要从当前位置沿Y轴正方向两个周期的A平行线开始标记,并以此类推。参照图4,把相邻的点用直线连接起来,得到最后的表示图。这里第一个点是A,第二个点是T,因此在A与T之间用直线连接。第三个点是G,因此将T和G连接,以此类推。
权利要求
1.一种DNA序列可视化的方法,所述方法包括 等距离的画出四条平行线。
2.复制A,G,T,C四条平行线,使其周期化。
3.按照DNA序列中的核苷酸顺序,依照跳转规则在相应平行线上做标记。
4.以直线连接相邻的点得到DNA序列表示图。
5.如权利要求I所述的可视化方法,其中,四条平行线按A,G,T, C的顺序来标注。
6.如权利要求I所述的可视化方法,其中,复制四条平行线,并在平面空间中的Y轴方向进行扩展,使其周期化。
7.如权利要求I所述的可视化方法,其中,跳转规则是当一段DNA序列的核苷酸数量大于等于10时,根据该段序列最后一个核苷酸的信息进行正或者负跳转。
8.或者当一段序列包含了完整的A,G,T, C核苷酸信息时,根据该段序列最后一个核苷酸的信息进行正或者负跳转。
9.如权利要求4所述的可视化方法,其中,正或者负跳转是指若结尾核苷酸为A时,则向Y轴负方向跳一个周期;若结尾核苷酸为G时,则向Y轴负方向跳两个周期;若结尾核苷酸为T时,则向Y轴正方向跳一个周期;若结尾核苷酸为C时,则向Y轴正方向跳两个周期。
10.本发明为一种计算机程序产品,其包含在适当的计算机上运行时,适配为执行权利要求I的方法的计算机程序代码。
全文摘要
本发明通过对Spectral模型的改进,提出一种二维空间的光谱可视化改进模型,用来表示一串DNA序列,特点是能够避免信息丢失,清晰直观,便于多条DNA序列的比较。DNA序列可视化图形使用计算机绘制,其中包含A,G,T,C四条平行线,并将其周期化显示。根据DNA序列出现的顺序通过跳转规则依次在图中标记连接成折线图,实现DNA序列的可视化。
文档编号G06F19/26GK102708308SQ201210095028
公开日2012年10月3日 申请日期2012年3月31日 优先权日2012年3月31日
发明者曾湘祥 申请人:常熟市支塘镇新盛技术咨询服务有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1