基因序列的可视化处理方法与流程

文档序号:17197996发布日期:2019-03-27 09:41阅读:912来源:国知局
基因序列的可视化处理方法与流程
本发明涉及可以应用于DNA分析的基因序列3D表示方法。
背景技术
:近年来,基因序列的图形表示广泛应用于基因序列的可视化,分类和比对等方面.该方法的主要思想是将基因序列转换为不同维数的几何图形.最常见的图形是2D(平面)图形和3D(空间)图形。1983年,Hamori和Ruskin首先提出基因序列的3D表示,后来,人们提出越来越多的曲线来表示基因序列.为了得到不同基因序列的相似性特征,人们利用曲线得到一些高维矩阵或者向量来简化生物序列比对.一般来说,基因序列的图形表示理论可以分成两个部分:基因的图形表示和基于图形特征的相似性度量。在基因序列的不同曲线表示中,张春霆院士于1991年提出的Z-曲线是用来分析基因序列的典型曲线,Z-曲线是一条3D曲线,每一个DNA序列都可以用Z-曲线来唯一表示.在2014年,张春霆和张任撰文给出Z-曲线的一个概述,并给出它们的一些应用:Z-曲线是获取DNA信息的一类典型图形表示并可以应用在DNA序列分析的诸多领域.Z-曲线上包含了DNA序列所携带的所有信息。然而,目前缺乏一种能够用于DNA序列3D表示的曲率序列和挠率序列,缺乏相关序列应用于DNA分析的处理方法。技术实现要素:本发明所要解决的技术问题是实现一种将DNA序列转化为3D表示的曲率序列和挠率序列,这两个数值序列包含了DNA序列上3D表示的所有本质特征,可以应用于DNA分析方面。为了实现上述目的,本发明采用的技术方案为:基因序列的可视化处理方法:步骤1、获得待比对的DNA曲线的曲率序列和挠率序列;步骤2、利用Z-曲线表示待比对的DNA曲线的曲率序列和挠率序列;步骤3、获得待比对的DNA之间两个曲率序列中相同项的个数,以及两个挠率序列中相同项的个数。本发明利用3D图形的曲率序列和挠率序列来表示基因序列,这两个序列一起可以体现序列的内在特征,基因序列的Z-曲线是一类典型的3D曲线,我们给出Z-曲线的两类数值序列的计算方法,可以将Z-曲线的曲率序列转换为仅含0,1的数值序列,将Z-曲线的挠率序列转换为仅含0,1和-1的数值序列.我们可以根据基因序列直接、快速地得到这两类数值序列。附图说明下面对本发明说明书中每幅附图表达的内容作简要说明:图1(a)为人类基因序列Z-曲线的曲率序列;图2(a)为黑猩猩基因序列Z-曲线的曲率序列;图3(a)为灰海豹基因序列Z-曲线的曲率序列;图4(a)为港海豹基因序列Z-曲线的曲率序列;图5(a)为老鼠基因序列Z-曲线的曲率序列;图6(a)为大家鼠基因序列Z-曲线的曲率序列;图7(a)为大袋鼠基因序列Z-曲线的曲率序列;图8(a)为大猩猩基因序列Z-曲线的曲率序列;图1(b)为人类基因序列Z-曲线的挠率序列;图2(b)为黑猩猩基因序列Z-曲线的挠率序列;图3(b)为灰海豹基因序列Z-曲线的挠率序列;图4(b)为港海豹基因序列Z-曲线的挠率序列;图5(b)为老鼠基因序列Z-曲线的挠率序列;图6(b)为大家鼠基因序列Z-曲线的挠率序列;图7(b)为大袋鼠基因序列Z-曲线的挠率序列;图8(b)为大猩猩基因序列Z-曲线的挠率序列图9是八个物种的分类结果线形图;具体实施方式三维向量空间中的3D曲线有两个基本特征,即曲线的曲率和挠率。曲线的曲率是曲线弯曲程度的度量,曲线的挠率是描述曲线距离平面翘起的程度。2D曲线的所有基本特征可以由曲线曲率完全刻画,而3D曲线的所有基本特征可以由曲率和挠率两个变量完全刻画。空间曲线的形状由曲率和绕率唯一确定,这一特征可以帮助我们认识基因序列的本质特征。例如,两条反向平行的多核苷酸链相互缠绕形成一个右手的双螺旋结构,A-T或G-C通过氢键作用成对出现,这两条链具有完全相同的曲率和挠率,而且我们也可以根据给定的曲率和挠率来确定DNA序列。一般地,我们使用曲线上一点处内切圆半径的倒数来度量该点处的曲率,即光滑曲线该点处曲率K是对于DNA序列的图形表示,所得到的曲线往往不是光滑的,于是我们给出分段光滑曲线曲率的如下定义,设G是一段DNA序列,第i个位置是gi,gi∈{A,T,G,C},它在基因曲线表示上对应的点是Pi,设rij表示点Pi和点Pj间的距离,Rijk是三角形PiPjPk的内切圆半径,三角形PiPjPk的三条边长分别是rij,rik,rjk。曲率序列获得方法:定义:设G=g1g2…gN是长度为N的DNA序列,Pi是G的曲线表示L中gi对应的点.则曲线L在点Pi处的曲率定义为κi,DNA序列G的表示曲线L的曲率序列定义为获得方法:在三角形PiPjPk中,i,j,k是相邻的三个正整数,即j=i+1,k=j+1.令rijk=rij+rik+rjk为三角形PiPjPk的三边长之和,Sijk为三角形PiPjPk的面积,为三角形PiPjPk的内切圆半径,于是点Pi处的曲率为κi=2Sijk/rijk。挠率序列获得方法:定义:设G=g1g2…gN是长度为N的DNA序列,Pi是G的曲线表示L中gi对应的点.则曲线L在点Pi处的挠率定义为τi,,DNA序列G的表示曲线L的挠率序列定义为获得方法:在四面体PhPiPjPk中,h,i,j,k是四个连续正整数,即i=h+1,j=i+1,k=j+1.令Vh为四面体PhPiPjPk的体积,Shij,Shjk,Shik,Sijk分别表示三角形PhPiPj,PhPjPk,PhPiPk,PiPjPk的面积,为四面体PhPiPjPk内接球半径且注意到于是点Pi处的挠率为τi=±3V/(Shij+Shjk+Shik+Sijk),当òh>0时,τi的值为正;当òh<0时,τi的值为负。对于DNA序列的表示曲线,如果我们可以知道四个碱基A,C,T,G的关系矩阵那么我们就可以得到DNA表示曲线的曲率序列和挠率序列。例如,长度为12的DNA序列G=ACACACTGTGTG,四个碱基A,C,T,G的关系矩阵M为且∈A>0,∈C<0,∈T>0,∈G<0,于是DNA序列G的曲率序列K(G)为(2.0,2.4,2.0,2.4,2.8,3.9,4.4,4.8,4.4,4.8),挠率序列T(G)为(0.8,-0.8,0.8,-0.9,1.1,-1.4,1.6,-1.6,1.6).DNA序列Z-曲线表示的两个数值序列获得方法:Z-曲线是描述DNA序列的典型曲线表示,它包含了DNA序列携带的所有信息.对于长度为N的DNA序列,Z-曲线的三个坐标公式为注意到Z-曲线中四个碱基A,C,T,G的关系矩阵MZ为我们发现MZ是一个对称矩阵.根据曲率序列和挠率序列的定义和算法,我们可以得到Z-曲线的两个数值序列.对正整数i,设G=g1g2…gN是长度为N的DNA序列,G的第i个位置是gi,其中gi∈{A,C,T,G.}则曲率序列和挠率序列分别是和对i=1,2,…,N-2,曲率序列的各项为对j=1,2,…,N-3,挠率序列的各项为为方便起见,我们用符号函数简化上面结论.即且Z-曲线的关系矩阵仅由0,1两个元素组成.对于DNA序列中四个相邻的碱基gigi+1gi+2gi+3,其Z-曲线的特征可以用曲率序列和挠率序列的三元组来描述.(1)gi,gi+1,gi+2,gi+3互不相同当且仅当(2)gi,gi+1,gi+2,gi+3仅有两个相同当且仅当(3)gi,gi+1,gi+2,gi+3有两组相同元素或者三个不相邻的相同元素当且仅当(4)gi,gi+1,gi+2相同且gi+3不同的当且仅当(5)gi+1,gi+2,gi+3相同且gi不同当且仅当(6)gi,gi+1,gi+2,gi+3全相同当且仅当通过上面的规律,我们可以根据DNA序列快速得到相应Z-曲线的曲率序列和挠率序列.数值特征序列的相似性分析:相似性分析是DNA序列图形表示理论的重要内容之一.由于DNA序列的本质特征可以在曲率序列和挠率序列中表现出来,于是我们可以使用这两个数值序列来对DNA序列进行比较.设P和Q分别是长度为N1和N2的DNA序列,其曲率序列的简单组合系数定义为其中sκ是两个曲率序列中相同项的个数.DNA序列P和Q挠率序列的简单组合系数定义为其中sτ是两个挠率序列中相同项的个数.于是我们用S(P,Q)=Δκ(P,Q)Δτ(P,Q)表示两个DNA序列P和Q表示曲线的相似性。利用DNA序列Z-曲线表示的曲率序列和挠率序列,给出DNA序列相似性判断方法.我们将计算不同物种DNA序列的曲率序列和挠率序列,并利用前面相似性定义给出这些物种的分类结果。用来计算的例子包含了八个物种的基因片段,它们分别是Human人类(NC_012920.1:14149..14673),chimpanzee黑猩猩(NC_001643.1:13567..14091),grayseal灰海豹(NC_001602.1:14466..14993),harborseal港海豹(NC_001325.1:14493..15020),mouse老鼠(NC_005089.1:13552..14070),rat大家鼠(AC_000022.2:13531..14049),wallaroo大袋鼠(NC_001794.1:13608..14111),gorilla大猩猩(NC_001645.1:13571..14095).它们的蛋白质序列分别是human人类(YP_003024037.1),gorilla大猩猩(NP_008223),chimpanzee黑猩猩(NP_008197),wallaroo大袋鼠(NP_007405),harborseal港海豹(H.seal)(NP_006939),grayseal灰海豹(G.seal)(NP_007080),rat大家鼠(AP_004903),mouse老鼠(NP_904339).(所有数据均来源于美国国家生物技术信息中心-NationalCenterofBiotechnologyInformation,网址为http://www.ncbi.nlm.nih.gov/)根据我们前面给出的曲率序列和挠率序列的定义和计算公式,我们可以得到八类物质基因序列Z-曲线的曲率序列和挠率序列,如图1-8所示。根据曲率序列简单组合系数的定义,我们可以得到八个物种DNA序列片段Z-曲线的曲率序列相似系数Δτ(见表1)。物种黑猩猩灰海豹港海豹老鼠大家鼠大袋鼠大猩猩人类0.54610.49310.46370.48530.50780.53000.5543黑猩猩0.66190.52650.53070.53430.43500.7544灰海豹0.64320.48850.50270.43520.6283港海豹0.48450.52870.48570.5283老鼠0.58110.53840.5396大家鼠0.49500.5361大袋鼠0.4783表1类似地,根据定义,我们可以得到八个物种DNA序列片段Z-曲线的挠率序列相似系数Δκ(见表2)。物种黑猩猩灰海豹港海豹老鼠大家鼠大袋鼠大猩猩人类0.76980.76170.77040.73430.74380.75920.7532黑猩猩0.87790.82720.78900.77140.78630.9333灰海豹0.96050.80000.79430.80860.8249港海豹0.83910.81240.81910.8272老鼠0.87740.82700.8068大家鼠0.82210.7691大袋鼠0.8093表2相似性系数S=ΔκΔτ(见表3)。物种黑猩猩灰海豹港海豹老鼠大家鼠大袋鼠大猩猩人类0.42040.37560.35720.35640.37770.40240.4175黑猩猩0.58110.43550.41870.41210.34210.7042灰海豹0.61780.39080.39930.35190.5182港海豹0.40660.42960.39780.4370老鼠0.50990.44530.4354大家鼠0.40700.4123大袋鼠0.3871表3利用八个物种的相似性系数,得到这八个物种的分类结果(图9),其中X轴1到8分半代表Human(人类),Chimpanzee(黑猩猩),Grayseal(灰海豹),Harborseal(港海豹),Mouse(老鼠),Rat(大家鼠),Wallaroo(大袋鼠),Gorrilla(大猩猩)从图9中,我们可以发现,Human(人类)与其它物种有显著不同,Chimpanzee(黑猩猩)与Gorrilla(大猩猩)相似,Grayseal(灰海豹)与Harborseal(港海豹)相似,Mouse(老鼠),Rat(大家鼠)与Wallaroo(袋鼠)相似,其中Mouse(老鼠)和Rat(大家鼠)具有更高的相似性。基因序列的图形表示是基因序列分析中很有用的一种工具,不同曲线蕴含了不同基因序列的生物性质.曲率和挠率是3D曲线的基本特征,在本文中我们给出了曲线曲率和挠率序列的定义和计算方法,并对基因序列的Z-曲线,给出了快速计算两类数值序列的计算方法.在两类数值序列的基础上,我们定义了曲线的曲率组合系数,挠率组合系数和相似系数,在此基础上以八个物种的基因序列为例,计算并对这八个物种进行了分类.这种方法还适用于基因序列的其它2D和3D曲线表示。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1