基因组水平转移基因预测方法

文档序号:6463100阅读:238来源:国知局

专利名称::基因组水平转移基因预测方法
技术领域
:本发明涉及一种预测水平转移基因的方法,具体涉及一种利用仿生模式识别原理构建同类基因训练网络对水平转移基因进行预测的方法。
背景技术
:水平基因转移(horizontalgenetransfer,HGT),又称侧向基因转移(lateralgenetransfer,LGT),是指在差异生物个体之间,或单个细胞内部细胞器之间所进行的遗传物质的交流。差异生物个体可以是同种但含有不同的遗传信息的生物个体,也可以是远缘的,甚至没有亲缘关系的生物个体。随着人类及其它生物基因组测序工作相继完成,人们发现不同物种之间,甚至亲缘关系很远的生物之间基因组上有大量同源基因存在,进一步证实了水平基因转移的普遍性和远缘性。水平转移基因的预测对于生物进化过程中的理解和物种之间遗传物质进行定性和定量的估计都有重要的意义。而近年来,发现自然环境中存在大量具有转化活性的DNA分子以及能主动摄取外源DNA的感受态细胞,使得人们对环境中发生的水平基因转移有了新的认识。对水平基因转移及其产生的生态效应的深入研究,将有助于对基因工程生物做出新的评价,使得基因工程技术及转基因生物的应用发挥更大的作用。现在识别水平转移基因的方法有很多种,比较典型的是利用不同物种基因之间异常高的BLAST命中来预测和通过构建系统发生进化树的方法来判别,然而这两种方法都需要当基因组数据足够多时才比较有效。另外还有一类方法是基于基因序列特征的。这些方法都是基于这样一个假设基因组的某个特征是这个基因组特有的,如果这个基因组中与这特有的特征是背离的话那就是水平转移基因。现在常用的是一种基于八联核苷酸频率打分法(W8)来预测水平转移基因,这种方法对于不同的基因组可以自动设定阈值,并且比以往的算法命中率有很大的提高。还有一种基于支撑向量机(SVM)的水平转移基因预测方法,其命中率比W8算法有一定的提高。但是这两种算法的命中率都不是很理想,特别是W8算法,命中率在一些细菌组中很低。而支撑向量机需要采用分链预测才能提高一些命中率。
发明内容本发明的目的在于提供一种新的水平转移基因预测方法。为实现上述目的,本发明采用基于仿生模式识别原理来预测水平转移基因,用统计方法提取基因序列特征,把基因转化成高维空间的点,分析同类样本在高维空间分布的流形,确定覆盖样本子空间的几何形体构建网络,对水平转移基因进行预测。其处理方法包括如下步骤步骤l:采用基于统计方法来提取基因序列特征;步骤2:把一个基因组中的所有基因按照步骤1操作转化成特征向量,每个基因映射成高维空间的一个点;步骤3:分析同一个基因组中基因在高维空间的点分布,确定覆盖样本子空间,构建训练网络;步骤4:用构建的网络对水平转移基因进行预测。进一步,所述的采用统计方法提取序列特征,其中,统计方法有很多种,比如基于统计碱基单词频率的WF方法、基于统计绝对密码子使用频率FCU方法等。进一步,所述的把基因转化成特征向量,其中,由于基因序列是由A,T,G,C组成的,那么只要是统计这4个字符各种组合构成的单词出现的频率。如果统计的单词长度为l,那么就是4种情况,特征向量就是4维的。如果统计的单词长度为2,那么就有16种情况,特征向量就是16维。因此一般得到的特征向量的维数是4r,其中r是单词的长度。进一步,所述的分析基因在高维空间的点分布,主要是计算点之间的欧氏距离,确定样本点的排序。进一步,所述覆盖样本子空间采用几何形体。进一步,所述的覆盖样本子空间的几何形体,其中,一般我们采用不同维数最简单的单形与超球的拓扑乘积构成。如一维单形是直线,那么它和超球拓扑乘积后就是类似于香肠的形状了,其实我们就是用超香肠神经元命名这种几何形体。进一步,所述用构建的网络对水平转移基因进行预测为当测试样本中基因被网络覆盖时,所述基因不是水平转移基因;当测试样本中基因没有被网络覆盖时,所述基因是水平转移基因。本发明将仿生模式识别(BPR)的方法应用到水平转移基因预测上,采用统计方法提取基因序列特征,把基因转化成高维空间的点,分析同类样本在高维空间分布的流形,确定覆盖样本子空间的几何形体构建网络,用构建的网络对水平转移基因进行预测。结果优于W8方法和SVM方法,提高了命中率。图1是超香肠神经元不同半径的二维空间示意图;图2是本发明提出的算法流程图。具体实施例方式为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。本发明是一种利用仿生模式识别理论预测水平转移基因的方法。其中,首先采用统计方法提取基因序列特征,然后把基因转化成高维空间的点,接着分析同类样本在高维空间分布的流形,然后确定覆盖样本子空间的几何形体,接着构建网络,然后使用构建的网络对水平转移基因进行预对于基因序列我们采用统计的方法提取序列特征,实验中采用基于统计绝对密码子使用频率FCU方法来提取序列特征,主要是由于它既包含了基因密码子使用偏性的信息,也包含了基因所编码蛋白质的氨基酸组成的信息。绝对密码子统计频率主要是统计二联核苷酸的频率(FD),FD的计:公式是AT其中」=0,1,2,3。当」'=0时统计连续二联核苷酸的频率,当j二l时统计密码子前两个二连核苷酸的频率,当户2时,统计密码子后两个二连核苷酸的频率,当J、3时统计密码子第一个和第三个二连核苷酸的频率,这样我们可以得到一个64维的向量。通过上述特征提取方法,对于每一个基因我们都可以得到一个64维的向量,把它映射到高维空间,那么每个基因都对应成64维特征空间中的一个点,分析同类基因高维空间的点分布,采用以下算法构建网络1)初始化特征集合Sa为空、Sb包含所有用于确定网络结构的样本特征向量,神经元集合S自为空;2)从Sb任选一个特征向量放入Sa;3)从Sa选择一个特征向量Pa,从Sb选择一个特征向量Pb,保证||^-aI最小,将Pb也加入Sa中;4)重复3直至Sb为空,S腳即为构建网络的神经元集合。该算法生成了一颗最小生成树。用生成的最小生成树和超球拓扑乘积构成超香肠神经元网络,对水平转移基因进行识别。超香肠神经元模型如图l所示,它是超球和空间中某个一维流形的拓扑乘积。直观上讲,这个高维几何形体可以看作是超球沿着某个一维流形所指定的轨迹滚动而经过的区域的总和。考虑实现方便,这个一维流形可以用一条由若干段首尾相连的折线段组成的链来近似。令某个超球的球心沿着其中一段线段滚动,可以得到一种类似于香肠的高维几何基本形状单元,将相邻的每两个神经元彼此连接,可以构成一条超香肠链,每一条超香肠链可以在特征空间中描述某一个类别的样本区域。该模型的描述方程如下-,)=sgn其中r为神经元半径,而点X到线段XA的距离的计算方法如下2—-o.:乂<formula>formulaseeoriginaldocumentpage7</formula>如果测试样本和训练样本同类的话,f(x)〉二o,否则f(x)〈o(本发明应用实例是对于细菌基因组水平转移基因的预测,其具体实现步骤如下1)选取基因数据。由于在细菌基因组中已知的水平转移基因数据很少,所以我们采用人工的方法模拟在细菌组中插入水平转移基因。因为水平转移到细菌基因组中的事件是在自然界中客观存在的,所以一般选用噬菌体基因或细菌基因作为给体基因。本发明申请,选取27种噬菌体基因组中共1615个基因作为给体基因数据集,而对象基因数据集我们选用大肠杆菌(EscherichiacoliK12)、包氏螺方定体(Borreliaburgdorferi)、以及蜡状芽苞杆菌(BacilluscereusZK)。这三种都是常见的病原性细菌,它们的基因组序列都来自于GenBank数据库,登记号分别是NC—000913,NC一001318,和NC一006274。我们随机的从给体基因数据集中挑出给体基因插入到对象基因数据集中作为水平转移基因,选取给体基因数量是对象基因数量的2。/。。2)对每种对象基因组分别进行预测,我们采用超香肠神经元网络训练对象基因样本,人工插入的基因序列作为测试样本。由于我们现在识别的水平转移基因是人为的插入细菌基因组的,而细菌基因组本身也是有自己的水平转移基因的。倘若算法合理的话,除了能预测人为插入的以外还应该能预测出细菌基因组原本的水平转移基因,但是对这部分我们没有办法判断它的识别准确率的。所以我们一般用命中率来衡量算法的好坏,也就是计算我们人为插入的基因能有几个能被算法识别出来。在本发明申请中,我们对每个细菌基因组100次插入取平均值。7i100^^T^刀7^(。,G代表某个细菌基因组表1是BPR,SVM与W8在预测细菌组水平转移基因上的比较,即通过十倍交叉验证的结果。其中网络的泛化性为88%,并且和W8方法以及SVM方法作比较。如表所示,我们的方法在对水平转移基因上有很大的提高,特别是在对大肠杆菌(EscherichiacoliK12)命中率上我们比W8提高了42.3%,比SVM方法提高了30.5%,其中SVM方法采用的也是FCU方法提取序列特征。<table>tableseeoriginaldocumentpage8</column></row><table>表13)仿生模式识别算法预测HGT的实际检验。目前,己经证实的在粪肠球菌(Enterococcusfaecalis)基因组存在着通过水平转移得到的耐万古霉术(Vancomycin-resistance)相关基因,一共有7条。这些基因在NCBI数据库"locus-tag"为EF2293-EF2299,在粪肠球菌基因组中的位置分别为2212353-2212961,2212967-2213995,2213988-2214959,2214956-2215783,2215801-221607,2216783-2218126,2218126-2218788。我们把这7条基因当作测试样本,用粪肠球菌基因组中剩余的基因做为训练样本构建网络,结果我们把这7条基因全部都识别出来了,这也进一步证实了仿生模式识别在水平转移基因预测上的有效性。仿生模式识别是基于同调连续性原理的,在基因组中的基因序列有着本身固有的特征,这些特征映射到高维空间是满足同调连续性,而基于序列特征预测水平转移基因就是找到背离整个基因组特征的基因,因此我们采用基于仿生模式识别方法对细菌组水平转移基因预测能取得不错的效果。本发明只是阐述利用仿生模式识别理论预测水平转移基因的新方法,相信随着进一步的研究,此方法能在基因识别其他领域有更加广泛的应用。以上所述,仅为本发明中的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换或替换,都应涵盖在本发明的包含范围之内,因此,本发明的保护范围应该以权利要求书的保护范围为准。权利要求1.一种基因组水平转移基因预测方法,其特征在于,包括以下步骤1)采用基于统计方法来提取基因序列特征;2)把一个基因组中的所有基因按照步骤1)操作转化成特征向量,每个基因映射成高维空间的一个点;3)分析同一个基因组中基因在高维空间的点分布,确定覆盖样本子空间,构建训练网络;4)用构建的网络对水平转移基因进行预测。2.根据权利要求1所述的方法,其特征在于,所述统计方法包括基于统计碱基单词频率的WF方法和基于统计绝对密码子使用频率FCU方法。3.根据权利要求1所述的方法,其特征在于,所述基因转化成特征向量步骤中,基因序列是由A,T,G,C组成的,得到的特征向量的维数是4、其中i"是单词的长度。4.根据权利要求1所述的方法,其特征在于,所述分析基因在高维空间的点分布是指分析点与点之间的分布关系,计算点之间的欧式距离,确定样本点的排序。5.根据权利要求1所述的方法,其特征在于,所述覆盖样本子空间采用几何形体。6.根据权利要求5所述的方法,其特征在于,所述覆盖样本子空间的几何形体是采用不同维数最简单的单形与超球的拓扑乘积构成。7.根据权利要求6所述的方法,其特征在于,所述几何形体为超香肠神经元。8.根据权利要求1所述的方法,其特征在于,所述用构建的网络对水平转移基因进行预测为当测试样本中基因被网络覆盖时,所述基因不是水平转移基因;当测试样本中基因没有被网络覆盖时,所述基因是水平转移基因。全文摘要本发明是一种利用仿生模式识别原理对基因组水平转移基因进行预测的方法。采用基于同调连续性仿生模式识别原理预测基因组水平转移基因,提取基因序列特征,把基因转化成高维空间的点,分析同类样本在高维空间的点分布的,确定覆盖样本子空间的几何形体构建网络,对水平转移基因进行预测。文档编号G06N3/00GK101533484SQ20081010178公开日2009年9月16日申请日期2008年3月12日优先权日2008年3月12日发明者王守觉,阳陈申请人:中国科学院半导体研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1