一种生物病毒的计算机自动分类方法

文档序号:6608842阅读:244来源:国知局
专利名称:一种生物病毒的计算机自动分类方法
技术领域
本发明涉及生物信息学技术领域,尤其涉及一种生物病毒的计算机自 动分类方法。
背景技术
随着基因组计划的实施,产生了海量生物序列数据,研究如何去组织、 分类和分析那些随着基因工程而产生的海量的生物序列数据是一项重要 的工作。虽然确定生物分子结构和功能最可靠的方式依然是通过直接的生物实验,但是因为获得DNA基因序列以及相应的RNA和蛋白质序列比通过 生物试验确定它们的结构和功能容易的多,所以研究如何能从这些生物序 列获取生物信息的计算方法就变得十分有意义。长期以来病毒的分类主要依靠形态学方法,随着分子生物学和生物信 息学的发展,从分子水平上研究物种进化成为可能,这为研究病毒分类提 供了新的途径。早期的研究工作主要是利用不同物种中同一基因序列的异同或其编码 的氨基酸序列的异同来研究生物的进化,以及通过对比不同物种中同一蛋 白质的结构来研究生物的进化,取得了相当的成果。因为生物的所有遗传 信息都包含在其全基因组序列中,所以如果能从完整基因组的角度来研究 物种进化,将会取得更好的效果。近年来,由于较多模式生物基因组测序任务的完成,为从整个基因组 的角度来研究分子进化提供了条件。目前,最流行的研究病毒进化关系的办法是通过多重序列比对(MSA) 的方法。然而使用这种方法无论是去研究全基因组序列还是研究基因序列 中编码氨基酸的区域,都有非常明显的缺陷。如果研究编码区,进行序列分析的时候将被限定在基因序列中特定的区域。为此,我们必须首先知道基因序列中,哪一部分是编码区,而且我 们还必须通过主观决定选择哪些区域来比较,选择不同的区域将会产生不 同的进化树。如果参与比对的多个序列在长度上差异很大或者序列之间的 相似程度很低,都会导致多重序列比对得到的结果质量很差,从而产生不 可信的进化树。病毒在进化过程中通常会有基因重组的现象出现,这进一 步使得多重序列比对的结果变得不可信。更重要的是,对很长的序列进行 多序列比对,计算时间复杂度将会非常大,在实际中经常是不可能实现的。 尽管多重序列比对方法有可能为病毒种系分析提供很好的基准,它却 不适于被用来研究病毒分类问题,因为构建多重序列比对本身就是一个让 人困惑的问题。发明内容(一) 要解决的技术问题有鉴于此,本发明的主要目的在于提供一种生物病毒的计算机自动分 类方法,使利用计算机实现生物病毒的自动分类成为可能,为病毒的研究 提供更便捷的方式和更广阔的空间。(二) 技术方案为达到上述目的,本发明提供了一种生物病毒的计算机自动分类方 法,该方法包括A、 对病毒的全基因组序列进行特征提取,将病毒序列映射到特征空间;B、 对所述特征空间的某类病毒类型样本构建种系进化树;c、根据所述种系进化树反映的同类型病毒样本之间的相互关系,采 用超椭球对每类样本子空间进行近似覆盖; D、形成封闭的同类病毒的样本子空间。上述方案中,所述步骤A包括通过统计多核苷酸出现频率及全基因 组序列长度,将不同长度的病毒全基因组序列映射到同一特征空间中。上述方案中,所述步骤B包括通过计算病毒在特征空间的欧式距离,近似描述同类病毒在进化上的远近关系。上述方案中,所述步骤C包括按照构建的种系进化树关系,采用超 椭球这一几何形体对该类病毒样本子空间进行近似覆盖。上述方案中,所述步骤D包括所有映射点落在这个封闭子空间里的 病毒都属于同一类,而映射点落在封闭子空间以外的病毒都属于其它类。(三)有益效果 从上述技术方案可以看出,本发明具有以下有益效果1、 本发明提出了基于序列特征来进行全基因组序列比较的方法,使 利用计算机实现生物病毒的自动分类成为了可能,为病毒的研究提供了更 便捷的方式和更广阔的空间,不再必须依靠直接的生物试验。2、 利用本发明,只需知道病毒的全基因组序列即可,这在病毒研究 中几乎是最容易获得的数据。3、 利用本发明,通过训练样本得到的样本子空间是一个封闭的有限 空间,这符合知道的是"有限的",未知的是"无限的"这一基本事实。4、 利用本发明,在构建某一类病毒的识别系统的时候,只用到了本 类的样本,这就保证了,在继续往系统中添加新的需要识别的病毒类的时 候,不用改变以前已经构建好的部分,这是一个可以增量学习的分类系统。


图1为本发明提供的生物病毒的计算机自动分类的方法流程图;图2为依照本发明实施例对序列进行特征提取的示意图;图3为依照本发明实施例生成的进化树的示意图;图4为依照本发明实施例对样本子空间进行近似覆盖的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实 施例,并参照附图,对本发明进一步详细说明。如图1所示,图1为本发明提供的生物病毒的计算机自动分类的方法 流程图,该方法包括以下步骤步骤101:对病毒的全基因组序列进行特征提取,将病毒序列映射到特征空间;步骤102:对所述特征空间的某类病毒类型样本构建种系进化树; 步骤103:根据所述种系进化树反映的同类型病毒样本之间的相互关 系,采用超椭球对每类样本子空间进行近似覆盖; 步骤104:形成封闭的同类病毒的样本子空间。上述步骤101包括:通过统计多核苷酸出现频率及全基因组序列长度, 将不同长度的病毒全基因组序列映射到同一特征空间中。如图2所示,图2为依照本发明实施例对序列进行特征提取的示意图。 对于一个长度为n的病毒全基因序列,它是由字符集A^a,g,c,t)构成的字 符序列,这个字符集的长度是F4。设L-tuple代表一个由字符集A构成的 长度为L的片断序列,满足L〈N。 L-tuple所有可能的值组成的集合w,可 以描绘如下其中K满足下式选择一个长度为L的窗口 (长度为L指的是该窗口能容下的最多字符 数)从序列的起始段开始以步长为S的速度向后滑动,直到(>2-^+//的 位置为止(满足"-丄-5+/ > 0)。通过这种方法我们可以得到个序列片断L-tuple,其中运算符号"[]"表示向上取整,而且这M个L-tuple都是属于集合w,的元素。如果依次对w,中元素的出现次数做个统计,可以得到如下结果cf ,……,《)使用出现频率描述可以得到// :这样我们便得到了序列X的有失集合Wl中K个元素出现的频率,用它们作为元素X的K个特征,再加上序列中含有的核苷酸数量这一特征,就可以把冠状病毒全基因组序列X映射到这个K+l维的特征空间了 。上述步骤102包括通过计算病毒在特征空间的欧式距离,近似描述同类病毒在进化上的远近关系。上述步骤103包括按照构建的种系进化树关系,采用超椭球这一几何形体对该类病毒样本子空间进行近似覆盖。上述步骤104包括所有映射点落在这个封闭子空间里的病毒都属于 同一类,而映射点落在封闭子空间以外的病毒都属于其它类。基于上述图1所示的生物病毒的计算机自动分类的方法流程图,以下 将本发明提供的方法应用于研究"疱疹病毒科病毒"的分类问题。使用从GenBank获得的病毒数据库做为研究对象,在该数据库中共有1077个病 毒的全基因组序列,其中疱疹病毒科病毒有27个。我们取其中的14个作 为已知病毒(具体信息见表l),将其作为训练样本。Accession NogsnusIDNC—001806.1HerpesviridaeHuman herpesvirus 1NC—001798.1HerpesviridaeHuman herpesvirus 2NC—001847.1HerpesviridaeBovine herpesvirus 1NC—004812.1HerpesviridaeCercopithecine herpesvirus 1NC—001491.1HerpesviridaeEquine herpesvirus 1NC—001844.1HerpesviridaeEquine herpesvirus 4NC一OO 1348.1HerpesviridaeHuman herpesvirus 3NC_001347.2HerpesviridaeHuman herpesvirus 5NC—001664.1HerpesviridaeHuman herpesvirus 6NC—001716.1HerpesviridaeHuman herpesvirus 7NC—001345.1HerpesviridaeHuman herpesvirus 4NC一OO 1350.1HerpesviridaeSaimiriine herpesvirus 2NC—002665.1HerpesviridaeBovine herpesvirus 4NC_002229.1HerpesviridaeGallid herpesvirus 2表1 14个疱疹病毒科病毒的有关信息首先我们按照方法的第一步研究三核苷酸的出现频率,从而得到
尺=,=43 ,即64维特征,再加上核苷酸的总数共得到病毒序列的65 个特征。通过得到的特征向量,我们研究得到这14个疱疹病毒科病毒的 种系进化树(如图3所示)。之后我们按照种系进化树所描述的样本关系, 采用超椭球神经元对样本子空间进行覆盖(如图4所示),从而得到疱疹 病毒科病毒样本空间的一个近似覆盖,这就是我们得到的封闭的疱疹病毒 科病毒的样本子空间。构建好这个疱疹病毒科病毒的分类系统后,我们通 过数据库中剩下的1063个病毒来测试系统的效率。这1063个病毒中,还 有13个是疱疹病毒科本类的病毒,其它的都是异类病毒,试验的结果如 表2所示,其中对本类病毒的正确识别率达到了 100%,而对异类病毒的 正确拒识率达到了 96.58%。
正确识别率错误识别率错误拒识率正确拒识率
100%0%3.42%96.58%
表2本发明方法用于疱疹病毒科病毒分类的试验结果
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行 了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而 已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修 改、等同替换、改进等,均应包含在本发明的保护范围之内。
权利要求
1、一种生物病毒的计算机自动分类方法,其特征在于,该方法包括A、对病毒的全基因组序列进行特征提取,将病毒序列映射到特征空间;B、对所述特征空间的某类病毒类型样本构建种系进化树;C、根据所述种系进化树反映的同类型病毒样本之间的相互关系,采用超椭球对每类样本子空间进行近似覆盖;D、形成封闭的同类病毒的样本子空间。
2、 根据权利要求1所述的生物病毒的计算机自动分类方法,其特征 在于,所述步骤A包括通过统计多核苷酸出现频率及全基因组序列长度,将不同长度的病毒 全基因组序列映射到同 一特征空间中。
3、 根据权利要求1所述的生物病毒的计算机自动分类方法,其特征 在于,所述步骤B包括通过计算病毒在特征空间的欧式距离,近似描述同类病毒在进化上的 远近关系。
4、 根据权利要求1所述的生物病毒的计算机自动分类方法,其特征 在于,所述步骤C包括按照构建的种系进化树关系,采用超椭球这一几何形体对该类病毒样 本子空间进行近似覆盖。
5、 根据权利要求1所述的生物病毒的计算机自动分类方法,其特征在于,所述步骤D包括所有映射点落在这个封闭子空间里的病毒都属于同一类,而映射点落 在封闭子空间以外的病毒都属于其它类。
全文摘要
本发明涉及生物信息学技术领域,公开了一种生物病毒的计算机自动分类方法,该方法包括A.对病毒的全基因组序列进行特征提取,将病毒序列映射到特征空间;B.对所述特征空间的某类病毒类型样本构建种系进化树;C.根据所述种系进化树反映的同类型病毒样本之间的相互关系,采用超椭球对每类样本子空间进行近似覆盖;D.形成封闭的同类病毒的样本子空间。利用本发明,使利用计算机实现生物病毒的自动分类成为了可能,为病毒的研究提供了更便捷的方式和更广阔的空间,不再必须依靠直接的生物试验。
文档编号G06F19/22GK101320404SQ20071010024
公开日2008年12月10日 申请日期2007年6月6日 优先权日2007年6月6日
发明者王守觉, 睿 貊 申请人:中国科学院半导体研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1