用于对查询序列的基因型与亚型进行分类的方法

文档序号:6352135阅读:848来源:国知局
专利名称:用于对查询序列的基因型与亚型进行分类的方法
技术领域
本发明涉及一种用于对查询序列的基因型与亚型进行分类的方法。更具体地,本发明针对一种用于对查询序列的基因型与亚型进行分类的方法,包括(i)选择不同病毒的碱基序列作为参考序列,这些病毒的基因型或亚型是已知的,并且通过在所述参考序列的多重比对中计算序列之间的距离而获得距离矩阵;以及(ii)开发一种判别方程,该判别方程可以对这些参考序列进行分类,这是通过对通过该距离矩阵的多维定标对所述参考序列成簇而获得的聚簇执行判别分析来实现的,接着根据所述判别方程对查询序列的基因型与亚型进行分类。
背景技术
在理解趋异病毒的进化方面,精确的基因分型(或分亚型)是关键。近来,公共数据库里的病毒序列的数量的迅速增长被注意到。例如,NCBI基因库(NCBI GenBank)拥有的 HIV-I与HCV序列条目几乎每三年翻一番。这些病毒还显示出非常好的基因型多样性并且因此已经被分类成组,被称作基因型与亚型(Robertson等人,2000 ;Simmonds等人,2005)。因此,基于这些病毒株的序列相似性对它们进行基因分型(或分亚型),在理解它们的进化、流行病学以及研发抗病毒疗法或疫苗方面已经成为最基本的步骤之一。传统的分亚型方法包括以下(I)最近邻法,寻找该查询序列与被称作参考的每一亚型的代表的最佳匹配;(2)系统发育方法,寻找该查询序列分支至其上的单系群。由于这些亚型原本已经被定义为单独的聚簇群,所以这些直观上合理的方法已经得以广泛使用并且对于许多案例而言十分成功。然而,随着序列数目的渐增,观察到不能被确切地分亚型的离群值或对其而言这些方法不适宜的离群值。最近一份将这些不同的自动分亚型方法与HIV-I序列作比较的报告显示,除了亚型B与C之外,它们之中的相符性低于50% (Gifford R、de Oliveira T、Rambaut A、Myers RE、GaleCVΛ Dunn D、Shafer R、Vandamme AM、Kellam P、Pillay D UKCollaborative Group on HIV Drug Resistance:Assessmentof automatedgenotyping protocols as tools for surveillance of HIV-Igeneticdiversity. AIDS2006, 20:1521-1529)。该不相符性的原因之一要归结于由于重组而引起的增加的趋异性与复杂性。还应注意到,在那些方法中,紧密关联的亚型(B与D)或分享共同起源的亚型(A和CRF01_AE)显示出较差的一致性。本发明人认为,这一问题的根本是每一亚型的参考序列的数目太少。这些方法使用两至四种手选的参考序列。它们是由各专家在高质量的全基因组序列中仔细挑选的,是要尽量覆盖每一亚型的多样性。然而,利用每一亚型的本质上小数目的参考序列,它们不能解决亚型预测的可信性;低E值的双序列比对或高系统发育树的高引导值(bootstrapvalue)表明单元操作的可靠性,但是就整体而言并不必然保证一个可信的亚型分类。对缺少统计置信测度这一问题的认识带来了 STAR的引入,这是一种基于特定位点打分矩阵的统计模型的方法,该特定位点打分矩阵是从每一亚型的多重序列比对(MSA)建立的。然而,其当前的实施有一些限制它仅适用于HIV-I氨基酸序列,以小数目的参考(总共11个亚型的141种)为基础,并且利用少于1000种序列进行了测试。最近,已经引入了新颖的基于核苷酸组成字符串的基因分型(或分亚型)方法。它的独特在于它绕过了多重序列比对并且仍旧达到高精确度。然而,它也仅使用了 42种参考序列并且已经用1156种序列进行了测试。考虑到这些病毒序列数目的爆炸式增长,这些传统方法的测试案例非常少,最多万分之一。因此,本发明的目的是要提供一种新颖的用于对公知的查询序列的基因型或亚型进行分类的方法。关键是在试图对一种查询序列进行分类之前,评估每一亚型群的聚簇程度如何。考虑这样一个案例,其中这些参考序列大部分都被亚型很好地分开了,除了两种或更多种亚型至少部分地重叠依赖少数参考的这些方法可能没有注意到这一问题并且可能将高分分配给一种明显的亚型。由于序列范围内的不同突变率,所以每一基因片段的系统发育动力(phylogenetic power)也可能不同。这对于相对短的部分序列来说尤为关键。换言之,如果在基因分型(或分亚型)中仅考虑序列区域的一部分,那么即使这些本应区别成 簇的、具有很好特征的参考也不能被分辨出。这些最近邻法不能评估该背景分类模型的这种有效性,因为它们仅关注查询与参考之间的比对,而不是参考与参考之间。REGA,基于树的方法之一,关注该查询是在由一组参考形成的聚族的内部还是外部(deOliveira TDeforche K、Cassol S、Salminen Μ、Paraskevis D、SeebregtsC、Snoeck J>van Rensburg EJ>ffensing AM、van de Vijver DA、BoucherCA、Camacho R>Vandamme AM An automated genotyping system foranalysis ofHIV-Iand other microbial sequences. Bioinformatics 2005、21:3797-3800)。然而,就本发明人所知晓的,没有工具定量地报道这样一种测量。所以,本发明人提出一种方法,该方法基于这些参考序列之间的距离开发了这些背景分类模型,重新评估了它们对于每一查询的有效性,并且就后验概率报告了基因型(或亚型)赋值的统计显著性。如此,本发明的方法适合于其中许多参考序列可用的案例。本发明通过将主坐标分析(PCoA)与线性判别分析(LDA)(两者是使用生物科学中普遍的应用能很好建立的统计工具)结合起来而实现这些目标。PCoA (也称为经典多维定标(MDS)),将这些序列标绘在高维主坐标空间,同时尽可能地尽力保持它们之间的距离关系。PCoA已经广泛地应用于探索序列集中的全球趋势,在系统发育分析方面对基于树的方法进行了补充。因为亚型已经被定义为系统发育树中的不同单系类群,所以如果选择一种适当的高维,每一亚型应该在MDS空间里形成良好分离的聚簇。在此类案例中,可以发现一组将这些聚簇分开的超平面并且与这些超平面相关的查询可以得到分类。为了这一目的,本发明将LDA (—种直接的并且强大的分类方法)应用于MDS坐标并且将一种查询分配给显示出最闻的关系后验概率的基因型(或亚型)。这种概率在检测任何需要仔细检验的模糊案例时是有用的。本发明的方法通过留一法交叉验证(L00CV)来测试这些LDA模型,该验证可以用以通过检测误分类率来估测模型有效性。由于这些序列是由坐标来表示的,因此还可以开发一种简单的措施用以检测基因型(或亚型)离群值。本发明人实质上已经利用所有来自NCBI基因库(核苷酸)与GenPept (蛋白质)的HIV-I和HCV序列对本发明进行了测试。披露内容技术问题本发明的主要目的是提供一种用于对查询序列的基因型与亚型进行分类的方法,包括(i)选择不同病毒的碱基序列作为参考序列,这些病毒的基因型或亚型是已知的,并且通过在所述参考序列的多重对比中计算序列之间的距离而获得距离矩阵;以及(ii)开发一种判别方程,该判别方程可以对这些参考序列进行分类,这是通过对通过该距离矩阵的多维定标对所述参考序列成簇而获得的聚簇执行判别分析而实现的,接着根据所述判别方程对一种查询序列的基因型与亚型进行分类。技术解决方案本发明的上述主要目的可以通过提供一种用于对查询序列的基因型与亚型进行 分类的方法来达到,包括(i)选择不同病毒的碱基序列作为参考序列,这些病毒的基因型或亚型是已知的,并且通过在所述参考序列的多重对比中计算序列之间的距离而获得距离矩阵;以及(ii)开发一种判别方程,该判别方程可以对这些参考序列进行分类,这是通过对通过该距离矩阵的多维定标对所述参考序列成簇而获得的聚簇执行判别分析而实现的,接着根据所述判别方程对一种查询序列的基因型与亚型进行分类。本发明的方法的步骤(i)可以进一步包括从所述多重比对中除去插入缺失。另外,本发明的方法的步骤(ii)的多维定标优选地是一种主坐标分析。此外,本发明的方法的步骤(ii)的判别分析可以选自不同的方法,比如线性判别分析、二次判别分析、最近邻距离法、支持向量机或线性分类。有利效果本发明的方法可以被有效地用于通过分析快速进化的病毒(比如HIV-I与HCV)的序列而对病毒的基因型或亚型进行精确分类。另外,本发明的方法对核苷酸和蛋白质(多肽)序列都适用。而且,可以应用本发明的方法根据多态性标记(比如SNP)的距离矩阵将个别受试对象分类成群组。附图简要说明图I示出了根据本发明的用于对病毒的基因型(或亚型)分析进行分类的方法的示意图。这些球形表示已知被成簇为四种群簇A-D的序列,并且这些组群的分界面由隔离圆圈表示。每一群簇里的实心球形分别地表示参考序列,并且查询序列由星形表示。由于查询序列位于群簇B与D之间的分界面内,所以难以查明该查询序列的基因型(或亚型)。另一方面,可以通过最近邻法来将查询序列分配给最邻近参考序列并且这种情况发生在群簇D中。根据最邻近参考序列的距离,而不考虑已知分类方法的序列的聚簇模式,就该参考序列的选择而言,这些结果可以并不稳健(robust)。图2示出了沿第一(VI)、第二(V2)以及第三(V3)主坐标轴的HIV-I序列的示例性MDS示意图。这些参考序列被示出为根据其亚型进行了颜色编码的小圆圈。为了清楚起见,没有对亚型F-K进行标记。该查询位于亚型B的中间(‘ + ’)。图3示出了对每一基因片段而言通过MDS维数K示出的LOOCV错误率。对于(a)HIV-I核苷酸、(b)HIV-I蛋白质、(c)HCV核苷酸以及(d)HCV蛋白质序列的每一基因片段而言,参考序列的预测基因型(或亚型)的LOOCV错误率是通过使该MDS维数K从I到50进行变化来进行测量。一些显示出与众不同的较高错误率的基因片段被标记。与序列类型无关,这些错误率在k=10后都达到稳定期,这些错误率在随后的分析中被使用。图4示出了沿基因片段的LOOCV错误率的代表性滑动窗口绘图。这些LOOCV错误率是沿(a)HIV-Ienv核苷酸与(b)HCV e2蛋白质序列的基因片段在滑动窗口中绘制的。对两种情况而言,该MDS维数是设置在k=10。总类表示出于图8与图9中。图5示出了用于HIV-1“主要”分析的离群值O的密度分布。在测试的161,440个案例中,根据本发明的方法的159,261个预测与LANL亚型信息(实线)相一致,而剩下的则不一致(虚线)。图5是利用在R统计包中执行的核密度估计函数来产生的。通过0>2滤出的部分标为阴影。在过滤出很大部分的不一致案例的同时,一致性案例的丢失被最小化。图6示出了 HIV-I超变异序列的离群度值的盒形图。离群度(O)参数的盒形图是针对由先前研究(Janini M、Rogers M、Birx DR、McCutchan FE Human immunodeficiency virus type IDNA sequencesgenetically damaged by hypermutationare often abundant in patient peripheralbolld mononuclear cells and maybe generated during near-simultaneousinfection and activation of CD4 (+)T cells.J Virol2001,75 (17) :7973-7986 ;Gandhi SK、Siliciano JD、Bailey JR、Siliciano RF、Blankson JN Role ofAP0BEC3G/F_mediated hypermutation in thecontrol of humanimmunodeficiency virus type Iin elite suppressors.J Virol2008,82 (6) : 3125-3130 ;Land AM、Ball TB、Luo M、PilonRm、Sandstrom P、Embree JE、Wachihi C、Kimani J、Plummer FA Human immunodeficiency virus(HIV)typelproviralhypermutation correlates with CD4count in HIV-infectedwomen from Kenya.JVirol2008,82(16) :8172-8182)报道的561种无功能性与1,519种功能性序列绘制的,这些研究明确地标记出每一序列是否为“无功能性的”。图7示出了本发明对HIV-I进行分亚型的网页服务器屏幕截图。图7(a)示出了输入屏并且图7(b)-(d)分别示出了输出的第一页到最后一页。图8在滑动窗口中示出了针对HIV-I核苷酸(上图)与蛋白质(下图)序列((a) env、(b)gag、(c) nef、(d)pol、(e) vif > (f) vpu)的 L00CV 错误率。图9在滑动窗口中示出了针对HCV核苷酸(上图)与蛋白质(下图)序列((a) utr、(b)arfp、(c)core、(d)el、(e)e2、(f)ns2> (g)ns3、(h)ns4a、(i)ns4b、(j)ns5a、(k)ns5b、(l)okamoto、(m)p7)的 L00CV 错误率。

图10示出了针对该HIV-I “主要”分析的离群度值的柱状图与L00CV错误率。对于基于本发明的预测与LANL —致的离群度值的分布示出了以大约I. O为中心的尖峰(a),而那些不一致的则示出了直到10.0的很长的尾巴(b)。在过滤掉低可信度的案例(离群度〈2. O)之后,对于不一致性预测(d)仍留下比一致性预测(c)相对更多的具有较高错误率的案例。然而,它们的比例不大并且任何基于这些值的过滤方案都没有被执行过。最佳模式在下文中,将参考以下实例与附图更详细地描述本发明。这些实例与附图仅给出用于说明本发明而不在于限制本发明。总体过程
本发明的方法通过创建该查询与参考序列的多重序列比对(MSA)来开始该过程。不像常规的方法,本发明要求大量的参考,它们应该具有高质量并且具有谨慎指定的基因型(或亚型)。洛斯阿拉莫斯国家实验室(Los Alamos National Laboratory (LANL))数据库分配 HIV-1 (http://www.hiv. Ianl. gov/) and HCV (http ://hcv. lanl. gov/)序列的这样的MSA。LANL还提供有关该MSA中每一序列的亚型信息。在2007年发布的HIV-IMSAs中包括总共3,591种核苷酸与3,478种蛋白质序列,而在HCV MSAs中总共有3,093种核苷酸与3,077种蛋白质序列。应该注意,对一些亚型而言,在该MSA中发现超过100种序列,同时有极少亚型仅包括少数参考序列。该样品大小失衡是一个严重问题,但是本发明提出一种基于全局方差(global variance)的相当具有启发性的解决方案。为了与其他方法公平比较,本发明人决定将该查询与已经可从公共数据库中得到的参考序列的MSA进行比对,而不是自己创建MSA,由而对该参考MSA表示尊重。这样做具有节省执行时间的优点,这对网络服务器应用程序很关键。对于这一步骤,使用hmmbuild、hmmcalibrate、andhmmalign(http://hmmer. janeIia. org/)这套程序。在使用一种PERL脚本去除该MSA中的插入缺失之后,使用具有 Jukes-Cantor 修正的 EMBOSS 程序包(http://emboss, sourceforge. net/)的distmat来计算这些序列间的配对距离矩阵。 下一步骤是所谓的主坐标分析(PCoA),它将该距离矩阵转变为其构成与所搜索的坐标的内积相等的矩阵。通过所得到的矩阵的奇异值分解,获得直到指定的较低维的一组特征向量以及相关特征值。然后将配对欧氏距离近似于这些原始距离的那些序列的多维坐标从包括这些特征向量与特征值的简单矩阵运算中恢复。每一特征值是沿由相应特征向量定义的轴而获得的方差量,也称作主坐标(PC)。为了方便,这些特征值按降序排列并且通过采用最高的少数几个来达到维数降低。如果组内变异是忽略不计的,则最高PCs的数目或该MDS维数k应该最多是N-1,其中N是参考组的数目。然而,根据所考虑的序列区域,一种亚型可能显示出复杂的聚簇模式,分为一个以上的群簇,比如亚-亚型。因此,本发明人采用一种经验性方法,该方法针对从I至50范围的k来调查这些参考序列的交叉验证误差。这一步骤是利用R统计系统(http://www. r-project. org/)中的cmdscale来实现的(图2示出了该MDS结果的一个示意图)。然后,本发明的下一步骤是开发判别模型,这些判别模型根据他们的亚型对参考进行最佳地分类并且根据这些模型给该查询分配亚型成员(membership)。在此,可以想象应用除其他以外的不同分类方法,比如K-最近邻近法(K-NN)、支持向量机(SVM)、线性分类器。如果这种MDS步骤真正有效,则这些参考应该根据其亚型成员而被很好地聚簇,并且因此诸如线性判别分析(LDA)或二次判别分析(QDA)这些最简单的方法应该有效。这两者通过使高斯分布函数适于每一组的中心而起作用,两者之间的不同之处在于是使用全局协方差(LDA)还是使用组协方差(QDA)。由于可以预计组内偏差可能组与组之间不同,因此QDA可能更合适。然而,以上提到的样品大小失衡问题阻碍了应用QDA,因为对于一些基因型(或亚型)而言,在小量参考情况下它变得不稳定。另一方面,LDA通常应用全局协方差至所有这些亚型并且因此针对这一问题可以更稳健(robust)。尽管它不如QDA严谨,但是只要这些组偏差彼此之间不是过于不同,则这种启发式方法运行地相当好。一旦基于这些参考序列计算这些线性判别,则属于特定组的后验概率是作为从该查询至该组中心的所谓的马氏距离函数而给出的。对于该查询,之后分配后验(MAP)估计的最大值,也就是,具有最大可能性的亚型。该后验概率是通过与每一亚型的参考数目成比例的前者来进行衡量的。这一步骤是利用R统计系统(http://WWW.r-project. org/)中的MASS程序包的Ida来实现的。预测模型的交叉验证这些线性判别模型的有效性是通过这些参考序列的基因型(或亚型)成员的LOOCV来进行评估。对于这些参考中的每一个而言,其基因型(或亚型)是通过从这些参考中的其余参考产生的模型来进行预测的。误分类错误率(它是误分类参考的数量与参与验证的参考总数量的比)是对该背景分类能力的一种敏感量。公共数据库中的许多病毒序列并不是全基因组,而只覆盖了一些基因或一个基因的一部分,并且因此它们的系统发育信号可以不同。因此,本发明人利用LOOCV重新评估了每一预测的分类能力。如果在针对一种给定查询的MDS空间里这些参考序列得不到很好的辨析,则在LOOCV中会很明显,导致高误分类率。离群值检测 即使通过亚型使这些参考以低LOOCV失误率得以很好地分开,该查询序列本身还是可能异常它可以是两种或更多种亚型的复合,位于数种亚型的中间(一种重组体情况);它可以仅接近一种亚型群簇(针对这种亚型具有接近I的P值)但是远在该群簇边界之外(一种趋异情况)。在多变量分析的领域内,习惯是通过计算自样品中心的马氏距离并且通过将其与卡方分布进行比较来检测离群值。由于该马氏距离已经结合在LDA后验概率的计算中,因此本发明人提出一种有些不同的量,即,离群度0,它是从该查询至与属于沿该方向
的那种亚型的参考的最大趋异值有关的群簇中心的欧氏距离
j j 2'rrrrrrrr^ R\-\S
(Eq. I)其中XQ、Xe以及Xc分别是该查询、这些参考之一以及该参考组S的中心的MDS向量。该组S包含所有属于已经将该查询分类给其的基因型(或亚型)的所有参考序列。如果O小于1.0,则该查询是很好地在该群簇内部,否则就在外部。本发明人基于此开发了一种简单的启发式过滤器例如,可以将阈值设置在2. O以容许一些偏差。REGA还通过检查树形拓扑来执行离群值检测方案以查看该查询是在由参考序列组形成的群簇的内部还是外部。重组体检测的套合分析(Nested Analysis)用于表征重组体病毒株的标准过程包括沿该序列的靴扫描(bootscanning)以定位该重组点。它仅适用于长序列并且对于依赖于大样品量的工具(比如本发明的方法)而言,要实用地通过互联网而服务,它花费时间太多,除非采用具有数百CPU的群簇场(cluster farm)。与其执行靴扫描,本发明人通过以下途径解决了该重组问题(a)对于包括多于一个基因的查询而言,逐基因预测亚型;(b)以一种包括重组参考序列的“套合”方式对该分析进行再迭代。HIV-I与HCV包含顺序的10个基因并且因此对整个基因组序列进行逐基因分析不会花费比单个基因分析长10倍的时间。如果不同亚型被以高可信度分配给了一种查询的不同基因构成部分,则暗示了一种重组情况。对于一些重组体,断点可以发生在一个基因的中间。在此类情况中,有可能的是,分类的后验概率不是仅受一种亚型支配,但是第二个左右会具有一个不可忽略的P值。本发明人通过对具有大于O. Ol的P值的亚型以及相关的重组体亚型予以注意,以一种“套合”方式对该预测过程进行再迭代。例如,如果A组或G组的P值大于O. 01,则这些参考包括CRF02_AG组。网页服务器开发已经研发出接受核苷酸序列作为一种查询并且预测该查询的每一基因片段的基因型(或亚型)的阿帕奇(Apache)网页服务器,每个HIV-I与HCV有一个网络服务器。接受氨基酸序列作为一种查询的相应蛋白质版本也已经得以开发。这些可以在http://WWW.muldas. org/MuLDAS/上免费取得。以PERL编写的每一 CGI程序封装了已从HMMER、EMB0SS以及R的各自发布网站上下载的组件程序。由于距离矩阵的运算耗费许多运行时间,因此本发明人将该任务分割为数个(典型地是四个)计算节点,其中每一个计算节点并行地计算这些行的多个部分,并且这些结果通过主节点进行整合。在英特尔至强CPU Linux盒(IntelXeon CPU Linux box)上,对一段1000-bp的HIV-I核苷酸序列的典型亚型预测要花费大约20秒。这些网页服务器报告该查询的MAP基因型(或亚型)以及每一亚型的后验概率 (posterior P)、这些预测模型的留一法交叉验证结果、以及离群值检测结果(图7的屏幕截图)。该查询的3D示意图与前三个PC中的参考是以PNG格式给出并且描述该查询的所有PC以及这些参考的XML文件可以下载,用于随后利用GGobi (http://www. ggobi. org/)的动态互动可视化(Fig. 2)。这对于可视地检查聚簇的质量以及对于确定可以导致识别出潜在的新型或重组体的离群检测结果来说尤其有用。对于HIV-1,以上描述的“套合”分析被进行再迭代并且该结果也被报告。该网站还运行存储了 HIV-I亚型与HCV基因型的预计算结果的数据服务器,这些结果是利用与这些预测服务器完全一样的方法预测的。定期地(典型地是每天)下载NCBI基因库与GenP^t中HIV-I或HCV的所有新条目,并且预测它们的基因型(或亚型)并存储在这些数据库中。可以通过NCBI GI编号或主入藏号(primary accessions)检索这些结果。还以利用由诸如后验概率、L00CV率、离群度、基因型(或亚型)、或基因片段这些系统计算的性质来查询这些条目。该检索的结果包括从LANL数据库里读取的基因型(或亚型)信息,如果有的话。结果本发明的方法是利用从NCBI基因库与GenP印t下载的HIV-I与HCV的序列数据集进行测试的。针对还没有用作参考序列的158,834种HIV-I序列(包括8,832种重组体)以及48,720种HCV序列,从LANL网站上检索核苷酸序列的亚型信息并且将这些亚型信息用于探寻出源自该核苷酸序列的蛋白质序列的亚型信息。对于一些序列而言,这些基因型/亚型是由最初提交者给出的或由LANL分配。这些测试数据集的基因型(或亚型)命名法HIV-I序列被分组为M (主要(main))组、N (非主要(non-main))组、U (未经分类(unclassified))组、O (外类群(outgroup))组。多数可用的序列属于M组。由于N组与O组距离M组非常远,因此M组的亚型在包括这些远离组的MDS示意图中不能得到很好的解析。因此,本发明人集中于将M组序列分类为亚型A-D、F-H、J以及K。在M组的亚型中,有时将A与F进一步分别地分开为亚-亚型Al与A2以及Fl与F2。
然而,在LANL数据库中仍有一些新序列在亚型等级上被报道。甚至对于包括在由LANL产生的MSA中的序列也是这种情况。利用本发明针对相对短的序列解析亚-亚型要求一种仅使用相关亚型序列的“套合”分析。由于这些原因,本发明人没有试图去区别亚-亚型并且在亚型等级上对它们进行分类。M组序列的不同亚型可以重组来形成一种新株。如果在三个以上流行病学上独立的病人中发现这些株,则称它们为流行重组形式((circulating recombinant forms) CRFs)。在这些 CRF 中,CRF01_AE 由 A 与现在已灭绝的E株重组形成,并且构成一个与A亚型不同的大家族。M组与CRF01_AE亚型已被称为“主要”亚型并且本发明的方法针对它们作为“主要”分析来进行。表I列出了按照亚型以及所有已经被LANL分类为“主要”组的测试序列的基因片段统计的分项数据(相应的蛋白质序列参考表2)。该分布远不一致,代表了研究偏差属于亚型H、J以及K的序列稀少;特别对于诸如vif与vpr的辅助蛋白而言,非B株过于稀少,以至于不能精确评估该分类。 表I. HIV-IM组以及CRF01_AE核苷酸序列的基准测试的总结性统计(a)过滤之前每一亚型的基因片段的数目
权利要求
1.一种用于对查询序列的基因型与亚型进行分类的方法,包括 (i)选择不同病毒的碱基序列作为参考序列,这些病毒的基因型或亚型是已知的,并且通过在所述参考序列的多重比对中计算序列之间的距离而获得一种距离矩阵;以及 (ii)开发一种判别方程,该判别方程可以对这些参考序列进行分类,这是通过对通过该距离矩阵的多维定标对所述参考序列成簇而获得的聚簇执行判别分析而实现的,接着根据所述判别方程对一种查询序列的基因型与亚型进行分类。
2.根据权利要求I所述的方法,其中所述步骤(i)进一步包括从所述多重比对中除去插入缺失。
3.根据权利要求I所述的方法,其中所述步骤(ii)的所述多维定标是一种主坐标分析。
4.根据权利要求I所述的方法,其中所述步骤(ii)的所述判别分析是选自包括线性判别分析、二次判别分析、最近邻点距离法、支撑向量机以及线性分类器的组。
全文摘要
本发明涉及一种用于对查询序列的基因型与亚型进行分类的方法。更具体地,本发明针对一种用于对查询序列的基因型与亚型进行分类的方法,包括(i)选择不同病毒的碱基序列作为参考序列,这些病毒的基因型或亚型是已知的,并且通过在所述参考序列的多重比对中计算序列之间的距离而获得一种距离矩阵;以及(ii)开发一种判别方程,该判别方程可以对这些参考序列进行分类,这是通过对通过该距离矩阵的多维定标对所述参考序列成簇而获得的聚簇执行判别分析而实现的,接着根据所述判别方程对一种查询序列的基因型与亚型进行分类。
文档编号G06F19/24GK102884203SQ201080066436
公开日2013年1月16日 申请日期2010年8月13日 优先权日2010年2月26日
发明者金尚洙 申请人:崇实大学校产学协力团
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1