稳定的配对e值的制作方法

文档序号:6533331阅读:336来源:国知局
稳定的配对e值的制作方法
【专利摘要】本发明涉及用于获得稳定并且不依赖蛋白或核酸序列数据库大小的生物信息学配对E值的系统和方法。提供了示例性实施方案,为多蛋白数据中含有的每一个蛋白限定至少一个数据库,并在查询(query)蛋白与每一个单蛋白数据库中的每一个蛋白质之间生成E值,从而为每一个查询-数据库蛋白比较提供一个稳定的配对E值。
【专利说明】稳定的配对E值发明领域
[0001]本发明一般的涉及生物信息学领域,更具体地,涉及变应原发现和序列比对领域。
[0002]发明背景
[0003]在生物信息学研究中,E值被用作一种统计学度量,根据蛋白质的氨基酸序列同一性和相似性评估它们的相关性。一般地,E值越低,两个蛋白质在进化上相关并享有相似结构和功能的可能性越大。E值计算的统计学性质(nature)考虑了所查询数据库中蛋白质的数目和/或长度,以估算氨基酸比对是随机的或者具有进化或生物学显著性的概率。
[0004]在监管情境中,生物信息学调查已经被用于评估转基因蛋白质是否与已知的毒素和变应原具有生物学有意义的相关性。目前关于变应原搜寻的指导主要是基于蛋白质内特定连续序列段(stretch)的氨基酸同一性(例如精确匹配8个连续的氨基酸或在一个80个氨基酸的片段上具有>35%的同一性)。当生物信息学研究显示转基因蛋白有可能是交叉反应变应原或毒素时,政府监管机构通常要求进行生物学试验,以确保转基因蛋白可安全地用于人和/或动物。然而,生物学试验经常成本高昂并且耗时。因此,生物信息学调查结果的假阳性会显著延迟或阻止(从经济上)有用的转基因蛋白产物市场化。
[0005]最近,有人建议使用E值作为标准/阈值,通过仅选择有生物学意义的同源物进行进一步的生物信息学评估,来降低假阳性率。然而,因为E值依赖于所用数据库的大小,所以当向数据库添加额外的蛋白序列时,在特定查询蛋白与特定数据蛋白之间进行比较所计算出的E值会发生改变。这种“演化的(evolving)”或不稳定的E值对为监管或科学目的而确定E值的阈值带来了挑战。因此,仍然需要能够高效而准确地使用不依赖数据库大小的E值阈值的方法。
发明概要
[0006]本发明涉及用于获得稳定并且不依赖蛋白质序列数据库大小的生物信息学配对E值的系统和方法。提供了示例性实施方案,用于为多蛋白质数据库中包含的每一个蛋白质定义至少一个数据库,并在查询(query)蛋白质与每一单蛋白质数据库中的每一蛋白质之间生成E值,从而为每一个查询对数据库的蛋白质比较(query-to-database proteincomparison)提供稳定的配对 E 值(pair-wise E value)。
[0007]在至少一个方面中,提供了一种计算机化系统,用于为查询序列生成稳定的配对E值和/或进行变应原分类。该系统包括:
[0008](a)输入设备和输出设备/界面;
[0009](b)与计算机的存储器相连的分析系统界面;
[0010](c)包含至少一个数据库的操作系统;
[0011 ] (d)稳定配对E值模块;和
[0012](e)分类模块。
[0013]在一个实施方案中,输入设备选自:任何氨基酸序列、自动化测序仪、测序数据输入设备、和测序数据存储设备。在另一个实施方案中,所述输出界面包括一系列潜在的变应原命中。在另一个实施方案中,所述至少一个数据库包含共有变应原数据库。在进一步的或替代的实施方案中,所述至少一个数据库包括源自美国国家生物技术信息中心(NCBI)的数据库。
[0014]在一个实施方案中,稳定配对E值模块针对所使用的数据库中的每一序列为查询序列生成一个稳定的配对E值。在另一个实施方案中,分类模块基于预定的E值对查询序列进行分类。在另一个实施方案中,分类模块基于预定的E值对所使用的数据库中的序列进行分类。在一个实施方案中,所述预定的E值等于或小于0.1。在另一个实施方案中,所述预定的E值为0.1至Ix 10_1(1。在一个实施方案中,所述稳定地E值不依赖所使用的数据库的大小。在另一个实施方案中,查询序列针对特定序列的稳定的配对E值不依赖所使用的数据库的大小。
[0015]在另一个方面中,提供了一种供计算机化系统中使用的、用于为查询序列生成稳定的配对E值和/或进行变应原分类的方法。该方法包括:
[0016](a)使用稳定配对E值模块针对第一数据库中的每一序列为查询序列生成稳定的配对E值;和
[0017](b)使用分类模块基于预定的E值对数据库中的序列进行分类。
[0018]在另一个方面中,提供了一种供计算机化系统中使用的、用于为查询序列生成稳定的配对E值和/或进行变应原分类的方法。该方法包括:
[0019](a)使用稳定配对E值模块针对第一数据库中的每一序列为查询序列生成稳定的配对E值;和
[0020](b)使用分类模块基于预定的E值对查询序列进行分类。
[0021]在另一个方面中,提供了一种供计算机化系统中使用的、用于为查询序列生成稳定的配对E值和/或进行变应原分类的方法。该方法包括:
[0022](a)使用稳定配对E值模块为查询序列针对第一数据库中的每一序列生成稳定的配对E值;和
[0023](b)使用分类模块基于预定的E值对查询序列进行分类。
[0024]在一个实施方案中,该方法进一步包括向用户输出潜在的变应原命中的列表。在进一步的或替代的实施方案中,该潜在的变应原命中的列表包括与查询序列的序列比对。在进一步的或替代的实施方案中,该潜在的变应原命中的列表包括查询序列与数据库中每一个已知变应原之间的序列比对。在进一步的或替代的实施方案中,序列比对使用FASTA搜索工具或基本局部比对搜索工具(BLAST)实施。
[0025]在另一个实施方案中,该方法进一步包括用第二数据库重复进行步骤(a)和(b)。在进一步的或替代的实施方案中,所述第一或第二数据库源自美国国家生物技术信息中心(NCBI)。在另一个实施方案中,所述第一数据库包含共有变应原数据库。在另一个实施方案中,该方法进一步包括用不同的查询序列重复进行步骤(a)和(b)。在另一个实施方案中,该计算机化系统包括本文中描述的系统。
[0026]在一个实施方案中,所述预定的E值等于或小于0.1。在另一个实施方案中,所述预定的E值为0.1至Ix 10,。在另一个实施方案中,配对E值不依赖数据库的大小。在另一个实施方案中,针对特定序列的查询序列的配对E值不依赖数据库的大小。
[0027]在一个实施方案中,查询序列是蛋白质或氨基酸序列。在另一个实施方案中,查询序列是核酸序列。在进一步的实施方案中,核酸序列是DNA或RNA序列。在另一个实施方案中,查询序列是来自转基因事件或转基因植物的序列。在进一步的或替代的实施方案中,转基因事件或转基因植物选自转基因玉米、加拿大油菜(canola)、大豆、向日葵、棉花、小麦或水稻。
[0028]附图简述
[0029]图1显示了本文中提供的系统和方法的一个示例性实施方案。将查询蛋白质的序列输入到稳定配对E值模块中,以便与选定的变应原数据库中的每一序列生成配对E值。然后,将所有的稳定的配对E值(针对选定的变应原数据库中的每一序列)输入到分类模块,用于确定该查询蛋白质的变应原潜力。
[0030]图2显示了在本文实施例中使用的示例性蛋白质序列(SEQ ID NO:1)。该序列包含来自一种主要变应原I的30个氨基酸加上CrylF的30个氨基酸。
[0031]图3显示了通过搜索GenBank非冗余蛋白质序列而获得的示例E值。该数据库大小显示为14,481,394个序列。对主要变应原I多肽链I的E值显示为7.3x 10_9。
[0032]图4显示了通过搜索共有变应原数据库Vll而获得的示例E值。该数据库大小显示为1,489个序列。对主要变应原I多肽的E值显示为Sx 10_15。由于数据库较小,该E值远小于图3。
[0033]图5显示了通过搜索共有变应原数据库VlO而获得的示例E值。该数据库大小显示为1,471个序列。对主要变应原I多肽的E值显示为7.Sx 10_15。由于数据库较小,该E值也远小于图3。
[0034]图6显示了通过搜索共有变应原数据库Vll (经删减(truncated))而获得的示例E值。该数据库大小显示为1,469个序列。对主要变应原I多肽的E值显示为1.3χ 1(Γ15。由于数据库较小,该E值也远小于图3。
[0035]图7显示了通过搜索仅有一个序列一一主要变应原I多肽的数据库而获得的极端E值。针对主要变应原I多肽的E值显示为6.3χ 1(Γ19。由于数据库极小,仅含有一个序列,因此该E值远小于图3-6。
[0036]图8显示了从根据图3-7的不同数据库计算得出的E值的汇总。
[0037]发明的详细说明
[0038]提供了用于生成稳定的配对E值的系统和方法。在一个实施方案中,所生成的稳定的配对E值不依赖于数据库的大小(序列数目永远等于I)。具体地,为多蛋白质数据库中所含的每一个蛋白质定义至少一个数据库,并在查询(query)蛋白质与每一单蛋白质数据库中的每一蛋白质之间生成E值,从而为每一个查询对数据库蛋白质比较(query-to-database protein comparison)提供稳定的配对E值。该E值的稳定性允许在监管情境中(以及在科研情境中)确定和/或指定阈值,可以针对该阈值进行特定的配对蛋白质比较。
[0039]联合国粮食及农业组织(FAO)和世界卫生组织(WHO)为基于IgE交叉反应性预测的转基因蛋白质变应原筛选建立了标准,其使用(I)至少6个连续氨基酸的同一性;或(2)一个由80个氨基酸构成的“滑移窗口 ”搜索大于35%的同一性。然而,这个由FA0/WH0建立的标准会产生过多的假阳性。见例如Cressman and Ladies (2009) “Further evaluat1nof the utility of ‘Sliding Window’ FASTA in predicting cross-reactivity withallergenic proteins.” Regul.Toxicol.Pharmacol.54: S20-S25,本文援引并入其全部内容。
[0040]作为替代,有人已提出用基于基序的变应性预测系统消除变应原预测的假阳性问题,依据是其声称仅需52个变应原基序即可匹配大多数变应原。见Stadler andStadler (2003)FASEB 17:1141-43,本文援弓I并入其全部内容。
[0041]先前,有人提出考虑使用E值作为变应原预测的标准。见例如Ladies etal.(2007) “Comparison of convent1nal FASTA identity searches with the 80aminoacid sliding window FASTA search for the elucidat1n of potential identitiesto known allergens.’’Molecular Nutrit1n&Food Research 51:985-998,本文援引并入其全部内容。然而,关于E值的一个挑战性问题是,随着数据库大小的改变,相同的配对比较会随时间变化。
[0042]如这里所使用的,词语“氨基酸”是指具有以下结构的分子,其中一个中心碳原子(阿尔法(α)_碳原子,或“Ca ”)与一个氢原子、一个羧酸基团(其碳原子在此处称为“羧基碳原子”)、一个氨基(其氮原子在此处称为“氨基氮原子”)、以及一个侧链基团R相连。当被纳入肽、多肽或蛋白质内时,氨基酸通过脱水反应失去其氨基和羧基上的一个或多个原子,使氨基酸彼此相连。其结果是,当被纳入蛋白质内时,氨基酸被称为“氨基酸残基”。在天然存在的蛋白质的情况下,通常用于合成蛋白质的20种氨基酸由氨基酸残基的R基团所区分。
[0043]如本文所用,词语“蛋白质”是指任何由两个或更多个单独的氨基酸(不论其是否为天然存在的)通过肽键相连形成的聚合物,当一个氨基酸(或氨基酸残基)中与a-碳连接的羧基的羧基碳原子与相邻的氨基酸中与a-碳连接的氨基的氨基氮原子之间发生共价键合时,蛋白质便会生成。这些肽键连接和包含它们的原子(即a-碳原子、羧基碳原子(以及它们的取代基氧原子)和氨基氮原子(以及它们的取代基氢原子))形成了蛋白质的“多肽主链”。多肽主链应当理解为是指蛋白质的氨基氮原子、a-碳原子和羧基碳原子。
[0044]进一步地,词语“蛋白质”应理解为包括词语“多肽”和“肽”(其有时可以在本文中互换使用)。包含多个多肽亚基(例如DNA聚合酶IE、RNA聚合酶II)或其他组分(例如RNA分子,如在端粒酶中出现的)的分子,包含在这里所使用的“蛋白质”的含义内。蛋白质和多肽的片段也包含在本发明的范围内,并且在这里可以称为“蛋白质”。蛋白质“结构域”是指更大的蛋白质的一部分,其在分离条件下呈现的三维构象与该结构域在较大蛋白质中存在时所呈现的构象一致。
[0045]如这里所使用的,词语“计算机可用介质”是指如下的介质,包括可移动存储设备和信号。“计算机可用介质”还指指向计算机系统的软件或程序指令。计算机程序(也称作计算机控制逻辑)被存储在主存储器和/或辅助存储器中,也可以通过通信界面接收和发送。这样的计算机程序在被执行时,可以使计算机系统实现如本文中所讨论的本发明的特征。
[0046]如这里所使用的,词语“同一性”是指在比对中相同的序列位置的数目。在大多数情况下,它被表示为比对长度(alignment length)的百分比。
[0047]表1.氨基酸残基的保守取代列表
分类氨基酸小侧链氨酸(AlaiA);甘氨酸(GlyiG);和丝氨酸(SedslS)
带正电_精氨酸(ArgSR);赖氨酸(LysiL);和组氨酸(His或H)
带负电i冬氨酸(Asp或D)和谷氨酸(GluiE)
胺基团天冬酰胺(Asn或N)和谷氣酜胺(Gli^Q)
极性基团__半胱氨酸(CysiC);丝氨酸(Ser或S);和苏氨酸(Thr或T)
巯基^胱氨酸(Cys或C)和曱硫氨酸(Met或M)
大的疏水基团缴氨酸(Val或V);亮氣酸(LeuiL);异亮氨酸(He或I);和
__甲硫氨酸(MetiM)_
芳香族基团酪氨酸(Tyr或Y);色氨酸(TrpiW);苯丙氨酸(Plie或F);组_氨酸(His或H) _
[0048]如这里所使用的,词语“相似性”是指在比对中相似的(例如,保守取代)序列位置的数量。与天然存在的多肽的相应区域相比,根据本发明的多肽可以具有缺失或氨基酸取代,只要它们仍然发挥完整多肽的至少一种生物活性即可。保守取代包括氨基酸变异,其中一个氨基酸被同属如下组的另一个氨基酸代替:小侧链、带正电荷、带负电荷、胺基团、极性基团、巯基、大的疏水基团和芳香族基团,如表I所示。
[0049]如这里所使用的,词语“同源性”是指进化上的关系。两个同源蛋白质从一个共同的前体序列发展而来。同源性并不一定意味着相同或相似,只是同源序列通常比非同源序列更相似(或者在比对中具有更多相同的位置)。
[0050]如这里所使用的,词语“直系同源物”或“直向同源的”是指一种功能对应物(counterpart),例如另一种生物中的蛋白质,它们都是从共同的前体发展而来。通常情况下,直系同源物保留共同的功能。相比之下,“旁系同源物”是指如下的基因或蛋白质,它们通过基因组内的复制而产生,并且在进化期间获得了不同的功能,但彼此仍然具有相似性。
[0051]如这里所使用的,词语“植物”包括双子叶植物和单子叶植物。双子叶植物的实例包括烟草、拟南芥、大豆、番茄、木瓜、加拿大油菜、向日葵、棉花、苜蓿、马铃薯、葡萄(grapevine)、木豆(pigeon pea)、豌豆、芸苔属(Brassica)、鹰嘴豆、甜菜、油菜、西瓜、甜瓜、辣椒、花生、南瓜、萝卜、菠菜、倭瓜(squash)、西兰花、卷心菜、胡萝卜、花椰菜、芹菜、大白菜、黄瓜、茄子和莴苣。单子叶植物的例子包括玉米、水稻、小麦、甘蔗、大麦、黑麦、高粱、兰花、竹子、香蕉、香蒲、百合、燕麦、洋葱、黍和黑小麦(triticale)。
[0052]在生物信息学领域,FASTA格式由Bill Pearson和David Lipman在1988年提出,用于表示任何核苷酸或氨基酸序列(见Pearson and Lipman, “Improved tolls forb1logical sequence comparison(1988) Proc.Natl.Acad.Sc1.USA 85:2444-2448),本文援引并入其全部内容。基本上,FASTA格式的序列是一种基于文本的格式,以单行描述开始,在第一列中含有一个大于号(>),接着是序列数据行。
[0053]用于核酸和氨基酸序列的通用比对工具包括基本局部比对搜索工具(BLAST)和FASTAtjMAltschul et al.(1990) J.Mo 1.B1l.215:403-410, and Pearson WR and LipmanDJ (1988) Proc Natl Acad Sci USA 85 (8): 2444-8,本文援引并入其全部内容。
[0054]两种蛋白质之间的氨基酸相似性往往采用自动化的生物信息学比对工具研究。经常用统计学工具评估所得到的比对结果具有意义的似然性,并用一个期望值(E值)来表示该似然性。此前,E值依赖于查询长度和数据库大小。已有人建议用E值替代所需的氨基酸同一性检索,作为一种有用信息更多的工具,但是该建议受到了责难,因为E值会随着数据库大小变化而改变。
[0055]目前两个特定蛋白质序列(一个查询蛋白质和一个数据库蛋白质)之间的E值会随着数据库大小变化而改变,甚至在两个蛋白质的关系并未发生变化的情况下也是如此。这就导致一种情况:在一次查询中可能达到某个相似性的阈值,但是当数据库添加了条目后,后来的查询不超过该阈值。这对于监管机构而言是特别不能接受的,因为他们必须保持对转基因作物进行明确的监管。稳定的配对E值,如这里所述的,将允许生成稳定的配对阈值。
[0056]本文所述的系统和方法提供了一种生成稳定配对E值的方法,该E值不会随着数据库大小的增加(或减少)而改变。根据所提供的系统和方法,将每个查询蛋白质与数据库中的每个蛋白质进行比较,并在与数据库其它蛋白质分离的条件下为每个配对(查询蛋白质和数据库蛋白质)确定E值。这样,根据所提供的系统和方法确定的E值不会随着多蛋白质数据库大小变化而改变。
[0057]在一些实施方案中,本文所公开的系统和方法可以适用于核酸(例如,DNA或RNA序列)和氨基酸序列。数据库中的蛋白质编码基因和/或由它们编码的多肽可以以配对比较的方式(例如,每一个DNA与每一个DNA;每一个多肽与每一个多肽)彼此比较,以便发现同源相似性。在一些实施方案中,可以使用Smith-Waterman算法进行配对比较。
[0058]为了评估给定的比对是否构成同源性证据,可以评估比对仅由于偶然性而发生的可能。无缺口的局部对齐(local alignment without gaps)仅由一对等长的节段构成,每一个节段来自于所比较的两条序列的其中之一。Smith-Waterman或Sellers算法的修改算法可以找到所有不会由于延长或削减而提高“得分”的节段。这些节段被称作高得分节段对(HSP)。为了分析某一得分由于偶然而发生的盖然性的高低,需要一个随机序列模型。用来衡量所得到的相似度的度量就是E值(期望值)。E值表示两个蛋白质或基因或核酸之间现有的一致性是由于纯粹的随机原因而导致的概率。一般来说,E值越小,搜索中获得的命中越显著。因此在两条相同序列的情况下,E-值逐渐逼近O。在两条完全不相关序列的情况下,E-值收敛于大于I的值。
[0059]在一个实施方案中,如Gribskov et al.(1987) Proc.Natl.Acad.Sc1.USA84:4355-4358(给定位置处氨基酸的加权平均值)所报告地生成概貌图(profile)。
实施例
[0060]实施例1
[0061]E值随着数据库大小变化而改变
[0062]查询序列:来自主要变应原I的30个氨基酸加上CrylF的30个氨基酸:EICPAVKRDV DLFLTGTPDE YVEQVAQYKA HVLNHVTFVR WPGEISGSDS WRAPMFSffTH RSA(SEQ IDNO:1) ο GenBank非冗余蛋白质数据库的搜索算法:万维网上//fasta.b1ch.Virginia,edu/fasta_www2/fasta_www.cgi 的 FASTA36。所使用的数据库包括:(I)GenBank 非冗余蛋白质序列;(2)各种变应原数据库;和(3) —对一(one-to-one), GanBank登录号为NP_NP_001041618.1。查询蛋白质和相同靶蛋白质之间比对的E值比较。
[0063]图3显示了来自对GenBank非冗余蛋白质序列进行搜索获得的示例E值。该数据库大小为14,481,394个序列,包括该查询蛋白质在内。针对主要变应原I多肽链I的E值被确定为7.3χ 10Λ
[0064]图4显示了对共有变应原数据库Vll进行搜索获得的另一个示例E值。该数据库大小为1,489个序列。针对主要变应原I多肽的E值显示为Sx 10_15。由于数据库较小,该E值远小于图3。
[0065]图5显示了对共有变应原数据库VlO进行搜索获得的另一个示例E值。该数据库大小为1,471个序列。针对主要变应原I多肽的E值显示为7.8χ10_15。由于数据库较小,该E值也远小于图3。
[0066]图6显示了对共有变应原数据库Vll (有删减的)进行搜索获得的另一个示例E值。该数据库大小为1,469个序列。针对主要变应原I多肽的E值显示为1.3χ 1(Γ15。由于数据库较小,该E值也远小于图3。
[0067]图7显示了通过搜索仅有一个序列——主要变应原I多肽的数据库获得的极端E值。针对主要变应原I多肽的E值显示为6.3χ 1(Γ19。由于数据库极小,仅含有一个序列,因此该E值远小于图3-6。图8显示了从根据图3-7的不同数据库计算得出的E值的汇总。
[0068]这个具体实施例证明,E值会随着数据库大小的不同而显著变化。在图3-7所示的每一个搜索中,搜索引擎鉴定相同的变应原蛋白质一一主要变应原I多肽。然而,当使用不同的数据库时,E值变化显著。为了向监管部门提交(regulatory submiss1n)的目的使用这种E值作为变应原预测的主要标准是有挑战性的,因为E值依赖于数据库的大小。
[0069]实施例2
[0070]稳定的配对E值的生成
[0071]图1显示了本文提供的系统和方法的示例性实施方案。将查询蛋白质的序列输入到稳定配对E值模块(FASTA或BLAST程序)中,以与选定的变应原数据库中的每一序列生成稳定的E-值。相应地,为选定的变应原数据库中的每一序列生成稳定的配对E值。然后,将所有稳定的配对E值(针对选定的变应原数据库中的所有序列)输入到分类模块中,用于确定查询蛋白质的变应原潜力。分类模块能够基于该稳定的配对E值与预定的E值阈值的比较,确定潜在变应原输出。选定的变应原数据库中所有具有等于或小于预定值的稳定配对E值的序列将被视为查询蛋白质的“潜在变应原命中”。另一方面,在所选变应原数据库中所有具有大于预定值的稳定配对E值的序列将被视为对查询蛋白质而言“不是潜在变应原”。
[0072]同样的过程可以使用不同的数据库再次重复,该数据库可包含若干已经存在于先前所选的变应原数据库中的重叠序列。根据所提供的系统和方法,这些重叠序列的每一个将产生相同的针对查询蛋白质的稳定配对E值,而与为这些重叠序列使用哪个数据库无关。因此,从其中稳定配对E值保持不变的不同数据库获得的“潜在变应原命中”将是一致的,不管使用的是哪个数据库来产生查询蛋白质与变应原序列(例如,不同数据库中的某些重叠序列)之间的配对E值。
【权利要求】
1.一种用于为查询序列生成稳定的配对E值和/或进行变应原分类的计算机化系统,包括: (a)输入设备和输出设备/界面; (b)与计算机的存储器相连的分析系统界面; (c)包含至少一个数据库的操作系统; (d)稳定配对E值模块;和 (e)分类模块。
2.权利要求1的计算机化系统,其中所述输入设备选自:任何氨基酸序列、自动化测序仪、测序数据输入设备、和测序数据存储设备。
3.权利要求1的计算机化系统,其中所述输出界面包括潜在的变应原命中的列表。
4.权利要求1的计算机化系统,其中所述至少一个数据库包含共有变应原数据库。
5.权利要求1的计算机化系统,其中所述稳定配对E值模块针对所使用的数据库中的每一序列为所述查询序列生成一个稳定的配对E值。
6.权利要求2的计算机化系统,其中所述分类模块基于预定的E值对所使用的数据库中的序列分类。
7.权利要求6的计算机化系统,其中所述预定的E值等于或小于0.1。
8.权利要求6的计算机化系统,其中所述预定的E值为0.1至Ix 10_1(1。
9.权利要求5的计算机化系统,其中所述稳定的E值不依赖所使用的数据库的大小。
10.权利要求5的计算机化系统,其中所述查询序列针对所述数据库中的特定序列的稳定配对E值不依赖所使用的数据库的大小。
11.一种供计算机化系统中使用的为查询序列生成稳定的配对E值和/或进行变应原分类的方法,包括: (a)使用稳定配对E值模块针对第一数据库中的每一序列为查询序列生成稳定的配对E值;和 (b)使用分类模块基于预定的E值对查询序列进行分类。
12.权利要求11的方法,还包括向用户输出潜在的变应原命中的列表。
13.权利要求12的方法,其中所述潜在的变应原命中的列表包括查询序列与数据库中每一个已知变应原之间的序列比对。
14.权利要求13的方法,其中所述序列比对使用FASTA或基本局部比对搜索工具(BLAST)实施。
15.权利要求12的方法,还包括用第二数据库重复进行步骤(a)和(b)。
16.权利要求15的方法,其中所述第一或第二数据库源自美国国家生物技术信息中心(NCBI)。
17.权利要求11的方法,其中所述第一数据库包含共有变应原数据库。
18.权利要求11的方法,还包括用不同的查询序列重复进行步骤(a)和(b)。
19.权利要求11的方法,其中所述计算机化系统包括权利要求1的系统。
20.权利要求11的方法,其中所述预定的E值等于或小于0.1。
21.权利要求11的方法,其中所述预定的E值为0.1至Ix 10,。
22.权利要求11的方法,其中所述稳定的E值不依赖数据库的大小。
23.权利要求11的方法,其中所述查询序列针对所述数据库中的特定序列的稳定配对E值不依赖数据库的大小。
24.权利要求11的方法,其中所述查询序列是蛋白质或氨基酸序列。
25.权利要求11的方法,其中所述查询序列是核酸序列。
26.权利要求25的方法,其中所述核酸序列是DNA或RNA序列。
【文档编号】G06F19/22GK104169928SQ201380014871
【公开日】2014年11月26日 申请日期:2013年1月17日 优先权日:2012年1月18日
【发明者】R·A·赫尔曼, P·桑 申请人:陶氏益农公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1