识别结构上或功能上重要的氨基酸序列的系统和方法

文档序号:6348477阅读:399来源:国知局
专利名称:识别结构上或功能上重要的氨基酸序列的系统和方法
技术领域
本发明涉及药物研发领域,更特别地是,涉及识别结构上或功能上重要的氨基酸序列的系统和方法。
背景技术
病原菌是可感染寄助物并因此导致疾病或生病的细菌。可使用设计用来导向和杀死某些病原菌的抗生素药物来治疗带有病原菌的感染。最近数年已经发现,在公共场合出现了增长数量的抗生素抗性病原菌株。在该同一期限内,新抗生素药物的引入已经减少。因而,需要导向该增长数量的病原菌的新抗生素药物,并因此需要研发这样药物的新的研究策略。发明概述本发明各个方面体现在用来识别由基因组编码的结构上或功能上重要的氨基酸序列的系统、方法和计算机可读存储介质。可识别至少一个由基因组编码的结构上或功能上重要的氨基酸序列,通过为由该基因组编码的多个氨基酸字符中每一个编译观察频率, 使用计算机为由该基因组编码的多个氨基酸字符中每一个计算期望频率,并至少部分地基于由该基因组编码的多个氨基酸字符中每一个的观察和期望频率来识别至少一个由该基因组编码的结构上或功能上重要的氨基酸序列。依照本发明的另一方面,可导向在病原体蛋白质中的结构上或功能上重要的氨基酸序列,通过为由该病原体基因组编码的多个氨基酸字符中每一个编译观察频率,使用计算机为由该病原体基因组编码的多个氨基酸字符中每一个计算期望频率,至少部分地基于由该病原体基因组编码的多个氨基酸字符中每一个的观察和期望频率来识别至少一个由该病原体基因组编码的结构上或功能上重要的氨基酸序列,并研发一种药物,配置用来与该至少一个由该病原体基因组编码的结构上或功能上重要的氨基酸序列进行相互作用。


当结合该附图进行阅读时,从下列具体说明处对本发明进行了最佳理解。包括在该附图中的是下列图图1是依照本发明一方面描绘了识别由基因组编码的重要氨基酸序列的示范系统的方框图;图2是依照本发明一方面提供识别用于研发抗生素药物中的由基因组编码的重要氨基酸序列的概述的示范步骤的流程图3是依照本发明一方面用于识别由基因组编码的重要氨基酸序列的示范步骤的流程图;图4是依照本发明一方面用于输出基因组字符字典的示范步骤的流程图;图5是依照本发明一方面用于确定氨基酸序列的选择得分的示例;图6A是依照本发明一方面描述了在基因组的观察和期望字符数之间残余距离的示范图;图6B是依照本发明一方面描述了在基因组的观察和期望字符数之间残余距离的另一示范图;图7是依照本发明一方面描绘了由基因组编码的氨基酸序列的选择得分的示范表。发明详述图1依照本发明一方面描绘了识别来自有机体基因组处由该核酸序列所编码的结构上或功能上重要氨基酸序列的示范系统100。该基因组可来自例如细菌的人类病原体。 该结构上或功能上重要氨基酸序列可表现为可能对抗生素药物导向脆弱的细菌蛋白质上的功能部位。该导向的病原菌可包括任意细菌性病原体,例如包括下列种类艰难梭菌菌株 630,志贺氏菌属痢疾杆菌,幽门螺旋杆菌菌株HPAG1,白喉棒状杆菌,脑膜炎奈瑟氏菌菌株 FAM18和立克次氏体伤寒菌株Wilmington。如此处所用的一样,细菌的基因组指的是该细菌的完全基因序列。每一个基因组包括编码各种多肽序列的多个基因。由该基因组编码的该多肽序列的一些包括蛋白质序列。由该基因组编码的每一个蛋白质序列由氨基酸序列组成。如一般概述一样,系统100包括一个或多个输入装置102,数据处理器104,数据存储装置106和一个或多个输入装置108。系统100可以可选地包括外部处理系统110。以下提供了系统100的附加细节。输入装置102耦合到数据处理器104并可被用于将来自用户或电子装置的电子数据提供给数据处理器104。在一示范性实施方案中,该电子数据可包括与一个或多个基因组相关的数据。在另一个示范性实施方案中,该电子数据可包括在由该基因组编码的蛋白质序列中每一个氨基酸字符的观察频率。另外,可将输入装置102用于将用户指令提供给数据处理器104。输入装置102可包括服务器、数据库、键盘和/或能够将电子数据提供给数据处理器的其他计算机外围装置。数据处理器104接收来自输入装置102处的电子数据并处理该电子数据。数据处理器104可将接收到的电子数据或处理过的电子数据存入数据存储装置106(以下说明)。 在一示范性实施方案中,数据处理器104接收到包括与一个或多个基因组相关数据的电子数据。在另一示范性实施方案中,数据处理器104接收到包括在由基因组编码的蛋白质序列中每一个氨基酸字符的观察频率的电子数据。配置数据处理器104以处理电子数据。数据处理器104可将该电子数据转换成另一种格式。在一示范性实施方案中,该转换后的电子数据可包括用于基因组的氨基酸字符字典。在另一示范性实施方案中,该转换后的电子数据可包括用于基因组的一个或多个选择得分(以下说明)。可将该转换后的电子数据存入数据存储装置106(以下说明),或发送到输出装置108(以下说明)。
数据存储装置106存储了来自数据处理器104处接收到的电子数据。在一示范性实施方案中,数据处理器104可将包括与一个或多个基因组相关数据的电子数据存储在数据存储装置106上。在另一示范性实施方案中,数据处理器104可将包括用于一个或多个基因组的一个或多个氨基酸字符字典的电子数据存储在数据存储装置106上。在又一示范性实施方案中,数据处理器104可将包括用于一个或多个基因组的一个或多个选择得分的电子数据存储在数据存储装置106上。数据处理器104可访问存储在数据存储装置106上的电子数据。本领域技术人员从此处说明书处将理解用于本发明的合适的数据存储装置。包括用于本发明的合适处理器和数据存储装置的示范性系统包括Sim微系统 SunFire V60x 群,特色 128 双处理器 2. 8GHx Xeon CPU,7 个四处理器 Sunf ire X4100M2 节点,48节点Myrinet Switch,160GB存储器和在兆兆字节磁盘存储器上。本领域技术人员从此处说明书处将理解其他合适的数据处理器和数据存储装置。输出装置108耦合数据处理器104并可被用来将从输出处理器104处接收到的电子数据展现给用户。在一示范性实施方案中,该电子数据可包括用于一个或多个基因组的一个或多个氨基酸字符字典。在另一示范性实施方案中,该电子数据可包括用于一个或多个基因组的一个或多个选择得分。输出装置108可包括计算机显示器、打印机或能够生成到来自接收到电子数据处用户的输出的其他计算机外围装置。配置可选外部处理系统110来与数据处理器104交换电子数据并可实施由数据处理器104所实施的一个或多个功能。另外,外部处理系统110可将电子数据提供给数据处理器104用于进一步处理。本领域技术人员从此处说明书处将理解用于本发明的合适的外部处理系统。图2是依照本发明一方面识别用于研发抗生素药物中的由细菌基因组编码的蛋白质序列中重要氨基酸序列的示范步骤的流程图200。为了便于说明,参照图1的系统组件对图2的步骤进行描述。如此处参考的一样,使用数据处理器104的任意步骤可替代外部处理系统110以实施该必须处理功能的所有或部分。本领域技术人员从此处说明书处将理解到,可省略一个或多个步骤和/或可利用不同组件而不背离本发明的范围。在步骤202中,编译了由基因组编码的蛋白质序列中的氨基酸字符的观察频率。 在示范性实施方案中,数据处理器104从输出装置102处接收到与基因组相关的数据。数据处理器104随后可计算每一个氨基酸字符发生在由该基因组编码的每一个蛋白质序列中的次数数量,并为每一个氨基酸字符编译观察频率列表。可将该氨基酸字符的观察频率列表存入数据存储装置106中。在步骤204中,计算了在由基因组编码的每一个蛋白质序列中的氨基酸字符的期望频率,如使用通用或专用计算机。可至少部分地基于在步骤202中编译的观察氨基酸字符频率列表来计算每一个氨基酸字符的期望频率。在示范性实施方案中,数据处理器104 基于组成该氨基酸字符的两个或更多氨基酸子字符的观察频率来计算氨基酸字符的期望频率。如此处使用的一样,氨基酸子字符是发生在另一个氨基酸字符内的氨基酸字符。随后数据处理器10410可为每一个氨基酸字符编译期望频率列表。该氨基酸字符的期望频率列表随后可被存入数据存储装置106中。在步骤206中,识别了结构上或功能上重要的氨基酸序列。可至少部分地基于在步骤202和204中编译的观察和期望的氨基酸字符频率来识别该结构上或功能上重要的氨基酸序列。在示范性实施方案中,数据处理器104为在由该基因组编码的每一个蛋白质序列中每一个氨基酸序列生成选择得分,基于在该序列中每一个氨基酸的期望和观察字符频率之间的差别。对应于氨基酸序列的最大选择得分在由该基因组编码的所有蛋白质序列中比从其期望频率处所期望的发生地更频繁,这指出其对该细菌结构上或功能上重要。该结构上或功能上重要的氨基酸序列的识别可能另外地基于在由该基因组(如, 病原菌的基因组)所编码的蛋白质序列中的氨基酸字符频率与在由相关基因组(如与该病原菌相关的非病原菌的基因组)所编码的蛋白组序列中氨基酸字符频率的比较。依照本实施方案,在该病原性基因组和该非病原性基因组的氨基酸频率之间的差别可用来识别对该病原菌而不是对该非病原菌重要的氨基酸字符,如具有在该病原菌中比在该非病原菌中更高频率的氨基酸字符。这可能进一步提供在病原体基因组上自然选择的不同效果相关的信息,对比于在非病原体基因组上自然选择的效果。在步骤208中,存储和/或展现该结构上或功能上重要的氨基酸序列。在一示范性实施方案中,可将用于一个或多个机构上或功能上重要氨基酸序列的选择得分存入数据存储器装置106。在另一示范性实施方案中,数据处理器104可能将电子数据传送给输出装置108。该电子数据可能包括用于在该基因组中一个或多个机构上或功能上重要氨基酸序列的选择得分。随后输出装置108可将该选择得分展现给用户,例如,通过在监视器上展现或在纸上打印的指示用于该一个或多个结构上或功能上重要氨基酸序列的选择得分的相比较高度的表或图。可将传送给输出装置108处的电子数据至少临时地存入例如视频缓冲器(未图示)。识别病原体的一个或多个结构上或功能上重要的氨基酸序列对于设计用来导向该病原体的机构上或功能上重要的部分可能是有用的。然而,识别结构上或功能上重要的氨基酸序列可能具有其他用处。这样的用处可能包括识别基因机构和组织的模式,识别在病原体中关键的基因/路径,识别在环境基因组中的潜伏病原体基因,识别潜在的新的或紧急病原体疾病,或识别紧急病原体进化模式。本领域技术人员应当理解,在这些应用中, 可省略以下步骤210。在步骤210中,研发了一种抗生素药物用来与该结构上或功能上重要的氨基酸序列相互作用。可配置该抗生素药物以导向病原体的一个或多个结构上或功能上重要的氨基酸序列。在示范性实施方案中,设计一种抗生素药物以导向在病原体中具有高选择得分的氨基酸序列。在进一步示范性实施方案中,设计一种抗生素药物以导向在多个病原体中具有高选择得分的氨基酸序列,以提高该药物的有效性。本领域技术人员将了解用来导向所选氨基酸序列的药物研发。图3是依照本发明一方面用于识别在由基因组编码的蛋白质序列中重要氨基酸序列的示范步骤的流程图300。为了便于说明,参照图1的系统组件对图3的步骤进行描述。如此处参照的一样,使用了数据处理器104的任意步骤可替换外部处理系统110以实施该必须处理功能的全部或部分。本领域技术人员从此处说明书容易理解,可省略一个或多个步骤和/或可使用不同组件而不背离本发明的精神和范围。在步骤302中,读出基因组导向列表。在示范性实施方案中,数据处理器104从输入装置102处接收基因组导向列表。该基因组导向列表可包括由需要将为其创建氨基酸字符字典的用户所识别出的一个或多个基因组。例如,进行与人类病原菌相关研究的用户可识别出用于包括在该基因组导向列表中的特定剧毒病原体。在步骤304中,读出了在该基因组导向列表上每一个基因组内的蛋白质序列。如上述一样,每一个基因组对多个多肽序列编码,其中多个序列是蛋白质序列。在示范性实施方案中,数据处理器104可读出基因组以确定其编码了哪个蛋白质序列以分别对每一个蛋白质序列进行分析。在步骤306中,为每一个蛋白质序列写出字符列表。在示范性实施方案中,数据处理器104将每一个蛋白质序列划分成具有在一和十二个氨基酸长度之间的氨基酸字符,尽管考虑了其他长度。例如,已经将本发明用于具有相对大基因组的病原体,例如真核生物的病原体(如,类似锥虫属(美洲锥虫病)和疟原虫(疟疾)的原生动物)。对于这些大基因组,可将该氨基酸字符字典扩展到M个氨基酸或更多,当具有足够深度以提供相关信息时。数据处理器104可写出包含了发生在该蛋白质序列中的每一个氨基酸字符的列表,例如,写到数据存储装置106。在步骤308中,编译发生在每一个蛋白质序列中的字符的列表。在示范性实施方案中,数据处理器104可编译在由基因组编码的蛋白质序列中发生超过一次的每一个氨基酸字符的列表。可将该编译的氨基酸字符列表存入数据存储装置106。在步骤310中,将在该蛋白质序列中每一个氨基酸字符的观察频率进行计算并写入计算列表。在示范性实施方案中,数据处理器104可计算在该编译列表中每一个氨基酸字符的观察到的出现。数据处理器104可计算在由该基因组编码的每一个蛋白质序列中每一个氨基酸字符的频率,通过由该蛋白质序列或基因组中氨基酸数量除以观察到的每一个氨基酸字符的出现数量。数据处理器104随后可将包括每一个氨基酸字符的频率的列表写入该蛋白质序列。可将包含该观察到的氨基酸字符频率的列表存入数据存储装置106。在步骤312中,计算了在每一个蛋白质序列中每一个氨基酸字符的期望频率。在示范性实施方案中,该在蛋白质序列中每一个氨基酸字符的期望频率可来自每一个氨基酸在在该蛋白质序列中出现的概率。数据处理器104可计算该氨基酸字符的概率,基于组成该氨基酸字符的两个或更多氨基酸子字符出现的概率。用来确定在该蛋白质序列中氨基酸字符出现概率的示范性算法可参与计算来自在该蛋白质序列中每一个氨基酸字符的观察频率处的概率。出现在该蛋白质序列内的1长度氨基酸字符(如单个氨基酸)的概率等于该氨基酸的频率,即在该蛋白质中氨基酸的总数除以在蛋白质中该氨基酸出现数量。例如,如果该氨基酸“A”(用于丙胺酸)在100个氨基酸的蛋白质中出现11次,则该1长度氨基酸字符P(A)的概率是11%。对于2长度氨基酸字符,可将该概率确定为由该第二个1长度氨基酸子字符的概率乘以该第一个1长度氨基酸子字符的概率后的一半。例如,如果P(A)是11%,以及P(L)(用于亮氨酸“L”的1 长度氨基酸字符)是8%,则ρ (AL)(对于2长度氨基酸字符“AL”)将等于0.11*0. 08的一半,或.44% (具有用于ρ (AL)的相同概率存在)。对于N长度氨基酸字符(其中N >2), 可基于1长度氨基酸子字符和(N-I)长度氨基酸子字符的概率来确定该概率。例如,该氨基酸字符“VALK”的出现概率可等于ρ (VAL) *p (K)和ρ (V) *p (ALK)的平均。使用该算法,数据处理器104可计算任意氨基酸字符出现的概率,基于该氨基酸字符的两个或更多子字符的概率,可使用在每一个蛋白质中氨基酸字符的观察频率的列表来获得他。数据处理器104可计算在蛋白质中氨基酸字符的期望频率,通过将该氨基酸字符出现概率乘以在该蛋白质中氨基酸的总数。可将在由该基因组编码的每一个蛋白质序列中每一个氨基酸字符的期望的氨基酸字符频率存入数据存储装置106。在步骤314中,基因组字符字典被输出,例如,存到数据存储装置106和/或发送到输出装置108。在示范性实施方案中,数据处理器104生成了用于每一个基因组的氨基酸字符字典。该氨基酸字符字典可包含在由该基因组编码的每一个蛋白质序列中每一个氨基酸字符的入口。该氨基酸字符的每一个入口可包括该字符的观察频率,期望频率和/或在该观察频率和期望频率之间的差别。在为每一个基因组生成了该氨基酸字符字典之后, 数据处理器104随后可将该氨基酸字符字典存储在数据存储装置106上用于后期访问。另外,数据处理器104可将包括用于在该基因组中每一个氨基酸字符的氨基酸字符字典的电子数据发送给输出装置108。输出装置108随后可将该氨基酸字符字典通过例如表或图来展现给用户。以下所述的图4描绘了用于实施步骤314的示范步骤的流程图。在步骤316中,读出基因组导向列表。数据处理器104可接收到该来自输入装置 102处的基因组导向列表。可由用户生成该基因组导向列表。在示范性实施方案中,该基因组导向列表可以是在步骤302中读出的同一基因组列表。在可替换的示范性实施方案中, 该基因组导向列表可以是包括已经为其创建了氨基酸字符字典的基因组的列表,如上述步骤304-314中一样。在步骤318中,读出用于在该基因组导向列表上每一个基因组的氨基酸字符字典。在示范性实施方案中,数据处理器104访问由数据存储装置106所存储的氨基酸字符字典。随后数据处理器104读出用于在该基因组导向列表上每一个基因组的氨基酸字符字在步骤320中,读出用于在该基因组导向列表中的每一个基因组的蛋白质序列。 在示范性实施方案中,数据处理器104可读出在该基因组导向列表上的每一个基因组来确定其编码了哪个蛋白质序列以分别分析每一个蛋白质序列。在步骤322中,为每一个蛋白质序列中氨基酸序列来确定氨基酸序列选择得分。 在示范性实施方案中,数据处理器104计算氨基酸序列选择得分,基于用于在该蛋白质序列中每一个氨基酸字符的氨基酸字符字典。数据处理器104可将氨基酸选择得分分配给出现在该蛋白质序列中的每一个氨基酸。可计算该氨基酸选择得分,通过合计用于包含该氨基酸的每4长度、5长度和6长度字符的观察和期望频率之际的距离。数据处理器104随后可检查在每一个蛋白质中的所有13长度氨基酸序列。数据处理器104可为在由该基因组编码的每一个蛋白质序列中每一个13长度氨基酸序列来确定氨基酸序列选择得分,通过合计包含在该氨基酸序列中的每一个氨基酸的氨基酸选择得分。可将该氨基酸选择得分存入数据存储装置106。如下所述的图5,描绘了用来进一步解释在步骤322中选择得分确定的示范性氨基酸序列。在步骤324中,确定了蛋白质选择得分。在示范性实施方案中,数据处理器104 可为由基因组编码的每一个蛋白质计算蛋白质选择得分,通过合计在该蛋白质中每一个13 长度氨基酸序列的氨基酸序列选择得分。可将该蛋白质选择得分存入数据存储装置106。在步骤326中,确定了基因组选择得分。在示范性实施方案中,数据处理器104可为该基因组计算基因组选择得分,通过合计由该基因组编码的每一个蛋白质序列的蛋白质选择得分。可将该基因组选择得分存入数据存储装置106。
在步骤328中,输出了基因组选择得得分据库。在一个示范性实施方案中,将该氨基酸序列选择得分、该蛋白质选择得分和该基因组选择得分存到数据存储装置106。在另一示范性实施方案中,数据处理器104将电子数据传送到输出装置108。该电子数据可能包括该氨基酸序列选择得分、该蛋白质选择得分和该基因组选择得分。输出装置108随后可将这些选择得分展现给用户,通过例如指示用于该一个或多个结构上或功能上重要氨基酸序列的选择得分的相比较高度的表或图。图7描绘了用来描绘一组氨基酸序列的选择得分的示范性表,将如下所述。图4是依照本发明一方面的用来输出基因组字符字典的示范性步骤(步骤314 ; 图3)的流程图。在步骤402中,计算了在每一个氨基酸字符的观察和期望频率之间的距离。在示范性实施方案中,数据处理器104将在由该基因组编码的每一个蛋白质中每一个氨基酸字符的观察频率与在由该基因组编码的每一个蛋白质中每一个氨基酸字符的期望频率进行比较。数据处理器104可使用标准欧几里德距离计算以将点标绘在相对于该氨基酸字符的观察和期望频率的二维空间中。该二维可以是用于氨基酸字符的观测频率和期望频率,具有对应于氨基酸字符的那些频率的每一个已标绘点。该二维可能线性地或对数地变化。数据处理器104随后可计算在该二维空间内该已标绘点和假设1 1参考线之间的线性距离。该1 1参考线可对应于在该图上的点,其中该观察频率等于该氨基酸字符的期望频率。该计算的距离可能是在氨基酸字符的观察对比于期望频率点和该11参考线之间的垂直距离,以及可使用欧几里德几何来进行计算。在可替换示范性实施方案中,数据处理器104可计算在每一个氨基酸字符的观察和期望频率之间的距离,通过确定在该两个频率之间进行减法的差别。可将在该观察和期望频率之间的计算的距离存入数据存储装置106。在步骤404中,为每一个基因组编译氨基酸字符字典。在示范性实施方案中,数据处理器104为在由该基因组编码的每一个蛋白质序列中的每一个氨基酸字符来编译氨基酸字符字典。该氨基酸字符字典可包括在由该基因组所便民的的每一个蛋白质序列中的每一个氨基酸字符的入口。每一个入口可包括该氨基酸字符的观察频率、期望频率和该两个频率之间的计算的距离。在步骤406中,存储和/或展现每一个基因组的氨基酸字符字典。在一示范性实施方案中,可将每一个基因组的氨基酸字符字典存入数据存储装置106。在另一示范性实施方案中,数据处理器104可将电子数据传送给输出装置108。该电子数据可包括每一个基因组的氨基酸字符字典。输出装置108随后可将氨基酸字符字典展现给用户,例如通过在监视器上展现或在纸上打印的描绘在由基因组编码的每一个蛋白质序列中的每一个氨基酸字符的观察和期望频率之间的计算距离的表或图。可将传送给输出装置108的电子数据至少临时地存入例如视频缓冲器(未图示)。以下所述的图6,描绘了在由基因组编码的每一个蛋白质序列中每一个氨基酸字符的观察和期望频率之间的计算距离的示范图,如下所述的一样。图5是用于解释如流程图300的步骤322中所述的氨基酸序列的氨基酸序列选择得分的确定的示图500,依照本发明的一方面。示图500描绘了 12个氨基酸(氨基酸 502a-502i),五个氨基酸字符(氨基酸字符5(Ma-504e),和一个氨基酸序列(氨基酸序列
11506)。以下提供了用来确定选择得分的附加细节。可确定在蛋白质序列中氨基酸序列的选择得分,基于在该序列中每一个氨基酸的选择得分。示图500描绘了在蛋白质序列中的氨基酸50h-502i的取样序列。在示范性实施方案中,数据处理器104检查在每一个蛋白质序列中的每一个4长度、5长度和6长度氨基酸字符。示例500描绘了一系列4长度氨基酸字符5(Ma-504e。例如,氨基酸字符50 包括氨基酸50加-502(1 ;氨基酸字符504b包括氨基酸5(^b_502e ;等等。每一个氨基酸字符504a-5(Me具有在该字符的观察和期望频率之间的相应计算距离,如包含在该步骤314中生成的氨基酸字符字典中一样。对于每一个已检查的字符 5(Ma-504e,将该氨基酸字符的计算距离加到在该氨基酸字符中每一个氨基酸以为每一个氨基酸生成选择得分。例如,假定氨基酸字符50 具有为5的计算距离;字符504b具有为6的计算距离;字符5(Mc具有为4的计算距离;字符504d具有为6的计算距离;以及字符5(Me具有为7的计算距离。在本实施例中,该氨基酸502d的选择得分将是氨基酸字符 504a-504d的计算距离的合计,或21 (5+6+4+6);氨基酸50 的选择得分将是氨基酸字符 504b-504e的计算距离的合计,或23 ¢+4+6+7)。在示范性实施方案中,数据处理器104为使用所有4长度蛋氨基字符(如 5(Ma-504e)、5长度氨基酸字符(未图示)和6长度氨基酸字符(未图示)的蛋白质序列中的每一个氨基酸实施该合计。数据处理器104随后可在该蛋白质中检查所有13长度的氨基酸序列。数据处理器104可为在由该基因组编码的每一个蛋白质序列中的每一个13长度氨基酸序列确定选择得分,通过对包含在该氨基酸序列中的每一个氨基酸的选择得分进行合计。例如,该13长度氨基酸序列506的选择得分将是氨基酸502『50业选择得分的总和。数据处理器104可将该氨基酸序列的选择得分存入数据存储装置106。图6A&6B描绘了图602&604,其示出了依照本发明一方面的在两个基因组观察和期望氨基酸字符频率之间的计算距离。图602对应于该常见非病原菌E. coli菌株K12的氨基酸字符字典,图604对应于该人类病原菌E. coli菌株0157的氨基酸字符字典。每一个图包括大量数据点,每一个对应于在由该相应细菌的基因组编码的蛋白质序列中出现的氨基酸字符。每一个图进一步包括线606,对应于其中在由该基因组编码的蛋白质序列中每一个氨基酸字符的观察和期望频率相同的点。例如,落在线606右边的点对应于具有观察频率大于他们期望频率的氨基酸字符;落在线606左边的点对应于具有观察频率小于他们期
望频率的氨基酸字符。在两个图上的区域608表示在每一个图上的示范位置,其中氨基酸字符具有比将期望的基本上较高的观察频率。包含落在区域608内的氨基酸字符的氨基酸序列是具有高选择得分的序列,如上所述。相应地,包含落在图602的区域608内的氨基酸字符的氨基酸序列可能是对于E. coli菌株K12细菌结构上或功能上重要,包含落在图604的区域608内的氨基酸字符的氨基酸序列可能是对于E. coli菌株0157细菌结构上或功能上重要。进一步地,图602和604的比较可验证了在非病原菌E. coli菌株K12和病原菌 E. coli菌株0157的基因组中的差别。例如,如果落在图604的区域608内、但未落在图602 的区域608内的氨基酸字符,其可能指出包含该氨基酸字符的氨基酸序列对该病原菌而不是该非病原菌是结构上或功能上重要的。该比较可进一步提供在病原体基因组上自然选择的不同效果相关的信息,对比于在非病原体基因组上自然选择的效果。图7依照本发明一方面描绘了示出由基因组编码的蛋白质序列中的氨基酸序列的选择得分的示范表700。具体地,表700描绘了由艰难梭菌菌株630基因组编码的蛋白质序列YP-001086696的13长度氨基酸序列选择得分。峰值702对应于比较这些氨基酸序列其他部分具有高选择得分的13长度氨基酸序列,如上所计算的一样。在该蛋白质序列中最高氨基酸序列选择得分对应于该13长度氨基酸序列“KLNKNVDEKLDIY”。相应地,该氨基酸序列可能是对于该蛋白质序列结构上或功能上重要,以及可能是用于抗生素药物导向的好的结构,如上所述。可将如上所述的一个或多个步骤实现为存储在计算机可读存储介质上的计算机可执行指令。例如,该计算机可读存储介质实际上可以是能够存储指令用来由通用或专用计算机实施的任意实体存储介质,如光盘、磁盘或固态装置。尽管此处参照具体实施方案对本发明进行了说明和描述,不准备将本发明限定为所示的这些细节。相反,可在权利要求等同物的范围和幅度内而不背离本发明的细节中作出各种修改。
权利要求
1.一种计算机实施的识别由基因组编码的至少一个重要氨基酸序列的方法,包括下列步骤为由该基因组编码的多个氨基酸字符中每一个编译观察频率; 使用计算机为由该基因组编码的多个氨基酸字符中每一个计算期望频率;和至少部分地基于由该基因组编码的多个氨基酸字符中每一个的观察和期望频率来识别至少一个由该基因组编码的重要的氨基酸序列。
2.如权利要求1所述的方法,其中识别至少一个重要的氨基酸序列的步骤包括 至少部分地基于由该基因组编码的多个氨基酸字符中每一个的观察和期望频率之间的差别来确定由该基因组编码的至少一个氨基酸序列的选择得分,该选择得分对应于该至少一个氨基酸序列的结构上的重要性;和基于该氨基酸序列的选择得分识别至少一个重要的氨基酸序列。
3.如权利要求1所述的方法,其中使用计算机计算期望频率的步骤包括使用计算机至少部分地基于由该基因组编码的多个氨基酸字符中至少一个的观察频率来计算由该基因组编码的多个氨基酸字符中每一个的期望频率。
4.如权利要求1所述的方法,其中使用计算机计算出现的期望数量的步骤包括 使用计算机至少部分地基于由该基因组编码的多个氨基酸字符中每一个内发生的两个或更多氨基酸子字符的观察频率来计算由该基因组编码的多个氨基酸字符中每一个的期望频率。
5.如权利要求1所述的方法,其中该多个氨基酸字符包括具有从一到十二个氨基酸的氨基酸字符。
6.如权利要求1所述的方法,其中该至少一个重要的氨基酸序列包括至少一个具有十三个氨基酸的重要氨基酸序列。
7.如权利要求2所述的方法,进一步包括步骤 为由该基因组编码的每一个氨基酸序列编译选择得分。
8.如权利要求7所述的方法,进一步包括步骤基于在该至少一个蛋白质序列内发生的每一个氨基酸序列的选择得分来计算由该基因组编码的至少一个蛋白质序列的蛋白质选择得分。
9.如权利要求8所述的方法,进一步包括步骤基于由该基因组编码的每一个蛋白质序列的选择得分来计算用于该基因组的基因组选择得分。
10.如权利要求1所述的方法,其中使用计算机计算期望频率的步骤包括使用计算机将由该基因组解码的多个氨基酸字符中每一个的观察频率转换成由该基因组解码的多个氨基酸字符中每一个的期望频率。
11.如权利要求1所述的方法,其中识别该至少一个重要的氨基酸序列的步骤包括 将由该基因组编码的多个氨基酸字符中每一个的观察和期望频率转换成由该基因组编码的至少一个氨基酸序列的选择得分,该选择得分对应于该至少一个氨基酸序列的结构上的重要性。
12.如权利要求1所述的方法,其中识别该至少一个重要的氨基酸序列的步骤包括 至少部分地基于由该基因组编码的多个氨基酸字符中每一个的观察和期望频率以及由该基因组编码和由相关基因组编码的多个氨基酸字符中至少一个之间的观察频率差别, 识别由该基因组编码的至少一个重要的氨基酸序列。
13.如权利要求12所述的方法,其中该基因组是病原性基因组,并且该相关基因组是非病原性基因组。
14.如权利要求1所述的方法,其中该至少一个重要的氨基酸序列包括至少一个结构上重要的氨基酸序列。
15.如权利要求1所述的方法,其中该至少一个重要的氨基酸序列包括至少一个功能上重要的氨基酸序列。
16.一种导向在病原体蛋白质中至少一个重要的氨基酸序列的方法,包括步骤 为由该病原体基因组编码的多个氨基酸字符中每一个编译观察频率;使用计算机为由该病原体基因组编码的多个氨基酸字符中每一个计算期望频率; 至少部分地基于由该病原体基因组编码的多个氨基酸字符中每一个的观察和期望频率来识别至少一个由该病原体基因组编码的重要的氨基酸序列;和研发药物,所述药物配置用来与由该病原体基因组编码的至少一个重要的氨基酸序列相互作用。
17.如权利要求16所述的方法,其中识别至少一个重要的氨基酸序列的步骤包括 至少部分地基于由该基因组编码的多个氨基酸字符中每一个的观察和期望频率之间的差别来确定由该基因组编码的至少一个氨基酸序列的选择得分,该选择得分对应于该至少一个氨基酸序列的结构上的重要性;和基于该氨基酸序列的选择得分识别至少一个重要的氨基酸序列。
18.如权利要求17所述的方法,其中研发药物的步骤包括研发一种药物,配置用来与由该病原体基因组编码的至少一个重要的氨基酸序列相互作用,至少部分地基于由该病原体基因组编码的至少一个重要的氨基酸序列的选择得分。
19.如权利要求17所述的方法,其中研发药物的步骤包括研发一种药物,配置用来与由该病原体基因组编码的至少一个重要的氨基酸序列相互作用,至少部分地基于由另一种基因组编码的至少一个重要的氨基酸序列的另一选择得分。
20.如权利要求16所述的方法,其中该至少一个重要的氨基酸序列包括至少一个结构上重要的氨基酸序列。
21.如权利要求16所述的方法,其中该至少一个重要的氨基酸序列包括至少一个功能上重要的氨基酸序列。
22.如权利要求16所述的方法,其中识别该至少一个重要的氨基酸序列的步骤包括 至少部分地基于由该基因组编码的多个氨基酸字符中每一个的观察和期望频率以及由该基因组编码和由相关基因组编码的多个氨基酸字符中至少一个之间的观察频率差别, 识别由该基因组编码的至少一个重要的氨基酸序列。
23.如权利要求22所述的方法,其中该相关基因组是非病原性基因组。
24.一种在基因组中识别至少一个重要氨基酸序列的系统,该系统包括 用来为由该基因组编码的多个氨基酸字符中每一个编译观察频率的装置;用来使用计算机为由该基因组编码的多个氨基酸字符中每一个计算期望频率的装置;和用来至少部分地基于由该基因组编码的多个氨基酸字符中每一个的观察和期望频率来识别至少一个由该基因组编码的重要的氨基酸序列的装置。
25.如权利要求M所述的系统,其中该识别装置包括装置,所述装置用来至少部分地基于由该基因组编码的多个氨基酸字符中每一个的观察和期望频率以及由该基因组编码和由相关基因组编码的多个氨基酸字符中至少一个之间的观察频率差别,识别由该基因组编码的至少一个重要的氨基酸序列。
26.一种计算机可读介质,其以指令编码用来由计算机执行以实施在基因组中识别至少一个重要氨基酸的方法,该方法包括步骤为由该基因组编码的多个氨基酸字符中每一个编译观察频率;为由该基因组编码的多个氨基酸字符中每一个计算期望频率;和从由该基因组编码的多个氨基酸序列中每一个的观察和期望频率处识别至少一个由该基因组编码的重要的氨基酸序列。
27.如权利要求沈所述的计算机可读介质,其中识别该至少一个重要氨基酸序列的步骤包括至少部分地基于由该基因组编码的多个氨基酸字符中每一个的观察和期望频率以及由该基因组编码和由相关基因组编码的多个氨基酸字符中至少一个之间的观察频率差别, 识别由该基因组编码的至少一个重要的氨基酸序列。
全文摘要
公开了用来识别由基因组编码的结构上或功能上重要的氨基酸序列的方法和计算机可读存储介质。可识别至少一个由基因组编码的结构上或功能上重要的氨基酸序列,通过为由该基因组编码的多个氨基酸字符中每一个编译观察频率,使用计算机为由该基因组编码的多个氨基酸字符中每一个计算期望频率,并至少部分地基于由该基因组编码的多个氨基酸字符中每一个的观察和期望频率来识别至少一个由该基因组编码的结构上或功能上重要的氨基酸序列。
文档编号G06F17/30GK102439591SQ201080009413
公开日2012年5月2日 申请日期2010年2月18日 优先权日2009年2月25日
发明者A·G·玛什, J·J·格雷泽姆斯基 申请人:内华达高等教育系统董事会代表荒原研究所, 特拉华大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1