鉴定肽修饰的制作方法

文档序号:6407083阅读:367来源:国知局
专利名称:鉴定肽修饰的制作方法
对相关申请的交叉引用本申请要求2002年3月11日提交的临时申请号60/363,647的优先权,此处引用作为参考。
背景本发明涉及蛋白质组学和多肽中修饰的鉴定。
串联质谱(tadem mass spectrometry)已经成为用于快速且有效鉴定生物学样品中蛋白质的方法的选择。另外,质谱可用于从头对肽测序。例如,通过复杂蛋白质混合物(如细胞提取物)的蛋白水解消化产生的肽的串联质谱可用于对原始混合物中存在的蛋白质进行鉴定和定量。能够获得这一结果是因为能够选择单一m/z值并使离子进行碰撞诱导解离(collision induced dissociation,CID)的串联质谱可用于肽的测序和鉴定。通过肽CID产生的信息可用于搜索肽和核苷酸序列数据库,以鉴定该光谱所代表的氨基酸序列,从而鉴定衍生该肽的蛋白质。
串联质谱产生三类信息,可用于鉴定由经消化蛋白质衍生的肽复杂混合物中的肽。第一,得到肽的质量。这一信息自身就能大大减少可能的肽序列的数目,在用序列特异蛋白酶消化蛋白质的情况下尤其如此。第二类信息是通过肽离子CID产生的片段离子模式。比较片段离子模式与由序列数据库通过计算产生的理论片段离子模式的分析方法可用于鉴定肽序列。这些方法能够鉴定最佳匹配肽,并在统计学上确定哪种肽序列更有可能是正确的。通过使用多阶段MS分析而从头获得肽部分序列可以进一步提供预测的精确性。这种直接序列信息可用于进一步提高基于片段离子模式的预测的精确性。
一旦鉴定了肽,在有些情况中就可以通过搜索序列数据库来确定产生它的蛋白质。然而,只有先前已经测定了它的序列,而且该序列存在于数据库中,才能通过数据库搜索来鉴定蛋白质。若无法获得该蛋白质的序列,或者肽包含意外的修饰,则数据库搜索将会失败。
概述本发明提供了用于鉴定多肽中的修饰的电脑执行技术。一般而言,一方面,本发明的特色是执行用于鉴定多肽中的修饰的技术的方法、系统和仪器,包括电脑程序产品。该技术包括鉴定包含潜在对应于多肽未修饰变体的序列信息的一组即一种或多种候选序列,其中未修饰变体是已知序列;将由多肽衍生的一种或多种肽的至少一部分测序以鉴定该一种或多种肽内一种肽中的序列标签;比较经鉴定序列标签与候选序列组的序列信息,以鉴定包含经鉴定序列标签的候选序列;并计算该肽的至少一种亚序列质量与经鉴定候选序列的至少一种亚序列质量之间的差异。
具体执行可以包括一项或多项下列特征。鉴定一组候选序列可以包括鉴定多肽和多肽的已知未修饰变体二者中都可能存在的一组候选肽。将由该多肽衍生的一种或多种肽的至少一部分测序以鉴定序列标签的方法可以包括根据质谱数据将一种或多种肽的至少一部分测序。可以根据质量的计算差异来鉴定多肽中的修饰。
鉴定一组候选序列可以包括接收由该多肽衍生的一种或多种肽的质谱,并搜索基于质谱的已知序列信息集合。搜索基于质谱的已知序列信息集合可以包括比较该一种或多种肽的质谱与已知序列信息集合中所描绘的氨基酸序列的质谱。搜索基于质谱的已知序列信息集合可以包括鉴定一种或多种所述肽的氨基酸序列,并比较经鉴定的氨基酸序列与已知序列信息集合中所描绘的氨基酸序列。鉴定一种或多种所述肽的氨基酸序列可以包括将一种或多种所述肽的至少一种片段测序,以鉴定相应肽的氨基酸序列。相应肽的氨基酸序列可以包括相应肽的6个或更多氨基酸的序列。
鉴定一组候选序列可以包括构建由经鉴定的候选序列的序列信息构成的缩减数据库。比较经鉴定的序列标签与候选序列组的序列信息可以包括搜索以经鉴定的序列标签为基础的缩减数据库。将由该多肽衍生的一种或多种肽的至少一部分测序以鉴定序列标签的方法可以包括鉴定2-4个氨基酸的序列。计算所述肽的至少一种亚序列质量与经鉴定的候选序列的至少一种亚序列质量之间的差异可以包括计算肽的标签前缀或标签后缀与经鉴定的候选序列的相应标签前缀或标签后缀之间的质量差异。
可以执行本发明以实现一项或多项下列优点。使用序列标签搜索缩减数据库或候选序列集合有可能在高置信度水平鉴定未知多肽中的修饰。借助少许现有技术甚至不借助现有技术就能够鉴定使用常规数据库搜索通常不能鉴定的未知修饰。可以鉴定任何类型的修饰,包括突变、添加、删除和翻译后修饰。使用序列标签搜索缩减数据库有可能在比仅仅使用常规数据库搜索更高的置信度鉴定经修饰的多肽。
下文附图和描述列出了本发明一个或多个实施方案的细节。除非另有定义,本文所用所有技术和科学术语具有本发明所属领域普通技术人员通常理解的含义。完整收录本文提及的所有发表物、专利申请、专利、和其它参考文献作为参考。发生冲突时,以本说明书(包括定义)为准。通过描述、附图、和权利要求,本发明的其它特色和优点将变得清晰。
附图简述

图1的示意解了依照本发明的一个方面鉴定肽中的修饰的可操作系统。
图2的流程解了用于鉴定肽中修饰的一种执行方法。
图3A的示意解了肽中的序列标签。
图3B图解了例示性MS2实验中产生的、可用于鉴定肽中序列标签的数据。
图4的示意解了候选序列中序列标签的鉴定。
图5是依照本发明一个方面的分析程序中测序模块的例示性输出文件。
图6的表格列出了依照本发明一个方面的例示性实验中鉴定的许多肽,包括许多经鉴定的修饰。
图7显示了图6例示性实验中鉴定的肽,包括经鉴定的修饰,在其相应蛋白质的前后序列中。
图8更详细的图解了图6和7例示性实验中鉴定的修饰。
各图中相同参考文献编号和名称指示相同元素。
详述本发明提供了用于鉴定多肽中修饰的方法和装置,包括电脑程序产品。比较由未知多肽的肽亚序列衍生的序列信息与潜在地对应于未知多肽未修饰变体的一组候选序列。可以推断出位于衍生序列信息以外的肽亚序列未知区域中的修饰。
在用于本说明书时,肽或多肽指包含通过肽(酰胺)键相连的两个或多个氨基酸的聚合物分子。在用于本说明书时,肽通常表示亲本多肽的亚基,诸如使用已知技术通过亲本多肽的切割或片段化产生的片段。肽和多肽可以是天然发生的(如蛋白质或其片段)或者是合成的。多肽还可以是由天然氨基酸和人工氨基酸构成的。肽和多肽可以衍生自任何来源,诸如动物(如人)、植物、真菌、细菌、和/或病毒,而且可以得自细胞样品、组织样品、体液、或环境样品,诸如土壤、水、和空气样品。
可以使用本文所述技术鉴定的修饰可以是已知或未知的蛋白质修饰,包括突变、添加、删除、和翻译后修饰,以及非天然的化学修饰,诸如化学标签、荧光标记物或其它共价结合的化学实体。修饰可以是天然发生的,使得经修饰蛋白质是天然发生蛋白质,或者可以是人工的。因此,例如,本文所述技术可用于由蛋白质的已知形式鉴定突变,鉴定两种同源蛋白质之间的差异,诸如来自不同物种的相关蛋白质,或者鉴定原始氨基酸序列已知的蛋白质中的翻译后乙酰化或糖基化。
图1图解了依照本发明的一个方面鉴定肽中修饰的系统100的一次执行。系统100包括常规结构的一般目的可编程数字电脑系统110,它可以包括存储器和运行分析程序120的一个或多个处理器。电脑系统110接通质谱数据来源130,它在所示实施方案中是LC-MS/MS质谱仪。或者,质谱数据来源130可以是能够产生CID光谱的任何质谱仪,诸如MALDI-TOF、TOF-TOF、ICR-FT质谱仪。分析程序120包括多个电脑程序模块(其中一些或全部也可以作为分开的电脑程序执行),包括搜索模块140、测序模块150、和关联模块160。电脑系统110与序列信息来源170,诸如氨基酸或核苷酸序列信息的公开数据库相偶联。系统100还可以包括输入设备诸如键盘和/或鼠标,和输出设备诸如显示器,以及常规的通讯硬件和软件,由此电脑系统110可以连接其它电脑系统(或质量分析仪130和/或数据库170),诸如通过网络。
图2图解了鉴定多肽中一处或多处修饰的方法200。可以如图1所示使用系统100来执行方法200的一些或全部。该方法先是鉴定潜在地对应于未知多肽的一种或多种未修饰变体的一组候选序列(步骤210)。可以使用多种常规技术来鉴定候选序列组。
在一次执行中,根据质量数据,诸如质谱,对多肽的经修饰和未修饰变体中都存在的肽集合鉴定了未知多肽的一组未修饰候选序列。肽集合可以包括使用已知技术通过多肽或多肽混合物的切割或片段化产生的多肽片段。例如,可以使用标准技术,通过众所周知的试剂,包括酶或化学药品,诸如溴化氰,对蛋白质或蛋白质混合物进行消化来产生肽集合。或者,可以通过离子化或碰撞诱导解离(“CID”)技术来产生片段,正如下文将更详细讨论的。
需要指出的是在质谱领域中常常以简化方式谈及术语离子的“质量”,尽管更准确的说应该是离子的质荷比(mass-to-charge ratio),这才是真正进行测量的。为了方便,本说明书采用常用实践,并频繁使用术语“质量”来指质荷比或由所提及的质荷比数学化衍生的数量。
可以通过将其中一些肽(多肽及其未修饰变体所共有的)的质谱与包含该多肽未修饰变体的已知序列的数据库相关联来鉴定候选序列组。例如,可以通过使用任何商品化数据库搜索引擎软件诸如TurboSEQUEST蛋白质鉴定软件(可获自Thermo Finnigan,圣何塞,加利福尼亚州)来鉴定候选序列组,比较得到的质谱与对序列信息数据库(例如公众可获得的肽或核苷酸序列数据库)中所描绘的肽确定的理论质谱。也可以使用其它数据库搜索引擎,诸如Mascot、ProFound、SpectrumMill、RADARS、Sonar软件等等。数据库自身可以是任何公开的序列信息数据库,诸如GenBank/GenPept、PIR、SWISS-PROT和PDB数据库。候选序列组可以限定为包括得分超过预先确定的或用户限定的阈值的肽的多肽组。
在另一次执行中,可以使用从头测序技术对肽集合中的肽进行部分或完整测序及随后将由此生成的序列标签在公开数据库中定位来鉴定候选序列组。在从头测序中,通过使用电离或CID等技术将多肽沿肽主链片段化,并将片段进行质量分析,由此测定多肽的氨基酸序列。这可以使用串联(如MS2或高级MS)质谱法为所讨论多肽选择亲本离子并将所选择离子片段化来进行。由此生成的肽片段(即片段离子)之间的质量差异对应于片段化过程中损失的一个或多个氨基酸的质量。根据数据的质量,可以由信号在片段光谱中的相对位置推导出亲本多肽的部分或完整序列信息。CID光谱对于肽修饰的鉴定和定位特别有用,潜在地提供了指示这些修饰的存在和精确定位经过化学或生物学修饰的确切氨基酸二者的信息,正如下文将更详细讨论的。
由从头测序衍生的序列信息可用于搜索公开的序列数据库中的或由其衍生的相似或匹配序列——例如,使用常规序列相似性搜索技术诸如BLAST(基本的局部比对搜索工具)或MS-BLAST,它专门开发用于鉴定数据库中的从头测序结果——从而鉴定候选序列组。在数据库中鉴定序列所需要的氨基酸数目将随着数据库的本质和大小而变化。例如,在人蛋白质数据库中鉴定蛋白质通常需要至少6个或7个氨基酸的序列。从头测序的结果可以包括可能对指定质谱有关的一列肽(如氨基酸序列),以及表示对质谱匹配的可能性、与每个氨基酸序列相关的配合密切程度或关联得分或概率。候选序列组可以限定成包括从头鉴定的肽的多肽组。在这两次执行中,任何未知修饰必然存在于未能鉴定到候选序列的未匹配光谱中。
或者,可以使用其它蛋白质鉴定技术来鉴定候选序列组,诸如凝胶电泳。若未知多肽的未修饰变体是已知的,则可以根据操作员的直接输入来鉴定候选序列组。还可以通过对样品来源、样品历史或样品中已知存在的其它相关成分的已有知识来缩小可能的序列候选范围。
在一次执行中,将一组候选序列用于补充候选序列信息的缩减数据库,后者将用于随后的处理,正如下文更详细描述的。候选序列信息数据库可以是大型核苷酸或肽序列数据库的子集,诸如上文所述公开数据库。因此,例如,可以使用常规技术将与步骤210中鉴定为潜在对应于未知多肽的已知多肽相对应的核苷酸或氨基酸序列加载到可搜索数据库中。
由多肽衍生的一种或多种肽的从头测序信息可用于鉴定一种或多种序列标签(步骤220)。如图3A所示,序列标签310包含为指定肽300所鉴定的两个或多个氨基酸残基的序列320。序列标签将代表相应肽的部分序列(即一个或多个氨基酸的序列)、以及前缀N1和后缀N2。前缀N1是标签部分序列之前的相应肽的部分(经过或未经修饰)的质量(对应于例如MS2实验中对由m/z=635的亲本离子衍生的m/z=350的离子负责的亚序列的质量,其中序列标签310如图3B所示鉴定)。这种质量的计算涉及离子的质量,而且可能涉及前体离子和前体产物离子的质量。类似的,后缀N2表示序列标签之后的相应肽的亚序列的质量(如在图3B所示实验中由m/z=564的离子衍生的亚序列质量)。
在上文步骤210中使用上文所述数据库搜索方法鉴定候选序列组的执行中(或在使用非基于MS的其它技术鉴定候选序列组的执行中),可以通过对一种或多种未匹配光谱自动或手工进行从头测序来鉴定序列标签。在一次执行中,可以使用DeNovoX自动从头测序软件(可获自Thermo Finnigan,圣何塞,加利福尼亚州)来进行从头测序。可以在一些或所有肽中鉴定多种标签。可以比较序列标签与候选序列组,以鉴定经修饰多肽(即已知多肽或代表未知多肽未修饰变体的多肽)(步骤230)。例如,可以搜索对应于候选序列组的序列缩减数据库,以鉴定包含一种或多种经鉴定的序列标签的候选肽。可以使用公开的软件程序搜索候选序列组,诸如BLAST,它输出一列潜在匹配序列和指示匹配质量的相关得分。指定序列标签在指定肽中可以是颠倒的(即标签在相应肽中出现的顺序可以与它在相应候选序列中出现的顺序相反)。在有些执行中,可以配制关联模块来说明这些差异和质量数据的微小误差。
可以在对应于多肽的潜在未修饰变体的候选序列中定位标签的亚序列。MS BLSAT或其它数据库搜索技术可用于在候选序列中定位标签亚序列,而且可以配制成考虑标签序列与“匹配”候选序列之间的差异,这可能来自例如质量数据的微小误差。这样得到了未匹配肽在潜在对应的候选序列中的定位。
一旦鉴定了候选序列组(如一旦构建了候选序列信息的缩减数据库),3个或4个氨基酸的标签通常足以以高置信度鉴定相应的经修饰肽。即使样品质量不高,通常可以使用从头测序来鉴定这一长度(和常常更长)的标签。下面的方程给出了指定序列标签得到正确鉴定的可能性(即序列标签与候选序列之间匹配的置信度水平)p=(1-(1/A)L×2p)NxS其中A是未修饰氨基酸数目(即通常是20,表示天然发生氨基酸的数目),L是序列标签以氨基酸计的长度,S是候选序列组以氨基酸计的长度,p是标签上具有同重元素对(isobaric pair)(如L或I)的氨基酸数目,而N是需要关联的标签数目。注意,若从头测序信息与数据库中的候选序列信息不能准确匹配,或者一种标签的鉴定不是独立于其它标签进行的,则这个方程不适用,但本文所述技术仍然可以使用。
对于每种序列标签,计算肽与候选序列的相应亚序列之间的质量差异(步骤240)。查阅图4,对候选序列400计算前缀序列质量X1和后缀序列质量X2。前缀序列质量表示标签位置之前的候选序列亚序列的质量,而后缀序列质量表示标签位置之后的候选序列亚序列的质量。可以通过向候选序列的相关亚序列添加氨基酸质量来计算候选序列的前缀和后缀序列质量。
通过将候选序列前缀序列质量X1减去标签前缀质量N1来计算前缀质量差异Δm1=N1-X1;通过将候选序列后缀序列质量X2减去标签后缀质量N2来类似计算后缀质量差异Δm2=N2-X2。
质量差异可用于推断出相应肽中存在修饰(步骤250)。假设候选序列前缀和后缀部分的鉴定是正确的,质量差异为零(或几乎为零,根据质量数据的准确度而定)指示相关肽亚序列中不存在修饰。若Δm1或Δm2不是零,则质量差异表示对肽亚序列的一处或多处修饰的质量。在有些执行中,分析程序向用户输出已知序列(即候选序列的相关部分)和相应质量差异。或者/另外,通过搜索限于前缀或后缀中存在的氨基酸的已知氨基酸修饰集合(如这些修饰的公开数据库)来鉴定可能与质量差异有关的修饰,非零质量差异可用于鉴定肽中存在的真实化学修饰。
由此,可应用上文所述技术来以高置信度鉴定经修饰肽、推导出修饰的质量、对前缀亚序列或后缀亚序列中修饰进行定位、以及推导出前缀亚序列和后缀亚序列。
可以在数字电子线路中、或者在电脑硬件、固件、软件、或其联合中执行本发明的各个方面。可以作为电脑程序产品来执行本发明的一些或所有方面,即确实录入在信息载体(如机器可读存储设备或可传播信号)中的电脑程序,它由数据处理设备(如可编程处理器、电脑、或多部电脑)运行或控制数据处理设备的运转。电脑程序可以任何形式的编程语言编写,包括编译或解释语言,而且它可以采用任何形式,包括适用于计算环境的独立程序或者模块、组件、子程序、或其它单元。可以将电脑程序部署成在一部电脑上或者在一处场所或遍布多处场所且通过通讯网络互相连接的多部电脑上执行。
可以由执行电脑程序的一个或多个可编程处理器来执行本发明的一些或所有方法步骤,从而通过操作输入数据和生成输出而执行本发明的功能。还可以通过特殊用途逻辑线路如FPGA(现场可编程门阵列,field programmable gate array)或ASIC(应用特异性集成线路,application-specific integrated circuit)来执行本发明的方法步骤和将本发明的装置如此运行。可以将电脑控制的自动执行步骤与用户诸如科学家操作的手工执行步骤相联合来执行本发明的方法。
适用于执行电脑程序的处理器包括例如一般和特殊用途的微处理器,以及任何种类的数字电脑的任何一种或多种处理器。一般而言,处理器将由只读存储器或随机存取存储器或二者接收指示和数据。电脑的必需元件是用于执行指示的处理器和用于存储指示和数据的一个或多个存储设备。一般而言,电脑还将包括用于存储数据的一个或多个海量存储设备(如磁性、磁-光盘、或光盘),或可操作性地偶联成可以从这样的存储设备接收数据或将数据转移至此或二者兼之。适用于收录电脑程序指示和数据的信息载体包括所有形式的永久存储器,包括例如半导体存储设备,如EPROM、EEPROM、和闪存设备;磁盘,如内部硬盘或可移动盘;磁-光盘;以及CD-ROM和DVD-ROM盘。处理器和存储器可以由特殊用途逻辑线路补充或掺入其中。
为了提供与用户的交互作用,可以在具有显示设备和键盘与定点设备的电脑上执行本发明,显示设备如CRT(阴极射线管)或LCD(液晶显示)显示器用于向用户显示信息,通过指示设备如鼠标或跟踪球用户可以向电脑输入信息。其它种类的设备同样可用于提供与用户的交互作用。
下文实施例将进一步描述本发明,但只是例示性的,而且并非意欲限制权利要求中描述的发明范围。
实施例制备牛泛素、牛血清清蛋白(“BSA”)和牛碳酸酐酶(CAII)(都购自Sigma-Aldrich,圣路易斯,密苏里州,美国)的混合物。将蛋白质混合物用二硫苏糖醇进行还原,用碘乙酰胺进行羧基酰胺甲基化,并用胰蛋白酶进行消化,都使用常规蛋白质生化技术。使用与HPLC SurveyorTM系统串联的LCQ DECATM离子俘获质谱仪收集LC/MS/MS光谱(都购自Thermo Finnigan,圣何塞,加利福尼亚州,美国)。以无人看守成批测序模式使用PARSEK II程序分析得到的所有光谱,最初采用默认参数,随后对羧基酰胺甲基化采用较低耐受阈值。手工使分析程序测序模块的输出与整个数据库相关联,无需任何传统数据库搜索。
图5例示了分析程序测序模块的例示性输出文件。右边显示了每个标签的绝对和相对概率。下划线标出了完整序列;线框标出了正确亚序列和标签。为了有效利用这一信息,需要额外信息——即前缀和后缀质量信息。
鉴定到了总计65种肽(超过使用常规数据库搜索得到的)。它们都是在与牛数据库关联后明确鉴定到的。图6列出了63种经鉴定肽。鉴定到了来自胰蛋白酶的其它两种肽。在图6中,CN表示在程序输出的位置N中发现的完整序列(即C1指作为第一选择发现的序列);TN指N氨基酸的最高概率标签。“*”指示经修饰肽。
图7的内容中显示了经鉴定肽。下划线覆盖范围是只使用从头测序(即没有进行原有数据库搜索)由经鉴定肽获得的。粗体突出显示了通过将从头测序输出与蛋白质中的已知序列相关联而鉴定的修饰。从头鉴定了四个人工引入的修饰(羧基酰胺甲基化,标有线框),甚至在从头测序软件不显示修饰时即可如此。
如图8所示,仅仅在四种众所周知的蛋白质中就发现了九种修饰。都得到了明确的鉴定。如图所示,发现了三种不同电荷状态的乙酰化丝氨酸。肽LGEYGFQNALIVR以三种形式出现未经修饰的和以两种不同方式经过修饰的。BSA上可能存在A至E的未知突变。在四种情况中,虽然不能更精确的确定修饰的位置,但修饰被定位在2或3个氨基酸之一处。认为在所有经鉴定的修饰中,只有乙酰化和对泛素的修饰在先前有过报道。
甚至在没有将这一信息透露给操作员时,根据多个文件即推断出羧基酰胺甲基化修饰。从头发现了另外两种蛋白质超氧化物歧化酶和牛胰蛋白酶原,二者都是污染物。
上文就具体实施方案描述了本发明。其它实施方案属于权利要求的范围之内。例如,可以以不同顺序执行本发明的步骤而仍然实现期望结果。
权利要求
1.鉴定多肽中的修饰的方法,包括鉴定包含潜在地对应于多肽未修饰变体序列信息的一种或多种候选序列的组,其中未修饰变体具有已知序列;将由该多肽衍生的一种或多种肽的至少一部分测序,以鉴定该一种或多种肽中的一种肽内的序列标签;比较经鉴定的序列标签与候选序列组的序列信息,以鉴定包含经鉴定的序列标签的候选序列;并计算该肽的至少一种亚序列质量与经鉴定的候选序列的至少一种亚序列质量之间的差异。
2.权利要求1的方法,其中鉴定一组候选序列的步骤包括鉴定多肽和该多肽的已知未修饰变体二者中都可能存在的一组候选肽。
3.权利要求1的方法,其中将由多肽衍生的一种或多种肽的至少一部分测序以鉴定序列标签的步骤包括根据质谱数据将所述一种或多种肽的至少一部分测序。
4.权利要求1的方法,其中包括根据质量的计算差异来鉴定多肽中的修饰。
5.权利要求1的方法,其中鉴定一组候选序列的步骤包括接收由所述多肽衍生的一种或多种肽的质谱;并搜索基于质谱的已知序列信息集合。
6.权利要求5的方法,其中搜索基于质谱的已知序列信息集合的步骤包括比较所述一种或多种肽的质谱与已知序列信息集合中所代表的氨基酸序列的质谱。
7.权利要求5的方法,其中搜索基于质谱的已知序列信息集合的步骤包括鉴定一种或多种所述肽的氨基酸序列;并比较经鉴定的氨基酸序列与已知序列信息集合中所代表的氨基酸序列。
8.权利要求7的方法,其中鉴定一种或多种所述肽的氨基酸序列的步骤包括对一种或多种所述肽的至少一种片段测序以鉴定相应肽的氨基酸序列。
9.权利要求8的方法,其中相应肽的氨基酸序列包括相应肽的6个或更多氨基酸的序列。
10.权利要求5的方法,其中鉴定一组候选序列的步骤包括构建由经鉴定的候选序列的序列信息构成的缩减数据库;和比较经鉴定的序列标签与候选序列组的序列信息的步骤包括搜索以经鉴定的序列标签为基础的缩减数据库。
11.权利要求1的方法,其中对由多肽衍生的一种或多种肽的至少一部分测序以鉴定序列标签的步骤包括鉴定2-4个氨基酸的序列。
12.权利要求1的方法,其中计算肽的至少一种亚序列质量与经鉴定的候选序列的至少一种亚序列质量之间的差异的步骤包括计算肽的标签前缀或标签后缀与经鉴定的候选序列的相应标签前缀或标签后缀之间的质量差异。
13.电脑可读介质上的用于鉴定多肽中的修饰的电脑程序产品,该产品包括可操作而引起可编程处理器完成下述步骤的指示鉴定包含潜在地对应于多肽未修饰变体的序列信息的一种或多种候选序列的组,其中未修饰变体具有已知序列;对由多肽衍生的一种或多种肽的至少一部分测序,以鉴定该一种或多种肽中的一种肽内的序列标签;比较经鉴定的序列标签与候选序列组的序列信息,以鉴定包含经鉴定的序列标签的候选序列;并计算肽的至少一种亚序列质量与经鉴定的候选序列的至少一种亚序列质量之间的差异。
14.权利要求13的电脑程序产品,其中可操作而引起可编程处理器鉴定一组候选序列的指示包括可操作而引起可编程处理器鉴定多肽和多肽的已知未修饰变体二者中都可能存在的一组候选肽的指示。
15.权利要求13的电脑程序产品,其中可操作而引起可编程处理器对由多肽衍生的一种或多种肽的至少一部分测序以鉴定序列标签的指示包括可操作而引起可编程处理器根据质谱数据对所述一种或多种肽的至少一部分测序的指示。
16.权利要求13的电脑程序产品,还包括可操作而引起可编程处理器完成下述的指示根据质量的计算差异来鉴定多肽中的修饰。
17.权利要求13的电脑程序产品,其中可操作而引起可编程处理器鉴定一组候选序列的指示包括可操作而引起可编程处理器完成下述的指示接收由多肽衍生的一种或多种肽的质谱;并搜索基于质谱的已知序列信息集合。
18.权利要求17的电脑程序产品,其中可操作而引起可编程处理器搜索基于质谱的已知序列信息集合的指示包括可操作而引起可编程处理器比较所述一种或多种肽的质谱与已知序列信息集合中所代表的氨基酸序列的质谱的指示。
19.权利要求17的电脑程序产品,其中可操作而引起可编程处理器搜索基于质谱的已知序列信息集合的指示包括可操作而引起可编程处理器完成下述的指示鉴定一种或多种所述肽的氨基酸序列;并比较经鉴定的氨基酸序列与已知序列信息集合中所代表的氨基酸序列。
20.权利要求19的电脑程序产品,其中可操作而引起可编程处理器鉴定一种或多种所述肽的氨基酸序列的指示包括可操作而引起可编程处理器对一种或多种所述肽的至少一种片段测序以鉴定相应肽的氨基酸序列的指示。
21.权利要求20的电脑程序产品,其中相应肽的氨基酸序列包括相应肽的6个或更多氨基酸的序列。
22.权利要求17的电脑程序产品,其中可操作而引起可编程处理器鉴定一组候选序列的指示包括可操作而引起可编程处理器构建由经鉴定的候选序列的序列信息构成的缩减数据库的指示;并可操作而引起可编程处理器比较经鉴定的序列标签与候选序列组的序列信息的指示包括可操作而引起可编程处理器搜索以经鉴定的序列标签为基础的缩减数据库的指示。
23.权利要求13的电脑程序产品,其中可操作而引起可编程处理器对由多肽衍生的一种或多种肽的至少一部分测序以鉴定序列标签的指示包括可操作而引起可编程处理器鉴定2-4个氨基酸的序列的指示。
24.权利要求13的电脑程序产品,其中可操作而引起可编程处理器计算所述肽的至少一种亚序列质量与经鉴定的候选序列的至少一种亚序列质量之间的差异的指示包括可操作而引起可编程处理器计算肽的标签前缀或标签后缀与经鉴定的候选序列的相应标签前缀或标签后缀之间的质量差异的指示。
25.用于鉴定多肽中的修饰的系统,包括用于鉴定包含潜在地对应于多肽未修饰变体的序列信息的一种或多种候选序列的组的工具,其中未修饰变体具有已知序列;用于对由所述多肽衍生的一种或多种肽的至少一部分测序以鉴定该一种或多种肽中一种肽内的序列标签的工具;用于比较经鉴定的序列标签与候选序列组的序列信息以鉴定包含经鉴定的序列标签的候选序列的工具;和用于计算肽的至少一种亚序列质量与经鉴定的候选序列的至少一种亚序列质量之间的差异的工具。
全文摘要
本发明的方法、系统和仪器可用于执行鉴定多肽中修饰的技术。鉴定出包含潜在地对应于多肽未修饰变体的序列信息的一组候选序列。对由多肽衍生的肽测序以鉴定序列标签。比较序列标签与候选序列组的序列信息,以鉴定包含该序列标签的候选序列。对于每一种这样的序列标签,计算相应肽的至少一种亚序列质量与经鉴定的候选序列的至少一种亚序列质量之间的差异。可以通过搜索以经鉴定的候选序列组为基础构建的缩减数据库来鉴定包含序列标签的候选序列。
文档编号G06F19/00GK1653333SQ03809149
公开日2005年8月10日 申请日期2003年3月11日 优先权日2002年3月11日
发明者F·M·马罗托 申请人:萨莫芬尼根有限责任公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1