使用新的数据库检索模式鉴别和鉴定蛋白质的制作方法

文档序号:6108639阅读:537来源:国知局

专利名称::使用新的数据库检索模式鉴别和鉴定蛋白质的制作方法使用新的数据库检索模式鉴别和鉴定蛋白质政府资助的声明本发明是在来自国家科学基金(资金#CHE-0134953)和来自国家卫生研究院(资金^GM067193-01)的政府支持下完成的。政府在本发明中有一定权利。附件材料附件包括3个CD复制拷贝,其提供了软件和数据库文件。CD内容并入本文作参考。背景分子生物学的一个目的是鉴定由基因序列编码的蛋白质的结构和生物化学活性。在很大程度上,蛋白质的结构鉴定依赖于当这些蛋白质在天然细胞条件下表达时确定蛋白质的一级结构(氨基酸序列)。一旦蛋白质从mRNA被翻译,蛋白质的一级结构经常由于酶的作用而被修饰。这些修饰包括在氨基酸残基的侧链添加一个新的基团(moiety),如向丝氨酸添加一个磷酸酯,或者蛋白酶裂解,如除去起始甲硫氨酸或信号序列。因此,蛋白质的结构鉴定包括氨基酸序列的线性组构(如由可变剪接和多态性而影响)以及可在序列内发生的任何修饰的存在。为此,蛋白质组学研究的主要目的是了解在蛋白质上发生的详细的修饰。这类信息不仅对于了解蛋白质的生物学活性是关键性的,而且对于开发用于控制与人类疾病相关过程中的细胞增殖和分化的药物也是很重要。质谱分析(MS)是用于鉴别未知化合物、定量已知化合物和确定分子结构的一种分析技术。质谱仪是一种测量从个体分子转化的离子的质量的仪器。这一仪器依据离子的特定质量与电荷比而间接测量分子质量。一个离子上的电荷由电子的基本电荷单位z以及质量电荷比m/z表示。典型地,质谱分析中的离子仅有一个单电荷(z=l),因此,m/z值与以Da表示的分子质量在数字上相等。对于单电离子,柳/2比是特定离子的质量。通常,MS轰击具有高密度质子、电子或中性气体的样品的离子,断裂连键,导致从完整分子的分子离子形成碎片离子(fragmentiom)。尽管由MS产生阳性和阴性离子二者,但是仅有一种极性离子被一特定仪器设置检测。气相样品离子的形成使得可以根据质量分选各种离子,并使之得以检测。样品可以是画体、液体或蒸气,它们经入口进入仪器的真空腔。静电和/或磁滤波器被用于根据各自的m/z比而选择离子,这些离子被集中于检测仪上。在检测仪中,离子通量被转变为比例电流。仪器随后记录这些电信号的辐度,作为m々的函数,并将这一信息转变为质谱。绝对质量检索使得能用完整质量与碎片离子质量的组合从一个序列数据库中明确地鉴别蛋白质(见图1)。鉴别是通过从一有注释数据库中选择处于用户规定的观察的平均或单一同位素完整质量的容差(userspecifiedtoleranceofanobservedaverageormonoisotopicintactmass)范围内的所有序列而实现的。优选地,候选蛋白质是从以质量索引的蛋白质形式的数据库中检索到。然后用观察的碎片离子对每一候选序列进行计分。这一过程涉及从每一候选序列计算所有的理论或c/"型碎片离子质量(平均或单一同位素)并计算处于用户规定的任何理论碎片离子容差(绝对或每百万份中之份数)内的观察到的碎片离子数。观察到的碎片离子数和相应于理论碎片离子的观察到的碎片离子数被用于计算假性鉴别的概率。所有计算分值与所考虑的候选序列数相乘得到基于概率的分值。然后,具有最低分值(并因此具有为假性鉴别的最低概率)的候选蛋白质被认为是可能性最大的候选蛋白质。MS已被用于确定蛋白质的一级氨基酸序列。观察到的蛋白质碎片离子的质量差异可被用于推导一部分蛋白质序列的氨基酸组成。这些序列标记可被用于鉴别蛋白质序列,条件是可以获得足够数目的相关蛋白质碎片离子的MS数据。使用MS的策略现在正在被开发以改进在蛋白质规模检测蛋白质修饰的效率和可靠性。尽管在哺乳动物基因组中存在远比过去所认为的要少的基因数量(LanderWa/.,2001),但是由于核苷酸多态性、可变RNA剪接、RNA编辑和翻译后修饰所致的每一基因有不同的蛋白质形式是可能的。除了通过修饰调节蛋白质功能外,环境信号也导致蛋白质的化学修饰。修饰的检测为了解真核细胞的基础调节机制以及诊断人类疾病提供了一个重要机会。最常见形式的基于MS的蛋白质结构测定涉及利用"自下而上(bottomup)"方法首先用已知特异性的蛋白酶消化完整蛋白质,以产生较短的多肽碎片(见图2)。这些碎片随后被纯化和用MS进行鉴定。基于所观察到的各个多肽碎片的绝对质量,可以推断出氨基酸组成,并且使用检索算法和已知蛋白质组成的数据库可以推导蛋白质身份。使用这一方法,已经在单一蛋白质上常规进行修饰的检测,从而产生接近100%序列覆盖范围的肽谱(BiemannandPapayannopoulos,1994)。当然这一方法在鉴定修饰时会留有缺口,因为蛋白酶衍生碎片可能会经历额外的化学变化并因此未能提供有关原始蛋白质的足够冗余的信息。用于这一方法的检索算法现在能支持一些类型的修饰检测和定位,并且是常规可获得的(Clauser"a/.,1999;PerkinsWa/"1999;Wilkinsefa/"1999;andZhang""/.,2000)。现在正在开发基于分析衍生自用胰蛋白酶消化完整蛋白质的肽碎片的测量技术以直接靶定修饰。例如,已使用多种程序增强了磷酸化和糖基化的检测,如分离含有修饰的多肽碎片(例如基于修饰的肽的选择性纯化)、应用MS检测特异性修饰(例如扫描修饰的肽的标记离子)或同时使用这两种方法(Goshe""/.,2001;Oda"a/"2001;SteenW,2001;Zhou"a/.,2001;FicarroWa/.,2002)。最终,所述自下而上方法已被用于检测来自两种生物学样品的蛋白质修饰谱中的差异(例如磷酸蛋白质组学)(Odae/"/"1999;Goshee/"/"2001;Odaa/.2001;Zhouefa/"2001;Ficarro"a/.,2002;Gerber<a/.,2002)。尽管这些技术中的一些正在被放大以用于分析数百个蛋白质,但无一可通用于所有类型的修饰。一种称为"自上而下(topdown)"的替代方法已经被开发用于鉴别和鉴定完整蛋白质中的修饰(见图2)。这一方法使用串联质谱法(MS/MS或(MS)")以首先使完整蛋白质碎片化,随后收集碎片并使之进行后续轮次的碎片化和质量测量。因此,自上而下方法确定完整蛋白质和蛋白质碎片离子的绝对质量。由于完整蛋白质进行MS,所以分析中不会有结构信息被忽略,因此自上而下方法具有鉴别在完整蛋白质内发生的所有修饰的潜力。自上而下方法已被用于获得来自多达4种生物体的32个蛋白质的修饰信息(Kelleher""/.,1998;PinedaWa/"2000;Reid"a/"2002;Meng"a/"2001)。自上而下方法通用于所有修饰。目前己被自上而下方法鉴定的修饰包括糖基化(Reid"a/.,2002;Geefa/.,2003)、Cys垸基化(KelleherWa/.,1995)、二硫键形成(GeeM/.,2002)、氧化(Ge"a/.,2003)和磷酸化(MengWa/.,2001)。这一方法的主要障碍通过蛋白质纯化程序的改进(Kachmanfl/.,2002;Meng"a/.,2002)、傅里叶变换MS(FTMS)的自动化(JohnsonW2002),四极-FTMS混合仪器的开发(Belov"2001)以及从MS/MS数据鉴别完整蛋白质所需的软件的改进(ReidW"/.,2002;Menge/a/.,2001)而被降低。然而,在用于完全鉴定具有修饰的蛋白质的数据加工和检索软件方面仍存在重大障碍。概述在一个方面,本发明提供了一种选择针对一种样品多肽的一组候选多肽的方法(amethodofselectingasetofcandidatepolypeptidesforasamplepolypeptide),包括根据由质谱法产生的样品多肽碎片质量差异对候选多肽集合进行的第一次精选(refming),以及根据样品多肽的绝对质量和碎片的绝对质量对候选多肽集合进行的第二次精选。在第二方面,本发明提供了用于计算机的计算机程序产品。所述计算机程序产品包括一计算机可用介质,在所述介质中有用于选择针对一种样品多肽的一组候选多肽的计算机可读程序代码。所述计算机程序产品包括用于指导计算机选择针对一种样品多肽的一组候选多肽的计算机可读程序代码,包括根据由质谱法产生的样品多肽碎片质量差异对候选多肽集合进行的第一次精选(refining),以及根据样品多肽的绝对质量和碎片的绝对质量对候选多肽集合进行的第二次精选。在第三方面,本发明提供了一种用于选择针对一种样品多肽的一组候选多肽的系统,包括用于实施根据由质谱法产生的样品多肽碎片质量差异对候选多肽集合进行的第一次精选(refining)的装置、用于实施根据由质谱法产生的样品多肽的绝对质量和碎片的绝对质量对候选多肽集合进行的第二次精选的装置、和计算机。定义术语"碎片(fragments)"和"碎片离子(fragmentions)"当指由质谱法产生的完整多肽的碎片时在本说明书中可互换使用。术语"初生多肽(nascentpolyp印tide)是指mRNA的最初翻译产物。术语"修饰"在本文是指初生多肽的一级结构的任何化学变化。蛋白质的"修饰"包括(i)在一个密码子位置的多态性,其产生蛋白质一级结构内的一个不同氨基酸;(ii)mRNA转录物的可变剪接或RNA编辑(editing),其导致在被剪接或编辑的mRNA翻译时产生不同的一级结构;和(iii)在蛋白质翻译后的化学修饰,其导致蛋白质分子质量的改变。化学修饰包括在细胞中天然发生的翻译后修饰(例如蛋白水解、蛋白质剪接、N-Met和信号序列的去除、核糖基化、磷酸化、烷基化、羟基化、糖基化、氧化、还原、十四烷基化、生物素化、遍在蛋白化(ubiquination)、碘化、亚硝基化(nitrosylation)、氨基化、硫添加、肽连接、环化、核苷酸添加、脂肪酸添加、酰基化等)以及从对于生物学细胞非内源性的来源(例如环境诱变剂、化学致癌剂、实验诱导的人工修饰等)发生的修饰。术语"鸟枪注释(shotgunannotation)"是指对多肽中一个氨基酸残基发生的特定修饰的描述(例如丝氨酸羟基的磷酸化)。典型地,鸟枪注释可限定在一限定序列范围内发生的多肽氨基酸残基的特定修饰(例如在序列RXYS/TZR《其中Z是任何氨基酸中的丝氨酸或苏氨酸的羟基的磷酸化)。鸟枪注释导致数据库扩大至包括含有指定修饰的蛋白质形式。鸟枪注释包括本文所用术语"修饰"所表示的任何类型的修饰。短语"动态修饰"是指在进行检索过程中产生软件程序或数据库中的变化。短语"动态鸟枪注释"是指在进行检索过程中产生对数据库中的蛋白质结构的鸟枪注释。术语"扩展(expanding)"是指在对较小集合进行鸟枪注释后集合中的蛋白质形式数量的增加。短语"扩展的集合"是指在对较小集合进行鸟枪注释后获得的蛋白质形式的集合。术语"精选"是指在用序列标记模式检索或绝对质量模式检索对一较大集合进行査询后,集合中蛋白质形式数量的降低。短语"精选的集合"是指在用序列标记模式检索或绝对质量模式检索对一较大集合进行查询后获得的蛋白质形式的集合。本文所用术语"肽"是指由经肽键连接在一起的D-或L-氨基酸或D-和L-氨基酸的混合物的单链组成的化合物。优选地,肽含有至少2个氨基酸残基并且长度上少于50个氨基酸。本文所用术语"多肽"是指至少两个氨基酸残基的聚合物并且其含有一或多个肽键。"多肽"包含肽和蛋白质,而无论该多肽是否具有明确的构象。优选地,多肽是天然存在的蛋白质。本文所用术语"蛋白质"是指由线性排列的由肽键相连的氨基酸组成的化合物,但是与肽相反,其具有明确的构象。蛋白质与肽相反优选地含有50个或更多个氨基酸组成的链。尽管在本文中指出的是蛋白质,但是通常理解的是本发明适用于所有多肽。短语"蛋白质形式(proteinform)"是指单一种类的多肽或蛋白质,包括任何修饰。因此,根据基因结构、转录的mRNA的结构以及任何修饰的性质,一个单基因可编码许多蛋白质形式。短语"RNA剪接"是指通过一给定RNA内的两个非相邻磷酸二酯键的磷酸二酯键裂解除去至少一个RNA间插序列以及通过磷酸二酯键连接而连接两侧的外显子RNA序列。短语"RNA编辑(RNAediting)"是指RNA序列的核苷酸组成中的改变,其中转录的RNA的至少一个核碱基由一具有不同的氢键键合特异性的核碱基置换。所得到的被编辑的RNA可编码多态性、延长的多肽序列(例如通过消除终止密码子或导入起始密码子所致)、或截短的多肽序列(例如通过导入终止密码子所致)。短语"RNA加工"是指导致RNA序列的共价修饰的任何反应。"RNA加工"包括RNA剪接和RNA编辑。短语"检索模式"是指从一仓库数据库鉴别和检索候选蛋白质形式的方法。短语"序列标记(sequencetag)"是指一多肽碎片的至少两个连续氨基酸组成的短末端序列,其可以从由质谱法产生的多肽的两个相关碎片的质量差异中推断出。本文所用术语"结构"当用于蛋白质时是指蛋白质的一级氨基酸序列,包括修饰。本文所用术语"结构"和短语"一级结构"具有相同含义。短语"仓库数据库(warehousedatabase)"是指两个或更多个蛋白质形式的集合。附图的简要描述图1是描述了使用MS数据的绝对质量模式检索程序获得候选蛋白质的系统结构的流程图。图2图示了用于经MS进行蛋白质鉴别和蛋白质鉴定的"自上而下"和"自下而上"方法,其中可对修饰(例如翻译后修饰("PTM"))进行鉴别和定位。图3描述了混合检索模式方法学的方法流程图。图4是软件系统流程图,该软件系统包括一检索算法(ProSightRetriever)、蛋白质形式的仓库数据库(ProSightPTMWarehouse)和主要工具(primaryutilities)。图5示出了一个实施方案,其中数据库以"Deltam"模式被检索图6示出了鸟枪注释的示意图。图7示出了针对来自酿酒酵母(51.cem^/"e)的ALS-PAGE/RPLC级分的MS/MS实施例。详细描述本发明利用了混合检索模式方法学和软件平台的发现来确定包括修饰的蛋白质结构。用于确定含有修饰的蛋白质的结构的混合检索模式方法学使用一种序列标记模式检索和一或多种绝对质量模式检索的组合来选择一精选系列的候选多肽来获得样品多肽。这一方法学和相关软件平台如下所述。潔合检索漠式方法学(场6nW化Grc/z/"g廳ofe,f/zo(io/ogyJ混合检索模式将序列标记检索的序列鉴别能力与绝对质量检索的修饰检测和鉴定力组合在一起(见图3)。这一混合方法代表了比先前单独用序列标记或绝对质量检索方法可能达到的更有效的精选蛋白质集合的方法。在混合检索中,序列标记从碎片化数据和候选蛋白质集合中汇总。候选蛋白质可源自仓库数据库。每一修饰的性质及其在蛋白质内的位置随后使用致力于完整蛋白质离子和碎片离子的质量的绝对质量方法确定。不计在蛋白质形式的理论质量中的任何质量通常可归于完整蛋白质或蛋白质碎片中修饰的存在。优选地,蛋白质形式的数据库最初由大的蛋白质集合组成。优选地,最初数据库含有未注释的序列信息。优选地,这一数据库形成候选多肽的最初集合。在一优选的实施方案中,序列标记检索将精选由未修饰的多肽组成的候选蛋白质集合。任选地,候选蛋白质集合可以随后用候选多肽的注释扩展以考虑修饰。优选地,在序列标记检索后,在这一集合上进行绝对质量模式检索以获得最终的候选多肽集。如果精选后的集合仅含有一种蛋白质形式,则绝对质量检索模式独特地鉴别蛋白质中的修饰。混合检索模式方法学总是采用一种序列标记模式检索,随后是至少一种绝对质量模式检索。任选地,绝对质量模式检索可以在序列标记模式检索之前。例如,一种"三阶段"检索可以用混合检索模式进行。这一方法使用碎片的最初绝对质量利用非严格检索参数(例如最低限度考虑修饰或者大的质量准确度容差或两者)以鉴别候选序列集合,随后为序列标记模式检索以精选候选序列集合。然后进行绝对质量模式检索以进一步精选集合。疑伴乎台(TSq/hv脏//"一附W描述了计算机软件和系统,它们包括检索算法、蛋白质形式的仓库数据库和其它工具(见图4)。检索算法支持基于观察到的碎片离子的绝对质量值的6々和/或c/"离子检索和序列标记检索。蛋白质形式的仓库数据库可包括未注释的和注释的修饰信息。其它有用设施包括数据管理系统、离子预测器、数据还原工具和图形观察器界面工具(graphicalviewerinterfacetool)。通过使用组合了序列标记检索模式和绝对质量检索模式的混合检索方法,检索算法促进了包括修饰信息的蛋白质的自上而下鉴别。参见图3,首先将所获得的针对完整蛋白质和所产生的蛋白质碎片离子的MS数据进行蛋白质形式的仓库数据库的序列标记检索查询。在序列标记检索中,用户基于碎片离子质量差异确定蛋白质的部分序列。当产生序列标记时,提供具有相同名义质量值的氨基酸的支持(例如,lie禾BLeu;Lys和Gin)。一种执行产生代表数据所可能含有的所有可能的序列标记的图。然后分析该图以产生针对每一被代表的序列标记的规则表示。随后人们可以用这一部分序列信息从未注释的蛋白质序列的数据库选择候选蛋白质。任选地,用户可用手工汇总的序列标记集进行检索。每一候选序列接受一个分值,该分值通过将匹配该序列的所有序列标记的长度相乘而计算出。为了方便起见,仅选择具有比规定的容差高的分值的序列作为数据输出。当检索是用序列标记检索模式进行时,注释的序列标记通常不被支持。这是合理的,因为不太可能一个序列标记与一个修饰位点重叠并且因为如果考虑一给定的注释序列标记集合中可产生的所有可能修饰,则数据的图形表示会变得复杂。使用这一限制,可以在蛋白质数据库上实施强线性检索(robustlinearsearches)以获得针对检索功能的可接受的性能测量(例如,对于实际査询(realqueries),检索时间典型地在3秒钟运行时间以下)。任选地,一种称为A/toM模式(Mm模式")的绝对质量检索模式通过考虑输入的完整MW值和数据库中收录的理论值之间的质量差异使得可以检索携带一个未知性质或质量的修饰的蛋白质(见图5)。如果用完整质量误差约土lDa进行检索,则可产生质量准确度差异。值的准确度也是土lDa,并且碎片离子准确度可以是每百万份中之份数(ppm)。根据所选择的输入设置,」m值可以有变化的准确度。歪力廣,式游仓,教薪度0Fare/zow化(i"to6oyeo/pra/W"J使用自上而下方法的所有鉴别算法最初从一数据库中选择候选序列集合。未注释形式的蛋白质可作为FASTA文件得自世界上的公共数据库,如SWISS-PROT,GenBank等。这些数据库可被探查以使得人们创建为特定项目特制的所需的蛋白质形式仓库数据库。优选地,PERL脚本被用于将FASTA文件转成易于组装仓库数据库的文件。当FASTA文件被转化时,向来自FASTA文件的基本序列加入必要信息如平均和单一同位素质量计算和序列中的氨基酸数。论,教薪岸游鸟潜茫释o/衡re/zo聽鉴于在数据库中缺乏正确的蛋白质形式会妨碍其鉴别,用RESID命名创建注释序列的数据仓库,RESID是已知修饰类型的权威数据库(Garavelli,2003)。拥有蛋白质形式数据库使得人们考虑可能由独特的序列基序的出现表示的巳知和推定的修饰。这一方法目的在于将蛋白质形式的部分或完全鉴定与通过检索来自蛋白质形式数据库的已知蛋白质而对其进行的鉴别联系起来(见图6)。可在数据库中注释的翻译后修饰事件包括N-末端乙酰化、信号肽预测、磷酸化、脂酰化(lipoylatkm)、GPI锚定、核糖基化、垸基化、羟基化、糖基化、氧化、还原、十四垸基化、生物素化、遍在蛋白化、亚硝基化、氨基化、硫添加、肽连接、环化、核苷酸添加、脂肪酸添加、酰基化、蛋白水解等(对于多肽有约150-200种翻译后修饰(Garavdli,2003)是已知的并可被认为是注释)。人们可以从公共数据库如SWISS-PROT中获得修饰注释或将修饰注释手工输入仓库数据库。优选地,每一仓库数据库具有掺入基因属性、蛋白质形式属性和修饰属性的三个表。基因属性包括基因鉴别信息和基因结构的详细描述。蛋白质形式属性包括基因鉴别、蛋白质形式鉴别、单一同位素质量、平均质量、氨基酸数、任何已知属性的标记如信号序列、起始甲硫氨酸等。修饰属性包括修饰(RESID)鉴别、平均质量、单一同位素质量和RESID编码属性。仓库数据库的主要任务是负责处理来自检索算法的査询。优选地,检索算法总是基于质量(平均或单一同位素质量)查询仓库数据库。因此,数据库应该以质量进行索引并应该迅速回报相应的序列从而不降低整个系统的速度。蛋白质形式的表含有检索算法所需的大部分信息。由于蛋白质形式的表已经含有所有注释的序列和质量,因此人们可以从数据库中获得对来自检索算法的查询的迅速回应。虽然修饰位点可以从蛋白质的遗传信息中经理论预测,但是通常希望的是用所有潜在可能的注释组成注释数据库。将这些注释包括进来将产生从其剪切大小和延长的检索时间而言使用不便的数据库。一旦检索算法基于序列标记检索程序鉴别了精选的候选蛋白质集合,则可以产生含有针对那些特定蛋白质的所有可能的注释的扩展集合。仓库数据库的这一修饰不会削弱检索算法的性能,因为检索查询被限制于可能的蛋白质形式的小集合中。因此,仓库数据库的动态鸟枪注释可以被包括在混合检索方法中。一旦这一集合蛋白质候选物被精选产生了最终的候选多肽及其相关修饰的集合,则被动态输入仓库数据库的鸟枪注释可以在另一样品多肽被鉴定之前被取消。离子预测器预测理论妙和c々离子,并被包括在软件和系统中。这些计算可用于计算误差,以道尔顿或每百万份中之份数(parts-per-million)表示(例如见实施例1,表I)。教薪还嚴JZ^raiwc".o"too/,软件和系统中包括数据还原工具,用以从还原的碎片化数据除去从多种电荷状态以及水/氨丧失产生的冗余峰。这类工具可用于在获得的MS数据被用于检索算法之前快速分析它们。任何数据管理系统均可用于仓库数据库。优选地,数据管理系统包括MySQL。这一通用数据库系统具有许多实用的支持工具和API,并且这一系统是公众易于获得的。附件中提供的软件使用Version11.18distribution3,23.52MySQLforLi羅.凰形观蔡器界,(Graphicalviewerinterfacetool)在所有检索方法中,候选序列集合被赋予不同分值而回报。用于观察衍生自所有检索方法的候选序列集合的图形观察器界面工具被包括在软件和系统中。任选地,图形观察器界面工具包括在本地工作站中,该工作站包括本发明的其它特征。任选地,图形观察器界面工具适于观察经互连网从远程服务器获得的数据。对于绝对质量模式检索,将基因描述、序列、序列长度、理论质量、质量差异(绝对和ppm)、匹配的6(或c)型离子数、匹配的y(或")型离子数、匹配的碎片总数以及计算的概率值提供给用户。用户可随后通过许多列出的抬头(header)对候选蛋白质集合分类并观察任何检索的序列的碎片化详细资料。碎片化详细资料观察提供给用户有关与该序列匹配的每一碎片的详细信息。这一观察提供鉴别的离子、观察的质量、理论质量、简单质量差异(即在考虑任何质量位移之前,如通过用"deltaM"模式推导)和位移的质量差异(即在考虑了"deltaM"模式中质量位移之后)以及以百万分之份数表示的位移的差异。图形观察器界面工具还允许碎片化详细资料的可视化,这是用于确定序列覆盖范围和识别碎片化模式以增加用户对正确鉴别的置信度的有用特征。被支持的数据库(Databasessuported)支持数据库可被构造用于任何生物体。一个实施方案支持用于9种生物体的数据库,这9种生物体包括酿酒酵母(Sacharomycescerevisiae))、埃希氏大肠杆菌(Escherichiacoli))、拟南芥(Arabidopsisthaliana))、枯草芽孢杆菌(Bacillussubtilis),詹氏甲烷球菌(Me/Zzartococowjannaschii)、肺炎支原体(Mycoplasmapneumoniae)、沙雷菌(Shewanellaoneidensis),小家鼠(Musmusculus)和人(Homosapiens。酵母生物Saccharomycescerevisiae数据库含有最多的注释,具有已知和预测的修饰信息。数据库可扩缩性(DatabaseScalability)特别感兴趣的是数据库和检索时间如何随修饰信息的增加而放大。一给定的基因和推定的修饰集合产生指数级的蛋白质形式,其中每一形式含有可能的修饰的亚集合。因此随着n种蛋白质和每一蛋白质m种可能的加工事件,一个实施方案包括含有0("2J蛋白质形式的数据库。鉴于检索算法以依赖于完整容差的常数运行(9(wlog2"),绝对质量检索算法相对于m几乎线性放大。借助于已知和推定蛋白质形式的数据库,可鉴别和鉴定观察到的蛋白质形式,条件是一些修饰被正确预测。公众可访问数据库中假信息的增加会使得一些基于稀少的(sparse)MS/MS数据的检索不明确。但是,匹配的碎片离子质量数将随着在査询步骤中所用的更广泛和精确的修饰信息而增加。具有质谱分析装置的计算机界面任选地,各组件被安装于计算机系统中以与质谱仪通迅。在一个实施方案中,计算机是本地工作站。在另一个实施方案中,计算机是不在现场的服务器(serverlocatedoff-site)。在后一实施方案中,组件可被储存在服务器上并用基于互连网的界面工具访问。从质谱仪产生的MS数据被传递到计算机中以用于数据采集和存储。计算机的中央处理器协调使用在一个优选的实施方案中运行的检索算法进行的对采集的MS数据的分析以检索蛋白质形式仓库数据库。操作者规定的容差选自由检索算法软件提供的选项以使得从蛋白质形式仓库数据库收集蛋白质候选物以进一步分析修饰。医学应用人们可辨别环境信号对体内特定靶蛋白质上的修饰程度的影响。例如,许多人类疾病状态由修饰如磷酸化调节。人们可以诊断外遗传疾病,其涉及家族内的特异基因的基于修饰的改变。特异的蛋白质可被测量以发现不寻常的修饰的存在并提供对可能与已知基因序列内的改变的相关性不良的疾病状态的新的洞察。因此这一系统提供了用于筛选疾病或有患特定疾病倾向的个体的强平台。当个体蛋白质的修饰改变牵涉于疾病的病因学中时,系统可被构建用于研究设备中以促进发现控制或调节对特定蛋白质添加或除去修饰的药物化合物的发现。在本文公开的一个实施方案中,系统作为一个高通量筛选策略的一个完整组件而实施,其中候选药物化合物的组合文库的促进或抑制与修饰活性相关的酶催化特定蛋白质底物上的修饰的能力被评价。用MS查询蛋白质底物中是否修饰的存在(或不存在)。具有所希望的药物学作用的化合物随后可被用于针对特定疾病的第二级药物开发计划。系统可被构建用于临床应用以评价控制或调节特定蛋白质的修饰添加或除去的药物化合物的功效。在一个实施方案中,系统可被用于从患者样品确定特异的蛋白质是否携带应答药物质量的修饰。例如,感兴趣的靶蛋白质可被从制备自患者样品的裂解物中纯化至均质,并根据本文描述的方法、软件和系统进行MS/MS分析。得自样品蛋白质的MS数据相对于仓库数据库中所含的具有其所有天然鸟枪修饰注释的相应蛋白质形式的差异将容易获得,并对于治疗方案的药物活性有意义。本发明所属
技术领域
的技术人员能明了本发明可被用于检测蛋白质中的多种修饰,而无论其发生机制是什么。例如,人们可使用本发明鉴别和鉴定单蛋白质上多态性的位置、mRNA的RNA剪接或RNA编辑对所得蛋白质序列的影响、翻译后修饰和环境诱导的化学修饰的存在。另外,本领域技术人员明白混合检索方法学使得可以检测产生在理论预测的多肽形式和实际测量的多肽之间的质量差异的任何生物学事件或生物信息学不精确。/Vo5Vg/2f尸rM'教/好膽教附件包括一个CD盘,其提供了实施本文公开的方面和实施方案所需的所有软件工具和样品注释的蛋白质形式的仓库数据库。称为"ProSightPTM"的系统是一个优选的实施方案。这一系统包括4个主要组件,所有均具有基于互连网的界面蛋白质数据库(ProSightWarehouse、数据库检索算法(Retriever)、数据管理器、计划跟踪器和其它有用工具(见图4;Taylor"a/.,2003)。限时任务,如数据库搜索和计分,是在Linux上以0++语言利用面向对象的设计进行编写的,并利用iODBC库进行数据库连接。采用(针对语言表达性而选择的)OCaml来写数据还原工具以及利用绘制图像(renderingimages)的GD模块用PERL来写可视化工具。使用绝对质量检索需要在ODBC激活的数据库管理系统上执行ProSightWarehouse。互连网应用使用由在双处理器Athlon2200+MP上运行的ApacheHTTP服务器提供服务的CGI写入PERL。实施例公开了一些实施方案,具体示出了与酿酒酵母36-kDa蛋白质相关的修饰的MS/MS分析,该蛋白质稍后被鉴别为磷酸甘油醛脱氢酶3型酶。尽管使用了Q-FTMS,但是可以替换得自任何类型的质谱仪的关于完整蛋白质的数据。描述的数据库策略是针对即将进行的特定应用所希望的改良的检索分值和修饰鉴定率而使用已知的和推定的修饰信息。—辨天然摩母歪A應效^动众^J:^T分析在一种ALS-PAGE/RPLC级分中观察到一种M值为35,758.3Da的酵母蛋白质(图7A)。在同一样品中还有3种其它成分,其中之一相应于一种附着于该35.8-kDa物质的磷酸加成物(+98Da)。在线解巻积算法(on-linedeconvolutionalgorithm)挑出该35.8-kDa蛋白质并产生合适的SWIFT波形以选择输出图7B所示的5种电荷状态。使用IR激光器,自动产生图7C的MS/MS谱,其具有相应于由THRASH算法自动检测的27种离散的碎片离子质量值的39种同位素分布。在滤波器除去假峰(spuriouspeaks)(例如失水峰)后,使用20种离子质量作为用于数据库检索的最终输入。这一蛋白质被鉴别为甘袖醛-3-磷酸脱氢酶(GAPDH3),其具有9个6-型离子和3个匹配的,型离子(表I和表II)。这一检索的尸值是4xl0—8,表明这一鉴别不太可能是一假事件。表IGAPDH3(SEQIDNO:l)的离子碎片化数据<table>tableseeoriginaldocumentpage24</column></row><table>GAPDH3具有331个氨基酸;理论质量35,615.5Da;如142.8Da表II:GAPDH3(SEQIDNO:l)的图示碎片图谱vrva工ngfgr工gr:lvmr工alsrpnvevvJAJnJdJPjE"J工TNdYAaYMFKYdSTHGRYAGEVSHDDKH工VDGKK工ATYQERDPANPWGSSND工ADSTGVFKEDTAQKH工DAGAKKVVITAPSSTAPMFVMGVNEEKYTSDKVSNAS£TT£IiAPAKVNDAFGIEEGMTTVHSTATQKTVDGPSHKD[WRGGRTASGN工PSSTGAAKAVGKVPELQGKTGMAFRVPTVDVSVVDIiTVKIiMKETTYDEIKKVVKAAAEGKKGVI;GYTEDAVSfSDFIiGDSHSSIFDASAGQ:lSPKFVK1/SWYDNEYGYSTRVDLVEHAKAi下划线的Cys残基是被鉴别含有丙烯酰胺修饰的残基。符号j是指氨基衍生的碎片离子,而符号f是指羧基衍生的碎片离子。这一基因产物(GAPDH3;SEQIDNO:l)被成功地与GAPDH基因家族的其它成员GAPDH2(SEQIDNO:2)和GAPDHl(SEQIDNO:3)区分开,其与它们分别具有96%和80%的序列相同性。这些数据还将这一蛋白质形式从由ExPASy报道的一个不一致中辨别出,其中331个氨基酸中仅3个不同。另外,GAPDH3基因产物的观察分子质量比从数据库中的序列(无起始Met)计算出的理论值大142Da。碎片图谱将这一质量差异(A肌)定位在Asp90和Asp股之间,在这一序列区间仅有两个Cys残基(Cys,49禾nCys153)(见表II)。使用手动Q-FTMS/MS和超导磁体外的离子碰撞解离对这一蛋白质形式进行的随后的探询产生了图7D的谱图,其具有98种同位素分布。使用这些数据作为检索算法的输入数据进一步将所述+142DaAm限定在Pro126-Leu154区域。这些数据与在凝胶电泳期间两个Cys残基被丙烯酰胺烷基化(各+71Da)相符。尽管没有精确定位于Cys149和Cys153,但是这一凝胶内修饰具有若干先例并预期适用于基于PAGE的分级分离中的游离硫醇。因此,整体方法涉及最初用自上而下方法检测共价修饰。鉴于绝对质量检索时间线性依赖于被计分的候选序列数,较小的完整容差加速检索时间。用土2-kDa容差对酵母进行的简单检索对于1500个候选物用时6秒,而用200-Da容差进行相同检索对于200个候选物用400毫秒完成。混合检索线性依赖于FASTA文件项目数和所考虑的序列标记数。用5个序列标记迸行检索在4秒钟完成。对于目前被碎片化的酵母蛋白质,约有一半可以用检索算法使用观察的碎片离子的绝对质量而鉴别。对于其余的,有20%可经由观察到的碎片离子之间的相对质量差异产生的序列标记而被鉴别。在序列标记模式中,图7C数据的自动化汇总产生4个标记(两个真的,两个假的,每个长度为4个氨基酸)。将序列标记的汇编限制于有相同电荷的碎片离子仅给出2个正确的标记。用图7D的数据,经电荷状态限制,8个标记中有5个是假的(长度l-4个氨基酸),6个中有4个是假的(长度l-3个氨基酸)。实嚴粼2:廢遂源萝^有參浓活丝游艨游众合激Ji谫实蘑^;本实施例的目的是概述从组合文库中鉴别以阳性或阴性方式调节展示修饰活性的酶的化合物的高通量策略。尽管特定的实施例是在体外环境中描述的,但是使该实施例适应体内应用是容易认识到的。将含有N-末端组氨酸标记的重组形式的人Src激酶癌蛋白(UpStateBiotechnology,Inc.;LakePlacid,NY)在Src激酶缓冲液(IOOmMTris-HCl(pH7.2),125mMMgCl2,25mMMnCl2,2mMEGTA,500|iMATP,0.25mM原钒酸钠和2mM二硫苏糖醇)中固定在用Ni-NTA树脂包被的96孔皿中。在加入溶解于Src激酶缓冲液中的测试化合物后,优选地每孔一种均一化合物,向每孔中加入已知序列的Src蛋白底物(浓度为100-300nM)以使得其磷酸化。温育后,回收底物并用ProSightPTM系统进行自上而下质谱分析。特定化合物抑制Src活性的能力通过不存在与蛋白质内磷酸化酪氨酸相关的修饰而表明。这类化合物适于用其它测定进行进一步鉴定以证实所述自上而下分析。例如可以在测定中使用[Y-"P]ATP并用在P81纸上的TCA沉淀测定监控磷酸化活性。,應翔_5:在个谬^检/遗传疾痈^!^实蘑^9本实施例的目的是证实ProSightPTM系统对于使用自上而下质谱检测与外遗传疾病相关的修饰的用途。从用禽肉瘤病毒感染的鸡和未感染的鸡中获得样品组织。将样品匀浆并澄清以产生可溶性裂解物。用抗Y-连环蛋白抗体从裂解物中亲和纯化Y-连环蛋白(一种已知的禽Src激酶的体内底物。然后用自上而下的质谱分析和ProSightPTM分析回收的Y-连环蛋白样品。预期的结果是从正常组织回收的Y-连环蛋白将展示储存于ProSight仓库数据库中的蛋白质形式的正常修饰模式,而从感染的鸡中回收的Y-连环蛋白将包括与酪氨酸磷酸化相关的额外修饰。实/歸心实細/一3被雜,细胞培养物和裂解物分级分离将酿酒酵母细胞(菌株S288C)在厌氧条件下培养。将约2g细胞(湿质量)重悬于含有两片蛋白酶抑制剂的10mL裂解缓冲液(25mMTris,1mMEDTA,1mMTCEP,pH7.0,加入1mLDNAase)中。经Frenchpress裂解后,将细胞碎片经10,000xg离心30分钟而澄清。然后将上清与酸不稳定表面活性剂(ALS)样品缓冲液混合,上样至491型制备凝胶装置(Bio-Rad)中,用0.1。/。ALS-I代替0.1%SDS。4%T积层凝胶与以0.50mL/min流速洗脱的12%T分辨凝胶一起使用。在所收集的80个级分(每个级分2mL)中,有2个级分被进一步加工,即冷丙酮沉淀、在6M盐酸胍(pH2)中重悬以及使用对称300C4柱(4.6x50mm;WatersInc.,Milford,MA)用标准溶剂(H20,CH3CN,和0."/。TFA)在15分钟内线性梯度进行反相液相色谱。ESI-Q-FTMS装置干燥RPLC分级分离的蛋白质并重悬于80|aLESI溶液(50%ACN,49%H20,和1%甲酸)中,然后加样于纳流喷雾机器人(nanosprayrobot)(AdvionBiosciences,Ithaca,NY),以~100nL/min分析5-10iLiL样品。本研究中使用的8.5-TQ-FTMS仪器是如它处所述在公司内部构建的。简而言之,在最终于ICR池中分析之前,将蛋白质离子首先储存于八极(octopole)中,然后转移通过四极(quadrupole),之后在第二个八极中积聚。四极可以以质量选择或"rf-only"模式运行。写在Tel中的自动化脚本获得了完整蛋白质谱,随后调用在线解巻积算法以计算Mr值,并且SWIFT分离5个最丰富的电荷状态(chargestate)。在5次扫描分离的电荷状态后,启动IR激光器,进行25或50次扫描(0.45s,75%功率,40-W激光)。通过当特异的电荷状态被从四极转移进第二个八极中时碰撞解离它们而手工获得图7D的Q-FTMS/MS谱。参考文献BelovME,MkolaevEN,AndersonGA,AuberryKJ,HarkewiczR,SmithRD."Electrosprayionization-Fouriertransformioncyclotronmassspectrometryusingionpreselectionandexternalaccumulationforultrahighsensitivity,"/」w.Afowi9/e"rcw.12:38-48(2001).BiemannK,PapayannopoulosI.爿cc.C/7柳.i饥27:370-78(1994).ClauserKR,BakerP,BurlingameAL."Roleofaccuratemassmeasurement(+/-10ppm)inproteinidentificationstrategiesemployingMSorMS/MSanddatabasesearching,"Ozew.71:2871-82(1999).FicarroS,McClelandM,StukenbergP,BurkeD,RossM,ShabanowitzJ,HuntD,WhiteF."PhosphoproteomeanalysisbymassspectrometryanditsapplicationtoSaccharomycescerevisiae,"Ato.20:301-305(2002),Garavelli,JS."TheRESIDDatabaseofProteinModifications:2003developments,"iVwc/e/d/cfeL31:499-501(2003).GeY,LawhomBG,ElNaggarMStraussE,ParkJH,BegleyTP,McLaffertyFW."Topdowncharacterizationoflargerproteins(45kDa)byelectroncapturedissociationmassspectrometry,"Xm.CVzew.124:672-78(2002).GeY,ElNaggarM,SzeSK,BinOH,BegleyTP,McLaffertyFW,BoshoffH,BarryCE.爿附.Soc.MawSpec&ow.14:253-61(2003).GerberSA,RushJ,StemmannO,SteenH,KirschnerMW,GygiSP.Orlando,FL,2002.GosheMB,ConradsTP,PaniskoEA,AngellNH,VeenstraTD,SmithRD."Phosphoproteinisotope-codedaffinitytagapproachforisolatingandquantitatingphosphopeptidesinproteome-wideanalyses,"^wa/.CAew.2001,73:2578-86(2001),JohnsonJR,MengF,ForbesAJ,CargileBJ,KelleherNL."Fourier-transformmassspectrometryforautomatedfragmentationandidentificationof5-20kDaproteinsinmixtures,"J57ec^op/zom^23:3217-23(2002).KachmanMTWangH,SchwartzDR,ChoKR,LubmanDM."A2-Dliquidseparations/massmappingmethodforinterlysatecomparisonofovariancancers,"^wa/.C72ew.74:1779-91(2002).KelleherNL,CostelloCA,BegleyTP,McLaffertyFW.J!j附.&>c.Mow一"r画.6:981-84(1995).KelleherNL,TaylorSV,GrannisD,KinslandC,ChiuHJ,BegleyTP,McLaffertyFW."Efficientsequenceanalysisofthesixgeneproducts(7-74kDa)fromtheEscherichiacolithiaminbiosyntheticoperonbytandemhigh-resolutionmassspectrometry,"/We/"Sb/.7:1796-1801(1998).LanderESa"Initialsequencingandanalysisofthehumangenome,"iV^wM409:860-921(2001).MacCossMJMcDonald丽,SarafA,SadygovR,ClarkJM,TastoJJ,GouldKX,WoltersD,WashburnM,WeissAClarkJI,YatesJR.,III."Shotgunidentificationofproteinmodificationsfromproteincomplexesandlenstissue,"细c.淑/.爿rac/.5W.f/".99:7卯0-7905(2002).MengF,CargileBJ,MillerLM,ForbesAJ,JohnsonJR,KelleherNL."Informaticsandmultiplexingofintactproteinidentificationinbacteriaandthearchaea,"淑历她c/2/w/.19:952-57(2001).MengF,CargileBJ,PatrieSM,JohnsonJR,McLoughlinSM,KelleherNL."Processingcomplexmixturesofintactproteinsfordirectanalysisbymassspectrometry,"/iwa/.C/zem.74:2923-29(2002).OdaY,HuangK,CrossFR,CowburnD,ChaitBJ,"Accuratequantitationofproteinexpressionandsite-specificphosphorylation,"Proc.iVa".JcadSc/.t/S.A96:6591-96(1999).OdaY,NagasuT,ChaitBT."Enrichmentanalysisofphosphorylatedproteinsasatoolforprobingthephosphoproteome,"TV"f.及'o/ec/mo/.19:379-82(2001).PerkinsD,PappinD,CreasyD,CottrellJ."Probability-basedproteinidentificationbysearchingsequencedatabasesusingmassspectrometrydata,"孤c鄉/io固's20:3551-67(1999).PinedaFJ,LinJS,FenselauC,DemirevPA."Testingthesignificanceofmicroorganismidentificationbymassspectrometryandproteomedatabasesearch,"Xwa/.C/iew.72:3739-44(2000).ReidGE,ShangH,HoganJM,LeeGU,McLuckeySA."Gas-phaseconcentration,purification,andidentificationofwholeproteinsfromcomplexmixtures,"爿m.C7em.Soc.124:7353-62(2002).ReidGE,StephensonJL,McLuckeySA."TandemmassspectrometryofribonucleaseAandB:N-linkedglycosylationsiteanalysisofwholeproteinions,"^wa/.C77柳.74:577-83(2002).SteenH,KusterB,FernandezM,PandeyA,MannM."DetectionoftyrosinephosphorylatedpeptidesbyprecursorionscanningquadrupoleTOFmassspectrometryinpositiveionmode,"爿wa/.C/7ew.73:1440-48(2001).TaylorGK,KimYB,ForbesAJ,MengF,McCarthyR,KelleherNL"Webanddatabasesoftwareforidentificationofintactproteinsusingtopdownmassspectrometry,"C/7ew7.75:4081-86(2003).WilkinsMR,GasteigerE,GooleyAA,HerbertBR,MolloyMP,BinzPA,OuK,SanchezJC,BairochA,WilliamsKL,HochstrasserDF."High-throughputmassspectrometricdiscoveryofproteinpost-translationalmodifications,"/Mo/.5/o/.289:645-57(1999).ZhangW,ChaitB."ProFound:anexpertsystemforproteinidentificationusingmassspectrometricpeptidemappinginformation,"CTzew.72:2482-89(2000).ZhouH,WattsJD,AebersoldR."Asystematicapproachtotheanalysisofproteinphosphorylation,"Ato.5Wec/z"o/.19:375-78(2001).权利要求1.一种选择针对一种样品多肽的一组候选多肽的方法,包括根据由质谱法产生的样品多肽碎片质量的差异对候选多肽集合进行的第一次精选;以及根据样品多肽的绝对质量和所述碎片的绝对质量对候选多肽集合进行的第二次精选。2.权利要求1的方法,其中第一次精选包括根据碎片质量的差异确定样品多肽的至少部分氨基酸序列。3.权利要求2的方法,进一步包括确定完整形式的样品多肽的绝对质量和样品多肽碎片的绝对质4.权利要求2的方法,进一步包括被精选的集合包括一仓库数据库;和基于样品多肽的所述至少部分氨基酸序列从所述仓库数据库中选择候选多肽。5.—种确定样品多肽的一级结构的方法,包括用权利要求1的方法选择一组候选多肽;通过将样品多肽的绝对质量与候选多肽的理论绝对质量数据进行比较而得到匹配的概率值;禾口通过对匹配概率值排序而基于与候选多肽之一的匹配的最大概率值而鉴别样品多肽的一级结构。6.权利要求4的方法,其中所述仓库数据库进一步包括仓库数据库中的至少一种多肽的至少一种鸟枪注释。7.权利要求6的方法,其中所述鸟枪注释包括翻译后修饰。8.权利要求7的方法,其中所述翻译后修饰包括选自如下一组的至少一个成员,所述的组由核糖基化、磷酸化、烷基化、羟基化、糖基化、氧化、还原、十四垸基化、生物素化、遍在蛋白化、碘化、亚硝基化、氨基化、硫添加、环化、核苷酸添加、脂肪酸添加和酰化组成。9.权利要求4的方法,其中所述仓库数据库储存在计算机的电子存储器中。10.权利要求9的方法,其中用户可通过检索算法经电子通讯访问计算机而从所述仓库数据库检索信息。11.权利要求10的方法,其中所述检索算法进一步包括互联网软件应用。12.—种筛选化合物对一种对多肽底物进行翻译后修饰的酶的抑制活性的方法,包括-将所述酶与所述化合物接触以形成预混合物;以及向所述预混合物中加入多肽底物以形成反应混合物;用权利要求5的方法分析所述多肽底物。13.权利要求12的方法,进一步包括加入与酶一起催化反应的辅因子,其中所述辅因子包括选自由ATP、ADP、AMP、GTP、GDP、GMP、CTP、CDP、CMP、UTP、UDP和UMP组成的一组的至少一个成员。14.权利要求12的方法,其中所述酶被固定在一固相支持物上。15.—种用于计算机的计算机程序产品,所述计算机程序产品包括计算机可用介质,在所述介质中具有计算机可读程序代码,以用于针对一种样品多肽选择一组候选多肽,所述计算机程序产品包括计算机可读程序代码,用于指导计算机针对一种样品多肽选择一组候选多肽,包括根据由质谱法产生的样品多肽碎片质量的差异对候选多肽集合进行的第一次精选;以及根据样品多肽的绝对质量和所述碎片的绝对质量对候选多肽集合进行的第二次精选。■16.权利要求15的计算机程序产品,其中用于指导计算机确定对集合的第一次精选的计算机可读程序代码,其中所述第一次精选包括根据碎片质量的差异确定样品多肽的至少一部分氨基酸序列。17.权利要求16的计算机程序产品,进一步包括用于指导计算机确定完整形式的样品多肽的绝对质量和样品多肽碎片的绝对质量的计算机可读程序代码。18.权利要求16的计算机程序产品,进一步包括用于指导计算机基于样品多肽的至少部分氨基酸序列从蛋白质形式集合中选择候选多肽的计算机可读程序代码。19.权利要求16的计算机程序产品,进一步包括用于指导计算机经权利要求1的方法选择一组候选多肽的计算机可读程序代码,以通过将样品多肽的绝对质量与候选多肽的理论绝对质量数据进行比较而得到匹配的概率值;和通过对匹配概率值排序而基于与候选多肽之一的匹配的最大概率值而鉴别样品多肽的一级结构。20.权利要求15的计算机程序产品,进一步包括一系统,其中该系统包括-计算机;蛋白质形式的仓库数据库;和主要工具。21.权利要求20的计算机程序产品,其中所述主要工具包括选自由数据管理系统、离子预测器、数据还原工具和图形观察器界面工具组成的一组的至少一个成员。22.权利要求20的计算机程序产品,其中所述仓库数据库进一步包括鸟枪注释。23.权利要求20的计算机程序产品,其中所述仓库数据库进一步包括动态鸟枪注释。24.权利要求20的计算机程序产品,其中所述系统进一步包括检索算法,其中所述检索算法包括绝对质量检索模式和序列标记检索模式。25.权利要求24的计算机程序产品,其中所述绝对质量检索模式进一步包括dm检索模式。26.权利要求20的计算机程序产品,进一步包括与计算机通讯的质谱仪。27.权利要求20的计算机程序产品,其中所述计算机与用户通过应用互联网软件通讯。28.权利要求20的计算机程序产品,进一步包括计算机;蛋白质形式的仓库数据库;用于检索所述仓库数据库的检索算法;数据管理系统;离子预测器;数据还原工具;和图形观察器界面工具。29.—种用于针对一种样品多肽选择一组候选多肽的系统,包括用于根据由质谱法产生的样品多肽碎片质量的差异对候选多肽集合进行第一次精选的装置;用于根据样品多肽的绝对质量和所述碎片的绝对质量对候选多肽集合进行第二次精选的装置;和计算机。30.权利要求29的系统,其中所述计算机与质谱仪通讯。31.权利要求29的系统,其中所述计算机与用户通过应用互联网软件通讯。32.—种用于针对一种样品多肽选择一组候选多肽的系统,包括:权利要求15的计算机程序产品;和计算机。33.权利要求1的方法,进一步包括根据样品多肽和样品多肽碎片的绝对质量对集合进行第三次精选,其中对集合的第三次精选在对集合的第一次精选之前发生。全文摘要一种选择针对一种样品多肽的一组候选多肽的方法,包括根据由质谱法产生的样品多肽碎片质量的差异对候选多肽集合进行的第一次精选;以及根据样品多肽的绝对质量和碎片的绝对质量对候选多肽集合进行的第二次精选。文档编号G01N33/68GK101124581SQ200580007092公开日2008年2月13日申请日期2005年3月3日优先权日2005年3月3日发明者尼尔·L.·凯莱赫申请人:伊利诺斯大学理事会
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1