一种用于利用测序数据将肽映射到蛋白质的计算方法

文档序号:6502689阅读:222来源:国知局
一种用于利用测序数据将肽映射到蛋白质的计算方法
【专利摘要】本发明公开了一种用于生物样本的蛋白质组分析的方法,该方法包括获取目标列表中的蛋白质的肽序列;以及通过将所获取的肽序列映射到蛋白质组数据库中的蛋白质上来识别鉴定生物样本中的蛋白质,其中所述目标列表利用生物样本中的RNA转录物的信息而被确定所述目标列表,并且/或者所述目标列表利用所述生物样本中的RNA转录物的信息而被确定所述目标列表。所述肽序列利用质谱仪而被确定所述肽序列。所述映射基于RNA转录物的信息在蛋白质子集上被执行所述映射。
【专利说明】一种用于利用测序数据将肽映射到蛋白质的计算方法
【技术领域】
[0001]本发明涉及蛋白质组学,尤其涉及用于利用质谱仪数据进行蛋白质分析的工作流程。
【背景技术】
[0002]近来对个性化医疗的推进需要对个体中的各种生物分子进行更高效的分析。这通常涉及分析病人的蛋白质组。蛋白质组可以被定义为用由基因组表达的蛋白质。蛋白质表达(既而蛋白质组)可能例如随着个体生理条件的变化或者随着病理或药物治疗的进行而因时而异。
[0003]蛋白质组分析通常利用液相色谱法(LC)结合串联质谱法(MS/MS)而被执行进行。这些技术已经成为用于蛋白质识别鉴定的重要工具,因为它们可以快速且地以高敏感度地识别鉴定复杂的蛋白质混合物。在典型的方法中,一种将蛋白质混合物被消化(通常利用胰蛋白酶)为肽,被分离分级(例如利用LC)并且通过质谱法(MS/MS)被分析。得到的胰蛋白酶片段的MS数据随后被用于推断或识别鉴定父亲本蛋白质,这可以通过自动数据库搜索来实现。
[0004]图1示出了图示蛋白质组分析的一般过程的流程图。如图所示,方法10开始于准备用于分析的样本(步骤11),该步骤可以包括蛋白质的消化(通常利用胰蛋白酶)和片段的分离。然后,对消化后的肽片段被进行质谱仪分析(步骤12),该步骤通常包括对所有肽片段的全面扫描(或者调查全谱扫描)。一些肽片段(例如,更多冗余丰度较高的片段)被进行串联质谱仪(MS/MS)分析以阐释肽序列(步骤13)。然后,使用肽序列被用于搜索数据库以识别父鉴定亲本蛋白质(步骤14)。
[0005]这种方法理论上可以实现对样本中的所有蛋白质的识别鉴定。这种方法可以被称为鸟枪法。然而,利用这种“鸟枪”法的蛋白质识别鉴定非常有难度并且需要很多资源。一种替代方法是被称为针对性蛋白质组分析的方法,在该方法中只分析目标列表中的蛋白质。
[0006]对于针对性蛋白质组分析,对质谱数据的处理通常涉及两个主要步骤:识别鉴定目标蛋白质和对目标蛋白质的质谱仪分析,如图2中所示,图2示出了方法20,该方法包括生成用于分析的目标蛋白质的列表的步骤(步骤21),接着利用质谱法(例如MS/MS)和肽到蛋白质的映射(即利用肽序列搜索数据库)进行蛋白质分析(例如利用肽序列搜索数据库;步骤22) ο
[0007]目标蛋白质列表的生成(步骤21)通常基于调查全谱质谱仪分析来根据相对丰度或其它差异特性识别鉴定感兴趣的蛋白质或肽。利用MS/MS和肽映射所进行的定向肽测量(步骤22)可以包括与图1中所示的过程相同的过程,只是步骤22不同之处在于将对列表中的蛋白质执行MS/MS测量。
[0008]鸟枪蛋白质组分析方法(图1)和针对性蛋白质组分析方法(图2)都是通过利用测得的肽序列搜索数据库来识别鉴定蛋白质并且通过测得的肽丰度的集合推断蛋白质丰度。这些过程通常涉及庞大的数据库,通过该数据库经消化的肽被映射到可能的蛋白质。这种方法受到以下问题的困扰:假阳性映射和大量可能异构体的混合存在,这些可能的异构体难以仅仅根据蛋白质数据库进行辨别。因此,根据肽数据的被预测蛋白质的错误集合包含假阳性。这可能导致大量的推定的蛋白质预测,这可能是很难在生物环境中进行分析的。此外,在针对性质谱蛋白质组分析方法中,目标肽识别鉴定传统上是基于相关丰度测量的,这可能导致目标特异性的缺失。这会导致被错认为目标的肽,进而使得在MS/MS阶段的肽到蛋白质的映射变得复杂。

【发明内容】

[0009]本发明的一个方面涉及用于生物样本中的蛋白质组分析的方法。根据本发明的一个实施例的方法包括获取目标列表中的蛋白质的肽序列;以及通过将所获取的肽序列映射到蛋白质组数据库中的蛋白质上来识别鉴定所述生物样本中的蛋白质,其中所述目标列表利用所述生物样本中的RNA转录物的信息而被确定,并且/或者所述目标列表利用所述生物样本中的RNA转录物的信息而被确定。
[0010]根据一些实施例,肽序列可以利用质谱仪而被确定肽序列。目标列表可以利用RNA转录物的信息而被确定目标列表。
[0011]根据本发明的一些实施例,映射可以在蛋白质组数据库中的蛋白质子集上被执行映射,其中所述蛋白质子集基于生物样本中的RNA转录物的信息而被来选择所述蛋白质子集。所述被识别可以将鉴定的蛋白质可以被与所述RNA转录物的信息进行比对检查,以去除与所述RNA转录物中的任何信息都不相对应的蛋白质。
[0012]根据本发明的一些实施例,可以将所述被识别鉴定的蛋白质可以被与所述RNA转录物的可信指数进行比对检查。所述可信指数通过包括以下步骤的过程被获取所述可信指数:(i)将所述RNA转录物中的每一个种与根据所述RNA转录物预测的蛋白质聚集集合体表达水平相关;(ii)将所述RNA转录物中的每一个种与从蛋白质组测量结果得到的聚集集合体蛋白质相关;以及(iii)基于对来自步骤(i)的相关结果和来自步骤(ii)的相关结果的比较,得到针对所述RNA转录物的可信指数。
[0013]在以上实施例中的任一实施例中,生物样本中的RNA转录物的信息可以被用于确定蛋白质的目标列表。该目标列表可以基于生物系统的更多信息而被确定该目标列表。所述更多信息可以包括在两种或更多种条件下蛋白质的差异表达。所述蛋白质的差异表达可以利用质谱仪或2D凝胶电泳而被确定。
[0014]以上实施例中的任一实施例中的RNA转录物可以是信使RNA (mRNA)。以上实施例中的映射可以在蛋白质组数据库中的蛋白质子集上被执行,其中所述蛋白质子集基于生物样本中的mRNA转录物的信息而被选择。
[0015]本发明的另一方面涉及用于生物样本的转录组分析的方法。根据本发明的一个实施例的方法包括:执行蛋白质组分析以获取包括生物样本中的蛋白质的身份和相对丰度的蛋白质组数据;以及利用所述蛋白质组数据设计转录组或基因组研究,其中所述蛋白质组数据被用于根据DNA文库设计序列富集或者设计DNA微阵列。
[0016]本发明的其它方面和优点将通过以下描述和所附权利要求而变得更清楚。【专利附图】

【附图说明】
[0017]图1示出了说明传统蛋白质组分析方法的过程的示意图。
[0018]图2示出了针对性蛋白质组分析方法的工作流程。
[0019]图3示出了根据本发明的一个实施例的方法的工作流程,其中转录物序列信息被用于辅助蛋白质目标列表的确定并且/或者辅助利用映射到数据库中的蛋白质上的肽序列进行的蛋白质识别鉴定。
[0020]图4示出了根据本发明的一个实施例的方法的工作流程,其中mRNA信息被用于辅助蛋白质目标列表的确定并且/或者辅助利用映射到数据库中的蛋白质上的肽序列进行的蛋白质识别鉴定。
[0021]图5示出了说明根据本发明的一个实施例的将转录物与蛋白质相关的方法的流程图。
[0022]图6示出了可以结合本发明的实施例被使用的通用计算机。
具体实施例
[0023]如上所述,传统的蛋白质组分析方法可能具有假阳性和假阴性识别鉴定的问题。本发明的实施例涉及针对具有改进的准确性的新颖蛋白质组分析方法的方法。本发明的方法利用包括针对性蛋白质组分析方法和转录组测序方法的新的联合分析工作流程。根据本发明的实施例,来自转录组的信息(或者“转录组数据”)可以被用于辅助实现在针对性蛋白质组研究学中的目标蛋白质的选择,或者被用于利用数据库搜索中的肽序列提高蛋白质识别鉴定的准确性。转录组数据可以包括例如占主导的转录物异构体同种型、相对丰度信息、主要基因组序列身份、单个或和多个多态性、插入、缺失和移框移码(frame shifts)。
[0024]根据本发明的实施例,为了提高用于针对性蛋白质组研究学的肽映射和肽识别鉴定的准确性,本发明的方法使用联合分析工作流程,该工作流程利用样本专用特异性的转录物序列信息结合同时测量的序列丰度测量结果。
[0025]这里所使用的“转录物序列信息”或“RNA转录物的信息”指细胞中的转录组的序列信息。如本领域中所公知的,转录组可以指代细胞中的所有RNA分子(包括mRNA、rRNA、tRNA和其它未编码的RNA产物)或者细胞中的RNA分子的子集,例如mRNA分子。
[0026]转录物序列信息可以利用本领域中已知的任何测序和/或量化技术,例如DNA微阵列或者下一代测序(NGS)技术(包括RNA-seq)获得。为了对RNA进行排序测序,通常的方法是对样本进行反转录以生成cDNA分子,cDNA分子随后可以利用DNA测序技术被排序,所述DNA测序技术可以是传统测序技术或者下一代测序(NGS)技术。
[0027]RNA-seq指使用NGS高吞吐量高通量测序技术来对cDNA进行排序测序以得到关于样本中的RNA含量的信息。RNA-seq为研究者提供了高效的方式以测量转录组数据(例如关于基因的等位基因的表达上有多么不同的信息),检测突变或者识别鉴定基因融合物。
[0028]一旦RNA-seq NGS数据可用,人们就可以利用各种商业可用的程序(例如来自Agilent Technologies的GeneSpring?)来分析这些数据以得到诸如占主导的转录物异构体同种型、相对丰度信息和主要基因组序列身份之类的信息。这些所得到的数据又可以被用在任何合适的蛋白质组分析学程序(例如Agilent的Mass Qual?、Mass Hunter?、MassProfiler?Professional软件产品)以进行蛋白质组分析,例如设计目标蛋白质列表和/或证实肽到蛋白质的映射。
[0029]根据本发明的实施例,来自转录物测序的信息可以被用在两种分析方法中:
[0030]I该信息可以被用于增加肽水平处上的差分丰度信息,提高要在MS/MS分析中包括的目标肽的准确性。这可以利用任何合适的蛋白质组分析学程序来实现,例如MassProfiler Professional?和 Mass Qual?(可从 Agilent Technologies 得到);并且 / 或者
[0031]2.在MS/MS分析之后,序列信息可以与蛋白质预测结果(例如利用AgilentTechnologies的Mass Hunter? Qualitative软件预测的蛋白质)进行比较以缩减蛋白质候选者的列表。这将通过将蛋白质序列与NGS转录物异构体同种型测得的数据进行之间的匹配将增加高可信度的蛋白质推定结果。
[0032]根据本发明的实施例,转录物信息可以被用在上述步骤之一中或者用在这两个步骤中(即,在初始蛋白质目标列表设计和/或后续的序列确认中)。在目标列表设计中,该软件方法可以确保用于MS/MS分析的精确目标列表生成,而在后续对所预测的蛋白质的序列确认中,该方法可以提供有力的滤波器过滤以防止用于MS/MS研究的假阴性肽目标列表囊括在MS/MS研究中,和在并减少蛋白质预测算法中的假阳性减少。在后续序列确认中,对转录物序列信息的使用也可以被应用在鸟枪式蛋白质组分析方法中。
[0033]在所针对的定向蛋白质组分析方法中使用转录组信息的本发明的方法在图3中被示出。如图3中所示,方法30包括获取RNA转录物序列信息(步骤31)。转录物序列信息可以包括例如占主导的转录物异构体同种型、相对丰度信息、主要基因组序列身份、单个或和多个多态性、插入、缺失和移框移码。转录物序列信息随后被用在针对性蛋白质分析方法中(步骤32),以辅助实现用于MS/MS测量的目标蛋白质列表的生成以及/或者根据MS/MS数据(即利用肽序列数据)辅助实现肽到蛋白质的映射(即数据库搜索)。
[0034]可被用于搜索的蛋白质数据库可以是被用于传统蛋白质组研究学的那些数据库中的任意数据库,例如人体蛋白质参考数据库、国家生物技术信息中心(NCBI)、蛋白质数据银行(PDB)、蛋白质信息资源(PIR)、蛋白质组学识别鉴定数据库(PRIDE)、Swi ss-Prot或者UniProt0这些数据库是本领域技术人员所熟知的。
[0035]根据本发明的一些实施例,转录组信息可以仅包括生物样本中的RNA分子的子集,例如mRNA。只包括mRNA分子的转录组可能具有与生物样本中的蛋白质组更直接的关系O
[0036]图4示出了根据本发明的实施例的方法,该方法使用mRNA转录组信息结合蛋白质组信息。如图4中所示,方法40可以包括从感兴趣的样本中对mRNA和蛋白质进行提纯纯化(步骤41)。提纯纯化可以利用本领域中已知的技术来实现,包括使用商业上可用的试剂盒。
[0037]然后,mRNA分子被分析以识别鉴定出存在于样本中的所有转录物的列表,而不管表达水平如何(步骤42)。对mRNA的分析可以利用本领域中已知的任何技术来执行,例如DNA微阵列。基于所有转录物的列表,由所有被表达的蛋白质构成的蛋白质数据库可以被建立(步骤43)。
[0038]从样本中提纯纯化的蛋白质可以利用质谱仪(例如MS/MS)被分析以产生蛋白质组信息(步骤44)。质谱仪分析可以利用样本中的所有蛋白质或者利用目标列表中的蛋白质而被执行,所述目标列表在mRNA信息的辅助下被建立。最后,蛋白质组信息(例如肽序列)随后针对蛋白质数据库而被搜索蛋白质组信息(例如肽序列)以识别鉴定蛋白质(步骤45),所述蛋白质数据库已经利用mRNA转录物信息而被建立(见步骤43)。
[0039]如上所述,转录物信息可以被用于检查或确认根据肽到蛋白质的映射(搜索数据库)而被识别鉴定的蛋白质。转录物信息可以定性地被使用以帮助减少假阳性,不管特定蛋白质存在还是不是否存在于生物样本中。或者,转录物信息可以以更加定性定量的意义被使用以指示蛋白质识别鉴定的相对可信度。
[0040]例如,为了更好的理解转录组与蛋白质组的关系,可以执行用于针对转录与翻译的相关相互关系的分析方法可以被实现。然后,转录与翻译的相关相互关系可以被用于增加所预测的蛋白质数据的列表。在这种方法中,例如来自转录组技术(例如RNA-seq)的测量数据和来自MS/MS实验的肽数据例如可以在图5中所示的过程50中被相关。
[0041]首先,每个每种转录物与从转录组分析得到的所预测的蛋白质聚集集合体表达水平进行相关(步骤51),并且每个每种转录物还与从蛋白质组分析得到的聚集集合体蛋白质的列表进行相关(步骤52)。然后,通过比较这些相关结果,转录物可信度可以针对聚集集合体蛋白质的列表中的每个每种蛋白质而被报告转录物可信度(步骤53)。根据本发明的实施例,这些转录物可信度指数可以被用于确认或评估在数据库搜索中的肽到蛋白质映射的可靠性(可信度)。
[0042]此外,这些被相关的值的映射而非原始或标准化的值可以被应用在生物网络或路径层以说明针对转录组和蛋白质组两者的细胞响应的机制。
[0043]虽然上述方法所需要的转录组和蛋白质组数据可以利用针对转录组数据的RNA-seq或NGS以及针对蛋白质组数据的MS技术而被得到获得,但是应当注意本发明实施例所需要的转录组和蛋白质组数据可以利用任何合适的技术而被得到。换言之,本发明的实施例基于通用方法,所述通用方法依赖于来自转录组的序列水平数据和来自蛋白质组的肽水平数据的通用方法。该通用方法可以结合各种测量技术来使用。例如,对于蛋白质组数据,可以使用其它肽测序技术(例如Edman降解)或蛋白质识别鉴定技术(例如抗体或ELISA (酶联免疫吸附实验)),并且对于转录组数据,可以使用微阵列技术。
[0044]上述本发明的实施例基于先验(a priori)转录组数据来辅助对蛋白质组数据的分析。这些方法基于转录组数据与蛋白质组数据之间的关系。按照类似的方式,该关系可以被反方向使用。因而,本发明的一些实施例涉及使用先验蛋白质组数据(例如来自MS分析)来辅助对转录组数据的分析的方法,例如用以提高来自微阵列和/或下一代测序实验的测量数据的质量。在该方法中,转录组蛋白质组数据可以被用作先验知识,用于利用作为目标的针对性的基因组富集或定制的微阵列来设计匹配的实验。这种对实验方法的计算设计将在生物标志物发现、癌病癌症研究和毒理基因组学研究中发现价值。
[0045]例如,根据本发明的实施例,蛋白质组数据可以被用于帮助设计丰富经富集的基因组文库或者设计定制的微阵列。基因组文库富集系统的示例如可得自AgilentTechnologies, Inc.(Santa Clara, CA)的 SureSelect? 系统。该 SureSelect? 系统利用基于生物素-亲和素的选择技术(即生物素化的诱饵序列和链霉亲和素包被的磁珠吸附)来丰富富集感兴趣的序列。该系统可以大大改善测序工作流程的成本和处理效率。根据本发明的实施例,蛋白质组数据可以被用于帮助设计富集序列(饵序列)以丰富从而富集文库。
[0046]本发明的方法可以被包括在可用于基因组、蛋白质组或多组学数据分析的现有软件中。具体而言,转录组数据与蛋白质组数据之间的相关相互关系可以利用多组学(基因组学、蛋白质组学、基因组学等)软件而被方便地执行。可以结合本发明的方法被使用的多组学软件的一个示例如来自Agilent Technologies的GeneSpring?分析平台。GeneSpring?分析平台是一种用于将来自不同知识领域的细胞测量数据进行实际整合的多组学软件解决方案。这种多组学分析方法可以结合本发明的方法被使用,以提高来自利用下一代测序数据(转录组数据)的质谱蛋白质组实验的测量数据的质量,或者提高来自利用蛋白质组数据的微阵列和/或下一代测序实验的测量数据的质量。
[0047]本发明的实施例实际上可以在任何类型的计算机上被实现,不管所使用何种的平台是什么。例如,如图6中所示,计算机系统(600)包括一个或多个处理器(602)、相关联的存储器(604)(例如随机访问存储器(RAM)、缓存存储器、闪存存储器等)、存储设备(606)(例如硬盘、诸如紧致盘驱动或数字视频盘(DVD)驱动之类的光驱动、闪存存储棒等)以及各种当今计算机典型的其它元件和功能(未示出)。计算机(600)还可以包括输入装置,例如键盘(608)、鼠标(610)或麦克风(未示出)。此外,计算机(600)可以包括输出装置,例如监视器(612)(例如液晶显示器(LCD)、等离子显示器或者阴极射线管(CRT)监视器)。计算机系统(600)可以经由网络接口连接(未示出)被连接到网络(614)(例如局域网(LAN)、诸如互联网之类的广域网(WAN)或者任何其它类似类型的网络)。本领域技术人员将理解有很多不同类型的计算机存在,并且前述输入和输出装置可以采用其它形式。更一般地说,计算机系统(600)至少包括实现本发明的实施例所需要的最少的处理、输入和/或输出装置。
[0048]此外,本领域技术人员将理解前述计算机系统(600)的一个或多个元件可以位于远程位置并且通过网络连接到其它元件。此外,本发明的实施例可以在具有多个节点的分布式系统上被实现,其中本发明的每个部分(例如显示器、格式数据、分析设备等)可以位于分布式系统内的不同节点上。在本发明的一个实施例中,节点对应于计算机系统。或者,节点可以对应于具有相关联的物理存储器的处理器。节点还可以对应于具有共享存储器和/或资源的处理器。此外,执行本发明的实施例的软件指令可以被存储在诸如紧致盘(CD)、软盘、磁带、文件或者任何其 它计算机可读存储设备之类的计算机可读介质上。
[0049]本发明的实施例的优点可能包括以下优点中的一个或多个。本发明的实施例利用多组学方法来帮助提高蛋白质组分析的准确性。本发明的方法利用转录组数据来辅助目标蛋白质列表的生成并且/或者利用肽到蛋白质的映射来改善蛋白质的识别鉴定。本发明的方法利用基于转录组水平数据和蛋白质组水平数据的通用方法,而不管什么使用何种技术被用来获取这些数据。因此,本发明的方法可以结合各种技术被使用。
[0050]虽然已针对有限个实施例对本发明进行了描述,但是本领域技术人员在考虑了本公开的情况下将理解不脱离这里所公开的本发明的范围的其它实施例也可以被设计。因此,本发明的范围应当仅由所附权利要求限定。
【权利要求】
1.一种用于生物样本的蛋白质组分析的方法,包括: 获取目标列表中的蛋白质的妝序列;以及 通过将所获取的肽序列映射到蛋白质组数据库中的蛋白质上来识别鉴定所述生物样本中的蛋白质, 其中所述目标列表利用所述生物样本中的RNA转录物的信息而被确定所述目标列表,并且/或者所述目标列表利用所述生物样本中的RNA转录物的信息而被确定所述目标列表。
2.根据权利要求1所述的方法,其中所述肽序列利用质谱仪而被确定所述肽序列。
3. 根据权利要求1所述的方法,其中所述映射在所述蛋白质组数据库中的蛋白质子集上被执行所述映射,其中所述蛋白质子集基于所述生物样本中的所述RNA转录物的信息而被选择所述蛋白质子集。
4.根据权利要求1所述的方法,其中将所述被识别鉴定的蛋白质被与所述RNA转录物的信息进行比对检查,以去除与所述RNA转录物中的任何信息都不相对应的蛋白质。
5.根据权利要求1所述的方法,其中将所述被识别鉴定的蛋白质被与所述RNA转录物的可信指数进行比对检查。
6.根据权利要求15所述的方法,其中所述可信指数通过包括以下步骤的过程被获取所述可信指数: (i)将所述RNA转录物中的每一个种与根据所述RNA转录物预测的蛋白质聚集集合体表达水平相关; (?)将所述RNA转录物中的每一个种与从蛋白质组测量结果得到的聚集集合体蛋白质相关;以及 (iii)基于对来自步骤⑴的相关结果和来自步骤(ii)的相关结果的比较,得到针对所述RNA转录物的可信指数。
7.根据权利要求1所述的方法,其中使用所述生物样本中的所述RNA转录物的信息被用于确定所述目标列表,并且所述目标列表还基于生物系统的信息而被确定所述目标列表。
8.根据权利要求7所述的方法,其中所述生物系统的信息包括在两种条件下蛋白质的差分差异表达的信息。
9.根据权利要求8所述的方法,其中所述蛋白质的差分表达通过二维凝胶电泳或者通过质谱仪分析而被识别鉴定所述蛋白质的差分表达。
10.根据权利要求1所述的方法,其中所述RNA转录物的信息包括信使RNA(mRNA)转录物的信息。
11.根据权利要求10所述的方法,其中所述映射在所述蛋白质组数据库中的蛋白质子集上被执行所述映射,其中所述蛋白质子集基于所述生物样本中的所述mRNA转录物的信息而被选择。
12.一种用于生物样本的转录组分析的方法,包括: 执行蛋白质组分析以获取包括所述生物样本中的蛋白质的身份和相对丰度的蛋白质组数据;以及 利用所述蛋白质组数据设计转录组或基因组研究,其中所述蛋白质组数据被用于根据DNA文库设计序列富集或者`设计DNA微阵列。
【文档编号】G06F19/22GK103488913SQ201310174311
【公开日】2014年1月1日 申请日期:2013年5月13日 优先权日:2012年6月13日
【发明者】迈克尔·詹尼斯, 于冈海瑞·锐迪 申请人:安捷伦科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1