一种对多肽交联肽段进行质谱鉴定的假发现率控制方法与流程

文档序号:11946078阅读:537来源:国知局
本发明涉及生物信息学
技术领域
,具体地说,本发明涉及一种对多肽交联肽段进行质谱鉴定的假发现率控制方法。
背景技术
:蛋白质鉴定是当代生物学研究中一项基础技术。近二十年来,随着质谱技术(MassSpectrometry,MS)突飞猛进的发展,串联质谱技术(TandemMassSpectrometry,MS/MS)已成为蛋白质鉴定的主流技术,并促成了蛋白质组学的形成和壮大。经过几代人在算法和仪器上的不懈努力,高精度质谱技术下高通量蛋白质鉴定已经达到了一个相当高的水平,如Mann等人在2011年利用OrbitrapVelos质谱仪和MaxQuant软件已能在Hela细胞上采集的二级谱图中鉴定到58%的谱图,而利用本发明的发明人2013年开发的pFind软件可在相同数据集上鉴定80%以上的谱图。另一方面,蛋白质交联技术近年来也在不断发展。蛋白质交联技术是利用化学试剂来作为交联剂(linker)结合蛋白质肽段,在蛋白质之间形成稳定共价交联的技术。如果将蛋白质交联技术与质谱鉴定技术结合,就可以高通量地进行多种蛋白质内部结构和蛋白质间相互作用的分析。并且,通过交联剂的粘合作用,可以固定原本不稳定的、容易变化的相互作用化学键,从而帮助研究这类广泛存在的弱相互作用关系。为便于描述,蛋白质交联与质谱鉴定技术相结合的技术称为交联质谱技术。如前文所述,交联质谱技术存在诸多应用前景,然而,目前主流的蛋白质质谱鉴定技术都是针对单肽鉴定的基于数据库搜索的质谱鉴定方案,如果直接将这些质谱鉴定方案套用到多肽交联肽段的鉴定中,可能出现准确率过低、鉴定率过低等问题,其中一个重要原因就是传统的目标-诱饵库假发现率控制(FalseDiscoveryRate,FDR)方法不能简单套用到交联质谱技术中。基于数据库搜索方法的质谱数据鉴定会在一定程度上产生随机匹配情况,使鉴定结果中存在着不正确的结果,因此需要进行假发现率控制。在传统的基于数据库搜索方法的单肽质谱数据鉴定中,通常使用目标-诱饵库技术进行假发现率控制。在目标-诱饵库假发现率控制方案主要是:将数据库进行处理,生成含有标记的随机诱饵数据库,然后将目标库和诱饵库进行合并,在合并后的数据库中进行数据库搜索得到鉴定结果。再利用鉴定结果中匹配到诱饵库的谱图数量来估计目标数据库中随机匹配的数目,得到假发现率。再基于假发现率调整搜索引擎的匹配度阈值或者其它参数,从而在尽可能提高鉴定率的同时实现假发现率控制。然而,对于交联质谱数据,其数据库中的候选肽规模庞大,随机匹配更容易发生,传统的目标-诱饵库控制假发现率(FalseDiscoveryRate,FDR)的方法已经不能适用。为解决这一问题,一种思路是针对交联肽段的特点,利用随机交联剂质量或者随机交联位点氨基酸的配置来构建专门针对交联肽段的诱饵库,然后利用该诱饵库和针对交联肽段的目标库混合,再基于传统的目标-诱饵库方案进行假发现率控制。然而,这类方法仍存在较大缺陷,例如:随机的交联剂质量和氨基酸的含量均难以准确估计,二者的估计值与实际值的差别很容易导致所估计的假发现率出现较大偏差。因此,当前迫切需要一种适合于对多肽交联肽段进行质谱鉴定的假发现率控制解决方案。技术实现要素:因此,本发明的任务是一种适合于对多肽交联肽段进行质谱鉴定的假发现率控制解决方案。根据本发明的一个方面,提供了一种对多肽交联肽段进行质谱鉴定的假发现率控制方法,包括下列步骤:1)对于每张谱图,基于肽段匹配模型,在存储了单条肽段结构的数据库中进行搜索,得出匹配的n肽交联的鉴定结果;其中,所述存储了单条肽段结构的数据库既包括真实肽段结构也包括诱饵肽段结构;2)对于每个谱图的鉴定结果,根据该鉴定结果中分别匹配到真实肽段结构和诱饵假肽段结构的肽段数目,将该鉴定结果归类至鉴定结果集合Rk,其中Rk来表示n肽交联鉴定结果中,有k条肽段为诱饵肽段结构,(n-k)条肽段为真实肽段结构的鉴定结果集合,0≤k≤n,n为不小于3的自然数;3)计算n肽交联的假发现率FDR(n);FDR(n)=Σk=1n(-1)k+1DkD0]]>其中,Dk表示属于鉴定结果集合Rk的鉴定结果数目。其中,所述步骤1)和步骤2)之间还包括步骤:1a)推断出每张谱图的鉴定结果是属于蛋白内交联结果还是蛋白间交联结果;对于鉴定结果属于蛋白内交联的谱图集合和鉴定结果属于蛋白间交联的谱图集合,分别执行所述步骤2);所述步骤2)中,对属于蛋白内交联的谱图的鉴定结果和属于蛋白间交联的谱图的鉴定结果分开归类;所述步骤3)中,分别计算蛋白内交联情形下的n肽交联假发现率和蛋白间交联情形下的n肽交联假发现率。其中,所述步骤1a)中,如果一个鉴定结果的n肽交联的n条肽段分别来自于同一个蛋白质,那么判断该鉴定结果属于蛋白内交联;反之,判断该鉴定结果属于蛋白间交联。其中,所述步骤1a)中,对于一个鉴定结果,采用AC自动机算法推断该鉴定结果的每条肽段所属的一个或多个蛋白质,如果至少有一个蛋白质是鉴定结果中的n条肽段共有的,那么就判断该鉴定结果属于蛋白内交联;如果没有任何一个蛋白质是该鉴定结果中的n条肽段共有的,那么就判断该鉴定结果属于蛋白间交联。其中,所述步骤1)中,所述存储了单条肽段结构的数据库的构建方法包括下列子步骤:11)构建单肽目标库,基于所述单肽目标库构建单肽诱饵库;12)将单肽目标库和单肽诱饵库合并构成所述存储了单条肽段结构的数据库。其中,所述步骤11)中,所述单肽诱饵库是将单肽目标库中的蛋白序列反转,由反转后的蛋白序列所组成的数据库。在一个实施例中,所述假发现率控制方法还包括步骤:4)根据n肽交联的假发现率调整所述肽段匹配模型的打分阈值。在另一个实施例中,所述假发现率控制方法还包括步骤:4)根据蛋白内交联情况下的n肽交联的假发现率对蛋白内交联的鉴定结果进行过滤,向用户输出假发现率小于预设的假发现率阈值的蛋白内交联的鉴定结果;根据蛋白间交联情况下的n肽交联的假发现率对蛋白间交联的鉴定结果进行过滤,向用户输出假发现率小于预设的假发现率阈值的蛋白间交联的鉴定结果。其中,所述肽段匹配模型为单肽匹配模型或二肽交联匹配模型。与现有技术相比,本发明具有下列技术效果:1、本发明能够更加准确地估计对多肽交联肽段进行质谱鉴定的假发现率。2、本发明能够帮助提高对多肽交联肽段进行质谱鉴定的准确率和鉴定率。附图说明以下,结合附图来详细说明本发明的实施例,其中:图1示出了本发明一个实施例的对多肽交联肽段进行质谱鉴定的假发现率控制方法的流程图。具体实施方式本发明的基本思想是利用成熟的单肽诱饵库识别多肽交联鉴定结果中每一条肽段是否正确,再根据这些识别结果综合估算多肽交联鉴定的假发现率。下面结合附图和实施例对本发明做进一步地说明。图1示出了本发明一个实施例的用于n肽交联鉴定的假发现率控制方法的流程图,该流程包括下列步骤:步骤1:构建单肽诱饵库和单肽目标库。其中,单肽目标库是存储了大量结构已知的单条肽段的序列结构的数据库。单肽诱饵库是将单肽目标库中的蛋白序列反转,然后将反转后的蛋白序列组成的数据库(具体方法可参考文献:EliasJE,GygiSP:Target-decoysearchstrategyforincreasedconfidenceinlarge-scaleproteinidentificationsbymassspectrometry.NatureMethods2007,4(3):207-214.)。步骤2:将步骤1所构建的单肽诱饵库和单肽目标库混合,将混合后的单肽结构数据库作为进行n肽交联鉴定的搜索范围。其中n表示发生交联的肽段数目。步骤3:使用已标注的n肽交联蛋白质数据集,根据步骤2所设的搜索范围,基于肽段匹配模型对各个谱图进行鉴定,记录每张谱图的鉴定结果。对于每张谱图,基于肽段匹配模型都可以根据匹配打分是否超过阈值,得出鉴定结果,即该谱图所对应的n肽交联所含的n个单肽。本实施例中,每个谱图对应一个n肽交联鉴定结果。本实施例中,肽段匹配模型是基于单肽匹配的n肽匹配模型。在一个具体实现的实例中,可以基于单肽匹配对所需鉴定的谱图进行鉴定,得出n个匹配打分最高的单肽,然后将这n个单肽作为n肽交联所含的n个单肽。其中,肽段匹配可基于马尔可夫模型的碎片离子打分系统和线性支持向量机多特征机器学习打分系统实现。例如:先进行数据库搜索,用肽段匹配模型找到每张谱图的候选肽段,再用基于线性支持向量机多特征机器学习打分系统对肽谱匹配结果进行重打分得出鉴定结果。当然,这并非是本发明唯一的n肽交联匹配方案。例如,在另一个实施例中,肽段匹配模型是可以直接得出所需鉴定的谱图是由哪n个单肽交联而成的n肽交联匹配模型。再例如,在又一个实施例中,基于单肽匹配模型和二肽交联匹配模型来鉴定n肽交联。在具体实现上,可以利用二肽交联匹配模型对所需鉴定的谱图进行鉴定,得出匹配打分最高的一个或多个二肽交联,然后再利用单肽匹配模型对所需鉴定的谱图进行鉴定,得出二肽交联匹配模型未鉴定出的若干个单肽,最后得出n肽交联所含的全部n个单肽。总之,本发明中,具体采用什么样的模型不限(例如可使用基于马尔可夫模型的碎片离子打分系统和线性支持向量机多特征机器学习打分系统),只要其数据库由单肽诱饵库和单肽目标库合成,且能够得到n肽交联的鉴定结果即可。步骤4:对所有谱图的鉴定结果进行分类和统计。每张谱图的鉴定结果中,n个单肽可能全部来自单肽目标库,也可能全部来自单肽诱饵库,也可能部分来自单肽目标库部分来自单肽诱饵库。基于传统的目标-诱饵库假发现率控制理论,可以认为,如果鉴定结果匹配到诱饵库就视为鉴定结果错误。那么本实施例中,n肽交联中的每条肽段都有正确或者错误两种可能,那么谱图的鉴定结果就可能存在2n种情形,本步骤中,将这2n种情形划分为n+1个分类,分别是:第0分类:0条肽段来自于单肽诱饵库,n条肽段来自于单肽目标库;第1分类:1条肽段来自于单肽诱饵库,n-1条肽段来自于单肽目标库;第2分类:2条肽段来自于单肽诱饵库,n-2条肽段来自于单肽目标库;……第k分类:k条肽段来自于单肽诱饵库,n-k条肽段来自于单肽目标库;……第n分类:n条肽段来自于单肽诱饵库,0条肽段来自于单肽目标库。对每张谱图,分别识别其鉴定结果属于哪一种情形,即可将其归到相应的类别,对所有谱图归类完毕后,统计每一类别的谱图数目。为方便描述,下文中用Rk来表示n肽交联鉴定结果中,有k条肽段来自于诱饵库,(n-k)条肽段来自于目标库的鉴定结果集合,用Dk来表示属于Rk的鉴定结果数目,其中0≤k≤n。步骤5:计算n肽交联的假发现率FDR(n)。FDR(n)=Σk=1n(-1)k+1DkD0]]>下面给出FDR(n)计算公式的证明过程。在一批搜索谱图中,由于谱图中各条肽段的碎裂情况不同,每张谱图的谱峰信息能够可靠支持鉴定的肽段数目也不同。在最坏的情况下,谱图中的谱峰信息不能支持任何一条交联肽段的鉴定;在最好的情况下,n条交联肽段每一条都有足够的谱峰支持;其它的情况下,谱峰信息仅能支持n肽交联中部分肽段的鉴定。所以引入概念Mk和Sk,Mk表示谱峰信息可靠支持(n-k)条肽段,而另外k条肽段的谱峰信息不足无法可靠鉴定的谱图集合,Sk代表属于Mk的谱图数目,0≤k≤n,则显然有:S=Σk=0nSk---(1)]]>当谱峰信息不能可靠支持某条肽段的鉴定时,该条肽段就会存在被随机匹配到诱饵库的可能。假设对于n肽交联中这个位置的肽段,在鉴定时被随机匹配到单肽目标库和单肽诱饵库的概率比为1:1,则对于谱峰信息能够可靠支持(n-k)条肽段鉴定而另外k条肽段的谱峰信息不足的谱图,则在步骤4的分类方式下,其n肽交联鉴定结果实际上只存在(k+1)种可能的分类。对于集合Mk中的所有谱图,各谱图的鉴定结果中,属于第i分类的数目Di同属于第0分类的数目D0的比率如下:DiD0=kik0=ki,(0≤i≤k)---(2)]]>其中,表示从k个不同元素中取出i个元素的所有组合的个数。进一步地,对于谱图Mk,对于其(k+1)种鉴定结果Di的数目,有下式成立:Di=kiD0,(0≤i≤k)---(3)]]>故f(k,i)=kif(k,0),(0≤i≤k)---(4)]]>其中,f(k,i)表示来自于Mk被鉴定为Di的数目。f(k,0)表示来自于Mk被鉴定为D0的数目。从鉴定结果的角度来考虑。对于某一类鉴定结果Dp,它可能且仅可能来自于(n-q+1)类别的谱图Mq(p≤q≤n)的鉴定结果。因此有下式成立:Dp=Σq=pnf(q,p)---(5)]]>特别地,对于n条肽段鉴定为全部来自于单肽目标库的鉴定结果D0,有:D0=Σq=0nf(q,0)---(6)]]>其中,来自于谱图M0的结果为正确结果,其它结果为随机匹配结果。利用假发现率估计公式估计鉴定结果中的随机匹配,对于n肽交联,有下式:FDR(n)=Σq=1nf(q,0)Σq=0nf(q,0)---(7)]]>接下来计算f(k,0),即来自于Mk谱图的被鉴定为R0的结果数目D0。当k=n时,由(5)可得Dn=f(n,n),Sn类型的谱图没有信息可以可靠支持任意一条肽段鉴定,n条肽段全部为随机匹配,故f(n,0)=f(n,n)=Dn。再考虑k<n的情况,则有如下递推式成立:f(k,0)=Dn,k=nDk-Σi=k+1nf(i,k),k<n---(8)]]>,i=kifk,0(0≤i≤k)(4),fi,k=ikf(i,0)。由此:f(k,0)=Dn,k=nDk-Σi=k+1nf(i,0),k<n---(1)]]>由此式可知,由Dk(1≤k≤n)组成。其中,Dk出现在项f(1,0),f(2,0),…,f(k,0)中。对于某一k,我们定义函数g(i,k)表示Dk在f(i,0)中的系数(1≤i≤k),由公式(1),可推得如下递推式:g(i,k)=1,i=k-Σj=i+1kjig(j),1≤i≤k-1---(10)]]>则中Dk的系数是接下来由公式(10)计算g(i,k)的解析式。猜测利用数学归纳法进行证明。首先,当i=k时,有g(k)=1成立。假设在i+1,i+2,…,k的情况下都成立,下面推导在i的情况下也成立。在数学上,已知有等式jikj=kik-ij-i---(11)]]>以及(-1+1)k=Σs=0k(-1)k-sks---(12)]]>成立。可对g(i,k)进行如下推导:g(i,k)=-Σj=i+1kg(j)ji]]>=-Σj=i+1k(-1)k-jjikj]]>=-Σj=i+1k(-1)k-jkik-ij-i]]>=-kiΣj=i+1k(-1)k-jk-ij-i]]>=-kiΣj-i=1k-i(-1)(k-i)-(j-i)k-ij-i]]>=-ki((-1+1)k-i-(-1)k-i)]]>=(-1)k-iki]]>得证因此有:Σi=1kg(i)=Σi=1k(-1)k-iki=(-1+1)k-(-1)kk0=(-1)k+1---(14)]]>所以,中Dk的系数是(-1)k+1,将其代入式(7),并注意到并注意到因此有下式成立:FDR(n)=Σk=1n(-1)k+1DkD0---(15)]]>步骤6:根据n肽交联的假发现率FDR(n)调整肽段匹配模型的打分阈值。例如:当步骤5所计算的假发现率FDR(n)大于预设的假发现率阈值时,提高n肽交联匹配模型的打分阈值,当步骤5所计算的假发现率FDR(n)显著小于预设的假发现率阈值时,则可以减小n肽交联匹配模型的打分阈值以提高鉴定率,减少漏检。进一步地,在一个优选实施例中,根据鉴定结果所显示的蛋白内交联和蛋白外交联(也称为蛋白间交联)进行了区分,分别估计蛋白内交联和蛋白外交联的假发现率,以进一步提高n肽交联的假发现率估计的准确性。该实施例中,仍然执行前述步骤1至3,分别得出每张谱图的鉴定结果。然后执行步骤3a。步骤3a:进行蛋白推断,推断出每张谱图的搜索结果是属于蛋白内交联结果还是蛋白间交联结果。如果一个n肽交联的n条肽段分别来自于同一个蛋白质,那么称其为蛋白内n肽交联,反之,则称其为蛋白间n肽交联。本实施例中,采用AC自动机算法推断肽段所属的蛋白质。众所周知,肽段是蛋白的一部分,对于任意一个肽段(实际上是一个氨基酸序列),AC自动机算法能够根据这个肽段推断出含有该肽段的所有的蛋白质。因此,一个肽段可能同时推出几个蛋白质,本实施例中,如果有一个蛋白质是n肽交联中的n条子肽段共有的,那么就判断该n肽交联为蛋白内交联;如果没有任何一个蛋白质是n肽交联中的n条子肽段共有的,那么就判断该n肽交联为蛋白间交联。步骤3a完毕之后,再执行步骤4。与前述实施例不同,本实施例的步骤4中,分别对推断为蛋白内交联与推断为蛋白间交联的谱图的鉴定结果进行分类和统计。蛋白内交联的鉴定结果分类和统计方法与前述实施例的步骤4相同,蛋白间交联的鉴定结果分类和统计方法也与前述实施例的步骤4相同,因此此处不再赘述。步骤4执行完后再执行步骤5。本实施例的步骤5中,分别计算蛋白内交联情况下的n肽交联的假发现率和蛋白间交联情况下的n肽交联的假发现率。计算方法与前述实施例中的步骤5相同,不再赘述。步骤5执行完后再执行步骤6。步骤6:根据蛋白内交联情况下的n肽交联的假发现率对蛋白内交联的鉴定结果进行过滤,向用户输出假发现率小于预设的假发现率阈值(例如5%)的蛋白内交联的鉴定结果;根据蛋白间交联情况下的n肽交联的假发现率对蛋白间交联的鉴定结果进行过滤,向用户输出假发现率小于预设的假发现率阈值(例如5%)的蛋白间交联的鉴定结果。为验证上述优选实施例的效果,发明人以三肽交联为例进行了测试。发明人基于同一个假发现率阈值,在10个标准蛋白的数据集上进行测试,过滤方式采取分开过滤时(即蛋白内交联三肽和蛋白间交联三肽分别计算FDR),能够鉴定到312张谱图。而采取合并过滤方式时(即不区分蛋白内和蛋白间交联,使用所有谱图的鉴定结果统一计算FDR),能够鉴定到260张谱图。可以看出,在使用同一假发现率阈值的前提下(也就是说,在假发现率基本一致的前提下),采取分开过滤得到的结果比合并过滤更多,能够显著的提升谱图的鉴定率。最后应说明的是,以上实施例仅用以描述本发明的技术方案而不是对本技术方法进行限制,本发明在应用上可以延伸为其它的修改、变化、应用和实施例,并且因此认为所有这样的修改、变化、应用、实施例都在本发明的精神和教导范围内。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1