一种对多肽交联肽段进行质谱鉴定的假发现率控制方法与流程

文档序号:11946078阅读:来源:国知局

技术特征:

1.一种对多肽交联肽段进行质谱鉴定的假发现率控制方法,其特征在于,包括下列步骤:

1)对于每张谱图,基于肽段匹配模型,在存储了单条肽段结构的数据库中进行搜索,得出匹配的n肽交联的鉴定结果;其中,所述存储了单条肽段结构的数据库既包括真实肽段结构也包括诱饵肽段结构;

2)对于每个谱图的鉴定结果,根据该鉴定结果中分别匹配到真实肽段结构和诱饵假肽段结构的肽段数目,将该鉴定结果归类至鉴定结果集合Rk,其中Rk来表示n肽交联鉴定结果中,有k条肽段为诱饵肽段结构,(n-k)条肽段为真实肽段结构的鉴定结果集合,0≤k≤n,n为不小于3的自然数;

3)计算n肽交联的假发现率FDR(n);

<mrow> <mi>F</mi> <mi>D</mi> <mi>R</mi> <mrow> <mo>(</mo> <mi>n</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msup> <mrow> <mo>(</mo> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> <mrow> <mi>k</mi> <mo>+</mo> <mn>1</mn> </mrow> </msup> <msub> <mi>D</mi> <mi>k</mi> </msub> </mrow> <msub> <mi>D</mi> <mn>0</mn> </msub> </mfrac> </mrow>

其中,Dk表示属于鉴定结果集合Rk的鉴定结果数目。

2.根据权利要求1所述的假发现率控制方法,其特征在于,所述步骤1)和步骤2)之间还包括步骤:

1a)推断出每张谱图的鉴定结果是属于蛋白内交联结果还是蛋白间交联结果;对于鉴定结果属于蛋白内交联的谱图集合和鉴定结果属于蛋白间交联的谱图集合,分别执行所述步骤2);

所述步骤2)中,对属于蛋白内交联的谱图的鉴定结果和属于蛋白间交联的谱图的鉴定结果分开归类;

所述步骤3)中,分别计算蛋白内交联情形下的n肽交联假发现率和蛋白间交联情形下的n肽交联假发现率。

3.根据权利要求2所述的假发现率控制方法,其特征在于,所述步骤1a)中,如果一个鉴定结果的n肽交联的n条肽段分别来自于同一个蛋白质,那么判断该鉴定结果属于蛋白内交联;反之,判断该鉴定结果属于蛋白间交联。

4.根据权利要求3所述的假发现率控制方法,其特征在于,所述步骤1a)中,对于一个鉴定结果,采用AC自动机算法推断该鉴定结果的每条肽段所属的一个或多个蛋白质,如果至少有一个蛋白质是鉴定结果中的n条肽段共有的,那么就判断该鉴定结果属于蛋白内交联;如果没有任何一个蛋白质是该鉴定结果中的n条肽段共有的,那么就判断该鉴定结果属于蛋白间交联。

5.根据权利要求1所述的假发现率控制方法,其特征在于,所述步骤1)中,所述存储了单条肽段结构的数据库的构建方法包括下列子步骤:

11)构建单肽目标库,基于所述单肽目标库构建单肽诱饵库;

12)将单肽目标库和单肽诱饵库合并构成所述存储了单条肽段结构的数据库。

6.根据权利要求5所述的假发现率控制方法,其特征在于,所述步骤11)中,所述单肽诱饵库是将单肽目标库中的蛋白序列反转,由反转后的蛋白序列所组成的数据库。

7.根据权利要求1所述的假发现率控制方法,其特征在于,所述假发现率控制方法还包括步骤:

4)根据n肽交联的假发现率调整所述肽段匹配模型的打分阈值。

8.根据权利要求2所述的假发现率控制方法,其特征在于,所述假发现率控制方法还包括步骤:

4)根据蛋白内交联情况下的n肽交联的假发现率对蛋白内交联的鉴定结果进行过滤,向用户输出假发现率小于预设的假发现率阈值的蛋白内交联的鉴定结果;根据蛋白间交联情况下的n肽交联的假发现率对蛋白间交联的鉴定结果进行过滤,向用户输出假发现率小于预设的假发现率阈值的蛋白间交联的鉴定结果。

9.根据权利要求1所述的假发现率控制方法,其特征在于,所述肽段匹配模型为单肽匹配模型或二肽交联匹配模型。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1