从头测序方法及装置与流程

文档序号:12452405阅读:388来源:国知局
从头测序方法及装置与流程

本发明属于生物信息学,尤其涉及从头测序肽段的鉴定。



背景技术:

蛋白质组学在最近十多年得到快速的发展,研究人员使用质谱技术用来分析生物样品时,肽段和蛋白质鉴定方法学已经成为非常关键的环节。目前,基于串联质谱数据的肽段鉴定方法主要分两类:数据库搜索方法和从头测序方法。数据库搜索方法针对每个谱图从数据库中查找所有候选肽段进行匹配打分。但如果正确肽段不在数据库中,比如新物种或者基因组未测序物种,则通常采用从头测序方法。从头测序方法不依赖于数据库,直接从谱图中获取肽段序列。

但是相比数据库搜索方法,从头测序方法候选肽段数量大,鉴定速度慢。通常,从头测序方法的候选肽段数量要比数据库搜索方法的候选肽段数量大15个量级。而且随着质谱仪精度越来越高,突变以及意外修饰成为未解析谱图的关键因素。目前大约已有上千种意外修饰。如果从头测序算法要支持这上千种意外修饰的发现,那么其所要处理的候选肽段数量至少会在现有基础上再增加两个数量级,这无疑又会大大地降低肽段鉴定速度。而且在考虑上千种意外修饰后,候选肽段之间的序列相似度非常接近甚至元素组成完全一致,很难区分相似肽段序列。



技术实现要素:

因此,本发明的目的在于克服上述现有技术的缺陷,提供一种新的从头测序方法。

本发明的目的是通过以下技术方案实现的:

一方面,本发明提供了一种从头测序方法,包括:

将待解析的谱图转化为质谱连接图,其中所述谱图中每根谱峰被转化为所述质谱连接图的节点,在所述质谱连接图中如果两两节点之间的质量差为氨基酸质量或普通修饰质量,则这两个节点之间连接有普通边,该普通边的打分基于质量大的节点对应的谱峰的强度来确定,如果两两节点之间的质量差为意外修饰质量,则这两个节点之间连接有修饰边,该修饰边的打分基于质量大的节点对应的谱峰的强度来确定;

统计所述质谱连接图中各条路径的得分,提取路径得分高的前若干条普通路径和修饰路径作为候选肽段,其中,所述普通路径为仅由普通边组的路径,所述修改路径为由普通边和修饰边组成的路径且其中仅包含一条修饰边;

对于每个候选肽段进行肽谱匹配打分,取肽谱匹配打分最高的候选肽段作为所述谱图对应的肽段。

又一方面,本发明提供了一种从头测序方法,包括:

将待解析的谱图转化为质谱连接图,其中所述谱图中每根谱峰被转化为所述质谱连接图的节点,在所述质谱连接图中如果两两节点之间的质量差为氨基酸质量或普通修饰质量,则这两个节点之间连接有普通边,该普通边的打分基于质量大的节点对应的谱峰的强度来确定,如果两两节点之间的质量差为意外修饰质量,则这两个节点之间连接有修饰边,该修饰边的打分基于质量大的节点对应的谱峰的强度来确定;

统计所述质谱连接图中各条路径的得分,提取路径得分高的前若干条普通路径和修饰路径作为候选肽段,并记录各候选肽段的路径排名,其中,所述普通路径为仅由普通边组的路径,所述修改路径为由普通边和修饰边组成的路径且其中仅包含一条修饰边;

对于每个候选肽段进行肽谱匹配打分;

将每个候选肽段的肽谱匹配打分、路径排名及该候选肽段的修饰丰度作为特征提供给预先训练好的排序分类器来给该候选肽段进行打分,取得分最高的候选肽段作为所述谱图对应的肽段。

在上述方法中,两个节点之间普通边的打分可以为质量大的节点对应的谱峰的强度取以自然数为底的对数,两个节点之间修饰边的打分可以为质量大的节点对应的谱峰的强度取以自然数为底的对数。

在上述方法中,两个节点之间的修饰边的打分可以为质量大的节点对应的谱峰的强度乘以该修饰边对应的意外修饰的丰度,其中该意外修饰的丰度为该修饰边连接的两个节点之间相差的意外修饰质量对应的意外修饰可能出现的概率或频度。

在上述方法中,修饰边对应的意外修饰的丰度可以等于在该修饰边连接的两个节点之间相差的意外修饰质量在所述质谱连接图的所有节点之间出现的次数除以所述质谱连接图中修饰边的总数。

在上述方法中,其中意外修饰的丰度可以是预先设定的。

在上述方法中,还可包括通过下面的方式来设定每种意外修饰的丰度:

随机提取多个现有谱图,统计其中每种意外修饰出现的次数;

将每种意外修饰在所述多个谱图中出现的次数与所有意外修饰在所述谱图中出现次数总和的比值作为该种意外修饰的丰度。

在上述方法中,可将所述谱图中每根谱峰转化成质谱连接图中的两个节点,其中一个节点对应b离子,另一个节点对应y离子。

在上述方法中,对于每根谱峰,对应b离子的节点质量为该谱峰质量减去1,对应y离子的节点质量为所述谱图中母离子的质量减去该谱峰质量和1个水分子质量。

在上述方法中,对于每个候选肽段,如果该候选肽段来自普通路径,则其修饰丰度为1;如果该候选肽段来自修饰路径,则其修饰丰度为该修饰路径中修饰边对应的意外修饰的丰度。

在上述方法中,所述排序分类器可以是以一组已知其对应肽段和修饰的谱图为样本集,以从各样本提取的肽段的肽谱匹配打分、路径排名和修饰丰度为特征来训练的。

另一方面,本发明提供了一种从头测序装置,包括:

转化单元,用于将待解析的谱图转化为质谱连接图,其中所述谱图中每根谱峰被转化为所述质谱连接图的节点,在所述质谱连接图中如果两两节点之间的质量差为氨基酸质量或普通修饰质量,则这两个节点之间连接有普通边,该普通边的打分基于质量大的节点对应的谱峰的强度来确定,如果两两节点之间的质量差为意外修饰质量,则这两个节点之间连接有修饰边,该修饰边的打分基于质量大的节点对应的谱峰的强度来确定;

路径提取单元,用于统计所述质谱连接图中各条路径的得分,提取路径得分高的前若干条普通路径和修饰路径作为候选肽段,其中,所述普通路径为仅由普通边组的路径,所述修改路径为由普通边和修饰边组成的路径且其中仅包含一条修饰边;

匹配打分单元,用于对于每个候选肽段进行肽谱匹配打分,取肽谱匹配打分最高的候选肽段作为所述谱图对应的肽段。

与现有技术相比,本发明的优点在于:

可以支持上千种意外修饰的发现,而且不会对肽段鉴定的速度有较大影响。另外,还可以更细粒度地区分相似肽段序列,改善了肽段鉴定的准确率。

附图说明

以下参照附图对本发明实施例作进一步说明,其中:

图1为根据本发明一个实施例的从头测序方法的流程示意图;

图2为根据本发明另一个实施例的从头测序方法的流程示意图;

图3a)、3b)和3c)为根据本发明一个实施例的示例谱图及质谱连接图的示意图;

图4为根据本发明一个实施例的候选肽段的路径得分结果示意图;

图5为根据本发明一个实施例的候选肽段打分情况示意图。

具体实施方式

为了使本发明的目的,技术方案及优点更加清楚明白,以下结合附图通过具体实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。

图1给出了根据本发明一个实施例的从头测序方法的流程示意。该方法主要包括将谱图转化为质谱连接图(步骤101);统计该质谱连接图的各条路径的得分,依路径得分排序取前若干条普通路径和修饰路径作为候选肽段(步骤102);以及基于候选肽段进行肽谱匹配打分(步骤103)。优选地,在执行上述步骤之前,可以对收到的谱图进行预处理,以尽可能地从谱图中去除噪声和杂质。例如,对谱图去卷积、去掉谱图中的母离子峰和母离子失水、失氨峰等。

更具体地,在一个实施例中,对于谱图的预处理包括:首先,根据两两谱峰质量差确定同位素峰簇,如果一些谱峰集合中两两谱峰质量差为(注:Da是用来衡量原子或分子质量的单位,也可称为Dalton或道尔顿,n=1,2,…,c,c为谱图中母离子电荷量),则将这些谱峰集合认为是同位素峰簇,在同位素峰簇内的谱峰电荷一致。接着,根据同位素峰簇中两两峰的质量差,判断同位素峰簇的电荷,例如,如果质量差约为则同位素峰簇中的所有谱峰均为+n电荷。然后根据同位素峰簇中的电荷量,将单同位素峰(指同位素峰簇中质量最小的那根谱峰)转化为单电荷质量,转化的公式为原始谱峰的质量乘以电荷量,去掉同位素峰簇中的除单同位素峰外的其它谱峰。通常基于谱图可以得到该谱图母离子质量、电荷、保留时间以及该谱图中所有的谱峰的质量、质荷比和强度等信息。

现参考图1,在步骤101,将谱图中的每根谱峰转化为质谱连接图中的节点,将这些节点互相连接构成质谱连接图。其中如果两根谱峰之间的质量差为氨基酸质量或者普通修饰质量,则在质谱连接图中,连接这两根谱峰对应的节点的边为普通边,该普通边的打分为质量大的那根谱峰的强度。在生物信息学领域,每种氨基酸、普通修饰和意外修修饰都有特定的质量,所有修饰名及其质量信息可以参见Unimod(网址:http://www.unimod.org/),里面给出每个氨基酸及修饰的精确质量。如果两根谱峰之间的质量差为意外修饰质量,则在质谱连接图中,连接这两根谱峰对应的节点的边为修饰边。在一个实施例中,该修饰边的打分可以为质量大的那根谱峰的强度。在又一个实施例中,该修饰边的打分可以为质量大的那根谱峰的强度乘以该修饰边对应的意外修饰的丰度。某个修饰边对应的意外修饰的丰度指的是该修饰边连接的两个节点之间相差的意外修饰质量对应的意外修饰可能出现的概率或频度。意外修饰的丰度可以是提前设定的,也可以是针对相应谱图经实时统计相关数据而动态设定的。在一个示例中,修饰边对应的意外修饰的丰度等于在该修饰边连接的两个节点之间相差的意外修饰质量在质谱连接图的所有节点之间出现的次数除以该质谱连接图中修饰边的总数。在其他实施例中,某个意外修饰质量对应的意外修饰的丰度也可以通过下列方式来预先设定。例如,使用数据库搜索软件或者其它从头测序软件对当前谱图进行鉴定,鉴定到某种意外修饰的数目除以鉴定到所有意外修饰的数目,作为该意外修饰的丰度。又例如,在现有的已知肽段和意外修饰的谱图中随机抽取10%-20%的谱图,将所统计的某种意外修饰在这些谱图中出现的次数与所有意外修饰在这些谱图中出现次数的比值,作为该意外修饰的丰度。这里,对于修饰边的打分,通过乘以丰度值可以增加高丰度意外修饰与低丰度意外修饰的区分度。

在又一个实施例中,基于谱图构建质谱连接图包括下列步骤:

1)将每根谱峰转化对应的节点。通常可以将每根谱峰转化为两个节点,其中一个节点对应的离子类型为b离子,另一个节点对应的离子类型为y离子。假设谱图母离子质量为M,某根谱峰的质量为m,则这根峰所转化的对应b离子的节点的质量为m-1;对应y离子的节点的质量为M-m-H2O(其中H2O表示水分子的质量,约18Da)。每个节点的打分可以设置为对应谱峰的强度,或者也可以设置为对应谱峰的强度取以自然数为底的对数。

2)计算两两节点的质量差,如果两个节点之间质量差为某个氨基酸的质量或者某个普通修饰的质量,则连接这两个节点的边为普通边,普通边的打分为质量大的节点的打分;如果两个节点之间质量差为某个意外修饰的质量,则连接这两个节点的边为修饰边,修饰边的打分可以为质量大的节点的打分。优选地,将修饰边的打分设置为质量大的节点的打分乘以意外修饰的丰度。

3)增加起点和终点,其质量分别为0和M-H2O-1,打分均为0。

继续参考图1,在步骤102,统计所构建的质谱连接图中各条路径的得分。在该实施例中,将质谱连接图中的路径分为普通路径和修饰路径。其中普通路径指的是仅由普通边组成的路径,其中不包括任何修饰边。修饰路径指的是由普通边和修饰边构成的路径,但其中有且仅有一条修饰边。在一个示例中,可以通过动态规划方法来计算各条路径的得分,例如可使用如下的动态规划公式:

其中di(v)和di′(v)分别为到达节点v的第i条普通路径和修饰路径对应的打分。和分别为到达节点u的第j条普通路径和修改路径对应的打分,到达节点u的第j条普通路径的打分。u∈InvE1(v)表示v的所有普通前驱节点,即该集合中任一节点u与v之间的边(u,v)是普通边,u∈InvE2(v)表示v的所有修饰前驱节点,即该集合中任一节点u与v之间的边(u,v)是修饰边,w(u,v)表示边(u,v)的打分。

在优选的实施例中,可通过下面的方式来计算各条路径的打分情况:按照节点的质量顺序,从起点开始,对于每个节点,计算从起点到该节点的每条普通路径和修饰路径的打分,按路径打分从大到小排序,保留从起点到该节点的前k条普通路径和前k条修饰路径。例如,最开始先计算起点,然后计算除起点外质量最小的节点,这样保证计算的节点顺序按照拓扑排序的顺序。对于每个节点v,如果在该节点与其某个前驱节点u之间的边(u,v)为普通边,那么将前驱节点u的前k条普通路径和前k条修饰路径分别加上边(u,v),组成的新路径集合分别作为经前驱节点u到达节点v的前k条普通路径和前k条修饰路径。当然由于v的普通前驱节点一般大于一个,所以将所有普通前驱节点的路径均考虑进去,然后按路径打分从大到小排序,保留前k条普通路径和前k条修饰路径。如果边(u,v)为修饰边,那么将前驱节点u的前k条普通路径加上边(u,v),组成的新路径集合作为经前驱节点u到达节点v的前k条修饰路径。同样,由于v的普通前驱节点一般大于一个,将所有普通前驱节点的修饰路径和所有修饰前驱节点的普通路径均考虑进去,按路径打分从大到小排序,保留前k条修饰路径。最后得到的终点的前k条普通路径和前k条修饰路径即为候选肽段。这里,k为自然数,可以根据实际需求来设置,例如可从[100,200]之间取k的值,例如可选择k为150左右的自然数。

在得到候选肽段之后,在步骤103,对所有的候选肽段进行肽谱匹配打分并排序。首先基于每个候选肽段生成对应的理论谱图。例如考虑1价、2价的b、y离子,中性丢失离子,内部离子以及亚胺离子,计算这些离子的质量,在理论谱图的对应位置生成谱峰,谱峰的强度值可以随意,因为在后续肽谱匹配打分时不考虑所生成的理论谱图中的强度信息。接着,将每个候选肽段的理论谱图与在步骤101收到的原始谱图进行匹配以对该候选肽段进行打分。例如,对于候选肽段的理论谱图中的每根谱峰I,假设其质量为m,在原始谱图中质量为[m-Δm,m+Δm](其中,Δm表示质量误差)范围内查找是否存在谱峰,如果存在,则将这个范围内的最高峰的强度作为该谱峰I的打分,最后,对该候选肽段的理论谱图中所有谱峰的打分求和,可得到该候选肽段对应的肽谱匹配打分。这样,通常可以选择肽谱匹配打分最高的候选肽段作为最终为谱图鉴定的肽段。

图2给出了根据本发明又一个实施例的从头测序方法的流程示意。该方法包括将谱图转化为质谱连接图(步骤201,与上述步骤101相同);统计该质谱连接图的各条路径的得分,依路径得分排序取前若干条普通路径和修饰路径作为候选肽段并记录各候选肽段的路径排名(步骤202,除了记录路径排名之外,具体可参见上述步骤102);以及基于候选肽段进行肽谱匹配打分(步骤203,具体可参见上述步骤103)。在通过上述的步骤得到了各候选肽段的肽谱匹配打分及各候选肽段对应的路径排名之后,该方法还包括对所得到的各肽段进行更细粒度的打分(步骤204),以更准确地鉴定和识别肽段序列和意外修饰。

下面结合图3-5对图2示出的方法的过程进行更详细的介绍。在步骤201,将谱图转化为质谱连接图。图3给出了一个示例的谱图及对应质谱连接图。其中图3a)右上角给出了已知的肽段ANHVR(其中氨基酸H以加粗并斜体表示,表示已知氨基酸H发生了意外修饰,这个例子为Methyl修饰),这里利用已知肽段的谱图进行试验,主要是为了验证本实施例的方法的有效性。图3a)为该肽段对应的谱图,为了便于描述,仅显示了8根谱峰以及部分节点,其中b2、b3、b4分别指示谱峰对应的是第2个、第3个、第4个b离子(出于简化以方便描述的目的,y离子节点未示出),其余谱峰代表某些噪声。在步骤201首先将每根谱峰转化对应的节点,加上起点和终点。如图3b)和3c)示出了部分节点(为了简化说明,对于图3a)中每根峰只显示了一个节点),包括节点0(起点)至节点9(终点)共10个节点,如上文介绍的,依据每根谱峰的质量来确定其对应节点的质量。每个节点的打分为对应谱峰的强度取以自然数为底的对数。接着计算两两节点的质量差,如果质量差为某个氨基酸的质量或者某个普通修饰的质量,则连接这两个节点的边为普通边,如果质量差为某个意外修饰的质量,则连接这两个节点的边为修饰边。如图3b)所示,节点0和节点2之间的质量差对应氨基酸G的质量,因此节点0和2之间可以连接有普通边。同理,节点2和节点3之间的质量差对应的可能是氨基酸Q或AG或GA的质量,因此,节点2和节点3之间可以连接有普通边。节点3和节点5之间的质量差对应的可能是氨基酸H上发生了Methyl修饰,记为Met[H],因此节点3和节点5之间可以连接有修饰边,其他以此类推,其中虚线指示修饰边,实线指示普通边。然后,分别给普通边和修饰边打分。普通边的打分为质量大的节点的打分;修饰边的打分为质量大的节点的打分乘以相应意外修饰质量对应的丰度。所构建的质谱连接图如图3c)所示,其中例如节点3和节点5之间修饰边的打分26是质量大的节点3的打分乘以意外修饰Methyl的丰度得到的。

接着,在步骤202,采用上文结合步骤102介绍的动态规划方法统计所构建的质谱连接图中从起点至终点的所有普通路径和修饰路径的得分情况。其结果如图4所示,普通路径对应的是候选的普通肽段,而修饰路径对应的是候选的修饰肽段。以路径得分从高到低排序各个候选肽段。在一个示例中,可以将普通路径和候选路径一起进行排序,取得分高的前N条路径对应的肽段,作为候选肽段并记录该候选肽段的路径排名。在另一个示例中,可以将普通路径和候选路径分别排序,分别取前k条普通路径和前k条修饰路径对应的肽段作为候选肽段,以及记录每个候选肽段的路径排名。路径得分越高,则路径排名次序越靠前。如上文提到的k优选可以取在150左右的值,而相应地,N可以取300附加的值。

在步骤203,对于每个候选肽段生成理论谱图,然后将该理论谱图与图3a)所示的原始谱图进行匹配,从而得到该候选肽段的肽谱匹配打分(具体可参见上文对步骤103的介绍)。

在步骤204,对于在步骤202得到的每个候选肽段,将其对应的肽谱匹配打分、路径排名和修饰丰度提供给训练好的分类器对其进行打分,从而得到该候选肽段对应的分值,选择分值最高的候选肽段作为对于当前谱图鉴定的肽段。对于每个候选肽段,如果该候选肽段来自普通路径,则其修饰丰度为1;如果该候选肽段来自修饰路径,则其修饰丰度为该修饰路径中修饰边对应的意外修饰的丰度。关于修饰边对应的意外修饰的丰度的计算方法在上文中已经有过介绍。

其中分类器是以肽段的肽谱匹配打分、路径排名、修饰丰度为特征训练的排序分类器。该排序分类器可以是提前训练好的。例如首先通过下面方法来构建用于训练排序分类器的样本集:对于一组已知其对应肽段和意外修饰的谱图,使用现有的从头测序方法或数据库搜索方法或者上述的步骤对每个谱图进行鉴定,如果为某个谱图鉴定的肽段序列与该谱图对应肽段一致,则标记为正样本,否则标记为负样本。接着,对于每个样本提取特征:肽谱匹配打分、路径排名和修饰丰度。其中,肽谱匹配打分和路径排名可以通过本申请中介绍的上述步骤得到,而每个样本中每种意外修饰对应的修饰丰度的计算方法在上文中已经有过介绍。例如,随机提取多个现有谱图,统计其中每种意外修饰出现的次数;将每种意外修饰在所述多个谱图中出现的次数与所有意外修饰在所述谱图中出现次数总和的比值作为该种意外修饰的丰度。又例如,对于每个样本肽段,可以将该肽段中所含各种修饰在该肽段中出现的次数与所有修饰出现的总次数的比值作为相应修饰对应的修饰丰度,一般是0~1的浮点数。不含修饰的样本肽段,其所提取的修饰丰度特征为1。对候选肽段的肽谱匹配打分越高结果越可信;修饰丰度这个特征越大,结果越可信;路径排名越小(相当于路径得分越高),结果越可信。

然后,基于得到的样本集,利用机器学习的方法训练排序分类器,该排序分类器用于计算每个肽段对应的打分。在一个示例中,例如采用RankBoost方法,其分类器模型为其中n为特征数目(这里为3),si为第i个特征值,fi为第i个特征函数,其为单调递增函数,其具体参数通过训练过程得到。该分类器可以很好的识别正负样本间的差异情况,根据这个差异来有效的区分正确和错误结果。在其他实施例中,也可以使用SVM Rank,RankNet,FRank等作为分类器模型来进行训练。

回到图2,在步骤204,将每个候选肽段对应的肽谱匹配打分、路径排名和修饰丰度提供给训练好的分类器对其进行打分。图5示出了对于图3c)所示的候选肽段最终的打分结果。从图5可以看出,最高得分58.1对应的肽段为ANHVR,可见,通过上述步骤鉴定的肽段正是图3a)所示谱图对应的肽段。

虽然本发明已经通过优选实施例进行了描述,然而本发明并非局限于这里所描述的实施例,在不脱离本发明范围的情况下还包括所做出的各种改变以及变化。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1