谱图相似度的计算方法与流程

文档序号:11143353阅读:3720来源:国知局
谱图相似度的计算方法与制造工艺

本发明涉及谱图,特别涉及谱图相似度的计算方法。



背景技术:

谱图的匹配比对在生物医学、化学、物理学等领域中有着广泛的应用。

在血液细菌感染(菌血症)的细菌鉴定工作中,由于患者的临床表现不典型,给感染的诊断带来困难。目前,临床上菌血症诊断的金标准是血液细菌培养法,但血液培养的阳性率极低从而导致延误治疗。相比之下,质谱谱图法准确度高、稳定性好、操作简单,易于临床推广。从1990年代起,基质辅助激光解析电离源飞行时间质谱(MALDI-TOF-MS)被用于细菌鉴定[R.D.Holland,J.G.Wilkes,F.Rafii,J.B.Sutherland,C.C.Persons,K.J.Voorhees,J.O.Lay,Rapid Communications in Mass Spectrometry 1996,10,1227-1232;M.A.Claydon,S.N.Davey,V.EdwardsJones,D.B.Gordon,Nature Biotechnology 1996,14,1584-1586.]。通过分析不同的细菌,科学家发现从完整的细菌细胞中可以得到具有指纹特征性的质谱图。通过记录多种单一纯细菌的指纹质谱图可以构建细菌鉴定所需的生物特征数据库。之后通过比对临床样本中采集的细菌的MALDI-TOF-MS指纹质谱图,可以实现细菌种类的鉴定[A.Croxatto,G.Prod'hom,G.Greub,Fems Microbiology Reviews 2012,36,380-407;T.R.Sandrin,J.E.Goldstein,S.Schumaker,Mass Spectrometry Reviews 2013,32,188-217.]。

谱图匹配也广泛用于蛋白质测序工作。肽段质量指纹谱图(peptide mass fingerprint)匹配法用于蛋白酶解产物的质谱分析,根据数据库中已有蛋白的序列及酶解反应特征可以生成单个蛋白的理论肽段列表暨理论标准谱图,通过比对实验谱图可以实现未知蛋白的鉴定。[Webster J,Oxley D,Methods Mol Biol 2005,310,227-240.]蛋白质组学中常使用的“鸟枪法”(shotgun)也是依赖于质谱图的匹配完成的,如基于二级碎片质谱图的肽谱匹配打分和蛋白质鉴定。[Fernández-Puente P,Mateos J,Blanco FJ,Ruiz-Romero C,Methods Mol Biol 2014,1156,27-38.]质谱匹配已经成为当今蛋白质鉴定中至关重要的技术手段。

基于谱学方法的检测、鉴定中最为关键的一步是实验样本和标准样本的谱图匹配。近年来发展了多种用于谱图匹配的打分方法。Seongho Kim和Xiang Zhang研究了质谱图相似性打分的夹角余弦法、皮尔森和斯皮尔曼相关系数法、偏相关与部分相关系数法。[S.Kim,X.Zhang,Computational&Mathematical Methods in Medicine 2013,9,399-412]但是现有谱图相似度打分方法灵敏度不高,导致谱图鉴定的可靠性不足。



技术实现要素:

本发明为了克服现有技术的至少一个不足,提供一种谱图相似度的计算方法,以实现鉴定可靠性高的目的。

为了实现上述目的,本发明采用以下技术方案:

一种谱图相似度的计算方法,所述方法包括以下步骤:

一种谱图相似度算法,它包括以下步骤:

(1)预处理。根据实验谱图得到峰列表,这些峰列表均包含峰值质核比x、强度y和半峰宽信息fwhm。随后对峰强度进行归一化处理,方法是将峰值表中的强度列同时除以该列表中峰值强度的最大值并乘以100。将处理好的数据用于下一步的谱图匹配打分。

(2)取共峰。针对实验谱图的峰列表,在与参考谱图进行比对时将在实验谱图的峰的半峰宽范围内的参考谱图的峰作为共峰。我们引入表示实验谱图i和参考谱图j取l=lij个共峰后实验谱图i中共峰对应的峰值质荷比构成的向量,表示实验谱图i和参考谱图j取l=lij个共峰后实验谱图i中共峰的峰值强度构成的向量。

(3)任选下列两种基于欧氏距离公式中的一种进行相似度打分。相似度打分的详细过程如下:

(a)相对欧氏距离法。实验谱图i与参考谱图j的一对共峰之间的欧式距离定义为两共峰的质荷比差值和峰值强度差值的平方和的平方根

对该距离进行相对化处理并对没有匹配为共峰的我们称之为“罚峰”的峰引入“罚分”机制。相对化处理要求以该组共峰的最大可能欧式距离为除数,该最大可能欧式距离当且仅当共峰中的一支峰强趋近于0,同时两个峰的质荷比差值趋向于fwhmi/2时得到

因此得到该对共峰的相对欧式距离

“罚分”机制旨在突出显示没有匹配的“罚峰”对分值的拉低作用,在相对欧式距离法和强度加权相对欧式距离法中,由于罚峰处的欧式距离即为该组罚峰的最大可能欧式距离,因此该罚峰处的相对欧式距离为1,即对“罚峰”的罚分。经过适当变换调整后的公式为:

式中,ni为实验谱图i中的峰个数,nj为参考谱图j中的峰个数。

(b)强度加权相对欧式距离法。该方法是通过求谱图i和谱图j的共峰的强度加权相对欧式距离并且引入对未匹配为共峰的“罚峰”的惩罚分数实现的,该公式中的权重系数为第k组共峰的峰强和占所有峰强度和的比例,公式为

Eu和iEu为两种独立的谱图相似性计算方法,匹配得到的分数在0到1之间,得分越接近1表示相似度越高,也即峰值之间的相对欧式距离越小。

与现有技术相比,本发明具有以下优点:

本发明是一种综合评价样品谱图与标准谱图相似度的方法,既能反映待评价样品谱图与标准谱图之间共峰的相似性,也考虑了非共峰数目及其大小对相似度评价的影响,能整体反映谱图之间的相似程度,该相似度的大小能够灵敏地表达样品谱图与标准谱图的定性和定量差异,可靠地鉴定待评价样品。

本发明中,通过基于欧式距离公式的相似度大小表征待评价样品与标准样品间的一致性,相似度越大表示它们的一致性越好;相似度越小,表示它们的差异越大。应用时,可通过经验或有效性试验确定相似度阈值,凡待评价样品相似度大于阈值的表示一致性好;根据相似度的大小也可用于样品的分类。

为让本发明的上述和其它目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合附图,作详细说明如下。

附图说明

图1为实验谱图与参考谱图一对共峰间的欧式距离euk,最大可能欧式距离eumk,以及相对欧式距离Euk的示意图。

具体实施方式

下面结合实施例对本发明作进一步的说明。

以Basillus subtilis ATCC 6633细菌的实验谱图为例,我们根据上述公式利用R语言和C语言构建了细菌质谱图分析程序,上传1张实验谱图后算法程序会将其与数据库中所有的参考谱图逐一进行相似性比对,并根据Eu和iEu分值大小排序给出数据库检索结果。

表1是该样品基于相对欧式距离法的数据库检索结果,按照相似性得分从高到低列出数据库中与实验谱图相似性最高的五张参考谱图对应的菌株名称及相应的相似性得分。

表2是该样品基于强度加权相对欧式距离法的数据库检索结果,按照相似性得分从高到低列出数据库中与实验谱图相似性最高的五张参考谱图对应的菌株名称及相应的相似性得分。

表1 是样品基于相对欧式距离法的数据库检索结果。

表2 是样品基于强度加权相对欧式距离法的数据库检索结果。

虽然本发明已由较佳实施例揭露如上,然而并非用以限定本发明,任何熟知此技艺者,在不脱离本发明的精神和范围内,可作些许的更动与润饰,因此本发明的保护范围当视权利要求书所要求保护的范围为准。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1