基于自助抽样法的谱图搜库结果统计验证方法与流程

文档序号:13934781阅读:502来源:国知局

本发明涉及一种用于谱图搜库匹配结果的统计验证方法。



背景技术:

谱图的匹配比对在生物医学、化学、物理学等领域中有着广泛的应用。

在血液细菌感染(菌血症)的细菌鉴定工作中,由于患者的临床表现不典型,给感染的诊断带来困难。目前,临床上菌血症诊断的金标准是血液细菌培养法,但血液培养的阳性率极低从而导致延误治疗。相比之下,质谱谱图法准确度高、稳定性好、操作简单,易于临床推广。从1990年代起,基质辅助激光解析电离源飞行时间质谱(maldi-tof-ms)被用于细菌鉴定[r.d.holland,j.g.wilkes,f.rafii,j.b.sutherland,c.c.persons,k.j.voorhees,j.o.lay,rapidcommunicationsinmassspectrometry1996,10,1227-1232;m.a.claydon,s.n.davey,v.edwardsjones,d.b.gordon,naturebiotechnology1996,14,1584-1586.]。通过分析不同的细菌,科学家发现从完整的细菌细胞中可以得到具有指纹特征性的质谱图。通过记录多种单一纯细菌的指纹质谱图可以构建细菌鉴定所需的生物特征数据库。之后通过比对临床样本中采集的细菌的maldi-tof-ms指纹质谱图,可以实现细菌种类的鉴定[a.croxatto,g.prod'hom,g.greub,femsmicrobiologyreviews2012,36,380-407;t.r.sandrin,j.e.goldstein,s.schumaker,massspectrometryreviews2013,32,188-217.]

谱图匹配也广泛用于蛋白质测序工作。肽段质量指纹谱图(peptidemassfingerprint)匹配法用于蛋白酶解产物的质谱分析,根据数据库中已有蛋白的序列及酶解反应特征可以生成单个蛋白的理论肽段列表暨理论标准谱图,通过比对实验谱图可以实现未知蛋白的鉴定。[websterj,oxleyd,methodsmolbiol2005,310,227-240.]蛋白质组学中常使用的“鸟枪法”(shotgun)也是依赖于质谱图的匹配完成的,如基于二级碎片质谱图的肽谱匹配打分和蛋白质鉴定。[fernández-puentep,mateosj,blancofj,ruiz-romeroc,methodsmolbiol2014,1156,27-38.]质谱匹配已经成为当今蛋白质鉴定中至关重要的技术手段。

基于谱学方法的检测、鉴定中最为关键的一步是实验样本和参考样本的谱图匹配。近年来发展了多种用于谱图匹配的打分方法。seonghokim和xiangzhang研究了质谱图相似性打分的夹角余弦法、皮尔森和斯皮尔曼相关系数法、偏相关与部分相关系数法。[s.kim,x.zhang,computational&mathematicalmethodsinmedicine2013,9,399-412]

然而传统的谱图匹配方法往往基于最优的谱图相似性计算结果,及一个给定的分值阈值,缺乏统计验证。譬如,在临床微生物鉴定普遍使用的质谱法中,bruker公司提供的商业解决方案biotyper软件以2.0的相似度分值为鉴定阈值,然而该阈值的合理性有待考量。[schulthess,b.;bloemberg,g.v.;zbinden,r.;bottger,e.c.;hombach,m.j.clin.microbiol.2014,52,1089-1097.]



技术实现要素:

本发明针对现有的谱图匹配方法缺乏统计验证的问题,旨在建立一种基于自助抽样法的谱图搜库结果统计验证方法,以反映鉴定结果可信度的统计分值替代相似度分值作为准确鉴定的标准。

本发明的技术方案是:

一种基于自助抽样法的谱图搜库结果统计验证方法,它包括以下步骤:

(1)利用自助抽样法模拟生成一系列谱图。

对于一张包含n个谱峰的样品谱图,有放回的随机抽取n次,每次抽取1个谱峰;将抽取的n个谱峰组成一张新谱图;反复进行抽取,得到大量(≥100)新谱图。

(2)计算反映样品搜库结果可信度的统计分值(conf)。

将样品谱图进行搜库得到匹配结果a;将利用自助抽样法生成的一系列谱图分别进行搜库,得到一系列匹配结果x;计算x中a所占的比例,即为conf值。

本发明的有益效果:

本发明是一种综合评价样品谱图搜库匹配结果的统计验证方法,以统计分值反映样品搜库结果可信度,提高了谱图搜库匹配结果的可靠性。

本发明中,通过conf值大小表征待评价样品搜库匹配结果的可靠性;conf值越大,表示搜库结果的可靠性越好;conf值越小,表示搜库结果可靠性可能得不到保证。应用时,可通过预先试验确定可靠搜库结果conf值的阈值,通过conf值和设定的阈值的比较,表征待评价样品搜库匹配结果的可靠性。如果待评价样品搜库结果conf值大于阈值,表示搜库结果的可靠性得到保证;反之,表示搜库结果不可靠。

附图说明

图1为本发明的基于自助抽样法的谱图搜库结果统计验证方法的流程示意图。

具体实施方式

为让本发明的上述和其它目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合附图,作详细说明如下。

图1为本发明的基于自助抽样法的谱图搜库结果统计验证方法的流程示意图。

图1中的2、3和4表示模拟谱图中的每个谱峰被抽中的次数。如图1所示,本发明基于自助抽样法的谱图搜库结果统计验证方法,它包括以下步骤:

(1)利用自助抽样法模拟生成一系列谱图。

对于一张包含n个谱峰的样品谱图,有放回的随机抽取n次,每次抽取1个谱峰;将抽取的n个谱峰组成一张新谱图;反复进行抽取,得到大量(≥100)新谱图。

(2)计算反映样品搜库结果可信度的统计分值(conf)。

将样品谱图进行搜库得到匹配结果a;将利用自助抽样法生成的一系列谱图分别进行搜库,得到一系列匹配结果x;计算x中a所占的比例,即为conf值。

实施例

以bacilluscereusatcc10987(以下简称bc1)和bacilluscereusatcc4342(以下简称bc2)细菌的实验谱图为例,采用普通的余弦相关系数进行搜库,bc1到种一级的最佳匹配结果是bacilluscereus,相似度得分为0.96;bc2的最佳匹配结果为bacillusthuringiensis,相似度得分为0.97。

表1是bc1的谱峰列表。利用自助抽样法生成模拟谱图。表2是一张模拟谱图的例子。

表1:bc1的谱峰列表

表2:bc1的一张模拟谱图的谱峰列表

生成100张模拟谱图,利用[0013]-[0014]所述的方法计算conf值,其中有77张模拟谱图搜库的最佳匹配结果是bacilluscereus,故bc1最佳匹配结果的conf值为0.77。

对bc2谱图以同法处理,计算最佳匹配结果的conf值为0.3,较低的conf值表示bc2的鉴定结果很可能是一个鉴定错误。

表3:利用余弦相关系数作为相似度的匹配结果、相似度分值及统计分值。

对bc2搜库的每一个候选匹配项计算conf值,以conf值最高的候选匹配项作为最佳匹配结果,bc2被正确鉴定为bacilluscereus,conf值为0.64。

表4:利用余弦相关系数作为相似度、基于统计分值的匹配结果。

以上所述是本发明的优选实施方式,应当指出,对于本技术邻域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本制备方法的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1