一种飞行时间质谱峰检测方法与流程

文档序号:30135787发布日期:2022-05-21 01:02阅读:534来源:国知局
一种飞行时间质谱峰检测方法与流程

1.本发明属于质谱分析数据处理技术领域,具体涉及一种飞行时间质谱峰检测方法。


背景技术:

2.飞行时间质谱是一种高通量、高精度、检测质量范围宽等特性的基因检测技术。样本在激光等外在条件的激发下离子化,通过加速电场加速,然后自由飞行一定距离到达离子检测器;经过相关转换生成质谱数据,随后再对质谱数据信息进行处理完成基因位点诊断。其中准确高效的寻找到目标峰的位置,确定目标峰的质荷比是质谱数据的处理过程中最重要的一步,决定了质谱分析结果成败与否。
3.目前,现有的峰检测方法基本上都是仅基于选取信噪比snr阈值而确定,当snr阈值选取过小会检测出许多噪音峰,过大则又会忽略真实峰,所以信噪比snr阈值的选择决定了峰的准确与否。同时有些检测峰方法,直接对质谱数据进行小波变化确定峰宽等参数进行检测峰,然后由于质谱峰存在的噪音的存在会导致误检出较多的噪音峰。


技术实现要素:

4.发明目的:为解决现有峰检测方法存在的检测结果不准确,以及容易导致误检出较多的噪音峰等问题,本发明提出了一种飞行时间质谱峰检测方法。
5.技术方案:一种飞行时间质谱峰检测方法,包括以下步骤:
6.步骤1:获取整条核酸质谱数据,对于第i个采样点i∈{1,2,3,

,n},该采样点对应的核酸质谱数据表示为(ii,m/zi),其中,ii为离子强度,m/zi为离子质荷比;将整条核酸质谱数据按照间隔长度num进行分段;
7.步骤2:求解得到各采样点的一阶导数数据,其中,对于第i个采样点i∈{1,2,3,

,n},该采样点对应的一阶导数数据表示为(i
′i,m/zi);
8.步骤3:对步骤2得到的一阶导数数据进行降噪光顺处理,得到光顺后的核酸质谱数据,其中,第i个采样点i∈{1,2,3,

,n},该采样点对应的光顺后的核酸质谱数据表示为(si,m/zi);
9.步骤4:向下寻找过零点的一阶导数值,并对光顺后的核酸质谱数据进行分段,依据各分段内的离子强度阈值i
threshold
和二阶导数阈值i

threshold
,对过零点的一阶导数值以及其对应的核酸质谱数据进行筛选,筛选出侯选峰;
10.步骤5:采用信噪比snr阈值对侯选峰做进一步筛选,确定目标峰。
11.进一步的,步骤2中,按照以下公式求解各采样点的一阶导数数据:
12.对于第i个采样点i∈{2,3,

,n-1},其一阶导数数据表示为i

ij
,数学表达式为:
[0013][0014]
式中,i
i+1j
表示第j分段内第i+1个采样点的离子强度,i
i-1j
表示第j分段内第i-1个
采样点的离子强度;
[0015]
对于第1个采样点,其一阶导数数据表示为:
[0016]i′1=i
2-i1ꢀꢀꢀꢀꢀ
(4)
[0017]
式中,i2表示第2个采样点的离子强度,i1表示第1个采样点的离子强度;
[0018]
对于第n个采样点,其一阶导数数据表示为:
[0019]i′n=i
n-i
n-1
ꢀꢀꢀꢀꢀ
(5)
[0020]
式中,in表示第n个采样点的离子强度,i
n-1
表示第n-1个采样点的离子强度。
[0021]
进一步的,步骤3中,采用三角形光顺算法对步骤2得到的一阶导数数据进行降噪光顺处理。
[0022]
进一步的,步骤4中,对于第j个分段,其强度阈值表示为i
threshold j
,由下式计算得到:
[0023][0024]
式中,为第j分段内离子强度的平均值,σj为第j分段内离子强度的标准差;c为信号强度阈值系数;
[0025]
二阶导数阈值表示为i

threshold j
,由下式计算得到:
[0026][0027]
式中,d为特定系数,hj和wj为第j分段内峰高最小的特征峰的峰高和半高半宽。
[0028]
进一步的,步骤4中,所述的依据离子强度阈值i
threshold
和二阶导数阈值i

threshold
,对该过零点的一阶导数值以及其对应的核酸质谱数据进行筛选,筛选出侯选峰;具体操作包括:
[0029]
记筛选出来的侯选峰表示为(i
ij
,m/z
ij
),其对应的一阶导数值为i

ij
,该一阶导数值为过零点的一阶导数值,且该侯选峰(i
ij
,m/z
ij
)符合以下条件:
[0030][0031]
式中,i
thresholdj
表示第j分段的强度阈值,i

threshold j
为第j分段的二阶导数阈值,i

(i+1)j
为第j分段内第i+1采样点的离子强度i
(i+1)j
的一阶导数i

(i+1)j

[0032]
有益效果:本发明克服了只依赖信噪比snr阈值参数进行峰的检测容易检测出许多噪音峰的问题,同时,采用本发明方法可以避免噪音峰对寻峰过程的强烈干扰,通过引入分段一阶向下过零点检测法,以及将二阶导数和分段强度阈值相结合确定候选峰,最后再使用信噪比snr阈值确定最终目标峰,在该过程中,信噪比snr阈值可以直接取到质谱系统中最小的信噪比snr值而不会引入噪音峰,从而确保准确检测到原始数据中质谱峰的位置。
附图说明
[0033]
图1为本发明方法的流程示意图;
[0034]
图2为采用本发明方法的检测出目标峰的位置质谱图;
[0035]
图3为图2中16和17两个重叠峰位置局部质谱图。
具体实施方式
[0036]
现结合附图和实施例对本发明的技术方案做进一步说明。
[0037]
现结合图1,对本发明提出的一种飞行时间质谱峰检测方法的步骤做进一步说明。
[0038]
步骤1:获取整条核酸质谱数据,对于第i个采样点i∈{1,2,3,

,n},该采样点对应的核酸质谱数据表示为(ii,m/zi),其中,ii为离子强度,m/zi为离子质荷比;将整条核酸质谱数据按照间隔长度num进行分段,根据式(1)和式(2)求出各分段强度阈值和二阶导数阈值,对于第j个分段,其强度阈值表示为i
threshold j
,二阶导数阈值表示为i

threshold j
;其中,间隔长度num为正整数,分段要求为:在分段过程中不应把一个峰分成两段,间隔长度随质谱数据总长度自适应调整,取值范围为200-500,优选300;
[0039][0040][0041]
式中,为第j分段内离子强度的平均值,σj为第j分段内离子强度的标准差;c为信号强度阈值系数c∈{1,2,3},优选为2;d为特定系数取值为2;hj和wj为第j分段内峰高最小的特征峰的峰高和半高半宽,当很难评估出hj和wj可取值为0;其中ii表示离子强度也称离子丰度,m/zi表示离子质荷比,与ii离子强度一一对应,i表示采样点i∈{1,2,3,

,n};
[0042]
步骤2:分段求解得到各采样点的一阶导数数据,其中,对于第i个采样点i∈{1,2,3,

,n},该采样点对应的一阶导数数据表示为(i
′i,m/zi);针对第j分段内第i个采样点,i∈{2,3,

,n-1},其一阶导数表示为i

ij
,数学表达式为:
[0043][0044]
式中,i
i+1j
表示第j分段内第i+1个采样点的离子强度,i
i-1j
表示第j分段内第i-1个采样点的离子强度;
[0045]
对于第1个采样点的离子强度的一阶导数,根据下式求解得到:
[0046]i′1=i
2-i1ꢀꢀꢀꢀꢀꢀꢀ
(4)
[0047]
对于最后1个采样点的离子强度的一阶导数,根据下式求解得到:
[0048]i′n=i
n-i
n-1
ꢀꢀꢀꢀꢀꢀꢀ
(5)
[0049]
步骤3:使用无加权滑动平均平滑算法、三角形光顺算法或者savitzky-golay光顺算法等对一阶导数信号(i
′i,m/zi)进行降噪光顺处理,优先采用三角形光顺算法,选取5点,加权因子为(1,2,3,2,1):
[0050][0051]
式中,sk为光顺去噪后的一阶导离子强度,i

k-2
、i

k-1
、i
′k、i

k+1
、i

k+2
为原始一阶导离子强度,k∈{3,

,n-2},剩余未光顺前端和后端的四个一阶导离子强度可以用零或原值一阶导离子强度替代。
[0052]
步骤4:向下寻找过零点的一阶导数值,记该过零点的一阶导数值对应的点(ii,m/zi)记为可能的峰位置,在根据各分段内离子强度阈值i
threshold
和二阶导数阈值i

threshold
筛选出侯选峰,记筛选出来的侯选峰表示为(i
ij
,m/z
ij
),其对应的一阶导数值为i

ij
,该一阶
导数值为过零点的一阶导数值,且该侯选峰(i
ij
,m/z
ij
)符合以下条件:
[0053]

[0054]
式中,表示第j分段的强度阈值,为第j分段的二阶导数阈值,i

(i+1)j
为第j分段内第i+1采样点的离子强度i
(i+1)j
的一阶导数i

(i+1)j
。步骤5:根据飞行时间核酸质谱特性,利用特定信噪比snr阈值对候选峰进行进一步筛选确定目标峰,信噪比snr阈值优选5。
[0055]
现通过一具体实施例来说明上述方法步骤。
[0056]
现采用本发明方法对真实采集到的飞行时间核酸质谱数据进行峰检测,横坐标m/z为质荷比,纵坐标为i强度,数据点总数为11560个。设置间隔长度num为300,将整条飞行时间图谱数据分为36段,选取信噪比snr阈值为5,最终检测的结果如图2所示,检测到的目标峰,共计为20个,其中峰3和4,峰16和17,峰18、19和20为重叠峰;为了清楚显示出重叠峰位置,选择峰16和17一小段质谱信使用本发明方法进行检测,其结果如图3所示。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1