包含用于诊断新冠肺炎的特征多肽的质谱模型的制作方法

文档序号:25322328发布日期:2021-06-04 17:14阅读:175来源:国知局
包含用于诊断新冠肺炎的特征多肽的质谱模型的制作方法

1.本发明属于检测领域,涉及一种利用飞行时间质谱技术快速检测新型冠状病毒肺炎的技术。


背景技术:

2.冠状病毒是一类主要引起呼吸道、肠道疾病的病原体。这类病毒颗粒的表面有许多规则排列的突起,整个病毒颗粒就像一顶帝王的皇冠,因此得名“冠状病毒”。冠状病毒除人类以外,还可感染猪、牛、猫、犬、貂、骆驼、蝙蝠、老鼠、刺猬等多种哺乳动物以及多种鸟类。新型冠状病毒covid

19 是以前从未在人体中发现的新型冠状病毒新毒株,其传播规律、感染机制、以及进化和变异规律仍然不清晰,为防治带来了困难。
3.为了预防新型冠状病毒(covid

19)肺炎的发生和流行,迅速采取措施,有效控制疫情的发展蔓延,新型冠状病毒肺炎的快速检测尤为重要。长期以来,对冠状病毒的鉴定都采用传统的微生物学检测方法,即形态学、生理生化特征及血清学鉴定。此方法虽然准确度高,但所需时间太长,最快也要十几个小时才能完成,难以适应快速检测的要求。以多重pcr为基础的核酸检测方法,对冠状病毒的早期诊断和传染源的发现具有重要意义。并且多重pcr检测针对多个基因,假阴性率比单重pcr 降低,然而,pcr检测方法也存在检测过程繁琐、成本较高、检测高通量有限。
4.基质辅助激光解吸电离飞行时间质谱(matrix

assisted laser desorption/ionization time

of

flight massspectrometry,简称maldi

tof ms)技术,是20世纪80年代末问世并迅速发展起来的一种质谱分析技术。其质量分析器是一个离子漂移管(iondirfttube),由离子源产生的离子首先被收集,在收集器中所有离子速度变为0,使用一个脉冲电场加速后进入无场漂移管,并以恒定速度飞向离子接收器,离子质量越大,到达接收器所用时间越长;离子质量越小,到达接收器所用时间越短。根据这一原理,可以把不同质量的离子按质荷比大小进行分离,准确检测多肽、蛋白质、核酸、多糖等生物大分子的分子质量和纯度,具有准确性高、灵活性强、通量大、检测周期短、性价比高的优点。
5.近年来,已经出现质谱技术来检测致病微生物或病毒的特征多肽或多肽的质谱技术。例如,中国专利申请cn102337223a,“产黄青霉抗真菌蛋白pc

arctin及其制备方法”,公开了一种检测产黄青霉抗真菌蛋白pc

arctin的maldi

tof鉴定方法,其中从平板上挑取产黄青霉a096孢子接种于sgy 液体培养基培养,预处理得到粗蛋白溶液在色谱柱上分离纯化,并在羧甲基阳离子交换色谱柱上分离纯化,收集各洗脱组分,各组分离心超滤浓缩至所需体积,以宛氏拟青霉为敏感受试指示菌,追踪抗真菌活性组分,确定的活性成分判断获得蛋白的纯度;割取sds

page电泳图上的单一条带,进行 maldi

tof鉴定。该方法仅适用于特定微生物,且需要多重蛋白纯化过程,最终用maldi

tof鉴定特征多肽pc

arctin,其过程繁琐,适用面窄,不能实现质谱检测病毒的目的。
6.中国专利申请201110154723、“maldi tof ms辅助鉴定单增李斯特氏菌的方法”和 201110154469、“malditofms辅助鉴定霍乱弧菌的方法”公开了一种利用maldi tofms技术
辅助鉴定细菌的方法,包括:预处理细菌培养物,采集所有菌株样品的maldi tof ms图谱,根据软件制备细菌标准图谱,使用相同的方法检测并采集待测细菌的图谱,以及比较二者图谱,根据匹配分数进行判定。由于该方法使用常规的处理(通过无水乙醇、甲酸和乙腈处理,并辅以离心,最后吸取上清液进行检测),尽管其在一定程度上能表征该细菌的特征图谱,但由于其待测物中含有蛋白质、脂类、脂多糖和脂寡糖、dna、多肽及其它能被离子化的分子,其得到的图谱实质上是上述各种分子的图谱集合,因此既需要处理和比对的图谱信息量过大,并且因待检分子过于庞大而导致其图谱特征性偏低,只适用于某具体细菌而无法推广到其他大量的病毒检测中。
7.中国专利申请200880121570、发明名称“用于诊断和监测精神疾病的方法和生物标志物”报道了可以通过maldi

tof质谱技术,检测包括流感病毒在内的近百种与精神疾病相关的生物肽。然而,该方法仅仅简单概括了各种可能的技术,其既没有报道具体方案,也没有报道冠状病毒的特定靶点,因此难以教导研究者通过maldi

tof质谱技术来检测流感病毒。
8.因此,目前需要一种通过基质辅助激光解析电离飞行时间质谱(maldi

tof

ms)来检测新型冠状病毒肺炎的特征多肽质谱模型以及用途。


技术实现要素:

9.本发明第一个目的提供一组基于血清肽组学(peptidome)特征多肽的组合物,该特征多肽可以通过maldi

tof质谱检测新冠病毒(covid

19),其中该特征多肽组合物包括具有如下质荷比的25 种特征多肽:5158m/z、5366m/z、5893m/z、6357m/z、6654m/z、6939m/z、7364m/z、7614m/z、8034m/z、8043m/z、8226m/z、8425m/z、8560m/z、8986m/z、9626m/z、13719m/z、13765m/z、13886m/z、14049m/z、 14095m/z、14102m/z、15123m/z、15867m/z、28091m/z、28232m/z。
10.在一个实施方案中,当特征多肽8986m/z、28091m/z的峰上调,同时特征多肽6939m/z、13886m/z、 14049m/z、14102m/z的峰下调表达时,表示该血清样本为阳性样本,即判定该患者为新冠肺炎患者,十折交叉验证准确率约为91%。在一个优选实施方案中,所述特征多肽的组合物仅包含质合比分别为 8986m/z、28091m/z,和6939m/z、13886m/z、14049m/z、14102m/z的特征多肽。
11.在另一个实施方案中,当特征多肽7614m/z、8034m/z、8226m/z、8986m/z、9626m/z、15123m/z、 15867m/z、28091m/z的峰上调,同时特征多肽6939m/z、13719m/z、13765m/z、13886m/z、14049m/z、 14095m/z、14102m/z的峰下调表达时,表示该血清样本为阳性样本,即该患者为新冠肺炎患者,十折交叉验证准确率约为93.88%。在一个优选实施方案中,所述特征多肽的组合物仅包含质合比分别为7614m/z、8034m/z、8226m/z、8986m/z、9626m/z、15123m/z、15867m/z、28091m/z,和6939m/z、 13719m/z、13765m/z、13886m/z、14049m/z、14095m/z、14102m/z的特征多肽。
12.在其他实施方案中,当特征多肽5158m/z、5366m/z、5893m/z、7364m/z、7614m/z、8034m/z、 8043m/z、8226m/z、8425m/z、8560m/z、8986m/z、9626m/z、15123m/z、15867m/z、28091m/z的峰上调,同时特征多肽6357m/z、6654m/z、6939m/z、13719m/z、13765m/z、13886m/z、14049m/z、14095m/z、 14102m/z、28232m/z的峰下调表达时,表示该血清样本为
阳性样本,即该患者为新冠肺炎患者,十折交叉验证准确率约为97.96%。
13.本发明的第二个发明目的是提供一种用于检测新冠肺炎的质谱模型,该质谱模型由具有上述任一方案的质荷比峰值的特征多肽组合物所制备而成。
14.在一个实施方案中,所述质谱模型由特征多肽5158m/z、5366m/z、5893m/z、6357m/z、6654m/z、 6939m/z、7364m/z、7614m/z、8034m/z、8043m/z、8226m/z、8425m/z、8560m/z、8986m/z、9626m/z、 13719m/z、13765m/z、13886m/z、14049m/z、14095m/z、14102m/z、15123m/z、15867m/z、28091m/z、 28232m/z所制备而成,其中当特征多肽5158m/z、5366m/z、5893m/z、7364m/z、7614m/z、8034m/z、 8043m/z、8226m/z、8425m/z、8560m/z、8986m/z、9626m/z、15123m/z、15867m/z、28091m/z的峰上调,同时特征多肽6357m/z、6654m/z、6939m/z、13719m/z、13765m/z、13886m/z、14049m/z、14095m/z、 14102m/z、28232m/z的峰下调表达时,表示该血清样本为阳性样本,即该患者为新冠肺炎患者,十折交叉验证准确率约为97.96%。
15.在另一实施方案中,所述质谱模型仅由以下质合比分别为7614m/z、8034m/z、8226m/z、8986m/z、 9626m/z、15123m/z、15867m/z、28091m/z,和6939m/z、13719m/z、13765m/z、13886m/z、14049m/z、 14095m/z、14102m/z的特征多肽组合物所制备而成,其中当特征多肽7614m/z、8034m/z、8226m/z、 8986m/z、9626m/z、15123m/z、15867m/z、28091m/z的峰上调,同时特征多肽6939m/z、13719m/z、 13765m/z、13886m/z、14049m/z、14095m/z、14102m/z的峰下调表达时,表示该血清样本为阳性样本,即该患者为新冠肺炎患者,十折交叉验证准确率约为93.88%。
16.在其他实施方案中,所述质谱模型仅由以下质合比分别为8986m/z、28091m/z、6939m/z、13886m/z、 14049m/z、14102m/z的特征多肽组合物所制备而成,其中当特征多肽8986m/z、28091m/z的峰上调,同时特征多肽6939m/z、13886m/z、14049m/z、14102m/z的峰下调表达时,表示该血清样本为阳性样本,即判定该患者为新冠肺炎患者,十折交叉验证准确率约为91%。
17.本发明的第三个发明目的是提供一种用于检测新冠肺炎的试剂盒,其包含上述的特征多肽组合物,或包含上述的质谱模型。
18.在一个实施方案中,所述多肽组合物或质谱模型由特征多肽5158m/z、5366m/z、5893m/z、6357m/z、 6654m/z、6939m/z、7364m/z、7614m/z、8034m/z、8043m/z、8226m/z、8425m/z、8560m/z、8986m/z、 9626m/z、13719m/z、13765m/z、13886m/z、14049m/z、14095m/z、14102m/z、15123m/z、15867m/z、 28091m/z、28232m/z所制备而成,其中当特征多肽5158m/z、5366m/z、5893m/z、7364m/z、7614m/z、 8034m/z、8043m/z、8226m/z、8425m/z、8560m/z、8986m/z、9626m/z、15123m/z、15867m/z、28091m/z 的峰上调,同时特征多肽6357m/z、6654m/z、6939m/z、13719m/z、13765m/z、13886m/z、14049m/z、 14095m/z、14102m/z、28232m/z的峰下调表达时,表示该血清样本为阳性样本,即该患者为新冠肺炎患者,十折交叉验证准确率约为97.96%。
19.在另一实施方案中,所述多肽组合物或质谱模型仅由以下质合比分别为7614m/z、8034m/z、 8226m/z、8986m/z、9626m/z、15123m/z、15867m/z、28091m/z,和6939m/z、13719m/z、13765m/z、 13886m/z、14049m/z、14095m/z、14102m/z的特征多肽所制备而成,其中当特征多肽7614m/z、8034m/z、 8226m/z、8986m/z、9626m/z、15123m/z、15867m/z、28091m/z的峰
上调,同时特征多肽6939m/z、 13719m/z、13765m/z、13886m/z、14049m/z、14095m/z、14102m/z的峰下调表达时,表示该血清样本为阳性样本,即该患者为新冠肺炎患者,十折交叉验证准确率约为93.88%。
20.在其他实施方案中,所述多肽组合物或质谱模型仅由以下质合比分别为8986m/z、28091m/z、 6939m/z、13886m/z、14049m/z、14102m/z的特征多肽所制备而成,其中当特征多肽8986m/z、28091m/z 的峰上调,同时特征多肽6939m/z、13886m/z、14049m/z、14102m/z的峰下调表达时,表示该血清样本为阳性样本,即判定该患者为新冠肺炎患者,十折交叉验证准确率约为91%。
21.在一个实施方案中,该试剂盒包括样本处理液,该处理液由北京毅新博创生物科技有限公司研制。
22.在另一实施方案中,该试剂盒还包括保证质谱仪所测分子量准确的标准质谱样品管,该样品管既可以是含有单一特征多肽的多种样品管,也可以是含有多种特征多肽的一种样品管,所述标准样品管中的样品用于与待测样品进行质谱时进行平行质谱测试,以判断待测样品分子量信息是否准确可靠。
23.在另一个实施方案中,该试剂盒可含有上述特征多肽的标准数据库的软件或芯片,可用于待测样品进行质谱时提供标准数据或曲线的比对,以判断待测样品中特征多肽的表达状况。
24.本发明的第四个发明目的是提供所述特征多肽组合物,或所述的质谱模型,在制备诊断新冠肺炎的产品中的用途。
25.在一个实施方案中,所述多肽组合物或质谱模型由特征多肽5158m/z、5366m/z、5893m/z、6357m/z、6654m/z、6939m/z、7364m/z、7614m/z、8034m/z、8043m/z、8226m/z、8425m/z、8560m/z、8986m/z、 9626m/z、13719m/z、13765m/z、13886m/z、14049m/z、14095m/z、14102m/z、15123m/z、15867m/z、 28091m/z、28232m/z所制备而成,其中当特征多肽5158m/z、5366m/z、5893m/z、7364m/z、7614m/z、 8034m/z、8043m/z、8226m/z、8425m/z、8560m/z、8986m/z、9626m/z、15123m/z、15867m/z、28091m/z 的峰上调,同时特征多肽6357m/z、6654m/z、6939m/z、13719m/z、13765m/z、13886m/z、14049m/z、 14095m/z、14102m/z、28232m/z的峰下调表达时,表示该血清样本为阳性样本,即该患者为新冠肺炎患者,十折交叉验证准确率约为97.96%。
26.在另一实施方案中,所述多肽组合物或质谱模型仅由以下质合比分别为7614m/z、8034m/z、 8226m/z、8986m/z、9626m/z、15123m/z、15867m/z、28091m/z,和6939m/z、13719m/z、13765m/z、 13886m/z、14049m/z、14095m/z、14102m/z的特征多肽所制备而成,其中当特征多肽7614m/z、8034m/z、 8226m/z、8986m/z、9626m/z、15123m/z、15867m/z、28091m/z的峰上调,同时特征多肽6939m/z、 13719m/z、13765m/z、13886m/z、14049m/z、14095m/z、14102m/z的峰下调表达时,表示该血清样本为阳性样本,即该患者为新冠肺炎患者,十折交叉验证准确率约为93.88%。
27.在其他实施方案中,所述多肽组合物或质谱模型仅由以下质合比分别为8986m/z、28091m/z、 6939m/z、13886m/z、14049m/z、14102m/z的特征多肽所制备而成,其中当特征多肽8986m/z、28091m/z 的峰上调,同时特征多肽6939m/z、13886m/z、14049m/z、14102m/z的峰下调表达时,表示该血清样本为阳性样本,即判定该患者为新冠肺炎患者,十折交叉验证
准确率约为91%。
28.在上述任一实施方案中,所述诊断新冠肺炎的产品指用于诊断新冠肺炎的任何常规产品,包括:检测试剂、检测芯片、检测载体,以及检测试剂盒等。
29.本发明的第五个发明目的是提供制备所述的质谱模型的构建方法,包括:
30.1)收集多例临床确诊的新冠肺炎人员和非新冠肺炎对照人员(包括肺结核患者、发热咳嗽的症状类似患者和健康人群)的血清样本,进行低温冷冻备用;
31.2)对血清蛋白进行质谱前预处理;
32.3)对预处理过的两组血清蛋白进行质谱检测读取,获得两组血清多肽的指纹图谱;
33.4)对所有的患者和正常人血清多肽的指纹图谱进行标准化处理,并收集数据;
34.5)对所得数据进行质控处理,筛选出具有下列质荷比峰的特征多肽:5158m/z、5366m/z、5893m/z、 6357m/z、6654m/z、6939m/z、7364m/z、7614m/z、8034m/z、8043m/z、8226m/z、8425m/z、8560m/z、 8986m/z、9626m/z、13719m/z、13765m/z、13886m/z、14049m/z、14095m/z、14102m/z、15123m/z、 15867m/z、28091m/z、28232m/z,对所述特征多肽进行二级质谱鉴定,并根据这些质荷比峰建立检测新冠肺炎的质谱模型。
35.在一个实施方案中,其中步骤5)的质谱模型仅由以下质合比分别为7614m/z、8034m/z、8226m/z、 8986m/z、9626m/z、15123m/z、15867m/z、28091m/z,和6939m/z、13719m/z、13765m/z、13886m/z、 14049m/z、14095m/z、14102m/z的特征多肽所制备而成,其中当特征多肽7614m/z、8034m/z、8226m/z、 8986m/z、9626m/z、15123m/z、15867m/z、28091m/z的峰上调,同时特征多肽6939m/z、13719m/z、 13765m/z、13886m/z、14049m/z、14095m/z、14102m/z的峰下调表达时,表示该血清样本为阳性样本,即该患者为新冠肺炎患者,十折交叉验证准确率约为93.88%。
36.在另一实施方案中,其中步骤5)的质谱模型仅由以下质合比分别为8986m/z、28091m/z、6939m/z、 13886m/z、14049m/z、14102m/z的特征多肽所制备而成,其中当特征多肽8986m/z、28091m/z的峰上调,同时特征多肽6939m/z、13886m/z、14049m/z、14102m/z的峰下调表达时,表示该血清样本为阳性样本,即判定该患者为新冠肺炎患者,十折交叉验证准确率约为91%。
37.在上述任意的实施方案中,其中步骤2)预处理的方法包括使用样本处理液稀释稳定样品中的血清蛋白或多肽。
38.在上述任意的实施方案中,其中所述步骤3)采用多肽质谱通用前处理试剂盒对两组血清蛋白进行稀释和读取,获得两组血清多肽的指纹图谱。
39.在上述任意的实施方案中,所述步骤5)所述的质控处理,对于空白基质,用相同的质谱参数检测空白基质结晶点,若出现明显质谱峰则认为基质溶液质量不合格。
40.在上述任意一个实施方案中,其中所述步骤5)所述的质控处理,选取如下8个特征峰作为质控峰: 6426m/z、6623m/z、8753m/z、8785m/z、8904m/z、9118m/z、9409m/z、9700m/z。
41.此外,在上述任意一个发明目的中任意一种实施方案中,所述特征多肽组合物、质谱模型、检测产品、用途、构建方法中,可涉及仅仅包含具有如下质荷比和多肽序列的15种特征多肽:
42.质荷比为6939m/z的特征多肽,其多肽序列选自如seq id no.1所示的序列;
43.质荷比为7614m/z的特征多肽,其多肽序列选自如seq id no.2所示的序列;
44.质荷比为8034m/z的特征多肽,其多肽序列选自如seq id no.3所示的序列;
45.质荷比为8226m/z特征多肽,其多肽序列选自如seq id no.4所示的序列;
46.质荷比为8986m/z的特征多肽,其多肽序列选自如seq id no.5所示的序列;
47.质荷比为9626m/z的特征多肽,其多肽序列选自如seq id no.6所示的序列;
48.质荷比为13719m/z的特征多肽,其多肽序列选自如seq id no.7所示的序列;
49.质荷比为13765m/z的特征多肽,其多肽序列选自如seq id no.8所示的序列;
50.质荷比为13886m/z的特征多肽,其多肽序列选自如seq id no.9所示的序列;
51.质荷比为14049m/z的特征多肽,其多肽序列选自如seq id no.10所示的序列;
52.质荷比为14095m/z的特征多肽,其多肽序列选自如seq id no.11所示的序列;
53.质荷比为14102m/z的特征多肽,其多肽序列选自如seq id no.12所示的序列;
54.质荷比为15123m/z的特征多肽,其多肽序列选自如seq id no.13所示的序列;
55.质荷比为15867m/z的特征多肽,其多肽序列选自如seq id no.14所示的序列;
56.质荷比为28091m/z的特征多肽,其多肽序列选自如seq id no.15所示的序列。
57.在飞行时间质谱检测生物样本的过程中,质谱谱图的质量受个体差异、样本质量、环境温湿度变化、样本与基质的结晶状态等多个条件影响。为避免异常谱图对分析结果的影响,引入人血清中共有的上述8个特征峰作为质控峰,而质控峰的出现与患者是否患有新型冠状病毒肺炎无关。在采集到的 843张谱图中,有683张谱图可以检测到全部的8个质控峰(占谱图总数的81.0%),有156张谱图可以检测到其中的7个质控峰(占谱图总数的18.5%)。其中,设定如下谱图质量控制条件:在单个样本的谱图中,质控峰出现数量6~8个且内标峰分子量偏移偏差小于0.002时(或偏移范围不超过2

) 视为质控合格。不合格的谱图需要重新检测。
58.十折交叉验证,英文名叫做10

fold cross

validation,用来测试算法准确性。是常用的测试方法。将数据集分成十份,轮流将其中9份作为训练数据,1份作为测试数据,进行试验。每次试验都会得出相应的正确率(或差错率)。10次的结果的正确率(或差错率)的平均值作为对算法精度的估计,一般还需要进行多次10折交叉验证(例如10次10折交叉验证),再求其均值,作为对算法准确性的估计。应当指出的是,十折交叉验证准确率与实际检测的准确率(或敏感性)存在相关性但并非等同。在本发明评价测试算法的效果的过程中,效果符合置信区间的十折交叉验证准确率,如果随着特征多肽的数量而呈现相关性变化,并达到临床诊断可行的数值,则表明由这些多肽所构建的质谱模型符合临床诊断的要求。
59.本发明结合生物信息学方法筛选出相应的新冠肺炎标志物并建立检测模型进行分析检测,所述的生物信息学方法包括对指纹图谱进行标准化处理、对所得数据进实验质控处理、筛选期望的血清特征多肽并建立质谱模型,以及可选择地包括使用lr算法建立并验证质谱模型等。其中,所述的实验质控处理,保留内标峰出峰数量不低于6个的质谱图谱数据,并用内标峰进行谱图的二次校准。
60.技术效果
61.1、本发明采用新冠肺炎患者与正常人、肺结核患者以及具有新冠肺炎类型症状的对照患者具有差异的多个特征蛋白组合进行对血清样本的检测,并采用了传统统计学与现
代生物信息学方法相结合的方法进行数据处理,从而得到肺炎患者和健康人以及其他对照患者的多肽指纹图谱检测模型,并且所发现的一系列蛋白质质荷比峰为寻找新的更理想的标志物提供了基础和资源。
62.2、与以往的检测方法比较具有较高的敏感性和特异性,操作简单,检测成本低,通量高,有望用于新冠肺炎的大规模筛查。
63.3、本发明模型的构建方法设计合理可行,为提供新冠肺炎的临床治愈率提供了新的筛查方法,同时也为探索新冠肺炎发生发展的机制提供了新的思路。
64.4、本发明首次提出根据146例新冠肺炎确诊患者与46例正常人、33例肺结核患者对照以及具有新冠肺炎类型症状的73例对照中寻找具有差异的多个特征蛋白组合,突破了传统的仅限于正常人和新冠肺炎患者中寻找特征多肽的研究思路,有效地避免与新冠肺炎症状相似的假阳性结果的感染。
65.5、通过本发明的质谱模型,检测准确率达到99%,敏感性为98%,特异性为100%,该结果表明本发明的血清肽组学特征多肽模型能快速用于筛查人群中新冠肺炎患者。
附图说明
66.图1:不同组(健康人组、肺结核组、类似症状组、新冠患者组)血清多肽指纹图谱对比,其中由上至下分别为阴性健康人图谱、阴性肺结核图谱、阴性类似症状、阳性新冠患者。
67.图2

1:lasso中重复频率最高的20个峰。图2

2:为pls

da中vip变化重要度最高的20个峰。
68.图2

3:在rfecv中交叉验证准确度最高的10个峰。
69.图3:训练组各特征峰强度,其中左栏为阴性对照组,右栏为阳性对照组。
70.图4

1:各种机器学习方法,训练集roc曲线对比。图4

2:测试集roc曲线对比。
71.图5:真实分组的测试集混淆矩阵的预测结果。
72.图6:用于建立快速筛选新冠肺炎(covid

19)患者的特征多肽质谱模型的流程。
73.图7:特征多肽m/z 5157.6的质谱峰图谱,上图为非新冠对照的质谱图,下图为covid

19的质谱图。
74.图8:特征多肽m/z 5366.2的质谱峰图谱,上图为非新冠对照的质谱图,下图为covid

19的质谱图。
75.图9:特征多肽m/z 5892.9的质谱峰图谱,上图为非新冠对照的质谱图,下图为covid

19的质谱图。
76.图10:特征多肽m/z 6357.4的质谱峰图谱,上图为非新冠对照的质谱图,下图为covid

19质谱图。
77.图11:特征多肽m/z 6654.0的质谱峰图谱,上图为非新冠对照的质谱图,下图为covid

19质谱图。
78.图12:特征多肽m/z 6939.1的质谱峰图谱,上图为非新冠对照的质谱图,下图为covid

19质谱图。
79.图13:特征多肽m/z 7364.2的质谱峰图谱,上图为非新冠对照的质谱图,下图为covid

19质谱图。
80.图14:特征多肽m/z 7614.2的质谱峰图谱,上图为非新冠对照的质谱图,下图为
covid

19质谱图。
81.图15:特征多肽m/z 8034.3的质谱峰图谱,上图为非新冠对照的质谱图,下图为covid

19质谱图。
82.图16:特征多肽m/z 8042.7的质谱峰图谱,上图为非新冠对照的质谱图,下图为covid

19质谱图。
83.图17:特征多肽m/z 8226.4的质谱峰图谱,上图为非新冠对照的质谱图,下图为covid

19质谱图。
84.图18:特征多肽m/z 8424.9的质谱峰图谱,上图为非新冠对照的质谱图,下图为covid

19质谱图。
85.图19:特征多肽m/z 8559.8的质谱峰图谱,上图为非新冠对照的质谱图,下图为covid

19质谱图。
86.图20:特征多肽m/z 8986.1的质谱峰图谱,上图为非新冠对照的质谱图,下图为covid

19质谱图。
87.图21:特征多肽m/z 9626.4的质谱峰图谱,上图为非新冠对照的质谱图,下图为covid

19质谱图。
88.图22:特征多肽m/z 13719.2的质谱峰图谱,上图为非新冠对照的质谱图,下图为covid

19质谱图。
89.图23:特征多肽m/z 13765.2的质谱峰图谱,上图为非新冠对照的质谱图,下图为covid

19质谱图。
90.图24:特征多肽m/z 13886.1的质谱峰图谱,上图为非新冠对照的质谱图,下图为covid

19质谱图。
91.图25:特征多肽m/z 14049.4的质谱峰图谱,上图为非新冠对照的质谱图,下图为covid

19质谱图。
92.图26:特征多肽m/z 14094.7的质谱峰图谱,上图为非新冠对照的质谱图,下图为covid

19质谱图。
93.图27:特征多肽m/z 14101.8的质谱峰图谱,上图为非新冠对照的质谱图,下图为covid

19质谱图。
94.图28:特征多肽m/z 15123.4的质谱峰图谱,上图为非新冠对照的质谱图,下图为covid

19质谱图。
95.图29:特征多肽m/z 15866.5的质谱峰图谱,上图为非新冠对照的质谱图,下图为covid

19质谱图。
96.图30:特征多肽m/z 28091.4的质谱峰图谱,上图为非新冠对照的质谱图,下图为covid

19质谱图。
97.图31:特征多肽m/z 28231.5的质谱峰图谱,上图为非新冠对照的质谱图,下图为covid

19质谱图。
具体实施方式
98.以下实施例用于说明本发明,但不用来限制本发明的范围。
99.实施例1样本处理
100.146例确诊患者的血清样本来自2020年2月的重庆某医院,所有患者均为核酸检测阳性,并按照指南标准进行严格分类。
101.根据以下标准进行分类:
102.(1)轻型:临床症状轻微,影像学未见肺炎表现;
103.(2)普通型:具有发热、呼吸道症状,影像学可见肺炎表现;
104.(3)重型:呼吸困难,呼吸率≥30次/分钟,静态下氧饱和度≤93%,动脉血分压(pao2)/氧浓度(fio2)≤300mmhg;
105.(4)危重型:呼吸衰竭,需要呼吸机,出现休克,出现其他器官衰竭应送至icu抢救。
106.作为对照的非新冠肺炎的152例血清样本来自2020年3月的重庆某医院,包括46例正常人、33例肺结核患者对照以及具有新冠肺炎类型症状的73例对照。
107.所有样本均在清晨未进食前空腹下抽取,装入未含添加剂的真空血清采集管中,2,264g离心10min,并在56℃温育30min,然后将血清样本分装冷冻在

80℃。
108.血清样品的质谱前处理:在进行质谱检测实验前,从低温冰箱提取分装的血清样品各1管,放于湿冰上。化冻60

90分钟。吸取5ul血清样本,加入45ul样本处理液,1200rpm涡旋30s;吸取处理后的样本溶液10ul加入配置好的基质溶液10ul,1200rpm涡旋30s;将1ul混合液点到靶板上,每个样本需要点三个实验重复,自然晾干,即可进行质谱检测。
109.实施例2、建立maldi

tof

ms的质谱模型
110.(一)样品准备
111.将每份样本的5ul血清稀释在45ul样本处理液(bioyong technologies inc.)。然后取出10ul已稀释的血清,与10ul基质溶液(bioyong technologies inc.)进行混合。
112.取出2ul混合液滴加至不锈钢靶板。室温干燥后,将样品进样maldi

tof ms质谱仪(clin

tof

ii; bioyong technologies inc.)。每个样品平行测试3次。
113.基质辅助激光解吸飞行时间质谱clin

tof及实验用的多肽质谱通用前处理试剂盒由中国bioyong公司研制。使用maldiquant程序做数据的预处理,对处理后的数据进行平方根变换,使用滤波拟合法进行平滑处理,并进行基线校正。质谱仪用分子量已知的多肽蛋白混合物来进行校准。校准品的质量漂移应该在500ppm以内。每个样品点采集500张谱图。分子量采集范围是m/z 3000~30000。
114.不同组样本质谱谱图参见图1(图1:不同组血清多肽指纹图谱对比,其中由上至下分别为阴性健康人图谱、阴性肺结核图谱、阴性类似症状、阳性新冠患者)。在阴性健康人谱图中,5158m/z、5366m/z、5893m/z、 7364m/z、7614m/z、8034m/z、8043m/z、8425m/z、8560m/z、8986m/z、9626m/z、28091m/z的峰强度较低,而6357m/z、6654m/z、6939m/z、13719m/z、13765m/z、13886m/z、14049m/z、14095m/z、14102m/z、28232m/z 的峰强度较高。在阴性肺结核谱图中,5158m/z、5366m/z、5893m/z、7364m/z、7614m/z、8034m/z、8043m/z、 8226m/z、8425m/z、8560m/z、8986m/z、9626m/z、15123m/z、15867m/z、28091m/z的峰强度较低,而6654m/z、 6939m/z、13719m/z、13765m/z、13886m/z、14049m/z、14095m/z、14102m/z、28232m/z的峰强度较高。在类似阴性症状组谱图中,5158m/z、5366m/z、7364m/z、7614m/z、8034m/z、8043m/z、8425m/z、8560m/z、 8986m/z、9626m/z、28091m/z的峰强度较低,而6357m/z、6654m/z、6939m/z、13719m/z、13765m/z、13886m/z、 14049m/z、14095m/z、14102m/z、28232m/z的峰强度较高。在阳性新冠患者谱图中,5158m/z、5366m/z、 5893m/z、7364m/z、
elimination)指递归特征消除,用来对特征进行重要性评级。cv(cross validation)指交叉验证,即在特征评级后,通过交叉验证,选择最佳数量的特征。图2

3展示了在rfecv中交叉验证准确度最高的10个峰。其中纵轴为各优选特征峰的质核比。
128.通过对所选峰的原始谱图的经验检验,筛选出质量控制合格的25个峰作为特征。训练组各特征峰强度如图3。图中每一行代表一个特征峰,每一列代表一个谱图数据,图中颜色深浅代表峰的强度。其中左栏为阴性对照组,右栏为阳性组。可以看到特征多肽6939m/z、13765m/z、13886m/z、6357m/z、6654m/z、14049m/z、28232m/z、13719m/z、14095m/z、14102m/的峰在阴性组中表达量普遍高于阳性组,同时特征多肽8226m/z、8425m/z、8560m/z、8986m/z、9626m/z、7364m/z、7614m/z、28091m/z、8034m/z、8043m/z、 8226m/z、15123m/z、15867m/z、5893m/z、5158m/z、5366m/z的峰在阳性组中表达量普遍高于阴性组。这些峰值的强度在covid

19和对照组之间有显著差异。
129.(五)模型算法
130.我们尝试用8种机器学习方法用训练组数据的25个特征峰建立模型,通过交叉验证准确率评估模型结果。分析的8中机器学习方法如下:逻辑回归(lr),支持向量机(svm),随机森林(rf),朴素贝叶斯法 (nb),梯度下降树(gbdt),k临近算法(knn),决策树(dt)和自适应增强算法(adaboost)。
131.图4

1和图4

2分别用roc曲线的形式展示了训练组和测试组的模型结果。roc曲线是根据一系列不同的二分类方式(分界值或决定阈),以真阳性率(灵敏度)为纵坐标,假阳性率(1

特异度)为横坐标绘制的曲线。通过分别计算各个试验的roc曲线下的面积(auc)进行比较,哪一种试验的auc最大,则哪一种试验的诊断价值最佳。在本研究中,训练组所有模型的roc曲线下面积auc皆大于0.99,其中lr、svm、 rf、gbdt、dt和adaboost的auc为1(图4

1)。在对验证组数据的roc曲线分析中发现,8种机器学习方法得到的8个模型在测试集的auc都超过了0.92,对于lr、svm和nb模型,auc为1(图4

2)。在评估了8个模型的准确率、召回率、精密度、f1、灵敏度和特异度后发现lr模型具有最好的分类性能 (auc=1,灵敏度=98%,特异性=100%,准确率=99%,精密度=100%,召回率=98%,f1=99%),可进一步应用于covid

19的检测。
132.测试集中lr模型的混淆矩阵如图5所示,图中纵轴代表样本真实分组情况,上面一行表示阴性样本数量,下面一行表示阳性样本数量;横轴代表模型预测结果,左面一列表示被模型判断为阴性的样本数量,右面一列表示被模型判断结果为阳性的样本数量。在51个阴性样本中,全部判断为阴性,阴性样本判断准确率(即模型特异度)为100%;在49例阳性样本中,有1例被误判断为阴性,48例被判断为阳性,阳性样本判断准确率(即模型灵敏度)为98.0%。
133.表1.训练集中25个特征多肽在患者、健康人的中位数
[0134][0135][0136]
具体的用于建立快速筛选新冠肺炎(covid

19)患者的特征多肽质谱模型的流程,参见图6。该流程包括:(1)分别搜集新冠肺炎患者和阴性对照人群并采集血清样本;(2)用试剂盒对血清样本进行质谱前处理;(3)maldi

tof ms质谱检测,得到谱图信息;(4)谱图处理并获得峰列表;(5)生物信息学分析; (6)确定质谱模型。
[0137]
实施例3、新冠肺炎患者筛选模型的建立
[0138]
选择298例血清样本(146例来自确诊的新冠肺炎患者,另外46例正常人、33例肺结核患者对照以及具有新冠肺炎类似症状(发热咳嗽)的73例对照)中的198例作为训练样本,用于模型的建立,其中 97例来自新冠肺炎患者,以及34例来自正常人、19例来自肺结核患者对照以及48例来自具有新冠肺炎类似症状。所有的血清样本均在清晨空腹下抽取,分离血清并灭活病毒后储存在

80℃低温冰箱中。
[0139]
剩余样本(49例新冠肺炎患者、12例正常人、14例肺结核、25例新冠肺炎类似症状)作为验证样本,用于盲选测试。处理方式同上。
[0140]
用实施例1

2筛选出的新冠肺炎患者血清特征多肽峰建立新冠肺炎多肽的质谱模型。该模型定为采用25个特征峰,分别是:5158m/z、5366m/z、5893m/z、6357m/z、6654m/z、6939m/z、7364m/z、7614m/z、 8034m/z、8043m/z、8226m/z、8425m/z、8560m/z、8986m/z、9626m/z、13719m/z、13765m/z、13886m/z、 14049m/z、14095m/z、14102m/z、15123m/z、15867m/z、28091m/z、28232m/z。
[0141]
上述特征多肽的特征质谱峰谱图,参见图6

30所示。
[0142]
lr模型的训练集和验证集auc均为1。测试集准确率99%,灵敏度98%,特异度100%。模型具有很好的预测能力。
[0143]
表2.模型训练结果
[0144]
样本例数预测为新冠肺炎预测为非新冠肺炎预测准确率%患者组97970100.00正常组34034100.00肺结核组19019100.00症状类似组48048100.00总计198
ꢀꢀ
100.00
[0145]
从上表中可以看出对训练组样本的结果为:34例正常组中的34例判断正确,特异性100.00%;97 例患者中的97例判断正确,敏感性100.00%;19例肺结核患者中的19例判断正确,敏感性为100.00%; 48例症状类似患者中的48例判断正确,敏感性为100.00%。
[0146]
实施例4、新冠肺炎特征多肽的鉴定
[0147]
据实施例2和3中确定待鉴定峰后,查找前期处理样本中待鉴定峰值强度高低不同的7个血清样本。样本经dtt还原后,超滤离心除去分子量大于50kda的蛋白。滤出的小分子蛋白/多肽用tricine

sds

page 分离。各条带经胶内酶切后进行二级质谱鉴定。
[0148]
采用nano

lc

ms/ms平台进行多肽序列鉴定,包括nanoflow hplc(thermo fisher scientific,usa)和q

exactive mass spectrometer(thermo fisher scientific,usa)。离子模式为正离子模式,扫描范围为300

1400m/z。一级质谱分辨率为70000,二级质谱分辨率为17500。
[0149]
液相分析柱:型号:exsil pure 120c18(dr.maisch gmbh,usa);规格:360μm
×
12cm;内径:150μm;粒:1.9um。洗脱方式:流动相从7%b液(80%乙腈,0.1%甲酸)到45%b液,线性洗脱。流速:600nl/min;总时间38分钟。
[0150]
鉴定结果见表3和表4。
[0151]
表3.特征峰多肽鉴定结果
[0152]
[0153][0154]
表4.多肽鉴定序列
[0155]
[0156][0157]
实施例5、新冠肺炎患者筛选模型的盲选测试
[0158]
模型训练完成后,建立起了一个有25个特征多肽片段的输入变量的模型,另外建立完成测序的15 个特征多肽片段的输入变量的模型。
[0159]
根据实施例3的方法,用上述两种模型对49例新冠肺炎患者、12例正常人、14例肺结核、21例类型症状的样本来盲选预测,并判断出样本的类别,方法同以上实施例所述。结果分别如表5

1、表5

2所示。
[0160]
表5

1.通过25个变量对测试样本预测结果
[0161]
样本例数预测为新冠肺炎预测为非新冠肺炎预测准确率%患者组4948197.96正常组12012100.00肺结核组14014100.00症状类似组25025100.00总计100
ꢀꢀ
99.00
[0162]
从表5

1中可以看出对测试组样本的结果为:12例正常组中的12例判断正确,特异性100.00%;49 例患者中的48例判断正确,敏感性97.96%;14例肺结核患者中的14例判断正确,敏感性为100.00%;25 例症状类似患者中的25例判断正确,敏感性为100.00%。
[0163]
表5

2.通过15个变量对测试样本预测结果
[0164]
样本例数预测为新冠肺炎预测为非新冠肺炎预测准确率%患者组4946393.88正常组1211191.67肺结核组14014100.00症状类似组2512496.00总计100
ꢀꢀ
95.00
[0165]
从表5

2中可以看出对测试组样本的结果为:49例新冠患者中的46例判断正确,敏感性93.88%; 12例正常组中的11例判断正确,特异性91.67%;14例肺结核患者中的14例判断正确,特异性为100.00%; 25例症状类似患者中的24例判断正确,敏感性为96.00%。这说明,由15种特征多肽的输入变量所组成的模型,对于肺结核患者,特异性与完全变量的检测结果相同,其它三组出现极少数的错判。该模型已经符合临床上快速筛查确诊患者的需求。
[0166]
另外,从上表中可以看出:本发明使用25种特征多肽的完全变量对于新冠肺炎组的盲选检测准确率基本相同于模型训练,但对于非新冠组的预测结果达到100%,说明在模
型训练后的结果上,实验人员通过细微优化,即可完全排除假阳性结果,这说明其对于阳性结果的诊断结果真实可信,最大程度上避免了漏诊和/或误诊,因此具有积极意义。
[0167]
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和润饰,这些改进和修饰也应视为本发明的保护范围。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1