生物样本分类方法、装置和存储介质

文档序号:31722108发布日期:2022-10-04 23:33阅读:53来源:国知局
生物样本分类方法、装置和存储介质

1.本发明涉及一种生物样本分类方法、装置和存储介质,属于光谱检测技术领域。


背景技术:

2.拉曼光谱作为一种高灵敏度的指纹光谱,现已被广泛地应用于环境检测、食品安全和生命科学等多个领域中液、固和气相物质的检测研究。支持向量机(support vector machine,svm)是一种基于机器学习的多变量分类器,能够根据算法中几个关键参数的选择来绘制不同复杂度的类边界以达到对样本进行分类的目的。以生命科学领域为例,基于拉曼光谱和svm构建的克罗恩病患者与健康对照组(hc)预测分类模型可以区分克罗恩病患者和hc的整体代谢变化,帮助临床医生诊断克罗恩病患者和监测疾病进展与复发情况。
3.现有方案中,基于拉曼光谱和pca(principal components analysis,pca)-svm构建疾病预测分类模型。其中,pca是一种常见的数据分析方式,常用于高维数据的降维,用于提取数据的主要特征分量,即用较少的指标代替和反映原始指标的主要信息。现有方案中在获取生物样本的拉曼光谱后,通过pca对拉曼光谱数据进行降维,提取拉曼光谱数据中的主要信息,再构建svm分类模型预测后续的生物样本拉曼光谱。
4.上述方法中的降维与分类以拉曼光谱中数个单独特征拉曼峰的强度作为依据,适合检测组分较为简单的物质。而由于尿液、血液和生物组织等生物样本成分极其复杂,拉曼峰位会因为各类原因而产生轻微偏移,使用该方法会影响预测分类模型的分类效果,也即上述预测分类模型的分类准确率较低。


技术实现要素:

5.本发明的目的在于提供一种生物样本分类方法、装置和存储介质,用于解决现有技术中存在的问题。
6.为达到上述目的,本发明提供如下技术方案:
7.根据第一方面,本发明实施例提供了一种生物样本分类方法,所述方法包括:
8.对于n类生物样本集中的每一类,获取所述生物样本集中的每个生物样本的平均拉曼光谱,n为大于1的整数;
9.基于统计学方法,确定并存储每个平均拉曼光谱中具有差异的拉曼特征峰位;
10.获取每个具有差异的拉曼特征峰位的拉曼特征峰面积;
11.根据生成的各个拉曼特征峰面积训练分类预测网络,所述分类预测网络用于预测目标生物样本的分类。
12.可选地,所述确定并存储每个平均拉曼光谱中具有差异的拉曼特征峰位,包括:
13.对于每个平均拉曼光谱,根据所述平均拉曼光谱中的各个拉曼特征峰位峰强的中位值和/或均值检测所述拉曼特征峰位是否具有差异;
14.存储检测到的具有差异的拉曼特征峰位。
15.可选地,所述获取每个具有差异的拉曼特征峰位的拉曼特征峰面积,包括:
16.确定每个具有差异的拉曼特征峰位的拉曼特征峰散点数据;
17.根据各个拉曼特征峰散点数据生成所述拉曼特征峰面积。
18.可选地,所述确定每个具有差异的拉曼特征峰位的拉曼特征峰散点数据,包括:
19.将每个具有差异的拉曼特征峰位中,拉曼特征峰以及所述拉曼特征峰左右n个数据点,确定为所述拉曼特征峰位的拉曼特征峰散点数据,n为大于1的整数。
20.可选地,所述根据各个拉曼特征峰散点数据生成拉曼特征峰面积,包括:
21.根据所述各个拉曼特征峰散点数据进行曲线拟合;
22.通过积分算法计算拟合后的曲线所围成的面积,将计算得到的面积作为所述拉曼特征峰面积。
23.可选地,所述根据生成的各个拉曼特征峰面积训练分类预测网络,包括:
24.将各个拉曼特征峰面积输入至初始支持向量机svm模型中,通过最优参数搜索方法确定所述初始svm模型的惩罚系数和核系数,将训练后的svm模型确定为所述分类预测网络。
25.第二方面,提供了一种生物样本分类方法,所述方法包括:
26.获取目标生物样本的目标平均拉曼光谱;
27.获取所述目标平均拉曼光谱中具有差异的拉曼特征峰位;所述具有差异的拉曼特征峰位为预先根据统计学方法确定并存储的峰位;
28.获取每个具有差异的拉曼特征峰位的拉曼特征峰面积;
29.将获取到的所述拉曼特征峰面积输入至分类预测网络,得到所述目标生物样本的分类;所述分类预测网络为通过权利要求1至6任一所述的训练方法训练得到的网络。
30.可选地,所述获取每个具有差异的拉曼特征峰位的拉曼特征峰面积,包括:
31.确定每个具有差异的拉曼特征峰位的拉曼特征峰散点数据;
32.根据各个拉曼特征峰散点数据生成所述拉曼特征峰面积。
33.第三方面,提供了一种生物样本分类装置,所述装置包括存储器和处理器,所述存储器中存储有至少一条程序指令,所述处理器通过加载并执行所述至少一条程序指令以实现如第一方面或者第二方面所述的方法。
34.第四方面,提供了一种计算机存储介质,所述计算机存储介质中存储有至少一条程序指令,所述至少一条程序指令被处理器加载并执行以实现如第一方面或者第二方面所述的方法。
35.通过对于n类生物样本集中的每一类,获取所述生物样本集中的每个生物样本的平均拉曼光谱,n为大于1的整数;基于统计学方法,确定并存储每个平均拉曼光谱中具有差异的拉曼特征峰位;获取每个具有差异的拉曼特征峰位的拉曼特征峰面积;根据生成的各个拉曼特征峰面积训练分类预测网络,所述分类预测网络用于预测目标生物样本的分类。解决了现有技术中分类准确率较低的问题,达到了可以通过具有差异的拉曼特征峰面积作为训练集,进而更全面的反应生物样本的光谱特征,避免分类效果受成分以及拉曼特征峰偏移的影响,提高了样本分类准确率的效果。
36.上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附图详细说明如后。
附图说明
37.图1为本发明一个实施例提供的生物样本分类方法的方法流程图;
38.图2为本发明一个实施例提供的根据平均拉曼光谱获取具有差异的拉曼特征峰位的拉曼特征峰面积的一种可能示意图;
39.图3为本发明一个实施例提供的生物样本分类方法的方法流程图。
具体实施方式
40.下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
41.在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
42.在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
43.此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
44.请参考图1,其示出了本技术一个实施例提供的生物样本分类方法的方法流程图,如图1所示,所述方法包括:
45.步骤101,对于n类生物样本集中的每一类,获取所述生物样本集中的每个生物样本的平均拉曼光谱,n为大于1的整数;
46.本技术所述的生物样本可以为血液、尿液或者生物组织等等,对此并不做限定。并且,本技术除特殊说明外,均以生物样本为尿液来举例说明。
47.在一种可能的实施例中,可以将生物样本分类2类,比如,将生物样本划分为疾病组a和疾病组b两类,或者,将生物样本划分为疾病组a和健康对照组等等,并且,下述除特殊说明外,均以n=2来举例说明。比如,对于肠息肉来讲,肠息肉是粘膜慢性炎症引起局部粘膜增生肥厚而形成的粘膜隆起样病变,此时,可以将生物样本分为炎症性和腺瘤性两类,当然,基于实际病理分析,还可以分为炎症性和健康两类,或者,分为腺瘤性和健康两类。
48.在生物样本为尿液时,本步骤包括:将各个生物样本分别与纳米银混合后进行拉曼光谱数据采集,得到各个生物样本的平均拉曼光谱。
49.其中,基于生物样本的类型不同,本步骤中获取对应的平均拉曼光谱的获取方式也有所不同,本技术对其具体实现并不做限定。
50.步骤102,基于统计学方法,确定并存储每个平均拉曼光谱中具有差异的拉曼特征峰位;
51.可选地,对于每个平均拉曼光谱,根据所述平均拉曼光谱中的各个拉曼特征峰位峰强中位值和/或均值检测所述拉曼特征峰位是否具有差异;存储检测到的具有差异的拉曼特征峰位。
52.在一种可能的实现方式中,假设同时基于中位值和均值来确定拉曼特征峰是否具有差异,则本步骤包括:基于kolmogorov-smirnov和shapiro-wilk检验两类拉曼光谱数据中主要拉曼峰的强度是否符合正态分布,当两种检验的检验结果为均符合正态分布(p》0.05)时,通过t检验(studentsttest)验证拉曼峰强度的均值的差异是否存在统计学意义(p《0.05);而当两种检验的检验结果为任一个不符合正态分布(p《0.05)时,应用wilcoxon秩和检验来验证拉曼峰强度的中值的差异是否具有统计学意义(p《0.05),在任一检测结果为具有统计学意义时,则将对应的拉曼特征峰位确定为具有差异的拉曼特征峰位。
53.当然,实际实现时,还可以通过其他统计学方法来确定具有差异的拉曼特征峰位,对其具体实现并不做限定。
54.步骤103,获取每个具有差异的拉曼特征峰位的拉曼特征峰面积;
55.可选地,本步骤包括:
56.第一,确定每个具有差异的拉曼特征峰位的拉曼特征峰散点数据;
57.将每个具有差异的拉曼特征峰位中,拉曼特征峰以及所述拉曼特征峰左右n个数据点,确定为所述拉曼特征峰位的拉曼特征峰散点数据,n为大于1的整数。
58.其中,所取的拉曼特征峰左右的数据点的个数可以相同,也可以不同,本技术仅以两侧选取的数据点个数相同来举例说明。在经过上述选取之后,即可得到2n+1个数据点,将2n+1个数据点确定为拉曼特征峰散点数据。
59.实际实现时,为了提高准确率,本技术选取的各个数据点在水平方向上的距离大于第一距离且小于第二距离。
60.第二,根据各个拉曼特征峰散点数据生成所述拉曼特征峰面积。
61.(1)、根据所述各个拉曼特征峰散点数据进行曲线拟合;
62.(2)、通过积分算法计算拟合后的曲线所围成的面积,将计算得到的面积作为所述拉曼特征峰面积。
63.在本技术的一种可能的实施例中,请参考图2,其示出了本技术所述的方法对拉曼光谱进行处理的示意图。如图2所示,两条曲线即图中所示的1分别表示两个生物样本的平均拉曼光谱的光谱曲线,基于统计学分析后可以得到两个具有差异的拉曼特征峰位2,之后,选取具有差异的拉曼特征峰位中左右各2个数据点即图中所示的3,并在拟合得到曲线后计算拉曼特征峰面积4。
64.请参考表1,其示出了本技术获取到的各个生物样本所对应的一种可能的拉曼特征值面积的。
65.[0066][0067]
表1
[0068]
步骤104,根据生成的各个拉曼特征峰面积训练分类预测网络,所述分类预测网络用于预测目标生物样本的分类。
[0069]
将各个拉曼特征峰面积输入至初始支持向量机svm模型中,通过最优参数搜索方法确定所述初始svm模型的惩罚系数和核系数,将训练后的svm模型确定为所述分类预测网络。
[0070]
可选地,初始svm模型可以使用高斯核函数(radial basis function,rbf),本技术对初始svm模型的具体实现并不做限定。。
[0071]
综上所述,通过对于n类生物样本集中的每一类,获取所述生物样本集中的每个生物样本的平均拉曼光谱,n为大于1的整数;基于统计学方法,确定并存储每个平均拉曼光谱中具有差异的拉曼特征峰位;获取每个具有差异的拉曼特征峰位的拉曼特征峰面积;根据生成的各个拉曼特征峰面积训练分类预测网络,所述分类预测网络用于预测目标生物样本的分类。解决了现有技术中分类准确率较低的问题,达到了可以通过具有差异的拉曼特征峰面积作为训练集,进而更全面的反应生物样本的光谱特征,避免分类效果受成分以及拉曼特征峰偏移的影响,提高了样本分类准确率的效果。
[0072]
请参考图3,其示出了本技术一个实施例提供的生物样本分类方法的方法流程图,如图3所示,所述方法包括:
[0073]
步骤301,获取目标生物样本的目标平均拉曼光谱;
[0074]
本步骤与上述步骤101类似,不同的是,获取平均拉曼光谱的对象不同,在此不再赘述。
[0075]
步骤302,获取所述目标平均拉曼光谱中具有差异的拉曼特征峰位;所述具有差异的拉曼特征峰位为预先根据统计学方法确定并存储的峰位;
[0076]
首先,获取预先存储的具有差异的拉曼特征峰位,然后根据获取到的具有差异的拉曼特征峰位确定目标平均拉曼光谱中的具有差异的拉曼特征峰位。其中,预先存储的具有差异的拉曼特征峰位为通过统计学方法确定的峰位,其具体确定方法可以详见上述实施例中的步骤102,在此不再赘述。
[0077]
步骤303,获取每个具有差异的拉曼特征峰位的拉曼特征峰面积;
[0078]
可选地,本步骤包括:
[0079]
第一,确定每个具有差异的拉曼特征峰位的拉曼特征峰散点数据;
[0080]
第二,根据各个拉曼特征峰散点数据生成所述拉曼特征峰面积。
[0081]
实际实现时,本步骤与步骤103类似,详细技术细节请参考上述实施例,在此不再赘述。
[0082]
步骤304,将获取到的所述拉曼特征峰面积输入至分类预测网络,得到所述目标生物样本的分类;所述分类预测网络为通过上述训练方法训练得到的网络。
[0083]
综上所述,通过获取目标生物样本的目标平均拉曼光谱;获取所述目标平均拉曼光谱中具有差异的拉曼特征峰位;所述具有差异的拉曼特征峰位为预先根据统计学方法确定并存储的峰位;获取每个具有差异的拉曼特征峰位的拉曼特征峰面积;将获取到的所述拉曼特征峰面积输入至分类预测网络,得到所述目标生物样本的分类;所述分类预测网络为通过上述训练方法训练得到的网络。解决了现有技术中分类准确率较低的问题,达到了可以通过具有差异的拉曼特征峰面积作为训练集,进而更全面的反应生物样本的光谱特征,避免分类效果受成分以及拉曼特征峰偏移的影响,提高了样本分类准确率的效果。
[0084]
本技术还提供了一种生物样本分类装置,所述装置包括存储器和处理器,所述存储器中存储有至少一条程序指令,所述处理器通过加载并执行所述至少一条程序指令以实现如上所述的方法。
[0085]
本技术还提供了一种计算机存储介质,所述计算机存储介质中存储有至少一条程序指令,所述至少一条程序指令被处理器加载并执行以实现如上所述的方法。
[0086]
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0087]
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1