本技术涉及生物医药领域,具体的涉及一种基于多光谱集的拉曼光谱相似性评估方法。
背景技术:
1、表面增强拉曼光谱(surface enhanced raman spectroscopy,sers)是分子水平上一种高特异性、高灵敏度、无创且无标记的指纹振动光谱技术。sers技术依靠热点区域的强电磁场增强,获得比自发拉曼光谱高十数个数量级的光信号。目前,sers在分子检测、疾病诊断和药物分析等领域得到了广泛的研究。然而,由于增强热点的不可控和分子的随机布朗运动,sers光谱重复性性较差,这是阻碍sers技术在定量检测方面进行更为广泛的实际应用的主要障碍。另外,针对一个sers增强基底上的不同位置的增强性能的均一性评估,也需要涉及到不同拉曼光谱之间的定量比较。因此,无论是多次测试的重复性评估还是不同位置的均一性评估,sers光谱之间的相似性评价是重要前提。
2、目前,常见的评估光谱重复性的方法是欧几里德距离和皮尔森相关系数。
3、欧几里得距离把每条光谱看成是一个高维向量,光谱相似性大小的评价问题转化为高维向量之间距离大小的度量问题。两个高维向量之间的几何距离越大,则光谱之间相似性越低。反之,几何距离越小,光谱之间相似性越高。欧几里德距离是光谱相似性度量方法中较常用的一种距离度量。欧几里得距离的计算公式表示为
4、
5、其中,n表示向量的维度,即每条光谱含有的数据点数。sx与sy分别表示待比较的两条光谱。
6、皮尔森相关系数用于计算两个高维向量之间的相关程度,通过相关性表征两条光谱之间的相似性。两个变量之间的皮尔逊相关系数定义为两个变量之间的协方差和标准差的商:
7、
8、
9、式中,σ(sx,sy)为待测光谱向量sx和已知光谱向量sy的协方差,σ(sx)σ(sy)为光谱向量的标准差。
10、虽然欧几里得距离和皮尔森相关系数可以完成对两条单光谱的相似性评价,但是其无法完成两个由多光谱组成的光谱集之间的相似性评价。
技术实现思路
1、对于仅有少数分子组成的简单分子系统而言,一张光谱或者几张光谱的平均光谱即可表征系统中含有的分子信息。因此只需要读出前后几次重复测量的多条光谱的拉曼信号即可完成重复性的评估。类似的方法有欧几里德距离和皮尔森相关系数。然而这类依赖两条单光谱之间的差异进行比较的方法无法适用于复杂分子系统。
2、复杂分子系统往往含有种类更繁多(常常多达数千种)的分子信息,比如细胞裂解液、血清和尿液等生物样本。而对这类以体液为代表的复杂生物样本而言,对其重复性的评估直接影响到sers在临床活检方面的应用。但是复杂的分子信息使得单条光谱只能表征测量时随机出现在激光光斑和电磁场热点区域内的部分分子。因此,需要采集多条拉曼光谱以组成光谱集从而表征复杂分子系统中完整的分子信息。然而目前还没有针对同一个样本重复测量获得的两个光谱集之间的相似性评估方法。
3、一个普适的光谱集相似性的评估方法应该可以完成以下四个方面的评估:
4、(1)平行样本的重复性评估:对于从同一个样本的多个平行样获得的多个光谱集,评估方法应判定为具有较高的相似性;
5、(2)均匀性评估:对于从一个混合均匀的样本的不同位置获得的多个光谱集,评估方法应判定为具有较高的相似性;
6、(3)重复测量的重复性评估:对一个样本进行多次重复测量,评估方法应判定为具有较高的相似性;
7、(4)不同数量光谱集的重复性评估:在光谱数量足够表征整个样本的完整分子信息的前提下,对同一个样本获得的多个由不同数量光谱组成的光谱集,评估方法应判定为具有较高的相似性。
8、本技术的目的在于针对以生物样本为代表的复杂系统的sers应用中,建立一种基于多光谱集的重复性评估标准。我们基于推土机距离(wasserstein distance,wd)建立了多光谱区间化重复性评估方法(wasserstein distance-based multiple raman spectralinterval evaluation,wd-mrsie)。与计算两组数据之间的相关性不同,wd定量化地计算两组数据之间的统计学距离,即把一组数据变为另一组数据所需的代价。由于是基于数据集的距离概念,因此wd很适合定量表征数据集的差异。另外,由于检测过程中的仪器等因素带来的误差,重复测量的拉曼峰之间可能存在一定程度的位移,因此本方法将拉曼光谱按照峰位置划分成不同的区间,将每个区间内的所有光谱的拉曼强度作为一个数据集,采用wd计算两次测量之间该数据集的统计学距离,并最终取所有区间的平均值作为最终定量化结果。针对两个光谱集x和y的相似性表征,wd-mrsie的实施步骤如下:
9、1.按照峰的大致位置将拉曼光谱划分为n个区间;
10、2.将x内所有光谱在每个区间的数据合并作为单独的数据集,获得x1,x2,…,xn共n个数据集;
11、3.对y重复步骤2的操作,获得y1,y2,…,yn共n个数据集;
12、4.依次计算xi和yi(i=1,2,…,n)两个数据集的wd值(wd1,wd2,…,wdn)
13、5.取上述n个wd值的平均值wdavg作为最终的x和y之间的相似性表征结果。
14、一方面,本技术提供了一种基于推土机距离(wasserstein distance,wd)的光谱集相似性评估方法,包括:将光谱按照峰位置划分成不同的区间,将每个区间内的所有光谱的强度作为一个数据集,采用wd计算两次测量之间该数据集的统计学距离,并最终取所有区间的wd平均值作为光谱集相似性表征结果。
15、在某些实施方式中,针对两个光谱集x和y的相似性评估,其中所述方法包括以下步骤:
16、1)按照峰的位置将光谱划分为n个区间;
17、2)将x内所有光谱在每个区间的数据合并作为单独的数据集,获得x1,x2,…,xn共n个数据集;
18、3)对y重复步骤2的操作,获得y1,y2,…,yn共n个数据集;
19、4)依次计算xi和yi(i=1,2,…,n)两个数据集的wd值(wd1,wd2,…,wdn);
20、5)取上述n个wd值的平均值wdavg作为最终的x和y之间的相似性表征结果。
21、在某些实施方式中,其中将所述峰的左右端点作为区间的上下界。
22、在某些实施方式中,所述方法在以下相似性评估中表征为具有相似性:平行样本的重复性评估:对于从同一个样本的多个平行样获得的多个光谱集;均匀性评估:对于从一个混合均匀的样本的不同位置获得的多个光谱集;重复测量的重复性评估:对一个样本进行多次重复测量获得的多个光谱集;或不同数量光谱集的重复性评估:在光谱数量足够表征整个样本的完整分子信息的前提下,对同一个样本获得的多个由不同数量光谱组成的光谱集。
23、在某些实施方式中,所述方法还包括:1)对每一个光谱集的所有光谱实施归一化操作;2)通过归一化后的光谱集计算平均wd值以表征光谱集之间相似性。
24、在某些实施方式中,当用于重复测量的重复性评估时,所述方法包括:1)对每一个光谱集的所有光谱实施归一化操作;2)通过归一化后的光谱集计算平均wd值以表征光谱集之间相似性。
25、在某些实施方式中,其中所述归一化操作包括:计算光谱集的所有光谱的所有强度值的平均值和标准差,将每一个强度值减去该平均值并除以标准差以实现整个光谱集的归一化。
26、在某些实施方式中,其中所述归一化步骤包括:假设某一光谱集包含m条光谱,每条光谱有n个点,则组成一个n行,m列的矩阵w,即矩阵w包含m×n个元素,有归一化后的矩阵其中,wmean为矩阵所有元素的平均值,wstd为所有元素的标准差。
27、在某些实施方式中,针对两个光谱集x和y的相似性评估,其中所述方法包括以下步骤:
28、1)计算光谱集x的所有光谱的所有强度值的平均值和标准差,将每一个强度值减去该平均值并除以标准差以实现光谱集x的归一化;
29、2)对y重复步骤1的操作,实现光谱集y的归一化;按照峰的位置将光谱划分为n个区间;
30、3)将x内所有光谱在每个区间的数据合并作为单独的数据集,获得x1,x2,…,xn共n个数据集;
31、4)对y重复步骤4的操作,获得y1,y2,…,yn共n个数据集;
32、5)依次计算xi和yi(i=1,2,…,n)两个数据集的wd值(wd1,wd2,…,wdn);
33、6)取上述n个wd值的平均值wdavg作为最终的x和y之间的相似性表征结果。
34、在某些实施方式中,其中所述光谱包括红拉曼光谱、红外光谱、质谱、和/或太赫兹光谱。
35、在某些实施方式中,其中所述拉曼光谱包括表面增强拉曼光谱。
36、另一方面,本技术提供了一种基于推土机距离的拉曼光谱多区间化相似性评估方法(wasserstein distance-based multiple raman spectral interval evaluation,wd-mrsie),包括:将拉曼光谱按照峰位置划分成不同的区间,将每个区间内的所有光谱的拉曼强度作为一个数据集,采用wd计算两次测量之间该数据集的统计学距离,并最终取所有区间的wd平均值作为拉曼光谱集相似性表征结果。
37、在某些实施方式中,针对两个拉曼光谱集x和y的相似性评估,其中所述方法包括以下步骤:
38、1)按照峰的位置将拉曼光谱划分为n个区间;
39、2)将x内所有光谱在每个区间的数据合并作为单独的数据集,获得x1,x2,…,xn共n个数据集;
40、3)对y重复步骤2的操作,获得y1,y2,…,yn共n个数据集;
41、4)依次计算xi和yi(i=1,2,…,n)两个数据集的wd值(wd1,wd2,…,wdn);
42、5)取上述n个wd值的平均值wdavg作为最终的x和y之间的相似性表征结果。
43、在某些实施方式中,其中将所述峰的左右端点作为区间的上下界。
44、在某些实施方式中,所述方法在以下相似性评估中表征为具有相似性:
45、1)平行样本的重复性评估:对于从同一个样本的多个平行样获得的多个拉曼光谱集;
46、2)均匀性评估:对于从一个混合均匀的样本的不同位置获得的多个拉曼光谱集;
47、3)重复测量的重复性评估:对一个样本进行多次重复测量获得的多个拉曼光谱集;或
48、4)不同数量光谱集的重复性评估:在光谱数量足够表征整个样本的完整分子信息的前提下,对同一个样本获得的多个由不同数量光谱组成的拉曼光谱集。
49、在某些实施方式中,所述方法还包括:1)对每一个拉曼光谱集的所有光谱实施归一化操作;2)通过归一化后的拉曼光谱集计算平均wd值以表征光谱集之间相似性。
50、在某些实施方式中,当用于重复测量的重复性评估时,所述方法包括:1)对每一个光谱集的所有光谱实施归一化操作;2)通过归一化后的光谱集计算平均wd值以表征光谱集之间相似性。
51、在某些实施方式中,其中所述归一化操作包括:计算光谱集的所有光谱的所有强度值的平均值和标准差,将每一个强度值减去该平均值并除以标准差以实现整个光谱集的归一化。
52、在某些实施方式中,其中所述归一化步骤包括:假设某一光谱集包含m条光谱,每条光谱有n个点,则组成一个n行,m列的矩阵w,有归一化后的矩阵其中,wmean为矩阵所有元素的平均值,wstd为所有元素的标准差
53、在某些实施方式中,针对两个拉曼光谱集x和y的相似性评估,其中所述方法包括以下步骤:
54、1)计算拉曼光谱集x的所有光谱的所有强度值的平均值和标准差,将每一个强度值减去该平均值并除以标准差以实现拉曼光谱集x的归一化;
55、2)对拉曼光谱集y重复步骤1的操作,实现拉曼光谱集y的归一化;
56、3)按照峰的位置将拉曼光谱划分为n个区间;
57、4)将x内所有光谱在每个区间的数据合并作为单独的数据集,获得x1,x2,…,xn共n个数据集;
58、5)对y重复步骤4的操作,获得y1,y2,…,yn共n个数据集;
59、6)依次计算xi和yi(i=1,2,…,n)两个数据集的wd值(wd1,wd2,…,wdn);
60、7)取上述n个wd值的平均值wdavg作为最终的x和y之间的相似性表征结果。
61、在某些实施方式中,所述光谱集包含至少约5个,约10个,约15个,约20个,约25个,约30个,约35个,约40个,约45个,约50个,约55个,约60个,约65个,约70个,约75个,约80个,约85个,约90个,约95个,约100个,约110个,约120个,约130个,约140个,约150个,约160个,约170个,约180个,约190个,约200个,约220个,约240个,约260个,约280个,约300个,约350个,约400个,约450个,约500个,约550个,约600个,约650个,约700个,约750个,约800个,约950个或约1000个光谱。
62、在某些实施方式中,其中所述光谱集为复杂分子系统的光谱的集合。
63、在某些实施方式中,其中所述复杂分子系统包含至少约5个,约10个,约20个,约30个,约40个,约50个,约60个,约70个,约80个,约90个,约100个,约200个,约300个,约400个,约500个,约600个,约700个,约800个,约900个,约1000个,约2000个,约3000个,约4000个,约5000个,约6000个,约7000个,约8000个,约9000个或约10000个分子。
64、在某些实施方式中,其中所述分子包括小分子和/或大分子。
65、在某些实施方式中,其中所述小分子包括小分子代谢物。
66、在某些实施方式中,其中所述复杂分子系统中的分子的分子量范围为约100da至约100kda。
67、在某些实施方式中,其中所述分子的分子量不超过约10kda,约9kda,约8kda,约7kda,约6kda,约5kda,约4kda或约3kda。
68、在某些实施方式中,其中所述复杂分子系统包括生物样本或化学样本。
69、另一方面,本技术提供了一种评价光谱检测方法稳定性的方法,所述方法包括:基于前述的基于推土机距离的光谱集相似性评估方法评价该光谱检测方法获得的光谱集之间的相似性。
70、在某些实施方式中,其中所述光谱集选自:
71、1)平行样本的重复性评估:对于从同一个样本的多个平行样获得的多个光谱集;
72、2)均匀性评估:对于从一个混合均匀的样本的不同位置获得的多个光谱集;
73、3)重复测量的重复性评估:对一个样本进行多次重复测量获得的多个光谱集;和
74、4)不同数量光谱集的重复性评估:在光谱数量足够表征整个样本的完整分子信息的前提下,对同一个样本获得的多个由不同数量光谱组成的光谱集。
75、另一方面,本技术提供了一种评价样本之间相似性的方法,所述方法包括:1)分别获得待评价样本的光谱集;2)利用前述的方法评价待测样本之间的光谱集相似性。
76、另一方面,本技术提供了一种评价样本的方法,所述方法包括:1)构建标准样本的光谱集;2)获得待评价样本的光谱集;3)利用前述的基于推土机距离的光谱集相似性评估方法评价待测样本与标准样本的光谱集相似性。
77、在某些实施方式中,所述方法包括:1)构建标准数据库,所述标准数据库包含至少一个标准样本的光谱集数据;2)获得待评价样本的光谱集;3)利用前述的的方法评价待测样本与标准数据库中任意标准样本的光谱集相似性。
78、在某些实施方式中,所述方法还包括根据待测样本与标准样本的相似性结果进行筛选。
79、在某些实施方式中,其中所述光谱包括红拉曼光谱、红外光谱、质谱、和/或太赫兹光谱。
80、另一方面,本技术提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现前述的方法的步骤。
81、另一方面,本技术提供了一种装置,包括存储器和处理器,所述存储器存储有标准数据库和计算机程序,所述处理器执行所述计算机程序时实现前述的方法的步骤;所述标准数据库包含至少一个标准样本的光谱集数据。
82、另一方面,本技术提供了一种光谱集相似性评估系统,其包括:推土机距离计算模块,用于采用推土机距离计算方法计算光谱集之间的统计学距离,完成光谱集之间的相似性评价。
83、在某些实施方式中,所述的系统还包括区间划分模块,用于利用光谱峰对光谱进行区间划分。
84、在某些实施方式中,所述的系统还包括归一化模块,用于采用归一化方式对光谱集进行归一化操作。
85、在某些实施方式中,所述的系统还包括评价模块,用于利用两个光谱集之间的wd结果评价两个光谱集之间的相似性。
86、在某些实施方式中,所述的系统还包括标准数据库,所述标准数据库包含至少一个标准样本的光谱集数据,所述标准数据库用于与待评价光谱集进行相似性评价。
87、在某些实施方式中,所述的系统还包括筛选模块,用于利用光谱集相似性评价结果对待评价光谱集进行分类和/或标记。
88、另一方面,本技术提供了本技术所述的计算机可读存储介质,本技术所述的装置,或本技术所述的系统在制备装置中的用途,所述装置用于评价光谱集之间的相似性。
89、在某些实施方式中,所述装置可用于鉴定光谱集类型。
90、在某些实施方式中,其中所述光谱包括拉曼光谱。
91、在某些实施方式中,其中所述光谱包括表面增强拉曼光谱。
92、在某些实施方式中,其中所述光谱集为复杂分子系统的光谱的集合。
93、另一方面,本技术提供了本技术所述的计算机可读存储介质,本技术所述的装置,或本技术所述的系统在制备装置中的用途,所述装置用于评估患病风险、评估疾病严重程度和/或诊断疾病。
94、另一方面,本技术提供了一种评估患病风险、评估疾病严重程度和/或诊断疾病的方法,所述方法包括:1)获得受试者的样本的光谱集;2)利用前述的方法评价待受试者的样本与标准数据库中任意标准样本的光谱集相似性。
95、在某些实施方式中,其中所述标准样本包括健康受试者样本和/或患病受试者样本。
96、另一方面,本技术提供了一种评估患病风险、评估疾病严重程度和/或诊断疾病的系统,所述系统包括标准数据库和计算机程序,所述计算机程序被处理器执行时实现前述的方法的步骤,所述标准数据库包含至少一个标准样本的光谱集数据。
97、在某些实施方式中,其中所述标准样本包括健康受试者样本和/或患病受试者样本。
98、本领域技术人员能够从下文的详细描述中容易地洞察到本技术的其它方面和优势。下文的详细描述中仅显示和描述了本技术的示例性实施方式。如本领域技术人员将认识到的,本技术的内容使得本领域技术人员能够对所公开的具体实施方式进行改动而不脱离本技术所涉及发明的精神和范围。相应地,本技术的附图和说明书中的描述仅仅是示例性的,而非为限制性的。