基于ART2A算法的颗粒物聚类方法、装置、设备和存储介质

文档序号:33620971发布日期:2023-03-25 11:46阅读:32来源:国知局
基于ART2A算法的颗粒物聚类方法、装置、设备和存储介质
基于art2a算法的颗粒物聚类方法、装置、设备和存储介质
技术领域
1.本技术涉及颗粒物的处理技术领域,特别是涉及一种基于art2a算法的颗粒物聚类方法、装置、计算机设备和存储介质。


背景技术:

2.大气颗粒物成分测量和源解析是大气环境研究中的重要课题,其对于大气污染控制起到关键的作用。目前常用的是基于颗粒物质谱的在线分析方法,其中,对大量颗粒物的质谱信息进行聚类前处理是必不可少的一个步骤,而art2a是聚类前处理的常用方法。
3.atr2a是建立在聚类中心进行聚类的方法,也就是按照颗粒物的质谱与聚类中心的质谱之间的相似度对颗粒物进行聚类处理。其通常会对颗粒物重复进行多轮分类,并且在每轮分类时,会以固定的更新程度对聚类中心的质谱进行更新。
4.但是,在颗粒物的质谱数据样本数较多的情况下,由于每轮分类时聚类中心的质谱的更新程度是固定的,所以在样本数较多时存在聚类中心更新特性的周期性涨落,会导致颗粒物各类别的类间相关性变高,最终形成较多的分类。


技术实现要素:

5.基于此,有必要针对上述技术问题,提供一种能够降低类间相关性以减少分类数量的颗粒物聚类方法、装置、计算机设备和存储介质。
6.本技术提供了一种基于art2a算法的颗粒物聚类方法,该方法包括:
7.获取多个颗粒物的质谱以及本轮的类中心质谱矩阵;
8.根据颗粒物的质谱和本轮的类中心质谱矩阵,将各颗粒物划分到质谱相似的类中心下,完成本轮分类;
9.根据本轮划分到类中心下的颗粒物的质谱、颗粒物与类中心之间的相似度,对本轮的类中心质谱矩阵进行更新,得到下轮的类中心质谱矩阵;其中,颗粒物与划分到的类中心之间的相似度越高,在本轮的类中心质谱矩阵中,对该类中心的质谱的更新程度越小,相似度越低,更新程度越大;
10.根据多个颗粒物的质谱以及下轮的类中心质谱矩阵,对多个颗粒物进行下轮分类。
11.本技术还提供了一种基于art2a算法的颗粒物聚类装置,该装置包括:
12.质谱获取模块,用于获取多个颗粒物的质谱以及本轮的类中心质谱矩阵;
13.本轮分类模块,用于根据颗粒物的质谱和本轮的类中心质谱矩阵,将各颗粒物划分到质谱相似的类中心下,完成本轮分类;
14.矩阵更新模块,用于根据本轮划分到类中心下的颗粒物的质谱、颗粒物与类中心之间的相似度,对本轮的类中心质谱矩阵进行更新,得到下轮的类中心质谱矩阵;其中,颗粒物与划分到的类中心之间的相似度越高,在本轮的类中心质谱矩阵中,对该类中心的质谱的更新程度越小,相似度越低,更新程度越大;
15.下轮分类模块,用于根据多个颗粒物的质谱以及下轮的类中心质谱矩阵,对多个颗粒物进行下轮分类。
16.本技术还提供了一种计算机设备,该计算机设备包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现以下步骤:
17.获取多个颗粒物的质谱以及本轮的类中心质谱矩阵;
18.根据颗粒物的质谱和本轮的类中心质谱矩阵,将各颗粒物划分到质谱相似的类中心下,完成本轮分类;
19.根据本轮划分到类中心下的颗粒物的质谱、颗粒物与类中心之间的相似度,对本轮的类中心质谱矩阵进行更新,得到下轮的类中心质谱矩阵;其中,颗粒物与划分到的类中心之间的相似度越高,在本轮的类中心质谱矩阵中,对该类中心的质谱的更新程度越小,相似度越低,更新程度越大;
20.根据多个颗粒物的质谱以及下轮的类中心质谱矩阵,对多个颗粒物进行下轮分类。
21.本技术还提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
22.获取多个颗粒物的质谱以及本轮的类中心质谱矩阵;
23.根据颗粒物的质谱和本轮的类中心质谱矩阵,将各颗粒物划分到质谱相似的类中心下,完成本轮分类;
24.根据本轮划分到类中心下的颗粒物的质谱、颗粒物与类中心之间的相似度,对本轮的类中心质谱矩阵进行更新,得到下轮的类中心质谱矩阵;其中,颗粒物与划分到的类中心之间的相似度越高,在本轮的类中心质谱矩阵中,对该类中心的质谱的更新程度越小,相似度越低,更新程度越大;
25.根据多个颗粒物的质谱以及下轮的类中心质谱矩阵,对多个颗粒物进行下轮分类。
26.上述基于art2a算法的颗粒物聚类方法、装置、计算机设备和存储介质,在获取到多个颗粒物的质谱和类中心质谱矩阵后,将各颗粒物划分到质谱相似的类中心下,并进行多轮分类;在每轮分类过程中对每轮的类中心质谱矩阵进行更新,类中心质谱矩阵中的更新程度与各颗粒物与其所属的类中心之间的相似度呈反比关系,所以不同轮的类中心质谱的更新程度是变化的,能够避免类中心更新特性的周期性涨落的问题,降低了类间相关性,最终形成了较少的分类。
附图说明
27.图1为一个实施例中基于art2a算法的颗粒物聚类方法的流程示意图;
28.图2为一个实施例中颗粒物基于逐颗粒划分的方法的流程示意图;
29.图3为一个实施例中颗粒物基于平均谱划分的方法的流程示意图;
30.图4为一个实施例中基于art2a算法的颗粒物聚类装置的结构框图;
31.图5为一个实施例中计算机设备的内部结构图。
具体实施方式
32.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
33.在本技术中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本技术所描述的实施例可以与其它实施例相结合。
34.在一个实施例中,如图1所示,提供了一种基于art2a算法的颗粒物聚类方法,以该方法应用于计算机设备进行说明,包括以下步骤:
35.步骤s101,获取多个颗粒物的质谱以及本轮的类中心质谱矩阵。
36.步骤s102,根据颗粒物的质谱和本轮的类中心质谱矩阵,将各颗粒物划分到质谱相似的类中心下,完成本轮分类。
37.颗粒物是指气体介质中均匀分散的各种固体或液体微粒,而质谱法是现代科学中常用的一种测量离子质荷比的分析方法,也常用于对颗粒物的粒径和化学组成进行分析。颗粒物的质谱可以是通过向量进行表示的,其中,向量中的每一个元素表示质谱中一个特征离子峰。
38.大气中通常包括多个颗粒物,多个颗粒物的质谱可以构成一个质谱稀疏矩阵,质谱稀疏矩阵中的每一个向量都表示一个颗粒物的质谱。示例性的,可以通过如下方式去表征一个质谱稀疏矩阵:
[0039][0040]
其中,mi=(a
i1
,

,a
in
)表示第i个颗粒物的质谱行向量,n代表质谱的特征离子峰位置,i∈[1,m]。
[0041]
在对多个颗粒物进行分类的过程中需要使用多个类中心的质谱,多个类中心的质谱可以一个构成类中心质谱矩阵。示例性的,可以通过如下方式去表征一个类中心质谱矩阵:
[0042][0043]
其中,wj=(b
1j
,

,b
nj
)
t
表示第j类类中心的质谱列向量,n代表质谱的特征离子峰位置,j∈[1,q]。
[0044]
上述方式中,质谱稀疏矩阵和类中心质谱矩阵中的所有质谱都需经过欧氏范数的单位化处理。
[0045]
分类时,当一个质谱稀疏矩阵中所有的颗粒物都划分到了本轮的类中心质谱矩阵中各类中心下时,就认为完成一轮的分类。通常会进行多轮分类以提升分类的准确度,而且在每轮分类时会对类中心质谱矩阵中的各类中心的质谱进行更新,直到类中心质谱矩阵满足收敛条件,才停止分类过程。
[0046]
进一步地,根据颗粒物的质谱和本轮的类中心质谱矩阵,将多个颗粒物逐个划分到质谱相似的类中心下,包括:从多个颗粒物中随机获取一个颗粒物的质谱;将该颗粒物的质谱分别与本轮的类中心质谱矩阵中各类中心的质谱进行比较,得到该颗粒物与各类中心之间的相似度;获取该颗粒物与各类中心之间的相似度中的最大相似度;若最大相似度大于设定阈值,则确定该颗粒物与最大相似度对应的类中心之间质谱相似;将该颗粒物划分到该类中心下。
[0047]
具体地,将一个颗粒物的质谱与本轮的各类中心的质谱进行比较的方式,是将该颗粒物的质谱作为一个行向量、各类中心的质谱作为多个列向量,分别进行点乘得到多个相似度值,多个相似度值构成的一个相似度向量。若该相似度向量中的最大相似度值大于设定阈值,则确定该颗粒物与该最大相似度值对应的类中心之间质谱相似,将其划分到该类中心下。对质谱稀疏矩阵中的多个颗粒物按上述比较方式进行分类,完成全部颗粒物的分类后,即完成本轮分类。
[0048]
通过上述对多个颗粒物按逐颗粒进行比较分类的方式,将质谱稀疏矩阵中所有的颗粒物都分别与类中心质谱矩阵进行了比较,并将达到质谱相似要求的颗粒物都划分到了某个类中心下,实现了每轮分类时分类的准确性。
[0049]
步骤s103,根据本轮划分到类中心下的颗粒物的质谱、颗粒物与类中心之间的相似度,对本轮的类中心质谱矩阵进行更新,得到下轮的类中心质谱矩阵;其中,颗粒物与划分到的类中心之间的相似度越高,在本轮的类中心质谱矩阵中,对该类中心的质谱的更新程度越小,相似度越低,更新程度越大。
[0050]
具体地,在本轮分类时,颗粒物已经被划分到与其质谱相似的各类中心下,此时,各类中心下的颗粒物的数量可以是一个或者多个。若某类中心下的颗粒物仅有一个,则利用该颗粒物的质谱以及该颗粒物与该类中心之间的相似度,对该类中心的质谱进行更新。若某类中心下的颗粒物为多个,则利用其下所有颗粒物的质谱以及各颗粒物与该类中心之间的相似度,对该类中心的质谱进行更新。
[0051]
其中,在本轮分类时,可以是在分类中根据单个颗粒物的质谱以及相似度对类中心的质谱进行多次更新,也可以是在分类后根据多个颗粒物的质谱平均值以及相似度平均值进行一次更新。
[0052]
示例性的,假设分类时存在类中心a和类中心b,以及颗粒物1、2、3和4。
[0053]
在一种情况下,是在分类中根据单个颗粒物的质谱以及相似度对类中心的质谱进行多次更新,其分类过程如下所述:
[0054]
首先对颗粒物1进行分类,将颗粒物1的质谱分别与类中心a和类中心b的质谱进行比较。若其与类中心a之间质谱相似,则将其划分到类中心a下,并根据颗粒物1的质谱和颗粒物1与类中心a之间的相似度,对类中心a的质谱进行一次更新,得到更新后的类中心a。
[0055]
其次对颗粒物2进行分类,将颗粒物2的质谱分别与更新后的类中心a和类中心b的质谱进行比较。若其与类中心b之间质谱相似,则将其划分到类中心b下,并根据颗粒物2的质谱和颗粒物2与类中心b之间的相似度,对类中心b的质谱进行一次更新,得到更新后的类中心b。
[0056]
然后对颗粒物3进行分类,将颗粒物3的质谱分别与更新后的类中心a和更新后的类中心b的质谱进行比较。若其与更新后的类中心a之间质谱相似,则将其划分到更新后的
类中心a下,并根据颗粒物3的质谱和颗粒物3与更新后的类中心a之间的相似度,对更新后的类中心a的质谱进行一次更新,得到再次更新后的类中心a。
[0057]
最后对颗粒物4进行分类,将颗粒物3的质谱分别与再次更新后的类中心a和更新后的类中心b的质谱进行比较。其具体分类结果在此不做假设,可以理解的是,将根据其分类结果,对颗粒物4划分到的类中心的质谱进行一次更新。
[0058]
在另一种情况下,是在分类后根据多个颗粒物的质谱平均值以及相似度平均值进行一次更新,其分类过程如下所述:
[0059]
首先对颗粒物1进行分类,将颗粒物1的质谱分别与类中心a和类中心b的质谱进行比较。若其与类中心a之间质谱相似,则将其划分到类中心a下,类中心a的质谱不变。
[0060]
其次对颗粒物2进行分类,将颗粒物2的质谱分别与类中心a和类中心b的质谱进行比较。若其与类中心b之间质谱相似,则将其划分到类中心b下,类中心b的质谱不变。
[0061]
然后对颗粒物3和颗粒物4进行分类,分类过程与上述方法相同,假设颗粒物3和颗粒物4均与类中心b之间质谱相似。
[0062]
最后对类中心a和类中心b的质谱进行一次更新,此时类中心a下有颗粒物1,类中心b下有颗粒物2、3和4。对于类中心a的质谱更新时,由于其下仅有一个颗粒物,所以,根据颗粒物1的质谱和颗粒物1与类中心a之间的相似度,对类中心a的质谱进行一次更新。对于类中心b的质谱更新时,计算颗粒物2、3和4的质谱平均值,以及颗粒物2、3和4与类中心b之间的相似度平均值,根据该质谱平均值和该相似度平均值对类中心b的质谱进行一次更新。
[0063]
在对某类中心的质谱进行更新时,颗粒物与划分到的类中心之间的相似度越高,则对该类中心的质谱的更新程度越小,相似度越低,则更新程度越大,即更新程度与相似度之间为负相关关系。
[0064]
步骤s104,根据多个颗粒物的质谱以及下轮的类中心质谱矩阵,对多个颗粒物进行下轮分类。
[0065]
具体地,将本轮分类后,获取更新本轮的类中心质谱矩阵得到的下轮的类中心质谱矩阵,对多个颗粒物的质谱逐颗粒进行下轮分类。将单个颗粒物的质谱与下轮的类中心质谱矩阵中的所有类中心的质谱进行比较,将该颗粒物划分到与其相似度最大的类中心下。对多个颗粒物按逐颗粒比较的方式进行分类,再一次完成全部颗粒物的分类后,即完成下轮分类。
[0066]
上述基于art2a算法的颗粒物聚类方法,能够在获取到多个颗粒物的质谱和类中心质谱矩阵后,将各颗粒物划分到质谱相似的类中心下,并进行多轮分类。在每轮分类过程中对每轮的类中心质谱矩阵进行更新,类中心质谱矩阵中的更新程度与各颗粒物与其所属的类中心之间的相似度呈负相关关系。通过上述对类中心质谱矩阵的更新方法,降低了类间相关性,最终形成了较少的分类,有效抑制了原聚类方法中存在的聚类过于精细问题。
[0067]
在一个实施例中,首轮的类中心质谱矩阵是从空变为非空,变化过程包括:具体步骤包括:在首轮逐颗粒划分的时候,直接将划分的首个颗粒物的质谱作为类中心质谱加入首轮的类中心质谱空矩阵中,得到首轮的类中心质谱非空矩阵;划分非首个颗粒物时,将所划分的非首个颗粒物的质谱和类中心质谱非空矩阵的类中心质谱进行比较;若所划分的非首个颗粒物的质谱与类中心质谱非空矩阵的类中心质谱均不相似,则将所划分的非首个颗粒物的质谱作为新的类中心质谱,加入到类中心质谱非空矩阵中。
[0068]
具体地,创建一个空矩阵,将其作为类中心质谱矩阵。在首轮分类时,将选取到的首个颗粒物的质谱作为一个类中心质谱加入到该类中心质谱空矩阵中,使类中心质谱空矩阵变为类中心质谱非空矩阵。之后要对非首个颗粒物进行划分,就将非首个颗粒物的质谱与类中心质谱非空矩阵中已有的类中心质谱进行比较。在比较过程中,若非首个颗粒物的质谱与类中心质谱非空矩阵中已有的类中心质谱均不相似,则将其作为新的类中心质谱,加入到类中心质谱非空矩阵中。比较完剩余的全部颗粒物后,即完成首轮分类,最终得到首轮的类中心质谱矩阵。
[0069]
本实施例中,通过首轮对颗粒物的划分,形成首轮的类中心质谱矩阵。在首轮分类过程中,建立了具有适当类间聚合度的由各类中心的质谱组成的类中心质谱矩阵,便于在下轮分类中能够对颗粒物的质谱进行合理的分类,并在分类过程中对类中心质谱矩阵进行更新。
[0070]
当首轮分类结束后,要进行非首轮的分类,即进行第二轮及之后轮次的分类时,与首轮分类时的类中心质谱矩阵变化过程相同,类中心质谱矩阵将在每轮分类开始前的基础上不断加入新的类中心质谱,以对全部颗粒物的质谱进行更精确的分类。
[0071]
如上所述,在一轮分类时,可以在分类过程中,根据单个颗粒物的质谱以及相似度对类中心的质谱进行多次更新,即每划分一个颗粒物到某类中心下,就更新一次该类中心的质谱。在此方式下,根据颗粒物的质谱和本轮的类中心质谱矩阵,将各颗粒物划分到质谱相似的类中心下,完成本轮分类,具体可以包括:根据颗粒物的质谱和本轮的类中心质谱矩阵,将多个颗粒物逐个划分到质谱相似的类中心下;本轮分类中,划分首个颗粒物所用的类中心质谱矩阵是根据各类中心的本轮初始质谱得到的;划分非首个颗粒物所用的类中心质谱矩阵的获取方式为:根据上一颗粒物的质谱,对本轮的类中心质谱矩阵中上一颗粒物划分到的类中心的质谱进行更新;将更新后的类中心质谱矩阵,作为该颗粒物划分时所用的类中心质谱矩阵;
[0072]
具体地,通过颗粒物的质谱和本轮的类中心质谱矩阵的多次比较,将多个颗粒物的质谱逐个划分到与其质谱相似的类中心下。在非首轮分类中,划分首个颗粒物所用的本轮的类中心质谱矩阵中,各类中心的质谱均为本轮初始质谱。
[0073]
在划分完首个颗粒物后,紧接着划分非首个颗粒物。在划分非首个颗粒物时,根据该非首个颗粒物的上一颗粒物的质谱,对上一颗粒物划分到的类中心的质谱进行更新。之后以更新后得到的类中心质谱矩阵,作为该非首个颗粒物划分时所用的类中心质谱矩阵,将非首个颗粒物的质谱与更新后的类中心质谱矩阵进行比较。
[0074]
其中,在更新类中心的质谱时,若上一颗粒物与上一颗粒物所划分到的类中心之间的相似度越高,则该类中心质谱的更新程度越小,若相似度越低,则更新程度越大。
[0075]
根据本轮划分到类中心下的颗粒物的质谱、颗粒物与类中心之间的相似度,对本轮的类中心质谱矩阵进行更新,得到下轮的类中心质谱矩阵,具体可以包括:在完成最后一个颗粒物的分类后,根据最后一个颗粒物的质谱,对本轮的类中心质谱矩阵中最后一个颗粒物划分到的类中心的质谱进行更新;将更新后的类中心质谱矩阵,作为下轮的类中心质谱矩阵。
[0076]
具体地,在完成最后一个颗粒物的分类后,根据最后一个颗粒物的质谱,对最后一个颗粒物划分到的类中心的质谱进行更新。完成本轮对颗粒物的分类以及对类中心质谱矩
阵的更新后,将得到的更新后的类中心质谱矩阵,作为下轮的类中心质谱矩阵。
[0077]
本实施例中,基于逐颗粒质谱对多个颗粒物的质谱进行多轮分类,在一轮分类中根据逐颗粒的质谱以及相似度更新类中心质谱矩阵,且更新程度与相似度呈反比关系。通过上述步骤,更好地指导本轮下一颗粒物的分类,提高分类的准确性,并降低了各类中心之间的相关性。
[0078]
如上所述,在一轮分类时,可以在分类过程后,根据多个颗粒物的质谱平均值以及相似度平均值对类中心的质谱进行一次更新,即一轮分类结束时,根据某类中心下划分到的多个颗粒物,对该类中心的质谱进行一次更新。在此方式下,根据颗粒物的质谱和本轮的类中心质谱矩阵,将各颗粒物划分到质谱相似的类中心下,完成本轮分类,具体可以包括:根据颗粒物的质谱和本轮的类中心质谱矩阵,将多个颗粒物逐个划分到质谱相似的类中心下;当本轮为非首轮时,在本轮分类过程中,划分各颗粒物所用的类中心质谱矩阵是不变的;
[0079]
具体地,通过颗粒物的质谱和本轮的类中心质谱矩阵的多次比较,将多个颗粒物的质谱逐个划分到与其质谱相似的类中心下。当本轮为首轮时,划分各颗粒物所用的首轮的类中心质谱矩阵的变化过程如上所述。当本轮为非首轮时,本轮的类中心质谱矩阵在分类过程中数值不会发生改变。
[0080]
根据本轮划分到类中心下的颗粒物的质谱、颗粒物与类中心之间的相似度,对本轮的类中心质谱矩阵进行更新,得到下轮的类中心质谱矩阵,包括:在完成最后一个颗粒物的分类后,根据各类中心下所有颗粒物的质谱平均值、各类中心下所有颗粒物与所属类中心之间的相似度平均值,对本轮的类中心质谱矩阵中各类中心的质谱进行更新,得到下轮的类中心质谱矩阵;其中,各类中心下所有颗粒物与所属类中心之间的相似度平均值越高,在本轮的类中心质谱矩阵中,对各类中心的质谱的更新程度越小,相似度越低,更新程度越大。
[0081]
具体地,在完成最后一个颗粒物的分类后,计算各类中心下所有颗粒物的质谱平均值、各类中心下所有颗粒物与所属类中心之间的相似度平均值,根据两者的值对各类中心的质谱进行更新,得到下轮的类中心质谱矩阵。其中,各类中心下所有颗粒物与所属类中心之间的相似度平均值越高,对类中心质谱的更新程度越小,相似度越低,更新程度越大。
[0082]
本实施例中,基于平均谱对多个颗粒物的质谱进行多轮分类,在一轮分类后根据各类中心下所有颗粒物的质谱平均值、各类中心下所有颗粒物与所属类中心之间的相似度平均值,对各类中心的质谱进行更新,且更新程度与相似度平均值呈反比例关系。通过上述步骤,减少了分类时的计算量,提高分类的效率,并降低了各类中心之间的相关性。
[0083]
在一个实施例中,可通过如下步骤,确定对类中心的质谱的更新程度,包括:获取颗粒物与划分到的类中心之间的相似度以及自适应学习速率函数;将颗粒物与划分到的类中心之间的相似度,代入自适应学习速率函数,得到在本轮的类中心质谱矩阵中,对该类中心的质谱的更新程度。
[0084]
具体地,在基于逐颗粒质谱对多个颗粒物的质谱进行多轮分类时,获取各颗粒物与其所划分到的类中心之间的相似度,而在基于平均谱对多个颗粒物的质谱进行多轮分类时,获取各类中心下所有颗粒物与所属类中心之间的相似度平均值。将获取到的相似度作为自变量代入所选取的自适应学习速率函数中,得到在本轮的类中心质谱矩阵中,对该类
中心的质谱的更新程度。在上述的更新步骤中,通过得到的类中心的质谱的更新程度,对各类中心的质谱进行更新。其中,自适应学习速率函数的选取并无限制,只要能实现更新程度与相似度之间为负相关关系即可。
[0085]
示例性的,自适应学习速率函数的公式可以如下所示:
[0086][0087]
其中,p为相关系数,λ0为初始学习速率,k为自适应学习速率函数的50%下降(上升)率,c为50%下降的自适应学习速率,l为最低学习速率。
[0088]
在本实施例中,自适应学习速率函数中的相关系数p为颗粒物与类中心之间的相似度,λ0、k、c和l的取值根据实际情况进行设置。
[0089]
根据上述公式,p越大时,λ越小;p越小时,λ越大。p与λ之间为负相关关系,引入上述步骤对更新程度的计算中,便可实现更新程度与相似度之间为负相关关系。
[0090]
本实施例中,通过引入自适应学习函数,可以根据相似度调整类中心的质谱的更新程度。不同于原聚类方法中以固定学习速率对类中心的质谱进行更新,本实施例实现了对原聚类方法的改进,通过自适应地调整类中心的质谱,降低了类间相关性,有效抑制了原聚类方法中存在的聚类过于精细问题。
[0091]
在一个实施例中,在完成本轮分类后即将要进行下轮分类之前,需要先确定类中心质谱矩阵是否满足收敛条件。当类中心质谱矩阵收敛时,就结束分类过程。当类中心质谱矩阵未收敛时,则继续进行下轮分类。
[0092]
在确定是否收敛的时候,获取全部颗粒物与其所属类中心之间的相似度中的最小相似度。若最小相似度小于设定阈值,则确定类中心质谱矩阵未收敛,并根据多个颗粒物的质谱以及下轮的类中心质谱矩阵,对多个颗粒物进行下轮分类。
[0093]
本实施例中,根据全部颗粒物与其所属类中心之间的相似度中的最小相似度,确定在完成本轮分类后是否继续进行下轮分类,能够在类中心质谱矩阵未达到收敛条件时,通过多轮分类不断地对类中心质谱进行更新,不断提高各颗粒物与其所属类中心之间的相似度,从而不断提高分类结果的准确性。
[0094]
为了更好地理解上述方法,结合附图中的图2和图3,以下详细阐述一个本技术基于art2a算法的颗粒物聚类方法的应用实例。
[0095]
本实施例,根据对类中心质谱矩阵进行更新时更新方式的不同,分为基于逐颗粒质谱对类中心质谱进行更新的方案和基于平均谱对类中心质谱进行更新的方案。
[0096]
结合图2可知,基于逐颗粒质谱对类中心质谱进行更新的方案,包括:步骤s201,类中心质谱矩阵wm初始化:创建一个空矩阵,将其作为类中心质谱矩阵wm,即wm=[]。在首轮分类时,将质谱稀疏矩阵mm中的首个颗粒物的质谱m1的转置作为一个类中心质谱加入到类中心质谱矩阵中。
[0097]
步骤s202,获取由多个颗粒物的质谱组成的质谱稀疏矩阵mm,从质谱稀疏矩阵mm中随机选择一个颗粒物的质谱mi。将该颗粒物的质谱mi作为行向量,本轮的类中心质谱矩阵wm中各类中心的质谱作为多个列向量,通过mi·
wm点乘的方式,将该颗粒物的质谱分别与本轮的类中心质谱矩阵wm中各类中心的质谱进行比较,得到一个由该颗粒物与各类中心之
间的相似度值构成的相似度向量p。
[0098]
步骤s203,获取该相似度向量p中的最大相似度值max(p)。若max(p)大于设定阈值vf,则确定该颗粒物的质谱mi与该最大相似度值max(p)对应的类中心的质谱wk之间质谱相似,将其划分到该类中心下。
[0099]
从类中心质谱矩阵wm中找出最大相似度值max(p)对应的类中心的质谱wk,并对其进行更新,更新过程如下公式所示:
[0100][0101][0102]
其中,自适应学习速率函数λ[p,k,c,l]中的相关系数p为最大相似度值max(p),其余参数λ0、k、c、l为固定值。
[0103]
具体地,当最大相似度值max(p)越大,自适应学习速率函数λ[max(p),k,c,l]的值越小,对类中心的质谱wk的更新程度就越小。此外,在更新完类中心的质谱wk后,还需要对其进行归一化处理,用公式表示为
[0104]
若最大相似度值max(p)小于设定阈值vf,则将该颗粒物的质谱mi的转置m
it
作为新的类中心的质谱,加入到类中心质谱矩阵wm中,用公式表示为:
[0105][0106]
步骤s204,分类完一个颗粒物的质谱并对类中心质谱矩阵wm进行更新后,继续对剩余的颗粒物的质谱进行分类。在划分非首个颗粒物的质谱时,所用的类中心质谱矩阵wm为根据上一颗粒物的质谱进行更新得到的类中心质谱矩阵wm。
[0107]
步骤s205,在首轮分类中,按上述步骤s202、s203和s204对质谱稀疏矩阵mm中全部颗粒物的质谱进行比较,并按上述步骤s203对类中心质谱矩阵wm进行一轮更新,最终形成首轮的类中心质谱矩阵wm。在下轮分类前,需要根据全部颗粒物与其所属类中心之间的相似度中的最小相似度,确定其是否满足收敛条件。若最小相似度小于设定阈值vf,则确定未收敛,则类中心质谱矩阵wm不满足收敛条件,继续进行下轮分类。在下轮分类中,本轮分类得到的类中心质谱矩阵wm,将成为下轮的类中心质谱矩阵wm。
[0108]
若最小相似度大于设定阈值vf,则类中心质谱矩阵wm满足收敛条件,停止进行下轮分类。
[0109]
步骤s206,在下轮分类时,重复上述步骤s202、s203、s204和s205的分类过程。经过多轮分类,不断更新类中心质谱矩阵wm,直到类中心质谱矩阵wm满足收敛条件,则停止进行下轮分类,结束对颗粒物的分类。
[0110]
上述步骤s201~s206可以通过伪代码进行表示为:
[0111][0112]
其中,mm是在r
m*n
空间中的质谱稀疏矩阵,wm是在r
n*k
空间中的类中心质谱矩阵,m为颗粒物的数量,n为特征离子峰的数量,k为类中心的数量;a=randperm[1:m]函数:输出一个1到m之间的整数随机序列向量a且元素不重复;a=min(x)函数:输出x向量的最小值a;{a,b}=max(x)函数:输出x向量的最大值a和最大值在x中的索引值b;{a,b}=size(x)函数:输出x矩阵的行a和列b;m
t
为矩阵转置操作;
[0113]
结合图3可知,基于平均谱对类中心质谱进行更新的方案,包括:
[0114]
步骤s301,类中心质谱矩阵wm初始化:创建一个空矩阵,将其作为类中心质谱矩阵wm,即wm=[]。在首轮分类时,将将质谱稀疏矩阵mm中的首个颗粒物的质谱m1的转置m
1t
作为一个类中心质谱加入到类中心质谱矩阵中。
[0115]
步骤s302,获取由多个颗粒物的质谱组成的质谱稀疏矩阵mm,从质谱稀疏矩阵mm中随机选择一个颗粒物的质谱mi。将该颗粒物的质谱mi作为行向量,本轮的类中心质谱矩阵wm中各类中心的质谱作为多个列向量,通过mi·
wm点乘的方式,将该颗粒物的质谱分别与本轮的类中心质谱矩阵wm中各类中心的质谱进行比较,得到一个由该颗粒物与各类中心之间的相似度值构成的相似度向量p。在一轮分类中,类中心质谱矩阵wm中各类中心的质谱在分类过程中数值不会发生改变。
[0116]
步骤s303,获取该相似度向量p中的最大相似度值max(p)。若max(p)大于设定阈值vf,则确定该颗粒物的质谱mi与该最大相似度值max(p)对应的类中心的质谱wk之间质谱相
似,将其划分到该类中心下。
[0117]
若最大相似度值max(p)小于设定阈值vf,则将该颗粒物的质谱mi的转置m
it
作为新的类中心的质谱,加入到类中心质谱矩阵wm中,公式表示为:
[0118]
步骤s304,按上述步骤s302和s303对质谱稀疏矩阵mm中全部颗粒物的质谱进行分类后,对类中心质谱矩阵wm中所有的类中心的质谱进行一轮更新,更新过程如下公式所示:
[0119][0120][0121]
其中,自适应学习速率函数λ(p,k,c,l)中的相关系数p为类中心质谱wk下所有质谱的相似度平均值谱的相似度平均值为类中心质谱wk下所有质谱平均值,其余参数λ0、k、c、l为固定值。
[0122]
具体地,当相似度平均值越大时,自适应学习速率函数的值越小,类中心的质谱wk的更新程度就越小。
[0123]
此外,在更新类中心的质谱wk时,还需要对其进行归一化处理,用公式表示为:
[0124]
步骤s305,对类中心质谱矩阵wm进行一轮更新,最终形成首轮的类中心质谱矩阵wm。在下轮分类前,需要根据全部颗粒物与其所属类中心之间的相似度中的最小相似度,确定其是否满足收敛条件。若最小相似度小于设定阈值vf,则确定未收敛,则类中心质谱矩阵wm不满足收敛条件,继续进行下轮分类。在下轮分类中,本轮分类得到的类中心质谱矩阵wm,将成为下轮的类中心质谱矩阵wm。
[0125]
若最小相似度大于设定阈值vf,则类中心质谱矩阵wm满足收敛条件,停止进行下轮分类。
[0126]
步骤s306,在下轮分类时,重复上述步骤s302、s303、s304和s305的分类过程。经过多轮分类,不断更新类中心质谱矩阵wm,直到类中心质谱矩阵wm满足收敛条件,则停止进行下轮分类,结束对颗粒物的分类。
[0127]
上述步骤s301~s306可以通过伪代码进行表示为:
[0128][0129]
其中,mm是在r
m*n
空间中的质谱稀疏矩阵,wm是在r
n*k
空间中的类中心质谱矩阵,m为颗粒物的数量,n为特征离子峰的数量,k为类中心的数量;a=randperm[1:m]函数:输出一个1到m之间的整数随机序列向量a且元素不重复;a=min(x)函数:输出x向量的最小值a;{a,b}=max(x)函数:输出x向量的最大值a和最大值在x中的索引值b;{a,b}=size(x)函数:输出x矩阵的行a和列b;m
t
为矩阵转置操作;
[0130]
本实施例中,通过基于逐颗粒质谱对类中心质谱进行更新的方案和基于平均谱对类中心质谱进行更新的方案,都实现了对多个颗粒物的准确分类,并降低了其类间相关性,抑制原聚类方法中存在的聚类过于精细的问题。
[0131]
为了更好地展示本技术的有益效果,以下结合算法伪代码的参数设置和算法性能数据进行进一步的说明:
[0132]
首先,使用单颗粒气溶胶质谱仪对空气进行采样,获得465310个质谱图,分别利用传统算法和本技术算法进行分类测试。计算后取占颗粒总数大于97%的类别作为有效类组,进行算法性能分析。具体算法参数如表1所示。
[0133]
算法vfλkcl传统算法0.70.0301
‑‑‑
本技术算法0.70.0301500.8510-5
[0134]
表1
[0135]
其次,确定算法性能分析标准:

相关性检验:对分类结果中各分类的内部质谱之间进行相关性检验,统计相关性p≥0.7的占比;使用类内所有质谱的平均值,对分类结果中各分类之间进行相关性检验,统计相关性p≤0.7的占比。

时间:在相同算法参数下,统计算法完成分类所需时间。

类数:在相同算法参数下,统计算法的分类结果中的有效类数/总类数。
[0136]
根据上述算法性能分析标准,统计得到的算法性能参数如表2所示。
[0137][0138]
表2
[0139]
最后,进行分类结果分析:
[0140]
与传统算法相比,本技术算法类内相似度大于0.7的占比rn
mean
从97%下降到90%;而类间相似度小于0.7的占比rn
1,mean
从87%上升至92%。算法完成分类的耗时从2000s下降至120s。此外,分类结果中的有效类数从745下降至250。
[0141]
在相同的样本以及相同的算法参数下,本技术算法和传统算法相比,类内相关性和类间相关性均显著降低,算法速度提升了16.7倍,并减少了分类的数量。避免了传统算法中类间相关性较高导致的分类数量较多的问题,方便在实际应用中对质谱数据进行后续的处理。
[0142]
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头
的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
[0143]
在一个实施例中,如图4所示,提供了一种基于art2a算法的颗粒物聚类装置,包括:
[0144]
质谱获取模块401,用于获取多个颗粒物的质谱以及本轮的类中心质谱矩阵;
[0145]
本轮分类模块402,用于根据颗粒物的质谱和本轮的类中心质谱矩阵,将各颗粒物划分到质谱相似的类中心下,完成本轮分类;
[0146]
矩阵更新模块403,用于根据本轮划分到类中心下的颗粒物的质谱、颗粒物与类中心之间的相似度,对本轮的类中心质谱矩阵进行更新,得到下轮的类中心质谱矩阵;其中,颗粒物与划分到的类中心之间的相似度越高,在本轮的类中心质谱矩阵中,对该类中心的质谱的更新程度越小,相似度越低,更新程度越大;
[0147]
下轮分类模块404,用于根据所述多个颗粒物的质谱以及下轮的类中心质谱矩阵,对所述多个颗粒物进行下轮分类。
[0148]
在一个实施例中,本轮分类模块402,还用于根据颗粒物的质谱和本轮的类中心质谱矩阵,将所述多个颗粒物逐个划分到质谱相似的类中心下;
[0149]
本轮分类中,划分首个颗粒物所用的类中心质谱矩阵是根据各类中心的本轮初始质谱得到的;划分非首个颗粒物所用的类中心质谱矩阵的获取方式为:根据上一颗粒物的质谱,对本轮的类中心质谱矩阵中上一颗粒物划分到的类中心的质谱进行更新;将更新后的类中心质谱矩阵,作为该颗粒物划分时所用的类中心质谱矩阵;上一颗粒物与上一颗粒物所划分到的类中心之间的相似度越高,所述更新的程度越小,上一颗粒物与上一颗粒物所属的类中心之间的相似度越低,所述更新的程度越大;
[0150]
矩阵更新模块403,还用于在完成最后一个颗粒物的分类后,根据最后一个颗粒物的质谱,对本轮的类中心质谱矩阵中最后一个颗粒物划分到的类中心的质谱进行更新;将更新后的类中心质谱矩阵,作为下轮的类中心质谱矩阵。
[0151]
在一个实施例中,本轮分类模块402,还用于根据颗粒物的质谱和本轮的类中心质谱矩阵,将所述多个颗粒物逐个划分到质谱相似的类中心下;
[0152]
当本轮为非首轮时,本轮分类过程中,划分各颗粒物所用的类中心质谱矩阵是不变的;
[0153]
矩阵更新模块403,还用于在完成最后一个颗粒物的分类后,根据各类中心下所有颗粒物的质谱平均值、各类中心下所有颗粒物与所属类中心之间的相似度平均值,对本轮的类中心质谱矩阵中各类中心的质谱进行更新,得到下轮的类中心质谱矩阵;其中,各类中心下所有颗粒物与所属类中心之间的相似度平均值越高,在本轮的类中心质谱矩阵中,对各类中心的质谱的更新程度越小,相似度越低,更新程度越大。
[0154]
在一个实施例中,本轮分类模块402,还用于从所述多个颗粒物中随机获取一个颗粒物的质谱;将该颗粒物的质谱分别与本轮的类中心质谱矩阵中各类中心的质谱进行比
较,得到该颗粒物与各类中心之间的相似度;获取该颗粒物与各类中心之间的相似度中的最大相似度;若所述最大相似度大于设定阈值,则确定该颗粒物与所述最大相似度对应的类中心之间质谱相似;将该颗粒物划分到该类中心下。
[0155]
在一个实施例中,所述装置还包括矩阵变化模块,用于在首轮逐颗粒划分的时候,直接将划分的首个颗粒物的质谱作为类中心质谱加入首轮的类中心质谱空矩阵中,得到首轮的类中心质谱非空矩阵;划分非首个颗粒物时,将所划分的非首个颗粒物的质谱和类中心质谱非空矩阵的类中心质谱进行比较;若所划分的非首个颗粒物的质谱与非空矩阵的类中心质谱均不相似,则将所划分的非首个颗粒物的质谱作为新的类中心质谱,加入到类中心质谱非空矩阵中。
[0156]
在一个实施例中,所述装置还包括更新程度计算模块,用于获取颗粒物与划分到的类中心之间的相似度以及自适应学习速率函数;将颗粒物与划分到的类中心之间的相似度,代入所述自适应学习速率函数,得到在本轮的类中心质谱矩阵中,对该类中心的质谱的更新程度。
[0157]
在一个实施例中,所述装置还包括收敛确定模块,获取全部颗粒物与其所属类中心之间的相似度中的最小相似度;若最小相似度小于设定阈值,则确定类中心质谱矩阵未收敛,并根据多个颗粒物的质谱以及下轮的类中心质谱矩阵,对多个颗粒物进行下轮分类。
[0158]
关于基于art2a算法的颗粒物聚类装置的具体限定可以参见上文中对于基于art2a算法的颗粒物聚类方法的限定,在此不再赘述。上述基于art2a算法的颗粒物聚类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0159]
在一个实施例中,提供了一种计算机设备,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储颗粒物的聚类数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机设备还包括输入输出接口,输入输出接口是处理器与外部设备之间交换信息的连接电路,它们通过总线与处理器相连,简称i/o接口。该计算机程序被处理器执行时以实现一种基于art2a算法的颗粒物聚类方法。
[0160]
本领域技术人员可以理解,图5中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0161]
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述各个方法实施例中的步骤。
[0162]
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述各个方法实施例中的步骤。
[0163]
在一个实施例中,提供了一种计算机程序产品,其上存储有计算机程序,所述计算机程序被处理器执行上述各个方法实施例中的步骤。
[0164]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory,rom)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(random access memory,ram)或外部高速缓冲存储器。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(static random access memory,sram)或动态随机存取存储器(dynamic random access memory,dram)等。
[0165]
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0166]
以上的实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术专利的保护范围应以所附权利要求为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1