一种二级筛选模式融合校验的协同式半监督算法

文档序号:25091137发布日期:2021-05-18 20:24阅读:240来源:国知局
一种二级筛选模式融合校验的协同式半监督算法
learning算法使用单一的主动学习策略降低了模型的差异性从而导致了伪标签的可靠程度降低的问题,以及cassl算法停止条件过于依赖校验模型的可靠性,算法过早的截止和收敛严重影响到分类结果的问题,提供了一种二级筛选模式融合校验的协同式半监督算法,本发明提出将性能较好二级筛选模式嵌入到协同式半监督算法中,挑选多种类且最具有代表性的样本,提高分类器的泛化能力从而获得较高的分类精度。在算法融合这一过程中,选择不同且具有良好性能的算法,然后将差异化的算法整合。将本发明提出的算法运用到了在初始有标记样本稀少情况下的遥感图像目标分类中,也可以运用于其他图像的分类。
6.为实现上述目的,本发明采取的技术方案如下:
7.一种二级筛选模式融合校验的协同式半监督算法,所述方法包括如下步骤:
8.步骤一:设置好数据集中训练集,未标记样本集u与初始化伪标签样本集s
pseudo
,设定算法的迭代次数与每次迭代中选取的代表性样本的数量,分别设定三种二级筛选模式选择样本的个数占每次迭代选取样本总数量的权重比;
9.步骤二:选择三种不同且性能较好的主动学习算法分别来挑选最具有代表性的样本,分别用三种不同的聚类算法进行聚类,构成三种不同的二级筛选模式,按设置好的权重参数选出相应数量的代表性样本,检查在一次迭代中,不同的二级筛选模式是否选择了相同的候选样本,而为达到每次迭代需求,则需要运用跳变因子r来补充;
10.步骤三:将每种二级筛选模式所挑选的代表性未标记样本及跳变因子贴上标签,同时放入有标记样本集中,训练基础分类器,然后更新有标记样本集和未标记样本集;
11.步骤四:用基础分类器对未标记样本集和伪标签样本集进行分类,得到标签label1,用每种二级筛选模式所挑选的具有代表性且人工贴上标签的样本同时训练对应的校验分类器,三种二级筛选模式对应训练三个校验分类器;
12.步骤五:对未标记样本和伪标签样本使用3个校验分类器预测分类,获取3个预测标签,分别为label
2_c1
,label
2_c2
,label
2_c3

13.步骤六:比较每一个未标记样本和伪标签样本由基础分类器和三个校验分类器获得的类别标签,即比较label1,label
2_c1
,label
2_c2
,label
2_c3
的结果是否相同,如果所有的类别标签结果相同,将此样本投入到伪标签样本集中,更新未标记样本集和伪标签样本集,如果有标签结果不相同,将此样本放回到未标记样本中,继续迭代,直到达到预设的迭代次数。
14.本发明相比于现有技术的有益效果为:
15.即使在初始有标记样本较少的情况下,本发明的校验模型的性能不会完全依赖于初始有标记样本。同时,本发明设置恰当的置信度阈值,通过多模式融合提升分类器的泛化性,避免算法过早的截止和收敛,能够快速地得到理想的分类性能,增强了算法的鲁棒性。
16.在相同设定的实验环境和实验数据下,本发明能够使用较少的时间成本、获取更理想的目标样本分类精度,同时提出的算法鲁棒性较强。当采用多种分类器组成验证分类器组时会获得更好的分类效果,此算法解决了阈值设置不当导致的算法过早收敛的现象。
附图说明
17.图1为二级筛选模式融合校验的协同式半监督算法框图;
18.图2为本发明一种应用实例的原始遥感图像结果图;
19.图3为本发明一种应用实例的cassl算法分类结果图;
20.图4为本发明一种应用实例的sfmfvcsa算法分类结果图;
21.图5为本发明方法流程示意图。
具体实施方式
22.为使本发明的目的、技术方案及优点更加清楚明白,下面结合实例以及附图对本发明的技术方案作进一步的说明,本发明提供了多模式融合校验的协同式半监督算法,但并不局限于用于高光谱图像中的目标分类,凡是对本发明技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,均应涵盖在本发明的保护范围中。为使本发明的目的、技术方案及优点更加清楚明白,以下结合实例,对本发明进行进一步的详细说明,此处所描述的具体实例仅用于解释本发明,并不用于限定发明。
23.具体实施方式一:本实施方式记载的是一种二级筛选模式融合校验的协同式半监督算法,所述方法包括如下步骤:
24.步骤一:设置好数据集中训练集,未标记样本集u与初始化伪标签样本集s
pseudo
,设定算法的迭代次数与每次迭代中选取的代表性样本的数量,分别设定三种二级筛选模式选择样本的个数占每次迭代选取样本总数量的权重比;
25.步骤二:选择三种不同且性能较好的主动学习算法分别来挑选最具有代表性的样本,提高分类器的泛化能力从而获得较高的分类精度,然后,分别用三种不同的聚类算法进行聚类,构成三种不同的二级筛选模式,按设置好的权重参数选出相应数量的代表性样本,保证所选样本的多样性;检查在一次迭代中,不同的二级筛选模式是否选择了相同的候选样本,为达到每次迭代需求,则需要运用跳变因子r来补充;性能好坏与具体的数据集和实验设置的初始条件有关,在本发明使用的数据集和设置的实验初始条件中,oa精度大于85%属于性能较好。
26.步骤三:将每种二级筛选模式所挑选的代表性未标记样本及跳变因子贴上标签,同时放入有标记样本集中,训练基础分类器,然后更新有标记样本集和未标记样本集;
27.步骤四:用基础分类器对未标记样本集和伪标签样本集进行分类,得到标签label1,用每种二级筛选模式所挑选的具有代表性且人工贴上标签的样本同时训练对应的校验分类器,三种二级筛选模式对应训练三个校验分类器;
28.步骤五:对未标记样本和伪标签样本使用3个校验分类器预测分类,获取3个预测标签,分别为label
2_c1
,label
2_c2
,label
2_c3

29.步骤六:比较每一个未标记样本和伪标签样本由基础分类器和三个校验分类器获得的类别标签,即比较label1,label
2_c1
,label
2_c2
,label
2_c3
的结果是否相同,如果所有的类别标签结果相同,将此样本投入到伪标签样本集中,更新未标记样本集和伪标签样本集,如果有标签结果不相同,将此样本放回到未标记样本中,继续迭代,直到达到预设的迭代次数。
30.具体实施方式二:具体实施方式一所述的二级筛选模式融合校验的协同式半监督算法,所述步骤一具体为:
31.(1)确定每轮迭代时待标记样本的总数n;
32.(2)确定在每一种二级筛选模式中使用主动学习算法挑选样本时的数量,三种二
级筛选模式分别对应着不同的主动学习算法,每种主动学习算法挑选样本的数量可以相同也可不同;
33.(3)分别将三种主动学习算法挑选样本的数量记为h1,h2,h3,并且满足h=h1+h2+h3;其中,h代表在一次迭代中所有的主动学习算法挑选的信息量较大的未标记样本总数;
34.(4)通过不同的聚类算法分别对三种不同的主动学习算法挑选的样本进行聚类,通过聚类形成的簇的数量分别为m1,m2,m3,其中m1,m2,m3占总数n的比例定义为权重系数,从而,每一种二级筛选模式挑选出的样本数量分别定义为m1,m2,m3,并满足n=m1+m2+m3。
35.具体实施方式三:具体实施方式一所述的二级筛选模式融合校验的协同式半监督算法,所述步骤二,步骤三的具体步骤为:先用主动学习算法按照样本不确定度的大小(即样本信息量的大小,不确定度代表信息量,越不确定的样本越有价值)进行排序,按照预先设定的参数值挑选排在前列,即富含信息量的样本;用聚类算法对挑选出的样本进行聚类,再从每一个的簇中挑选一个样本,第一种主动学习算法v1对未标记样本按照信息量大小进行排列,组成l
a
有序列表,挑选m1个有价值且分布在不同簇的未标记样本这m1个有价值的未标记样本索引为n
a
,x
k
表示此未标记样本集中的一个未标记样本,k表示样本编号;第二种主动学习算法v2对未标记样本按照信息量大小进行排列,组成l
b
有序列表,挑选m2个未标记样本这m2个有价值且分布在不同簇的未标记样本索引为n
b
,第三种主动学习算法v3对未标记样本按照信息量大小进行排列,组成l
c
有序列表,挑选m3个未标记样本这m3个有价值且分布在不同簇的未标记样本索引为n
c
,n=m1+m2+m3构成最终的待标记样本,二级筛选模式保证挑选出的样本具有代表性与多样性;在每一次迭代时,将三种二级筛选模式选出的样本进行融合,如果有二级筛选模式在一次迭代中挑中同一个样本,即n
a
∩n
b
≠φorn
b
∩n
c
≠φorn
a
∩n
c
≠φ,则采用预先设定的跳变因子r来进行补充,rindex=random(l
a

n
×
w
a
,l
b

n
×
w
b
,l
c

n
×
w
c
),w
a
、w
b
和w
c
分别为mclu

km算法、neqb

hc算法和aneqb

km算法的权重参数,即在算法一次迭代的情况下,每个算法贡献样本的个数占此次迭代挑选样本总数的比重;跳变因子r随机挑选三种二级筛选模式中排名靠前却未选择的样本作为补充;由此在满足设定每次迭代选择的样本数量后,再融合三种二级筛选模式挑选的样本与跳变因子,并对它们进行标记;在算法融合这一过程中,要选择不同且具有良好性能的算法,将差异化的算法整合,然后,将标记好的样本放入有标记样本集中,用于训练基础分类器,此时,训练基础分类器的样本由多种二级筛选模式算法挑选,能够更加准确的找出有代表性的样本,提高分类器的泛化性能与分类精度。
36.具体实施方式四:具体实施方式一所述的二级筛选模式融合校验的协同式半监督算法,所述步骤四具体步骤为:此算法选用三种不同的二级筛选模式,在算法流程中,由三种二级筛选模式同时训练对应的校验分类器,并同时得到类别标签,不同的二级筛选模式所训练的分类器的性能会有所差异,各自的优势互补有助于提升后续样本的分类精度。
37.具体实施方式五:具体实施方式一所述的二级筛选模式融合校验的协同式半监督算法,所述步骤五具体步骤为:对所有未标记样本和伪标签样本使用3个校验分类器预测分类,获得类别标签,在每一次迭代时,同时获取3个预测标签,分别为label
2_c1
,label
2_c2
,label
2_c3
,其中三个检验分类器可以是同种分类器,也可以是不同种分类器。
38.具体实施方式六:具体实施方式一所述的二级筛选模式融合校验的协同式半监督
算法,所述步骤六具体步骤为:比较每一个未标记样本和伪标签样本x
i
由基础分类器和三个校验分类器获得到的类别标签,即比较label1,label
2_c1
,label
2_c2
,label
2_c3
的类别标签是否相同,如果所有的类别标签结果相同,即说明此未标记样本符合算法设定的条件,将此样本投入到伪标签样本集中,更新未标记样本集和伪标签样本集,如果有标签结果不相同,即说明此未标记样本不符合算法设定的条件,将此样本放回到未标记样本集中。
39.如图1所示,二级筛选模式融合校验的协同式半监督算法分别用不同的主动学习算法来挑选最具有代表性的样本。然后,分别用不同的聚类算法进行聚类,保证所选样本的多样性,更好的训练校验分类器,提高分类器的泛化能力从而获得较高的分类精度。对于算法融合这一过程,应该选择不同且具有良好性能的算法,然后将差异化的算法整合。在实际算法设置中,本发明选择多类别不确定度采样算法,正则化熵值装袋查询算法和均值正则化熵值装袋算法,与k

means聚类算法和层次聚类算法分别相结合。形成的二级筛选模式分别为mclu

km、neqb

hc以及aneqb

km。这三种二级筛选模式在选择样本的角度具有差异。使用算法融合策略挑选样本就是在每一次迭代中通过不同的侧重点,即运用不同的算法选出最有价值的待标记样本,之后进行比例分配。具体来讲,假设每次迭代中待标记的样本个数为n,mclu

km算法挑选出的样本个数为a个,neqb

hc算法挑选出的样本个数为b个,aneqb

km算法挑选出的样本个数为c个,且满足下面的等式关系:
40.a=n
×
w
a
ꢀꢀ
(1)
41.b=n
×
w b (2)
42.c=n
×
w
c
ꢀꢀ
(3)
43.n=au bu c+r
ꢀꢀ
(4)
44.首先确定其中w
a
、w
b
和w
c
分别为mclu

km算法、neqb

hc算法和aneqb

km算法的权重参数,即每种算法所挑选的样本数量占每次迭代待标记样本数量n的比重,r是随机跳变因子,若a i b≠φorb i c≠φorai c≠φ,即存在两种或三种二级筛选模式同时挑选同一个最具价值的样本,会产生被选样本空缺,无法满足一次迭代要标记n个样本的要求,所以要随机挑选符合条件的有价值样本作为补充。要强调的是,不是每一次迭代都需要补充,所以r不会在每次迭代中出现,要根据每次策略选取样本的结果来确定。此算法继承了集成模型的简易特点,不会增加太多时间成本。
45.然后,根据不同策略挑选出的样本进行人工标记,添加到有标签集中,分别训练三个校验分类器,这时候的三个校验模型因为不同策略的选择导致所选样本分布差异较大,训练出的模型将放大差异性。第三步,将伪标签样本集和未标记样本集中的样本分别使用基础分类器以及三个校验分类器进行预测标记获得预测标签,当所有分类器对待分类样本的判断保持一致时,算法认为该样本可靠性符合标准,形成新的伪标签样本,同样,只要四
个分类器对样本判断结果不一致,则代表存在异议,那么这个样本则会被重新投入到未标记样本中,进行下次迭代。
46.在二级筛选模式融合校验的半监督协同式算法中,首先使用不同的主动学习算法挑选信息量较大的样本,再分别采用多种聚类方法进行聚类,由此挑选出不同种类的样本,之后进入融合模式。这个过程保证了所挑选样本的种类多样性与代表性。有助于后续分类性能的提升,同时会增强算法的鲁棒性。
47.实施例1:
48.一种二级筛选模式融合校验的协同式半监督算法,包括如下步骤:
49.步骤1:读取图像数据,根据实验的具体要求,将数据划分为训练集和测试集,在每个类别的数据中选出少量样本,贴上标签作为初始标记样本。
50.步骤2:输入:
51.初始化训练集:x
i
表示初始化训练集的样本;y
i
表示样本对应的类别标签,i表示样本的编号,l表示初始化训练集样本的数量;
52.未标记样本集:x
j
表示未标记样本;j表示样本的编号、u表示未标记样本集样本的数量;
53.初始化伪标签样本集:s
pseudo
=φ
54.初始化迭代次数:t=0
55.设定迭代次数:t
56.设定三个不同的二级筛选模式挑选标记样本个数分别为:m1,m2,m357.设定每轮迭代时待标记样本的总数:n
58.步骤3:挑选三种性能优异的二级筛选模式:q1,q2,,q359.三个性能优异的主动学习算法:v1,v2,v360.三个性能优异的聚类算法:p1,p2,p361.while:sizeof(u)≥10and t<t:
62.步骤4:使用s
pseudo u l训练基础分类器
63.步骤5:使用基础分类器对u分类,使用主动学习算法v1选出最有价值的未标记样本,并组成l
a
有序列表,经过聚类算法p1进行聚类,形成二级筛选模式q1,挑选出m1个未标记样本,构成未标记样本集这m1个有价值的未标记样本索引为n
a
。使用主动学习算法v2选出最有价值的未标记样本并组成l
b
有序列表,经过聚类算法p2进行聚类,形成二级筛选模式q2,挑选出m2个未标记样本,构成未标记样本集这m2个有价值的未标记样本索引为n
b
。使用主动学习算法v3选出最有价值未标记样本并组成l
c
有序列表,经过聚类算法p3进行聚类,形成二级筛选模式q3,挑选出m3个未标记样本,构成未标记样本集这m3个有价值的未标记样本索引为n
c
。满足n=m1+m2+m3。
64.步骤6:if n
a
∩n
b
≠φorn
b
∩n
c
≠φorn
a
∩n
c
≠φ
65.r=number(n

a∪b∪c)即不同的主动学习算法选择了相同的候选样本,而为达到每次迭代需求,则需要运用跳变因子r来补充rindex=random(l
a

n
×
w
a
,l
b

n
×
w
b
,l
c

n
×
w
c
)随机挑选q1,q2,q3策略中排名靠前却未选择的样本。
66.else:r=0
67.步骤7:将选择的未标记样本人工贴上标签,然后更新标签集如下:步骤7:将选择的未标记样本人工贴上标签,然后更新标签集如下:步骤7:将选择的未标记样本人工贴上标签,然后更新标签集如下:表示由二级筛选模式q1挑选的未标记样本在贴上标签后构成的有标签样本集;表示由二级筛选模式q2挑选的未标记样本在贴上标签后构成的有标签样本集;表示由二级筛选模式q3挑选的未标记样本在贴上标签后构成的有标签样本集;
68.步骤8:对集合u=u∪s
pseudo
使用基础分类器预测分类,获取预测标签为label1。
69.步骤9:使用训练校验分类器1,使用训练校验分类器2,使用训练校验分类器3。
70.步骤10:对集合u=u∪s
pseudo
使用校验分类器1预测分类,获取预测标签为label
2_c1
。对集合u=u∪s
pseudo
使用校验分类器2预测分类,获取预测标签为label
2_c2
。对集合u=u∪s
pseudo
使用校验分类器3预测分类,获取预测标签为label
2_c3

71.步骤11:if:
[0072][0073]
更新伪标签样本集:s
pseudo
[0074]
else:
[0075][0076]
更新未标记样本集:u
[0077]
步骤12.迭代次数递增t=t+1
[0078]
while sizeof(u)<10or t≥t:
[0079]
return:trainedmodel
[0080]
应用例1:
[0081]
为了验证本发明对图像分类的效果,我们将此算法运用在复杂的高光谱图像中进行验证讨论。参照图2,采用图像尺寸是145
×
145,空间分辨率是20m的原始遥感图像,印第安纳州(indianpines)实验区的高光谱图像。为了突出本发明的方法对遥感图像的分类的优越性,采用原始的cassl算法进行对比。图3是运用cassl算法得到的分类结果图,图4是运用本发明提出的sfmfvcsa算法得到的分类结果图。
[0082]
sfmfvcsa框架每次迭代挑选10个样本对其标记,在使用二级筛选模式融合时,每一种策略具体贡献的样本数一定会对实验结果产生影响。为了保证融合策略算法的多样性和每种策略所占比重的差异性,首先定义mclu

km算法的权重参数为w
a
,neqb

hc算法的权重参数为w
b
,aneqb

km算法的权重参数为w
c
。设计了几组权重参数来探讨权重比对分类性能的影响,分别为(w
a
=0.6,w
b
=0.2,w
c
=0.2;w
a
=0.4,w
b
=0.3,w
c
=0.3;w
a
=0.2,w
b
=0.4,w
c
=0.4)。以整体分类精度(oa)作为对比指标,权重与人工标记成本间的关系如表格1所示。在表1中可以发现,权重参数设定为w
a
=0.4,w
b
=0.3,w
c
=0.3的sfmfvcsa算法的分类效果最好,并在今后的迭代过程中,一直保持着最好的分类效果。所以在后续indianpines数据集的实验中采用w
a
=0.4,w
b
=0.3,w
c
=0.3的参数设定。
[0083]
表1 indianpines数据集下不同权重参数的sfmfvcsa算法在不同数量的标记样本下oa精度比较表
[0084][0085]
表2在indian pines数据集下对比算法在不同数量的标记样本下oa精度与标准差的比较表
[0086][0087]
从图3与图4的分类结果对比图与表2各个算法的oa精度与标准差的对比中可以看出,两种方法均有较好的分类结果,本发明提出的sfmfvcsa算法有较好的分类效果。同时,本发明提出的算法均有较小的标准差,这说明sfmfvcsa算法的稳定性较好,能够保持较好的分类结果。
[0088]
应用例2:
[0089]
为了验证本发明的方法对遥感图像的分类效果,采用空间分辨率为18m,图像大小是512
×
614的肯尼迪航天中心的高光谱遥感图像进行分类。实验框架每次迭代选择样本数与各算法的权重参数设置与应用例1中的设置相同。在sfmfvcsa框架中,权重参数设置为w
a
=0.6,w
b
=0.2,w
c
=0.2能在整体迭代的过程中获得最好的分类效果。所以在后面的算法性能比较中,我们将权重参数设置为w
a
=0.6,w
b
=0.2,w
c
=0.2。
[0090]
表4 ksc数据集下不同权重参数的sfmfvcsa算法在不同数量的标记样本下oa精度比较表
[0091][0092]
同样采用原始的cassl算法作为对比参照。如表格5可以看出两种方法均有较好的分类结果,两者之间相比,本发明二级筛选模式融合校验的协同式半监督算法sfmfvcsa获得了更理想的分类结果,遥感图像的整体分类精度更高,标准差较小,说明算法的性能稳定性较好,鲁棒性较强。
[0093]
表5在ksc数据集下对比算法在不同数量的标记样本下oa精度与标准差的比较表
[0094][0095][0096]
同时,通过表6可以看出在相同的实验条件下,设定相同的迭代次数,本发明提出的算法需要最少的时间成本。由此可以判断,本发明提出的算法,二级筛选模式融合校验的协同式半监督算法sfmfvcsa可以在较短的时间内完成迭代,也获得了较好的分类结果。
[0097]
表6在不同数据集下算法的运行时间对比表
[0098]
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1