一种可能性分布距离度量下鲁棒的域适应视觉分类方法

文档序号:30089403发布日期:2022-05-18 08:11阅读:123来源:国知局
一种可能性分布距离度量下鲁棒的域适应视觉分类方法

1.本发明涉及计算机视觉技术领域,特别是涉及一种可能性分布距离度量下鲁棒的域适应视觉分类方法。


背景技术:

2.传统的机器学习方法通常假设训练和测试数据位于相同的特征空间中,并且具有相同的分布。但是,这种假设在现实场景中并不是一直成立。例如,利用童年时期捕获的一组标记面部图像来识别成人面部是一项挑战。如果该假设不满足,则域移位或协变量移位(即,当条件分布相同时,训练和测试数据的分布不相同,而在迁移学习中,当协变量(模型参数)的值发生了变化,输出的样本分布也就发生了变化,从而产生了源域与目标域分布差异,而若是我们能够纠正这个协变量的移位,就能够将源域与目标域结合起来训练模型。)将极大地影响测试时的性能。为了解决这个问题,获取带标签的样本(例如,带标签的成年人面部图像)是至关重要的,但是,数据标记既昂贵又费时。因此,可以求助于另一种策略,即迁移学习,该策略试图探索隐藏在目标数据中的异构信息。近年来,已经对该领域进行了大量研究,并且在广泛的应用中取得了显著进展,例如,计算机视觉、自然语言处理。旨在将同一任务从受监督的源域转移到无监督的目标域的无监督域适应学习(domainadpatation learning,dal)在计算机视觉文献中引起了越来越多的关注,判别训练集数据的通用做法通常不可行,尤其是描述跨域关系具有挑战性。
3.为了处理协变量移位,早期域自适应工作通过似然比估计来计算每个样本属于源域或目标域的概率。例如,在两个样本的统计检验中,最大均值差(maximum mean discrepancy,mmd)是实例重新加权最受欢迎的方法。这样的实例重新加权策略很直观,但是,它们总是与分类训练过程分开。为了解决这个缺点,chu等人建议联合重新加权训练样本并学习分类器。同时,龙等人学习了一个领域不变的投影,同时条件分布和边际分布的差异都被最小化了。由于缺少标记的目标数据,因此交替优化了目标数据上的伪标记和投影功能。baktashmotlagh等人研究将高斯核用于mmd中,并最小化了类内方差,该方差同时促进了源域中的类集中。而有些研究则通过在再生内核希尔伯特空间(reproducing kernel hilbert space,rkhs)中利用mmd方法匹配训练和测试分布特征手段来估计重采样权重,传统的mmd方法仅专注于最小化跨域分布差异,而忽略了域内结构,尤其是目标域,即经过投影后,诸如数据分布不平衡之类的可能风险因素仍可能阻碍目标标签推断的性能,梁等人提出了一个简单有效的领域不变投影集成方法来解决该问题,且与领域无关,其使用类聚集来寻求最佳投影,弥合了跨领域语义鸿沟,增加了源域和目标域的类内紧密性。
4.然而,现有基于mmd方法在进行领域分布距离度量时未能充分考虑领域内的噪声影响,实际视觉领域内的噪声是本质存在的,领域内噪声会导致传统的mmd方法在距离度量上面临均值漂移问题,使得基于mmd的分类方法泛化性能下降。因此需要对由噪声数据带来均值漂移导致最终模型预测性能下降进行优化。


技术实现要素:

5.本发明所要解决的技术问题是提供一种可能性分布距离度量下鲁棒的域适应视觉分类方法,具有显著的鲁棒性和分类精确度。
6.本发明解决其技术问题所采用的技术方案是:提供一种可能性分布距离度量下鲁棒的域适应视觉分类方法,包括:
7.步骤(1):获取源域和目标域;
8.步骤(2):根据可能性聚类假设,将源域与综合域进行匹配,得到距离度量;其中,所述综合域为源域和目标域的集合;
9.步骤(3):通过在所述距离度量中加入模糊熵来提高距离度量的匹配贡献度对源域噪声数据的鲁棒性;
10.步骤(4):通过拉普拉斯正则化对加入模糊熵后的距离度量进行优化,得到分类器;
11.步骤(5):利用目标域对所述分类器进行训练,得到训练好的分类器;
12.步骤(6):通过训练好的分类器对图像进行分类。
13.所述步骤(2)包括:
14.步骤(21):计算基于可能性聚类假设的领域核空间分布差,将源域的每个实例与综合域均值进行距离度量;
15.步骤(22):根据距离度量来衡量源域各实例与综合域均值的相关度。
16.所述步骤(21)中将源域的每个实例与综合域均值进行距离度量时,通过加入匹配贡献度函数λ对源域噪声数据进行弱化处理,公式为:其中,ω
p
(,)为可能性领域适应分布的距离度量,xs为源域数据集,x
t
为目标域数据集,μs为源域的均值,μ
t
为目标域的均值,φ()为希尔伯特变换,h为rkhs核空间,n=n+m,n为源域数据点个数,m为目标域数据点个数,xi为综合域中第i个数据样本,λi为x
s,i
距综合域均值的匹配贡献度值,x
s,i
为源域第i个样本,b为λi的权重指数,|| ||为范数算子。
17.所述步骤(3)具体为:在所述步骤(21)中将源域的每个样本与综合域均值进行距离度量时,还包括将模糊熵加入公式来提高距离度量的匹配贡献度对源域噪声数据的鲁棒性,公式为:其中,为模糊熵,β为平衡参数。
18.所述步骤(4)中的通过拉普拉斯正则化对加入模糊熵后的距离度量进行优化,公式为:其中,其中,c为目标域类别数,当c=0时,则和分别为整个源域和整个目标域的均值,当c∈[1,2,...,c]时,则和分别为源域和目标域中对应类别的均值;x
t,j
为目标域实例,为xi属于综合域中第c个类别的匹配贡献度值,w={ws,w
t
},ws为源域原有的模型,w
t
为目标域的未知模型,α、η、ρ都为目标函数中各项所对应的平衡参数,y=[ys;y
t
]∈in×c,y
t
为目标域标签矩阵,ys为源域标签矩阵,l为拉普拉斯图矩阵,w为决策函数。
[0019]
有益效果
[0020]
由于采用了上述的技术方案,本发明与现有技术相比,具有以下的优点和积极效果:本发明通过匹配贡献度函数对噪声进行弱化处理;本发明通过模糊熵正则项更进一步来提高其匹配贡献度对噪声数据的有效鲁棒性;本发明通过拉普拉斯矩阵来保证源域与目标域内部数据间的几何结构一致性,实现源域与目标域数据分布不变;本发明解决了噪声数据会使均值漂移导致领域适应学习性能下降的问题,并且通过实验对比证实本发明具有显著的鲁棒性和分类精确度。
附图说明
[0021]
图1是本发明实施方式的方法流程图。
具体实施方式
[0022]
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本技术所附权利要求书所限定的范围。
[0023]
本发明的实施方式涉及一种可能性分布距离度量下鲁棒的域适应视觉分类方法,请参阅图1,传统领域适应学习旨在解决训练数集与测试数据集分布不一致问题而收到广泛关注,大部分解决分布不一致问题都是通过最大均值差方法来进行源域与目标域间的均值匹配,然而,针对源域数据中若存在噪声数据会使均值漂移导致领域适应学习性能下降
的问题,本实施方式提出的一种可能性分布距离度量下鲁棒的域适应视觉分类方法(robust domain adaptation visual classification with possibilistic distributed distance measure,p-ddm)方法根据可能性聚类假设,计算源域中每个实例与目标域均值间的距离,并将其匹配贡献度作为判断该实例与均值的相关性,通过匹配贡献度来削减噪声数据在整个数据集中的影响,然后,通过模糊熵正则项更进一步来提高其匹配贡献度对噪声数据的有效鲁棒性,最后,通过拉普拉斯矩阵来保证源域与目标域内部数据间的几何结构一致性,实现源域与目标域数据分布不变,学习得到一个分类器和一个标签矩阵。通过在在4个视觉基准数据集上进行大量实验结果对比,结果说明该方法具有显著鲁棒性和分类精确度。
[0024]
在详细介绍本发明之前,对现有问题进行分析,具体如下:
[0025]
一、问题描述
[0026]
在领域适应学习(dal)中,ds为源域数据集,包括n个数据点和其一一对应的标签y
s,i
,可描述为:x
s,i
是源域实例(即源域第i个样本),x
s,i
∈xs∈id×n,y
s,i
∈ys,ys∈{0,1}n×c是具有语义信息的one-hot编码,y
s,i
(c)=1为源域的第i个实例属于第c类;d
t
为无标签或者少标签的目标域数据集,包括m个实例和其一一对应标签,可描述为:x
t,j
是目标域实例(目标域第i个样本),x
t,j
∈x
t
∈id×m,y
t,j
是目标域实例标签,并具有语义信息的one-hot编码,y
t,j
∈y
t
∈{0,1}m×c在训练阶段大部分是未知的,c是类别数,如果y
t,i
(c)=1,则目标域的第i个实例属于第c类。
[0027]
对于领域适应中分布不一致问题,mmd是被广泛采用解决该问题的度量准则之一。mmd主要是通过对这两个分布不同的假设进行统计检验来处理双样本问题(两样本来自两个概率分布p和q)。mmd的主要思想是找到一个平滑函数,通过该函数求p和q上的平均函数值(即平均差异)之间的差异最大。现有研究证明,在某再生核hilbert空间(rkhs)中通过mmd度量准则能有效的计算出两个分布之间的距离。通过某个非线性变换φ:id∈h能将原始空间数据表示变换成在rkhs中的数据表示,其中,id表示原始d维空间,h表示rkhs核空间,《,》定义为内积算子,《φ(x1),φ(x2)》h=k(x1,x2)称为核(kernel),其中,k(,):x
×
x

i,x1,x2∈x。当样本数据映射到高维甚至无限维空间时,mmd能够捕捉到数据更高维度特征,基于此,有研究人员提出核函数f的选取原则,即核函数f为rkhs中的单位球,这样,两个领域分布距离度量可以简单地表示为rkhs中数据分布的均值差,设目标域均值为则源领域和目标领域间最小分布距离mmd为公式如下:
[0028][0029]
基于传统mmd准则,从公式(1)中的最后一个推导式可知,mmd实则为聚类假设,目
标域均值为聚类中心,源域每个实例与目标域均值进行匹配,且其匹配的贡献度于目标域均值都为即使该样本是噪声数据亦如此,传统的mmd分布距离度量本质上属于硬聚类。由于硬聚类假设难以有效解决噪声数据带来的源域均值漂移问题。为此,本实施方式提出的方法将mmd硬聚类形式推广到软聚类形式,根据源域的各实例与目标域均值距离来获得源域每个实例的匹配贡献度值,根据匹配贡献度值来削弱源域中噪声数据在训练阶段的影响,提高领域适应学习的鲁棒性。
[0030]
二、可能性分布距离度量下鲁棒的域适应视觉分类方法(p-ddm方法)
[0031]
可能性领域适应分布距离度量先进行源域与综合域(即源域+目标域)进行匹配,需要两步处理:(1)计算基于可能性聚类假设的领域核空间分布差,通过源域的每个样本与综合域均值进行距离度量,进一步判断,如果距离越大,噪声数据就越容易捕获,反之,距离越小则源数据为正常数据。(2)另外,需要衡量源域各实例与综合域均值的相关度。前一步计算每个实例与综合域均值之间的距离时,需要对检测到的噪声数据进行弱化处理,本实施方式通过加入匹配贡献度函数λ,对源域中任意一个实例都有λi∈i,且λi为x
s,i
距综合域均值的匹配贡献度值,距离越小,λi值越大。
[0032]
定义1(可能性领域适应分布距离度量):可能性领域适应分布距离度量ω
p
(xs,x
t
)定义如下:
[0033]
设则μs和μ
t
分别为源域和目标域的均值,然后可得:
[0034][0035]
其中,φ()为希尔伯特变换,n=n+m,n为源域数据点个数,m为目标域数据点个数,xi为综合域中第i个数据样本,λi为x
s,i
距综合域均值的匹配贡献度值,|| ||为范数算子;参数b是λi的权重指数,用来调整数据点属于多类别的不确定性或者程度,为了避免出现平凡解,本实施方式中的b取值为2。
[0036]
为了进一步提高可能性领域适应分布距离度量方法在噪声数据上的鲁棒性,将公式(2)优化为:
[0037][0038]
其中,等式右边的第二项描述了通过模糊熵特性来减少噪声数据对模型分类的影响,模糊熵越大,样本判别信息量也越大,学习得到该方法泛化性就越好,该项是一个关于λi的单调递减函数,且需要通过调整平衡参数β和强制相关数据的λi尽可能的大,以此来避免平凡解,此外,还能使得噪声数据得到更小的不同匹配贡献度值,因此,模糊熵对噪声/异
常数据也起到了抑制效果,使得该方法具有更好的鲁棒性。
[0039]
上述公式(3)只是针对目标域解决回归问题,将源域所有数据都与目标域均值进行匹配。如果目标域也有多个类别时,则会导致领域中数据间的类别结构关系没有得到保留,为了解决该问题,需将源域数据与目标域上不同类别的均值进行匹配,不管是回归问题还是分类问题,每次匹配都要计算其对应的匹配贡献度值。因此,可能性领域分布度量方法的优化问题可改成v。
[0040]
设c为目标域类别数,当c=0时,则和分别为整个源域和整个目标域的均值,当c∈[1,2,...,c]时,则和分别为源域和目标域中对应类别的均值,并且则:
[0041][0042]
其中,为xi属于综合域中第c个类别的匹配贡献度值。
[0043]
p-ddm方法除了求解上述描述的数据xi与综合域均值间匹配贡献度以外,接下来还需要求解一个由源域和目标域共同的标签矩阵和决策函数。
[0044]
首先,假设g是在源域数据和目标数据混合为n=m+n个数量的数据集上定义的无向图,m为源域和目标域数据集合构成无向权值图g的权重矩阵,m
ij
=m
ji
>0,其样本与样本间的权重计算方法为:
[0045][0046]
其中,xi∈ne(xj)表示xi为xj的邻居,σ是控制高斯核函数的局部作用范围,σ越大,局部作用范围越大,反之,其局部作用范围就越小,当σ固定时,m
ij
的变化时随着xi和xj间的距离增加而单调变小的,因此,本实施方式也将聚类问题转化为图划分问题。通过图拉普拉斯正则化对每个实例进行标签传播建模,即:
[0047][0048]
其中,y=[ys;y
t
]∈in×c,y
t
为目标域标签矩阵,当目标域中某样本无标签时,该样本在y
t
中对应位置的标签值为全0,ys为源域标签矩阵,l=m-d∈in×n是拉普拉斯图矩阵,d为对角矩阵,且结合构建图拉普拉斯可保证数据几何结构一致性,最终,p-ddm方法的优化问题可描述为:
[0049][0050]
其中,w={ws,w
t
},ws是源域原有的模型,w
t
是目标域的未知模型,α、η、ρ都为目标函数中各项所对应的平衡参数,第三项是拉普拉斯正则化项保证数据几何结构一致性,第四项描述了通过构建平方损失函数来学习优化得到决策函数w,第五项描述了在优化w的过程中进行特征选择以预防过拟合。
[0051]
进一步地,p-ddm的优化问题是一个关于w和y非凸问题,可以采取交替迭代优化的策略来实现w和y的优化求解,并且每一步都有一个闭环解,此处不再赘述。
[0052]
p-ddm方法采用迭代优化策略,迭代学习在领域适应学习方法中也是常常用到。目标域中没有标签数据,其初始值可以通过几种策略获得,可以随机化给初始值、全置零作为其初始值,或者利用源域的模型参数对目标域数据初始化得到各数据点的初始标签数据。因此,p-ddm实际上是从目标域带标签数据开始进行领域适应学习,由此来初始化w和y。
[0053]
实验分析:
[0054]
为了评估p-ddm方法在dal问题上的有效性,本实施方式在4个视觉基准数据集上将该方法与最新的无监督领域适应算法进行比较,其中,实际领域适应应用包括:物体检测、人脸检测、数字检测。
[0055]
数据集包括4类,具体如下:
[0056]
(1)office31:它包括从3个域中获取31个对象的图像,即amazon(从在线网络商家下载的图像),dslr(由数字slr相机捕获的高分辨率图像)和webcam(由网络相机记录的低分辨率图像)。本实施方式利用在源域上经过微调的alexnet-fc7功能。
[0057]
(2)office-caltech:包含来自office31和caltech256数据集之间的10个重叠对象类的图像。以前,采用surf功能并使用800维bow功能进行编码。此外,本实施方式还利用decaf特征和vgg-fc特征。
[0058]
(3)mnist-ups:由两个经典的手写数字图像数据集usps和mnist组成。为了加快实验比较,分别从usps和mnist中随机选择1800和2000张手写数字的图像。此外,为了与usps图像尺寸保持一致,来自mnist的图像会统一调整为16x16。
[0059]
(4)coil20是另一个目标数据集,包含20种类别共1,440个样本,图像尺寸为32x32。根据拍摄目标的方向将数据集分为两个子集coil1和coil2。具体而言,coil1包含沿[0;85]和[180;265]方向拍摄的所有图像,而coil2包含其余方向。表1概括了包括所有数据
集缩写、特征大小和类别数详细信息。
[0060]
表1 4个基准领域数据集的详细信息
[0061][0062]
本实施方式所提的p-ddm方法将与大量的无监督领域适应方法进行比较,这些方法分别为:jgsa、coral和dga-da、rtn、knn-ad、jan、adda、autodial、dicelp和dicesvm。此外,本实施方式重新运行方法jgsa和coral的公开代码,并实现了dga-da。其他方法的原始实验结果都是从其对应的论文中来获取的。最后,本实施方式运行了在libsvm4中公开的coral源代码。需要注意的是,所有这些方法都是基于p-ddm算法。
[0063]
训练协议:对于表1中除office-caltech以外的所有数据集都将利用所有源实例进行训练。关于office-caltech数据集,还采用了附加的“拆分”协议,该协议为以前在相关论文中采用了公开的20个训练实例分割,其中,a领域每个类选择了20个实例,对于其他领域则选择了8个实例。对具有像素点和深度特征均采用了l2归一化。
[0064]
参数设置:在分析实验评估结果前,关于p-ddm方法的超参数值的设置也是至关重要的,该方法存在五个超参数β,α,η,ρ,θ0,所有实验均以网格搜索方式在{10-9
,10-6
,10-3
,100,103,106,109}范围内确定所有超参数优化的最佳组合,其中θ0值为不能低于1的一个足够大数值。所有方法中训练样本平均范数的平方根将作为高斯核函数带宽σ值。无监督的领域适应没有目标实例标签,采取标准交叉验证方法不可取,因此,本实验采取在源域上实施k-1折交叉验证方法,即,k-1折源域和整个目标域作为训练数据,然后在剩余源域上计算其平均精确度。
[0065]
由此可见,本发明通过匹配贡献度函数对噪声进行弱化处理;本发明通过模糊熵正则项更进一步来提高其匹配贡献度对噪声数据的有效鲁棒性;本发明通过拉普拉斯矩阵来保证源域与目标域内部数据间的几何结构一致性,实现源域与目标域数据分布不变;本发明解决了噪声数据会使均值漂移导致领域适应学习性能下降的问题。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1