本发明属于机器学习与遥感信息交叉领域,涉及数据挖掘和数据处理的方法,具体地说,涉及一种基于ramp损失函数的鲁棒的漏油海域识别方法。
背景技术:
分类问题是数据挖掘与机器学习领域研究的经典问题。伴随电子商务、社交媒体、移动互联网、卫星遥感等技术的快速发展,越来越多的数据不断产生。类别数据不均衡是分类任务中一个典型的存在的问题,漏油海域的识别任务即为一个类别不均衡问题。在海面漏油区域的识别任务中,绝大部分是正常海面,只有极少部分的海面属于漏油区域,普通的识别方法将难以得到较好的识别结果。同时,大规模标签数据中,由于人工标记的失误与效率低下,难免有部分甚至大部分标签缺失或标记错误的情况出现,而这些异常标签会严重影响分类器的分类效果。在海面漏油区域的识别任务中,可能存在大部分区域未进行标记,或由于一些因素干扰而标记错误。因此,亟需设计一种对异常标签具有鲁棒性的不平衡分类算法,以处理漏油海域识别问题。
技术实现要素:
本发明的目的在于针对正负样本数量差距太大的漏油海域识别问题,以及该任务中常见的大量标签缺失、存在大量错误标签等标签异常问题,提出了一种基于ramp损失函数的鲁棒不平衡分类方法。该方法可以处理漏油海域全极化合成孔径雷达样本类别不平衡的情景,提高标签异常数据的识别精度,满足实际漏油海域识别问题的需求。
一种鲁棒的漏油海域识别方法,该方法具体包括以下步骤:
步骤一:采集所要识别海域的全极化合成孔径雷达数据,对缺失标签的样本进行标记,并统计正、负类样本的数量;
采集向量形式的所要识别海域的全极化合成孔径雷达数据,或将原始样本转换为向量形式,同时采集标签信息;其中,正类标签表示正常海域,负类标签表示漏油海域;对于无标签样本,将其均标记为正类或均标记为负类;然后统计样本的总数量n,并根据样本标签分别将样本放入正类集合p、负类集合n,并统计正类样本数m以及负类样本数n-m;
步骤二:根据正负样本数量给出基于ramp损失的结构风险最小化模型;具体步骤为:采用ramp损失
作为模型的损失函数,并根据正负样本数量分别对正负样本的损失设置相应的权重,给出结构风险最小化模型为
其中λ>0,π>0分别是正则项与正类损失项的常参数,f(xi)=<ω,φ(xi)>为分类器函数,yi为第i个样本的标签且yi∈{+1,-1},φ(·)为输入空间到特征空间的一个映射,ω为待确定的模型参数;
步骤三:采用dc分解将模型转化为形式为凹凸函数之和的模型;具体为:
(1)采用dc分解将非凸的ramp损失函数分解为两个凸函数之差的形式,即
其中
(2)将ramp损失的dc分解形式代入模型(2)中,整理可得
其中
(3)记
jcav(ω)=-c1∑i∈ph-1(yif(xi))-c2∑i∈nh-1(yif(xi)),(6)
其中,jvex(·)和jcav(·)分别表示凸函数和凹函数;由此,我们将原模型转化为凹凸函数之和的形式
minωjvex(ω)+jcav(ω);(7)
步骤四:采用凹凸过程cccp迭代求解模型,并利用模型对新样本进行预测;具体为:(1)设置k=0,初始化ω0,然后根据ωk和以下公式
ωk+1=argminωjvex(ω)+j’cav(ωk)·ω(8)
迭代求解ωk+1直到收敛或达到迭代停止条件;
(2)由于分类器f(x)中的映射φ(·)未知,采用拉格朗日对偶与核方法解决凹凸过程;令
其中i∈p∪n;根据等式(6),有
因此公式(8)的拉格朗日对偶为
s.t.ai≤αi≤bi,i∈p∪n
其中
(3)初始化
(4)求解二次规划问题(11),并将其最优解记为αk+1;
(5)更新ηk+1,即
其中i∈p∪n,
(6)更新ai与bi,即
(7)迭代进行步骤(4)、(5)、(6),直到αk+1收敛或达到迭代停止条件,得到最终的鲁棒不平衡分类器
(8)将新样本xi代入分类器中,并对其标签进行预测。
本发明涉及一种基于ramp损失的鲁棒的漏油海域识别方法。根据正负样本数量分别对正负样本的损失设置相应的权重,以处理类别不平衡问题。通过引入ramp损失函数处理部分甚至大部分标签缺失或错误等标签异常问题,并利用dc分解、凹凸过程(cccp)、拉格朗日对偶以及核方法等技巧迭代求解基于ramp损失的代价敏感的结构风险最小化模型,得到一个对异常标签具有鲁棒性的分类器。本发明鲁棒的漏油海域识别方法,能够处理海域全极化合成孔径雷达数据的类别不平衡问题以及标签异常问题,具有良好的鲁棒性质。
附图说明
图1ramp损失函数的dc分解
图2采用本发明识别方法与支持向量机在数据集dataset1的不同场景下的漏油区域识别结果比较示意图
图3采用本发明识别方法与支持向量机在数据集dataset2的不同场景下的漏油区域识别结果比较示意图
图4dataset1数据集上不同数据质量的“noisy”场景下的漏油区域识别结果示意图
图5dataset2数据集上不同数据质量的“noisy”场景下的漏油区域识别结果示意图
具体实施方式
以下结合附图对本发明具体步骤进行解释说明。
实施例一:以墨西哥湾两片海域的全极化合成孔径雷达数据集dataset1与dataset2上的漏油区域识别实验为例进行说明。本发明实施例一种鲁棒的漏油海域识别方法含有以下步骤:
步骤一:采集所要识别海域的全极化合成孔径雷达数据,对缺失标签的样本进行标记,并统计正、负类样本的数量。其具体步骤为:
(1)选择待处理数据。本实施例中,我们分别在dataset1与dataset2中随机选取9600与10000个样本用于漏油区域识别,其中20%的样本用于训练,剩余样本用于测试,同时给定参数p用于描述数据质量。模型参数通过5折交叉验证来确定。指定高斯核函数为模型核函数,即
(2)统计样本的总数量n,并根据样本标签分别将样本放入正类集合p、负类集合n,并统计正类样本数m以及负类样本数n-m。
步骤二:根据正负样本数量给出基于ramp损失的结构风险最小化模型。其具体步骤为:
采用ramp损失
作为模型的损失函数,并根据正负样本数量分别对正负样本的损失设置相应的权重,给出结构风险最小化模型为
其中λ>0,π>0分别是正则项与正类损失项的常参数,f(xi)=<ω,φ(xi)>为分类器函数,yi为第i个样本的标签且yi∈{+1,-1},φ(·)为输入空间到特征空间的一个映射,ω为待确定的模型参数。
步骤三:采用dc分解将模型转化为形式为凹凸函数之和的模型。其具体步骤为:
(1)采用dc分解(differenceoftwoconvexfunctions)将非凸的ramp损失函数分解为两个凸函数之差的形式,即
lr(z)=h1(z)-h-1(z),(3)
其中
(2)将ramp损失的dc分解形式代入模型(2)中,整理可得
其中
(3)记
jcav(ω)=-c1∑i∈ph-1(yif(xi))-c2∑i∈nh-1(yif(xi)),(6)
其中,jvex(·)和jcav(·)分别表示凸函数和凹函数。由此,我们将原模型转化为凹凸函数之和的形式
minωjvex(ω)+jcav(ω)。(7)
步骤四:采用凹凸过程(cccp)迭代求解模型,并利用模型对新样本进行预测。其具体步骤为:
(1)设置k=0,初始化ω0,然后根据ωk和以下公式
ωk+1=argminωjvex(ω)+j’cav(ωk)·ω(8)
迭代求解ωk+1直到收敛或达到迭代停止条件。
(2)由于分类器f(x)中的映射φ(·)未知,我们采用拉格朗日对偶(lagrangedual)与核方法解决凹凸过程(cccp)。令
其中i∈p∪n。根据等式(6),有
因此公式(8)的拉格朗日对偶为
s.t.ai≤αi≤bi,i∈p∪n
其中
(3)初始化
(4)求解二次规划问题(11),并将其最优解记为αk+1。
(5)更新ηk+1,即
其中i∈p∪n,
(6)更新ai与bi,即
(7)迭代进行步骤(4)、(5)、(6),直到αk+1收敛或达到迭代停止条件,得到最终的鲁棒不平衡分类器
(8)将新样本xi代入分类器中,并对其标签进行预测。
图2和图3为采用本发明识别方法与支持向量机在数据集dataset1和dataset2的不同场景下的漏油区域识别结果比较示意图。由图2和图3可以看出,本发明识别方法在以上2个数据集上的各种场景下均能实现很好的识别效果,且在“pu”和“noisy”场景下的识别能力优于支持向量机。
表1和表2为采用本发明识别方法与支持向量机在数据集datasetl的各种场景在不同数据质量情况下的漏油区域识别结果比较图。表3和表4为采用本发明识别方法与支持向量机在数据集dataset2的各种场景在不同数据质量情况下的漏油区域识别结果比较图。由于不平衡分类问题以及标签缺失或错误的问题的存在,除了分类正确率(accuracy)外,我们还采用bm值(bookmarkerinformedness)作为识别精度评价标准,bm值的表达式如下:
bm=tpr+tnr-1
其中
其中tp、tn、fp、fn分别代表了正确分类的正类样本数、正确分类的负类样本数、错误分类的正类样本数、错误分类的负类样本数。
由表1和表3可以看出,对于“normal”场景和不同数据质量的“pn”场景,本发明识别方法与支持向量机均可以达到较高的识别精度,但本发明识别方法的fp更少,即对少数样本的分错率更低,因此其bm值更高,对于不平衡分类问题更友好。
由表2和表4可以看出,对于不同数据质量的“pu”和“noisy”场景,尤其是数据质量较差的情况(p很大的情况,如p=0.8或p=0.9),本发明识别方法比支持向量机具有更高的鲁棒性,即分类结果不会因标签异常数据的大量出现而突然降低。
图4和图5分别为dataset1和dataset2数据集上不同数据质量的“noisy”场景下的漏油区域识别结果示意图。由图4和图5可以看出,随着p的不断增大,噪声标签比例越来越高,数据质量越来越差,支持向量机的识别结果逐渐模糊并且逐渐变差,而本发明识别方法的识别结果可以达到很好的效果,且基本不会因噪声标签的增多而产生影响,即对异常标签具有更高的鲁棒性。
表1
表2
表3
表4
上述实施例用来解释本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明做出的任何修改和改变,都落入本发明的保护范围。