一种利用随机森林的极化SAR海面油膜提取方法与流程

文档序号:13513461阅读:456来源:国知局

本发明涉及图像处理技术领域,尤其涉及一种利用随机森林的极化sar海面油膜提取方法。



背景技术:

石油在开采运输等过程中发生的泄漏会对海洋生态环境造成严重的破坏,同时造成巨大的经济损失。因此准确的油膜检测和提取在溢油事件发生后能为污染清理和灾后评价提供决策支持。同时,海面自然油膜的位置对海底石油勘探产生指导作用,从而大面积缩小海底石油勘探的作业范围。极化sar(polarimetricsyntheticapertureradar,polsar)影像由于其具有覆盖范围广、穿透性强、全天时全天候的工作优点,使得极化sar在油膜检测中有独特的优势,成为海面油膜检测的主要途径。

针对极化sar海面油膜提取方法,现有的提取方法包括:

(1)基于单特征的极化sar海面油膜提取方法:该方法主要利用某一个极化特征对海面油膜进行提取,在特定的研究区内有较好的效果,但是在不同入射角、不同海况下,得到的检测结果存在较大的差异,存在不适用的情况,单特征的极化sar海面油膜提取方法无法全面的利用到极化信息;

(2)基于多特征的极化sar海面油膜提取方法:该方法利用了多个特征,但是存在不知哪个特征在提取中有最大的贡献的问题,对后续的验证和油膜检测指导作用微弱;

(3)利用k均值的极化sar海面油膜提取方法:该方法利用在单特征和多特征下的海面油膜提取中,是目前较为常用的提取方法,但是利用该方法时不同迭代次数不同阈值的设定会对提取结果产生非常大的影响,在不同的影像上需要不同的阈值设定,适用性较差,同时其噪声和异质的容忍度较差,在提取结果中常出现误分、错分的现象,容易出现较大的错误提取,难以控制其准确度。



技术实现要素:

有鉴于此,本发明提供了一种能有效提高油膜提取结果精确度、减小噪声影响的利用随机森林的极化sar海面油膜提取方法。

本发明提供一种利用随机森林的极化sar海面油膜提取方法,包括以下步骤:

s101,获得原始的极化sar影像,对所述极化sar影像进行预处理,选取所述极化sar影像的研究区域,对所述研究区域进行滤波处理,然后利用polsarpro对研究区域进行相干矩阵的提取,得到相干矩阵和相干矩阵的特征值;

s102,利用所述相干矩阵的特征值对相干矩阵进行计算,得到若干油膜特征;

s103,选取油膜样本、类油膜样本和海水样本构成原始样本集,在所述原始样本集中选取若干子样本集,利用所述油膜特征对子样本集进行训练,得到随机森林模型;

s104,利用所述随机森林模型中的基尼系数提取所述油膜特征的贡献度,所述油膜特征的贡献度用于为提取油膜时的特征选择提供支持;

s105,所述油膜特征构成油膜特征向量集,基于所述随机森林模型对油膜特征向量集进行分类,获得油膜提取结果。

进一步地,步骤s101中,所述研究区域为油膜与油膜类似物同时存在的海面,所述滤波处理的方式选择精细lee滤波和sigmalee滤波中的任一种。

进一步地,步骤s102中,所述油膜特征包括熵、反熵、基准高度、同极化相位差的标准差、一致性系数、几何强度、布拉格散射占比、单次反射特征值差异度、自相似系数和镜面相似系数;

所述熵用以整体描述研究区域内不同散射类型在统计意义上的无序性,所述熵的计算公式为:

式中,h为熵,pi(i=1,2,3)为由相干矩阵的特征值获取的伪概率;

所述反熵用以反映研究区域内不同散射类型在统计意义上的无序性,所述反熵的计算公式为:

式中,a12为反熵,λ1、λ2分别为相干矩阵的第一特征值和第二特征值;

所述基准高度的计算公式为:

式中,ph为基准高度,λ3为相干矩阵的第三特征值,λ1>λ2>λ3;

所述同极化相位差的标准差能反映海面后向散射机制的差异,所述同极化相位差的标准差的计算公式为:

式中,σijco为同极化相位差的标准差,φhh为水平通道下的相位,φvv为垂直通道下的相位;

所述一致性系数的计算公式为:

式中,μ为一致性系数,t13为相干矩阵中第一行第三列的值,t22为相干矩阵中第二行第二列的值,span为极化sar影像的总能量;

所述几何强度的计算公式为:

v=(det(t))1/d

式中,v为几何强度,t为相干矩阵,d为相干矩阵的秩;

所述布拉格散射占比的计算公式为:

其中,η为布拉格散射占比,t11为相干矩阵中第一行第一列的值,t12为相干矩阵中第一行第二列的值;

所述单次反射特征值差异度的计算公式为:

式中,serd为单次反射特征值差异度,i=1,2,3;

所述自相似系数的计算公式为:

式中,rrrs为自相似系数;

所述镜面相似系数的计算公式为:

式中,rrrm为镜面相似系数。

进一步地,步骤103中,所述得到随机森林模型的具体过程为:

3.1通过bagging抽样方法对所述原始样本集进行有放回的随机抽样n次,n的取值大于2,得到n个大小为n的子样本集;

3.2将所述每个子样本集作为一棵决策树的训练样本,所述训练样本用作对应决策树的根节点,然后由所述根节点开始,执行一个自顶向下的贪婪搜索算法,得到n棵训练完成的决策树;

3.3将所述n棵训练完成的决策树组合,得到随机森林模型。

进一步地,所述贪婪搜索算法的过程为:

3.2.1计算当前决策树的节点的基尼系数,所述基尼系数的计算公式为:

式中,i(a)为基尼系数,a为节点,p(w)为节点处类别w的样本数占总样本数的比例,w=1、2…nw-1、nw,所述节点处的每个样本对应一个类别,若节点处所有样本的类别一致,到步骤3.2.4;若节点处所有样本的类别不一致,到步骤3.2.2;

3.2.2利用所述油膜特征对节点进行划分;

3.2.3对所述节点进行划分的过程中,通过比较所述决策树的基尼系数,选择出使基尼系数下降最快的油膜特征,将该油膜特征作为该节点处的最佳划分,同时记录该油膜特征;判断基尼系数下降的参数为度量参数,所述度量参数的计算公式为:

δi(a)=i(a)-pli(al)-(1-pl)i(ar)

式中,δi(a)为度量参数,pl为划分到左分支节点al中的样本占节点a中样本数的比例,ar为右分支节点;δi(a)的值越大说明节点a处的基尼系数下降越快;

3.2.4确定节点处的最佳划分后,首先寻找节点处是否存在右兄弟节点,若存在,则该右兄弟节点作为新的当前节点;若不存在,则寻找决策树中节点处的下一层最左边节点作为当前节点;确定新的当前节点后,重复执行步骤3.2.1-3.2.4;如果节点处不存在右兄弟节点,且决策树中节点处的下一层也没有其他节点,说明每个节点处的样本的类别一致,则决策树的训练过程结束,得到训练完成的决策树。

进一步地,步骤s104中,所述提取油膜特征的贡献度的过程为:通过遍历所有决策树的节点,计算每个油膜特征对应的基尼系数下降总和,所述基尼系数下降总和为该油膜特征的贡献度。

进一步地,步骤s105中,所述获得油膜提取结果的过程为:

5.1所述油膜特征向量集为:

q=(q1,q2,q3,…,qn)

式中,q为油膜特征向量集,qj为油膜特征向量集中第j个像元的特征向量,j=1,2,…,n;n为像元总数;

5.2将所述油膜特征向量集投入到所述随机森林模型中;

5.3对于油膜特征向量集中的每一个像元,随机森林模型中的n棵决策树各有一个投票结果,统计n棵决策树的投票结果,其中得票数最多的类别为该像元的类别,则实现了对每一个像元的分类,从而得到油膜提取结果。

进一步地,利用所述步骤s105中的油膜提取结果提取油膜检测范围图,将所述油膜检测范围图与真实油膜范围图叠加,定义所述油膜检测范围图中与真实油膜范围图的重叠部分的油膜的像元数与真实油膜范围图的油膜的像元数的比值为油膜检测率,定义油膜检测范围图中未与真实油膜范围图重叠的部分的油膜的像元数与真实油膜范围图的油膜的像元数的比值为油膜虚警率。

进一步地,根据所述油膜检测率和油膜虚警率定义评价参数,利用所述评价参数评价油膜检测结果,定义所述评价参数为:

式中,f1为评价参数,dr为油膜检测率,far为油膜虚警率,f1∈[0,1],评价参数越接近1表明油膜的检测精度越高。

本发明提供的技术方案带来的有益效果是:本发明利用随机森林算法提取海面油膜,训练速度快且能简单实现,不仅有效提高了油膜提取的效率、增加了油膜和油膜类似物的分辨能力,而且减少了油膜提取中的噪声,同时利用本发明的方法能得到不同油膜特征的贡献度,该贡献度可以为油膜提取时的特征选择提供指导,进一步克服了现有技术中信息利用不全、噪声大、误分严重的情况。

附图说明

图1是本发明一种利用随机森林的极化sar海面油膜提取方法的流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地描述。

请参考图1,本发明的实施例提供了一种利用随机森林的极化sar海面油膜提取方法,包括以下步骤:

步骤s101,获得原始的极化sar(polarimetricsyntheticapertureradar,polsar)影像,对极化sar影像进行预处理,选取极化sar影像的研究区域,对研究区域进行滤波处理,然后利用polsarpro对研究区域进行相干矩阵的提取,得到相干矩阵和相干矩阵的特征值。

通常选取的研究区域为油膜与油膜类似物同时存在的海面,由于极化sar影像存在大量的相干斑,为了降低噪声的影响,一般需要对原始的极化sar影像进行滤波处理,滤波处理的方式包括精细lee滤波和sigmalee滤波,一实施例中,采用精细lee滤波对极化sar影像进行滤波处理;当影像分辨率较低时,为了保留影像信息也可以不做滤波处理。

步骤s102,利用相干矩阵的特征值对相干矩阵进行计算,得到若干油膜特征。

具体地,步骤s102中,油膜特征包括熵、反熵、基准高度、同极化相位差的标准差、一致性系数、几何强度、布拉格散射占比、单次反射特征值差异度、自相似系数和镜面相似系数。

熵用以整体描述研究区域内不同散射类型在统计意义上的无序性,其计算公式为:

式中,h为熵,pi(i=1,2,3)为由相干矩阵的特征值获取的伪概率。

反熵用以反映研究区域内不同散射类型在统计意义上的无序性,其计算公式为:

式中,a12为反熵,λ1、λ2分别为相干矩阵的第一特征值和第二特征值。

基准高度的计算公式为:

式中,ph为基准高度,λ3为相干矩阵的第三特征值,λ1>λ2>λ3。

同极化相位差的标准差能反映海面后向散射机制的差异,其计算公式为:

式中,σijco为同极化相位差的标准差,φhh为水平通道下的相位,φvv为垂直通道下的相位。

一致性系数的计算公式为:

式中,μ为一致性系数,t13为相干矩阵中第一行第三列的值,t22为相干矩阵中第二行第二列的值,span为原始的极化sar影像的总能量。

几何强度的计算公式为:

v=(det(t))1/d

式中,v为几何强度,t为相干矩阵,d为相干矩阵的秩。

布拉格散射占比的计算公式为:

其中,η为布拉格散射占比,t11为相干矩阵中第一行第一列的值,t12为相干矩阵中第一行第二列的值;海面是以布拉格散射为主的散射机制,油膜是非布拉格散射为主的散射机制,因此计算原始的极化sar影像中的布拉格散射占比可以辨别油膜和海水。

单次反射特征值差异度的计算公式为:

式中,serd为单次反射特征值差异度,i=1,2,3;单次反射特征值差异度对海表面粗糙度敏感,利用其可以辨别油膜和非油膜。

自相似系数的计算公式为:

式中,rrrs为自相似系数。

镜面相似系数的计算公式为:

式中,rrrm为镜面相似系数。

步骤s103,选取油膜样本、类油膜样本和海水样本构成原始样本集,在原始样本集中选取若干子样本集,利用油膜特征对子样本集进行训练,得到随机森林模型。

具体地,步骤s103中,得到随机森林模型的具体过程为:

3.1通过bagging抽样方法对原始样本集进行有放回的随机抽样n次,n的取值大于2,得到n个大小为n的子样本集;

3.2将每个子样本集作为一棵决策树的训练样本,训练样本用作对应决策树的根节点,然后由根节点开始,执行一个自顶向下的贪婪搜索算法,得到n棵训练完成的决策树;

贪婪搜索算法的过程为:

3.2.1计算当前决策树的节点的基尼系数,基尼系数的计算公式为:

式中,i(a)为基尼系数,a为节点,p(w)为节点a处类别w的样本数占总样本数的比例,w=1、2…nw-1、nw,节点a处的每个样本对应一个类别,由于每个子样本集的生成具有随机性,以及节点a在决策树中层次位置不同,因此节点a处有些类别的样本数可能为0;若节点a处所有样本的类别一致,到步骤3.2.4;若节点a处所有样本的类别不一致,到步骤3.2.2;

3.2.2利用步骤s102中得到的油膜特征对节点a进行划分;

3.2.3对节点a进行划分的过程中,通过比较决策树的基尼系数,选择出使基尼系数下降最快的油膜特征,将该油膜特征作为该节点处的最佳划分,同时记录该油膜特征;判断基尼系数下降的参数为度量参数,度量参数的计算公式为:

δi(a)=i(a)-pli(al)-(1-pl)i(ar)

式中,δi(a)为度量参数,pl为划分到左分支节点al中的样本占节点a中样本数的比例,ar为右分支节点;δi(a)的值越大说明节点a处的基尼系数下降越快;

3.2.4确定节点a处的最佳划分后,首先寻找节点a处是否存在右兄弟节点,若存在,则该右兄弟节点作为新的当前节点;若不存在,则寻找决策树中节点a处的下一层最左边节点作为当前节点;确定新的当前节点后,重复执行步骤3.2.1-3.2.4;如果节点a处不存在右兄弟节点,且决策树中节点a处的下一层也没有其他节点,说明每个节点处的样本的类别一致,则决策树的训练过程结束,得到训练完成的决策树;

3.3将n棵训练完成的决策树组合,得到随机森林模型。

一实施例中,决策树的算法采用gart算法。

步骤s104,利用随机森林模型中的基尼系数提取油膜特征的贡献度,并将油膜特征的贡献度可视化表现,油膜特征的贡献度用于为提取油膜时的特征选择提供支持。

具体地,步骤s104中,提取油膜特征的贡献度的过程为:通过遍历所有决策树的节点,计算每个油膜特征对应的基尼系数下降总和,基尼系数下降总和为该油膜特征的贡献度。

步骤s105,油膜特征构成油膜特征向量集,基于随机森林模型对油膜特征向量集进行分类,获得油膜提取结果。

具体地,步骤s105中,获得油膜提取结果的过程为:

5.1油膜特征向量集为:

q=(q1,q2,q3,…,qn)

式中,qj为油膜特征向量集q中第j个像元的特征向量,j=1,2,…,n,n为像元总数;

5.2将油膜特征向量集q投入到随机森林模型中;

5.3对于油膜特征向量集q中的每一个像元,随机森林模型中的n棵决策树各有一个投票结果,统计n棵决策树的投票结果,其中得票数最多的类别为该像元的类别,则实现了对每一个像元的分类,从而得到油膜提取结果。

本发明利用步骤s105中的油膜提取结果提取油膜检测范围图,将油膜检测范围图与真实油膜范围图叠加,定义油膜检测范围图中与真实油膜范围图的重叠部分的油膜的像元数与真实油膜范围图的油膜的像元数的比值为油膜检测率,定义油膜检测范围图中未与真实油膜范围图重叠的部分的油膜的像元数与真实油膜范围图的油膜的像元数的比值为油膜虚警率;根据油膜检测率和油膜虚警率定义评价参数,利用评价参数评价油膜检测结果,定义评价参数为:

式中,f1为评价参数,dr为油膜检测率,far为油膜虚警率,f1∈[0,1],评价参数越接近1表明油膜的检测精度越高。

本发明利用随机森林算法提取海面油膜,训练速度快且能简单实现,不仅有效提高了油膜提取的效率、增加了油膜和油膜类似物的分辨能力,而且减少了油膜提取中的噪声,同时利用本发明的方法能得到不同油膜特征的贡献度,该贡献度可以为油膜提取时的特征选择提供指导,进一步克服了现有技术中信息利用不全、噪声大、误分严重的情况。

在不冲突的情况下,本文中上述实施例及实施例中的特征可以相互结合。

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1