一种基于随机森林的雾霾图像分类方法与流程

文档序号:12272343阅读:497来源:国知局
本发明涉及计算机图像处理以及机器学习邻域,尤其涉及一种基于随机森林的雾霾图像分类方法。
背景技术
:近年来,我国大部分地区都受到了严重雾霾的污染。雾霾笼罩,遮蔽了视线,相机和视频监控等成像系统所捕获的图像色彩暗淡、对比度变低,图像质量的严重退化,直接影响了图像的视觉效果,严重影响它们的应用范围。因此,很多应用场合需要对受到雾霾污染的图像进行去雾处理。图像去雾研究最早可追溯到1992年L.Bissonnette等人针对雾和雨天气的图像去雾。图像去雾技术经历了二十多年的发展,从过去多幅图像去雾到目前单幅图像去雾,不断有新思想和新方法产生并用于实际工程中,取得了较大的进展。基于非物理模型的方法可分为3类:彩色增强、白平衡方法和对比度增强。前两类是基于颜色恒常性的方法。第三种为对比度增强,目的是增强图像的全局、局部对比度,不考虑色度映射或颜色恒常性问题。典型的方法有直方图均衡化算法、曲波变换、同态滤波算法、基于大气调制传递函数、小波方法及Retinex算法等。基于物理模型的去雾方法通过分析图像退化原因,对大气散射建模,实现图像的恢复,可以分为三类:基于偏微分方程的复原、基于深度关系的复原和基于先验信息的复原。典型的方法有:Tan等人通过统计发现无雾图像相对于有雾图像具有较高的对比度,提出了基于最大化复原图像的局部对比度的方法;Fattal等人假设透射率和表面投影在局部是不相关,通过估算场景的反射率以推断目标物体在空气中的传播的透射率的方法;He等人根据图像的暗通道先验知识,提出了基于暗通道和软抠图的方法,以及暗通道和导向滤波等方法。尽管目前有几十种去雾方法,但是大多数方法并不能判断一幅图像是否有雾霾。如果图像本身没有雾霾,使用去雾方法后可能会导致颜色或纹理扭曲,且浪费了大量去雾时间,起到了负作用。此外,这些方法也没有判断雾霾图像的严重程度,事实上有些方法只适合轻度雾霾图像,而有些方法仅适应中度雾霾图像,有些方法可以适合重度雾霾但处理时间比较长。各种去雾方法有不同的优点和缺点,根据雾霾图像的严重程度,集成多种去雾方法,充分发挥各种方法的优点,对图像去雾具有重要的意义。技术实现要素:为解决现有技术问题,本发明提出一种基于随机森林的雾霾图像分类方法,把图像分为无雾、轻度、中度和重度雾霾四类。本发明包括如下步骤:步骤1,采集不同雾霾天气下的图像,建立样本图像训练集,根据环境空气质量指数标注类别标签;步骤2,基于导向滤波自适应估计样本图像的大气光照强度;步骤3,定义和提取样本图像中与雾霾浓度相关的暗通道特征映射图、局部最大对比度特征映射图、色度差特征映射图和饱和度特征映射图;步骤4,提取特征映射图的直方图特征;步骤5,基于直方图的特征值区间,建立二分递归分类回归决策树;步骤6,有放回的选择训练集中的样本图像,建立两棵以上分类回归决策树的随机森林模型;步骤7,输入测试图像,提取测试图像特征映射图的直方图特征,输入随机森林模型分类,根据多数投票法的组合分类器决策最终的类别。本发明步骤1中,采集不同雾霾天气下的图像建立样本图像训练集,根据环境空气质量指数划分为0-50、51-100、101-150、151-200、201-300和大于300六档,把前2档空气质量天气下成像系统所捕获的图像标记为无雾图像,第3档和第4档空气质量天气下成像系统(本发明中,图像像素在100万以上,曝光补偿在+0.5EV以上)所捕获的图像分别标记为轻度雾霾图像和中度雾霾图像,最后2档空气质量天气下成像系统所捕获的图像标记为严重雾霾图像,共计四类标签。本发明步骤2中,对成像系统所捕获图像I的暗通道中所有像素按照灰度值降序排序,选取序列中前0.1%的像素点,计算它们的平均值A作为初始大气光照,以图像I作为导向图,采用如下公式对大气光照平滑滤波:其中表示第i个像素点滤波之后的大气光照,函数Gi,j(I)为导向滤波器的核函数,与大气光分布独立。Gi,j(I)定义为第i个像素点与局部相邻位置的像素j的空间高斯核函数和照度核函数之积:其中n为相邻像素点的个数,τj为归一化常数(本发明中),xi,xj分别表示第i和j个像素点的空间位置,Ii,Ij分别表示第i和j个像素点的照度,和分别表示n个相邻像素点的空间位置方差和n个相邻像素点的照度方差。本发明步骤3包括:定义和提取样本图像中与雾霾浓度相关的暗通道特征映射图:样本图像暗通道定义为在样本图像像素的局部区域内所有像素的红、绿、蓝三个颜色通道与大气光照之比的最小值:其中,Dd(x;I)即为样本图像I的暗通道,Ωd(x)表示以像素点x为中心的一个d×d的邻域(本发明中d=5),c表示红r、绿g、蓝b三个颜色通道中的一个通道,Ic(y)表示像素点x邻域内的像素点y的c通道,Ac表示像素点x的c通道大气光照。定义和提取样本图像中与雾霾浓度相关的局部最大对比度特征映射图:样本图像局部最大对比度定义为样本图像像素点的相邻区域内所有像素之间的照度之差的平方和的最大平均值:其中Cd(x;I)表示样本图像I中像素点x在d×d邻域内的局部最大对比度,y是x的d×d邻域内的像素点,z表示y的d×d邻域内的像素点,Ic(y),Ic(z)分别表示样本图像I中像素点y和z的c通道照度;定义和提取样本图像中与雾霾浓度相关的色度差特征映射图:色度差定义为样本图像I和它的半逆图像之间的色度差,半逆图像为原始图像和它的反转图像之间的最大值,样本图像I中的像素点x在c通道的半逆图像的定义如下:色度差即为原始图像和它的半逆图像之间的色度差:其中表示样本图像I中的像素点x在色度h通道的色度差,Ih(x)表示图像I中像素点x的色度h通道的照度;定义和提取样本图像中与雾霾浓度相关的最大饱和度特征映射图:最大饱和度定义为样本图像I像素点x的d×d邻域内最小颜色通道与最大颜色通道之比的最大反色,通过如下公式计算:其中Sd(x;I)表示样本图像I中的像素点x的最大饱和度。本发明步骤4中,将样本图像中与雾霾浓度相关的暗通道特征映射图、局部最大对比度特征映射图、色度差特征映射图和饱和度特征映射图,映射到[0,15]的灰度图像,并计算每幅特征图像的16个灰度级的直方图特征,共计64维特征,记为f1,f2,f3,…,f64。本发明步骤5包括如下步骤:步骤5-1,从训练集中随机抽取M(本发明中M=1000)幅样本图像,从每幅样本图像的64维特征中随机抽取10维特征,fi表示第k维特征,1≤k≤10,把每个特征所在样本图像中的最大值和最小值取值范围平均分为m个区间,并标记为[Vk,0,Vk,1],[Vk,1,Vk,2],…,[Vk,m-1,Vk,m],假设这些区间按照升序排序,Vk,m-1和Vk,m分别表示样本图像中第m个区间特征的最大值和最小值;步骤5-2,建立二分递归分类回归树的决策树:选择10维特征在所有值区间中最小基尼(GINI)增益的节点划分决策树,并假设特征fk在值区间范围[Vk,u-1,Vk,u]是分裂节点,则特征fk小于这个区间范围的图像子集为左孩子,特征fk大于这个区间范围的图像子集为右孩子,递归地对左右孩子进行划分,即产生分类回归树。本发明步骤6中,从训练集中有放回地抽取大小为M2(本发明中M2=100)的训练集作为根节点样本,从根节点开始训练,根据步骤5所述方法建立一定数量的(本发明建立了5棵)CART(ClassificationAndRegressionTree,分类与回归树)决策树组成随机森林模型。本发明步骤7包括如下步骤:步骤7-1,输入测试图像,采用步骤3所述的方法计算测试图像的暗通道、局部对比度、色度差和饱和度图像的直方图特征,输入到随机森林模型中;步骤7-2,随机森林模型从当前树的根节点开始,比较测试图像的直方图特征与当前节点的特征值区间范围,如果小于这个值区间范围则进入左节点,负否则进入右节点,直到到达一个叶子节点,并输出预测的类别值;步骤7-3,选择下一棵决策树,重复执行步骤7-2,直到所有CART决策树都输出了预测类别值,输出类别数最多的一类作为结果。有益效果:本发明的优点在于提出了一种基于随机森林的雾霾图像分类方法,通过在训练样本和特征选取两个环节引入随机抽取策略,使得随机森林不容易陷入过拟合;通过导向滤波平滑大气光照,避免了整幅图像采用相同大气光照导致的局部内容变暗的问题;通过定义特征映射图的直方图特征区间,解决了特征图无法直接用于随机森林的问题。通过本发明把雾霾图像分为无雾、轻度、中度和重度雾霾四类,可以集成多种雾霾图像处理算法。附图说明下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和/或其他方面的优点将会变得更加清楚。图1为本发明流程图。具体实施方式本发明通过建立随机森林模型,将样本图像分为无雾、轻度、中度和重度雾霾四类图像,本发明具体的流程如图1所示。步骤1,采集不同雾霾天气下的图像,建立训练集样本图像,基于环境空气质量指数标注类别标签。为了建立大量训练样本图像集,采集无雾、轻度、中度和重度雾霾4种天气下的多幅有雾和无雾图像集,并根据《环境空气质量指数(AQI)技术规定(试行)》(HJ633-2012)标注类别标签。根据HJ633-2012规定:空气污染指数划分为0-50、51-100、101-150、151-200、201-300和大于300六档。空气污染指数为0-50,空气质量级别为一级,空气质量状况属于优;空气污染指数为51-100,空气质量级别为二级,空气质量状况属于良。本发明把一级和二级空气质量天气下拍摄的图像标记为无雾图像。空气污染指数为101-150,空气质量级别为三级,空气质量状况属于轻度污染,本发明把三级空气质量天下拍摄的图像标记为轻度雾霾图像。空气污染指数为151-200,空气质量级别为四级,空气质量状况属于中度污染,本发明把四级空气质量天下拍摄的图像标记为中度雾霾图像。空气污染指数为201-300,空气质量级别为五级,空气质量状况属于重度污染;空气污染指数大于300,空气质量级别为六级,空气质量状况属于严重污染。本发明把五级和六级空气质量天气下拍摄的图像标记为严重雾霾图像。步骤2,基于导向滤波的样本图像大气光照强度的自适应估计。现有去雾方法假设整幅图像的大气光照是相同的,在很多雾霾图像中并不成立。图像中较暗的区域去雾后会变得更暗,且图像的细节信息会丢失。为此,本发明使用导向滤波函数,根据输入的雾霾图像自动调节大气光照A。首先,对雾霾图像暗通道所有像素按照灰度值降序排序,选取中前0.1%的最亮像素点,计算它们的平均值A作为初始大气光照。其次,以雾霾图像I作为导向,对大气光照强平滑滤波。其中函数Gi,j(I)为导向滤波器的核函数,与大气光分布独立,其定义为第i个像素点与局部相邻位置的像素点j空间高斯核函数和照度核函数之积:其中n为相邻像素点的个数,τj为归一化常数(本发明中),xi,xj分别表示第i和j个像素点的空间位置,Ii,Ij分别表示第i和j个像素点的照度,和表示n个相邻像素点的空间位置方差和照度方差。步骤3,定义和提取样本图像中与雾霾浓度相关的暗通道、局部对比度、色度差和饱和度等特征映射图。目前在图像上可以定义多种特征,特征之间可能存在许多不相关性或存在相互依赖性。高维特征空间容易导致分类训练模型的时间过长、维度灾难、模型的推广能力弱等缺点。本发明定义和提取了雾霾图像每个像素点与雾霾浓度相关的暗通道、局部对比度、色度差和饱和度等特征。(1)暗通道特征映射图暗通道特征是在图像像素x的局部区域内的所有像素的红绿蓝三个颜色通道与大气光照之比的最小值。其定义如下:其中Ωd(x)表示以x像素为中心的一个d×d邻域(本发明中d=5),Ac表示像素点x的c通道大气光。(2)局部最大对比度特征映射图经过大量有雾图像与无雾图像之间的对比可发现,浓雾天气条件下,图像的对比度低。局部最大对比度也是一个与雾霾浓度相关的重要特征,其定义为雾霾图像像素点x的相邻区域内所有像素之间的照度之差的平方和的最大平均值。其中Cd(x;I)表示样本图像I中像素点x在d×d邻域内的局部最大对比度,y是x的d×d邻域内的像素点,z表示y的d×d邻域内的像素点,Ic(y),Ic(z)分别表示样本图像I的像素点y和z的c通道照度。(3)色度差特征映射图对于无雾图像的像素,三个半逆值并非都会从原始图像翻转,这将会导致原始图像和它的半逆图像之间产生很大的色度差。图像中雾霾越严重,色度差越小。半逆图像为原始图像和它的反转图像之间的最大值,半逆图像的定义如下:色度差是样本图像I和它的半逆图像之间的色度差,可用来探测雾霾的浓度,表示如下:其中表示样本图像I中的像素点x在色度h通道的色度差。(4)最大饱和度特征映射图图像的饱和度也会受到雾霾的影响,局部最大饱和度与雾霾相关的特征。其定义为样本图像I的像素点x的d×d邻域内所有最小颜色通道与最大颜色通道之比的最大反色。可按照下式计算样本图像I中的像素点x在c通道的最大饱和度:步骤4提取特征映射图的直方图特征。为了减少特征个数,提高模型精确度,减少运行时间的目的。本发明把步骤3提取的图像的暗通道、局部对比度、色度差和饱和度等特征图,映射到[0,15]的灰度图像,并计算每幅特征图像的16个灰度级的直方图特征,共计64维特征,并记为f1,f2,f3,…,f64。步骤5,基于图像直方图的特征值区间,使用二分递归分类回归树的决策树生长。二分递归分类回归树算法可以简化决策树规模,提高生成决策树的效率,使用CART算法创建二分分类决策树。设从训练图像集中随机抽取M幅图像,每幅图像提取步骤4中的64个特征,随机抽取64维特征中的10维特征fk(1≤k≤10)建立决策树。特征fk的最大取值为Vk,max和最小取值为Vk,min的特征取值范围平均分为m个区间,假设这些区间按照升序排序,并标记为[Vk,0,Vk,1],[Vk,1,Vk,2],…,[Vk,m-1,Vk,m],也就是每个特征有m个属性取值。决策属性用1,2,3,4分别表示图像分为无雾、轻度、中度和重度雾霾四类,实例如表1所示。表1雾霾图像分类决策实例图像样本f1f2…f10决策属性1[V1,0,V1,1][V2,1,V2,2]…[V10,1,V10,2]12[V1,2,V1,3][V2,0,V2,1][V10,3,V10,4]2…M[V1,0,V1,1][V2,m-1,V2,m][V10,3,V10,4]4CART每次都选择当前数据集中具有信息增益最小的的特征作为节点划分决策树。根据产生的决策树模型,延伸匹配特征直到最后的叶子节点,即得到预测的类别。本发明采用Gini指标划分决策树。假设M幅图像样本集根据特征fk(1≤k≤10)是否在值区间范围[Vk,j-1,Vk,j](1≤j≤m)划分为2个子集M1,1和M1,2。特征fk在值区间范围[Vk,j-1,Vk,j]中的基尼(Gini)指标定义如下:其中Pk,j,l表示特征fk的特征值位于值区间[Vk,j-1,Vk,j]时,决策类别属于第l类的概率。特征fk不是区间范围[Vk,j-1,Vk,j]中的Gini指标定义如下:其中表示特征fk的特征值不在值区间[Vk,j-1,Vk,j]时,决策类别属于第l类的概率。特征fk是否在值区间范围[Vk,j-1,Vk,j]的GINI增益定义为选择10个特征在所有可能的值区间中最小的GINI的增益作为节点划分决策树,并假设特征fk在值区间范围[Vk,j-1,Vk,j]是分裂的节点,特征fk小于这个区间范围的图像子集为左孩子,特征fk大于这个区间范围的图像子集为右孩子。递归地对左右孩子进行划分即可产生分类回归树。步骤6,有放回的选择训练样本图像,建立多棵决策树的随机森林。虽然CART算法很大程度上简化了模型,但是决策树会产生一些无法避免的缺点,比如过拟合。虽然剪枝可以减少这种现象的发生,但仍然得不到理想的效果。本发明采用的随机森林是由多棵CART构成的。对于每棵树,它们使用的训练集是从总的训练集中有放回采样出来的。总的训练集中的有些样本可能多次出现在一棵树的训练集中,也可能从未出现在一棵树的训练集中。从训练集中有放回的抽取大小为M2的训练集作为根节点的样本,从根节点开始训练,根据步骤5建立一定数量的(本发明建立了5棵)CART决策树组成随机森林。随机森林的随机性体现在每棵树的训练样本是随机的,树中每个节点的分裂属性也是随机选择的。有了这两个随机因素,即使每棵决策树没有进行剪枝,随机森林也不会产生过拟合的现象。步骤7,对输入测试图像,运用上面建立的随机森林模型对其进行分类;计算输入测试图像的暗通道、局部对比度、色度差和饱和度等图像的直方图特征,利用随机森林的预测过程如下:(1)从当前树的根节点开始,根据当前节点的值区间范围,如果小于这个值区间范围则进入左节点,反之进入右节点,直到到达某个叶子节点,并输出预测的类别值。(2)选择下一棵决策树,重复执行(1),直到所有CART决策树都输出了预测类别值,输出类别数最多的一类作为结果。本发明的创新点包括:1理论创新首先,对于雾霾图像的大气散射模型,本发明提出来基于导向滤波的大气光照强度A的自适应估计,避免了传统去雾方法对一幅图像采用相同大气光照而导致恢复图像的局部区域偏暗的问题。其次,提出了针对雾霾图像的暗通道、局部对比度、色度差和饱和度等特征映射图的随机森林建模方法,利用特征映射图的直方图特征区间构造随机森林,解决了特征映射图不方便构造决策分类表的问题。2应用创新首先,现有雾霾图像去雾方法只能适应特有的图像,很难适应所有的图像。本发明把雾霾图像分类成无雾、轻度、中度和重度雾霾图像四类,可以集成适合各类图像的去雾方法,具有较好的应用前景。现在还很少见到专门针对雾霾图像的分类方法。其次,随机森林广泛应用于医学图像、遥感图像等分类,还没有应用于雾霾图像分类的,本发明拓宽了随机森林的应用邻域。实施例1如图1所示的基于随机森林的雾霾图像分类方法流程,本实施例详细地介绍了基于随机森林的雾霾图像分类方法,本实施例具体实施过程如下步骤1,采用海康威视DS-ZAF7264-A成像系统在不同天气下采集的图像集,随机抽取1000幅图像,根据采集图像时的PM2.5值,把图像标注为无雾、轻度、中度和重度雾霾4类。步骤2,基于导向滤波自适应估计所有样本图像每个像素点的大气光照强度,其中邻域像素的个数n=5×5。步骤3,计算所有样本图像的暗通道、局部对比度、色度差和饱和度等特征映射图,其中邻域的大小为5×5。步骤4,提取特征映射图的直方图特征,并计算每幅特征图像的16个灰度级的直方图特征,共计64维特征,并记为f1,f2,f3,…,f64。步骤5,随机抽取64维特征中的10维特征fk(1≤k≤10)建立决策树,其中特征取值范围平均分为m=5个区间。基于直方图的特征值区间,建立二分递归分类回归决策树;步骤6,从训练集中有放回的抽取100幅训练集作为根节点的样本,从根节点开始训练,根据步骤5建立5棵CART决策树组成随机森林。步骤7,对输入测试图像,运用上面建立的随机森林模型,根据多数投票法的组合分类器决策最终的类别对其进行分类。为了对比根据分类结果后采用不同去雾方法与采用单一去雾方法的性能,本发明对100幅测试图像进行了去雾分析。首先,根据随机森林分类的雾霾图像结果:无雾、轻度、中度和重度雾霾4类别,本实施例分别采用不处理、Fattal提出的独立成份的方法、Narasimhan提出的基于偏振光模型的方法和He提出的暗通道先验知识和导向滤波的方法。其次,单独用Fattal,Narasimhan和He方法对所有的测试图去雾。对去雾结果采用Hautière提出的2个指标评价,值越高表明图像恢复的效果越好。第一个指标恢复图像中新的可视边缘比例:e评价的是在雾霾图像中看不到的边缘在去雾图像中恢复的能力。第二个指标是反映对比度质量恢复的可视级别比例的几何均值其中和分别表示雾霾图像中pi点的梯度和去雾结果中pi点的梯度,是去雾结果中的可见边缘集合,nr表示边缘上像素点的个数。100幅测试图像的平均性能比较如表2所示,发明的分类方法集成去雾法的性能明显优于单独使用各种去雾方法,主要是因为分类后的结果可以选择更适合的去雾方法。表2各种去雾方法的平均性能比较本发明提供了一种基于随机森林的雾霾图像分类方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术邻域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1