本发明涉及图像融合处理技术领域,特别是一种基于整数dct变换的实时图像融合方法。
背景技术:
图像融合可明显改善单一传感器图像的不足,所得融合图像蕴含了多个传感器图像的不同信息特征,具有比单一传感器图像更全面更为可靠的信息描述,红外与可见光图像融合一直是图像融合研究的热点,在军事侦查、安全监控等领域有着广泛的需求和应用。
目前的一些融合方法大多以小波变换进行多分辨率分解,往往需要进行多层分解,才可能取得比较好的效果,实时性不能满足要求。
目前离散余弦变换(discretecosinetransform,简称dct变换)被广泛应用于图像和视频压缩。dct变换的变换核是余弦函数,变换核各矢量间单位正交,它的变换系数可以很好的描述图像的相关特征。浮点dct变换的正变换和反变换因为一些量化损失等原因而变得不可逆。因此在最新的压缩标准如h.264、h.265等标准中都采用整数dct变换。整数dct变换的正变换和反变换具有可逆性并且最大可能的保持与浮点dct变换的一致性。
整数dct变换原理如下:
8x8的浮点dct变换为:
其中,
y=dxdt,
其中,d是dct变换矩阵,其值为:
所以,整个变换系数只有7个取值。
将浮点dct变换矩阵d分解为整数矩阵p和浮点矩阵e,则
则整数dct变换为:
其中pxpt为整数dct变换过程。而浮点矩阵e通过量化过程来完成。设整数变换矩阵p为:
其中i0~i6都是整数,则
其中,
d=i3(i1+i4)-i2(i1-i4),
由于要求正交性所以实际上是d为0。
另一方面,当前图像融合技术集中于对灰度图像的融合研究,已经取得了较好的融合效果,而少见有对于彩色图像融合的研究。由于彩色图像有着灰度图像无可比拟的良好可视性和更多的信息量,使得在各相关领域,特别是在生物和医学领域,无论是微观还是宏观方面对彩色图像融合技术的需要越来越迫切。
一般人眼只能分辨出近百个灰度级,但是却能分辨几千种颜色,所以彩色图像比灰度图像更利于口标的识别。红外和可见光两类图像特征具有较大的互补性,现今的传感器技术能够方便地获取彩色的可见光图像,在对红外和可见光图像进行融合时,如果能够充分地利用可见光图像的彩色信息,那么得到的彩色融合结果会更符合人眼的视觉特性,从而能够增强融合图像的可辨识性。
现阶段的多光谱图像融合大部分以整幅图像进行融合处理,不能针对特殊环境图像或者图像场景差异较大的情况融合得到高质量的彩色图像;随着近几年的深度学习以及神经网络的火热,针对语义识别的场景划分融合就能很好的解决此种问题,但是现有的神经网络语义识别用时较长,不能达到实时性的处理。
技术实现要素:
为解决现有技术中存在的问题,本发明提供了一种基于整数dct变换的实时图像融合方法,本发明对图像进行整数dct变换后得到变换系数,并加入深度学习神经网络语义识别和彩色直方图匹配等图像处理模块,基于此巧妙设计,很好的解决了图像融合的实时性问题。
本发明采用的技术方案是:
一种基于整数dct变换的实时图像融合方法,包括如下步骤:
a、分别对红外图像和可见光图像亮度分量进行整数dct量化以及融合,根据预设的融合规则对红外图像和可见光图像的亮度分量的整数dct变换系数进行融合处理;对融合后的变换系数进行整数dct反变量化,得到融合后的灰度图像;
b、采用深度学习神经网络语义识别进行场景识别,通过识别出的不同场景选取对应场景中最为合适的参考图像对前一模块融合所得的灰度图像进行颜色传递,使得图像各个场景颜色显示自然;
c、选取最佳的场景参考图像对灰度融合图像进行色彩传递,生成彩色融合图像,为使得灰度融合图像赋予自然色彩效果,使用参考图像伪彩色传递法,使用对应参考图像的色彩传递到灰度融合图像中来,通过在yuv色域中对颜色线性传递,有效简洁地赋予灰度图像色彩,再通过yuv色域转换回rgb色域,使得之前识别出的各个场景下均能赋予最佳的场景色彩;
d、将生成的彩色融合图像在rgb色域内进行彩色直方图匹配处理。
优选地,对图像进行整数dct量化具体包括如下步骤:
对图像进行分块处理,单位分块为8x8;
对图像按块进行整数dct量化,得到图像的整数dct变换系数;
其中,整数dct量化过程为:
y=(((y′[i,j]+(1<<4))>>5×scalmatrix[i,j]+(1<<11))>>12;
整数dct正变换过程y′=pxpt;
整数dct变换基为[121063];
变换矩阵p为:
量化矩阵scalmatrix为:
优选地,还包括:
预设的融合规则,对于直流系统的融合,采用如下公式:
yfblock[0,0]=(yablock[0,0]+ybblock[0,0])/2;
对于其它系统的融合,采用如下公式:
如果abs(yablock[i,j])>abs(ybblock[i,j]),i≠0,j≠0,i<8,j<8,则yfblock[i,j]=yablock[i,j];否则,yfblock[i,j]=ybblock[i,j]。
优选地,还包括:
整数dct反量化公式为:x[i,j]=(x′[i,j]+(1<<15))>>16;
其中,整数dct反变换过程为:x′=ptyfp。
优选地,采用蝶形算法执行整数dct正变换和/或反变换过程。
优选地,还包括:
深度学习神经网络语义识别,引入cascade思想,将图像像素根据分割难易度分为三个等级:easy、moderate、hard,分别用cnn网络的浅层、中层、高层完成分割,降低运算量同时提高分割精度。
优选地,还包括:
选取用于颜色传递的最佳参考图像规则:
采用图像场景划分,于拟好的参考图像库中选取对应场景的参考图像;本规则对参考图像的选取要求并不苛刻,对参考图像的场景只要求与需要观察的场景基本相似,选取具有适中的亮度和对比度的参考图像即可,便于保证系统的轻量级和实时性。
优选地,对灰度融合图像进行色彩传递具体包括如下步骤:
对参考图像在yuv色域中将三通道分离;
其中rgb色域转yuv色域公式如下:
y=0.257r+0.504g+0.098b+16;
u=-0.148r-0.291g+0.439b+128;
v=0.439r-0.368g-0.071b+128;
在对应的场景模块区域内将灰度图像与参考图像的y通道数据信息进行加权平均,公式如下:
yf[i,j]=0.85yg[i,j]+0.15yr[i,j];
将融合后的yf与参考图像的u、v颜色通道进行合并,转换到rgb色域中,得到彩色融合图像;
其中,yuv色域转rgb色域公式如下:
r=1.164(yf-16)+1.596(v-128);
g=1.164(yf-16)-0.813(v-128)-0.391(u-128);
b=1.164(yf-16)+2.018(u-128)。
优选地,彩色直方图匹配处理具体包括如下步骤:
分别对可见光图像rgb三通道求均值;
直方图匹配公式如下:
反变换得:z=g-1(u)≈g-1(s);
首先提取出可见光融合图像rgb色域的各个通道的平均值,再将所得的彩色融合图像上针对可见光图像的rgb三通道均值做彩色直方图匹配处理,处理后的彩色融合图像较大地修正边界颜色梯度较大的问题,使得过渡平滑色彩自然。
本发明的有益效果是:经过深入的研究和反复试验,发现对图像进行整数dct变换后得到的变换系数具有一定的分布特性,并基于此巧妙设计,通过将两图像的整数dct变换系数进行融合和反量化过程,从而实现对两图像的融合。
附图说明
图1是本发明实施例1中基于整数dct变换的实时图像融合方法的流程图;
图2是本发明实施例1中dct量化以及融合的方法流程图;
图3是本发明实施例1中对图像进行整数dct变换的方法流程图;
图4是本发明实施例1中对图像8x8分块过程示意图;
图5是本发明实施例1中执行1-ddct整数变换的蝶形运算过程示意图;
图6是本发明实施例1中图像中单位分块的dct整数变换系数的分布特征示意图一;
图7是本发明实施例1图像中单位分块的dct整数变换系数的分布特征示意图二;
图8是本发明实施例1对图像进行语义识别场景分割的深度学习神经网络结构图;
图9是本发明实施例1语义识别深度学习神经网络中cascade思想的具体cff(cascadefeaturefusion)结构示意图;
具体实施方式
下面结合附图对本发明的实施例进行详细说明。
经过深入的研究和反复试验,发现对图像进行整数dct变换后得到的变换系数具有一定的分布特性,并基于此巧妙设计,通过将两图像的整数dct变换系数进行融合和反量化过程,从而实现对两图像的融合。
即,将图像a和图像b分别进行整数dct变换,得到的dct变换系数分别用da和db来表示。根据预设的规则,对经过整数dct变换后得到的系数进行比较处理,将da和db进行融合得到df,然后对df进行整数dct反量化,得到最终的图像。该最终的图像即为图像a和图像b的融合图像。
加入深度学习神经网络模块对图像场景进行精准识别,例如:天空、草地、树林等场景,在精选后的图像库中进行挑选最佳的参考图像,进行彩色传递,生成对应场景最佳的彩色显示效果。该最终的图像即为图像场景融合的伪彩色图像。
上所得的伪彩色图像由于场景之间边界变化梯度较大,为使得变得过渡平滑,在此伪彩色图像的处理加上了轻量级的彩色图像直方图匹配方案,较佳地使得彩色融合图像过渡平滑,显示自然色彩。
实施例1
如图1所示,一种基于整数dct变换的实时图像融合方法,包括如下步骤:
步骤s101:分别对红外图像和可见光图像的亮度分量进行整数dct量化进行灰度融合;
步骤s102:使用深度学习神经网络对可见光图像进行场景识别;
步骤s103:在对应场景中选取最佳的参考图像进行彩色传递于灰度融合图像,得到彩色融合图像;
步骤s104:对融合后的彩色图像进行彩色直方图匹配处理,使其色彩显示平滑自然。
本实施例提供的基于整数dct变换的实时图像融合方法,提供了一种实现图像融合的新思路,基于整数dct变换系数的分布特性,通过对两图像的整数dct变换系数进行融合,并对融合后的系数进行整数dct反量化,得到的图像即为两图像融合后的灰度图像;同时使用深度神经网络对可见光图像进行场景划分,便于选择最佳的参考图像对灰度融合图像进行颜色传递,得到彩色融合图像;最后使用彩色直方图匹配,让融合图像颜色过渡平滑自然。本实施例提供了一种全新的轻量级实时性图像融合的解决方案,很好的解决了彩色图像融合的实时性问题。
下面将对各步骤进行详述:
其中,在执行步骤s101时,对图像进行整数dct量化灰度融合的过程如图2所示,包括步骤s201:
对红外图像和可见光图像的亮度分量进行整数dct量化,其过程如图3所示,包括步骤:
步骤s301:对图像进行分块处理;
在本实施例中,将图像划分为若干不重叠的8x8块,如果不能被8整除则填充0,使得图像分辨率为8的整数倍。分块过程如图4所示,单位分块为8x8。
单位分块为8x8块是在标清和高清之间的分辨率比较好的一个块的划分方式。在另一实施例中,根据图像分辨率的不同,块的划分大小也相应变化,本实施例在此不做限制。
步骤s302:对图像按块进行整数dct量化。
分别对每一分块进行整数dct量化。例如,当单位分块为8x8时,即对每个8x8块进行8x8整数dct量化。
在执行整数dct量化时,需要选择合适的整数dct基函数,具体是从i1~i4中寻找一组i3(i1+i4)=i2(i1-i4),并且要求浮点d和
根据选择的变换基[121063],确定本发明实施例整数dct变换矩阵和量化矩阵如下:
变换矩阵p为:
量化矩阵scalmatrix为:
最终的整数dct变换系数y计算方法如下:
y=(((y′[i,j]+(1<<4))>>5×scalmatrix[i,j]+(1<<11))>>12,称为量化过程。
其中,y′=pxpt,称为整数dct正变换过程。
其中,y′=pxpt的计算可以采用蝶形算法,具体如下:
对图像进行2维dct变换可以分解为水平方向一维dct变换和一次垂直方向的一维dct变换。
首先进行水平方向的一维dct整数变换(记为1-ddct整数变换),计算公为:yt=px。其采用蝶形算法步骤如下:
令
其中b0=x0+x7,b1=x1+x6,b2=x2+x5,b3=x3+x4,b4=x0-x7,b5=x1-x6,b6=x2-x5,b7=x3-x4。
令
其中c0=b0+b3,c1=b1+b2,c2=b0-b3,c3=b1-b2。
而变换基矩阵可以分解为:
所以最终1-ddct整数变换的蝶形运算过程如图5所示。
在完成水平方向的1-ddct整数变换后,采用同样的方法完成垂直方向的1-ddct整数变换,具体实现过程本发明在此不在赘述。
在完成一个8x8块的二维dct整数变换后(记为2-dct整数变换)和量化后就得到最终的整数dct变换系数。然后把对应的8x8的变换系数存储到这个8x8块的对应位置。
按照上述做法,分别对图像中各分块进行2-dct整数变换和量化,从而完成整个图像的整数dct量化系数。
对图像a和图像b分别进行上述的整数dct变换,得到的dct变换系数分别用ya和yb来表示。
其中,在执行步骤s202时,经过深入研究和反复验证,发现每一分块内的dct变换系数具有如图6和图7所示的分布特性。基于此,设计本发明实施例整数dct系数融合规则如下:
设yablock和ybblock分别是dct整数变换系数ya和yb中对应单位分块,例如对应8x8的块,yfblock是融合后的系数yf内对应单位分块,例如对应8x8的块。
对于直流系数的融合,采用如下公式:
yfblock[0,0]=(yablock[0,0]+ybblock[0,0])/2;
对于其他系数的融合,采用如下公式:
如果abs(yablock[i,j])>abs(ybblock[i,j]),i≠0,j≠0,i<8,j<8,则yfblock[i,j]=yablock[i,j];否则,yfblock[i,j]=ybblock[i,j]。
其中,abs()表示求绝对值运算。
其中,在执行步骤s203时,反变换的方法如下:
x′=ptyfp;
反量化的计算公式为:
x[i,j]=(x′[i,j]+(1<<15))>>16;
同理,整数dct反变换也可以采用前面的蝶形运算的方法得到,本发明对此不再赘述。
其中,在执行步骤s102时,对可见光图像进行深度学习神经网络语义场景识别的过程如图8所示神经网络结构:
此处提出的神经网络模型利用了低分辨率图片的高效处理和高分辨率图片的高推断质量两种优点。主要思想是:让低分辨率图像经过整个语义网络输出一个粗糙的预测,然后利用文中提出的cascadefusionunit来引入中分辨率和高分辨率图像的特征,从而逐渐提高精度。其中cascadefusionunit结构如图9所示。
这样只有低分辨率的图像经过了最深的网络结构,而其他两个分支经过的层数都逐渐减少,从而提高了网络的速度。而这也恰恰是此次专利中的神经网络和其他cascadestructures的不同,虽然也有其他的网络从单一尺度或者多尺度的输入融合不同层的特征,但是它们都是所有的输入数据都经过了整个网络,所以它们的计算效率就大大降低了。其中cff(cascadefeaturefusion)使用dilatedconvolution可以整合相邻像素的特征信息,而直接上采样就使每个像素只依赖于一个位置。
最终,该模型能达到实时进行语义分割处理,同时有较高准确率。
input图片分为1,1/2,1/4这三个尺度分三路送到模型中,三个分支介绍如图8所示,包括步骤:
步骤s401:低分辨率分支处理;
在中分辨率的1/16输出的基础上,再缩放到1/32经过卷积后,然后使用几个dilatedconvolution扩展接受野但不缩小尺寸,最终以原图的1/32大小输出featuremap。
步骤s402:中分辨率分支处理;
以原图的1/2的分辨率作为输入,经过卷积后以1/8缩放,得到原图的1/16大小featuremap,再将低分辨率分支的输出featuremap通过cff(cascadefeaturefusion)单元相融合得到最终输出。值得注意:低分辨率和中分辨率的卷积参数是共享的。
步骤s403:高分辨率分支处理;
原图输入,经过卷积后以1/8缩放,得到原图的1/8大小的featuremap,再将中分辨率处理后的输出通过cff(cascadefeaturefusion)单元融合。
在执行步骤s103时,在参考图像库中选取合适图像对灰度融合图像对应场景进行色彩传递:
在彩色传递融合中,主要考虑将目标场景纹理信息较为丰富的微光/可见光图像送到y通道,将白热红外图像主要送到v通道,将黑热红外图像(前者的负片)主要送到u通道,使初始彩色图像基本保持具有传统视觉的暖冷色感规律。
uv通道均值反映图像的平均颜色,而uv通道标准差则反映了场景细节的颜色变化程度。
色彩传递实际上是将彩色参考图像在yuv空间的6个全局灰度统计值(均值与标准差)传递给初始彩色源图像,因此,每幅彩色参考图像只需6个统计值表征。
y通道均值越大,融合图像的平均亮度越大;y通道标准差越大,融合图像的对比度越大。
u通道均值越大,融合图像总体上越偏蓝紫色,值越小越偏绿色;u通道标准差越大,融合图像的蓝绿变化幅度越大。
v通道均值越大,融合图像越偏红色,值越小越偏黄绿;v通道标准差越大,融合图像的红黄变化幅度越大。
其中,rgb色域转yuv色域公式如下:
y=0.257r+0.504g+0.098b+16;
u=-0.148r-0.291g+0.439b+128;
v=0.439r-0.368g-0.071b+128;
在对应的场景模块区域内将灰度图像与参考图像的y通道数据信息进行加权平均,公式如:
yf[i,j]=0.85yg[i,j]+0.15yr[i,j];
将融合后的yf与参考图像的u、v颜色通道进行合并,转换到rgb色域中,得到彩色融合图像;
其中,yuv色域转rgb色域公式如下:
r=1.164(yf-16)+1.596(v-128);
g=1.164(yf-16)-0.813(v-128)-0.391(u-128);
b=1.164(yf-16)+2.018(u-128)。
执行步骤s104中,对通过场景颜色传递所得的彩色融合进行彩色直方图匹配,使得色彩显示自然平滑:
分别对可见光图像rgb三通道求均值;
直方图匹配公式如下:
反变换得:z=g-1(u)≈g-1(s);
在所得的彩色融合图像上针对可见光图像的rgb三通道均值做彩色直方图匹配处理,处理后的彩色融合图像较大地修正边界颜色梯度较大的问题,使得过渡平滑色彩自然。
以上所述实施例仅表达了本发明的具体实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。