图像融合方法、图像融合模型的训练方法、装置和设备与流程

文档序号:25861725发布日期:2021-07-13 16:18阅读:232来源:国知局
图像融合方法、图像融合模型的训练方法、装置和设备与流程

本发明涉及图像处理技术领域,尤其涉及一种图像融合方法、图像融合模型的训练方法、装置和设备。



背景技术:

人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术主要包括计算机视觉技术、自然语言处理技术、以及机器学习/深度学习等几大方向。

近年来,视觉成像是计算机视觉技术中的基础一环,在广域场景或是取景范围内的目标对象的景深不一致的情况时,受到可见光成像设备的景深所限,在景深范围内的目标对象能够清晰成像,而在景深范围外的目标对象会变得模糊,所以很难拍摄到场景内各个目标对象均清晰的图像。因此,如何获得场景内的多个目标对象均清晰的图像成为业界亟需解决的问题。



技术实现要素:

本发明实施例提供一种图像融合方法、图像融合模型的训练方法、装置和电子设备,用以生成被拍摄的多个目标对象均能够清晰成像的合成图像。

第一方面,本发明提供一种图像融合模型的训练方法,该训练方法可以由服务器执行,该训练方法用于对待训练的卷积神经网络模型进行多次训练,以生成图像融合模型,其中,训练方法包括如下步骤:

服务器获取训练图像样本集合,训练图像样本集合包括u组图像,u组图像中的每组图像包括同一取景范围内的聚焦图像和k张散焦图像,k张散焦图像的图像特征不同,u和k为大于1的正整数;针对u组图像中的每组图像,服务器分别执行如下操作:将第一组图像中的k张散焦图像输入到待训练的卷积神经网络模型中,生成包括k张散焦图像的图像特征的合成图像;其中,第一组图像为u组图像中的任意一组图像,图像融合模型设置有网络模型参数;服务器根据合成图像与第一组图像中的聚焦图像之间的匹配程度调整网络模型参数,得到调整后的网络模型参数;最终服务器生成包括调整后的网络模型参数的图像融合模型。

上述方法中,利用图像样本集合,先对图像进行特征进行提取,再对图像特征进行融合,最终利用融合后的图像与聚焦图像进行比较,从而调整网络模型参数,该方法生成的图像融合模型能够合并输入的源图像中较多的图像特征,从而有助于生成拍摄对象均清晰成像的图像。

在一种可能的设计中,图像融合模型包括用于提取图像特征的第一神经网络部分和用于图像特征融合的第二神经网络部分,第一神经网络部分的卷积层包括l个通路,l个通路用于并行地提取m张图像的图像特征,l个通路的l个输出结果,以及l个输出结果的融合结果作为第二神经网络部分的输入,第二神经网络部分用于对l个通路的l个输出结果和l个输出结果的融合结果,进行融合。

该方法中,第一神经网络部分和第一神经网络部分之间的跳跃连接方式可以解决网络层数较深的情况下梯度消失的问题,同时有助于梯度的反向传播,加快训练过程。

在一种可能的设计中,服务器根据合成图像与第一组图像中的聚焦图像之间的匹配程度调整网络模型参数,得到调整后的网络模型参数,具体包括:服务器利用损失函数计算合成图像与聚焦图像之间的损失值;服务器利用损失值调整网络模型参数,得到调整后的网络模型参数。

在一种可能的设计中,损失函数满足如下公式:

其中,ω为损失值,m*n为l个源图像中的任意一个图像的图像尺寸,o(i,j)为网络融合模型输出的第(i,j)位置像素对应的像素值,i1(i,j)为输入至第一通路的第一源图像的第(i,j)位置像素对应的像素值,i2(i,j)为输入至第二通路的第二源图像的第(i,j)位置像素对应的像素值,il(i,j)为输入至第l通路的第l源图像的第(i,j)位置像素对应的像素值,其中,l个源图像的图像尺寸均相同。

在一种可能的设计中,服务器生成包括调整后的网络模型参数的图像融合模型,包括:当待训练的卷积神经网络模型的迭代次数达到设定数值时或损失函数的损失值达到目标值时,服务器生成包括调整后的网络模型参数的图像融合模型。

第二方面,本申请实施例提供图像融合方法,该方法可以由终端设备执行,该方法可以基于第一方面所提供的图像融合模型,该方法包括:终端设备获取同一取景范围下的m张图像,m张图像的图像特征不同,m为大于1的正整数;将m张图像输入至图像融合模型进行图像融合,输出合并图像,合并图像包括m张图像的图像特征。

上述方法种,终端设备可以不用连接网络,利用集成在设备内的网络融合模型对拍摄的多组图像进行图像融合,从而生成各个拍摄对象均清晰成像的图像。

第三方面,本申请实施例提供一种服务器,包括处理器和存储器。其中,存储器用于存储一个或多个计算机程序;当存储器存储的一个或多个计算机程序被处理器执行时,使得该服务器能够实现上述第一方面的任意一种可能的设计的方法。

第四方面,本申请实施例提供一种终端设备,包括处理器和存储器。其中,存储器用于存储一个或多个计算机程序;当存储器存储的一个或多个计算机程序被处理器执行时,使得该终端设备能够实现上述第二方面的任意一种可能的设计的方法。

第五方面,本申请实施例还提供一种图像融合模型的训练装置,该训练装置包括执行上述第一方面的任意一种可能的设计的方法的模块/单元。这些模块/单元可以通过硬件实现,也可以通过硬件执行相应的软件实现。

第六方面,本申请实施例还提供一种图像融合装置,该装置包括执行上述第二方面的任意一种可能的设计的方法的模块/单元。这些模块/单元可以通过硬件实现,也可以通过硬件执行相应的软件实现。

第七方面,本申请实施例中还提供一种计算机可读存储介质,所述计算机可读存储介质包括计算机程序,当计算机程序在电子设备上运行时,使得所述电子设备执行上述任一方面的任意一种可能的设计的方法。

第八方面,本申请实施例还提供一种包含计算机程序产品,当所述计算机程序产品在终端上运行时,使得所述电子设备执行上述任一方面的任意一种可能的设计的方法。

第九方面,本申请实施例还提供一种芯片,芯片与存储器耦合,用于执行所述存储器中存储的计算机程序,使得所述电子设备执行上述任一方面的任意一种可能的设计的方法。

关于上述第三方面至第九方面的有益效果可以参见上述第一方面和第二方面中的描述。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种应用场景示意图;

图2为本发明实施例提供的一种卷积神经网络结构示意图;

图3为本发明实施例提供的一种图像融合模型的训练方法流程示意图;

图4为本发明实施例提供的一种图像模糊化处理方法的示意图;

图5a为本发明实施例提供的另一种卷积神经网络结构的示意图;

图5b为本发明实施例提供的另一种卷积神经网络结构的示意图;

图6为本发明实施例提供的另一种图像融合模型的训练方法流程示意图;

图7为本发明实施例提供的一种图像处理方法流程示意图;

图8为本发明实施例提供的一种散焦图像被融合成聚焦图像的示意图;

图9为本发明实施例提供的一种图像融合模型的训练装置示意图;

图10为本发明实施例提供的一种图像融合装置示意图;

图11为本发明实施例提供的一种设备结构示意图。

具体实施方式

目前,现有的多聚焦图像融合方法大致可以分为基于变换域的图像融合方法和基于空间域的图像融合方法。其中,一方面,基于变换域的图像融合方法,主要是采用多尺度变换,将源图像映射到某个特征域,再对多个输入的源图像特征进行融合,之后通过逆变换实现融合后图像的复原,这种方法存在缺陷是:复原后的图像不够平滑且计算量过大。另一方面,基于空间域的图像融合方法,主要是采取人工设定划分准则将源图像划分为多个小块,之后对多个小块进行聚焦检测融合,这种方法存在缺陷是:由于人工分块准则设定的不确定性,易导致融合后的图像存在伪像的问题。

为了改善现有的多聚焦图像融合方法存在的不足,本发明提供一种图像融合方法,该方法可以基于卷积神经网络(constitutionalneuralnetworks,cnn)模型训练生成图像融合模型,因本申请实施例提供的图像融合模型是采用端到端的设计,所以更易应用。另外,本申请实施例提供的图像融合模型还采用跳跃连接方式实现深层图像特征的复用,使得利用该图像融合模型融合生成的合并图像一方面保有更多高频信息和细节,整体图像成像更清晰;另一方面,也利于进行图像的后续处理。

以下对本申请实施例中的部分用语进行解释说明,以便于本领域技术人员理解。

1、物距、像距、焦距、焦点

物距是指被摄体语到凸透镜的距离。

像距是指成像平面到凸透镜的距离。

焦距是指凸透镜中心到焦点的距离。

焦点则是通过凸透镜的、平行主光轴的光线,在主光轴上的会聚点。在拍摄被摄体时,当物距在无穷远和两倍焦距之间时,像距在焦距和两倍焦距之间,被摄体可成倒立缩小的实像,也就是成像。

2、聚焦图像、散焦图像

如果物体成像时是物点(被摄体上的一点)与成像点的映射,则所拍摄的图像为聚焦图像,聚焦图像是清晰且容易观看的,而如果物体成像时是物点与成像光斑的映射,则所拍摄的图像为散焦图像,散焦图像是模糊且难以观看的。

3、图像融合

图像融合是将同一场景内(或者说同一取景范围内),由相同图像传感器获得的两幅或多幅图像在精确配准后融合为一幅图像的过程。

4、多聚焦图像融合

多聚焦图像融合是图像融合这一技术领域的一个重要分支,由于光学镜头在景深上的限制,可见光成像系统很难将拍摄场景中距离差异较大的各个拍摄对象在一张图像中都清晰成像。通过多聚焦图像融合方法就可以将同一场景(或者说同一取景范围内)的多个不同景深设置但图像尺寸相同的图像进行融合,获得一张各个拍摄对象都清晰成像的合并图像。示例性地,当用户使用手机中的人像模式对一个人的脸部进行连续拍照时,因人像模式下拍摄的图像的尺寸均大小相同,所以连续拍照得到的人脸图像也是同样的尺寸,但连续拍照得到的人脸图像可能因前景聚焦或者背景聚焦得到不同脸部清晰但背景不清晰的人像,或者背景清晰但脸部不清晰的人像。

5、卷积神经网络

卷积神经网络是一类包含卷积计算且具有深度结构的前馈神经网络(feedforwardneuralnetworks),是深度学习(deeplearning)的代表算法之一。卷积神经网络具有表征学习能力,能够按其阶层结构对输入信息进行平移不变分类。卷积神经网络是神经网络的一种,受到生物神经科学研究启发而来,卷积神经网络提出之初用于处理具有类网络结构的数据,如可把图像视作由像素点组成的二维网络。卷积神经网络的一般性的网络结构中含有数据输入层、卷积层、数据激励层、池化层、全连接和数据输出层。

本申请实施例涉及人工智能(artificialintelligence,ai)和机器学习技术,基于人工智能中的深度学习网络和机器学习(machinelearning,ml)而设计。

随着人工智能技术研究和进步,人工智能在多个领域展开研究和应用,例如常见的智能家居、智能客服、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、机器人、智能医疗等,相信随着技术的发展,人工智能将在更多的领域得到应用,并发挥越来越重要的价值。

机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。本申请实施例在图像融合的过程中,采用基于机器学习或深度学习的图像融合模型对同一取景范围内不同聚焦设置的图像进行图像融合,从而可以得到取景范围内的各个拍摄对象均清晰成像的合并图像。

在本申请实施例的描述中,以下实施例中所使用的术语只是为了描述特定实施例的目的,而并非旨在作为对本申请的限制。如在本申请的说明书和所附权利要求书中所使用的那样,单数表达形式“一种”、“所述”、“上述”、“该”和“这一”旨在也包括例如“一个或多个”这种表达形式,除非其上下文中明确地有相反指示。还应当理解,在本申请以下各实施例中,“至少一个”、“一个或多个”是指一个或两个以上(包含两个)。术语“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系;例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b的情况,其中a、b可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。

在本说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。术语“连接”包括直接连接和间接连接,除非另外说明。“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。

在本申请实施例中,“示例性地”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性地”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性地”或者“例如”等词旨在以具体方式呈现相关概念。

本申请实施例中所提供的图像融合的训练方法可以应用于如图1所示的应用场景,该应用场景中包括服务器100、终端设备200。

其中,服务器100,用于根据终端设备200当前运行环境的配置信息和人工智能芯片的硬件信息,确定待训练的卷积神经网络模型。

例如,终端设备200是一台手机,该手机搭载的芯片,仅支持卷积和relu等激活函数,因此服务器100确定适用该手机的卷积神经网络模型。例如卷积神经网络模型的主干结构为一个12层全卷积网络。

另外,服务器100还预先集成有训练图像样本集合。服务器100,用于将训练图像样本输入到待训练的卷积神经网络模型进行处理,对该初始的卷积神经网络模型中的参数进行调整,最终得到图像融合模型。通常情况下,在开始训练过程之前,初始的卷积神经网络模型所设置的参数为超参数,即不是通过训练得到的参数数据。训练过程会对超参数进行优化,训练过程本质是给模型选择一组最优参数,以提高学习的性能和效果。

最终,服务器100将生成的图像融合模型安装到终端设备200中,用户可以不需要联网,依赖用户的终端设备200中的图像融合模型就可以对相机所拍摄的多个图像进行融合,生成合并图像。例如,终端设备200的相机应用程序集成有图像融合模型,在全聚焦模式下需要拍摄图像时,相机可以将前后拍摄得到的同一取景范围下的不同聚焦设置的图像进行图像融合,生成合并图像。需要说明的是,被融合的图像除了可以是相机采集的图像,也可以是文档图片、截图等其它图像信息。

其中,服务器100和终端设备200可以通过无线网络连接,终端设备200是具备网络通信能力的终端设备,该终端设备可以是智能手机、平板电脑或便携式个人计算机等。服务器100可以是一台服务器,或者是若干台服务器组成的服务器集群或云计算中心。

如图2所示,示例性地示出了一种待训练的图像融合模型的结构图,包括多个卷积层和图像融合函数,其中部分卷积层组成了图像特征提取与融合模块201,另外部分卷积层组成了图像重建模块202。图像特征提取与融合模块201,用于从输入的至少两个源图像中提取至少两个图像特征,以及将至少两个图像特征进行融合,得到融合后的图像特征;图像特征提取与融合模块201将提取到的至少两个图像特征和融合后的图像特征作为图像重建模块202的输入,图像重建模块202,用于对输入的图像特征进行融合,输出融合后的合并图像。

基于图1所示的应用场景图和图2所示的卷积神经网络结构图,本申请实施例提供了一种图像融合的训练方法的流程,如图3所示,该方法的流程可以由服务器100执行,该方法包括以下步骤:

s301,服务器100获取训练图像样本集合,其中,训练图像样本集合包括u组图像,u组图像中的每组图像包括同一取景范围内的聚焦图像和k张散焦图像。

其中,u和k为大于1的正整数。本实施例中,由于卷积神经网络的训练过程需要同一取景范围下目标对象聚焦清晰图像与目标对象聚焦模糊的图像做有监督训练,一般地,目标对象聚焦清晰的图像比较容易从互联网中获取,但目标对象聚焦模糊的图像不容易从互联网中获取。为了获取训练图像样本集合,一种可能的设计中,本申请实施例可以利用在已有图像的基础上人工添加高斯模糊噪声的方式,生成目标对象聚焦模糊的图像。另一种可能的设计中,服务器100可以利用高斯滤波器对已获取的图像进行滤波处理,从而得到目标对象聚焦模糊的图像。

示例性地,服务器100选取5000张图片,其中,5000张图片被划分为训练集合、验证集合和测试集合三个部分,训练集合、验证集合和测试集合三者之间的比例可以为7:2:1,针对5000张图片中的任意一张图片,服务器100从该图片中选择出两个显著特征区域,即选取含有较高对比度且信息量含量丰富的两个图像特征区域,利用高斯滤波器添加高斯模糊噪声,从而模拟出聚焦模糊的图像。示例性地,如图4所示,服务器100从图片401中选择出显著特征区域4011和显著特征区域4012,服务器100对图片401的显著特征区域4011添加高斯模糊噪声,得到图片402,另外,服务器100对图片401的的显著特征区域4012添加高斯模糊噪声,得到图片403。如此,每张图片可以被模拟生成两张图片,两张图片构成一组图片。这样,5000张图片最终可以被模拟生成5000组图片,5000组图片共包括10000张图片,这样就可以生成包括10000张图片的训练图像样本集合,10000张图片被划分为包括7000张图片的训练集合、包括2000张图片的验证集合和包括1000张图片的测试集合三个部分。

s302,针对u组图像中的每组图像,分别执行如下操作:将第一组图像中的k张散焦图像输入到待训练的卷积神经网络模型中,生成包括k张散焦图像的图像特征的合成图像;根据合成图像与第一组图像中的聚焦图像之间的匹配程度调整卷积神经网络模型的网络模型参数,得到调整后的网络模型参数。

其中,第一组图像为u组图像中的任意一组图像。图像融合模型包括用于提取图像特征的第一神经网络部分(后续又称为图像特征提取和融合模块201)和用于图像特征融合的第二神经网络部分(后续又称为图像重建模块202),该第一神经网络部分的卷积层包括l个通路,所述l个通路用于并行地提取所述m张图像的图像特征,l个通路的l个输出结果,以及l个输出结果的融合结果作为第二神经网络部分的输入,第二神经网络部分用于对所述l个通路的l个输出结果,以及l个输出结果的融合结果进行融合,第一神经网络部分和第二神经网络部分的连接方式可以解决网络层数较深的情况下梯度消失的问题,同时有助于梯度的反向传播,加快训练过程。

具体来说,如图2所示,图像特征提取与融合模块201的输入为同一取景范围的n张源图像,分别为源图像1-1、源图像1-2、...,源图像1-n,其中n张源图像的图像特征是不同的,n为大于1的正整数。图像特征提取与融合模块201分n路分别对n张输入的源图像并行进行图像特征提取,然后利用运算函数f1将提取的n张源图像的图像特征进行融合,得到融合后的图像特征。图像重建模块202接收来自图像特征提取与融合模块201的n路输出的图像特征,以及融合后的图像特征,再利用运算函数f2将n路输出的图像特征和融合后的图像特征进行融合,最终输出融合后的目标图像。

需要说明的是,卷积神经网络模型中的图像特征提取与融合模块的卷积层数目可以为一层或多层、卷积神经网络模型中图像重建模块的卷积层数目也可以为一层或多层。

本实施例中,卷积层可以包括很多个卷积算子,卷积算子也称为核,其在图像处理中的作用相当于一个从输入图像矩阵中提取特定信息的过滤器,卷积算子本质上可以是一个权重矩阵,这个权重矩阵通常被预先定义,在对图像进行卷积操作的过程中,权重矩阵通常在输入图像上沿着水平方向一个像素接着一个像素(或两个像素接着两个像素)的进行处理,从而完成从图像中提取特定图像特征的工作。

s303,服务器100生成包括调整后的网络模型参数的图像融合模型。

上述步骤中,服务器100会利用u组图像不断训练卷积神经网络模型,利用损失函数计算合成图像与聚焦图像之间的损失值;利用所述损失值调整所述网络模型参数,得到调整后的网络模型参数,当待训练的卷积神经网络模型的迭代次数达到设定数值时或损失函数的损失值达到目标值时,生成包括调整后的网络模型参数的图像融合模型。损失函数满足如下公式[1]:

其中,ω为损失值,m*n为l个源图像中的任意一个图像的图像尺寸,o(i,j)为网络融合模型输出的第(i,j)位置像素对应的像素值,i1(i,j)为输入至第一通路的第一源图像的第(i,j)位置像素对应的像素值,i2(i,j)为输入至第二通路的第二源图像的第(i,j)位置像素对应的像素值,il(i,j)为输入至第l通路的第l源图像的第(i,j)位置像素对应的像素值,其中,l个源图像的图像尺寸均相同。

示例性地,当卷积神经网络模型中的图像特征提取和融合模块201包括两个通路时,如图5a所示,输入至卷积神经网络模型中图像特征提取与融合模块的源图像可以是同一取景范围内的两张不同聚焦设置的图像,如源图像1-1和源图像1-2。图像特征提取与融合模块中的卷积成可以采用5*5、3*3和1*1三种卷积核,步长设置为1,模型设计采用双路模式可减少训练耗时,激活函数使用relu函数,relu函数满足如下公式[2]:

图5a中,分别输入至图像特征提取与融合模块上下两个通路的源图像1-1和源图像1-2,经过第1卷积层、第2卷积层、第3卷积层和第4卷积层进行图像特征提取,第1卷积层的卷积核尺寸为5*5、个数128,第2卷积层的卷积核尺寸为1*1、个数64。第2卷积层主要为了对第1卷积层的输出添加非线性激励,提升网络模型的图像特征提取能力。第3卷积层的卷积核尺寸为5*5、个数64,第4卷积层的卷积核尺寸为3*3、个数32。该网络模型的设计采用小的卷积核在减少网络模型的参数的同时增加非线性表达能力。在图像特征融合部分,采用上下两个通路的图像特征进行叠加运算,运算法则满足如下公式[3]:

f1(o1,o2)=∑i=1,j=1o1(i,j)+o2(i,j).......公式[3]

其中,o1(i,j)为上通路第四卷积层的输出,o2(i,j)为下通路第四卷积层的输出,进行网络输出层对应位置像素的叠加。

进一步地,源图像1-1和源图像1-2经过图像特征提取与融合模块之后,输出第一图像特征fig1、第二图像特征fig2和融合后的图像特征fig3,将fig1、fig2和fig3作为图像重建模块的输入。图像重建模块主要包括1个5*5卷积层、4个3*3卷积层和3个1*1卷积层。各个卷积层的具体参数设置如下:第5卷积层的卷积核尺寸为1*1、个数16,第6卷积层的卷积核尺寸为3*3、个数16,第7卷积层的卷积核尺寸为5*5、个数32,第8卷积层的卷积核尺寸为3*3、个数64,第9卷积层的卷积核尺寸为3*3、个数32,在第9卷积层后进行特征融合,且采用跳跃连接,将上下通路的第4卷积层输出与第9卷积层输出相融合,融合的运算法则满足如下公式[4]:

f2(o1,o2,o3)=∑i=1,j=1o1(i,j)+o2(i,j)+o3(i,j).......公式[4]

其中,o1(i,j)为上通路第四卷积层的输出图像特征fig1,o2(i,j)为下通路第四卷积层的输出图像特征fig2,o3(i,j)为第九卷积层的输出图像特征fig3。

从图5a可见,该网络模型复用强化特征传播,实现特征复用,使融合后图像更平滑细节更丰富。

图5a中采用随机初始化方式进行初始参数设置,训练超参数设置如下:最大迭代次数为50k、初始学习率为0.0001、学习率衰减系数为0.5、采用随机梯度下降方式进行参数更新,损失函数满足如下公式[5]:

其中,ω为损失值,m*n为第一源图像或第二源图像图像尺寸,o(i,j)为网络融合模型输出的第(i,j)位置像素对应的像素值,i1(i,j)为输入至第一通路的第一源图像的第(i,j)位置像素对应的像素值,i2(i,j)为输入至第二通路的第二源图像的第(i,j)位置像素对应的像素值,第一源图像和第二源图像的图像尺寸相同。

基于图5a所示的网络模型,服务器100通过向图5a所示的卷积神经网络模型输入训练图像样本,可以调整模型中的参数,训练得到图像融合模型。

需要指出的是,输入至卷积神经网络模型中图像特征提取与融合模块的源图像可以是同一取景范围内的三张不同聚焦设置的图像,这时,卷积神经网络模型的结构图可以如图5b所示,关于各个卷积层的卷积核尺寸和大小可以参见图5a所示,在此不再重复赘述。考虑网络模型中的多通路设计可减少训练耗时,但通路越多,计算量可以随之增大,会占用处理器的计算资源,本领域技术人员可以实际经验,按需选择合适的通路数目设计网络模型,在此不作具体限定。

本申请如下实施例中进一步结合6所示的流程图对上述神经网络模型训练方法的具体过程进行详细阐述,该方法流程的具体流程可以包括:

s601,服务器100获取训练图像样本集合。

具体过程可以参见上述s301。

s602,服务器100根据终端设备的芯片的硬件信息和支持的算法,确定待训练的卷积神经网络模型。

示例性地,卷积神经网络模型的结构可以如图5a或图5b所示。

s603,服务器100将训练图像样本集合中的各组图像输入到待训练的神经网络模型中,调整卷积神经网络模型中的网络模型参数。

s604,服务器100不断迭代执行上个步骤,即s603,直到满足设定条件,输出图像融合模型。

比如,s604输出的图像融合模型在验证数据集合中的验证效果达标,或者训练的迭代次数达到目标值,则训练终止,输出图像融合模型。该步骤具体可以参见上述s303。

基于上述图像融合模型,本申请实施例还提供一种图像融合方法,该方法可以由终端设备200执行,如图7所示,该方法具体包括如下步骤:

s701,终端设备200获取同一取景范围下的m张图像,所述m张图像的图像特征不同但图像尺寸相同,m为大于1的正整数。

示例性地,终端设备200的相机对同一取景范围内的拍摄物体进行拍摄,拍摄得到如图8所示的图片801和图片802。其中,图片801为前景聚焦图片,人脸清晰成像,图片802为背景聚焦图片,背景对象清晰成像,其中图片801和图片802的图片尺寸相同。需要指出的是,如果显示图片801和图片802的图片尺寸不同同,就不得不进行图像尺寸的缩小或方法,可能会合并后的图像发生畸变。如若避免图片801和图片802的图片尺寸大小不同,但相差不大,也可以本申请实施例提供的方法,因为这样生成的合并图像的畸变程度一般较小。

s702,终端设备200将m张图像输入至图像融合模型进行图像融合,输出合并图像,所述合并图像包括所述m张图像的图像特征。

示例性地,终端设备200从服务器100获取集成了图像融合模型的相机应用程序,然后终端设备200的相机应用程序对相机拍摄得到的图片801和图片802进行图像特征提取和融合,从而生成图片803。可见,图片803的前景对象和背景对象均清晰成像。

需要指出的是,上述图像融合模型还可以用于其它图像融合任务,如可见光红外图像融合和医学图像融合等。

在本申请的一些实施例中,本申请实施例公开了一种图像融合模型的训练装置,如图9所示,该装置用于实现以上各个方法实施例中记载的方法,其包括:获取单元901、处理单元902和生成单元903。获取单元901用于获取训练图像样本集合,处理单元902用于针对所述u组图像中的每组图像,分别执行如下操作:将第一组图像中的k张散焦图像输入到待训练的卷积神经网络模型中,生成包括所述k张散焦图像的图像特征的合成图像;其中,所述第一组图像为所述u组图像中的任意一组图像,所述图像融合模型设置有网络模型参数;根据所述合成图像与所述第一组图像中的聚焦图像之间的匹配程度调整所述网络模型参数,得到调整后的网络模型参数,生成单元903,用于生成包括调整后的网络模型参数的图像融合模型。上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述,在此不再赘述。

基于上述图像融合模型,在本申请的一些实施例中,本申请实施例公开了一种图像融合装置,如图10所示,该装置用于实现以上各个方法实施例中记载的方法,其包括:图像获取单元1001、图像处理单元1002。图像获取单元1001,用于获取同一取景范围下的m张图像,所述m张图像的图像特征不同,m为大于1的正整数。图像处理单元1002,用于将所述m张图像输入至图像融合模型进行图像融合,输出合并图像,所述合并图像包括所述m张图像的图像特征。上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述,在此不再赘述。

在本申请的另一些实施例中,本申请实施例公开了一种设备,如图11所示,该设备可以包括:一个或多个处理器1101;存储器1102;显示器1103;一个或多个应用程序(未示出);以及一个或多个计算机程序1104,上述各器件可以通过一个或多个通信总线1105连接。其中该一个或多个计算机程序1104被存储在上述存储器1102中并被配置为被该一个或多个处理器1101执行,该一个或多个计算机程序1104包括指令。当设备为终端设备200时,上述指令可以用于执行如图7及相应实施例中的各个步骤;当设备为服务器100时,上述指令可以用于执行如图3、图6及相应实施例中的各个步骤。

通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本申请实施例各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:快闪存储器、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,仅为本申请实施例的具体实施方式,但本申请实施例的保护范围并不局限于此,任何在本申请实施例揭露的技术范围内的变化或替换,都应涵盖在本申请实施例的保护范围之内。因此,本申请实施例的保护范围应以所述权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1