基于深度可分离卷积神经网络的场景光照一致性估计方法

文档序号:37209205发布日期:2024-03-05 14:49阅读:16来源:国知局
基于深度可分离卷积神经网络的场景光照一致性估计方法

本发明涉及增强现实中光照参数处理领域,特别涉及一种基于深度可分离卷积神经网络的场景光照一致性估计方法。


背景技术:

1、虚拟物体与真实场景的光照一致性是增强现实任务中需要解决的关键问题之一,需要对场景光照做出一致性估计,得到光照分布为增强现实提供基础参数。

2、近年来,增强现实(augmented reality,ar)技术的发展如火如荼.ar是一类将计算机生成的虚拟对象与真实场景叠加使之共存于同一个空间中,从而实现虚实景物互相融合的交互技术。ar技术广泛应用于医疗、军事、教育、娱乐、工业制造等领域。例如,ar技术为临床医生提供3维病理和生理影像,使医生更易于判断病变层次、形状和血管等复杂结构及解剖关系,为医学培训提供沉浸式的手术场景模拟。在娱乐领域,基于ar技术的游戏相比传统游戏,有着可与现实环境交互的特性,提升用户游戏体验感。自ar技术出现以来,研究人员一直致力于提升ar设备的使用体验,而具有高度沉浸感的ar效果主要体现在三个方面,即光照一致、几何一致和时间一致。光照一致是指电脑合成的虚拟对象与真实环境有着相似的光照条件;几何一致是指虚拟对象与真实场景有着正确的投影和虚实遮挡关系;时间一致是指虚拟对象与真实场景的运动状态保持协调一致.其中,随着几何一致和时间一致研究的深入,虚拟物体与真实场景之间的投影和虚实遮挡关系不一致问题,以及运动状态不协调问题有着较为成熟的解决方案,但在光照一致方面,现有的技术和ar设备仍面临诸多挑战。

3、场景光照一致性估算在增强现实领域所面临的挑战主要有两个方面:第一,现实场景中的光照呈现为3维立体分布,因此场景中不同的物体所接受光照的方向和强度不同;第二,现有vr移动终端配备的摄像头所能捕到的场景非常有限.因此,ar移动终端从有限场景中估算全局场景光照颇具挑战。

4、gardner等(gardner m a,sunkavalli k,yumer e,et al.learning to predictindoor illumination from a single image[j].acm trans graph,2017,36(6):article176.)提出一种从室内场景的单张有限视角的ldr图像推断出hdr环境光照图进而获得场景光照分布,此种方法需要追踪光源的位置及方向以构建hdr光照环境图,但从普通的ldr图构建hdr图不仅构造效果有待进一步提升并且耗费大量运算资源。

5、hold-geoffroy等(hold-geoffroy y,sunkavalli k,hadap s,et al.deepoutdoor illumination estimation[c]//proceedings of the proceedings of theieee conference on computer vision and pattern recogni-tion,honolulu,usa:ieee,2017:2373-2382.)用hdr图生成的ldr图像训练网络,仅通过一组天空参数就能从单个ldr图像中估算场景光照,他们将天空模型拟合到天空区域生成太阳方向和大气浊度等照明参数并实现了良好的估算效果,但在大气浊度较高、太阳方向不明显的阴雨天气此种方法预测的虚拟物体光照与真实场景光照一致性有待进一步改善。

6、ma等(ma f,zhan y,gao h.a lightweight network for outdoor il-lumination estimation on mobile devices[c]//proceedings of the 2021ieee 7thinternational conference on virtual reality(icvr).foshan,china:ieee,2021:388-39.)提出轻量级的lightsunnet深度神经网络框架,无需任何先验信息,仅通过输入单张室外场景图像,就输出一组可以创建虚拟定向光源的光照参数,但该方法在室内场景下表现有待进一步提升。

7、现有技术虽然也能够得到故障估计,但是其光照估计的一致性和准确性仍存在一定可提升的空间。


技术实现思路

1、本发明的目的在于克服现有技术的不足,提供基于深度可分离卷积神经网络的场景光照一致性估计方法,可以进一步提升场景中的光照估计的准确性和一致性,提升光照效果。

2、为了实现上述目的,本发明采用的技术方案为:基于深度可分离卷积神经网络的场景光照一致性估计方法,搭建光照估计网络模型mobileie-net,对搭建的网络模型进行训练更新网络参数后得到训练后的mobileie-net,基于mobileie-net将一对输入图像处理得到对应的表示场景光照分布的球面谐波系数sh,基于mobileie-net预测输出的球面谐波系数sh还原光照分布。

3、将场景图像hdr image拆分得到一对front_view和rear_view图像后送入到mobileie-net中进行预估处理。

4、mobileie-net网络模型将给定的一对输入图像,沿着空间和通道维度,根据图像通道与空间关系推断出特征图;然后将特征图经过全连接层得到表示光照分布的球面谐波sh系数。

5、搭建的光照估计网络模型mobileie-net包括:两路独立的特征提取网络,两路特征提取网络的输入端分别送入到hdr view图像中采样得到的一对场景图像;两路特征提取网络的输出端通过聚合层concat将两路特征提取网络的输出图像特征的聚合,聚合层concat连接至一个全连接层fc,从而预测输出设定大小且包含红绿蓝三个颜色分量的3阶球面谐波系数。

6、两路独立的特征提取网络中的每一路特征提取网络均采用多个改进的mobilenetblock模块进行特征的提取。

7、改进的mobilenet block模块基于改进mobilenetv3block构建,改进模块沿着空间和通道维度建模,通过输入特征的通道关系与空间关系进而推断特征描述符,使得特征图的每个元素都对应于原图的一个区域,而输出特征图的每个位置分配不同的权重。

8、改进的mobilenet block模块包括在mobilenetv3block中使用卷积注意力模块替换压缩激励注意力模块,使得网络通过空间和通道维度提取特征;使用深度可分离卷积构建具有线性bottlenecks的倒残差结构来实现mobilenetv3block中倒残差结构,其可以通过将输入扩充到更高维的特征空间来增强每个通道的非线性变换的表达能力,从而完成基于mobilenetv3block改进得到改进的mobilenet block模块。

9、使用深度可分离卷积构建具有线性bottlenecks的倒残差结构包括首先使用1x1的卷积核扩充图像通道数,然后使用3x3的卷积核提取特征最后使用1x1的卷积核恢复图像通道数。

10、对搭建的光照估计网络模型mobileie-net进行训练时,采用均方误差作为损失函数l,l=wshlsh+wrenderlrender

11、其中wsh和wrender分别为球面谐波损失lsh和渲染损失lrender的权重。

12、例如,假设我们有一个函数f(s),它表示在球面上的光照分布。我们可以使用球面谐波函数作为基底来展开这个函数,然后计算出每个球面谐波函数前面的权值,也就是球面谐波系数。这样,我们就可以用这组系数求得来近似地表示原始的光照分布。(对应公式(4)、(5)){

13、

14、

15、}

16、球面谐波系数用于描述光照分布的过程可以分为以下几个步骤:

17、1、定义球面谐波函数:球面谐波函数是一组基函数,可以用来将任意一个函数描述成几个基函数的加权和。例如,如果有一个函数f(θ,φ),它表示在球面上的光照分布。我们可以使用球面谐波函数作为基底来展开这个函数,然后计算出每个球面谐波函数前面的权值,也就是球面谐波系数。

18、2、球面谐波投影:球面谐波投影相当于将需要转换的函数f编码成一系列的球面谐波系数。当我们需要渲染光照时,再通过球谐还原出光照,节省计算量。

19、3、使用球面谐波系数描述光照分布:具体来说,每个位置(probe)在空间中都带有一组球面谐波系数,这组系数可以描述该位置的大致光照情况。当我们使用更多的球面谐波系数时,我们能够更准确地描述原始函数,也就是说,表达能力越强。

20、本发明的优点在于:可以进一步提升场景中的光照估计的准确性和一致性,提升光照效果。本技术方法能够根据估算的sh系数渲染出逼真的虚拟物体对应的光照分布,进而实现物体的逼真宣传,有效地解决了虚拟物体与真实场景之间的光照一致性估计问题。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1