一种针孔相机的视场角扩展方法及装置、电子设备

文档序号:34734487发布日期:2023-07-12 18:12阅读:50来源:国知局
一种针孔相机的视场角扩展方法及装置、电子设备

本发明属于计算机视觉与计算成像,尤其涉及一种针孔相机的视场角扩展方法及装置、电子设备。


背景技术:

1、视觉传感器,诸如针孔相机,在视觉信息获取上被广泛应用,但由于硬件大小和成本限制,相机的视场角在很多情况下并不能满足需求。然而,从时空的角度来看,对于运动的相机,视场以外的信息在先前的信息中是现有的。因此,我们认为可以避开相机的物理限制,实现超越视场角的感知。

2、传统的研究为了扩展针孔相机的视场角,一些方法是尝试使用多个相机形成一定的阵列(laura v.cowan,james babington,guillem carles,miguel aperciado,andywood,and andrew r.harvey.360°snapshot imaging with a convex array of long-wave infrared cameras.in pcaop,2019.)。

3、另一类相关的计算成像方法更专注于图像的修复与向外扩展。图像的修复主要是通过取样并使用可行的图像覆盖已有纹理,从而实现移除水印或者不希望出现的内容。一些工作通过使用生成对抗神经网络实现图像的修复(ian goodfellow,jean pouget-abadie,mehdi mirza,bing xu,david warde-farley,sherjil ozair,aaron courville,and yoshua bengio.generative adversarial networks.communications of the acm,2020.)。有工作通过使用掩膜和快速傅里叶卷积实现了单个图像的修复(roman suvorov,elizaveta logacheva,anton mashikhin,anastasia remizova,arsenii ashukha,aleksei silvestrov,naejin kong,harshith goka,kiwoong park,and victorlempitsky.resolution-robust large mask inpainting with fourierconvolutions.in wacv,2022.)。有的工作通过提出了基于图像块自编码器的transformer模型(qiankun liu,zhentao tan,dongdong chen,qi chu,xiyang dai,yinpeng chen,mengchen liu,lu yuan,and nenghaiyu.reduce information loss in transformersfor pluralistic image inpainting.in cvpr,2022.)。图像的向外扩展工作主要是向外扩展图像的信息。有的工作通过使用一个上下文归一化模型和一个空间损失预测外部的纹理(yi wang,xin tao,xiaoyong shen,and jiaya jia.widecontext semantic imageextrapolation.in cvpr,2019.)。

4、与本方法关系最密切的方法是尝试单幅图像的向外扩展技术实现鱼眼镜头的视场角扩展(kang liao,chunyu lin,yunchao wei,and yao zhao.fisheyeex:polaroutpainting for extending the fov of fisheye lens.arxiv preprint arxiv:2206.05844,2022.)。


技术实现思路

1、本技术实施例的目的在于针对现有技术的空缺,提供一种针孔相机的视场角扩展方法及装置、电子设备。

2、根据本技术实施例的第一方面,提供一种针孔相机的视场角扩展方法,包括:

3、(1)光流引导的特征传播:从针孔相机拍摄得到的帧图像中选取当前帧和过去参考帧,提取所述当前帧的第一特征图和过去参考帧的第二特征图后,对所述第一特征图进行显式的光流引导的特征传播,得到第三特征图,并将所述第三特征图与所述第二特征图组合,得到组合特征图;

4、(2)循环剪辑注意力的特征传播:将所述组合特征图输入基于循环剪辑注意力的隐式传播模块,得到融合了过去局部帧与参考帧信息的深感知跨时空融合特征;

5、(3)输出帧图像:基于所述深感知跨时空融合特征,通过上采样得到当前时刻针孔相机的捕获图像经过视场角扩展后的帧图像。

6、进一步地,步骤(1)包括:

7、(1.1)根据针孔相机拍摄得到的帧图像,选取时间序列上当前时刻及之前的共m幅帧图像作为当前帧lf,m幅帧图像之前的n幅帧图像作为过去参考帧prf;

8、(1.2)将所述当前帧lf和过去参考帧prf输入特征提取网络,提取出当前帧lf的第一特征图和过去参考帧prf的第二特征图;

9、(1.3)对所述第一特征图进行光流引导的特征传播,将传播得到的第三特征图与所述第二特征图组合,得到结合了当前帧和过去参考帧信息的组合特征图。

10、进一步地,步骤(1.3)中,对所述第一特征图进行光流引导的特征传播,包括:

11、对所述当前帧lf中任意邻近的两幅帧图像,输入一个p层图像金字塔的光流估计网络,从第p层到第2层进行由粗到精的光流估计,从而估计此两幅帧图像的1/4下采样后的光流,对时序在前的帧图像的特征图使用估计得到的光流进行扭曲;

12、经过一个可变形卷积层,将所述当前帧lf中所有扭曲后的特征图对齐,得到第三特征图,从而完成光流引导的特征传播。

13、进一步地,步骤(1.3)中,将传播得到的第三特征图与所述第二特征图组合,得到结合了当前帧和过去参考帧信息的组合特征图x,包括:

14、使用软裁剪ss(·)将当前帧和过去参考帧嵌入重叠的图像块中:

15、

16、其中tlf和tpf是lf和prf的时间维度,wh和ww是嵌入向量的空间维度,表示特征连接操作。

17、进一步地,步骤(2)包括如下子步骤:

18、(2.1)将所述组合特征图传入一个混合时序聚焦网络,初步提取出时空融合的第一特征,并缓存所述第一特征;

19、(2.2)基于所述第一特征,使用一个循环剪辑模块,通过三维解耦的注意力,从缓存中读取上一次缓存的第二特征,融合所述第一特征和第二特征,从而得到一个能够感知之前时刻信息的跨时空融合特征;

20、(2.3)基于所述跨时空融合特征,传入多个混合时序聚焦网络,以增强对时空特征的感知,得到深感知跨时空融合特征。

21、进一步地,在步骤(2.1)中的混合时序聚焦网络中:

22、将所述组合特征图x线性投影为查询q、键k和值v,计算多头聚焦注意力并输入mixf3n网络,从而得到第一特征

23、

24、z′=mhfa(q,k,v)+x,

25、z=mixf3n(ln2(z′))+z′,

26、其中ln和mhfa表示层归一化和多头聚焦注意力,是线性投影层,z′为经过多头聚焦注意力得到的中间特征。

27、进一步地,在缓存中读取上一次缓存的键值对(ki,vi),使用当前时刻的查询qi+1,通过三维解耦的注意力查询缓存的键值对,得到第二特征,融合所述第一特征和第二特征:

28、

29、

30、其中zi+1为第一特征,为查询缓存键值对得到的第二特征,为融合后的跨时空融合特征,其中下标i+1代表当前时刻,i代表上一时刻,ddca代表三维解耦的注意力模块,表示对k和v的投射层,代表融合层。

31、根据本技术实施例的第二方面,提供一种针孔相机的视场角扩展装置,包括:

32、光流引导的特征传播模块:从针孔相机拍摄得到的帧图像中选取当前帧和过去参考帧,提取所述当前帧的第一特征图和过去参考帧的第二特征图后,对所述第一特征图进行显式的光流引导的特征传播,得到第三特征图,并将所述第三特征图与所述第二特征图组合,得到组合特征图;循环剪辑注意力的特征传播模块:将所述组合特征图输入基于循环剪辑注意力的隐式传播模块,得到融合了过去局部帧与参考帧信息的深感知跨时空融合特征;

33、输出帧图像模块:基于所述深感知跨时空融合特征,通过上采样得到当前时刻针孔相机的捕获图像经过视场角扩展后的帧图像。

34、根据本技术实施例的第三方面,提供一种电子设备,包括:

35、一个或多个处理器;

36、存储器,用于存储一个或多个程序;

37、当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的方法。

38、根据本技术实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现如第一方面所述方法的步骤。

39、本技术的实施例提供的技术方案可以包括以下有益效果:

40、由上述实施例可知,本技术通过光流引导的特征传播和循环注意力的特征传播以及输出网络,可以有效实现针孔相机视场角的扩展,保证原始图像信息的同时,融合了有效的视场外的信息,实现了视场角的扩展。本发明首次提出了基于光流的特征传播和基于循环裁剪注意力的特征传播,可以对当前帧特征进行有效的传播,并对过去的特征进行有效的融合,是一种全新的、基于计算机视觉和计算成像的针孔相机视场角扩展的方法。

41、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本技术。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1