一种基于事件信号神经编码方式的图像增强方法及装置

文档序号:34107773发布日期:2023-05-10 20:58阅读:88来源:国知局
一种基于事件信号神经编码方式的图像增强方法及装置

本发明涉及计算机视觉,尤其涉及一种基于事件信号神经编码方式的图像增强方法及装置。


背景技术:

1、随着人工智能和计算机算力的不断提高,深度学习在计算机视觉的各个领域上都取得了长足的发展,目前深度学习方法在物体分类、跟踪检测等多个任务上都取得超越传统视觉方法的表现,也让计算机视觉算法的鲁棒性和实用性更为增加。但是在实际场景中,存在环境对于检测算法的干扰,例如高动态范围、高速运动等,严重影响了图像的采集,这也限制了下游计算机视觉任务的表现。所以如何能够在输入端尽可能提高图像数据的质量,成为研究的热点问题之一。

2、图像增强即是对于低质量的图像信号进行增强,以期得到具有高动态范围、高时间分辨率等特性的图像信号。图像增强作为计算摄像学的基础任务,它的发展对于未来计算机视觉任务的进一步提升至关重要,也成为计算机视觉任务落地中不可或缺的一环。

3、传统的数码相机经过多年的发展,在图像动态范围和时间分辨率上取得一定的进展,大多数的数码相机可以实现40~60分贝的动态范围和1080p@120hz/4k@60hz的时空分辨率。但是这样的表现远不能满足自动驾驶,无人机控制、工业智能等领域的要求,尤其是自动驾驶等需要考验极端场景下算法可靠性,传统数码相机的缺点更加明显。究其原因在于传统相机逐帧固定时间采样的成像模型,限制了相机的动态范围和时间分辨率的进一步提高。

4、神经形态相机作为一种新型的相机,不同于传统相机通过量化固定曝光时间内的光子数量,从而得到图像像素值的方式。神经形态相机在成像原理上模仿人眼的视网膜成像方式,主要分为两种,一类是动态视觉成像模型,只有场景发生变化时才会产生信号;另一类是基于视网膜中央凹视觉采样成像模型,通过脉冲方法机制记录动态场景的同时也记录了静态场景。这两种类型的神经形态相机的时间分辨率相较于传统相机均有较大幅度的提高,对于图像增强能够起到良好的辅助作用。

5、近年来逐渐热门的动态视觉传感器(dynamic vision sensor,简称dvs)作为第一种类别的神经形态相机,能够监测场景的辐照值变化,如果辐照值的变化超过设定的阈值就会产生事件信号(记录触发位置、时间戳和极性),所以该相机也被成为事件相机。由此相较于传统相机,事件相机展现出高时间分辨率、低延迟、高动态范围等良好特性,现已经被广泛应用在计算机视觉的相关任务上。但是事件信号仅仅纪录了辐照值的变化,缺少静态区域的纹理信息,这造成从事件信号直接恢复出灰度图像的困难。尽管最近的事件相机(如davis)已经可以同时异步采样得到灰度图像,但是所得的灰度图像严重受限于传感器的低分辨率(通常为346×260像素分辨率)和运动模糊问题。同时由于事件相机抛弃了逐帧成像的方式,输出为离散的事件信号流,使其难以兼容目前的深度学习图像增强算法框架。因此,寻找一种合适的事件信号编码方式,在保留其高速高动态信息的同时,兼容深度学习图像增强框架成为一个重要的研究方向。

6、目前主要有两种方式来实现事件信号的编码:1)基于人为定义的编码方式和2)基于数据驱动的编码方式。

7、方式1),如事件增强的高质量图像恢复(event enhanced high-quality imagerecovery)(european conference on computer vision(eccv)2020),被广泛应用的是两种事件信号编码方式:体素网格(voxel grid)和事件帧(event stack)。体素网格是对于事件信号流利用双线性插值的方式处理,将事件信号按照线性的权重进行累加,编码为三维矩阵;而事件帧的编码方式则是将固定时间间隔内或一定数量的事件信号直接进行累加。尽管通过编码为三维矩阵的方式在一定程度上保留事件信号的时序信息,但是这两种编码方式未能实现事件信号信息的充分利用,随着时间精度的提高(通道数增加),均会表现出对于噪声信号的高度敏感性。当事件信号中存在的噪声干扰较强时,方式1)的表现会出现显著下降,限制了图像的质量增强。

8、方式2),如基于异步事件数据的可微递归曲面(a differentiable recurrentsurface for asynchronous event-based data)(european conference on computervision(eccv)2020),主要有事件张量(event tensor,est)以及矩阵神经表示(matrix-lstm)两种表示方式,他们利用全连接网络或者长短期记忆神经网络,来对于每个事件信号赋权重,然后以带权合并的方式得到事件信号的编码,这样的方法在高层的视觉任务(分类、检测)中取得了较好的效果,但没有考虑到事件信号和图像增强的物理模型,未能够针对图像增强任务进行特定的数据处理,导致其中编码的事件信号对于图像增强的辅助效果受限。同时其编码方式丢弃了中间信息,直接迁移很难直接有效提取事件信号中的时空信息辅助图像增强,使得迁移至现有图像增强框架下,不能实现高速视频的恢复。


技术实现思路

1、本发明针对现有技术未考虑事件信号成像模型的缺陷,提出一种基于事件信号神经编码方式的图像增强方法。

2、为了实现上述目的,本发明提供如下技术方案:

3、一方面,本发明提供了一种基于事件信号神经编码方式的图像增强方法,包括以下步骤:

4、s1、事件信号神经编码:对于输入的离散事件信号流在一段时间内进行累加,之后通过卷积层提取特征,再经过双向的长短时记忆神经网络进行正向和反向双向编码,得到不同时刻的神经事件帧;

5、s2、模糊图像去模糊:利用神经事件帧保留的事件信号中高时间分辨率的信息,利用神经网络对于图像进行去模糊操作,得到清晰图像;

6、s3、低分辨率图像超分辨率:利用神经事件帧保留的事件信号中高时间分辨率的信息,利用神经网络以时间换空间的方式提升图像的分辨率;

7、s4、高速视频生成:将去模糊图像和超分辨率图像联合,生成恢复重建的高速视频。

8、进一步地,步骤s1中采用密集卷积模块提取特征,然后再利用长短时记忆神经网络编码时序信号的特点抽取时序信息。

9、进一步地,步骤s2中,通过一个u-net神经网络融合图像信号和神经事件帧,网络学习输出模糊图像和清晰图像之间的残差,实现从模糊图像恢复清晰图像。

10、进一步地,步骤s3中,通过多层rrdb模块逐渐融合图像信号特征和神经事件帧,最终以像素重排列的方式实现图像超分辨率。

11、进一步地,步骤s2和s3的神经网络使用的损失函数均由均方误差和感知误差两个部分构成:

12、l=α·l2(io,igt)+β·lprec(io,igt)

13、其中io表示输出图像,igt表示目标图像,α和β两个参数分别设定为100和0.5,l2(·)表示均方误差,lpree(·)表示的是感知误差,感知误差的定义如下:

14、lprec(io,igt)=l2(φh(io),φh(igt))

15、其中φh(·)表示一个已经在imagenet上预训练好的vgg19网络的第h层特征图。

16、进一步地,整个网络采用逐阶段的训练策略,首先同时训练神经事件帧编码器和去模糊网络;在两个网络训练相对稳定之后,结合超分网络继续进行训练,并对神经事件帧编码器和去模糊网络的参数进行微调;在两个阶段的学习率分别设置为1×10-3和1×10-4;两个阶段的优化器都使用adam优化器。

17、进一步地,整个网络在训练过程中仅使用灰度图像;在测试过程中,先将图像从rgb颜色空间转化为yuv颜色空间,分离出y通道,然后对于y通道进行去模糊和超分,对于uv颜色通道直接插值到相应分辨率,然后与y通道合并得到最终的彩色图像。

18、另一方面,本发明还提供了一种基于事件信号神经编码方式的图像增强装置,包括以下模块以实现上述任一项所述的方法:

19、事件信号神经编码模块:用于对输入的离散事件信号流在一段时间内进行累加,之后通过卷积层提取特征,再经过双向的长短时记忆神经网络进行正向和反向双向编码,得到不同时刻的神经事件帧;

20、模糊图像去模糊模块:利用神经事件帧保留的事件信号中高时间分辨率的信息,利用神经网络对于图像进行去模糊操作,得到清晰图像;

21、低分辨率图像超分辨率模块:利用神经事件帧保留的事件信号中高时间分辨率的信息,利用神经网络以时间换空间的方式提升图像的分辨率;

22、高速视频生成模块:用于将去模糊图像和超分辨率图像联合,生成恢复重建的高速视频。

23、又一方面,本发明还提供了一种设备,包括处理器、通信接口、存储器和通信总线,所述处理器、所述通信接口、所述存储器通过所述通信总线完成相互间的通信;其中:

24、所述存储器,用于存放计算机程序;

25、所述处理器,用于执行所述存储器上所存放的程序时,实现上述任一项所述的方法。

26、与现有技术相比,本发明的有益效果为:

27、本发明的基于事件信号神经编码方式的图像增强方法和装置,结合了物理成像模型和数据驱动两种方式的特性,提出了一种鲁棒的、良好编码事件信号流中运动和时序信息的编码方式——神经事件帧,通过神经事件帧,构建了低质量图像和高质量图像之间的转换关系,有效克服了事件信号中的噪声干扰等问题,实现了对于图像信号的去模糊以及超分辨率。同时,本发明设计了事件信号引导下统一的高速视频生成框架,实现了从低速视频到高速视频的恢复。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1