视频降噪方法与视频降噪终端与流程

文档序号：25525330发布日期：2021-06-18 20:14阅读：231来源：国知局

本申请涉及视频噪声处理技术领域，特别是涉及一种视频降噪方法与视频降噪终端。

背景技术：

目前，监控摄像头无论是在安防监控还是家庭生活中的应用都非常广泛。用户对产出图像的质量要求也越来越高，用户无论是在白天还是在晚上都希望看到的清晰可靠的图像。然而，由于图像传感器的自身的工艺特点，存在不可避免的噪声问题。比如由于图像传感器中电子的热效应，造成了电荷电势的起伏波动而形成热噪声。比如图像传感器中放大器转换特性不一致，会滋生固态噪声。又比如在图像传感器中的电流流过势垒（pn结）时，会产生与入射光子和暗电流有关的散粒噪声。这些噪声现象在夜间光照条件差的情况下，尤其明显，已经非常严重的影响到了图像的清晰度。对视频进行完整去噪，以改善图像的效果，成为用户的迫切需求。

传统的视频降噪方法大多采用多级滤算法为主，主要是因为这种滤波方法计算速度快，所需资源少且比较容易部署。但是又因为滤波器是根据数字信号的频率特征来区分无效噪声还是有效图像，无法感知到图像的上下文内容信息，因此会导致去噪后视频中的画面质量较低。这主要的原因有2两个：

1）传统的视频降噪方法搞不清哪些噪声，哪些是边缘细节，有些场景噪声被抹除了，但是同时一些边缘细节也被去除了，画面就会变模糊，清晰度下降。

2）传统的视频降噪方法的动静分析没有做好，搞不清哪些运动区域，哪些是静止区域，导致画面拖影，主要表现为当画面中有运动目标的时候，在目标运动路径上产生残留。这是时域滤波时对运动区域过度叠加所导致的现象。

技术实现要素：

基于此，有必要针对传统视频降噪方法导致去噪后视频中的画面质量较低的问题，提供一种视频降噪方法与视频降噪终端。

本申请提供一种视频降噪方法，所述视频降噪方法包括：

获取当前时刻的视频帧和历史状态帧，并将当前时刻的视频帧和历史状态帧输入至运动估计网络模型；

运行所述运动估计网络模型，获取所述运动估计网络模型输出的动静分析结果；所述动静分析结果包括当前视频帧中各个图像区域的运动概率和静止概率；

将当前时刻的视频帧输入至降噪网络模型；

运行所述降噪网络模型，控制所述降噪网络模型中的前降噪模块对当前时刻的视频帧进行粗噪声去除，获取所述前降噪模块输出的粗噪声去除后的当前视频帧

对粗噪声去除后的当前视频帧和历史状态帧进行动静融合，生成融合后的视频帧并将融合后的视频帧作为新的历史状态帧保存；

控制所述降噪网络模型中的后降噪模块对融合后的视频帧进行二次降噪处理，获取后降噪模块输出的二次降噪处理后的视频帧，将二次降噪处理后的视频帧作为去噪后的视频帧输出。

本申请还提供一种视频降噪终端，包括：

处理器，用于执行如前述内容提及的视频降噪方法；

运动估计网络模型，与所述处理器连接；

降噪网络模型，一端与处理器连接，另一端与运动估计网络模型连接；

数据库，与处理器连接。

本申请涉及一种视频降噪方法与视频降噪终端，采用了动静融合技术，充分利用视频流中帧与帧之间的信息，相比较与其它基于图片的神经网络的降噪方法，克服了降噪效果多帧序列不稳定的问题，消除了跳动闪烁现象，更适用于视频帧序列的降噪处理。此外，本申请采用的神经网络架构做运动分析估计，比较于传统视频降噪方法直接依靠计算前后两帧的亮度差值来判断动静的方法，神经网络能够更多的理解上下文的信息，不容易受自身噪声以及环境扰动的影响，准确率比较高。可以较好的克服传统算法中存在的拖影问题。

附图说明

图1为本申请一实施例提供的视频降噪方法的流程示意图；

图2为本申请一实施例提供的视频降噪终端的结构示意图；

图3位本申请一实施例提供的视频降噪方法的降噪逻辑图。

附图标记。

100-处理器；200-运动估计网络模型；300-降噪网络模型；400-数据库。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供一种视频降噪方法。需要说明的是，本申请提供的视频降噪方法的应用于任何格式的视频。

此外，本申请提供的视频降噪方法不限制其执行主体。可选地，本申请提供的视频降噪方法的执行主体的可以为一种视频降噪终端。具体地，本申请提供的视频降噪方法的执行主体的可以为所述视频降噪终端中的一个或多个处理器。

如图1所示，在本申请的一实施例中，所述视频降噪方法包括如下s100至s600：

s100，获取当前时刻的视频帧和历史状态帧，并将当前时刻的视频帧和历史状态帧输入至运动估计网络模型。

具体地，当前时刻的视频帧是当前时间节点对应的视频帧。历史状态帧是区别于当前时间节点的，过去所有时刻的视频帧的融合帧。换言之，历史状态帧并不是过去某一个具体时间节点对应的视频帧，而是过去所有时刻的视频帧的融合。视频降噪终端可以通过和摄像机或其他视频产出设备连接，获取当前时刻的视频帧。视频降噪终端可以通过调取本地数据库中存储的历史状态帧，以获取所述历史状态帧。

s200，运行所述运动估计网络模型，获取所述运动估计网络模型输出的动静分析结果。所述动静分析结果包括当前视频帧中各个图像区域的运动概率和静止概率。

具体地，运动估计网络模型可以依据当前时刻的视频帧和历史状态帧，计算当前时刻的视频帧相比于历史状态帧中各个图像区域的运动概率和静止概率。

运动估计网络模型可以选用unet网络为基础网络模型，且网络的输入通道数量为6，这样可以支持当前时刻的视频帧和历史状态帧的联合输入。网络的输出通道数量为2，unet网络可以接入一个softmax层作为unet网络的输出。softmax层可以把数据压缩为0-1之间，这样可以表示运动或静止这样两个分类的预测概率。例如某个图像区域经运动估计网络模型进行动静分析后，得到运动概率是0.8概率，静止概率是0.2。

s300，将当前时刻的视频帧输入至降噪网络模型。

具体地，降噪网络模型的作用主要用来对视频帧做2d空域降噪。视频帧本质上就是一个图像，即输入降噪网络模型的为降噪前含噪声的图像数据，输出降噪网络模型的为降噪后的图像数据。降噪网络模型的输入和输出的通道数都为3。降噪分为前降噪和后降噪两个等级。要针对不同的等级设定不同的网络规模和损失函数。

s400，运行所述降噪网络模型，控制所述降噪网络模型中的前降噪模块对当前时刻的视频帧进行粗噪声去除，获取所述前降噪模块输出的粗噪声去除后的当前视频帧。

具体地，承接上一步，本步骤运用的是前降噪模块，做的是粗噪声去除，后面还会进一步通过后降噪模块做二次降噪。

s500，对粗噪声去除后的当前视频帧和历史状态帧进行动静融合，生成融合后的视频帧并将融合后的视频帧作为新的历史状态帧保存。

具体地，融合后的视频帧会作为新的历史状态帧存储于数据库，并替换掉原有的历史状态帧。

s600，控制所述降噪网络模型中的后降噪模块对融合后的视频帧进行二次降噪处理，获取后降噪模块输出的二次降噪处理后的视频帧，将二次降噪处理后的视频帧作为去噪后的视频帧输出。

具体地，本步骤运用的是后降噪模块，做的是细噪声去除，也就是二次降噪。

本实施例中，通过采用了动静融合技术，充分利用视频流中帧与帧之间的信息，相比较与其它基于图片的神经网络的降噪方法，克服了降噪效果多帧序列不稳定的问题，消除了跳动闪烁现象，更适用于视频帧序列的降噪处理。此外，本申请采用的神经网络架构做运动分析估计，比较于传统视频降噪方法直接依靠计算前后两帧的亮度差值来判断动静的方法，神经网络能够更多的理解上下文的信息，不容易受自身噪声以及环境扰动的影响，准确率比较高。可以较好的克服传统算法中存在的拖影问题。

此外，本实施例中，先是控制前降噪模块对当前时刻的视频帧进行了粗噪声去除，然后在动静融合之后，控制所述后降噪模块对融合后的视频帧进行二次降噪处理，实现了先去除大噪声再去除小噪声的目的，去噪效果更好。

在本申请的一实施例中，在所述s100之前，所述视频降噪方法还包括如下s010至s060：

s010，建立一个输入输出等大小的全卷积神经网络模型，记为第一模型。

s020，获取多张相同场景的含噪声图片，以及多张不同场景的含噪声图片作为训练数据输入至所述第一模型训练，将训练后的第一模型作为运动估计网络模型。

s030，建立另一个输入输出等大小的全卷积神经网络模型，记为第二模型。

s040，构建所述第二模型的内部结构，所述第二模型的内部结构包括前降噪模块和后降噪模块。

s050，分别设置所述前降噪模块的损失函数和所述后降噪模块的损失函数；

s060，获取多组不同场景的含噪声图片和无噪声图片，对所述前降噪模块和所述后降噪模块分别训练，将训练后的第二模型作为降噪网络模型。

具体地，输入输出等大小的意思是输入第一模型的图片和第一模型输出的图片的分辨率一致。例如，一张1080p的图片输入全卷积神经网络模型后，经过模型处理后，输出的图片还是1080p的图片。第一模型的训练过程中，可以将多张相同场景的含噪声图片，以及多张不同场景的含噪声图片打包并压缩为数据库文件（hdfs），作为训练数据集，训练的框架使用深度学习框架，训练用工具可以使用caffe工具。

降噪分为前降噪和后降噪两个等级。要针对不同的等级设定不同的网络规模和损失函数。

本实施例中，通过预先构建与训练运动估计网络模型，以及降噪网络模型，使得整个视频降噪终端既有动静分析的能力，又有梯度化的多重降噪能力。

在本申请的一实施例中，所述s020包括s021至s025：

s021，获取多张相同场景的含噪声图片，以及多张不同场景的含噪声图片。

s022，设定至少一个静止图像组，将多张场景相同的含噪声图片置入所述静止图像组，以及设定至少一个运动图像组，将多张场景不同的含噪声图片置入所述运动图像组。

s023，在静止图像组中的每一张图片中截取相同位置的图像区域，得到局部图像块，并生成与该局部图像块对应的静止标签。

s024，在运动图像组中的每一张图片中截取相同位置的图像区域，得到局部图像块，并生成与该局部图像块对应的运动标签。

s025，将所有局部图像块及其对应的静止标签或运动标签作为训练数据输入至所述第一模型训练。

具体地，将这些图像块和对应的标签打包压缩成对应的数据库文件(hdfs)作为训练数据集。训练的框架使用深度学习框架，训练用工具可以使用caffe工具。

本实施例中，通过使用多张相同场景的含噪声图片作为训练数据，可以使得训练后的第一模型，即运动估计网络模型具有识别视频帧中静止区域的能力。通过多张不同场景的含噪声图片作为训练数据，可以使得训练后的第一模型，即运动估计网络模型具有识别视频帧中运动区域的能力。因为本实施例采用了神经网络的方法做运动分析估计。相比较于传统方法直接依靠计算前后两帧的亮度差值来判断动静的方法，神经网络能够更多的理解上下文的信息，不容易受自身噪声以及环境扰动的影响，准确率比较高。可以较好的克服传统算法中存在的拖影问题。在本申请的一实施例中，所述s050包括如下s051至s052：

s051，设置所述前降噪模块的网络最深层的通道数为512，选取l2loss+sstm作为所述前降噪模块的损失函数。

s052，设置所述后降噪模块的网络最深层的通道数为256，选取l1loss作为所述后降噪模块的损失函数。

具体地，前降噪模块针对的是未处理的噪声较大的原始输入，以拟合去除大颗粒形态特征的噪声为主要目标，因此网络规模适度的选择大一些，并选用更侧重图像整体一致性的损失函数。

反之，后降噪处理模块针对的是融合后的噪声较弱的数据，以拟合去除细颗粒形态特征的噪声为主要目标，同时要保留更多的细节信息。网络规模可以适度小些,并选用侧重图像局部细节还原的损失函数。本实施例中前降噪模块选择的网络最深层的通道数为512，选择l2loss+ssim作为损失函数。后降噪处理模块选择的网络最深层的通道数为256，选择l1loss作为损失函数。

本实施例中，通过针对前降噪模块和后降噪模块不同的降噪需求，选取不同的网络最深层的通道数和损失函数，可以使得前降噪模块和后降噪模块分工明确，各自发挥最高的降噪效率。

在本申请的一实施例中，所述s060包括如下s061至s063：

s061，创建原始图片集，获取多组不同场景的含噪声图片和无噪声图片，将所有图片置入原始图片集。每一个场景对应多张含噪声图片和多张无噪声图片。所述含噪声图片为曝光时间小于50毫秒的图片，所述无噪声图片为曝光时间大于5秒的图片。

s062，从所述原始图片集中筛选出一张处于第一曝光时间的含噪声图片，以及一张和所述处于第一曝光时间的含噪声图片在相同场景下的无噪声图片，将所述处于第一曝光时间的含噪声图片和相同场景下的无噪声图片组成第一类图像对。

s063，反复执行前一步骤s062，以得到多个第一类图像对，将多个第一类图像对作为所述前降噪模块的训练数据，对所述前降噪模块进行训练。

具体地，本实施例在多组不同场景中采集有噪声和无噪声的图片对来做作为网络的训练集。采集的过程可以通过使用限制曝光时间和系统增益的方式来控制噪声的强弱。

前降噪模块的目的是粗噪声去除。曝光时间越短，图片的噪声是越大的。因此，本实施例中，我们将曝光时间较短的强噪声图像数据作为前降噪模块的输入，将曝光时间较长的弱噪声图像数据作为后续的后降噪模块的输入，将不限制曝光时间情况下（其实就是曝光时间足够长的）采集到的图像看作是无噪声数据来作为训练的原始数据。

曝光时间的设定根据拍摄环境和拍摄器材而定，本实施例只列举了一种通用参数。曝光时间越短，图片的噪声是越大的。设置所述含噪声图片为曝光时间小于50毫秒的图片，所述无噪声图片为曝光时间大于5秒的图片。设置第一曝光时间小于或等于10毫秒。设置第二曝光时间大于10毫秒且小于或等于50毫秒。可以将多个第一类图像对打包成数据库文件格式（hdfs），使用深度学习框架caffe来对所述后降噪模块进行训练。

在本实施例中的训练过程中还采用了mixup技术和选用低斜率的上下箝位的激活函数,在一定程度上可以达到控制模型输出稳定的效果。

在本申请的一实施例中，所述s060还包括如下s064至s065：

s064，从所述原始图片集中筛选出一张处于第二曝光时间的含噪声图片，以及一张和所述处于第二曝光时间的含噪声图片在相同场景下的无噪声图片，将所述处于第二曝光时间的含噪声图片和相同场景下的无噪声图片组成第二类图像对。所述第二曝光时间大于所述第一曝光时间。

s065，反复执行前一步骤s064，以得到多个第二类图像对，将多个第二类图像对作为所述后降噪模块的训练数据，对所述后降噪模块进行训练。

具体地，所述第二曝光时间大于所述第一曝光时间。换言之，本实施例是将曝光时间较长的弱噪声图像数据作为后降噪模块的输入，将不限制曝光时间情况下（其实就是曝光时间足够长的）采集到的图像看作是无噪声数据来作为训练的原始数据。

可以将多个第二类图像对打包成数据库文件格式(hdfs)，使用深度学习框架caffe来对所述后降噪模块进行训练。

上一个实施例已经指出，曝光时间的设定根据拍摄环境和拍摄器材而定，本实施例只列举了一种通用参数。曝光时间越短，图片的噪声是越大的。设置所述含噪声图片为曝光时间小于50毫秒的图片，所述无噪声图片为曝光时间大于5秒的图片。设置第一曝光时间小于或等于10毫秒。设置第二曝光时间大于10毫秒且小于或等于50毫秒。

本实施例中，通过分别对前降噪模块和后降噪模块进行训练，使得前降噪模块获得去除粗噪声的能力，后降噪模块获得去除细小噪声的能力。

在本申请的一实施例中，所述s400包括如下如下s410至s420：

s410，获取所述运动估计网络模型输出的动静分析结果。

s420，运行所述降噪网络模型，基于所述动静分析结果，控制所述前降噪模块对当前时刻的视频帧中的运动区域进行空域降噪处理，将空域降噪处理后的视频帧作为粗噪声去除后的视频帧。

具体地，如图3所示，将采集到当前时刻的视频帧it送入前降噪模块，对其进行粗噪声去除得到降噪后的视频帧kt。在降噪的过程中，会基于前面步骤中提及的运动评估模块的动静分析结果，其只针对运动区域进行空域降噪，对静止区域直接忽略可以节省计算资源。这是因为静止区域可以通过后续s500中的动静结合的部分去处理。

本实施例采用的是神经网络的方法做空域降噪。神经网络具有强大的拟合表现能力，相比传统的降噪算法，可以得到更加清晰的图像质量。同时基于先前步骤中的运动评估模块的动静分析结果，只对运动部分进行空域降噪，节省了运算时间，更加有利于在设备中的安装部署。

在本申请的一实施例中，所述s500包括如下s510至s540：

s510，获取所述运动估计网络模型输出的动静分析结果。

s520，基于所述动静分析结果，将粗噪声去除后的当前视频帧中的每一个静止区域或运动区域经过非线性变换函数power(x，0.1)转化为每一个静止区域或运动区域对应的区域融合系数μ。

s530，基于所述动静分析结果，将历史状态帧中的每一个静止区域或运动区域经过非线性变换函数power(x，0.1)转化为每一个静止区域或运动区域对应的区域融合系数1-μ。

s540，依据下列公式1生成融合后的视频帧；

ct=kt×μ＋ct-1×（1-μ）公式1

其中，ct为融合后的视频帧的表达式。kt为粗噪声去除后的当前视频帧的表达式。ct-1为历史状态帧的表达式。μ为粗噪声去除后的当前视频帧对应的区域融合系数。1-μ为历史状态帧对应的区域融合系数。具体地，动静融合时，根据动静分析结果，当粗噪声去除后的当前视频帧中的一个图像区域为静止区域时，以历史状态帧的区域融合系数1-μ为主。当粗噪声去除后的当前视频帧中的一个图像区域为运动区域时，粗噪声去除后的当前视频帧对应的区域融合系数μ为主。

可以看出，动静融合的时候，融合后的视频帧是什么样子，主要是取决于粗噪声去除后的当前视频帧和历史状态帧二者的权重占比，然后根据二者的权重占比将粗噪声去除后的当前视频帧和历史状态帧叠加，生成融合后的视频帧。μ1与μ2就是用于约束二者的权重占比。主要遵循的原则是，静止区域以历史状态帧的数据为主，运动区域以粗噪声去除后的当前视频帧的数据为主。

本实施例中，采用了动静融合技术，充分利用视频流中帧与帧之间的信息，相比较与其它基于图片的神经网络的降噪方法，克服了降噪效果多帧序列不稳定的问题，消除了跳动闪烁现象，更适用于视频帧序列的降噪处理。

在本申请的一实施例中，所述s600包括如下步骤：

s610，控制所述后降噪模块对融合后的视频帧进行空域降噪处理，去除融合后的视频帧中细颗粒形态特征的噪声。

具体地，本步骤中采用的也是2d空域降噪，但是属于细降噪，目的是去除融合后的视频帧中细颗粒形态特征的噪声。如图3所示，最终二次空域降噪处理后输出的视频帧为ot，这就是最后得到的去噪后的视频帧。

本实施例中，通过先针对当前时刻的视频帧进行粗降噪，可以去除大颗粒形态特征的噪声。再针对融合后的视频帧进行二次空域降噪处理，可以去除细颗粒形态特征的噪声，降噪有梯度性，降噪效果更好。如果混在一起降噪而不进行粗细分别降噪，那么会增加降噪网络模型的设计复杂度，同时也会导致降噪网络模型的处理效率变低。

本申请还提供一种视频降噪终端。

如图2所示，在本申请的一实施例中，所述视频降噪终端包括处理器100、运动估计网络模型200、降噪网络模型300和数据库400。所述处理器100与所述运动估计网络模型200连接。所述降噪网络模型300的一端与所述处理器100连接。所述降噪网络模型300的另一端与所述运动估计网络模型200连接。所述数据库400与所述处理器100连接。所述处理器100用于执行前述任意一个实施例中所提供的视频降噪方法。

具体地，所述数据库400用于存储所述历史状态帧。所述数据库400中的历史状态帧随着不同视频帧降噪的过程中不断更新。

需要说明的是，本实施例提供的视频降噪终端和前述多个实施例中提及的视频降噪方法中出现的相同名称的装置或终端，为了行文简洁，仅在本实施例进行标号，这些相同名称的装置或终端包括处理器100、运动估计网络模型200、降噪网络模型300和数据库400。

以上所述实施例的各技术特征可以进行任意的组合，各方法步骤也并不做执行顺序的限制，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：葛益军;王军
技术所有人：杭州雄迈集成电路技术股份有限公司
我是此专利的发明人

上一篇：一种多功能戏曲形体训练装置的制作方法
上一篇：一种下承式系杆拱桥的安装方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。