一种视频背景处理方法、电子设备及存储介质与流程

文档序号:36789381发布日期:2024-01-23 12:07阅读:15来源:国知局
一种视频背景处理方法、电子设备及存储介质与流程

本发明实施例涉及计算机视觉领域,特别涉及一种视频背景处理方法、电子设备及存储介质。


背景技术:

1、随着计算机视觉任务的发展和深度学习技术的日益成熟,人们对于直播场景或者会议场景下的虚拟背景有着大量的需求,将用户自定义或者选择的虚拟背景替换到视频中以起到保护用户隐私、增强美感并且突出主题的作用。

2、发明人发现相关技术中至少存在如下问题:目前精度较高的抠图方法主要应用在照片抠图上,如果将其应用于视频则会因其运算量较大从而跟不上实时处理视频流的速度,这样会引起视频流卡顿、达不到功能需求和用户审美需求等问题。目前应用在视频上的抠图方法主要是采用语义分割模型实现,模型多采用编解码网络,但在训练时模型的编码网络最终会被更新优化,很大程度会被其后模块的参数精度影响,导致模型收敛时参数不能达到最优、特征提取不准确进而导致抠图效果不好,无法满足用户的视觉需求。


技术实现思路

1、本发明实施方式的目的在于提供一种视频背景处理方法、电子设备及存储介质,使得实现高精度的视频抠图,进而强化视频中虚拟背景的替换效果,更好的满足用户的视觉需求。

2、为解决上述技术问题,本发明的实施方式提供了一种视频背景处理方法,包括:持续采集视频中的视频帧作为待处理图像;通过特征提取网络提取所述待处理图像的语义特征,得到多个具有不同层级的所述语义特征图,且所述层级有高低之分;根据所述多个所述语义特征图构建特征金字塔以构建掩模特征图;使用目标定位网络根据所述特征金字塔获取目标位置;根据所述掩模特征图预测所述待处理图像对应的预备掩模图;根据所述目标位置剔除所述预备掩模图上的误检位置,以生成正式掩模图;根据所述正式掩模图和用于替换背景的背景图片对所述待处理图像进行背景替换。

3、本发明的实施方式还提供了一种电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的视频背景处理方法。

4、本发明的实施方式还提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时实现上述的视频背景处理方法。

5、在本发明实施方式中,持续采集视频中的每一个视频帧都作为一个待处理图像依次进行背景替换,通过特征提取网络提取所述待处理图像的语义特征,得到多个具有不同层级的所述语义特征图,且所述层级有高低之分;根据所述多个所述语义特征图构建特征金字塔以构建掩模特征图;使用目标定位网络根据所述特征金字塔获取目标位置;根据所述掩模特征图预测所述待处理图像对应的预备掩模图;根据所述目标位置剔除所述预备掩模图上的误检位置,以生成正式掩模图;根据所述正式掩模图和用于替换背景的背景图片对所述待处理图像进行背景替换。增加了目标定位分支后,通过获取根据目标位置对所述掩模图进行修正并实现高精度的视频抠图,进而在根据修正后的正式掩模图和用于替换背景的背景图片对待处理图像进行背景替换时强化了视频中虚拟背景的替换效果,更好的满足用户的视觉需求。

6、另外,所述根据所述多个所述语义特征图构建特征金字塔以构建掩模特征图,包括:基于所述特征金字塔自顶向下的结构和横向连接结构,将所述多个具有不同层级的所述语义特征图中的高层级语义特征自顶向下传递并补充低层级语义特征图中的低层级语义特征,且对自上输入的所述语义特征图在长宽方向各进行2倍上采样,以构建所述掩模图特征图。根据不同层级的特征分别运算,最终得到目标位置可以进一步加强目标位置的精度,每一层内对自上输入的特征图长宽方向各进行2倍上采样,以利于重构掩模特征图。

7、另外,在将所述多个具有不同层级的所述语义特征图中的高层级语义特征自顶向下传递并补充低层级语义特征图中的低层级语义特征之前,先将所述多个具有最高层级的所述语义特征图中的语义特征经过注意力机制模块进行特征增强,之后再自顶向下传递并补充低层级语义特征图中的低层级语义特征;在所述通过特征提取网络提取所述待处理图像的语义特征时,不采用所述注意力机制模块对所述待处理图像的语义特征进行特征增强。通过学习的方式直接有效学习到特征提取网络每个特征通道对特征恢复网络的重要程度;另一方面,为了更好的适应前景目标的姿势和位置状态,在注意力机制模块之后采用空间变换,该变换生成仿射变换参数用于空间特征调制,在图像的不同空间位置进行自适应的前景像素判别。

8、另外,使用目标定位网络根据所述特征金字塔获取目标位置,包括:使用多尺度语境模块,通过分别在所述特征金字塔中的多个不同的所述层级中的语义特征图中引入上下文信息的方式进行检测定位,以生成多张与所述特征金字塔中的多个不同的所述层级中的语义特征图对应的有效特征图;分别分析所述有效特征图以得到所述有效特征图上的预测目标位置,并根据多个所述有效特征图上的所述预测目标位置以获取所述目标位置。分别分析所述有效特征图以得到所述有效特征图上的预测目标位置,并根据多个所述有效特征图上的所述预测目标位置以获取所述目标位置,目标位置得到进一步优化,提高了网络参数的迭代精度。

9、另外,所述分别分析所述有效特征图以得到所述有效特征图上的预测目标位置,并根据多个所述有效特征图上的所述预测目标位置以获取所述目标位置,包括:分别分析所述有效特征图后得到每一个所述有效特征图中的多个目标检测框作为所述预测目标位置;分析每个所述目标检测框对应的目标类别;将多个所述有效特征图上所述目标类别相同的目标检测框依次拼接以获取所述目标位置。将多个所述有效特征图上所述目标类别相同的目标检测框依次拼接以获取所述目标位置。避免了修正掩模图时陷入局部极小值。

10、另外,所述根据所述掩模特征图预测所述待处理图像对应的预备掩模图,包括:提取所述掩模特征图中前景和背景特征,将所述掩模特征图中前景和背景特征通过卷积层进行映射以预测所述待处理图像对应的预备掩模图。

11、另外,所述根据所述正式掩模图和用于替换背景的背景图片对所述待处理图像进行背景替换,包括:根据所述正式掩模图上与所述待处理图像上的像素点对应的像素值,依次计算所述待处理图像中每一个所述像素点与所述用于替换背景的背景图片对应位置的像素点之间的目标融合程度并根据所述目标融合程度进行融合,以实现对所述待处理图像进行背景替换。并非简单替换而是考虑两者局部融合程度。

12、另外,根据所述正式掩模图和用于替换背景的背景图片对所述待处理图像进行背景替换之后,根据l1损失函数计算得到所述根据所述掩模特征图预测所述待处理图像对应的预备掩模图时所产生的损失;根据softmax二分类损失函数和smooth-l1损失函数计算得到所述使用目标定位网络根据所述特征金字塔获取目标位置时所产生的损失。



技术特征:

1.一种视频背景处理方法,其特征在于,包括:

2.根据权利要求1所述的视频背景处理方法,其特征在于,所述根据所述多个所述语义特征图构建特征金字塔以构建掩模特征图,包括:

3.根据权利要求2所述的视频背景处理方法,其特征在于,所述方法,还包括:

4.根据权利要求1所述的视频背景处理方法,其特征在于,所述使用目标定位网络根据所述特征金字塔获取目标位置,包括:

5.根据权利要求4所述的视频背景处理方法,其特征在于,所述分别分析所述有效特征图以得到所述有效特征图上的预测目标位置,并根据多个所述有效特征图上的所述预测目标位置以获取所述目标位置,包括:

6.根据权利要求1中所述的视频背景处理方法,其特征在于,所述根据所述掩模特征图预测所述待处理图像对应的预备掩模图,包括:

7.根据权利要求1所述的视频背景处理方法,其特征在于,所述根据所述正式掩模图和用于替换背景的背景图片对所述待处理图像进行背景替换,包括:

8.根据权利要求1所述的视频背景处理方法,其特征在于,所述方法,还包括:

9.一种电子设备,其特征在于,包括:

10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的视频背景处理方法。


技术总结
本发明实施例涉及计算机视觉领域,公开了一种视频背景处理方法、电子设备及存储介质。本发明中,持续采集视频中的每一个视频帧都作为一个待处理图像依次进行背景替换,将采集到的每一张图像进行特征提取,根据从所述待处理图像中提取到的特征构建特征金字塔网络;根据所述特征金字塔网络预测所述待处理图像对应的掩模图;根据特征金字塔网络的输出获取目标位置。增加了目标定位分支后,通过获取根据目标位置对所述掩模图进行修正并实现高精度的视频抠图,进而在根据修正后的掩模图和用于替换背景的背景图片对待处理图像进行背景替换时强化了视频中虚拟背景的替换效果,更好的满足用户的视觉需求。

技术研发人员:吴迪,杨张辉,高可攀
受保护的技术使用者:深圳市潮流网络技术有限公司
技术研发日:
技术公布日:2024/1/22
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1