时间视频增强方法与流程

文档序号：33713927发布日期：2023-04-01 03:03阅读：59来源：国知局

1.本公开涉及视频增强技术领域，更具体地，涉及一种时间视频增强方法。

背景技术：

2.当前的深度学习被用于视频增强技术，例如基于相应图像处理任务的降噪、超分辨率、风格转换、彩色变换和高动态范围(hdr)增强等等。将基于图像的算法独立地应用于每个视频帧的一个显著缺点是可能会出现闪烁，这是由于基于图像的算法的时间不稳定性(temporal instability)造成的。通过将这些方法直接应用于视频来解决这种时间不稳定性可能需要大量的存储和计算资源。

技术实现要素：

3.一个示例性的时间视频增强方法包括：接收多个原始视频帧；降低所述多个原始视频帧的空间分辨率，以产生多个降低分辨率的视频帧；提取所述多个降低分辨率的视频帧的至少一个时间特征；基于所述至少一个时间特征对所述多个原始视频帧进行空间建模，以输出多个时间稳定的视频帧；以及合并所述多个时间稳定的视频帧。
4.另一示例性的时间视频增强方法包括：接收多个原始视频帧；降低所述多个原始视频帧的空间分辨率，以产生多个降低分辨率的视频帧；增强所述多个降低分辨率的视频帧以产生多个增强的视频帧；提取所述多个降低分辨率的视频帧的至少一个时间特征；基于所述至少一个时间特征和所述多个增强的视频帧对所述多个原始视频帧进行空间建模，以输出多个时间稳定的视频帧；以及合并所述多个时间稳定的视频帧。
5.另一示例性的时间视频增强方法包括：接收多个原始视频帧；降低所述多个原始视频帧的空间分辨率，以产生多个降低分辨率的视频帧；提取所述多个降低分辨率的视频帧的至少一个时间特征；对所述至少一个时间特征进行上采样；以及联合上采样后的至少一个时间特征和所述多个原始视频帧。
附图说明
6.图1是根据本公开的一个实施例的时间视频增强的示例流程；
7.图2是根据本公开的一个实施例的时间视频增强的第一示例方法；
8.图3是根据本公开的一个实施例的时间视频增强的第二示例方法；以及
9.图4是根据本公开的一个实施例的时间视频增强的第三示例方法。
具体实施方式
10.下面列出的实施例仅用于说明装置和方法的应用，而不是为了限制范围。对该装置和方法的等效修改应落入权利要求的保护范围内。
11.本文中使用了某些术语来指代特定的系统部件。如本领域技术人员所理解的，不同的公司可以用不同的名称来指代组件和/或方法。本文不应该区分名称不同但功能相同
的组件和/或方法。
12.在下面的讨论以及权利要求中，术语“包含”和“包括”是以开放的方式使用的，因此可以被解释为“包括但不限于
……”
。此外，术语“连接”意指间接或直接连接。因此，如果第一装置连接到第二装置，则连接可以通过直接连接，也可以通过其他装置和连接的间接连接。
13.闪烁可被观看者感知为视频内视频帧的色调或亮度的突然变化。视频由按时间顺序显示的多个视频帧组成。单个视频帧是图像帧。
14.当前的图像增强技术将单独的视频帧视为孤立的图像帧。对一个单独帧执行的图像增强可能不同于对相邻帧执行的增强，这可能导致差异图像处理，这种差异图像处理可能被视为视频中的闪烁。
15.在一个示例中，原始视频帧可以是记录的未增强视频帧，即原始视频帧。本示例中的原始视频帧将是全分辨率的视频帧。
16.未增强的原始视频帧的空间分辨率可以降低，例如从高清晰度(hd)降低到标准清晰度(sd)，这减少了显示像素的数量。空间分辨率的这种降低具有减少给定图像帧的存储像素数量以及减少发送或处理图像帧所需的带宽的效果。
17.来自相关场景的帧中图像的特征可能相互依赖，例如，帧可能在同一场景中共享相似的曝光水平和色调。在一个示例中，曝光水平和色调的帧间集合(frame-to-frame set)将定义这些帧的时间特征集合，从而可以构建时间模型。可以在降低分辨率的视频帧上执行时间特征的提取，以减少用于执行提取的内存带宽和计算资源。
18.在一个示例中，视频帧的空间模型可以包括基于图像的算法，例如对构成视频的图像帧进行降噪、超分辨率、风格转换、高动态范围和颜色增强。在本公开中，视频帧和图像帧可被视为等效的，因为视频由多个视频帧或等效的图像帧组成。
19.本发明提出组合来自一组降低分辨率的视频帧的一组时间特征，并将那些帧中的那些时间特征与原始视频帧匹配。然后，利用这些帧的时间特征作为增强过程中的指引(guide)，匹配的帧将被增强。这可以为基于图像的算法提供一种解决结果视频中的时间一致性的可能解决方案。
20.可以利用降低分辨率的视频序列确定时间特征和空间特征，以输出时间稳定的帧。基于图像的算法可以被训练成直接输出时间上一致的帧，而不是依赖于后处理方法来减少处理后视频的闪烁。在本公开中，术语时间信息和时间特征可以被认为是等效的，术语空间信息和空间特征可以被认为是等效的。
21.在一个示例中，可以以较低的空间分辨率对视频序列执行时间特征的提取，以节省内存和计算带宽。
22.图3示出了该方法的一个示例。时间模块可以处理视频以提取时间特征。为了减少内存和计算带宽，可以降低视频的空间分辨率以提取时间特征。空间模型可以对视频中的全分辨率帧执行基于图像的算法，例如降噪、超分辨率、高动态范围、颜色增强等。空间模型可以利用所提取的时间特征作为指引，从而在输出帧合并时产生可能具有减少的闪烁的视频。
23.图1描绘了第一示例流程100。在该示例中，输入全分辨率的原始视频序列110。确定降低空间分辨率的视频序列的时间模型112，并且该模型的至少一个输出是来自降低空
间分辨率的视频序列的视频帧的一组时间特征114。在视频图像n 120的一组时间特征和全分辨率视频图像帧n118之间执行配对116。构建配对帧的空间模型122和全分辨率帧的各自特征，并输出处理后的视频帧n 124。合并处理后的视频帧126，以产生时间稳定的全分辨率视频序列128。
24.所提出的解决方案中的一个任务可以是从输入视频中提取时间特征。时间特征的捕捉可以使相关场景的帧间具有视觉连续性，这些场景在视觉上相互依赖。例如，同一场景中帧的曝光水平和色调应保持一致。如果没有来自相邻帧的足够信息，处理算法产生的结果输出帧可能不稳定，这可能导致视频闪烁。因此，在给定原始视频序列的情况下，可以对模型进行训练，以提供将用作空间模型的时间指引的特征。
25.可用于提取时间信息的可能模型包括三维(3d)卷积神经网络(cnn)。与执行空间卷积运算的二维(2d)cnn不同，该网络结构可以在额外维度上执行卷积运算，以从序列中提取时间和空间特征。在一个示例中，可以利用时间和空间特征在第三维中组合视频帧。如果网络具有足够的感受野，它可以完全覆盖视频并输出考虑整个视频序列的信息的特征。
26.另一种可能的模型可以包括递归神经网络(rnn)，其中内部状态用于记忆过去和受先前输入影响的输出。这是通过使用神经网络中的循环(loop)来实现的，其中先验信息可以向前传递。该模型还可以处理可变长度的输入序列，从而产生可能包含来自整个视频序列的时间信息的结果特征。
27.另一个考虑可能是模型的内存消耗和计算复杂性。如果在每个操作中使用全分辨率视频序列，则处理单元可以利用增加的计算资源。一种示例方法可以是在输入到模型之前降低视频帧的空间分辨率。使用降低空间分辨率的方法来减少模型输出质量上的计算资源，其代价可能是最小的。这是因为降低分辨率的视频可用于提取时间特征，而空间模型可在全分辨率的原始帧上执行。
28.一个示例的方法可以直接训练时间模型以较低分辨率执行视频增强任务。模型的输入和输出视频可以在空间上缩小，后者是增强版本，例如输入的降噪、超分辨率等。可以确定时间信息，并且结果视频可以是时间稳定的。通过使用结果帧作为其相应输入帧的时间特征，空间模型将具有小规模目标输出作为指引。
29.图2描绘了时间视频增强方法200，包括接收210多个原始视频帧，降低212多个原始图像帧的空间分辨率以产生多个降低分辨率的视频帧，以及提取214多个降低分辨率的视频帧的至少一个时间特征。该方法包括基于至少一个时间特征对多个原始视频帧进行空间建模216以输出多个时间稳定的视频帧，以及合并218所述多个时间稳定的视频帧。
30.该方法还可以包括对多个降低分辨率的视频帧进行时间建模，将多个原始视频帧与至少一个时间特征配对，以及训练空间建模以实时输出时间稳定的视频帧。
31.该方法还可以利用神经网络提取时间特征，其中神经网络是三维卷积神经网络和递归神经网络中的至少一个。空间建模可以利用神经网络，其中至少一个时间特征的提取利用来自相邻的降低分辨率的视频帧的一组信息，这组信息包括曝光水平和色调中的至少一个。时间特征的提取可以基于中间特征和/或与至少一个更高层次特征联合。
32.一个示例可以包括使用模型的中间特征作为时间特征，而不是使用结果输出帧。例如，在rnn中，内部状态用于跟踪历史，在这种情况下将是来自相邻帧的信息。用作时间模型中视频帧输出的先验信息的对应状态可以作为空间模型的指引。可以训练时间模型以在
较低的空间分辨率下对视频序列执行处理任务。可以从训练后的模型中提取时间特征以供空间模型使用。这些特征可以是模型的最终输出、中间层的特征图或两者的组合。
33.参考从上一步骤获得的时间特征，这些特征可用于在单个视频帧上实现基于图像的深度学习方法。神经网络可用于降噪、超分辨率和hdr增强。如果将空间建模应用于单独处理视频帧，则模型的最终输出可能独立于其各自相邻帧的信息。如果没有时间特征信息，空间模型很难确定最佳输出。例如，如果只考虑一帧，则无法确定该图像是否应调整为具有更高或更低的亮度(illumination)以与视频保持一致。如果决定由来自相邻帧的信息通知，则模型可以确定视频的整体曝光水平，以获得最一致的结果并提供更可靠的输出。因此，除了使用原始视频帧作为输入之外，模型还可以访问从先前的时间模型获得的相应特征。这些时间特征告知空间模型输出的一般基线。
34.有几种可能的方法可以将时间特征并入到空间模型中。如果视频帧的分辨率降低，则提取的特征可能在空间域中具有较高层次，并且可能缺少边缘等低层特征。在这个示例中，时间特征可以与当前网络中更深的特征联合，在当前网络中感受野更大，检测到的特征是更高层次的。
35.图3描绘了第二种时间视频增强300方法，包括：接收310多个原始视频帧，降低312多个原始图像帧的空间分辨率以产生多个降低分辨率的视频帧，以及增强314多个降低分辨率的视频帧以产生多个增强的视频帧。该方法还包括提取316多个降低分辨率的视频帧的至少一个时间特征，基于至少一个时间特征和多个增强的视频帧对多个原始视频帧进行空间建模318以输出多个时间稳定的视频帧，以及合并320多个时间稳定的视频帧。
36.该方法可以包括利用神经网络提取至少一个时间特征，其中神经网络是三维卷积神经网络或递归神经网络，时间特征的提取利用来自相邻降低分辨率的视频帧的信息。
37.将时间特征信息组合到空间模型中的另一示例可以包括对原始分辨率的特征进行上采样。这可以允许时间特征信息与空间模型的直接匹配，该空间模型不会缩小特征的尺寸，并且在较低分辨率下没有匹配尺寸的特征。在这个示例中，上采样后的时间特征可以与相应的原始帧执行直接联合，而不是与模型中的更高层特征联合。
38.图4描绘了第三种时间视频增强400方法，包括接收410多个原始视频帧，降低412多个原始视频帧的空间分辨率以产生多个降低分辨率的视频帧，以及提取414多个降低分辨率的视频帧的至少一个时间特征。该方法包括对至少一个时间特征进行上采样416，以及联合(concatenate)418上采样后的至少一个时间特征与多个原始视频帧。
39.该方法可以包括利用神经网络提取至少一个时间特征，其中神经网络是三维卷积神经网络或递归神经网络，时间特征的提取利用来自相邻降低分辨率的视频帧的信息。
40.所提出的方法可以允许基于图像的算法直接输出时间上一致的帧，并且根据时间特征信息调整模型。视频帧的对应时间特征的提取可以在较低的空间分辨率下建模，以利用较少的计算和内存资源。
41.本领域技术人员将理解，本文描述的各种说明性块、模块、元件、组件、方法和算法可以实现为电子硬件、计算机软件或两者的组合。为了说明硬件和软件的这种可互换性，各种说明性块、模块、元件、组件、方法和算法已在上面大体上根据它们的功能进行了描述。这种功能是作为硬件还是软件实现取决于特定的应用程序和对系统施加的设计约束。熟练的技术人员可以针对每个特定应用以不同的方式实现所描述的功能。在不脱离主题技术的范
围内，各种组件和块可以不同地排列，例如，以不同的顺序排列，或以不同的方式分割。
42.应当理解，前面公开的过程中步骤的特定顺序或层次是示例方法的说明。基于设计偏好，可以理解，流程中步骤的特定顺序或层次可以重新安排。一些步骤可以同时进行。所附的方法权利要求以示例顺序呈现各个步骤的元素，并不意味着限于呈现的特定顺序或层次。
43.前面的描述用来使本领域的任何技术人员能够实施本文描述的各个方面。前面的描述提供了主题技术的各种示例，并且主题技术不限于这些示例。对这些方面的各种修改对于本领域技术人员来说是显而易见的，并且本文定义的一般原理可以应用于其他方面。因此，本技术不旨在限于本文所示的方面，而是要符合与语言权利要求一致的全部范围，其中除非特别明确如此陈述，以单数形式提及的元件不旨在表示“一个且只有一个”，而是“一个或多个”。除非另有明确说明，否则术语“一些”是指一个或多个。阳性代词(例如，他)包括女性和中性性别(例如，她和它)，反之亦然。标题和副标题，如果有的话，只是为了方便而使用，并不限制本发明。词语“配置为”、“操作为”和“编程为”并不意味着对主题进行任何特定的有形或无形修改，而是旨在互换使用。例如，被配置为监视和控制操作的处理器或组件也可以指代被编程为监视和控制操作的处理器或被操作为监视和控制操作的处理器。同样，被配置为执行代码的处理器可以被解释为被编程为执行代码或被操作为执行代码的处理器。
44.诸如“方面”之类的词语并不意味着这个方面对于主题技术是必不可少的，或者这个方面适用于主题技术的配置。涉及一个方面的公开可以应用于方面或一个或多个方面。一方面可以提供一个或多个示例。诸如方面之类的词语可以指代一个或多个方面，反之亦然。诸如“实施例”之类的词语并不意味着这样的实施例对于主题技术是必不可少的，或者这样的实施例适用于主题技术的配置。涉及一个实施例的公开可以应用于实施例或一个或多个实施例。一个实施例可以提供一个或多个示例。诸如“实施例”之类的词语可以指代一个或多个实施例，反之亦然。诸如“配置”之类的词语并不意味着这种配置对于主题技术是必不可少的，或者这种配置适用于主题技术的配置。涉及一种配置的公开可以应用于配置或一个或多个配置。一种配置可以提供一个或多个示例。诸如“配置”之类的词语可以指一种或多种配置，反之亦然。
[0045]“示例”一词在此用于表示“作为示例或说明”。在此描述为“示例”的任何方面或设计不一定被解释为优于或超过其他方面或设计。
[0046]
本公开所描述的各个方面的元件的结构和功能的等同物是本领域普通技术人员已知的或以后将知道的，通过引用明确地并入本文并且旨在被权利要求所涵盖。此外，无论权利要求书中是否明确列举了此类披露，本文中披露的任何内容都不旨在献给公众。此外，如果在说明书或权利要求书中使用“包括”、“具有”或类似词语，则该词语旨在以类似于词语“包含”在被用作权利要求书的过渡性词语时所解释的方式被包含。
[0047]
对“实施例”、“一个实施例”、“一些实施例”、“各种实施例”等的引用表明特定元件或特征包括在本发明的至少一个实施例中。尽管这些词语可能出现在不同的地方，但这词语不一定指的是同一个实施例。结合本公开，本领域技术人员能够设计和结合适合于实现上述功能的多种机制中的任何一种。
[0048]
应当理解，本公开仅教导了说明性实施例的一个示例，并且本领域的技术人员在
阅读了本公开之后可以容易地设计出本发明的许多变体，并且本发明的范围将由权利要求所限定。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：徐奕宁段宇波沈山岚
技术所有人：黑芝麻智能科技（重庆）有限公司
我是此专利的发明人

上一篇：一种基于高斯滤波器信念传播的协作式车辆定位方法
上一篇：一种基于三维探地雷达图像的沥青路面空隙率评价方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。