选择性地增强经压缩的数字内容的制作方法

文档序号：28502242发布日期：2022-01-15 05:04阅读：79来源：国知局

选择性地增强经压缩的数字内容

背景技术：

1.近年来，使用计算设备(例如，移动设备、个人计算机)来接收、存储、编辑、流传输或以其他方式显示数字媒体的使用急剧增加。事实上，现在消费者电子设备显示来自多个不同远程源的实时视频已经很普遍。此外，随着个人计算机、移动设备、游戏控制台和其他消费者电子设备变得更加流行，具有不同计算和显示能力的更多种类的电子设备正被用于各种数字媒体应用中。此外，随着计算设备变得更加复杂，计算设备的显示能力也得到了类似的改进。
2.虽然计算设备在显示数字媒体方面提供了有用的工具，但是用于传送和显示数字媒体的常规系统包括各种问题和缺点。例如，随着数字媒体质量的提高，连接资源(例如带宽)通常不足以使内容提供商能够流传输或以其他方式提供高质量的媒体。此外，即使在连接资源充足且可用于提供高质量媒体内容的情况下，消费者也经常因与下载和处理大量数字内容相关联的各种成本而感到沮丧。此外，用于生成和传送媒体内容的常规加密和解密技术经常导致低质量的内容显示。
3.在传送和显示数字视频内容方面存在这些和其他问题。
附图说明
4.图1解说了根据一个或多个实施例的包括编码器系统和视频增强系统的示例环境。
5.图2解说了根据一个或多个实施例的编码器系统和视频增强系统的示例实现。
6.图3a-3c解说了根据一个或多个实施例的编码器系统和视频增强系统的进一步示例实现。
7.图4解说了根据一个或多个实施例的涉及标识视频帧的感兴趣区域的示例实现。
8.图5解说了根据一个或多个实施例的用于增强数字视频内容的示例方法。
9.图6解说了根据一个或多个实施例的用于编码视频内容和标识用于增强数字视频内容的感兴趣区域的示例方法。
10.图7解说了可被包括在计算机系统内的某些组件。
具体实施方式
11.本公开一般涉及用于基于视频内容内的经标识的重要区域来选择性地增强视频内容的编码器系统和数字视频增强系统。具体而言，如下文将进一步详细讨论的，服务器设备可以包括编码器系统，该编码器系统压缩要流传输(例如，实况流传输)或以其他方式提供给客户端设备的视频内容。编码器系统可通过在将经压缩的视频内容传送到客户端设备之前将压缩或编码算法应用于视频内容来生成经压缩的数字视频。此外，如下文将进一步详细讨论的，编码器系统可以标识感兴趣区域的信息并将其提供给与视频内容的重要部分(例如，像素区域和/或颜色通道)相关联的客户端设备，以启用客户端设备以选择性地修复、细化和以其他方式增强与感兴趣区域的信息相关联的视频内容的各部分。
12.除了编码器系统之外，本公开还涉及用于选择性地修复、改进和以其他方式增强数字视频内容的选择部分的视频增强系统。例如，如下文将进一步详细讨论的，视频增强系统可标识对应于视频帧的一个或多个重要部分的经解码的视频帧(例如，经解压缩的视频帧)的感兴趣区域。视频增强系统可然后将去噪模型应用于经解码的视频帧以移除在压缩和解压缩过程期间引入数字内容的一个或多个压缩伪影。一旦经解码的视频帧被去噪，则视频增强系统可在经由显示设备的图形用户界面显示输出视频帧之前，通过内插像素、上采样或以其他方式增加经修复的视频帧的像素分辨率来进一步细化经解码的视频帧。实际上，编码器系统和视频增强系统可将类似的过程应用于经解压缩的或流传输数字视频的任意数量的视频帧。
13.如本文将进一步详细讨论的，本公开包括提供益处和/或解决与经由客户端设备的图形用户界面递送和显示数字视频内容相关联的问题的多个实际应用。例如，通过标识视频帧的感兴趣区域，视频增强系统可显著地减少在修复或以其他方式增强数字视频内容时消耗的处理资源。实际上，通过选择性地修复视频帧的重要部分中的伪影，视频增强系统可生成质量视频帧，其中视频帧的最重要部分被保存，并且即使在客户端设备具有有限的处理资源或者在消耗更多的处理资源导致视频延迟和/或电池性能差的情况下也具有高质量。
14.此外，通过标识感兴趣区域，视频增强系统可利用一个或多个鲁棒且准确的机器学习模型并同时保留计算资源的开销。例如，视频增强系统可选择性地将被训练成从输入图像移除伪影的去噪模型应用于经解码的视频帧的经标识的感兴趣区域，以从经标识的感兴趣区域移除伪影，而不是分析经解码的视频帧的每个像素或附加部分。作为进一步的示例，视频增强系统可将超分辨率模型应用于经修复的图像(例如，经修复的经解码的视频帧)或选择经修复的图像的各部分，以在有效地利用计算资源的同时进一步增强图像。此外，本文描述的一个或多个实施例涉及被训练成生成分段图和/或图像缓冲器以指示不同实现中的关键感兴趣区域的机器学习模型。
15.如将在下文结合多个实施例进一步详细讨论的，视频增强系统和编码器系统可以以多种方式协作地标识和利用感兴趣区域的信息。例如，在视频内容的开发者(例如，游戏开发者)知道云计算或压缩考虑的情况下，编码器系统和/或视频增强系统可在提高视频质量时以有效的和高效的方式利用感兴趣区域的信息。例如，游戏开发者可使视频生成系统结合所提供的游戏内容来提供感兴趣区域的信息。此外，即使在原始内容源不生成或提供感兴趣区域的信息的情况下，本文描述的示例也涉及感兴趣区域的信息由编码器系统和/或视频增强系统标识以更有效地增强数字视频内容的各种方式。
16.通过更有效地利用处理和带宽资源，本文描述的系统可在生成和递送数字视频内容方面提供显著的灵活性。例如，通过更有效地利用处理和带宽资源，本文描述的系统在不增加带宽消耗的情况下促进更高质量的输出。附加地或作为替换，本文描述的系统可在减少带宽消耗的同时保持视频内容的高或阈值质量。实际上，取决于任意数量的用户或系统偏好和设置(例如，带宽预算、蜂窝数据使用限制、选定的图形设置、电池消耗设置)，本文描述的系统可以在显示数字视频内容时在客户端设备的操作中提供许多不同的益处。
17.如在前面的讨论中所例示的，本公开利用各种术语来描述本文描述的系统的特征和优点。现在提供关于此类术语的含义的附加细节。例如，如本文所使用的，“数字视频”、“数字视频内容”或“视频内容”可以互换地指代表示数字图像序列(例如，多个数字视频帧)的数字数据。数字视频可以包括可经由计算设备的显示器的图形用户界面显示的数字数据或数字文件。例如，数字视频可以包括图像序列，其包括指代数字图像的离散单元或元素的像素数据，该离散单元或元素在组合时形成数字图像的可显示内容。数字视频可能具有相应的帧速率、分辨率或历时。作为示例，数字视频可以指具有以下扩展名之一的数字文件：avi、flv、wmv、mov、mp4。如本文所使用的，“视频帧”或“数字视频帧”指的是来自数字视频内容的视频内容的离散帧。
18.在本文描述的一个或多个实现中，数字视频可以指经压缩的数字视频。如本文所使用的，“经压缩的数字视频”或“经编码的视频”指的是其像素数据已使用多种压缩技术中的一种进行缩减的数字视频。例如，经压缩的数字视频可以指已经使用有损或无损压缩算法被压缩的数字视频(或一系列视频帧)。作为进一步的示例，在一个或多个实施例中，经压缩的数字视频是使用一个或多个面向块的基于运动补偿的视频压缩标准来压缩的。例如，经压缩的数字视频可以是使用包括h264、h.265、mpeg-4、vp9、vp10或任何其他编码或压缩格式的格式来压缩的。
19.与经压缩的数字视频相比，在本文描述的一个或多个实施例中，数字视频可以指经解压缩的数字视频。如本文所使用的，“经解压缩的数字视频”或“经解码的数字视频”指的是已经从经压缩的数字视频生成为近似数字视频的原始形式的数字视频。例如，在本文描述的一个或多个实现中，经解压缩的数字视频通过以下来生成：基于经压缩的数字视频的格式和/或应用于原始视频来生成经压缩的数字视频的压缩算法对经压缩的数字视频文件(或经压缩的数字视频内容流)来应用解码或解压缩算法。在本文描述的一个或多个实施例中，经解压缩的数字视频指的是在经由图形用户界面接收和呈现时被解压缩的流视频内容的经解压缩的部分。
20.在本文所描述的一个或多个实施例中，针对一个或多个视频帧标识感兴趣区域。如本文所使用的，“感兴趣区域”指的是视频帧(或多个视频帧)的离散部分。例如，感兴趣区域可以指图像的裁剪部分或来自数字视频帧的像素区域。在一个或多个实现中，感兴趣区域指的是数字图像内不同位置处的多个像素的离散区域。例如，感兴趣区域可以指来自相应视频帧的第一像素区域和第二非交叠像素区域。感兴趣区域可以是跨多个视频帧一致的，或者可以逐帧变化。在一个或多个实施例中，感兴趣区域指的是形成图像的一部分的通道(例如，颜色通道、色度通道、亮度通道)，当该通道与附加通道组合时形成数字图像。下面将更详细地讨论感兴趣区域的更多示例。
21.在本文描述的一个或多个实施例中，各种系统利用一个或多个机器学习模型来执行关于数字视频内容的各种功能。如本文所使用的，“机器学习模型”指的是一种或多种计算机算法或模型(例如分类模型、回归模型)，其可基于训练输入进行调谐(例如，训练)以近似未知函数。例如，机器学习模型可以指神经网络(例如，卷积神经网络、递归神经网络)或其他架构，其学习和近似复杂函数并基于提供给机器学习模型的一个或多个输入来生成输出。如将结合本文的各种示例所讨论的，不同的机器学习模型可基于机器学习模型如何被训练来生成不同类型的输出(例如，经修复的图像、经上采样的图像、分段掩码)以生成这些输出。
22.现在将参考描绘示例实现的说明性图来提供关于用于传送和增强数字视频内容
的系统的附加细节。例如，图1例示了示例环境100，其中数字视频被递送到客户端设备并且根据本文描述的一个或多个实施例被选择性地增强。如图1所示，环境100包括一个或多个服务器设备102和客户端设备104。服务器设备102包括视频生成系统106和编码器系统108。如进一步所示，客户端设备104包括解码器系统110和视频增强系统112。
23.如图1进一步所示，服务器设备102和客户端设备104可以通过网络114直接或间接地彼此通信。网络114可以包括一个或多个网络并且可以使用一种或多种适合于传送数据的通信平台或技术。网络114可以指能够在环境100的设备和/或模块之间传输电子数据的任何数据链路。网络114可以指硬连线网络、无线网络或硬连线和无线网络的组合。在一个或多个实施例中，网络114包括因特网。
24.客户端设备104可以指各种类型的计算设备。例如，客户端设备104可包括移动设备，诸如移动电话、智能电话、个人数字助理(pda)、平板或膝上型计算机。附加地或替换地，客户端设备104可包括非移动设备，诸如台式计算机、服务器设备或其他非便携式设备。在一个或多个实施例中，客户端设备指的是游戏设备，诸如与显示设备通信的专用手持游戏设备或视频游戏控制台。在一个或多个实现中，客户端设备104指的是多个设备(例如，游戏控制台和相关联的显示设备)的系统。客户端设备104可以附加地在其上包括图形用户界面(例如，移动设备的屏幕)。附加地或作为替换，客户端设备104可以通信地(例如，有线或无线地)耦合到其上具有图形用户界面的显示设备以用于提供对数字视频内容的显示。服务器设备102可以类似地指各种类型的计算设备。环境100的每个设备可以包括下面结合图7描述的特征和功能。
25.现在将结合示例实现给出附加的细节，其中环境100的各组件有助于经由客户端设备104的图形用户界面高效地递送和增强数字视频以供显示。图2例示了示例实现，其中视频增强系统112包括去噪系统202和超分辨率系统204，超分辨率系统204用于增强数字视频内容并经由显示设备222的图形用户界面提供经增强的数字视频内容的显示。
26.如图2所示，视频生成系统106可以生成原始视频内容208。原始视频内容可以指由与编码器系统108相同或不同的服务器设备上的视频生成系统106生成的实况视频。原始视频内容208可以指由游戏服务器生成的视频游戏内容以实时流传输到客户端设备104。原始视频内容208可以具有原始分辨率和比特率，这取决于视频生成系统106的能力和配置和/或客户端设备104、视频生成服务器或其他视频生成应用的开发规范。
27.在一个或多个实施例中，视频生成系统106生成感兴趣区域的信息并将其提供给环境100的一个或多个组件。例如，在图2所例示的示例中，视频生成系统106生成感兴趣区域的信息并将其提供给感兴趣区域管理器206。此感兴趣区域的信息可以包括由原始视频内容208的开发者提供的信息。例如，感兴趣区域的信息可包括对将与数字视频内容一起显示的输入元素、平视显示器(hud)元素(例如，作为用户界面的一部分显示的元素)、或任何其他图形用户界面元素的指示。感兴趣区域管理器206可在服务器设备102、客户端设备104上实现，或者包括在不同设备之间实现的不同特征。下文将进一步详细讨论与标识和利用感兴趣区域的信息有关的其附加细节。
28.在向客户端设备104提供原始视频内容208时，编码器系统108可被用于压缩原始视频内容208并生成经压缩的数字视频210。具体而言，编码器系统108可生成具有可以通过网络114传送到客户端设备104的格式的经压缩的数字视频210。例如，编码器系统108可应
用编码算法来压缩原始视频内容208并且经由无线连接向客户端设备104提供经压缩的视频内容。在本文描述的一个或多个实施例中，经压缩的视频210被实时流传输到客户端设备104。
29.如图1所示，编码器系统108可以指编码器系统108的单个实例，其包括与本文描述的各种示例相关联的特征和功能，其对应于相关联的视频内容生成器106。替换地，在一个或多个实施例中，服务器设备102可包括多个视频内容生成器106，每个视频内容生成器106向共享编码器系统108提供视频游戏内容，该共享编码器系统108被装备成对视频内容进行编码并且向任意数量的设备提供经压缩的数字视频。因此，虽然编码器系统108的一个或多个实施例涉及将编码器系统108实现为视频内容生成器的相同硬件和/或软件的一部分，但是编码器系统108可替换地在独立于视频内容发生器实现的单独硬件设备上实现。
30.在接收到经压缩的视频内容后，客户端设备104可以将解码器110应用于经压缩的视频210以生成包括多个经解压缩的视频帧的经解压缩的数字视频212。具体而言，解码器110可以对经压缩的视频210应用解码算法(例如，取决于经压缩的视频210的格式)以根据经编码的数据来重构数字视频内容，以近似于由视频生成系统106生成的原始视频。经解压缩的视频212可以包括对应于由视频生成系统106提供的原始视频内容208的比特率和分辨率的比特率和/或分辨率。替换地，在一个或多个实施例中，经解压缩的视频212可包括比原始视频内容208更低的分辨率和/或更低的比特率。例如，在客户端设备104和服务器设备之间网络连接受限的情况下，经解压缩的视频212可以具有比原始视频内容208的分辨率和比特率更低的分辨率或更低的比特率以保留带宽或其他网络资源。
31.如图2所示，作为压缩和解压缩原始视频内容208的结果，一个或多个视频帧可能包括一个或多个解压伪影214。如本文所使用的，“伪影”或“解压伪影”指的是原始视频内容208和经解压缩的数字视频内容212之间由于压缩和解压缩数字视频而引入的任何数据丢失。例如，压缩伪影可指诸如丢失像素、像素化效果、由于编码和解码而导致的下采样、模糊度、内容失真、着色、噪声、颗粒度等缺陷，或由于压缩和解压缩数字内容而导致的数据丢失而引起的任何其他效果。压缩伪影可以包括局部化伪影(例如，诸如图2所示的局部化压缩伪影214)。替换地，压缩伪影可以指丢失的数据对整个图像的影响(例如，整个图像上的颗粒度或分辨率降低)。
32.在一个或多个实施例中，经解压缩的视频内容212被提供给感兴趣区域管理器206。感兴趣区域管理器206可以以多种方式标识或以其他方式确定视频内容内的感兴趣区域。在一个或多个实施例中，感兴趣区域管理器206基于从视频生成系统106接收的感兴趣区域的信息确定一个或多个视频帧内的像素区域。例如，感兴趣区域管理器206可接收视频内容内的平视显示器(hud)元素的标识并且将平视显示器(hud)元素映射到接收到的经解压缩的视频内容212内的像素区域。感兴趣区域管理器206可以利用感兴趣区域的信息来生成分段掩码216或其他图像缓冲器，包括与感兴趣区域的信息相对应的像素的经标识区域。下面结合图3a-4更详细地讨论与标识感兴趣区域的信息有关的进一步信息。
33.除了分段掩码216之外，经解压缩的数字视频内容212可被提供给去噪系统202。去噪系统202可以包括去噪模型(例如，机器学习模型)，其被训练成提取、修复或以其他方式移除包括在经解压缩的视频内容212内的解压伪影。例如，去噪系统202可以将机器学习模型应用于包括伪影214的视频帧并且基于先前在训练去噪模型中使用的训练数据生成近似
原始视频内容208的输出图像。
34.去噪系统202可被训练成以多种方式移除压缩伪影。例如，在一个或多个实施例中，去噪系统202可以包括通过提供包括压缩前的第一多个原始图像以及压缩和解压缩后的第二多个数字图像的图像对来训练的机器学习模型。以此方式，去噪系统202可被训练成近似或估计在经由压缩和解压缩过程引入压缩伪影之前具有各种不同压缩伪影的数字图像将如何出现。
35.虽然通常去噪系统202可被训练成移除伪像，但在一个或多个实施例中，去噪系统202基于视频内容的特定类型或源来被训练或细化。作为示例，在一些示例中，原始视频内容208可以指游戏或其他应用，其中感兴趣区域是统一的或限于相应视频帧内的有限区域集合。在感兴趣区域已知的情况下，去噪系统202可被专门训练以移除特定感兴趣区域中的伪影。以此方式，感兴趣区域的信息可被用于针对一个或多个特定应用更有效地训练去噪系统202。
36.如图2所示，去噪系统202可以提供经修复的视频帧218作为超分辨率系统204的输入以进一步增强视频内容。例如，超分辨率系统204可以包括被训练成上采样或以其他方式增加一个或多个视频帧的像素分辨率的超分辨率模型(例如，机器学习模型)。因此，超分辨率系统204可以接收经修复的视频帧218并生成高分辨率视频帧220以经由显示设备222来显示。如本文所使用的，“高分辨率视频帧”可以指具有比由解码器110生成的经解压缩的视频帧更高分辨率的视频帧。
37.在一个或多个实施例中，超分辨率系统204包括被训练成生成高分辨率视频帧的机器学习模型。具体而言，超分辨率系统204可以基于高分辨率图像和对应的低分辨率图像对来训练。在一个或多个实现中，图像对指的是不包括伪影的图像(例如，指的是用于训练去噪模型的不同训练图像集合)。例如，虽然在图1中未示出，但服务器设备可以包括模型训练系统，该模型训练系统生成或以其他方式获得原始视频内容的下采样版本，并基于来自原始视频内容的视频帧对和来自原始视频内容的视频帧的对应下采样版本来训练超分辨率系统204(或由超分辨率系统204实现的模型)。以此方式，超分辨率系统204可被训练成基于训练图像对来近似数字视频内容的上采样版本。
38.如图2所示，高分辨率视频帧220可经由图形用户界面来被显示。例如，高分辨率视频帧220可被流传输到显示设备(例如，移动设备)以在生成高分辨率视频帧220时显示。注意，数字视频帧的去噪和增加分辨率(例如，上采样、内插像素)的过程可以在客户端设备104本地执行。以此方式，视频增强系统112可修复并生成高分辨率视频帧220而不消耗附加的连接资源(例如，带宽、蜂窝数据)。
39.图2中所示的各组件中的每一者可根据各种设置或偏好来执行上述过程中的一者或多者以实现多种不同的益处。例如，在一个或多个实施例中，视频增强系统112可以对经解压缩的视频帧212进行去噪(例如，移除伪影)，并生成高分辨率的输出视频帧220，以近似具有与原始视频内容208类似的分辨率和比特率的视频帧。例如，为了节省带宽资源，编码器系统108可压缩数字视频以生成具有比原始视频内容208更低的分辨率或比特率的经编码的视频内容210，以减少在通过网络114提供视频内容时消耗的带宽资源。替换地，编码器系统108仍然生成原始视频内容208的无损或近无损压缩，同时仍然通过在移除一个或多个压缩伪影之后进一步上采样或以其他方式增强分辨率来生成非常高质量的输出图像。
40.在一个或多个实施例中，视频增强系统112可以省略超分辨率系统104或简单地提供经修复的视频帧218作为要经由显示设备222显示的输出。例如，在视频增强系统112不包括超分辨率系统204或视频质量已经达到足以被显示的质量水平的情况下，视频增强系统112可以简单地向显示设备222提供经修复的视频帧218以经由图形用户界面显示。
41.在又一示例中，视频增强系统112的组件202-204中的一者或两者可被应用于数字图像中被提供给视频增强系统112的所选部分。例如，如上文提及的，去噪系统202可将去噪模型专门应用于视频帧中与经标识的感兴趣区域相对应的部分，而不将去噪系统202应用于视频帧的其他部分。类似地，超分辨率系统204可将超分辨率模型应用于视频帧的所选部分，以选择性地向上采样视频帧的各部分以便使视频帧中被标识为重要的那些部分具有更高质量的视觉内容。在一个或多个实现中，选择性地对视频帧的子区域进行上采样可以涉及将基于机器学习的算法应用于关键区域，同时将更简单的上采样函数应用于视频帧的其他区域以使视频帧被上采样到相同的目标分辨率。
42.作为选择性地将各种模型应用到视频帧的专有部分的替换，视频增强系统112可以根据经标识的感兴趣区域进一步优先处理视频帧。例如，在一个或多个实施例中，视频增强系统112可以针对经标识的感兴趣区域优先对视频帧的选择部分进行去噪和/或提高分辨率同时仍然取决于处理和带宽预算对视频帧的其他部分进行去噪和/或提高分辨率。例如，在设置或偏好指示与最小或优选输出质量相关的最大计算预算或带宽预算的情况下，视频增强系统112可优先向所标识的感兴趣区域增强(例如，去噪、提高分辨率)视频帧，同时在计算和/或带宽预算允许的情况下，花费任何附加的可用资源来增强视频帧的其他部分。此外，在一个或多个实施例中，视频增强系统112可以简单地对感兴趣域应用更严格或鲁棒的增强(例如，更鲁棒的去噪)同时对视频帧的其他区域应用不太严格或鲁棒的增强，而不是专门增强部分或优先增强。
43.如上文提及的，本文描述的系统可以以多种方式标识和利用感兴趣区域的信息。例如，图3a-3c例示了其中感兴趣区域管理器206可以在服务器设备102或客户端设备104上实现的示例实现。应当理解，结合一个或多个具体例示示例描述的特征和功能可类似地应用于本文描述的其他示例。
44.图3a例示了其中视频增强系统112从远程源接收感兴趣区域的信息的示例实现。例如，如图3a所示，去噪系统202可以(例如，从解码器110)接收经解压缩的视频帧302，其包括根据从编码器系统108提供的经压缩的数字视频重构的数字内容。例如，经解压缩的视频帧302可包括来自由视频生成系统106生成的视频游戏内容的视频帧。
45.如图3a进一步所示，经解压缩的视频帧302包括多个压缩伪影304a-c。例如，视频帧302包括视频帧302左上部分处的第一压缩伪影304a、视频帧302右中部分处的第二压缩伪影304b和视频帧302底中部分处的第三压缩伪影304c。压缩伪影304a-b可以表示由于压缩和解压缩视频内容而导致的视频帧内的多种类型的局部缺陷或不准确中的任一种。如进一步所示，示例视频帧302来自赛车视频游戏应用，其包括诸如速度指示符和等级指示符之类的显示内容。
46.除了接收经解压缩的视频帧302之外，去噪系统202可进一步接收感兴趣区域的信息，该感兴趣区域的信息包括标识视频帧302内感兴趣的像素区域308的分段图306。特别地，分段图306可以包括对应于已被标记或以其他方式标识为显示器的重要区域的平视显
示器(hud)元素或视频帧302的其他图形元素的像素区域308。例如，如图3a所示，分段图306包括对应于出现在经解压缩的视频帧302内的速度指示器和玩家等级的多个像素区域308。分段图306可以包括任何数量的经标识的感兴趣区域。
47.在图3a所示的示例中，经标识的像素区域308可以以多种方式来标识。例如，在一个或多个实施例中，像素区域308可以被视频游戏内容的开发者标识为重要的。在此情形中，视频内容生成器106可提供感兴趣区域的信息作为包括经压缩的视频内容的相同数据传输的一部分。替换地，在一个或多个实施例中，被实现为客户端设备104或服务器设备102的一部分的感兴趣区域管理器206可基于特定内容或该内容被如何编码来标识感兴趣区域的信息。下面(结合图3b-3c)更详细地讨论与如何标识感兴趣区域的信息有关的附加示例。
48.如图3a所示，去噪系统202可以将去噪模型应用到基于来自分段掩码306的信息的经压缩的视频帧302以生成经修复的视频帧310，其中一个或多个压缩伪影已经从经解压缩的视频帧302中移除。例如，如图3a所示，去噪系统202可以具体地从分段掩模306内标识的像素的对应区域移除第三伪影304c。在此示例中，去噪系统202移除经解压缩的视频帧302中对应于分段掩码306内的经标识的像素区域308的位置处的第三伪影304c，而不移除经解压缩的视频帧302中不对应于感兴趣区域的部分的第一和第二伪影304a-b。以此方式，去噪系统202可以选择性地从与在提供视频内容的显示时被标识为重要的视频帧302的区域相对应的视频帧内移除一个或多个伪影。
49.去噪系统202可以提供经修复的视频帧310作为超分辨率系统204的输入。根据上述一个或多个实施例，超分辨率系统204可以上采样、插值或以其他方式增加经修复的视频帧310的分辨率以生成用于经由显示设备显示的高分辨率视频帧312。在一个或多个实施例中，超分辨率系统204包括被训练成接收输入图像(例如，经修复的视频帧310)并生成更高分辨率的输出图像(例如，高分辨率视频帧312)以供显示的超分辨率模型。
50.图3b例示了另一示例实现，其中感兴趣区域管理器206被实现为客户端设备104上的视频增强系统112的一部分。例如，感兴趣区域管理器206可接收经解压缩的视频帧320，包括与上面讨论的一个或多个示例一致的视频内容和各种平视显示器(hud)元素。视频帧302可包括作为压缩和解压缩由视频生成系统106生成的原始视频内容的一部分而引入的任何数量的压缩伪像。
51.感兴趣区域管理器206可以分析视频帧302的内容以标识视频帧320的一个或多个感兴趣区域并且生成包括对与感兴趣区域对应的像素的指示的分段掩码322。在一个或多个实施例中，感兴趣区域管理器206包括被训练成基于不同因素和参数来标识感兴趣区域的机器学习模型。例如，感兴趣区域管理器206可以实现被训练成一般地跨各种类型的视频游戏内容来标识平视显示器(hud)元素的机器学习模型。这可能包括被训练成标识图形元素的算法和模型，诸如迷你地图、浮动文本(例如，在视频帧之间移动的文本框)、显示的菜单或最终用户希望尽可能以更高质量显示的其他重要内容。在一个或多个实施例中，感兴趣区域管理器206标识不同视频帧的不同感兴趣区域。例如，虽然许多示例感兴趣区域对应于任何视频帧的相同位置，但是感兴趣区域管理器206可标识在帧之间移动的不同感兴趣区域(例如，文本或其他图形元素的浮动显示)。
52.虽然感兴趣区域管理器206可实现被训练成一般地(例如，跨大范围的不同类型的视频内容)标识感兴趣区域的机器学习模型，但是感兴趣区域管理器206可进一步实现用关
于视频内容的特定源训练的机器学习模型。例如，在游戏应用包括有限数量的平视显示器(hud)界面的情况下，感兴趣区域管理器206可以实现专门训练成标识有限数量的平视显示器(hud)界面的感兴趣区域的机器学习模型。实际上，在这种情况下，并非通过提供各种不同类型的视频帧和经标识的感兴趣区域来训练机器学习模型，机器学习模型可针对特定游戏应用(或其他基于视频的应用)的视频内容以使该机器学习模型能够准确地标识感兴趣的区域，与传统机器学习模型相比，训练图像显著减少。此外，以此方式训练感兴趣区域标识模型使客户端设备104能够有效地标识传入视频帧的感兴趣区域，而无需分析整个视频帧以跨整个图像预测感兴趣区域可能的位置。
53.在一个或多个实施例中，感兴趣区域管理器206实现接收自服务器设备102的并基于进一步训练定期更新的机器学习模型。例如，服务器设备102可以向客户机设备104提供机器学习模型以在客户机设备104上实现(如图3b所示)，并基于生成的视频帧和随时间接收的相关感兴趣区域的信息定期更新机器学习模型。服务器设备102可进一步提供经更新的机器学习模型，该模型促进感兴趣区域管理器206随时间更准确地标识感兴趣区域。沿着类似的路线，服务器设备可以进一步更新并提供对在视频增强系统112上实现的其他机器学习模型(例如，去噪模型、超分辨率模型)的更新。
54.类似于上述一个或多个实施例，经解压缩的视频帧320可被提供给去噪系统202以用于修复一个或多个压缩伪影。去噪系统202可进一步接收分段图322，并从经解压缩的视频帧320中对应于在分段图322内标识的感兴趣区域的部分选择性地移除压缩伪影。基于经解压缩的视频帧320和分段图322，去噪系统202可以生成移除了一个或多个压缩伪影的经修复的视频帧324。超分辨率系统204可进一步生成高分辨率视频帧326以经由显示设备的图形用户界面提供显示。
55.图3c例示了另一示例实现，其中感兴趣区域管理器206被实现为(例如，服务器设备102上的)编码器系统108的一部分。如图3c所示，原始视频内容332(例如，由视频生成系统106生成)可以作为输入被提供给编码器系统108的多个组件。具体而言，编码器330可接收原始视频内容332并且压缩原始视频内容332以生成经编码的视频内容334以提供给客户端设备104。例如，类似于上面结合图2讨论的示例，编码器330可以生成经编码的视频内容334并将其作为输入提供给解码器110，解码器110解压缩经编码的视频内容334以生成其上具有一个或多个伪影的经解压缩的多个视频帧338。解码器110可进一步提供经解压缩的视频帧338作为视频增强系统112的输入以用于移除伪影并生成高质量视频帧340。
56.除了上述生成经编码的视频内容的过程之外，编码器系统108可进一步包括在其上实现的感兴趣区域管理器206，其从原始视频内容332标识感兴趣区域的信息。例如，在一个或多个实施例中，感兴趣区域管理器206分析视频内容332以标识平视显示器(hud)元素、显示测试的位置、用户输入元素，以及提供给视频增强系统112以用于从经解压缩的视频帧338选择性地移除压缩伪影的其他感兴趣区域的信息。例如，在一个或多个实施例中，感兴趣区域管理器206基于来自原始视频内容332内的经分析的内容生成分段掩码336或其他合成缓冲器以提供给视频增强系统112。
57.在一个或多个实施例中，感兴趣区域管理器206为原始视频内容332的多个帧的范围生成图像缓冲器(例如，其中覆盖在多个视频帧上保持一致)。替换地，当显示在视频内容332内的内容随时间改变时，感兴趣区域管理器206可在视频内容332的不同历时上生成不
同的图像缓冲器。
58.此外，在一个或多个实施例中，感兴趣区域管理器206使用本文讨论的多个感兴趣区域标识技术生成分段掩码336。例如，感兴趣区域管理器206可基于由开发者提供的信息或直接从视频生成系统106接收的信息来标识一个或多个感兴趣区域。此外，感兴趣区域管理器206可基于可变速率着色技术来标识一个或多个附加感兴趣区域，该技术基于在生成经编码的视频内容334时应用的压缩率。
59.在一个或多个实施例中，本文描述的系统中的一个或多个可以基于颜色、着色和其他内容对原始视频内容332应用可变速率着色分析。作为示例，视频生成系统106可执行与向图像或一系列视频帧添加着色相关的一系列操作。例如，视频生成系统可实现可变速率着色系统，该系统分析帧数据(例如，在编码之前用于生成未经压缩的视频帧的数据)以确定可以以更高或更低精度计算着色的位置，以减少计算而不会显著降低应用于视频内容的着色质量。
60.作为说明性示例，如果房间的暗角将被遮着色，但相邻像素之间的着色差异很小(例如，在终端用户看来，相邻像素只是类似的“暗”度量)，可变速率着色系统可能会决定以低精度率对视频帧的相应区域进行着色。感兴趣区域管理器206可以通过假设低精度着色区域对于输出视频内容的整体质量不那么重要并且因此不如视频帧的其他区域重要来利用该信息。
61.基于可变速率着色信息，感兴趣区域管理器206可基于应用于视频内容的不同部分的着色精度来分配或以其他方式标识感兴趣区域。例如，感兴趣区域管理器206可以基于确定那些感兴趣区域不与低精度着色率(例如，低于预定阈值的着色率)相关联来标识感兴趣区域。在一个或多个实施例中，视频生成系统106向(服务器或客户端设备上的)感兴趣区域管理器206提供可变速率着色图(例如，可变速率着色缓冲器)，其包括存在对低精度着色的区域的标识。感兴趣区域管理器206可以在根据本文描述的一个或多个实现来去噪和以其他方式处理经解压缩的视频帧时利用此信息。
62.虽然上述的一个或多个实施例涉及标识由在数字视频帧内的选择像素或像素区域来定义的感兴趣区域，但在一个或多个实施例中，感兴趣区域可以附加地或替换地指共同构成一个图像帧的一个或多个叠加或通道。例如，图4例示了感兴趣区域管理器206接收经解压缩的数字视频帧402并将来自多个颜色通道404a-c的第一颜色通道404a标识为要提供给去噪系统202和/或超分辨率系统204的感兴趣区域的示例。因此，如图4所示，感兴趣区域管理器206标识第一颜色通道404a以提供给去噪系统202以从第一颜色通道404a中移除压缩伪影，并提供附加颜色通道404b-c作为超分辨率系统204的输入，以结合由去噪系统202提供的经修复的视频帧406进行处理。
63.颜色通道404a-c可以指视频帧的各种不同部分。作为第一示例，颜色通道404a-c可以指ycbcr族通道，其中第一颜色通道404a指的是亮度通道，第二颜色通道404b指的是第一色度通道(例如，色度蓝色通道)，而第三颜色通道404c指的是第二色度通道(例如，色度红色通道)。作为ycbcr族通道的替换，颜色通道404a-c可以指rgb图像的离散颜色通道。实际上，在视频帧包括共同形成视频帧的多个合成图像的情况下，颜色通道404a-c可以指合成图像的任何数量的通道或部分。
64.此外，尽管图4例示了其中第一信道404a被提供给去噪系统202而第二信道404b和
第三信道404c被提供给超分辨率系统的示例，在一个或多个实施例中，仅第一颜色通道404a被提供作为去噪系统202和超分辨率系统204的输入，并且在生成从中移除一个或多个伪影的高分辨率第一通道404a之后与剩余颜色通道404b-c组合。以此方式，视频增强系统112可在可能的情况下进一步保留客户端设备104的本地处理资源(例如，其中附加颜色通道404b-c在向去噪系统202和/或超分辨率204提供进一步细化方面提供可忽略的益处)。实际上，在一个或多个实现中，通过移除伪影并以其他方式仅增强单个通道(例如，亮度通道)，视频增强系统112可以生成高质量图像而无需消耗附加的处理能力来增强相同的视频帧的其他通道(例如，色度通道)。
65.在一个或多个实施例中，结合标识包括像素区域的感兴趣区域而描述的特征和功能(如结合图2-3c讨论的)可以与结合图4描述的颜色通道的选择性增强相结合。例如，除了从视频帧中标识像素区域以选择性增强之外，感兴趣区域管理器206可附加地从像素区域中标识选择颜色通道以进一步减少在增强视频帧以显示时由视频增强系统112执行的处理量。实际上，通过组合本文讨论的多种技术，视频增强系统112可以选择性地增强具有高比特率的视频帧，同时保持高性能，并且不会耗尽客户端设备104的电池或数据资源。
66.现在转向图5-6，这些图例示了示例流程图，包括用于基于视频内容的经标识的感兴趣区域选择性地增强视频内容的一系列动作。虽然图5-6例示了根据一个或多个实施例的动作，但替换实施例可以省略、添加、重新排序和/或修改图5-6中所示的任何动作。此外，结合图5或图6的单独动作或一系列动作描述的一个或多个单独特征和功能可以类似地应用于本文描述的其他实施例和示例。图5-6的动作可以作为方法的一部分来执行。替换地，非暂时性计算机可读介质可包括当由一个或多个处理器执行时使计算设备执行图5-6的动作的指令。在更进一步的实施例中，系统可以执行图5-6的动作。
67.图5例示了根据一个或多个实现的用于选择性地细化经解码的视频帧的一系列动作500。如图5所示，一系列动作500包括生成包括多个经解码的视频帧的经解压缩的数字视频的动作510。例如，动作510可包括解压缩经压缩的数字视频内容以生成包括多个经解码的视频帧的经解压缩的数字视频内容。
68.如图5进一步示出的，一系列动作500包括标识经解码的视频帧的动作520。例如，动作520可包括从该多个经解码的视频帧中标识经解码的视频帧。
69.一系列动作500可进一步包括标识经解码的视频帧的感兴趣区域的动作530。例如，动作530可包括标识该经解码的视频帧的感兴趣区域，该感兴趣区域包括该经解码的视频帧的一部分。在一个或多个实施例中，标识该感兴趣区域包括标识该经解码的视频帧的一个或多个像素的离散区域。
70.在一个或多个实施例中，标识该感兴趣区域包括从共同构成该经解码的视频帧的多个颜色通道中标识第一颜色通道。标识第一颜色通道可包括标识来自包括亮度通道、第一色度通道和第二色度通道的颜色通道族的亮度通道。
71.在一个或多个实施例中，标识该感兴趣区域包括从服务器设备接收对该感兴趣区域的标识，连同从该服务器设备接收该经压缩的数字视频。接收对该感兴趣区域的标识可包括接收包括该经解码的视频帧的分段掩码的合成缓冲器，其中该分段掩码包括对该经解码的视频帧内的重要内容的指示。在一个或多个实现中，该分段掩码指示一个或多个平视显示器(hud)元素，该一个或多个平视显示器(hud)元素包括作为实况视频流的图形用户界
面的一部分显示的信息。在一个或多个实现中，接收对该感兴趣区域的标识包括接收可变速率着色缓冲器，该可变速率着色缓冲器指示该经解码的视频帧中与不同着色精度率相关联的区域。
72.该系列动作还可包括将被训练成从经解码的视频帧的感兴趣区域移除一个或多个压缩伪影的去噪模型应用于感兴趣区域的动作540。例如，动作540可包括将去噪模型应用于经解码的视频帧的一部分以生成其中来自经解码的视频帧的感兴趣区域的一个或多个压缩伪影已被移除的经去噪的视频帧。
73.去噪模型可包括机器学习模型，该机器学习模型被训练成接收包括至少一个压缩伪影的输入图像并生成其中至少一个压缩伪影已被移除的输出图像。该去噪模型可以是基于训练图像对来训练的，该训练图像对可包括第一多个非经压缩的图像和基于压缩后的该第一多个非经压缩的图像的第二多个经解压缩的数字图像。
74.一系列动作500可进一步包括将超分辨率模型应用于经去噪的视频帧以生成具有与经解码的视频帧相比更高分辨率的输出视频帧。超分辨率模型可包括另一机器学习模型，该另一机器学习模型被训练成接收具有输入分辨率的输入数字图像以基于输入数字图像来生成具有与输入分辨率相比更高分辨率的输出数字图像。
75.一系列动作500可附加地包括从该多个经解码的视频帧中标识附加经解码的视频帧的感兴趣区域，其中感兴趣区域包括该附加经解码的视频帧的相应部分。一系列动作500可进一步包括将该去噪模型应用于该附加经解码的视频帧的该相应部分中的每一者，以生成其中来自该经解码的视频帧的该感兴趣区域的压缩伪影已被移除的多个经去噪的视频帧。
76.图6解说了根据本文描述的一个或多个实施例的用于选择性地增强数字视频内容的其他示例系列动作600。如图6所示，一系列动作600可包括接收要被流传输到客户端设备的视频内容的动作610。例如，动作610可包括接收要被流传输到客户端设备的视频内容，其中视频内容包括多个非经压缩的视频帧。如图6进一步示出的，一系列动作600可包括压缩该视频内容以生成经压缩的数字视频内容的动作620。
77.如进一步示出的，一系列动作600可包括标识视频内容的感兴趣区域的信息的动作630，该感兴趣区域的信息包括对一个或多个感兴趣区域的指示。例如，动作630可包括标识该视频内容的感兴趣区域的信息，该感兴趣区域的信息包括对来自该视频内容的内容的一个或多个离散区域的指示。在一个或多个实施例中，标识该感兴趣区域的信息包括结合接收该视频内容来接收所接收到的视频内容内的经标识的重要区域。该接收到的视频内容内的该经标识的重要区域可指示一个或多个平视显示器(hud)元素，该一个或多个平视显示器(hud)元素包括作为实况视频流的图形用户界面的一部分显示的信息。
78.一系列动作600可附加地包括向该客户端设备提供该经压缩的数字视频内容的动作640。一系列动作600可进一步包括将该感兴趣区域的信息连同该经压缩的数字视频内容一起提供给该客户端设备以用于从经解码的视频帧中移除压缩伪影的动作650。动作650可包括将该感兴趣区域的信息连同该经压缩的数字视频内容一起提供给该客户端设备，以用于从来自与该感兴趣区域的信息相关联的经解码的视频帧的经标识的像素的区域中移除压缩伪影。
79.在一个或多个实施例中，标识该感兴趣区域的信息包括生成分段掩码，该分段掩
码包括对与该接收到的视频内容内的重要区域相对应的视频帧区域的标识。附加地，提供该感兴趣区域的信息可包括向该客户端设备提供该分段掩码以用于从该经解码的视频帧中选择性地移除压缩伪影。
80.在一个或多个实现中，标识该感兴趣区域的信息包括标识该经压缩的数字视频内容中与不同着色精度率相关联的部分。此外，提供该感兴趣区域的信息可包括向该客户端设备提供与该经压缩的数字视频内容的不同部分的该不同着色精度率相关联的信息以用于从该经解码的视频帧中选择性地移除伪影。
81.图7解说了可被包括在计算机系统700内的某些组件。一个或多个计算机系统700可被用于实现本文描述的各种设备、组件和系统。
82.计算机系统700包括处理器701。处理器701可以是通用单芯片或多芯片微处理器(例如，高级risc(精简指令集计算机)机器(arm))、专用微处理器(例如，数字信号处理器(dsp))、微控制器、可编程门阵列等。处理器701可被称为中央处理单元(cpu)。尽管在图7的计算机系统700中仅示出了单个处理器701，但是在替换配置中，处理器(例如，arm和dsp)的组合可被使用。
83.计算机系统700还包括与处理器701电子通信的存储器703。存储器703可以是能够存储电子信息的任何电子组件。例如，存储器703可被具体化为随机存取存储器(ram)、只读存储器(rom)、磁盘存储介质、光存储介质、ram中的闪存设备、包括在处理器中的板载存储器、可擦除可编程只读存储器(eprom)、电可擦除可编程只读存储器(eeprom)存储器、寄存器等，包括其组合。
84.指令705和数据707可被存储在存储器703中。指令705可由处理器701执行以实现本文公开的功能中的一些或全部。执行指令705可以涉及使用存储在存储器703中的数据707。本文描述的模块和组件的各种示例的任何一者都可部分地或全部地实现为存储在存储器703中并由处理器701执行的指令705。本文描述的数据的各种示例中的任何示例都可以在存储在存储器703中并在处理器701执行指令705期间使用的数据707中。
85.计算机系统700还可包括用于与其他电子设备通信的一个或多个通信接口709。通信接口709可以基于有线通信技术、无线通信技术或两者。通信接口709的一些示例包括通用串行总线(usb)、以太网适配器、根据电气和电子工程师协会(ieee)802.11无线通信协议操作的无线适配器、无线通信适配器和红外(ir)通信端口。
86.计算机系统700还可包括一个或多个输入设备711和一个或多个输出设备713。输入设备711的一些示例包括键盘、鼠标、话筒、遥控设备、按钮、操纵杆、轨迹球、触摸板和光笔。输出设备713的一些示例包括扬声器和打印机。通常包括在计算机系统700中的一种特定类型的输出设备是显示设备715。与本文公开的各实施例一起使用的显示设备715可利用任何合适的图像投影技术，诸如液晶显示器(lcd)、发光二极管(led)、气体等离子体、电致发光等。还可以提供显示控制器717，用于将存储在存储器703中的数据707转换成显示设备715上显示的文本、图形和/或运动图像(视情况而定)。
87.计算机系统700的各种组件可由一个或多个总线耦合在一起，该总线可以包括电源总线、控制信号总线、状态信号总线、数据总线等。为了清楚起见，各种总线在图7中被例示为总线系统719。
88.除非特别描述为以特定方式实现，否则本文描述的技术可以以硬件、软件、固件或
其任意组合来实现。被描述为模块、组件等的任何特征也可以在集成逻辑设备中一起实现，或者单独地实现为分立但可互操作的逻辑设备。如果以软件实现，则所述技术可至少部分地由包括指令的非瞬态处理器可读存储介质来实现，该指令在由至少一个处理器执行时执行本文描述的一种或多种方法。指令可以被组织为例程、程序、对象、组件、数据结构等，其可执行特定任务和/或实现特定数据类型，并且其可以在各种实施例中根据需要进行组合或分布。
89.本文描述的这些方法的步骤和/或动作可以彼此互换而不会背离权利要求的范围。换言之，除非所描述的方法的正确操作要求步骤或动作的特定次序，否则具体步骤和/或动作的次序和/或使用可以改动而不会背离权利要求的范围。
90.术语“确定”包括各种各样的动作，因此，“确定”可包括演算、计算、处理、推导、研究、查找(例如，在表、数据库或另一数据结构中查找)、查明、及类似动作。而且，“确定”可包括接收(例如接收信息)、访问(例如访问存储器中的数据)、及类似动作。同样，“确定”还可包括解析、选择、选取、建立、及类似动作。
91.术语“包括”、“包含”、以及“具有”旨在是包含性的，并表示除所列出的元素以外可以有附加的元素。附加地，将理解，对本公开的“一个实施例”或“一实施例”的引用不旨在被解释为排除也纳入所述特征的附加实施例的存在。例如，在兼容的情况下，关于本文的实施例描述的任何元素或特征可与本文描述的任何其他实施例的任何元素或特征相组合。
92.本公开可以以其他具体形式来体现，而不背离其精神或特性。所描述的实施例被认为是说明性的而非限制性的。从而，本发明的范围由所附权利要求书而非前述描述指示。落入权利要求书的等效方案的含义和范围内的改变应被权利要求书的范围所涵盖。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：D
技术所有人：微软技术许可有限责任公司
我是此专利的发明人

上一篇：一种电机线路板安装固定支撑结构的制作方法
上一篇：一种基于阻抗坐标变换的热障涂层粘结层厚度测量方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。