空间自适应视频编码的制作方法

文档序号：9308634阅读：499来源：国知局

空间自适应视频编码的制作方法
【专利说明】
【背景技术】
[0001]在现代通信系统中，视频信号可以通过诸如有线和/或无线网络(通常是诸如互联网之类的基于分组的网络)之类的介质从一个终端发送到另一个终端。例如，视频可以形成诸如VoIP呼叫(互联网协议电话)之类的实况视频呼叫的部分。
[0002]典型地，由编码器在发射终端处对视频的帧进行编码以便压缩它们以用于通过网络的传送。针对给定帧的编码可以包括帧内编码，其中各块相对于相同帧中的其他块进行编码。在该情形中，依据该块与相邻块之间的差(残差)对块进行编码。可替换地，针对一些帧的编码可以包括帧间编码，其中目标帧中的各块典型地基于运动预测相对于先前帧中的对应部分被编码。在该情形中，依据标识块与根据其而预测该块的对应部分之间的偏移量以及块与根据其而预测该块的对应部分之间的差(残差)的运动矢量对该块进行编码。接收器处的对应解码器基于适当类型的预测对所接收的视频信号的帧进行解码，以便解压缩它们以用于输出到屏幕。
[0003]尽管编码压缩了视频，但是其仍可能会在比特率方面招致不可忽略的成本，这取决于所编码的帧的大小。如果利用相对小数目的像素，即以低分辨率对帧进行编码，则一些细节可能丢失。在另一方面，如果利用相对大数目的像素，即以高分辨率对帧进行编码，则更多细节得以保留，但是以牺牲所编码的信号中的更高比特率为代价。如果信道条件将不支持该比特率，则这可能招致其他失真，例如由于分组丢失或延迟。

【发明内容】

[0004]帧可以包含具有对分辨率的不同敏感度的区域，例如前景中的面部特征以及较不重要的背景。如果以相对高的分辨率对帧进行编码，则前景中的细节可以得到保留，但是还将花费比特来对背景中不想要的细节进行编码。在另一方面，如果以相对低的分辨率对帧进行编码，则尽管将节省比特率，但是可能从前景丢失细节。
[0005]在下文中，在输入到编码器中之前，使帧在空间中扭曲，从而为感兴趣的区域给出相对于帧的其他区域而言的失真较大的大小。这样，当帧然后被编码时，相比于背景(或者更一般地，相对于一个或多个其他区域的、感兴趣的不管什么区域)，可以将较大比例的“比特预算”花费在对前景中的细节进行编码。然后在解码器侧处应用逆扭曲操作以恢复具有用于观看的期望比例的原始帧的版本。
[0006]在本文公开内容的一方面中，可以提供一种用于对包括源帧序列的视频信号进行编码的装置或计算机程序。该装置包括编码器和预处理阶段。预处理阶段被配置成确定对于多个源帧的感兴趣区域，并且空间适配多个源帧中的每一个源帧，以产生相应的扭曲的帧(warped frame )。相比源帧中的情况，在相应的扭曲的帧中，感兴趣的区域包括更高空间比例的扭曲的帧。预处理阶段被布置成将扭曲的帧供应到编码器以便编码到视频信号的编码版本中。
[0007]在另一方面中，可以提供一种用于在对编码视频信号进行解码时使用的装置或计算机程序，其被配置有后处理阶段以逆转这样的空间适配。
[0008]提供该
【发明内容】
来以简化形式介绍以下【具体实施方式】中进一步描述的概念的选择。该
【发明内容】
不旨在标识所要求保护的主题的关键特征或必要特征，也不旨在用于限制所要求保护的主题的范围。同样，所要求保护的主题也不限于解决本文所指出的任何缺点的实现方式。
【附图说明】
[0009]图1是视频流的示意性表示，
图2是通信系统的示意性框图，
图3是编码视频流的示意性表示，
图4是编码器的示意性框图，
图5是解码器的示意性框图，以及图6是空间扭曲算法的示意性图示。
【具体实施方式】
[0010]在低比特率下，可能有益的是减小视频分辨率以减小由编码所引入的失真。帧可以包含具有不同分辨率敏感度的对象，例如前景中的面部和较不重要的背景。当降低分辨率时，面部中的重要细节以及通信线索可能丢失。因此，可能有益的是，相比于背景而言，给予面部较高的分辨率。
[0011]—个选项可以是传送具有不同分辨率的两个分离的流。这在实现方式方面可能是复杂的，并且可能也不是非常高效。
[0012]根据本文公开内容的实施例，解决方案是在发送器侧处使视频帧“扭曲”，使得面部或其他感兴趣区域(ROI)伸展开，而背景被缩减。在实施例中，输出可以是适用于利用诸如H.264之类的现有编码器标准进行编码的矩形帧。扭曲的帧可以具有与源帧相同的总体分辨率，但是具有用于表示面部或其他ROI的较高比例。可替换地，整个帧可以按比例缩小，但是以应用于面部或ROI的较小缩放比例来按比例缩小。
[0013]在接收器侧处，应用逆扭曲运算以重构源视频。
[0014]由此可以实现的优点在于，利用较高分辨率对面部进行编码并且通信线索得以更好地保留。
[0015]图1给出视频信号的示意性图示，所述视频信号从相机捕获并且被分为准备由视频编码器编码以便生成编码比特流的部分。信号包括在时间上被分为多个帧(F)的移动视频图像，每一帧表示时间上的相应不同时刻(...t-1, t, t+1...)处的图像。在每一帧内，在空间上将帧分成多个部分，每一个部分表示多个像素。部分可以例如被称为块。在某些方案中，帧被分成并且细分成不同级别的部分或块。例如，每一帧可以被分成宏块(MB)并且每一个宏块可以被分成块(b)，例如每一个块表示帧内的8x8像素的区域，并且每一个宏块表示2x2块(16x16像素)的区域。在某些方案中，每一帧还可以被分成片(S)，每一片包括多个宏块。
[0016]视频信号中的块最初可以被表不在空间域中，其中每一个通道被表不为块内的空间位置的函数，例如亮度(Y)和色度(U，V)通道中的每一个是笛卡尔坐标X和y的函数:Y(X，y)、U(x, y)和V(x, y)。在该表示中，每一个块或部分由不同空间坐标(例如x和y坐标)处的像素值的集合表示，使得依据块内的特定位置处的特定值、块内的另一位置处的另一值等等来表示颜色空间的每一个通道。
[0017]然而，块可以被变换到变换域表示(典型地为空间频率域表示(有时候仅仅被称为频率域))中，作为编码过程的一部分。在频率域中，依据表示跨块的每一个颜色空间通道中的变化(例如跨块的亮度Y和两个色度U及V中的每一个中的变化)的频率分量系统来表示块。在数学上来说，在频率域中，每一个通道(亮度通道和两个色度通道等中的每一个)被表示为空间频率的函数，其在给定方向上具有I/长度的尺度。例如，这可以分别由水平和竖直方向上的波数1和1^来代表，使得通道可以分别被表达为Y(kx，ky)、U(kx，ky)和V(kx，ky)。因此，块被变换为系数的集合，其可以被视为表示构成块的不同空间频率项的幅度。用于这样的变换的可能性包括离散余弦变换(DCT)、Karhunen-Loeve变换(KLT)或者其他变换。
[0018]其中可以采用各种实施例的示例通信系统在图2的框图中示意性地图示。通信系统包括第一发射终端12和第二接收终端22。例如，每一个终端12、22可以包括以下之一，即:移动电话或智能电话、平板电脑、膝上型计算机、台式计算机、或诸如电视机、机顶盒、立体音响系统等的其他家用器具。第一和第二终端12、22各自在操作上耦合到通信网络32，并且第一发射终端12由此被布置成发射将由第二接收终端22接收的信号。当然，发射终端12还可能能够从接收终端22接收信号并且反之亦然，但是出于讨论的目的，在本文中从第一终端12的视角来描述传送，并且从第二终端22的视角来描述接收。通信网络32可以包括例如基于分组的网络(诸如广域互联网和/或

完整全部详细技术资料下载

当前第1页1 2 3 4

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：D.赵;S.尼基富罗夫;K.霍夫鲍尔;M.亨门多夫;P.卡尔松;
技术所有人：微软技术许可有限责任公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。