使用可分级视频编码(svc)的用于快速信道改变的实时传输协议(rtp)打包方法

文档序号：7735476阅读：396来源：国知局

专利名称：使用可分级视频编码(svc)的用于快速信道改变的实时传输协议(rtp)打包方法
使用可分级视频编码的用于快速信道改变的实时传输协议(RTP)打包方法相关申请的交叉引用本申请要求于2008年7月16日提交的美国临时申请No. 61/081，056以及于2008 年7月沈日提交的美国临时申请No. 61/083，909的优先权。
背景技术：
本发明一般地涉及通信系统，例如，诸如陆地广播、蜂窝、无线保真(Wi-Fi)、卫星等等之类的有线和无线系统。当压缩的视频比特流被递送通过诸如无线网络之类的容易出错的通信信道时，比特流的某些部分可能被损坏或丢失。当这样的错误比特流到达接收机并且被视频解码器解码时，回放质量可能受到严重影响。源容错编码(source error resiliency coding)是用于解决此问题的一种技术。在视频广播/多播系统中，一个压缩的视频比特流通常在常常被称为会话的指定时间段被同时递送到一群用户。由于视频编码的预测本质，对比特流的随机接入仅在比特流内的某些随机接入点(random access point)处可进行，因此正确解码仅能够从这些随机接入点开始进行。因为随机接入点一般具有较低的压缩效率，所以在比特流中仅存在有限数目的这样的点。结果，当用户将其接收机调谐到某信道并加入会话时，他必须等待所接收的比特流中的下一个可用随机接入点来开始正确解码，这导致视频内容回放中的延迟。这样的延迟被称为调入(time-in)延迟，并且其是影响系统用户体验的一个重要因素。在视频递送系统中，若干压缩的视频比特流常常被递送到共享共同的发送介质的端用户，在此，每个视频比特流与一个节目信道相对应。与前面的情况类似，当用户从一个信道切换到另一个信道时，他必须等待从信道所接收的比特流中的下一个可用随机接入点来开始正确解码。这样的延迟被称为信道改变延迟，并且其是影响这样的系统中的用户体验的另一个重要因素。从视频编码的观点看，插入的随机接入点的一个优点在于提高了压缩的视频比特流的容错性。例如，被插入比特流的随机接入点定期重置解码器并完全停止错误传播，这提高了比特流相对于错误的鲁棒性。例如，考虑H. 264/AVC视频压缩标准(例如，参见ITU-TRecommendation H. 264 "Advanced video coding for generic audiovisual services", IS0/IEC 14496-10(2005) "Information Technology-Coding ofaudio-visual objects Part 10: Advanced Video Coding，，)，可以通过包括 IDR(instantaneous decoder refresh,艮口时角军码刷新)片(slice)、帧内编码的宏块(MB)和SI(切换I)片在内的编码方法来实现随机接入点(也被称为切换使能点)。关于IDR片，IDR片只包含帧内编码的MB，其不依赖于任何在先的片来进行正确解码。IDR片还重置解码器处的解码图像缓冲器，从而使得对接下来的片的解码独立于此IDR 片之前的任何片。因为在IDR片后即可进行正确解码，所以其也被称为即时随机接入点。相对地，逐步随机接入操作可以基于帧内编码的MB来实现。对于多个连贯的预测图像，帧内编码的MB有规律地被编码，从而使得在这些图像被解码后，接下来的图像中的每个MB具有在这些图像中的一个图像中的帧内编码且协同定位(co-locate)的对应物。因此，这样的图像的解码不依赖于在此组图像之前的任何其它片。类似地，SI片通过将此种类型的特殊编码的片嵌入到比特流中来实现不同比特流之间的切换。遗憾的是，在HJ64/AVC中，IDR 片或SI片的共同缺点在于编码效率的损失，因为它们通常比其它类型的压缩图像要大。通常，嵌入切换点需要以非常大的比特率开销为代价。类似地，随机接入点也被用在可分级视频编码(Salable VideoCoding, SVC)中。在SVC中，依赖性表示(cbpendency representation)可以包括若干层表示，并且接入单元包括与一个帧编号相对应的所有依赖性表示(例如，参见Y-K. Wang，Μ. Hannuksela, S.Pateux, A.Eleftheriadis 禾口 S. Wenger 的"System and transport interface of SVC，，，IEEE Trans. Circuits and Systems for Video Technology, vol. 17, no. 9, Sept 2007，pp.1149—1163 ；以及 H. Schwarz, D· Marpe 禾口 Τ· Wiegand 的"Overview of the scalablevideo coding extension of the H. 264/AVC standard，，，IEEE Trans. Circuitsand Systems for Video Technology, vol. 17,no. 9,Sept 2007,pp.1103-1120)。SVC嵌入接入点的常见方法是整个地使用IDR片来编码接入单元。具体地，当较高层表示(具有较大的依赖性_id值的层表示)在IDR图像中被编码时，所有的(一个或多个)较低层表示(具有(一个或多个)较小依赖性_id值的(一个或多个)层表示)也在 (一个或多个)IDR图像中被编码。这是因为，当较低层表示在IDR图像中被编码时，较高层表示在其本身在IDR图像中被编码时可以潜在地利用更好的层间预测。一个示例在图1 中被示出。图1的SVC编码信号具有两个依赖性表示，并且每个依赖性表示具有一个层表示。具体地，基本层与D = O相关联，并且增强层与D = 1相关联(在本领域中“D”的值也被称为“依赖性」(1”)。图1示出了九个接入单元，它们出现在SVC信号的帧中。如由虚框 10所示，接入单元1包括用于第一层(D= 1)的IDR片以及用于基本层(D = O)的IDR片。接下来的接入单元，包括两个预测(P)片。从图1可以看出，接入单元1、5和9仅包括IDR 片。如此，随机接入可以发生在这些接入单元处。然而，与H.264/AVC的情况一样，以IDR 片编码的每个接入单元减小了 SVC编码效率，因为IDR片通常大于其它类型的压缩图像。

发明内容
我们已经注意到，当可分级视频编码(SVC)被用于支持快速信道改变时，所生成的比特流包括用于信道改变的基本层和用作常规视频流的一个或多个增强层。因为基本层和增强层被绑定到相同的信道并且被期望在信道改变时段期间一起使用，所以使用实时传输协议(RTP)传输这样的SVC比特流要求与普通SVC比特流的传输不同的考虑。因此，根据本发明的原理，一种用于发送视频信号的方法包括选择可分级视频编码(SVC)信号的第一可分级层作为信道改变层；第一可分级层具有相关联的依赖性」d值，此依赖性_id值小于所述可分级视频编码信号的第二可分级层的相关联的依赖性_id值；以及以使用实时传输协议(RTP)的分组形式发送所述可分级视频编码信号，从而使得非随机接入点片在简单时间聚合分组(Simple Time Aggregation Packets, STAP)中被传送，每个简单时间聚合分组包括有效载荷内容可分级性信息(PayloadContent ScalabilityInformation,PACSI)网络抽取层(Network Abstractlayer,NAL)单元。结果,本发明以供了一种实用的RTP打包方法，该方法对于使用SVC的快速信道改变能够提高发送效率和体验质量(QoE)，同时对用于执行媒体意识流选择的媒体意识网络元件(Media AwareNetwork Elements) (ΜΑΝΕ)施加最小的影响。在本发明的说明性实施例中，SVC信号包括基本层和增强层，并且基本层被选择为比增强层具有更多的随机接入点，例如，IDR片SVC信号的发送是以使用RTP的分组形式发生的，从而使得非随机接入点片在STAP中被传送，每个STAP分组包括PACSI NAL单元。 PACSI NAL单元包括三比特依赖性_id “DID”字段，该字段被设定为STAP分组的有效载荷中的所有余下的NAL单元的DID值中的最低值。另外，PACSI NAL单元包括二比特预留比特(RR)字段，该字段被设定为STAP分组的有效载荷中的所有余下的NAL单元的DID值中的最高值。因此，通过比较“DID”字段值与“RR”字段值，可以快速地判断是否STAP分组中的所有NAL单元属于相同层或者是否STAP分组中的NAL单元涉及不同层。在本发明的另一说明性实施例中，SVC编码器提供了包括基本层和增强层的SVC 信号，并且基本层被选择为比增强层具有更多的随机接入点，例如，IDR片，并且其中，SVC 编码器根据编码效率来决定是否在增强层具有IDR片的那些接入点中基本层具有非IDR 片。SVC信号的发送是以使用RTP的分组形式发生的，从而使得非随机接入点片在STAP中被传送，每个STAP分组包括PACSI NAL单元。PACSI NAL单元包括三比特依赖性_id“DID”字段，该字段被设定为STAP分组的有效载荷中的所有余下的NAL单元的DID值中的最低值。另外，PACSI NAL单元包括二比特预留比特(RR)字段，该字段被设定为STAP分组的有效载荷中的所有余下的NAL单元的DID值中的最高值。因此，通过比较“DID”字段值与“RR”字段值，可以快速地判断是否STAP分组中的所有NAL单元属于相同层或者是否STAP分组中的NAL单元涉及不同层。在考虑以上内容的情况下，并且如通过阅读详细描述将清楚的，其它实施例和特征也是可能的并且落在本发明的原理的范围内。

图1示出具有即时解码刷新(IDR)片的现有技术可分级视频编码(SVC)信号；图2示出用于在SVC编码中使用的说明性流程图；图3示出说明性SVC信号；图4示出用于在根据本发明的原理的SVC编码中使用的说明性流程图；图5示出根据本发明的原理的设备的说明性实施例；图6示出根据本发明的原理的说明性SVC信号；图7示出用于在根据本发明的原理的SVC编码中使用的另一说明性流程图；图8示出根据本发明的原理的设备的另一说明性实施例；图9示出根据本发明的原理的另一说明性流程图；图10示出根据本发明的原理的经过修改的PACSI NAL单元；以及图11和图12在MANE的背景下示出本发明的原理。
具体实施例方式在发明性概念以外，在图中所示出的要素是公知的并且将不对其进行详细描述。例如，在发明性概念以外，假设对离散多音(DMT)发送(也被称为正交频分复用(OFDM)或编码正交频分复用(COFDM))是熟悉的并且在此不对其进行描述。此外，假设对电视广播、接收机和视频编码是熟悉的并且在此不对其进行描述。例如，在发明性概念以外，假设对诸如NTSC(国家电视系统委员会)、PAL(逐行倒相)、SECAM(顺序传送彩色与存储)以及ATSC (高级电视系统委员会)(ATSC)、中国数字电视系统(GB) 20600-2006和DVB-H之类的针对TV标准的当前以及所提出的建议是熟悉的。类似地，在发明性概念以外，假设了诸如八级残留边带(8-VSB)、正交幅度调制(QAM)之类的其它发送概念以及诸如射频 (RF)前端(例如，低噪声块、调谐器、下变频器等等)、解调器、相关器、泄漏积分器(leak integrator)和平方器之类的接收机部件。此外，在发明性概念以外，假设对诸如单向传输文件递送(FLUTE)协议、异步分层编码(ALC)协议、互联网协议(IP)和互联网协议封装器 (IPE)之类的协议是熟悉的，并且在此不对其进行描述。类似地，在发明性概念以外，用于生成传输比特流的格式化和编码方法(比如运动图像专家组(MPEG)-2系统标准(IS0/IEC 13818-1)以及上述的SVC)是公知的，并且不在这里描述。应当注意，发明性概念可以使用传统的编程技术来实现，这样的编程技术将不在这里描述。最后，图中的相似标号表示类似要素。如早前注意的，当接收机最初接通时或者甚至在信道改变期间或者甚至在相同的信道内正改变服务的情况下，接收机可能在能够处理任何所接收的数据之前必须额外地等待所需的初始化数据。结果，用户在能够接入服务或节目之前必须等待额外时间量。如在此描述的，术语“信道改变”、“调入”、“改变服务”是等同的，因为它们都表示向新节目的切换。在SVC中，SVC信号可以包含多个依赖性(空间)层，这里每个依赖性层可以包括 SVC信号的具有相同依赖性」(1值的一个或多个时间和/或质量可分级层。基本层(依赖性」d = 0)表示视频信号的分辨率最小的级别。其它层(依赖性」d > 0)表示视频信号的分辨率增大的层。例如，如果SVC信号包括三层，则有基本层、层1和层2。每个层与不同的依赖性」d值相关联。接收机可以仅处理(a)基本层，(b)基本层和层1，或者(C)基本层、层1和层2。例如，SVC信号可以由仅支持基本信号的分辨率的装置接收，这样，此种类型的装置可以简单地忽略所接收的SVC信号的其它两层。相反，对于支持最高分辨率的装置，此种类型的装置可以处理所接收的SVC信号的所有三层。在SVC中，IDR图像的编码是每层独立地进行的。因此，根据本发明的原理，一种用于发送视频信号的方法包括选择可分级视频编码(SVC)信号的第一可分级层作为信道改变层；第一可分级层具有相关联的依赖性」d值，此依赖性」d值小于所述可分级视频编码信号的第二可分级层的相关联的依赖性_id值；对视频信号进行可分级视频编码以提供所述可分级视频编码信号，从而使得对于所述可分级视频编码信号的至少一部分，在第一可分级层中的随机接入点和在第二可分级层中的随机接入点出现在不同的接入单元中；以及发送所述可分级视频编码信号。结果，视频编码器可以通过在压缩的视频比特流中嵌入额外的切换使能点来减小接收机中的调入延迟和信道改变延迟，并且进而减小总体比特率。在本发明的一个说明性实施例中，SVC信号包括基本层和增强层，并且基本层被选择为比增强层具有更多的随机接入点，例如，IDR片，并且在增强层具有IDR片的那些接入单元中，基本层具有非IDR片。虽然发明性概念是在两层的背景下说明的，但是发明性概念不限于此，并且可以存在多于两个的可分级层。在描述发明性概念之前，在图2中示出了在可分级视频编码器中使用的用于减小调入延迟和信道改变延迟的流程图。在步骤105中，可分级视频编码器将视频信号编码成包括基本层和至少一个其它层的SVC信号。具体地，在步骤110中，可分级视频编码器对视频信号进行编码，从而使得向所得到的SVC信号的基本层比向任何其它层更频繁地插入 IDR片。例如，可分级视频编码器对类似于现有编码模式IBBP或IPPP的编码参数作出响应，只是此编码参数在不同的空间层处指定不同的IDR间隔。最后，在步骤115中，SVC信号被发送。现在参考图3，示出了由SVC编码器执行图2的流程图的步骤而形成的说明性SVC 信号111。在本示例中，SVC信号111包括两层，即基本层(D = 0)和增强层(D = 1)。从图3可以看出，基本层在接入单元1、4、7和9中具有IDR片；而增强层仅在接入单元1和9 中具有IDR片。因此，当接收装置在如箭头301所示的时间T。改变(或者首先调谐)到传送SVC信号111的信道时，接收装置在能够开始对SVC信号111的基本层进行解码并向用户提供减小的分辨率的视频图像之前仅需要等待如箭头302表示的时间Tw。因此，接收机可以通过立即对具有较多接入点的基本层视频编码信号进行解码来减少调入延迟和信道改变延迟。从图3还可以看出，接收机在能够对增强层进行解码并且向用户提供较高的分辨率的视频图像之前需要等待如箭头303表示的时间TD。当与图1中所示的其中两层都具有相同的IDR频率的示例比较时，图2的方法提供了实现功能提高的相同集合的能力，然而在仅有限的性能损失的情况下以较低比特率来实现。这在当基本层仅占了比特流的总体比特率的一小部分时尤其突出。例如，对于通用中间格式(CIF) (372X288)分辨率作为基本层(D = 0)并且标准清晰度(SD) (720X480) 分辨率作为增强层(D= 1)，基本层仅占了总体比特率的很小的百分比(例如，约为25%)。因此，通过增大CIF分辨率处的IDR频率，比特率开销远比仅增大增强层处的IDR频率或者增大这二层处的IDR频率时小。遗憾的是，以IDR片编码的每个接入单元还是减小了 SVC 编码效率，因为IDR片通常大于其它类型的压缩图像。另外，我们已经注意到，当可分级视频编码(SVC)被用于支持快速信道改变时，所生成的比特流包括用于信道改变的基本层和用作常规视频流的一个或多个增强层。因为基本层和增强层被绑定到相同的信道并且被期望在信道改变时段期间一起使用，所以使用实时传输协议(RTP)传输这样的SVC比特流要求与普通SVC比特流的传输不同的考虑。SVC编码器的视频编码层(VCL)生成经编码的信息，此经编码的信息被存储在网络抽取层(NAL)单元中。当SVC比特流在采用实时传输协议(RTP)/用户数据报协议(UDP)/ 互联网协议(IP)协议栈的网络上被发送时，比特流中的NAL单元需要根据SVC分包被打包成实时传输协议(RTP)分组，如在IETF AVT草案:“RTP Payload Format for SVCvideo draft-ietf-avt-rtp-svc-13. txt，，中所ffi述的。上述IETF AVT草案定义了很多可用于以单会话/非交织模式发送SVC编码视频流的NAL类型。一种NAL类型是单个NAL单元(SNU)。SNU可以在RTP分组只加载一个SVC NAL单元。另一中NAL类型是简单时间聚合分组(STAP-A)。STAP-A(在此也被简称STAP 分组)可以在一个RTP分组中加载具有相同呈现时间要求(或者，等同地，属于相同接入单元)的多个SVC NAL单元，加载顺序与它们的相应解码顺序相同。又一种NAL类型是非交织多时间聚合分组(Multi-Time AggregationPacket，NI-MTAP)。MI-MTAP 可以在一个 RTP 分组中加载具有不同呈现时间要求(或者，等同的，属于不同接入单元)的多个SVC NAL单元，加载顺序与它们的相应解码顺序相同。分段单元-A(FU-A)类型被用于将过大的NAL分组分割成多个RTP分组。最后，存在有效载荷内容可分级性信息(PACSI)NAL类型。PACSI 有助于打包并且指示聚合分组的有效载荷中的所有余下的NAL单元共同的可分级性信息和其他特性。然而，直到目前为止还没有建议适用于使用SVC的快速信道改变的打包格式的标准方法或规则。在考虑以上内容的情况下，我们对现有的基于多播的快速改变解决方案进行了大量关注。首先，现有的基于多播的快速改变解决方案通常使用两个分开的RTP会话一个用于发送常规视频流，另一个用于发送信道改变流。当信道改变发生时，端用户针对这两个多播RTP会话发送IGMP加入/离开请求。然而，当SVC用于快速信道改变时，我们提出使用单个多播RTP会话，其中信道改变和常规视频流具有相同SSRC(同步源)、时间戳和序列号间隔。此方法不仅将所需的互联网协议(IP)地址的数目减半，而且还减少了在信道改变处理中需要交换的消息的数目。其他优点还可以包括，例如，简单的防火墙配置、解码顺序恢复处理中的复杂性较少，等等。另外，我们还注意到，如果MTAP打包被用在上述在图2的流程图中所示的SVC编码方法中，则第一全分辨率图像的解码可能被延迟，因为在一个RTP分组中MTAP打包可具有不同的呈现时间要求(或者，等同地，属于不同的接入单元)，延迟顺序与它们的解码顺序相同。因此，即使更多随机接入点被插入基本流中，MTAP也会增大调入延迟。相反，我们已经注意到，如果传送非IDR片总是要求STAP分包，则调入延迟可被减小。具体地，STAP分组在一个RTP分组中传送具有相同呈现时间要求(或者，等同地，属于相同接入单元)的非IDR片，传送顺序与它们的相应解码顺序相同。结果，一旦单个 STAP分组被接收到，解码就可以开始。因此，使用STAP NAL单元来打包非IDR片有助于减少调入延迟。另外，通过采用STAP来打包来自一个接入单元但是属于不同层的层表示，原来的解码顺序可以容易地被维持。我们还注意到，媒体意识网络元件(MANE)必须能够对RTP头或者有效载荷进行解析以对被封包的音频/视频内容进行反应。MANE的一个示例是媒体网关，其对IP顶部的 RTP/RTCP、NAL头执行处理，并且如果需要还可以复制或转换某类型NAL单元。因此，我们已经注意到，通过使用有效载荷/头信息来识别承载SVC编码视频流的RTP会话内的层，MANE 可以聚合多个RTP流，并且从到来的RTP分组流执行媒体意识流稀疏化(分组或部分的选择性减少)。具体地，如果经修改的PACSI NAL单元被包括在每个STAP分组中，则MANE能够在无需将NAL头进一步解析成RTP分组的情况下提取必要的信息，诸如分层信息和依赖性f曰息。因此，根据本发明的原理，一种用于发送视频信号的方法包括选择可分级视频编码(SVC)信号的第一可分级层作为信道改变层；第一可分级层具有相关联的依赖性」d值，此依赖性_id值小于所述可分级视频编码信号的第二可分级层的相关联的依赖性_id值；以及以使用实时传输协议(RTP)的分组形式发送所述可分级视频编码信号，从而使得非随机接入点片在简单时间聚合分组(STAP)中被传送，每个简单时间聚合分组包括有效载荷内容可分级性信息(PACSI)网络抽取层(NAL)单元。结果，本发明以供了一种实用的RTP 打包方法，该方法对于使用SVC的快速信道改变能够提高发送效率和体验质量(QoE)，同时对用于执行媒体意识流选择的媒体意识网络元件(MANE)施加最小的影响。在图4中示出了根据本发明的原理的说明性流程图。另外，注意力还应当暂时转到图5，图5示出了根据本发明的原理用于编码视频信号的说明性设备200。仅仅与发明性概念有关的那些部分被示出。设备200是基于处理器的系统，并且包括一个或多个处理器以及相关联的存储器，如在图5中以虚框的形式示出的处理器240和存储器245所表示的。在此背景下，计算机程序或软件被存储在存储器M5中以供处理器240执行从而例如实现 SVC编码器205。处理器240表示一个或多个由所存储程序控制的处理器，并且这些处理器不必专用于发送功能，例如，处理器240还可以控制发射机的其它功能。存储器245表示任何存储装置，例如，随机存取存储器(RAM)、只读存储器(ROM)等等；可以在发射机的内部和 /或外部；并且根据需要是易失性的和/或非易失性的。设备200包括SVC编码器205和调制器210。视频信号204被应用到SVC编码器 205。SVC编码器205根据本发明的原理对视频信号204进行编码，并且将SVC信号206提供给调制器210。调制器210提供经过调制的信号211以供经由上变频器和天线(这二者在图5中均未示出)发送。现在返回到图4，在步骤155中，图5的处理器240将视频信号204编码成包括基本层和增强层的SVC信号206。具体地，在步骤160中，处理器240控制图5的SVC编码器 205(例如，经由图5中以虚线形式所示的信号203)从而使得向SVC信号206的基本层比向增强层更频繁地插入IDR片，并且，另外，当在同一接入单元中出现两个IDR片时，基本层被以非IDR片编码。具体地，就像指定编码模式IBBP或IPPP那样，编码参数被应用到SVC编码器205，该编码参数在不同的空间层处指定不同的IDR间隔。在步骤165中，图5的调制器210以使用RTP的分组形式发送此SVC信号，从而使得非IDR片在STAP中被传送，每个 STAP包括PACSI NAL单元(下面描述)。应当注意，由于已编码的IDR图像常常占用比典型网络的MTU(最大传输单元)(例如，对于以太网而言是1500字节)多的字节，因此，IDR片很可能被打包成FU类型的RTP分组。应当注意，虽然打包功能被描述为是在调制器中执行的，但是发明性概念不限于此，并且可以在如由设备200代表的发射机的其他部分中执行。根据本发明的原理修改的说明性PASCI NAL单元结构在图10中被示出。PASCI NAL单元包括三比特依赖性_id “DID”字段(498)，该字段在图4的步骤165中被设定为 STAP分组的有效载荷中的所有余下的NAL单元的DID值中的最低值。另外，ASCI NAL单元包括二比特预留比特“RR”字段099)，根据本发明的原理，该字段在图4的步骤165中被设定为STAP分组的有效载荷中的所有余下的NAL单元的DID值中的最高值。因此，通过比较“DID”字段值与“RR”字段值，可以快速地判断是否STAP分组中的所有NAL单元属于相同层或者是否STAP分组中的NAL单元涉及不同层。因此，例如，通过检查这两个字段中的值，MANE可以总体上快速地判断是否聚合分组中的所有NAL单元属于相同层以及决定转发还是丢弃整个聚合分组。然而，在RR字段值与DD字段值不同时，这表明在STAP有效载荷中聚合了不止一个可分级层。结果，MANE需要进一步解析跟在PACSI NAL后的每个NAL单元头和NAL单元大小，以决定有效载荷的哪部分可以被转发或被丢弃。现在参考图6，示出了由SVC编码器执行图4的流程图的步骤而形成的说明性SVC信号206。在本示例中，SVC信号206包括两层，即基本层(D = O)和增强层(D = 1)。从图6可以看出，基本层在接入单元4和7中具有IDR片；而增强层在接入单元1和9中具有 IDR片。根据本发明的原理，在接入单元1和9中，基本层被以非IDR片编码。应当看出，虽然SVC编码器提供了比增强层具有更多的随机接入点的基本层(例如，在增强层的接入单元9中的IDR片出现之前，在基本层的接入单元4和7中有两个IDR片)，但是发明性概念不限于此。例如，SVC编码可以被执行以使得在信道改变层中的IDR片只是出现在与具有较高依赖性_id值的层中的IDR片不同的时间处。实际上，这可能使得例如基本层和增强层中的IDR片的数目相同。继续对图6进行说明，当接收装置在如箭头401所示的时间T。改变(或者首先调谐)到传送SVC信号206的信道时，接收装置在能够开始对SVC信号206的基本层进行解码并向用户提供减小的分辨率的视频图像之前仅需要等待如箭头402表示的时间Tw。因此，接收机可以通过立即解码具有较多接入点的基本层视频编码信号来减少调入延迟和信道改变延迟。从图6还可以看出，如果信道改变发生在如由箭头409表示的时间TF，则接收机在能够对增强层进行解码并且向用户提供较高的分辨率的视频图像之前仅需要等待如箭头403表示的时间Te。现在转到图7，示出了本发明的另一说明性实施例。图7的流程图示出这样的SVC 编码器(例如，图5的SVC编码器20 ，其提供包括基本层和增强层的SVC信号，其中基本层被选择为与增强层相比具有更多的随机接入点，例如IDR片，并且其中，SVC编码器根据编码效率来决定是否在增强层具有IDR片的那些接入单元中基本层具有非IDR片。结果，所得到的SVC编码信号可以在SVC编码信号的至少一部分中具有较低层被以非IDR片编码而较高层被以IDR片编码的接入单元，也可以不具有这样的接入单元。在步骤505中，可分级视频编码器将视频信号编码成包括基本层和至少一个其它层的SVC信号。具体地，在步骤510中，可分级视频编码器对视频信号进行编码以使得向得到的SVC信号的基本层比向任何其它层更频繁地插入IDR片。例如，可分级视频编码器对类似于现有编码模式IBBP或 IPPP的编码参数作出响应，只是此编码参数在不同的空间层处指定不同的IDR间隔。在步骤520中，SVC编码器检查所得到的编码效率，例如，检查用于将整个接入单元编码为IDR片的比特率是否高于用于将基本层编码为非IDR片并且将上部层编码为IDR片的比特率。如果此比特率并非较高，则在步骤530中SVC信号被发送。再次应当注意，IDR片很可能被打包成FU类型的RTP分组，因为编码的IDR图像需要不止MTU。然而，如果此比特率较高，则在步骤525中，在同一接入单元中出现两个IDR片的那些接入单元中，SVC编码器以非IDR 片来替换基本层，以增大编码效率，并且然后，在步骤530中SVC信号被以使用RTP的分组形式发送，从而使得非IDR片在STAP分组中被传送，每个STAP分组包括具有如前面所述适当设定的DID字段和RR字段的经修改的PACSI NAL单元。应当注意，图2、4和7的流程图表示出设备200处理较高层。例如，当视频信号的一部分被SVC编码时，SVC编码信号的部分可以同时被发送。此外，虽然在基本层和单个增强层的背景下进行了说明，但是图4和图7的流程图很容易扩展到不止一个上部层。现在参考图8，示出了根据本发明的原理的用于接收SVC信号的说明性设备。仅仅与发明性概念有关的那些部分被示出。设备350接收根据本发明的原理的传送SVC信号的信号，如由接收信号311所表示(例如，其是由图5的设备200发送的信号的接收版本)。设备350表示例如蜂窝电话、移动TV、机顶盒、数字TV(DTV)等等。设备350包括接收机355、处理器360和存储器365。如此，设备350是基于处理器的系统。接收机355表示用于调谐到传送SVC信号的信道的前端和解调器。接收机355接收信号311并且从其中恢复出信号356，信号356被处理器360处理，即，处理器360执行SVC解码。例如，根据图9 (下面描述)中所示的根据本发明的原理的用于信道切换和信道调入的流程图，处理器360经由路径366将经过解码的视频提供给存储器365。经过解码的视频被存储在存储器365中以便应用于显示器(未示出)，该显示器可以是设备350的一部分或者与设备350分离。现在转到图9，示出了用于在设备350中使用的根据本发明的原理的说明性流程图。在本示例中，所接收的SVC信号包括基本层和增强层(上部层)，其中，基本层的依赖性_id值小于增强层的依赖性_id值。当切换信道或调入到某信道时，处理器360设定对初始目标依赖性层(例如，指定的信道改变层)进行解码。在本示例中，在步骤405中这由所接收的SVC信号的基本层表示。然而，发明性概念不限于此，并且其它依赖性层可以被指定为“初始目标层”。在步骤410中，处理器360接收接入单元(本领域中也被称为所接收的SVC网络提取层(NAL)单元)，并且在步骤415中检查所接收的接入单元的上部层是否是 IDR片。如果其不是IDR片，则在步骤425中处理器360检查在所接收的接入单元中的基本层中是否是IDR片。如果在基本层中不是IDR，则处理器360返回到步骤410以接收下一接入单元。然而，如果在步骤415中，在上部层中是IDR片，则在步骤420中，处理器360将其 SVC目标表示层设定为增强层，并且当其首先从增强层(例如，正规视频流)接收到IDR图像时开始解码。返回到步骤425，如果所接收的基本层是IDR片，则在步骤430中处理器306开始对SVC基本层解码以提供视频信号，虽然是以减小的分辨率提供的。然后，在步骤435中，处理器360接收接入单元并且在步骤440中检查所接收的接入单元的上部层是否是IDR片。如果其不是IDR片，则处理器360返回步骤435以接收下一接入单元。然而，如果所接收的接入单元的上部层是IDR片，则处理器在步骤445中开始对SVC上部层进行解码，以提供较高分辨率的视频信号。换句话，图9的流程图的概要如下。当在具有比当前解码层的依赖性_id值大的依赖性_id值的依赖性层中检测到IDR片时，接收机对具有检测到的IDR片的依赖性层中的编码视频行进解码。否则，接收机继续对当前的依赖性层进行解码。如上所述，即使没有来自基本层的IDR，来自增强层的IDR也足以启动对增强层的解码。应当注意，图9的流程图表示设备350处理较高层。例如，一旦在步骤430中开始对基本层解码，处理器350就继续对基本层解码，即使处理器350还在步骤435和450中针对IDR片检查上部层。最后，虽然是在基本层和单个增强层的背景下进行说明的，但是图9 的流程图很容易扩展到不止一个上部层。如上所述，根据本发明的原理，处理RTP (经SCV编码的)分组流的接收机可以快速地判断是否所接收的STAP分组中的所有NAL单元属于相同层或者是否在STAP有效载荷中不止一个层被传送，从而执行适当的处理。这在图11和图12中被进一步被图示出，其中接收机通过MANE而被图示出，虽然本发明不局限于此。MANE 700是基于处理器的系统并且包括一个或多个处理器以及相关联的存储器，如在图11中由以虚框的形式示出的处理器740和存储器745所表示的。在此背景下，计算机程序或软件被存储在存储器745中以供处理器740执行。处理器740表示一个或多个由所存储程序控制的处理器。存储器745 表示存储器245表示任何存储装置，例如，随机存取存储器(RAM)、只读存储器(ROM)等等；可以在发射机的内部和/或外部；并且根据需要是易失性的和/或非易失性的。MANE 700 接收RTP (经SVC编码的)分组流699，根据需要执行处理，并且将RTP (经SVC编码的)分组流701提供给其他网络元件或接收装置。现在转到图12，用于在例如图11的MANE 700的接收机中使用的流程图被示出。在步骤705中，MANE 700接收RTP (经SVC编码的)分组流。在步骤710中，MANE 700将每个所接收的STAP分组的PACSI NAL单元中的DID和RR字段各自的值进行比较。如果DID 和RR字段各自的值相同，则MANE 700以分组为基础来处理所接收的STAP分组。例如，如果存在网络拥堵，则丢弃整个分组。另一方面，如果DID和RR字段各自的值不同，则MANE 700以NAL单元为基础来处理所接收的STAP分组。例如，如果存在网络拥堵，则增强层被丢弃。因此，根据本发明的原理，MANE 700通过比较DID字段和RR字段中的值而不是查看随后的聚合NAL单元本身来确定可分级信息。结果，MANE 700可以更高效地处理所接收的 RTP (经SVC编码的)流699并且在形成RTP (经SVC编码的)流701中转发、处理或丢弃封装的NAL单元。换言之，当SVC流既包括低分辨率可分级层又包括高分辨率可分级层，用于信道改变和常规流的各个NAL单元在它们的NAL头中将使用不同的DID值。当这些NAL单元被聚合成单个RTP分组时，PACSI NAL单元中的DID和RR字段将根据本发明的原理被适当设定。然而，查看DID值本身，MANE不能告知随后的NAL单元是否来自一个可分级层。因此，如果MANE仅需要转发较低分辨率的可分级层给蜂窝电话用户时，MANE必须在转发之前解析每个余下的NAL单元。然而，通过使用根据本发明的原理的PACSI NAL单元的RR字段， MANE可以快速地知道是否所接收的STAP分组的所有余下的NAL单元属于相同的可分级层，而无需解析每个余下的NAL单元，并且例如，如果STAP分组属于较低分辨率可分级层则将其转发，或者如果不是则将该STAP分组丢弃。如上所述，根据本发明的原理，当MPEG可分级视频编码(SVC)(例如，参见ITU-T Recommendation H. 264 Amendment 3 “Advancedvideo coding for generic audiovisual services Scalable Video Coding”)被用于快速信道改变时，比特流编码模式减小了总体比特率。结果，可以在不影响快速信道改变性能的情况下减小SVC压缩视频流的总体比特率。另外，根据本发明的原理，使用STAP分包的RTP打包方法提高了发送效率并且提高了总体信道改变体验质量OioE)。最后，根据本发明的原理，PACSI NAL头信息被修改以确保由MANE(媒体意识网络元件)提取SVC层的灵活性。应当注意，虽然发明性概念是在两层空间可分级SVC比特流的背景下描述的，但是发明性概念不限于此并且可应用到多个空间可分级层以及在SVC标准中指定的时间和质量PSNR(信噪比)分级。在考虑以上描述的情况下，前面仅仅例示了本发明的原理，并且因此将会理解，本领域技术人员将能够设计出许多虽然在此没有明确描述但是采用本发明的原理并且落入本发明的精神和范围内的替代布置。例如，虽然是在分离的功能性元件的背景下说明的，但是这些功能性元件可以被包含在一个或多个集成电路(IC)中。类似地，虽然被示出为分离的元件，但是这些元件中的任何元件或者所有元件可以实现在执行(例如，与在图4和图8 中所示的一个或多个步骤等相对应的)相关联的软件的由所存储程序控制的处理器(例如，数字信号处理器)中。此外，本发明的原理可应用于例如卫星、无线保真(Wi-Fi)、蜂窝等其它类型的通信系统中。实际上，发明性概念还可应用于固定的接收机或移动的接收机。因此，应当明白，在不脱离本由所附权利要求所定义的本发明的精神和范围的情况下可以对说明性实施例作出许多修改并且可以设计出其它的布置。
权利要求
1.一种用于发送视频信号的方法，包括选择可分级视频编码信号的第一可分级层作为信道改变层，所述第一可分级层具有相关联的依赖性_id值，此依赖性_id值小于所述可分级视频编码信号的第二可分级层的相关联的依赖性_id值；以及以使用实时传输协议的分组形式发送所述可分级视频编码信号，从而使得非随机接入点片在简单时间聚合分组中被传送，每个简单时间聚合分组包括有效载荷内容可分级性信息网络抽取层单元。
2.根据权利要求1所述的方法，其中，可分级视频编码步骤包括如下步骤根据编码效率来决定对所述视频信号进行编码从而使得在所述第一可分级层中的随机接入点和在所述第二可分级层中的随机接入点出现在不同的接入单元中。
3.根据权利要求1所述的方法，其中，可分级视频编码步骤在所述第一可分级层中比在所述第二可分级层中提供更多的随机接入点。
4.根据权利要求1所述的方法，其中，所述第一可分级层是所述视频编码信号的基本层。
5.根据权利要求1所述的方法，其中，所述视频编码信号包括两个以上可分级层。
6.根据权利要求1所述的方法，其中，随机接入点是即时解码刷新片。
7.根据权利要求1所述的方法，所述发送步骤包括将所述有效载荷内容可分级性信息网络抽取层单元的DID字段设定为各个简单时间聚合分组中余下的网络抽取层单元的依赖性」(1值中的最低值；并且将所述有效载荷内容可分级性信息网络抽取层单元的RR字段设定为各个简单时间聚合分组中余下的网络抽取层单元的依赖性_id值中的最高值。
8.—种用在接收机中的方法，该方法包括接收包括简单时间聚合分组的实时传输协议可分级视频编码分组流，每个简单时间聚合分组具有有效载荷内容可分级性信息网络抽取层单元；将在所接收的有效载荷内容可分级性信息网络抽取层单元的DID字段和RR字段中传送的值进行比较；如果所述DID字段和所述RR字段的值相同，则以分组为基础处理各个STAP分组；并且如果所述DID字段和所述RR字段的值不同，则处理所述各个STAP分组的各个NAL单元。
9.根据权利要求8所述的方法，其中，所述接收机是媒体意识网络元件。
10.一种设备，包括可分级视频编码器，提供包括第一可分级层和第二可分级层的视频编码信号，其中所述第一可分级层具有相关联的依赖性_id值，此依赖性_id值小于所述第二可分级层的相关联的依赖性_id值，并且其中，对于所述视频编码信号的至少一部分，在所述第一可分级层中的随机接入点和在所述第二可分级层中的随机接入点出现在不同的接入单元中；以及调制器，发送所述视频编码信号；其中，被发送的视频编码信号是以使用实施传输协议的分组形式传送的，从而使得非随机接入点片在简单时间聚合分组中被传送，每个简单时间聚合分组包括有效载荷内容可分级性信息网络抽取层单元。
11.根据权利要求10所述的设备，其中，所述可分级视频编码器根据编码效率来对视频信号进行编码从而使得在所述第一可分级层中的随机接入点和在所述第二可分级层中的随机接入点出现在不同的接入单元中。
12.根据权利要求10所述的设备，其中，所述可分级视频编码器在所述第一可分级层中比在所述第二可分级层中提供更多的随机接入点。
13.根据权利要求10所述的设备，其中，所述第一可分级层是所述视频编码信号的基本层。
14.根据权利要求10所述的设备，其中，所述视频编码信号包括两个以上可分级层。
15.根据权利要求10所述的设备，其中，随机接入点是即时解码刷新片。
16.据权利要求10所述的设备，其中所述有效载荷内容可分级性信息网络抽取层单元的DID字段被设定为各个简单时间聚合分组中余下的网络抽取层单元的依赖性」d值中的最低值；并且所述有效载荷内容可分级性信息网络抽取层单元的RR字段被设定为各个简单时间聚合分组中余下的网络抽取层单元的依赖性」(1值中的最高值。
全文摘要
一种设备对视频信号进行编码以提供包括基本层视频编码信号和增强层视频编码信号的可分级视频编码(SVC)信号，其中，基本层视频编码信号比增强层具有更多的随机接入点，例如，即时解码刷新(IDR)片，并且在增强层具有IDR片的那些接入单元中，基本层具有非IDR片。SVC的发送是以使用实时传输协议(RTP)的分组形式发生的，从而使得非随机接入点片在简单时间聚合分组(STAP)中被传送，每个简单时间聚合分组包括有效载荷内容可分级性信息(PACSI)网络抽取层(NAL)单元。
文档编号H04N7/24GK102106156SQ200980129300
公开日2011年6月22日申请日期2009年1月29日优先权日2008年7月26日
发明者刘秀屏, 吴镇宇, 约翰·强·李申请人:汤姆逊许可证公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘秀屏
技术所有人：汤姆逊许可证公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。