聚合媒体数据单元的向后兼容特性的制作方法

文档序号：7936741阅读：304来源：国知局

专利名称：聚合媒体数据单元的向后兼容特性的制作方法
技术领域：
本发明总体上涉及视频传输和存储。更具体地，本发明涉及提供信息来帮助单元决定应当转发或处理哪些编码数据单元。

背景技术：
该部分旨在提供在权利要求中所记载的本发明的背景或上下文。在此的描述可以包括可推行的概念，但不一定是先前已经构想或推行的概念。因此，除非在此另外指示，在该部分中所描述的内容对于本申请的说明书和权利要求书来说不是现有技术，并且也不认为被包括在该部分中便是现有技术。
也被称为H.264/AVC的高级视频编码(AVC)是由ITU-T视频编码专家组(VCEG)和ISO/IEC运动图像专家组(MPEG)的联合视频组(JVT)开发的视频编码标准。AVC包括视频编码层(VCL)和网络抽象层(NAL)的概念。VCL含有编解码器机制的信号处理功能性，诸如变换、量化、运动补偿预测，以及环路滤波器。编码图像由一个或多个片段组成。NAL将VCL所生成的每个片段封装成一个或多个NAL单元。NAL单元包括NAL单元报头和NAL单元有效载荷。NAL单元报头除其它以外还含有NAL单元类型，其指示NAL单元是否含有编码片段、编码片段数据分区、序列或图像参数设置，等等。NAL单元流仅仅是多个NAL单元的级联。根据H.264/AVC或其扩展(例如SVC)的编码比特流是NAL单元流，或者是通过将起始代码作为NAL单元流中每个NAL单元的前缀的字节流。
可扩缩的视频编码(SVC)提供了可扩缩的视频比特流。可扩缩的视频比特流含有不可扩缩的基础层以及一个或多个增强层。增强层可以增强时间分辨率(即，帧速率)、空间分辨率或由较低层或其部分所表示的视频内容的质量。在AVC的SVC扩展中，继承了VCL和NAL概念。
多视图视频编码(MVC)是AVC的另一扩展。MVC编码器采用了从多个照相机捕获的相同场景的输入视频序列(被称为不同的视图)，并且输出含有所有编码视图的单个比特流。MVC也继承了VCL和NAL概念。
实时传输协议(RTP)广泛用于诸如音频和视频这样的定时媒体的实时传输。在RTP传输中，媒体数据被封装成多个RTP分组。在IETF请求注解(RFC)3984中规定了用于AVC视频的RTP传输的RTP有效载荷格式，其可从www.rfc-editor.org/rfc/rfc3984.txt中获得，并且通过引用的方式将其内容合并于此。对于使用RTP的AVC视频传输，每个RTP分组含有一个或多个NAL单元。
IETF RFC 3984规定了若干分组化模式，其中之一是交织模式。如果正在使用交织分组化模式，那么可以将来自不止一个访问单元(access unit)的NAL单元分组化成一个RTP分组。RFC 3984还规定了解码顺序号(DON)的概念，其指示在RTP流中传送的NAL单元的解码顺序。
在SVC RTP有效载荷格式草案中，draft-wenger-avt-rtp-svc-03中的因特网草案(从http://www.tools.ietf.org/html/draft-wenger-avt-rtp-svc-03可获得)，规定了被称为有效载荷内容可扩缩性信息(PACSI)NAL单元的新的NAL单元类型。PACSI NAL单元(如果存在的话)是聚合分组中的第一个NAL单元，并且它在其它类型的分组中并不存在。PACSI NAL单元指示了在有效载荷中对于所有剩余NAL单元共有的可扩缩性特性，因而使得媒体感知网络元件(MANE)更容易决定是否转发/处理/丢弃聚合分组。发送机可以创建PACSI NAL单元。接收机可以忽略PACSI NAL单元或将它们用作使得能够进行高效聚合分组处理的暗示。当聚合分组的第一聚合单元含有PACSI NAL单元时，在同一分组中存在至少一个附加聚合单元。在聚合分组中根据剩余NAL单元来设置RTP报头字段。当在多时间聚合分组中包括PACSI NAL单元时，设置PACSI NAL单元的解码顺序号，以便指示PACSI NAL单元是在聚合分组内的NAL单元之中按照解码顺序的第一个NAL单元，或者PACSI NAL单元具有与聚合分组内的剩余NAL单元之中按照解码顺序的第一个NAL单元相同的解码顺序号。
关于应当传送和/或处理哪些NAL单元的决定通常需要用于若干不同的目的。例如，在例如多方视频会议的多点实时通信系统中，发送机可能不知道所有接收机的能力，例如，当接收机的数目很大时或者当接收机可以在不通知发送机的情况下加入多点会话时。如果可能的话，不应当根据最弱接收机的能力来限制发送机，因为这限制了可以提供给其它接收机的体验的质量。因此，如果诸如多媒体会议中的多点控制单元(MCU)这样的中间体(middlebox)可以根据接收机能力来高效地调节所转发的流，那么将是有益的。
应当做出这样的决定的另一情形涉及当在设备中或利用软件(其能够分别解码仅是流的子集，诸如H.264/AVC相容基础层，或者SVC或MVC比特流的视图)来回放文件的时候。因此，只有NAL单元的子集需要处理。媒体播放器要回放的视频数据可以具有根据文件格式容器的格式或者具有RTP流的格式。在这两种情况中的任何情况下，都期望易于访问有助于决定媒体播放器将要处理哪些NAL单元的所有信息。
被称为MPEG文档N8663的SVC文件格式草案标准支持将多个NAL单元聚合成一个聚合体NAL单元。期望这也在未来的MVC文件格式下得到支持。聚合体NAL单元既可以通过将NAL单元包括在它们之内来进行聚合(在由它们的长度所指示的大小之内)，又可以通过在它们后面的参考NAL单元来进行聚合(在由它们之内的additional_bytes(附加_字节)字段所指示的区域之内)。当由AVC文件阅读器来扫描流时，只有所包括的NAL单元被看作处在聚合体“之内”。这允许例如AVC文件阅读器跳过不需要的SVC或MVC NAL单元的整个集合。SVC NAL单元指的是这样的SVC特定NAL单元，即，AVC规范为该SVC特定NAL单元保留了NAL单元类型值。MVC NAL单元指的是这样的MVC特定NAL单元，即，AVC规范为该MVC特定NAL单元保留了NAL单元类型值。类似地，如果AVC NAL单元通过参考而被聚合，则AVC阅读器将不跳过它们，并且对于该阅读器来说它们保持处于流内(in-stream)。该聚合机制在访问用于决定媒体播放器要处理哪些NAL单元所需要的信息方面添加了复杂度。
应当做出这样的决定的又一情形涉及当接收可扩缩或多视图流的终端用户决定分别切换他或她想要解码和呈递的层或视图的时候。例如，经由会话标识协议(SIP)或实时流式协议(RTSP)来传送相应的请求。作为响应，诸如服务器或中间体这样的请求接受者应当选择被转发的层或视图。由于层间和视图间预测，可能不期望在所传送的层或视图中的即时改变，这是因为(1)所得到的流可能不是与标准相容的，因为在解码器中可能不存在一些层间和视图间参考；(2)一些所传送的数据可能是不可解码的并且因此对于接收机来说没有用；以及(3)不可解码的数据浪费信道中的比特率，并且可能造成拥塞和分组丢失并且增加传输延迟。因此，传送方应当对来自下一可能的层切换或视图切换位置的请求做出响应。
另外，要注意，冗余图像提供了一种机制，该机制用于在损坏了相应的基本编码图像时，系统从传输差错中进行恢复。然而，传输冗余图像不是必要的，如果无法正确地解码冗余图像本身，则相应的基本编码图像可被正确地解码，或者在接收机中不支持冗余图像的解码。因此，发送机或中间体在若干情况下可以省略对冗余图像或其部分的传输。第一种这样的情况涉及当没有正确地解码用于冗余图像的参考图像的时候。这可以例如从RTP/AVPF的通用NACK反馈或具有反馈的RTP音频可视简档(RTP/AVPF)的片段丢失指示反馈来推断。第二种情况是当冗余图像在到达中间体时它不是完整的时候，即，在发送机与中间体之间的信道中丢失了冗余图像的片段。这可以例如基于输入分组的RTP序列号以及丢失分组的先前和后续RTP分组的内容而在中间体中推断出来。第三种情况是当可靠通信协议用于传输的时候，当存在足够的时间用于对损坏的基本编码图像进行选择性重传的时候，或者当检测到网络状况是无损失的时候。第四种这样的情况是例如当接收机隐含地经由所支持的简档或明确地利用redundant-pic-cap MIME/SDP参数来发信号通知不支持任何冗余图像的时候。
在可以做出关于应当传送和/或处理哪些NAL单元的决定的又一情形涉及当要求比特率调整以便根据瓶颈链路的吞吐量来修整所传送的比特率(用于避免拥塞或用于调节网络或客户机缓冲器)的时候。在这种情况下，发送机或中间体应当做出关于没有传送哪些NAL单元的复杂决定。媒体感知网关或RTP混合器(例如，它可以是多点会议单元、在电路交换与分组交换视频电话之间的网关、PoC服务器、在DVB-H系统中的IP封装器，或者将广播传输在本地转发到家庭无线网络的机顶盒)的一个功能是根据主导的下行链路网络状况来控制所转发的流的比特率。所期望的是在不过度处理输入数据的情况下(即，通过简单丢弃分组或简易标识的分组部分)来控制转发数据速率。
当使用H.264/AVC和SVC RTP有效载荷格式的非交织和交织分组化模式时，在分组中所含的NAL单元的一些共有特性仅在检查每个所含NAL单元时被标识出来。该检查可能要求对NAL单元的部分解码。例如，子序列信息SEI消息应当被解码，以便找到时间级别切换点(temporal levelswitching points)，并且片段报头必须被解码以便弄清楚编码片段是否属于基本编码图像或冗余编码图像。
中间体通常应当丢弃整个图像或图像序列，从而使得所得到的流保持有效。H.264/AVC RTP有效载荷规范的交织分组化模式允许将任何访问单元的任何NAL单元实际上封装到相同的RTP有效载荷(被称为聚合分组)中。特别地，不要求将整个编码图像封装在一个RTP有效载荷中，而是可以将编码图像的NAL单元分成多个RTP分组。虽然该自由权有助于很多应用，但是它造成在中间体操作中的下列难题。首先，给定聚合分组，在解析该聚合分组中所含的每个NAL单元的报头之前，并不知道它的NAL单元属于哪些图像。因而，当应用了交织分组化模式时，应当解析每个聚合单元报头和NAL单元报头以便将它们映射到正确的图像。当出现冗余图像时，进一步要求解析成片段报头。其次，在没有出现相同访问单元的一些其它NAL单元的情况下，可能不能够标识出NAL单元的特性。例如，为了弄清楚编码片段是否是可以随机访问的访问单元的一部分，必须首先接收并解码用于该访问单元的恢复点SEI消息。
因此，需要在传输分组或文件格式聚合NAL单元中提供可易于访问的信息，基于此，网络中间体或媒体播放器可以决定将要传送和/或处理哪些编码数据单元。2007年1月11日提交并且通过引用的方式合并于此的美国专利申请No.11/622,430公开了一种用于SVC文件格式和用于RTP有效载荷格式的间接聚合体NAL单元，以指示在该间接聚合体NAL单元之后的特定NAL单元的可扩缩特性。然而，并没有考虑超出用于SVC的可扩缩性信息之外的特性，包括在传输分组中所含的编码数据单元是否是(1)冗余图像的部分；(2)时间层切换点的部分；(3)视图随机访问点的部分；(4)不作为瞬时解码刷新(IDR)图像的随机访问点的部分；以及(5)由视图标识符所标识的特定视图的图像的部分。

发明内容
本发明的各种实施例提供了一种用于传送信息的系统和方法，该信息有助于网络中间体或媒体播放器以易于访问的方式决定在RTP有效载荷或文件格式数据单元中转发或处理哪些编码数据单元。在本发明的各种实施例中，该机制可以用于提供对于诸如冗余编码图像、时间级别切换点、逐渐解码刷新访问点、视图标识符以及视图随机访问点这样的项目的指示。然后，中间体和/或接收机可以使用该信息来确定是否需要处理和/或传送特定的编码数据单元。另外，也可以提供对于诸如用于非分层单视图比特流的随机访问点这样的项目的指示以及图像类型指示。
各种实施例提供了一种用于对视频序列的编码表示进行分组化的方法、计算机程序产品和装置，其中多个数据单元被分组化成第一分组。所述多个数据单元的第一数据单元包括至少一部分编码比特流，并且所述多个数据单元的第二数据单元包括总结了编码视频的所述部分的内容的信息。第二数据单元被放置在第一分组中的所述多个数据单元的任何其它数据单元之前。
各种实施例提供了一种用于处理视频序列的分组化比特流表示的方法、计算机程序产品和装置。从第一分组中读取多个数据单元，其中所述多个数据单元的第一数据单元包括至少一部分编码比特流，并且所述多个数据单元的第二数据单元包括总结了编码视频的所述部分的内容的信息。第二数据单元被放置在第一分组中的所述多个数据单元的任何其它数据单元之前。然后，基于第二数据单元中所含的信息来处理所述多个数据单元。
当结合附图时，根据下面的详细描述，本发明的这些以及其它优点和特征连同其组织和操作的方式将变得显而易见，其中，贯穿下述若干附图，相同的元件具有相同的标记。

图1示出了用于与本发明一起使用的通用多媒体通信系统；图2是可以在本发明的实现中使用的电子设备的立体图；以及图3是图2的电子设备的设备电路的示意表示。

具体实施例方式 本发明的各种实施例提供了一种用于传送信息的系统和方法，该信息有助于网络中间体或媒体播放器以易于访问的方式决定在RTP有效载荷内或在文件格式数据单元中转发或处理哪些编码数据单元。在本发明的各种实施例中，该机制可以用于提供对于至少下列项目的指示冗余编码图像的指示。该指示可以附带有对聚合冗余编码片段进行解码所需要的参考图像的列表以及对于聚合冗余编码片段的空间覆盖范围的指示。存在这样的时间，即，在这些时间处将聚合和表征仅一个冗余编码图像的片段。
时间级别切换点的指示。从时间级别切换点开始，如果在该时间级别切换点之前仅解码了较低时间级别的图像，则解码器可以正确地解码具有相同时间级别的所有随后的编码图像。该指示可以附带有通过例如为了使得能够切换时间级别而应当被正确解码的frame_num的值所指示的参考图像的列表。注意到，通常可以在任何点降低解码/转发时间级别的数目。
逐渐解码刷新访问点的指示。如果解码器从这样的点开始解码，那么将通过很多连续图像来逐渐校正图像内容。在某些实施例中，该指示应当附带有对这样的图像或分组的计数，即，为了获得内容正确的图像，需要对该图像或分组进行解码。
视图的指示。该指示用信号通知聚合NAL单元所属的视图(例如，就视图ID而言)。
视图随机访问图像的指示。由于视图间预测，因此不可能在任意点开始对视图进行解码。该指示因此被用于用信号通知解码器可以从该位置开始解码。该指示可以附带有对这样的图像或分组的计数，即，为了获得内容正确的图像，需要对该图像或分组进行解码。在2006年10月16日提交的美国临时专利申请No.60/852,223中讨论了不同类型的视图随机访问点，并且通过引用的方式将其合并于此。
在本发明的各种实施例中，将美国专利申请No.11/622,430中所讨论的间接NAL单元聚合机制用作传送以上指示的机制。另外，该相同的聚合机制也可以同样用于其它指示。例如，该机制也可以用于非分层单视图比特流的随机访问点指示(开启和闭合的图像组(GOP))以及图像类型指示(例如，帧内图像、非参考图像)。
下面是本发明的各种实施例的一个实现，具体关于SVC和MVC的RTP有效载荷格式。在该实现中，扩展了在美国专利申请No.11/622,430中所讨论的有效载荷内容可扩缩性信息(PACSI)NAL单元，以便含有附加类型信息。PACSI NAL单元的报头保持不变。可选地，PACSI NAL单元报头可以被修改成与即将到来的MVC NAL单元报头相匹配，尤其是在即将到来的MVC NAL单元报头是SVC NAL单元报头的超集的情况下。MVC NAL单元报头的当前草案按照nal_unit_header_svc_mvc_extension语法结构在2006年10月JVT会议的草案输出中可获得(从http://ftp3.itu.ch/av-arch/jvt-site/2006_10_Hangzhou/JVT-U209.zip中可获得，并且通过引用的方式合并于此)。可选地，另外的NAL单元类型(诸如值31)可以用于指示在此所描述的信息。
下面是在联合用于SVC和MVC的示例性RTP有效载荷格式的上下文中PACSI NAL单元的例子。
PACSI NAL单元由1个字节的NAL单元报头、1个字节的内容信息(CI)报头以及长度变化的CI有效载荷组成。1个字节的NAL单元报头含有如下所规定的F、NRI和类型(Type)字段。

在PACSI NAL单元中字段的值被设置如下。如果在有效载荷中在至少一个剩余NAL单元中的F比特等于1，则F比特被设置成1。否则，F比特被设置成0。NRI字段被设置成在有效载荷中所有剩余NAL单元之中的NRI字段的最高值。类型字段被设置成30。
CI报头含有标志，以便如下指示不同类型的内容信息的出现 0 1 2 3 4 5 6 7
等于1的S比特指示出现了在draft-wenger-avt-rtp-rtp-svc-03(在www.tools.ietf.org/html/draft-wenger-avt-rtp-svc-03处可获得，并且通过引用的方式合并于此)中的因特网草案所同样指定的内容可扩缩性信息并且复制在下面
当M比特等于1时，下面的多视图内容信息出现在CI有效载荷中
R比特被保留。TL(时间级别)被设置成在RTP有效载荷中的剩余NAL单元之中TL字段的最低值。VL(视图级别)被设置成在RTP有效载荷中的剩余NAL单元之中VL字段的最低值。
A(anchor_pic_flag)被设置成在RTP有效载荷中的剩余NAL单元之中A字段的最高值。因此，等于1的A比特值指示RTP有效载荷含有与锚点图像(anchor picture)相关联的至少一个NAL单元。等于0的A比特值指示RTP有效载荷不含与锚点图像相关联的任何NAL单元。
num_views指示了随后的view_id语法元素的数目。num_views被设置成这样的值，即，该值指示在RTP有效载荷中的剩余NAL单元之中view_id的不同值的数目。
view_id的每个值指示了出现在RTP有效载荷中的剩余NAL单元之中的view_id。view_id的值不应当在CI有效载荷中重复。当前，在MVC规范中，view_id的值是10比特的无符号整数，它们被转换成用于CI有效载荷的16比特的无符号整数。
在本发明的一个实施例中，没有出现num_views字段，并且只有view_id的一个值被包括在多视图内容信息中。因此，要求RTP分组(其包括PACSINAL单元)含有仅来自一个视图的编码数据。
CI报头的R比特指示出现冗余编码图像信息。当R比特等于1时，RTP有效载荷并不含有用于基本编码图像的任何NAL单元。没有出现与R比特相对应的任何CI有效载荷。
CI报头的A比特指示出现如下的随机访问点。当A比特等于1、S比特等于0并且M比特等于0时，RTP有效载荷含有属于与恢复点SEI消息相关联的帧内图像或IDR图像的NAL单元，并且recovery_frame_cnt语法元素的值等于0。当A比特和S比特等于1时，RTP有效载荷含有属于SVC的IDR图像的NAL单元。当A比特和M比特等于1时，RTP有效载荷含有属于MVC的视图随机访问图像(IDR图像或锚点图像)的NAL单元。
CI报头的T比特指示出现时间级别切换点。当T比特等于1时，S比特或M比特也必须等于1。当T比特等于1时，在CI有效载荷中出现了下面的时间级别信息
TLT语法元素指示了在以下情况下可以切换到的时间级别从该点开始对含有等于或低于TLT的时间级别的所有分组进行解码(当在先前(至少自从按照传输顺序对于时间级别(TLT-1)的先前时间级别切换点以来)解码了时间级别(TLT-1)时)。可选地，可以包括多个TLT值，以便指示在与以上相同情况下可以切换到的多个temporal_level(时间级别)值。
保留字段的比特被保留。在CI报头中的Res字段的比特也被保留。当在CI报头中不止一个非保留比特被设置成1时，CI有效载荷语法结构按照相应比特在CI报头中出现的顺序而出现。
下面是本发明的各种实施例的另一实现，具体针对SVC的RTP有效载荷格式。在该实现中，通过如下添加不止一个八比特组(octet)来扩展在美国专利申请No.11/622,430中所讨论的有效载荷内容可扩缩性信息(PACSI)NAL单元。

如果含有目标NAL单元的所有编码图像都是锚点图像，则R字段被设置成1。否则，比特R被设置成0。目标NAL单元是包含在聚合分组中但却没有包括在PACSI NAL单元中的这样的NAL单元，它们处于在聚合分组中的PACSI NAL单元之后的第一个NAL单元所属的访问单元内。锚点图像是这样的图像，即如果从该图像开始对层进行解码，则可以正确地解码该层的(按照输出顺序)所有随后的图像。注意到，锚点图像是针对锚点图像所属的层的随机访问点。然而，如果在锚点图像处进行随机访问，则按照解码顺序在该锚点图像之后但是按照输出顺序在该锚点图像之前的一些图像可以指的是更早的图像，因此这些图像可能没有被正确地解码。
如果含有目标NAL单元的所有编码图像(如上所定义的)是时间可扩缩的层切换点，则T字段被设置成1。否则，比特T被设置成0。对于时间可扩缩的层切换点，按照解码顺序在切换点处或之后具有相同的temporal_level值的所有编码图像并非指的是按照解码顺序在切换点之前的具有相同的temporal_level值的任何编码图像。
如果含有目标NAL单元的所有编码图像(如上所定义的)是冗余图像，则D字段被设置成1。否则，D字段被设置成0。如果在含有目标NAL单元的所有编码图像(如上所定义的)之中具有最大的dependency_id(依赖_id)值的图像是帧内编码图像，即，该编码图像并非指的是在相同层中按照解码顺序的任何更早的编码图像，则I字段被设置成1。 RES字段被设置成0。
进一步地，可能并不在PACSI NAL单元中传送用于这些指示的字段，而是将它们直接添加到在RTP分组中的任何NAL单元之前的有效载荷结构中。
对于SVC和MVC文件格式，可以通过聚合体NAL单元内的附加字段来传送指示。在不同的实施例中，所建议的聚合体NAL单元的附加字段及其语义类似于在上述不同实施例中的PACSI NAL单元的语义的字段。
图1示出了与本发明一起使用的通用多媒体通信系统。如图1所示，数据源100提供按照模拟、未压缩数字或压缩数字格式或这些格式的任何组合的源信号。编码器110将源信号编码成编码媒体比特流。编码器110能够编码不止一个媒体类型，诸如音频和视频，或者可以要求不止一个编码器110来编码不同媒体类型的源信号。编码器110还可以获得合成产生的输入，诸如图形和文本，或者它能够产生合成媒体的编码比特流。在下面，考虑了仅对一种媒体类型的一个编码媒体比特流的处理，以便简化描述。然而，应当注意到，通常实时广播服务包括若干流(通常是至少一个音频、视频和文本字幕流)。还应当注意到，系统可以包括很多编码器，但在下面仅考虑了一个编码器110，以便不失一般性地简化描述。
应当理解，尽管在此含有的文本和例子可以具体地描述编码过程，然而，本领域的技术人员将很容易理解相同的概念和原理还适用于对应的解码过程，并且反之亦然。
编码媒体比特流被传送到存储器120。存储器120可以包括任何类型的大容量存储器以存储编码媒体比特流。在存储器120中的编码媒体比特流的格式可以是元素自持(elementary selfcontained)的比特流格式，或者一个或多个编码媒体比特流可以被封装到容器文件中。一些系统操作“实况(live)”，即省略存储器，并且将编码媒体比特流从编码器110直接传送到发送机130。然后，编码媒体比特流基于需要而被传送到发送机130(也被称为服务器)。在传输中使用的格式可以是元素自持的比特流格式、分组流格式，或者一个或多个编码媒体比特流可以被封装到容器文件中。编码器110、存储器120和发送机130可以驻留在相同的物理设备中，或者它们可以被包括在分离的设备中。编码器110和发送机130可以在实况的情况下操作实时内容，在这种情况下，编码媒体比特流通常并不永久被存储，而是在内容编码器110中和/或在发送机130中缓冲一小段时间，以便消除处理延迟、传送延迟和编码媒体比特率中的变化。
发送机130使用通信协议栈来发送编码媒体比特流。该栈可以包括但不限于实时传输协议(RTP)、用户数据报协议(UDP)，以及因特网协议(IP)。当通信协议栈是面向分组的时，发送机130将编码媒体比特流封装到分组中。例如，当使用RTP时，发送机130根据RTP有效载荷格式将编码媒体比特流封装到RTP分组中。通常，每个媒体类型具有专用的RTP有效载荷格式。应当再次注意到，系统可以含有不止一个发送机130，但是出于简化起见，下面的描述仅考虑了一个发送机130。
发送机130可以通过通信网络连接到网关140或可以不通过通信网络连接到网关140。网关140可以执行不同类型的功能，诸如将根据一个通信协议栈的分组流转换成另一通信协议栈、融合和叉开数据流，以及根据下行链路和/或接收机能力来操纵数据流(诸如根据主导的下行链路网络状况来控制转发流的比特率)。网关140的例子包括多点会议控制单元(MCU)、在电路交换与分组交换视频电话之间的网关、基于蜂窝的一键通(PoC)服务器、在手持数字视频广播(DVB-H)系统中的IP封装器，或者将广播传输在本地转发到家庭无线网络的机顶盒。当使用了RTP时，网关140被称为RTP混合器并且充当RTP连接的端点。
系统包括一个或多个接收机150，接收机150通常能够将传输信号接收、解调和解封装成编码媒体比特流。编解码器媒体比特流通常进一步由解码器160来处理，解码器160的输出是一个或多个未压缩的媒体流。最后，呈递器170可以利用例如扬声器或显示器来再现未压缩的媒体流。接收机150、解码器160和呈递器170可以驻留在相同的物理设备中或者它们可以被包括在分离的设备中。
应当注意，将要解码的比特流可以从位于实际上任何类型的网络内的远程设备来接收。另外，可以从本地硬件或软件接收比特流。
就比特率而言的可扩缩性、解码复杂度以及图像大小是用于异构和易于出错环境的期望属性。期望该属性以便对抗诸如与比特率、显示分辨率、网络吞吐量以及在接收设备中的计算能力有关的约束这样的限制。
本发明的通信设备可以使用各种传送技术来通信，包括但不限于码分多址(CDMA)、全球移动通信系统(GSM)、通用移动电信系统(UMTS)、时分多址(TDMA)、频分多址(FDMA)、传输控制协议/因特网协议(TCP/IP)、短消息传递服务(SMS)、多媒体消息传递服务(MMS)、电子邮件、即时消息传递服务(IMS)、蓝牙、IEEE 802.11，等等。通信设备可以使用各种介质来通信，包括但不限于无线电、红外、激光、线缆连接，等等。
图2和图3示出了在其中可以实现本发明的一个代表性电子设备50。然而，应当理解，本发明并不旨在局限于一个特定类型的设备。图2和图3的电子设备50包括外壳30、液晶显示器形式的显示器32、键板34、扩音器36、耳机38、电池40、红外端口42、天线44、根据本发明的一个实施例的UICC形式的智能卡46、读卡器48、无线电接口电路52、编解码器电路54、控制器56和存储器58。单独的电路和元件全都是本领域的公知类型，例如，在诺基亚系列的移动电话中。
在方法步骤或过程的一般上下文中描述了文中所描述的各种实施例，它们可以通过体现在计算机可读介质中的计算机程序产品在一个实施例中实现，该计算机程序产品包括在联网环境中由计算机执行的计算机可读指令，诸如程序代码。计算机可读介质可以包括可装卸和非可装卸的存储设备，包括但不限于只读存储器(ROM)、随机访问存储器(RAM)、光盘(CD)、数字多用途光盘(DVD)等。通常，程序模块可以包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等。与数据结构相关联的计算机可执行指令以及程序模块表示用于执行文中所公开的方法的步骤的程序代码的例子。这样的可执行指令或相关联的数据结构的特定序列表示用于实现在这样的步骤或过程中所描述的功能的相应动作的例子。
本发明的实施例可以以软件、硬件、应用逻辑或者软件、硬件和应用逻辑的组合来实现。软件、应用逻辑和/或硬件可以驻留在例如芯片组、移动设备、台式计算机、膝上型计算机或服务器上。各种实施例的软件和Web实现可以利用具有基于规则的逻辑和其它逻辑的标准编程技术来实现，以便完成各种数据库搜索步骤或过程、相关步骤或过程、比较步骤或过程以及判定步骤或过程。各种实施例还可以完全或部分地在网络元件或模块中实现。应当注意，如在此或在下面的权利要求书中所使用的措辞“组件”和“模块”旨在涵盖使用一行或多行软件代码的实现和/或硬件实现和/或用于接收手动输入的设备。
已经出于说明和描述的目的提供了对实施例的前述描述。前述描述并不旨在将本发明的实施例穷尽或限制成所公开的确切形式，并且鉴于以上教导，修改和变化是可能的，或者可以从各种实施例的实施中获取。选择和描述在此讨论的实施例是为了解释各种实施例的原理和性质及其实际应用，以便使得本领域技术人员能够利用在各种实施例中并且具有适于特定预期使用的各种修改的本发明。在此所描述的实施例的特征可以被组合在所有可能的方法、装置、模块、系统和计算机程序产品的组合中。
权利要求
1.一种用于对视频序列的编码表示进行分组化的方法，其包括
将多个数据单元分组化成第一分组，
其中，所述多个数据单元的第一数据单元包括至少一部分编码比特流，其中，所述多个数据单元的第二数据单元包括总结了编码视频的所述部分的内容的信息，并且其中，第二数据单元被放置在第一分组中的所述多个数据单元的任何其它数据单元之前。
2.根据权利要求1所述的方法，其中，所述第一分组包括实时传输协议分组。
3.根据权利要求1所述的方法，其进一步包括在所述第二数据单元中提供指示，其指示了所有所述多个数据单元共有的特性。
4.根据权利要求3所述的方法，其中所述指示包括在所述多个数据单元内的冗余编码图像的指示。
5.根据权利要求3所述的方法，其中所述指示包括在所述多个数据单元内的时间级别切换点的指示。
6.根据权利要求3所述的方法，其中所述指示包括在所述多个数据单元内的逐渐解码访问点的指示。
7.根据权利要求3所述的方法，其中所述指示包括所述多个数据单元所属的视图的指示。
8.根据权利要求3所述的方法，其中所述指示包括在所述多个数据单元内的视图随机访问图像的指示。
9.一种体现在计算机可读介质中的计算机程序产品，其包括用于实现权利要求1的过程的计算机代码。
10.一种装置，其包括
处理器；以及
存储器单元，所述存储器单元在通信上连接到所述处理器并且包括
用于将多个数据单元分组化成第一分组的计算机代码，
其中，所述多个数据单元的第一数据单元包括至少一部分编码比特流，其中，所述多个数据单元的第二数据单元包括总结了编码视频的所述部分的内容的信息，并且其中，第二数据单元被放置在第一分组中的所述多个数据单元的任何其它数据单元之前。
11.根据权利要求10所述的装置，其中，所述第一分组包括实时传输协议分组。
12.根据权利要求10所述的装置，其中所述存储器单元进一步包括用于在所述第二数据单元中提供指示的计算机代码，所述指示指示了所有所述多个数据单元共有的特性。
13.根据权利要求12所述的装置，其中所述指示包括在所述多个数据单元内的冗余编码图像的指示。
14.根据权利要求12所述的装置，其中所述指示包括在所述多个数据单元内的时间级别切换点的指示。
15.根据权利要求12所述的装置，其中所述指示包括在所述多个数据单元内的逐渐解码访问点的指示。
16.根据权利要求12所述的装置，其中所述指示包括所述多个数据单元所属的视图的指示。
17.根据权利要求12所述的装置，其中所述指示包括在所述多个数据单元内的视图随机访问图像的指示。
18.一种处理视频序列的分组化比特流表示的方法，其包括
从第一分组中读取多个数据单元，其中，所述多个数据单元的第一数据单元包括至少一部分编码比特流，其中，所述多个数据单元的第二数据单元包括总结了编码视频的所述部分的内容的信息，并且其中，所述第二数据单元被放置在所述第一分组中的所述多个数据单元的任何其它数据单元之前；以及
基于所述第二数据单元中所含的信息来处理所述多个数据单元。
19.根据权利要求18所述的方法，其中，所述第一分组包括实时传输协议分组。
20.根据权利要求18所述的方法，其中，所述第二数据单元包括指示了所有所述多个数据单元共有的特性的指示。
21.根据权利要求20所述的方法，其中所述指示包括在所述多个数据单元内的冗余编码图像的指示。
22.根据权利要求20所述的方法，其中所述指示包括在所述多个数据单元内的时间级别切换点的指示。
23.根据权利要求20所述的方法，其中所述指示包括在所述多个数据单元内的逐渐解码访问点的指示。
24.根据权利要求20所述的方法，其中所述指示包括所述多个数据单元所属的视图的指示。
25.根据权利要求20所述的方法，其中所述指示包括在所述多个数据单元内的视图随机访问图像的指示。
26.一种体现在计算机可读介质中的计算机程序产品，其包括用于实现权利要求18的过程的计算机代码。
27.一种装置，其包括
处理器；以及
存储器单元，所述存储器单元在通信上连接到处理器并且包括
用于从第一分组中读取多个数据单元的计算机代码，其中，所述多个数据单元的第一数据单元包括至少一部分编码比特流，其中，所述多个数据单元的第二数据单元包括总结了编码视频的所述部分的内容的信息，并且其中，所述第二数据单元被放置在所述第一分组中的所述多个数据单元的任何其它数据单元之前；以及
用于基于所述第二数据单元中所含的信息来处理所述多个数据单元的计算机代码。
28.根据权利要求27所述的装置，其中，所述第一分组包括实时传输协议分组。
29.根据权利要求27所述的装置，其中，所述第二数据单元包括指示了所有所述多个数据单元共有的特性的指示。
30.根据权利要求29所述的装置，其中所述指示包括在所述多个数据单元内的冗余编码图像的指示。
31.根据权利要求29所述的装置，其中所述指示包括在所述多个数据单元内的时间级别切换点的指示。
32.根据权利要求29所述的装置，其中所述指示包括在所述多个数据单元内的逐渐解码访问点的指示。
33.根据权利要求29所述的装置，其中所述指示包括所述多个数据单元所属的视图的指示。
34.根据权利要求29所述的装置，其中所述指示包括在所述多个数据单元内的视图随机访问图像的指示。
35.一种设备，其包括
用于将多个数据单元分组化成第一分组的装置，
其中，所述多个数据单元的第一数据单元包括至少一部分编码比特流，其中，所述多个数据单元的第二数据单元包括总结了编码视频的所述部分的内容的信息，并且其中，第二数据单元被放置在第一分组中的所述多个数据单元的任何其它数据单元之前。
36.一种设备，其包括
用于从第一分组中读取多个数据单元的装置，其中，所述多个数据单元的第一数据单元包括至少一部分编码比特流，其中，所述多个数据单元的第二数据单元包括总结了编码视频的所述部分的内容的信息，并且其中，所述第二数据单元被放置在所述第一分组中的所述多个数据单元的任何其它数据单元之前；以及
用于基于所述第二数据单元中所含的信息来处理所述多个数据单元的装置。
全文摘要
一种用于传送信息的系统和方法，该信息有助于网络中间体或媒体播放器以易于访问的方式决定将要在RTP有效载荷或文件格式数据单元内转发或处理哪些编码数据单元。该机制可以用于提供对诸如冗余编码图像、时间级别切换点、逐渐解码刷新访问点、视图标识符以及视图随机访问点这样的项目的指示。然后，中间体和/或接收机可以使用该信息来确定是否需要处理和/或传送特定的编码数据单元。
文档编号H04N7/26GK101611612SQ200880004918
公开日2009年12月23日申请日期2008年2月22日优先权日2007年2月23日
发明者M·汉努卡塞拉, Y-K·王申请人:诺基亚公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：M.汉努卡塞拉;Y-K.王
技术所有人：诺基亚公司
我是此专利的发明人

上一篇：视频控制单元的制作方法
上一篇：多速率-多波长光突发检测器的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。