基于运动图像专家组－4的立体视频因特网广播系统和方法

文档序号：7606515阅读：136来源：国知局

专利名称：基于运动图像专家组－4的立体视频因特网广播系统和方法
技术领域：
本发明涉及网络(Web)广播系统和方法；并特别涉及用于基于运动图像专家组(MPEG)-4在因特网上向用户广播立体视频的系统和方法。
背景技术：
“立体视频”指通过交替地接收和输出左眼数据和右眼数据而产生的运动图像，以便给二维平面以三维的远距离和近距离效果。
随着因特网近来的发展，在教育、文化、现期期刊(current issue)等领域中，多种多样的多媒体数据被提供给因特网用户。只要他们具有被连接到因特网的客户端，因特网用户就可以在任意时间任意地点观看和/或收听他们想要的多媒体数据。
通常，因特网广播系统，其也被称作因特网广播系统，由编码服务器、流服务器和客户端形成，编码服务器用于根据预先确定的编码方法对多媒体数据进行编码，流服务器用于传输多媒体流，而客户端用于解码和输出被传输的多媒体流。
图1是示出典型的因特网广播系统的框图。如图所示，视频数据和音频数据被从例如摄影机的视频/音频输入设备10输入，并在其通过编码服务器20时被压缩。
MPEG是运动图像专家组，为建立对于运动图像编码方法的标准而形成的专家组。MPEG研究基于时间连续变化的运动图像压缩和编码数据的传输。MPEG建议了国际编码标准，并且，当前的因特网广播被根据这些标准执行的。具体来讲，MPEG-1和MPEG-2是用于压缩和存储大量多媒体数据的国际标准。
流服务器30把被编码服务器20编码的多媒体流通过因特网40传输到客户端50。然后，客户端50解码被传输的多媒体流。客户端50应该具有带有必须的编解码器(codec)的播放器以输出多媒体数据。
同时，当使用常规编码方法和目前的以太网广播系统来传输立体视频数据时，可能发生一些问题。因为左眼影像和右眼影像应该被分别编码，以便将立体视频数据通过因特网传输到客户端，所以数据量被增加超过了两倍，并且由于传输流量的负载，使得传输错误的概率变得更高。此外，存在客户端应该区分左眼影像和右眼影像，以便将它们解码并将它们在时间上彼此同步地输出的问题。如果左眼影像和右眼影像没有被交替地输出，则不能获得三维效果，只会导致观众的视觉疲劳。
因此，为了在因特网上广播立体视频数据，除了常规编码方法之外，还需要新的编码方法，以及和该编码方法一致的因特网广播系统和方法。

发明内容
因此，本发明的目的是提供一种系统和方法，用于通过根据运动图像专家组-4(MPEG-4)时域扩缩(temporal scalability，TS)的结构来编码和复用多媒体数据，以便在因特网上广播立体视频数据。
本发明的另一个目的是提供能够在因特网上广播常规的二维视频数据的因特网广播系统和方法。
依照本发明的一个方面，提供了一种用于在因特网上向客户端广播立体视频数据的系统，包括编码服务器，用于对立体视频数据、音频数据和对象描述符/场景二进制格式(Object Descriptor/Binary Format for Scene，OD/BIFS)进行编码，并将所述数据编码为具有MPEG-4结构的基本流(elementary stream，ES)，OD/BIFS是用于控制内容的信息；网络(web)服务器，用于从客户端接收二维视频显示模式、场快门(field-shuttering)视频显示模式和帧快门(frame-shuttering)视频显示模式中的任意一个；以及流服务器，用于通过根据输入网络服务器的显示模式复用ES，生成用于在因特网上实时数据传输的实时传输协议(real-time transport protocol，RTP)分组，并将该RTP分组传输到客户端。
依照本发明的一个方面，提供了一种方法，用于基于MEPG-4在因特网上向客户端广播立体视频数据，包括步骤a)接收立体视频数据、音频数据和OD/BIFS数据，并将所述数据编码为具有MPEG-4结构的ES，所述OD/BIFS数据是用于控制内容的信息；b)从客户端接收二维视频显示模式、场快门视频显示模式和帧快门视频显示模式中的任意一个；和c)通过根据输入的显示模式复用ES，生成用于在因特网上实时传输的RTP分组，并将该RTP分组传输到客户端。

从下面结合附图给出的对优选实施例的描述，本发明的上述和其他目的以及特征将变得清晰，其中图1是示出典型的因特网广播系统的框图；图2是描述依照本发明的优选实施例的因特网广播系统的框图；图3是详细地示出图2的编码服务器的框图；图4是详细地示出图3的编码器的框图；图5是示出依照本发明的优选实施例的被输入运动图像专家组-4(MPEG-4)结构的每一层的视频数据的图；图6是详细地示出图3的MPEG-4(MP4)文件生成器的框图；图7和图8是描述MP4文件的基本流(ES)的排列的图；图9是详细地示出图2的流服务器的框图；和图10是描述流服务器中的分组变换处理的图。
具体实施例方式
从下面参考附图对实施例的描述，本发明的其他目的和方面将变得清晰，描述在后面给出。在本说明书和权利要求中使用的术语和词汇不应该被理解为常规的含义和字典上的含义，根据发明人可以恰当地定义术语的概念以便最为适当地描述本发明的原理，它们应该被理解为符合本发明的技术概念的概念和含义。因此，本说明书的实施例和附图只不过是优选实施例之一，但是不代表本发明所有的技术概念。在这个方面，存在各种等效物和修改，可以代替在递交的本专利申请的说明书中示出的元素。
图2是绘出依照本发明的优选实施例的因特网广播系统的框图。如图所示，从立体摄像机或例如磁带录像机(VTR)的视频/音频输入设备100获取的多媒体数据(即，立体视频数据和音频数据)或内容控制对象描述符/场景二进制格式(OD/BIFS)数据被输入编码服务器200。然后，编码服务器200根据运动图像专家组-4(MPEG-4)对输入信号进行编码。通过在编码服务器200中对信号编码获得的基本流(ES)被传输到流服务器300。
为了对立体视频编码，本发明使用MPEG-4时域扩缩(TS)。MPEG-4 TS是一种输入的左眼影像数据被分配给基础层(base layer)并且右眼影像数据被分配给增强层(enhancement layer)的结构。被分配给基础层的左眼影像被根据常规的二维视频编码进行编码。被分配给增强层的右眼影像被参考基础层的影像编码，基础层的影像与环境层的影像重叠。
同时，网络服务器400通过反向通道(back channel)接收关于客户端600所请求的显示模式和内容的信息，并将其传输到流服务器300。流服务器300以客户端600所请求的显示模式复用内容的ES，以生成多媒体数据，例如实时传输协议(RTP)分组，并将多媒体数据通过因特网传输到客户端600。客户端600按传输的顺序解码并显示数据。为了输出多媒体数据，客户端600一定应该具有带有必须的编解码器(codec)的播放器。
图3是示出图2的编码服务器的框图。如图所示，编码服务器200包括编码器210、编码参数单元220、用于通过使用编码的ES生成MP4文件的MPEG层4(MP4)文件生成器230，和用于储存MP4文件的储存器240。
编码参数单元220提供用于对输入的立体视频编码的信息。它设置用于编码的参数，例如影像的大小、要被编码的帧数、帧速、运动检索(motionsearch)的大小、传输比特率，和初始量化系数，并将它们输入编码器210。
编码器210根据MPEG-4TS和音频编解码器对输入的立体视频数据和音频数据编码。图4中示出了编码器210的内部模块。
参考图4，编码器210包括视频用于对立体视频数据编码的视频编码模块212、基本流接口(Elementary Stream Interface，ESI)信息生成模块216、用于对音频数据编码的音频编码模块218，和用于对OD/BIFS数据编码的OD/BIFS编码模块219。
OD/BIFS编码模块219对用于描述音频和场景的场景二进制格式(binaryformat for scene，BIFS)以及用于定义媒体流之间的关系的对象描述符(objectdescriptor，OD)编码。
ESI信息生成模块216生成传输和解码ES所需的额外信息，例如ES的数据长度、空闲标志、访问单元(access unit，AU)的长度，所述额外信息被包括在同步层(synchronization layer，SL)的标头信息中。SL的标头信息稍后将被描述。
视频编码模块212还包括场分离(field separating)模块213、基础层编码模块214，和增强层编码模块215。场分离模块213将立体三维视频数据分离为左眼奇数场、左眼偶数场、右眼奇数场和右眼偶数场。基础层编码模块214对左眼奇数场编码，并且增强层编码模块215对左眼偶数场、右眼奇数场和右眼偶数场编码。
图5是示出依照本发明的优选实施例，示出由场分离模块分离的场被输入MPEG-4结构的每一层的图。如图所示，左眼奇数场被输入基础层；左眼偶数场被输入第一增强层；右眼奇数场被输入第二增强层；而右眼偶数场被输入第三增强层。
图6是示出图3的MP4文件生成器的框图。如图所示，MP4文件生成器230从编码器210接收视频/音频ES、OD/BIFS ES和ESI信息，MP4文件生成器230包括媒体数据提供模块232、元数据提供模块234和MP4文件生成模块236。
媒体数据提供模块232是用于接收视频ES、音频ES和OD/BIFS ES的缓冲器，这些数据被以逐场为基础进行编码。它将ES传输到MP4文件生成模块236。
元数据提供模块234是用于接收从编码器210传输的ESI信息，并将ESI信息作为元数据传输到MP4文件生成模块236的缓冲器。
MP4文件生成模块236将输入的ES和元数据转换为MP4文件格式。这是要生成和储存如下格式的文件它适于通过接收从编码器输出的ES以及用于该ES的额外信息，与用户所请求的显示模式一致地提取ES来传输。
MP4文件具有两个区(zone)一个是用于储存文件信息的元数据区，另一个是用于储存ES的mdata原子区(mdata Atom zone)。储存在mdata原子区中的ES被给予适当的ED标识ES ID，以区别被编码的ES。
图7是示出在用于储存媒体数据的mdata原子中的ES的排列的示例图，根据右和左、奇数和偶数场，ES被给予四个ES ID。图8是示出通过复用ES的四个场，在mdata原子中的立体视频数据的ES的排列的示例图。ES被以四个场为基础(four-field basis)输入，即左眼奇数场、右眼偶数场、左眼偶数场和右眼奇数场。一个ES ID被分配给具有相同时间信息的四个场。
通过上述处理生成的MP4文件被储存在储存器240中，并被流服务器300提取。
图9是示出图2的流服务器300的框图。如图所示，流服务器300提取储存在储存器240中的MP4文件，或者接收被编码器210编码的编码ES和ESI信息，生成符合用户的请求的实时传输协议(RTP)分组，并将其传输到客户端600。
为了生成符合用户请求的RTP分组，用户所请求的显示模式应该被输入流服务器300。因此，用户所请求的显示模式应该被从客户端600和网络服务器400输入，然后被传输到流服务器300。
在本发明的因特网广播系统中，视频数据在被划分为左眼奇数场、左眼偶数场、右眼奇数场和右眼偶数场之后被编码。因此，常规的二维视频数据、场快门三维视频数据和帧快门三维视频数据都可以被在该系统中处理。
例如，如果用户想要常规的二维视频显示，则流服务器300传输左眼奇数场和左眼偶数场的流。如果用户想要场快门三维视频显示，则提取并传输左眼奇数场和右眼偶数场的流。同样地，如果用户想要帧快门三维显示，则它传输所有四个场的流。
如果用户对显示模式的请求通过网络服务器400被输入MP4文件分析模块310，则MP4文件分析模块310从储存在储存器240的MP4文件中提取需要的AU流和ESI信息。这里，MP4文件分析模块310能够实时地从编码器210接收AU流和ESI信息。
当MP4文件分析模块310根据用户的请求提取AU流和ESI信息时，SL分组生成模块320生成具有标头和对于所提取的AU流的有效载荷(payload)的SL分组。SL分组的标头是用于每一个分组的同步信息，并且，当发生数据丢失时，它被用来检验完整性。标头包括用于控制时间同步的信息，例如时间标记(time stamp)。SL分组的有效载荷是跟在标头后面的有效信息。有效载荷包括由MP4文件分析模块310提取的AU流。
生成的SL分组被输入FlexMux分组生成模块330FlexMux，并且，FlexMux分组生成模块330通过将定义分组类型的标头添加到SL分组来生成FlexMux分组。分组类型指用于将视频数据与音频数据区分开的信息。
生成的FlexMux分组被输入RTP分组生成模块340。然后，RTP分组生成模块340生成可以被通过因特网实时地传输的RTP分组。
RTP分组是传输层的协议分组，这使得有可能在因特网上实时地传输数据。通过将包括用于实时数据传输的信息的标头添加到FlexMux分组可以生成RTP分组。
图10是描述在流服务器中的分组变换处理的图。在上面生成的RTP分组通过因特网被实时地传输到客户端600，并且，安装在客户端600上的播放器解码RTP分组并显示它。
如果分组是场快门三维视频RTP分组，则播放器可以通过以被传输的顺序输出左眼奇数场流和右眼偶数场流，而不是区别左眼奇数场流和右眼偶数场流并将它们的时间彼此同步和输出它们，产生三维距离效果。简而言之，由于被流服务器300复用的RTP分组是被根据用户所请求的显示模式按需要的场流次序进行分组的，所以客户端600能够输出立体视频数据而无需进行额外的数据处理。
本发明的因特网广播系统和方法通过对立体视频数据有效地编码，可以显著地降低数据量，从而降低了传输错误发生的概率。因此，有可能在因特网上实时地广播立体视频。
此外，根据用户所请求的显示模式，本发明的因特网广播系统不仅可以重现立体视频，也可以重现常规的二维视频。
虽然已经参考某些优选实施例描述了本发明，但是本领域熟练技术人员将清楚，在不偏离如下面的权利要求所定义的本发明的范围的情况下，可以做出各种改变和修改。
权利要求
1.一种用于在因特网上广播基于MPEG-4的立体视频数据的系统，包含编码服务器，用于将立体视频数据、音频数据和对象描述符/场景二进制格式(OD/BIFS)编码为具有运动图像专家组(MPEG)-4结构的基本流(ES)，所述OD/BIFS是用于控制内容的信息；网络服务器，从客户端接收二维视频显示模式、场快门视频显示模式和帧快门视频显示模式中的任意一个；和流服务器，用于通过根据输入网络服务器的显示模式复用ES，生成用于实时数据传输的实时传输协议(RTP)分组，并将该RTP分组传输到客户端。
2.如权利要求1所述的系统，其中，所述编码服务器包括编码单元，用于将立体视频数据、音频数据和OD/BIFS编码为具有MPEG-4时域扩缩(TS)结构的ES；编码参数单元，用于给编码单元提供具有影像大小和要被编码的帧数的编码信息；MPEG4(MP4)文件生成单元，用于通过给ES添加元数据来生成MP4文件；和储存器，用于储存MP4文件。
3.如权利要求2所述的系统，其中，所述编码单元包括OD/BIFS编码模块，用于对OD/BIFS数据编码；音频编码模块，用于对音频数据编码；视频编码模块，用于对立体视频数据编码；和基本流接口(ESI)信息生成模块，用于生成传输和解码ES所需的额外信息。
4.如权利要求3所述的系统，其中，所述视频编码模块包括场分离模块，用于将立体视频数据分离为左眼奇数场、左眼偶数场、右眼奇数场和右眼偶数场；基础层编码模块，用于对左眼奇数场编码；和增强编码模块，用于对左眼偶数场、右眼奇数场和右眼偶数场编码。
5.如权利要求4所述的系统，其中，增强编码模块将左眼偶数场分配给第一增强层，将右眼奇数场分配给第二增强层，并且将右眼偶数场分配给第三增强层，并根据MPEG-4TS结构对左眼偶数场、右眼奇数场和右眼偶数场编码。
6.如权利要求4所述的系统，其中，MP4文件生成单元通过给予ES中的一组左眼奇数场、左眼偶数场、右眼奇数场和右眼偶数场一个ES标识(ES_ID)来生成MP4文件。
7.如权利要求4所述的系统，其中，如果从网络服务器输入的显示模式是二维视频显示模式，则流服务器将左眼奇数场和左眼偶数场的ES传输到客户端；如果从网络服务器输入的显示模式是场快门显示模式，则流服务器顺序地复用左眼奇数场和右眼偶数场的ES，并将该ES传输到客户端；并且如果从网络服务器输入的显示模式是帧快门显示模式，则流服务器顺序地复用具有左眼奇数场、左眼偶数场、右眼奇数场和右眼偶数场的ES，并将该ES传输到客户端。
8.一种用于基于MPEG-4在因特网上向客户端广播立体视频数据的方法，包含步骤a)将立体视频数据、音频数据和对象描述符/场景二进制格式(OD/BIFS)编码为具有运动图像专家组(MPEG)-4结构的基本流(ES)，所述OD/BIFS是用于控制内容的信息；b)从客户端接收二维视频显示模式、场快门视频显示模式和帧快门视频显示模式中的任意一个；c)通过根据输入网络服务器的显示模式复用ES，生成用于实时数据传输的实时传输协议(RTP)分组，并将该RTP分组传输到客户端。
9.如权利要求8所述的方法，其中，步骤a)包括步骤a1)将立体视频数据编码为具有MPEG-4 TS结构的ES；a2)通过给ES添加元数据来生成MP4文件；和a3)将MP4文件储存在储存器中。
10.如权利要求9所述的方法，其中，步骤a1)包括步骤a1-1)对OD/BIFS数据编码；a1-2)对音频数据编码；a1-3)对立体视频数据编码；和a1-4)生成传输和解码ES所需的额外信息；
11.如权利要求10所述的方法，其中，步骤a1-3)包括步骤a1-3a)将立体视频数据分离为左眼奇数场、左眼偶数场、右眼奇数场和右眼偶数场；a1-3b)对左眼奇数场编码；a1-3c)对左眼偶数场、右眼奇数场和右眼偶数场编码。
12.如权利要求11所述的方法，其中，在步骤a1-3c)，左眼偶数场被分配给第一增强层；右眼奇数场被分配给第二增强层；而右眼偶数场被分配给第三增强层；并且，左眼偶数场、右眼奇数场和右眼偶数场被根据MPEG-4结构编码。
13.如权利要求11所述的方法，其中，在步骤a1-3c)，通过给予ES中的一组左眼奇数场、左眼偶数场、右眼奇数场和右眼偶数场一个ES_ID来生成MP4文件。
14.如权利要求11所述的方法，其中，在步骤c)，如果从网络服务器输入的显示模式是二维视频显示模式，则流服务器将左眼奇数场和左眼偶数场的ES传输到客户端；如果从网络服务器输入的显示模式是场快门显示模式，则流服务器顺序地复用左眼奇数场和右眼偶数场的ES，并将该ES传输到客户端；并且，如果从网络服务器输入的显示模式是帧快门显示模式，则流服务器顺序地复用具有左眼奇数场、左眼偶数场、右眼奇数场和右眼偶数场的ES，并将该ES传输到客户端。
全文摘要
提供了一种系统和方法，用于基于运动图像专家组(MPEG)－4在因特网上向用户广播的立体视频数据。该系统包括编码服务器，用于接收立体视频数据、音频数据和对象描述符/场景二进制格式(OD/BIFS)数据，并将数据编码为具有MPEG－4结构的基本流(ES)，所述OD/BIFS是用于控制内容的信息；网络服务器，用于从客户端接收二维视频显示模式、场快门视频显示模式和帧快门视频显示模式中的任意一个；以及流服务器，用于通过根据输入网络服务器的显示模式复用ES，生成用于实时数据传输的实时传输协议(RTP)分组，并将该RTP分组传输到客户端。
文档编号H04N7/173GK1802858SQ200480015863
公开日2006年7月12日申请日期2004年4月14日优先权日2003年4月17日
发明者尹国镇, 曹叔嬉, 安忠铉, 李寿寅申请人:韩国电子通信研究院

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：尹国镇;曹叔嬉;安忠铉;李寿寅
技术所有人：韩国电子通信研究院
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。