在无线通信系统中的音频和视频数据的同步的制作方法

文档序号:7947474阅读:253来源:国知局
专利名称:在无线通信系统中的音频和视频数据的同步的制作方法
技术领域
本发明通常涉及通过无线通信系统传递信息,并且更具体地,涉及通过无线通信系统传输的音频和视频数据的同步。
背景技术
已经开发出用于通过多种通信网络上传输诸如音频或视频数据的多媒体或实时数据的多种技术。一种这样的技术是实时传送协议(RTP)。RTP提供了适用于通过多播或单播网络服务传输实时数据的应用的端对端网络传送功能。RTP不会进行资源预留,并且不保证实时服务的服务质量。通过控制协议(RTCP)来增加数据传送,以允许监控以可伸缩到大型多播网络的方式的数据传递,并提供最低的控制和识别功能。将RTP和RTCP设计成独立于基础的传输和网络层。协议支持RTP级别翻译器(translator)和混合器。关于RTP的进一步的细节可在以下找到“RTPA Transport Protocol for Real-TimeApplication”,H.Schulzrinne[Columbia University],S.Casner[PacketDesign],R.Frederick[Blue Coat System Inc.],V.Jacobson[PacketDesign],RFC-3550 draft standard,Internet Engineering Steering Group,July 2003.在这里结合其全部内容作为参考。
说明RTP的多个方面的实例是音频会议,其中在因特网的Internet协议(IP)上方执行RTP用于音频通信。通过分配机制,会议的始发者获得多播组地址和端口对。一个端口用于音频数据,并且另一个用于控制(RTCP)分组。该地址和端口信息被分配到预定参加者。由每个会议参加者使用的音频会议应用程序以小时间片,例如为期20ms的时间片的形式发送音频数据。每个时间片的音频数据以RTP头为报头;并且组合的RTP报头与数据封装成UDP分组。RTP报头包括关于数据的信息,例如其指示每个分组中包含哪种音频编码,诸如PCM、ADPCM或LPC,要发出RTP分组的时间的时间戳(TS),可用于检测丢失/重复的分组的分组的序列号(SN)等。这允许传送者在会议期间改变使用的编码类型,例如,调节通过低带宽连接的新的时间片或响应网络堵塞的指示。
根据RTP标准,如果在RTP会议中使用音频和视频媒体,它们作为分开的会话传送。即,使用两种不同的UDP端口对和/或多播地址来为每种媒体传输分开的RTP和RTCP分组。在RTP级别,在音频和视频会话之间没有直接的耦合,除非参与两个会话的用户应该对两种在RTCP分组中使用相同的名字,从而两个会话可关联。
将音频和视频作为分开的RTP会话传输的动机是允许一些会议中的参加者仅接收一种媒体,如果他们选择的话。不管是否分开,使用在RTP/RTCP分组中对两个会话中携带的定时信息,可实现源的音频和视频的同步播放。
分组网络,与因特网类似,可能偶尔丢失或记录分组。另外,单个分组可能在它们各自的传输时间上经历不同的延迟量。为了处理这些不利因素,RTP报头包含定时信息和序列号,允许接收者重建由源建立的定时。在会话中,对于RTP分组的每个源,分别执行定时重建。
即使RTP报头包括定时信息和序列号,因为音频和视频在分开的RTP流中传递,所以在流之间存在潜在的时间偏移,被称为lip-同步和AV-同步。在接收端的应用程序必须在渲染(render)音频和视频之前对这些流进行重新同步。另外,在无线网络上传送诸如音频和视频的RTP流的应用中,分组丢失的可能性增大,从而对流进行重新同步更加困难。
因此在本领域中存在提高通过网络传送的音频和视频RTP流的同步的需求。

发明内容
这里公开的实施例通过对在例如无线或IP网络的网络上传送的诸如音频视频流的数据流进行编码,来满足上述的需求。例如,通过接收器中的应用程序,在渲染音频或视频帧的帧时段内传送整个音频帧和整个视频帧。例如,数据流同步器可包括第一解码器,该第一解码器配置成接收第一编码的数据流并输出解码的第一数据流,其中第一编码的数据流在信息时间间隔期间具有第一比特率。同步的数据也可包括第二解码器,该第二解码器配置成接收第二编码的数据流,并输出解码的第二数据流,其中第二编码的数据流在信息时间间隔期间具有第二比特率。第一缓冲器被配置成在至少一个信息时间间隔累积第一解码的数据流,并在每个时间间隔时段输出第一解码数据流的帧。第二缓冲器配置成在至少一个信息时间间隔累积第二解码的数据流,并在每个时间间隔时段输出第二解码的数据流的帧。合并器(combiner)被配置成接收第一解码的数据流的帧和第二解码的数据流的帧,输出第一和第二解码的数据流的同步帧。第一编码的数据流可以是视频数据,并且第二编码的数据流可以是音频数据。
该技术的一方面包括接收音频和视频RTP流,并将RTP视频数据的整个帧分配给占据与视频帧速率相比相同或更少的时段的通信信道分组。同样将RTP音频数据的整个帧分配给占据与音频帧速率相比相同或更少的时段的通信信道分组。视频和音频通信信道分组同时被传送。可在远程站或基站中执行RTP流的接收和分配。
另一方面是接收包括音频和视频数据的通信信道分组。解码音频和视频数据,并在与音频和视频数据的相同帧时段的时段内累积数据。在帧时段的结尾,视频帧和音频帧合并。因为音频帧和视频帧同时被传送,并且每次传输出现在帧时段内,都对音频和视频帧进行了同步。在远程站或基站执行解码和累积。


图l是根据本发明构建的通信系统的部分的示图;图2是在图1系统中,用于在无线网络上传递分组数据的示范性分组数据网络和多种空中接口选项;图3是表示用于在无线通信信道上传送分开的RTP流的常规技术的同步困难的示图;图4是表示根据本发明的用于在无线通信信道上传送分开的RTP流的技术的示图;图5是配置成接收通信信道分组的无线音频/视频接收器的部分的框图;图6是配置成传送通信信道分组的无线音频/视频发射器的部分的框图;图7是在无限通信连接上传送独立的RTP流的流程图;图8是在无线通信信道上接收音频和视频数据的流程图;图9是根据本发明的示例性实施例构建的无线通信装置或移动台(MS)的无线通信装置的框图。
具体实施例方式
这里使用的词“示例性”是指“作为实例、范例或例子。”这里作为“示例性”描述的任何实施例不是必须构建的优于或有利于其它实施例。
这里使用的词“流”是指在会话式、单播和广播应用中,诸如音频、语音或视频信息的本质上连续的多媒体数据通过专用和共享信道的实时传送。这里使用的术语“多媒体帧”,对于视频是指解码后可在显示装置上显示/渲染的视频帧。视频帧可进一步分成独立的可解码的单元。在视频用语中,这些被称为“片(slice)”。在音频和语音的情况下,这里使用的术语“多媒体帧”是指在时间窗上的信息,其中在时间窗中压缩语音或音频,用于传送或在接收器上解码。这里使用的术语“信息单元时间间隔”表示上述的多媒体帧的持续时间。例如,在视频的情况下,在每秒10帧的视频的情况下,信息单元时间间隔是100毫秒。此外,作为实例,在语音的情况下,在cdma2000、GSM和WCDMA中信息单元时间间隔通常是20毫秒。从该描述,显然通常音频/语音帧没有进一步分成独立地可解码单元,并且通常视频帧进一步分成可独立可解码的片。当术语“多媒体帧”、“信息单元时间间隔”等指视频、音频和语音的多媒体数据时,很明显是来自于上下文。
描述了用于对在一组恒定比特率通信信道上传送的RTP流进行同步的技术。该技术包括在RTP流中传送成数据分组的分块(partitioning)信息单元,其中将数据分组的大小选择成与通信信道的物理层数据分组大小匹配。例如,彼此同步的音频和视频数据可编码。可约束编码器,使得编码器将数据编码成与通信信道的可用的物理层分组大小匹配的大小。因为同时或连续传送RTP流,所以将数据分组大小约束成与一个或多于一个的可用物理层分组大小匹配,以支持传输被同步的多个RTP流,但是在时间帧中,音频和视频分组需要同步地被渲染。例如,如果传送音频和视频RTP流,并且约束数据分组,使得它们的大小与可用的物理层分组匹配,则音频和视频数据在显示时间内被传送并且被同步。当表示RTP流所需的数据量改变时,通过选择如在上文中专利的共同未决申请的参考中列出的共同未决申请中描述的不同的物理层分组大小,而改变通信信道容量。
诸如RTP流的信息单元的实例,包括可变比特率的数据流、多媒体数据、视频数据和音频数据。可以恒定重复率出现信息单元。例如,信息单元可以是音频/视频数据的帧。
已经建立了不同的国内和国际标准,以支持多种空中接口,包括,例如高级移动电话业务(AMPS)、全球移动通信系统(GSM)、通用分组无线业务(GPRS)、增强型数据GSM环境(EDGE)、临时标准95(IS-95)以及其派生,IS-95A、IS-95B、ANSI J-STD-008(这里通常集体称为IS-95)、和新兴的高数据速率系统,诸如cdma2000、通用移动电信系统(UMTS)、宽带CDMA、WCDMA及其其它。这些标准由美国电信工业协会(TIA)、第三代合作伙伴计划(3GPP)、欧洲电信标准协会(ETSI)以及其它知名标准机构公布。
图1表示根据本发明构建的通信系统100。通信系统100包括基础设施101、多个无线通信装置(WCD)104和105、以及陆地通信装置122和124。WCD也称为移动台(MS)或移动装置。通常,WCD可以是移动的或固定的。陆地通信装置122和124可包括,例如服务节点或内容服务器,其提供多种多媒体数据,诸如流多媒体数据。另外,MS可以传送流数据,诸如多媒体数据。
基础设施101也可包括其它部件,诸如基站102、基站控制器106、移动交换中心108、交换网络120等。在一个实施例中,基站102与基站控制器106集成在一起,并且在其它实施例中,基站102和基站控制器106是分开的部件。可使用不同种类的交换网络120,以在例如IP网络或公共交换电话网(PSTN)的通信网络100中对信号进行路由。
术语“前向链路”或“下行链路”是指从基础设施101至MS的信号路径,并且术语“反向链路”或“上行链路”是指从MS至基础设施的信号路径。如图1所示,MS 104和105在前向链路上接收信号132和136,并在反向链路上传送信号134和138。通常,从MS 104和105传送的信号打算被诸如另一移动单元或陆地通信装置122和124的另一通信装置接收,并且通过交换网络120被路由。例如,如果从发起的WCD 104传送的信号134打算被目的地MS 105接收,信号通过基础设施101被路由,并且信号136在前向链路上被传送到目的MS105。同样,由基础设施101发起的信号可广播至MS 105。例如,内容供应商可将诸如流多媒体数据的多媒体数据传送到MS 105。通常,诸如MS或陆地通信装置的通信装置可以是信号的发起者和目的地。
MS 104的实例包括蜂窝电话、能进行无线通信的个人计算机、和个人数字助理(PDA)以及其它无线装置。可将通信系统100设计成支持一种或多种无线标准。例如,这些标准可能包括称为全球移动通信系统(GSM)、通用分组无线业务(GPRS)、增强型数据GSM环境(EDGE)、TIA/EIA-95-B(IS-95)、TIA/EIA-98-C(IS-98)、IS2000、HRPD、cdma2000、宽带CDMA(WCDMA)以及其它。
图2是表示用于在无线网络上传递分组数据的示范性分组数据网络和多种空中接口选项。可在诸如图2中所示的分组交换数据网络的分组交换数据网路200中实现所描述的技术。如图2的实例中所示,分组交换数据网络系统可包括无线信道202、多个接收节点或MS 204、发送节点或内容服务器206、服务节点208、和控制器210。发送节点206可经由诸如因特网的网络212耦合到服务节点208。
服务节点208可包括,例如分组数据服务节点(PDSN)或服务GPRS支持节点(SGSN)或网关GPRS支持节点(GGSN)。服务节点208可从发送节点206接收分组数据,并且将信息分组提供到控制器210。控制器210可包括,例如基站控制器/分组控制功能(BSC/PCF)或无线网络控制器(RNC)。在一个实施例中,控制器210通过无线接入网(RAN)与服务节点208通信。控制器210与服务节点208通信,并在无线信道202上将信息的分组传送到诸如MS的至少一个接收节点204。
在一个实施例中,服务节点208或发送节点206或两者也可包括用于对数据流进行编码的编码器,或对数据流进行解码的解码器,或者两者都包括。例如编码器可对音频/视频流进行编码,从而生成数据帧,并且解码器可接收数据帧并对它们进行解码。同样,MS可包括用于对数据流进行编码的编码器,或对接收的数据流进行解码的解码器,或者两者都包括。术语“编解码器”用于描述编码器和解码器的结合。
在图2中所示的一个实例中,可将将诸如多媒体数据的数据从连接到网络或因特网212的发送节点206经由服务节点或分组数据服务节点(PDSN)208和控制器或基站控制器/分组控制功能(BSC/PCF)210,而发送到接收节点或MS 204。MS 204和BSC/PCF 210之间的无线信道202接口是空中接口,并且通常可使用用于发送信令和承载或净荷、数据的许多信道。
空中接口202可根据任何数量的无线标准运作。例如,这些标准可包括基于TDMA的标准,诸如全球移动通信系统(GSM)、通用分组无线业务(GPRS)、增强型数据GSM环境(EDGE),或基于CDMA的标准,诸如TIA/EIA-95-B(IS-95)、TIA/EIA-98-C(IS-98)、IS2000、HRPD、cdma2000、宽带CDMA(WCDMA)以及其它。
图3表示用于在无线通信信道上传送分开的RTP流的常规技术的同步困难的示图。在图3所示的实例中,将视频和音频数据编码成RTP流,并接着分配给通信信道分组。图3表示视频帧302的流。通常,视频帧以恒定的速率出现。例如,可以以10Hz速率出现视频帧,即每100毫秒出现新帧。
如图3中所示,单个视频帧可包含不同量的数据,如表示每个帧的条的高度所示。例如,如果将视频数据编码成活动图像专家组(MPEG)数据,则视频流由内帧(I帧)和预测帧(P帧)组成。I帧是独立(self-contained)的,即其包括渲染或显示需要的全部信息,是视频的一个完整帧。P帧不是独立的,并且通常包含与先前帧的差别信息,诸如运动向量和不同的文字信息。通常,取决于内容和编码设置,I帧可以比P帧大高达8至10倍。即使视频帧可具有不同的数据量,它们仍以不变的速率出现。可将I和P帧进一步分成多个视频片(video slice)。视频片表示显示屏中更小的区域,并且可通过解码器单独解码。
在图3中,视频帧N和N+4可代表I帧,并且视频帧N+1、N+2、N+3和N+5可代表P帧。如图所示,I帧包括比P帧更大的数据量,这由表示帧的条的高度表示。接着将视频帧分组成在RTP流304中的分组。如图3所示,与视频I帧N和N+4相对应的RTP分组N和N+4比与视频P帧N+1、N+2和N+3相对应的RTP分组N+1、N+2和N+3更大,如它们的宽度所示。
将视频RTP分组分配给通信信道分组306。在诸如CDMA、或GSM的常规通信信道中,通信信道数据分组306是恒定大小的,并且以恒定速率传送。例如,可以以50Hz的速率传送通信信道数据分组306,即,每20毫秒传送新的数据分组。因为通信信道分组是恒定大小,所以需要更多的通信信道分组来传送更大的RTP分组。从而,需要比传送与P视频帧N+1、N+2和N+3相对应的小的RTP分组所需的通信信道分组更多的通信信道分组306,来传送与I视频帧N和N+4相对应的RTP分组。在图3所示的实例中,视频帧N占据九个通信信道分组306的块308。视频帧N+1、N+2和N+3分别占据块310、312和314,每个块具有四个通信信道分组306。视频帧N+4占据九个通信信道分组306的块316。
对于每帧视频数据,存在相应的音频数据。图3示出了音频帧320的流。每个音频帧N、N+1、N+2、N+3、N+4和N+5与以10Hz速率出现的各视频帧相对应,即每100毫秒开始新的音频帧。通常,音频帧较简单,从而与相关的视频数据相比,它由更少的比特来表示,并且通常被编码,使得RTP分组322是在帧的时段内能通过通信信道传送的大小。此外,在CDMA、GSM、WCDMA等中每20毫秒生成典型的音频帧。在这样的情况下,多个音频帧被打包(bundle)在一起,从而音频和视频分组表示RTP分组的相同持续时间。例如,RTP分组N、N+1、N+2、N+3、N+4和N+5是这样的大小,即使得每个RTP分组能被分配到通信信道分组324,使得每个RTP分组可在100毫秒的帧时段内通过通信信道被传送。
如图3中所示,音频帧分组N、N+1、N+2、N+3、N+4和N+5各分别占据块326、328、330、332、334和336,每个块具有五个通信信道分组324。
将视频帧和音频帧分配到各通信信道分组的比较显示出在音频和视频帧之间失去了同步。在图3所示的实例中,需要九个通信信道分组306的块308来传送视频帧N。与视频帧N相关的音频帧N以五个通信信道分组324的块326来传送。因为通信信道分组中的视频和音频同时被传送,在传送视频帧N的传输时段,又传送了音频帧N+1的块328中的五个通信信道分组中的四个。
例如,在图3中,如果与音频相关的视频帧速率是10Hz,并且通信信道分组速率是50Hz,则在帧N的100毫秒期间,传送了全部的音频数据,而仅传送了部分的视频数据。在该实例中,直至另一四个通信信道分组306也被传送,才传送帧N的全部视频数据,导致与完成音频帧N的100毫秒相比,完成传送视频帧N需要180毫秒。因为音频和视频RTP流是独立的,在传送视频帧N数据的时间期间,传送了音频帧N+1的数据的一部分。视频和音频流之间同步的丢失可导致在通信信道的接收器处视频和音频之间的“偏移”。
因为由于预见性编码并且也由于许多参数的可变长编码(VLC)的使用,诸如H.263、AVC/H.264、MPEG-4等的视频编码器实质上是固有可变速率的,所以在电路交换网络和分组交换网络上可变速率比特流的实时传送通常由在发送器或接收器处的具有缓冲器的流量整形(traffic shaping)完成。流量整形缓冲器引起附加的延迟,其通常是不受欢迎的。例如,在电话会议期间,当一个人说话的时间和另一个人听到语音的时间之间存在延迟,附加的延迟是令人讨厌的。
例如,因为在通信信道的接收机处以与原始视频帧速率相同的速率播放视频,通信信道中的延迟可能会在播放中引起暂停。在图3中,直到已经接收到整个帧的数据才能播放视频帧N。因为在帧时段期间没有接收到整个帧的数据,所以必须暂停播放直到接收到帧N的视频数据。另外,在接收到帧N的全部视频数据前,需要把来自音频帧N的全部数据累积起来,从而同步播放音频和视频。同样应注意当还在接收来自帧N的视频数据时,必须将被接收的来自帧N+1的音频数据累积起来,直至接收到来自帧N+1的全部视频数据。因为视频帧的大小可变,所以为实现同步需要大的流量整形缓冲器。
图4是表示根据本发明的用于通过无线通信信道传送分开的RTP流的技术的示图。与图3类似,图4表示将可变大小的视频帧302的流和音频帧320的流分别编码成独立的RTP流304和322。视频和音频帧以恒定速率出现,例如,10Hz的速率。
如在图3中,在图4中,视频帧N和N+4可表示I帧,并且视频帧N+1、N+2、N+3和N+5可表示P帧。将视频帧分组成RTP流304中的分组。如图4中所示,与视频I帧N和N+4相对应的RTP分组N和N+4比与视频P帧N+1、N+2和N+3相对应的RTP分组N+1、N+2和N+3更大,如它们的宽度所示。
将视频RTP分组分配到通信信道分组406。使用如上文中在专利的共同未决申请的参考中列出的共同未决申请中所述的技术,通信信道的容量可变。因为通信信道分组406的可变容量,可在包含五个通信信道分组406的块408中传送视频帧N。
在常规的通信信道中,诸如基于CDMA的标准,诸如TIA/EIA-95-B(IS-95)、TIA/EIA-98-C(IS-98)、IS2000、HRPD、cdma2000和宽带CDMA(WCDMA),可以以50Hz的速率传送通信信道数据分组406,即,每20毫秒传送新数据分组。因为通信信道分组406容量可变,所以可约束视频帧N的编码,从而可在帧时段期间传送整个视频帧N。如图4中所示,当传送与视频帧N相对应的RTP分组N时,通信信道分组406的容量增加,从而可在帧时段期间传送整个分组。描述的技术也可应用到基于GSM、GPRS或EDGE的通信信道。
如图4中所示,将视频帧N、N+1、N+2、N+3、N+4和N+5编码成RTP分组,并分别被分配到通信信道块408、410、412、414、416和418。同样应注意通过改变通信信道容量,在帧时段期间内传送整个视频帧。例如,如果视频帧速率是10Hz,则在100毫秒帧时段期间传送整帧的视频数据。
对于每帧视频数据302,存在相应的音频帧320。每个音频帧N、N+1、N+2、N+3、N+4和N+5与各视频帧相对应,并以10Hz的速率出现,即每100毫秒开始新的音频帧。如关于图3中的讨论,音频数据通常较不复杂,从而其与相关的视频数据相比,由较少的比特表示,并且通常被编码,使得RTP分组322的大小满足可以在100毫秒的帧时段内通过通信信道传送。即,音频RTP分组N、N+1、N+2、N+3、N+4和N+5具有这样的大小,使得每个RTP分组能分别被分配到通信信道分组的块326、328、330、332、334或336。从而,如果视频帧速率是10Hz,则每个视频帧在100毫秒的帧时段内,在通信信道上传送。与视频类似,如果音频分组尺寸大,则也可改变通信信道容量,以支持在帧时段期间整个音频帧的传输。
在图4中,将视频帧和音频帧分配到它们相应的通信信道分组之间的比较指示出视频帧和音频帧保持同步。换句话说,在每个帧时段,传送了整个视频和整个音频帧。因为在每个帧时段传送了整个视频和音频帧,所以不存在另外的缓冲的需求。仅需要在帧时段期间累积接收的视频和音频数据,并且然后可播放。因为通信信道没有引入延迟,所以视频和音频帧保持同步。
应注意,如图3中所示,视频帧N+1、N+2、N+3仅需要四个视频通信信道分组306来传送整个视频帧数据。如图4中所示,可将视频通信信道分组406的大小减少,从而使视频数据适合五个分组,或者可传送空分组。类似的,如果在音频通信信道中有可用的过剩容量,则可传送空分组。因此,将视频和音频数据进行编码,从而将音频数据和视频数据的整个帧分配给占用相同或更少的时段的通信信道分组或相应的帧速率。
如下文中描述,取决于通信网络的多个方面,可采用多种技术来对RTP流进行同步。例如,可过量提供通信网络,使得其具有过剩的容量,或者通信网络可具有保证的服务质量。另外,可更改RTP流,以便在通信网络上传送时保持同步。下文中将讨论这些技术的每一种。
过量提供的通信网络在过量提供PDSN 208和发送器206之间的通信链路的情况下,即,存在通过线路(wireline)因特网传送数据的可用的过量容量,则没有由于拥塞的延迟。因为在通信链路中存在过量的容量,则没有将传输延迟的必要,从而可由通信链路来完成传输。因为在传输中没有延迟,在音频和视频分组到达诸如PDSN的基础设施时没有“时间偏移”。换句话说,如本发明中所述,直到PDSN,音频和视频数据彼此保持同步,并且在PDSN和MS之间保持同步。
在过量提供的情况下,容易完成音频-视频同步。例如,基于100毫秒帧,视频数据具有每秒10帧(fps)的帧速率,并且基于20毫秒音频帧,相关的音频具有50fps的帧速率。在该实例中,将缓冲五帧接收的音频数据,从而与视频帧速率同步。即,将缓冲五帧的音频数据,与100毫秒的音频数据相对应,从而与100毫秒的视频帧同步。
在最大延迟上具有保证的QoS的通信网络通过缓冲适当数量的高帧速率音频帧,可能与低帧速率视频帧匹配的可能。通常,如果采用服务质量(QoS)延迟保证来传递视频分组QoS_delay=nT ms其中n是帧中的延迟;并且T=1000/每秒帧数则为保证音频和视频同步,需要容量为存储nT/w音频语音帧的缓冲器以存储足够的音频帧,其中w是以毫秒表示的音频帧持续时间。在cdma200 UMTS中,音频帧的持续时间w是20毫秒,在其他通信信道中,语音帧的持续时间可能不同或变化。
用于将音频和视频数据同步的另一技术包括缓冲两种数据流。例如,如果通信系统具有DQ毫秒的保证最大延迟,就是指在传输音频和视频流期间,可经历的最大延迟是DQ,则可使用适当容量的缓冲器来保持同步。
例如,采用DQ的保证最大延迟,则缓冲DQ/T的视频帧(T是以毫秒表示的视频帧的持续时间)和DQ/w音频帧(w是以毫秒表示的音频帧的持续时间)将保证音频视频同步(AV-同步)。这些附加的缓冲器空间通常称为消抖动缓冲器(de-jitter buffer)。
这些技术描述了音频和视频数据流的同步。可将这些技术用于需要同步的任何数据流。如果存在具有相同信息时间间隔并需要同步的两种数据流,第一较高比特率数据流和第二较低比特率数据流,则缓冲较高比特率数据,以允许其与较低比特率数据同步。可取决于上述QoS来确定缓冲器的容量。同样可如上所述对较高和较低比特率数据流进行缓冲和同步。
可采用数据流同步器来执行所述的技术,其中数据流同步器包括第一解码器,该第一解码器被配置成接收第一编码的数据流,并输出解码的第一数据流,其中第一编码数据流在信息时间间隔期间具有第一比特率。并且第二解码器被配置成接收第二编码的数据流,并输出解码的第二数据流,其中第二编码的数据流在信息时间间隔期间具有第二比特率。数据流同步器还包括第一缓冲器和第二缓冲器,其中第一缓冲器被配置成至少在一个信息时间间隔累积第一解码的数据流,并在每个时间间隔时段输出第一解码的数据流的帧,并且第二缓冲器被配置成至少在一个信息时间间隔累积第二解码的数据流,并在每个时间间隔时段输出第二解码的数据流的帧。然后合并器被配置成接收第一解码的数据流的帧和第二解码的数据流的帧,并输出第一和第二解码的数据流的同步帧。在一个实例中,第一编码的数据流可以是视频数据并且第二编码的数据流是音频数据,从而第一比特率高于第二比特率。
具有音频和视频复用的单一RTP流另一实施例是在单一RTP流中承载音频和视频。应注意,在IP网络中作为单一RTP流而传送音频和视频不是一般惯例。将RTP设计成能参与不同的源,例如,具有视频和音频功能的终端和仅具有音频功能的终端在同一多媒体会议中通信。
将音频和视频作为分开的RTP流的约束可能不适用于视频服务的无线网络。在这种情况下,可设计一种新的RTP简档(profile)来承载特定的音频和视频编解码净荷。将音频和视频合并到共同的RTP流中消除了音频和视频数据之间的任何时间偏差,而不需要过量提供的通信网络。因此,可使用与上述过量提供网络有关的所述技术来实现音频视频同步。
图5是配置成接收通信信道分组的音频/视频接收器500的部分的框图。如图5所示,音频/视频接收器500包括配置成接收通信信道分组的通信信道接口502。通信信道接口502将视频通信信道分组输出到视频解码器504,并将音频通信信道分组输出到音频解码器506。视频解码器504对视频通信信道分组进行解码,并将视频数据输出到视频缓冲器508。音频解码器506对音频通信信道分组进行解码,并将音频数据输出到音频缓冲器510。视频缓冲器508和音频缓冲器510分别累积帧时段内的视频和音频数据。视频缓冲器508和音频缓冲器510分别将视频帧和音频帧输出到合并器512。合并器被配置成合并视频和音频帧,并输出同步音频视频信号。可由控制器514来控制视频缓冲器508、音频缓冲器510的工作。
图6是配置成传送通信信道分组的无线音频/视频传送器600的部分的框图。如图6中所示,音频/视频传送器600包括配置成接收视频数据RTP流的视频通信信道接口602。视频通信信道接口将RTP分组分配到通信信道分组。应注意通信信道分组的容量可变,从而将RTP视频数据的整帧分配到与视频帧占据相同时段的通信信道分组。音频/视频传送器600还包括配置成接收音频数据RTP流的音频通信信道接口604。音频通信信道接口604将RTP分组分配到通信信道分组。应注意,通常通信信道分组的容量足以将整帧RTP音频数据分配到与音频帧占据相同时段的通信信道分组。与视频通信信道分组类似,如果信道容量不够,则它可变,使得存在足够的容量,以将整帧RTP音频数据分配到与音频帧占据相同时段的通信信道分组。
视频与音频通信信道分组分别通过视频和音频通信信道接口602和604被输出,并被传送到合并器606。合并器606被配置成接收视频和音频通信信道分组,并将这两者合并以输出组合信号。合并器606的输出被传送到传送器608,该传送器608将组合信号传送到无线信道。视频通信信道接口602、音频通信信道接口604和合并器606可由控制器614控制。
图7是通过无线通信链路传送独立RTP流的流程图。流程从接收到视频和音频RTP数据流的块702开始。流程然后继续到将视频RTP流分配到通信信道分组的块704。在块706中,将音频RTP流分配到通信信道分组。在块708中视频和音频通信信道分组被合并,并通过无线信道被传送。
图8是在无线通信信道上接收音频和视频数据的流程图。流程从通过无线通信信道接收视频和音频数据的块802开始。流程继续到解码视频和音频数据的块804。在块806,将解码的视频和音频数据组成相应的视频和音频帧。在块808中,将视频和音频数据合并成同步的视频/音频帧。在块810中,输出同步的视频/音频帧。
图9是根据本发明的示意性实施例构建的无线通信装置,或移动台(MS)的框图。通信装置902包括网络接口906、编解码器908、主处理器910、存储装置912、程序产品914和用户接口916。
来自基础设施的信号被网络接口906接收,并被传送到主处理器910。主处理器910接收信号,并且根据信号的内容,做出合适动作的响应。例如,主处理器910可自身对接收的信号进行解码,或者其可将接收的信号传送到编解码器908解码。在另一实施例中,将接收到信道直接从网络接口906传送到编解码器908。
在一个实施例中,网络接口906可以是在无线信道上连接基础设施的收发机和天线。在另一实施例中,网络接口906可以是用于通过陆地通信线连接基础设施的网络接口卡。编解码器908可以实现为数字信号处理器(DSP)、或者诸如中央处理单元(CPU)的通用处理器。
主处理器910和编解码器908连接到存储装置912。存储装置912可用于在WCD操作期间存储数据,以及存储将由主处理器910或DSP908执行的程序代码。例如,主处理器、编解码器或这两者可能在存储装置912中临时存储的程序指令的控制下操作。主处理器910和编解码器908也可包括它们自己的程序存储器。当执行程序指令时,主处理器910或编解码器908、或这两者执行指令的功能,例如对诸如音频/视频数据的多媒体流进行编码或解码,并且组合音频和视频帧。因此,程序步骤实现各主处理器910和编解码器908的功能,从而使得主处理器和编解码器可各自如预期执行对内容流的解码或编码和对帧进行组合的功能。可从程序产品914接收程序步骤。程序产品914可存储程序步骤,并将程序步骤传送到存储器912,用于由主处理器、编解码器、或这两者执行。
程序产品914可以是半导体存储芯片,诸如RAM存储器、闪存存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器,以及其它存储装置诸如硬盘、活动磁盘、CDROM或者本领域内己知的,可存储计算机可读指令的任何其它形式的存储介质。另外,程序产品914可以是包括程序步骤的源文件,其从网络被接收,被存储在存储器中并且然后被执行。在这种方式下,根据本发明的操作所需的处理步骤可在程序产品914上具体化。在图9中,示出的示例性存储介质耦合到主处理器910,从而主处理器从存储介质读取信息,并将信息写到存储介质。可选地,可将存储介质集成到主处理器910。
用户接口916连接到主处理器910和编解码器908。例如,用户接口916可包括用于将多媒体数据输出给用户的显示器和扬声器。
本领域技术人员会认识到结合实施例描述的方法的步骤可交换而不会偏离本发明的范畴。
本领域技术人员也能理解可使用多种不同的技术和方法来表示信息和信号。例如,在贯穿上文描述中提及的数据、指令、命令、信息、信号、比特、符号和码片可用电压、电流、电磁波、磁场或粒子、光场或粒子、或其任何组成来表示。
技术人员还能了解这里公开的,结合实施例描述的多种说明性的逻辑块、模块、电路、和算法步骤可实现为电子硬件、计算机软件、或这两者的组合。为了清楚地说明硬件和软件的互换性,在上文中通常根据它们的功能来描述各种说明性的组件、块、模块、电路和步骤。这样的功能实现为硬件或软件取决于特定应用和在整个系统上施加的设计约束。对每项特定应用,技术熟练人员可能以不同的方式来实现描述的功能,然而不应认为这样的实现决策会引起从本发明的范畴偏离。
这里公开的结合实施例描述的各种说明性逻辑块、模块和电路可采用以下实现通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑装置、分立门或晶体管逻辑、分立硬件部件或设计成执行这里描述的功能的任何组合。通用处理器可以是微处理器,然而可选地,处理器可以是任何常规的处理器、控制器、微控制器、或状态机。处理器也可实现为计算装置的组合,例如DSP和微处理器、多个微处理器、一个或多个微处理器与DSP芯片的组合,或者任何其它这样的配置。
结合这里公开的实施例描述的方法或算法的步骤可直接具体化为硬件、由处理器执行的软件模块、或两者的组合。软件模块可驻留在RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、活动磁盘、CD-ROM、或本领域中己知的任何形式的存储介质。示例性的存储介质被耦合到处理器,从而处理器可从存储介质读取信息,并将信息写到存储介质。可选地,存储介质可被集成到处理器。处理器和存储介质可位于ASIC。ASIC可位于用户终端中。可选地,处理器和存储介质可以是用户终端中的分立元件。
提供上文中公开的实施例的描述,以使本领域的任何技术人员能制作或使用本发明。对于本领域的技术人员来说,明显有实施例的各种变更,并且可将这里定义的一般原理应用到其它实施例中,而不会偏移本发明的实质或范畴。从而本发明不受限于这里所示的实施例,而是符合与这里公开的原理和新颖特征一致的最广阔的范畴。
权利要求
1.一种数据流同步器,包括第一解码器,其被配置成接收第一编码的数据流,并输出解码的第一数据流,其中所述第一编码的数据流在信息时间间隔期间具有第一比特率;第二解码器,其被配置成接收第二编码的数据流,并输出解码的第二数据流,其中所述第二编码的数据流在所述信息时间间隔期间具有第二比特率;第一缓冲器,其被配置成在至少一个信息时间间隔累积所述第一解码的数据流,并在每个时间间隔时段输出所述第一解码的数据流的帧;第二缓冲器,其被配置成在至少一个信息时间间隔累积所述第二解码的数据流,并在每个时间间隔时段输出所述第二解码的数据流的帧;和合并器,其被配置成接收第一解码数据流的所述帧和第二解码的数据流的所述帧,并输出第一和第二解码的数据流的同步帧。
2.如权利要求1所述的数据流同步器,其中,所述第一编码的数据流是视频数据。
3.如权利要求1所述的数据流同步器,其中,所述第二编码的数据流是音频数据。
4.如权利要求1所述的数据流同步器,其中,所述第一比特率高于所述第二比特率。
5.一种远程站设备,包括视频解码器,其被配置成接收编码的视频数据,并输出解码的视频数据;音频解码器,其被配置成接收编码的音频数据,并输出解码的音频数据;视频缓冲器,其被配置成在至少一个帧时段累积解码的视频数据,并在每个帧时段输出视频数据的帧;音频缓冲器,其被配置成在多个帧时段累积解码的音频数据,并在每个帧时段输出音频数据的帧;和合并器,其被配置成接收视频数据的所述帧和音频数据的所述帧,并输出音频视频数据的同步帧。
6.如权利要求5所述的远程站,其中,所述视频解码器是MPEG解码器、H.263解码器或H.264解码器。
7.如权利要求5所述的远程站,其中,所述音频解码器是MPEG解码器、H.263解码器或H.264解码器。
8.如权利要求5所述的远程站,还包括控制音频和视频数据的解码和同步的控制处理器。
9.一种远程站设备,包括视频通信信道接口,其被配置成接收视频RTP流,并将RTP视频数据的整帧分配到与视频帧速率相比占据相同或较少时段的通信信道分组;音频通信信道接口,其被配置成接收音频RTP流,并将RTP音频数据的整帧分配到与音频帧速率相比占据相同或较少时段的通信信道分组;和发射器,其被配置成接收并传送所述视频和音频通信信道分组。
10.如权利要求9所述的远程站设备,还包括控制处理器,所述控制处理器控制音频和视频数据到通信信道分组的所述分配。
11.一种基站设备,包括视频解码器,其被配置成接收编码的视频数据,并输出解码的视频数据;音频解码器,其被配置成接收编码的音频数据,并输出解码的音频数据;视频缓冲器,其被配置成在视频帧时段累积解码的视频数据,并在每个帧时段输出视频数据的帧;音频缓冲器,其被配置成在音频帧时段累积解码的音频数据,并在每个帧时段输出音频数据的帧;和合并器,其被配置成接收视频数据的所述帧和音频数据的所述帧,并输出音频视频数据的同步帧。
12.如权利要求11所述的基站,其中,所述视频解码器是MPEG解码器、H.263解码器或H.264解码器。
13.如权利要求11所述的基站,其中,所述音频解码器是MPEG解码器、H.263解码器或H.264解码器。
14.如权利要求11所述的基站,还包括控制音频和视频数据的解码和同步的控制处理器。
15.一种基站设备,包括视频通信信道接口,其被配置成接收视频RTP流,并将RTP视频数据的整帧分配到与视频帧速率相比占据相同或较少时段的通信信道分组;音频通信信道接口,其被配置成接收音频RTP流,并将RTP音频数据的整帧分配到与音频帧速率相比占据相同或较少时段的通信信道分组;和发射器,其被配置成接收并传送所述视频和音频通信信道分组。
16.如权利要求15所述的基站设备,还包括控制处理器,所述控制处理器控制音频和视频数据到通信信道分组的所述分配。
17.一种无线通信系统,包括基站设备,包括视频通信信道接口,其被配置成接收视频RTP流,并将RTP视频数据的整帧分配到与视频帧速率相比占据相同或较少时段的通信信道分组;音频通信信道接口,其被配置成接收音频RTP流,并将RTP音频数据的整帧分配到与音频帧速率相比占据相同或较少时段的通信信道分组;和发射器,其被配置成接收并传送所述视频和音频通信信道分组;远程站设备,包括视频解码器,其被配置成接收视频通信信道分组,并输出解码的视频数据;音频解码器,其被配置成接收音频通信信道分组,并输出解码的音频数据;视频缓冲器,其被配置成在视频帧时段累积解码的视频数据,并在每个帧时段输出视频数据的帧;音频缓冲器,其被配置成在音频帧时段累积解码的音频数据,并在每个帧时段输出音频数据的帧;和合并器,其被配置成接收视频数据的所述帧和音频数据的所述帧,并输出音频视频数据的同步帧。
18.一种无线通信系统,包括远程站设备,包括视频通信信道接口,其被配置成接收视频RTP流,并将RTP视频数据的整帧分配到与视频帧速率相比占据相同或较少时段的通信信道分组;音频通信信道接口,其被配置成接收音频RTP流,并将RTP音频数据的整帧分配到与音频帧速率相比占据相同或较少时段的通信信道分组;和发射器,其被配置成接收并传送所述视频和音频通信信道分组;基站设备,包括视频解码器,其被配置成接收视频通信信道分组,并输出解码的视频数据;音频解码器,其被配置成接收音频通信信道分组,并输出解码的音频数据;视频缓冲器,其被配置成在视频帧时段累积解码的视频数据,并在每个帧时段输出视频数据的帧;音频缓冲器,其被配置成在音频帧时段累积解码的音频数据,并在每个帧时段输出音频数据的帧;和合并器,其被配置成接收视频数据的所述帧和音频数据的所述帧,并输出音频视频数据的同步帧。
19.一种用于解码并同步数据流的方法,包括接收第一编码的数据流,解码并输出解码的第一数据流,其中所述第一编码的数据流在信息时间间隔期间具有第一比特率;接收第二编码的数据流,解码并输出解码的第二数据流,其中所述第二编码的数据流在所述信息时间间隔期间具有第二比特率;在至少一个信息时间间隔累积所述第一解码的数据流,并在每个时间间隔时段输出所述第一解码的数据流的帧;在至少一个信息时间间隔累积所述第二解码的数据流,并在每个时间间隔时段输出所述第二解码的数据流的帧;合并第一解码的数据流的所述帧和第二解码的数据流的所述帧,并输出第一和第二解码的数据流的同步帧。
20.一种用于解码并同步音频和视频数据的方法,所述方法包括接收编码的视频数据并输出解码的视频数据;接收编码的音频数据并输出解码的音频数据;在视频帧时段累积解码的视频数据并在每个帧时段输出视频数据的帧;在音频帧时段累积解码的音频数据并在每个帧时段输出音频数据的帧;合并视频数据的所述帧和音频数据的所述帧,并在每个视频帧时段输出音频视频数据的同步帧。
21.一种用于对音频和视频数据进行编码的方法,所述方法包括接收视频RTP流,并将RTP视频数据的整帧分配到与视频帧速率相比占据相同或较少时段的通信信道分组;并且接收音频RTP流,并将RTP音频数据的整帧分配到与音频帧速率相比占据相同或较少时段的通信信道分组。
22.一种具体实现用于解码并同步数据流的方法的计算机可读介质,所述方法包括接收第一编码的数据流,解码并输出解码的第一数据流,其中所述第一编码的数据流在信息时间间隔期间具有第一比特率;接收第二编码的数据流,解码并输出解码的第二数据流,其中所述第二编码的数据流在所述信息时间间隔期间具有第二比特率;在至少一个信息时间间隔累积所述第一解码的数据流,并在每个时间间隔时段输出所述第一解码的数据流的帧;在至少一个信息时间间隔累积所述第二解码的数据流,并在每个时间间隔时段输出所述第二解码的数据流的帧;合并第一解码的数据流的所述帧和第二解码的数据流的所述帧,并输出第一和第二解码的数据流的同步帧。
23.一种具体实现用于解码并同步音频和视频数据的方法的计算机可读介质,所述方法包括接收编码的视频数据并输出解码的视频数据;接收编码的音频数据并输出解码的音频数据;在视频帧时段累积解码的视频数据并在每个帧时段输出视频数据的帧;在音频帧时段累积解码的音频数据并在每个帧时段输出音频数据的帧;合并视频数据的所述帧和音频数据的所述帧,并输出音频视频数据的同步帧。
24.一种具体实现对音频和视频数据进行编码的方法的计算机可读介质,所述方法包括接收视频RTP流,并将RTP视频数据的整帧分配到与视频帧速率相比占据相同或较少时段的通信信道分组;并且接收音频RTP流,并将RTP音频数据的整帧分配到与音频帧速率相比占据相同或较少时段的通信信道分组。
25.一种数据流同步器,包括用于对第一编码的数据流进行解码并输出解码的第一数据流的装置,其中,所述第一编码的数据流在信息时间间隔期间具有第一比特率;用于对第二编码的数据流进行解码并输出解码的第二数据流的装置,其中,所述第二编码的数据流在所述信息时间间隔期间具有第二比特率;用于在至少一个信息时间间隔累积所述第一解码的数据流,并在每个时间间隔时段输出所述第一解码的数据流的帧的装置;用于在至少一个信息时间间隔累积所述第二解码的数据流,并在每个时间间隔时段输出所述第二解码的数据流的帧的装置;和用于对第一解码的数据流的所述帧和第二解码的数据流的所述帧进行合并,并输出第一和第二解码的数据流的同步帧的装置。
26.一种远程站设备,包括用于接收编码的视频数据并输出解码的视频数据的装置;用于接收编码的音频数据并输出解码的音频数据的装置;用于在视频帧时段累积解码的视频数据,并在每个帧时段输出视频数据的帧的装置;用于在音频帧时段累积解码的音频数据,并在每个帧时段输出音频数据的帧的装置;用于对视频数据的所述帧和音频数据的所述帧进行合并,并输出音频视频数据的同步帧的装置。
27.一种远程站设备,包括用于接收视频RTP流,并将RTP视频数据的整帧分配到与视频帧速率相比占据相同或较少时段的通信信道分组的装置;和用于接收音频RTP流,并将RTP音频数据的整帧分配到与音频帧速率相比占据相同或较少时段的通信信道分组的装置。
28.一种基站设备,包括用于接收编码的视频数据并输出解码的视频数据的装置;用于接收编码的音频数据并输出解码的音频数据的装置;用于在视频帧时段累积解码的视频数据,并在每个帧时段输出视频数据的帧的装置;用于在音频帧时段累积解码的音频数据,并在每个帧时段输出音频数据的帧的装置;用于对视频数据的所述帧和音频数据的所述帧进行合并,并输出音频视频数据的同步帧的装置。
29.一种基站设备,包括用于接收视频RTP流,并将RTP视频数据的整帧分配到与视频帧速率相比占据相同或较少时段的通信信道分组的装置;和用于接收音频RTP流,并将RTP音频数据的整帧分配到与音频帧速率相比占据相同或较少时段的通信信道分组的装置。
全文摘要
描述了一种技术,该技术用于对在例如无线或IP网络的网络上传送的音频视频流进行编码,从而音频的整帧和视频的整帧在由接收器中的应用程序渲染音频视频流帧所需的时段内同步传送。技术的方面包括接收音频和视频RTP流,并将RTP视频数据的整帧分配到与视频帧速率占据相同或较少的时段的通信信道分组。同样将RTP音频数据的整帧分配到与音频帧速率占据相同或较少的时段的通信信道分组。视频和音频通信信道分组同步传送。在远程站、或基站中执行接收和分配RTP流。
文档编号H04W72/12GK1969562SQ200580020252
公开日2007年5月23日 申请日期2005年5月13日 优先权日2004年5月13日
发明者H·迦鲁德瑞, P·萨杰东, S·南达 申请人:高通股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1