一种及早开始呈现音视频的系统及方法

文档序号：7940771阅读：166来源：国知局

专利名称：一种及早开始呈现音视频的系统及方法
技术领域：
本发明一般涉及音视频的呈现，特别是一种及早开始呈现音视频的方法。
背景技术：
本节意在向读者介绍下面的说明书中所描述和/或在权利要求中所要求的与本发明的各个方面相关的各种背景技术。相信这些讨论对于向读者提供背景信息以辅助更好地理解本发明的各个方面是有用的。因此，应理解这些陈述要按照这个目的来读，而不是对现有技术的供认。
电视广播技术的改变导致跳台的时间更长了。模拟广播电视的跳台是瞬间的。数字电视的跳台则需要更多时间。下面介绍一下这个现象。视频一般使用标准压缩系统诸如 MPEG-2或JVT/H. 26/MPEG AVC通过广播网络发布。MPEG标准定义了图像组(GoP)。这些图像组定义了接续的图像序列I、P、B。这些图像被定义于MPEG标准中。I图像的编码不参照其它图像。P图像则参照前面的I图像或P图像。B图像参照前面及后面的I图像或P图像。当接收机接收一个新节目时，要等收到一个I图像时才开始对节目解码，这就在接收视频流与在屏幕上呈现该视频流之间出现了延迟。用于减少数字电视带宽的机制采用越来越少的I图像。解码器要用更多的时间找到I图像并对其解码。这可能要半秒时间。而且，通过IP网络传输电视，在解码器端需要更多的缓存来弥补网络传输的不稳定性。这增加了节目接收与电视视频流传输至解码器之间的时间。从接收到在屏幕上呈现新节目图像之间则需要超过两秒以上。有些减少跳台时间的技术出现了。W02005112465A1描述了进行跳台快速解码的附加流，例如快速查找I图像。欧洲专利申请EP1523190描述了一种单播束推方法来填充解码器。这些方法要求向解码器发送专用于跳台处理的附加流。

发明内容
本发明是关于一种及早开始呈现音视频的方法。它在音视频接收机端提供了一种不受音视频发送端影响的简单的方法。因此，本发明是关于一种在接收机端播放流的方法，该流包括一组适于以标准呈现速度呈现的离散样本，包括在接收机端的步骤有开始接收流；以低于标准呈现速度的速度呈现该离散样本，并将呈现速度加速至标准呈现速度。该流接收自其它装置。该接收机开始接收该流。不同于以标准呈现速度开始呈现离散样本，本发明的接收机以较低的速度开始呈现。这是一种慢启动呈现。而呈现的速度被徐缓而连续地提高至标准呈现速度。这就能较早地呈现出离散样本。根据本发明的一种实施例，流包括一组连续的样本，连续及离散的样本适于以标准呈现速度以同步方式被呈现，该方法进一步包括当离散样本以低于正常速度的速度呈现时，以跟离散样本不同步的标准呈现速度呈现连续样本的步骤，以及当离散样本以正常呈现速度呈现时，以跟离散样本同步的标准呈现速度呈现连续样本。在对终端用户呈现不畅的情况下将实行用慢速度启动连续样本的呈现的方法。在终端用户等待可接受的同步连续样本呈现的时间可能对终端用户来说会有些长。本发明的连续样本呈现与离散样本呈现不同步。该方法能给终端用户及早提供可接受的连续样本呈现。根据本发明的一个具体实施例，呈现与离散样本同步的连续样本的步骤自将离散样本的呈现调整为连续样本的呈现开始。随后该同步启动对终端用户透明。根据本发明的一个具体实施例，呈现与离散样本不同步的连续样本的步骤自以标准呈现速度呈现离散样本的时间所对应的时间开始。根据本发明的各种实施例，流包括一组连续的样本，连续及离散样本适于以标准呈现速度以同步方式呈现，该方法进一步包括步骤当离散样本以低于正常速度的速度呈现时，以及当连续样本的呈现速度达到一阈值时，以与离散样本同步且低于正常速度的速度来呈现连续样本，其中该速度被连续地加速至标准呈现速度。
以低于正常呈现速度的速度来呈现连续样本是可能的，这种呈现是终端用户可接受的。本方法能在连续样本的呈现刚开始顺畅时及早与离散样本的呈现同步开始呈现。根据本发明的一个具体实施例，在接收流的步骤之前，本方法包括跳到一新的节目的步骤。本发明的方法令跳台的时间减少。根据本发明的一个具体实施例，离散样本为视频样本，连续样本为音频样本。根据本发明的一个具体实施例，该流为MPEG-2流。根据本发明的一个具体实施例，该离散样本的呈现时间取决于相同呈现时间的连续及离散样本的接收之间的延迟。当对应于相同呈现时间的连续样本与离散样本的接收之间的延迟太高时，提高离散样本呈现时间能使其能与连续样本呈现相同步。下面结合所公开的具体实施例来阐述某些相关方面特征。应该理解的是，这些方面的特征只是为了向读者提供本发明某些形式的主要内容而展现，而这些方面的特征不是为了对本发明加以限定。当然，本发明亦可包含下面未及阐述的各种特征。

参照以下附图，通过对下面的具体实施例以及所实行的示例的非限制性的描述可以更好地理解本发明图1为根据本发明的实施例的系统模块图；图2为根据本发明的实施例的接收机模块图；图3为描述根据本发明的实施例的慢启动视频呈现过程的示意图；图4为描述根据本发明的第一实施例的慢启动视频呈现过程的示意图；图5为描述根据本发明的第二实施例的慢启动视频呈现过程的示意图；图6为描述根据本发明的第三实施例的慢启动视频呈现过程的示意图；图7为描述音频视频流的接收的示意图8为描述根据该音频视频流的接收呈现音频和视频的示意图；以及图9也是描述根据该音频视频流接收的呈现音频和视频的示意图。
具体实施例方式在图1和图2中，所示的模块都是单纯的功能单元，不必对应于物理上单独的单元。即，它们可以以软件方式被开发，或以一个或多个集成电路或者两者的结合来实施。
图1所示为根据本发明的实施例的系统。它包括装置，诸如服务器6、接收机4、以及视频显示屏5等。该服务器包括视频源模块1以及视频编码器模块2。当然，视频源模块和视频编码器模块可被包含在分开的装置中。服务器对音视频流进行编码并通过互联网 3将音视频流传送至接收机。当然，音视频流可以通过任何类型的能够将音视频流从服务器传送至接收机的网络来进行传输。特别是，该网络可以是一个局域网。音视频的不同组成成分还可以通过多种不同的网络来传输；其中这些组成成分可随后以某种方式在接收机上对其进行同步。该视频接收机为机顶盒。当然它还可以是任何包括诸如在机顶盒中含有的进行视频解码的那些功能的装置。该视频流由机顶盒接收，解码并在视频显示屏上呈现。图2所示为根据本发明的实施例的一种接收机。该接收机包括自网络服务器接收音视频数据的通信模块21。它包括用于储存音频数据和视频数据的储存模块23。它还包括用于解码音频流和视频流的音视频解码模块25。它包括让用户控制接收机的用户界面 24。该用户界面能激活或取消该跳台zapping方法。这里所描述的不同的实施例可以都实现于同一接收机中，并且用户界面可以选择这些跳台方法中的一种。根据这些实施例，采用了一种处理模块22来执行这些方法。数据通过一内部总线26在该装置内循环。图3描述了根据本发明的实施例的慢启动视频呈现过程的示意图。它包括接收缓存填充级别以及视频呈现速度以时间为函数的示意图。以标准速度来传输流。让接收机以标准速度呈现流。在步骤Si，流在接收机上被接收。没有图像被保存或呈现。在步骤S2在流中找到I图像。阶段1开始，其中I图像在屏幕上显示。然后，接收机开始在接收缓存中填充。该缓冲器以接收速率进行填充，因为只有I图像被呈现并且没有其它图像消耗。在步骤S3接收缓存器到达一个开始呈现的级别。该级别对应于数据接收到能适当呈现视频的数量。这个级别值可以被修改使呈现可以更早或稍迟开始。如果很早，所呈现的会是一组接续的静止图像。如果稍迟呈现就看上去像一部慢动作视频。在这一步骤，呈现以低于标准呈现速度的速度进行。这是阶段2的开始。缓存器还是以接收速度填充，但以低于与呈现速度相对应的标准速度的速度来排放。该排放的速度缓慢地加速至能够以标准速度呈现。因此，缓存器还在填充，但其速度随着呈现速度接近于标准速度而越来越慢。于是在步骤4，呈现速度被加速至接收缓存充满之时。这个对应于以标准速度呈现视频的阶段3。排放速度的加速如下视频缓存填充N%。然后速度被设置至值100/ (1+(100-N) *coeff/100)。该系数coeff值的缺省值设为1。例如，如果视频缓存填充60%，则速度为标准速度的71.4%。该coeff值可以被设为任何除1以外的值。低于1的coeff值能快速产生一可接受的呈现速度，但需要更长时间填充缓存以达到标准速度。高于1的coeff值能快速填充缓存，但开始时的呈现速度较低。该coeff值还可以是根据缓存大小动态修改的。随着缓存填充增加，速度也随后增加至达到标准速度。
慢启动呈现过程对视频是有利的，视频是一组接续的静态图像，也被称为离散样本。内容的离散样本在一段时间内显示时，在整个时间段内呈现出同样的内容。在一个特定时间内一个离散样本总共只呈现一次。视频是接续的离散样本，即被或快或慢呈现的静态图像。典型地，在MPEG-2中，对于相位交替逐行编码制式(PAL)以每40ms—图像的频率播放视频，这意味着每秒25帧图像。若频率高于40ms对于终端用户是可以接受的。慢启动呈现过程对于连续样本如音频流是不可接受的。内容的连续样本在一段时间内显示时，在这个时间段内连续呈现整个内容。连续样本在一个时间段内是逐渐呈现的。典型地，在MPEG-I第二或第三层，音频流被编码为固定大小的样本，例如对应于48kHz采样的每24ms—个样本。以低于或高于正常速率的速率呈现该样本会改变声音的音调。当呈现速度提高或降低5%就可以注意到这种改变。及早呈现视频的第一实施例采用慢启动机制，如图4所示。图4包括根据时间的音频接收缓存图以及音频呈现速度图。该音频呈现速度图与图3中指出的视频呈现速度图相吻合。在该第一实施例中，视频与以慢启动方式呈现的视频同步呈现。接收机采用一种算法在整个再处理样本过程中修改样本，从而不改变音调。这种算法对于本领域一般技术人员来说是熟知的。用这种算法，下面称为音调算法，可以提高或降低呈现速度25%而不给终端用户带来很明显的影响。因此，当接收缓存75%填满时，接收机可以透明地呈现音频。当然，该阈值可以高于或低于75%，取决于所处理的声音类型以及算法本身。接收机在接收视频的同时接收音频。音频被保存于音频接收缓存中，这就是1’阶段，对应于图3的阶段1。当视频在步骤S’2(对应于图3中的步骤3)开始呈现时，音频样本以同步方式消耗，但未被呈现，这就是阶段1.5’。在步骤S’ 3，阶段2’，当音频呈现速度达到75%，音频开始呈现。音频与视频呈现同步。在阶段1.5’和2’中，音频接收缓存慢慢被完全填满。在步骤S’ 4，当音频接收缓存填满时，阶段3’开始。音频和视频以标准速度呈现。阶段3’与图3的阶段3相吻合。有些实现手段不能提供这种音调算法来处理音频进行慢速呈现。对于这些实现方式，只有标准速度可以用于音频。用前述的方法，音频只能在阶段2的结尾进入阶段3时才呈现，时间比较长。根据第二实施例的及早呈现音频方法描述于图5中。这是一个去同步方法，其中接收机中没有包括任何音调算法。图5包括按照时间分布的音频接收缓存图以及音频呈现速度图。音频呈现速度图与图3中指出的视频呈现速度图相吻合。特别是，阶段1的开始与阶段Ibis的开始，以及阶段3与阶段3bis相吻合。根据该实施例，接收机接收音频流并填入音频接收缓存中，当缓存填满时，在阶段Ibis的结尾，以标准速度呈现音频，步骤S3bis 以及阶段2bis。因此，音频呈现与视频呈现在阶段2bis不同步。音频的呈现比慢速视频呈现的启动晚。当视频在步骤S5bis以标准速度呈现时，音频与视频相同步。根据第三实施例，采用音调算法的方法与去同步法结合，如图6所示。接收机包括运行音调算法的装置。在阶段Iter，接收机接收音频并以视频缓存同样的速度填入音频接收缓存器。当视频开始呈现时，音频没有开始呈现；音频阈值没有达到，音频的呈现终端用户不能接受。当音频缓存到达一阈值时，音调算法允许以减低的速度，这里在步骤S”3为 85%，呈现音频。这就是阶段1’ ter的开始。音频的呈现与视频不同步。
音频缓存填充级别高于视频缓存填充级别。只要音频缓存填充级别到达视频缓存填充级别，音频就与视频同步，步骤S”5。这就是阶段2ter的开始。然后，同步的音频视频呈现缓慢提高至到达第一实施例的标准速度，步骤S” 4以及阶段3ter。当音频和视频在它们应该同步的时间没有准确吻合时(例如以去同步方法在阶段2的结尾时)，将视频成分向音频成分调整比将音频成分向视频成分调整更容易。那时所呈现的视频图像将被呈现比其原始周期或多或少的时间以使其赶上对应的视频样本。音频成分的调整不如视频成分的调整容易，而且对于没有音调算法的系统来说，这会导致给终端用户的声音带来影响，短暂的静音或刮擦声。音频及视频缓存的大小取决于音频及视频样本的接收时间。它们可能以同时的或不同的时间被接收，如图7所示。PTS代表符合MPEG-2传输流的时间戳。传输平面描述的是所接收的分组中的PTS值，以及PTS接收时间的区别。在图中，为了描述的目的，PTS为代表与期间等同的样本，在MPEG系统中技术上不是这样的。缓存平面指出所需要的最小接收缓存大小，取决于接收时间的不同。该呈现平面指出了何时音频和视频以同步方式呈现。在同时接收时，音频和视频样本在接收时有同样的PTS。音频和视频缓存被同步填充。因而，在单位时间内音频和视频缓存有同样的大小。当音频和视频成分在传输层上不同步时，他们不是同时接收的。在702中，视频早于音频接收，差距为2PTS，由Δ值为2表示。在703中，视频在音频之后收到，差距为2PTS，由Δ值为-2来表示。然后有必要在接收机上调节缓存。在702中，视频缓存在缓存平面上的大小为时间上大2个PTS。在703中，音频缓存在缓存平面上的大小为时间上大2个PTS。然后，音频和视频在呈现平面以相同PTS呈现。然而，以去同步化方法，可以让音频在跳台阶段的很早期呈现。图8和9描述了当音频和视频不是同时接收到时，根据音频和视频的接收呈现音频和视频。如图8所示，音频成分的接收晚于视频成分。不必提高视频缓存大小，视频缓存的大小足够在阶段2之后同步。去同步化的音频在它到达模拟视频线时开始，这在下面定义。如图9所示，当音频成分比视频成分在传输层很晚才收到时，视频缓存的大小被提高至一个新的视频缓存大小。这是必要的，因为缺省视频缓存大小不够使视频在阶段2 之后与音频同步的。虚拟视频线是根据新视频缓存大小计算出来的。去同步化的音频在到达虚拟视频线时开始。呈现去同步音频的时间点是由虚拟视频线的交点确定的。该虚拟视频线则是以最终的视频缓存大小通过外推导在没有跳台以标准速度呈现视频的情况下将要呈现的视频 PTS来计算得出的。以精确的计算，音频和视频在阶段2结尾被同步。为了计算最终的视频缓存大小，视频成分的比特流率是需要的，因为最终的视频缓存大小以时间单位表示。虚拟视频线的计算要考虑最小视频缓存大小、接收时音频和视频比特率之间的 PTS差。这个接收比特率随着分组接收流被连续进行计算。该最小视频缓存大小为默认缓存buffer_default。在接收流中的音频和视频差被观察到，这就是deltajudiojideo。这提供了目标视频缓存，即实际缓存buffer_real 实际缓存buffer_real =最大值 max (buffer—defaulf, delta—audio—video χ 比牛寺率 bit—rate)。
虚拟视频PTS被连续计算虚拟视频PTS virtual_video_PTS =当前视频PTS current_video_PTS-(buffer—real—当前缓存级另U current—buffer—level)/bit—rate。一旦真实的音频PTS到达Virtual_Vide0_PTS，音频即以标准速度呈现。该音频缓存大小此时被设为音频缓存填充级别的值。上述所指出的实施例优选为适于小的缓存器，其中小的缓存器最大对应于5秒。当缓存更大时，跳台方法包括其它阶段，在阶段2与3之间，内容以接近标准速度的速度呈现较长的一段时间。该标准级别是线性达到的。在阶段3，接收机通常设有支持传输抖动变化的纠错机制，其中该标准缓存填充级别是连续更新的。在此阶段中也设有纠错机制，其中作为累进的缓存填充的理想线的虚拟缓存级别是连续更新的。以30秒的缓存为例，阶段2在缓存级为2秒时结束。然后，在新的阶段视频以设置为标准速度的95%的速度呈现。说明书、权利要求书以及附图中公开的参数可以是独立地或者以任何适当的组合来提供的。这些技术特征可以，在任何适当之处，以硬件、软件、或者两者之组合来实施。这里所参考的“实施例”意指在本发明的至少一种实施中包括的结合该实施例所描述的某种特定的特征、结构或特点。在说明书的不同位置出现的词组“在一种实施例中” 不必都指同一个实施例，也不是排斥其他实施例的单独的或替换的实施例。权利要求中所出现的参照号仅仅作为描述而不应对权利要求有任何限制性作用。
权利要求
一种用于在接收机上及早播放流的方法，所述流包括一组适于以标准呈现速度呈现的离散的样本以及一组连续的样本，所述连续样本和所述离散样本适于以同步方式以标准呈现速度呈现，包括在接收机上的步骤-开始接收所述流；-开始以低于标准呈现速度并且以与标准呈现速度呈现的连续样本不同步的方式呈现所述离散的样本；-将所述离散样本的呈现速度加速至标准呈现速度；以及-以标准呈现速度并且以与标准呈现速度呈现的连续样本同步的方式呈现所述离散的样本。
2.根据权利要求1所述的方法，其特征在于以标准呈现速度并且与离散的样本同步的方式呈现连续的样本的步骤以离散样本的呈现被调适至连续样本呈现开始。
3.根据权利要求1或2所述的方法，其特征在于以标准呈现速度并且与离散的样本不同步的方式呈现连续的样本的步骤自离散样本以标准呈现速度呈现的时间所对应的时间开始。
4.根据权利要求1所述的方法，其特征在于所述方法进一步包括步骤当离散的样本以低于标准速度的速度呈现时，以及当连续样本的呈现速度到达一个阈值时，以低于标准速度的速度同步于离散样本呈现连续的样本，其中该速度被连续地加速至标准呈现速度。
5.根据前述权利要求任一所述的方法，其特征在于在接收流的步骤之前，包括跳换至一个新的节目的步骤。
6.根据前述权利要求任一所述的方法，其特征在于离散的样本为视频样本而连续的样本为音频样本。
7.根据前述权利要求任一所述的方法，其特征在于该流为MPEG-2流。
8.根据前述权利要求任一所述的方法，其特征在于该离散样本呈现时间取决于在同一呈现时间接收连续和离散样本之间的延迟。
9.一种在接收机上及早播放流的方法，所述流包括一组适于以标准呈现速度呈现的离散的样本，以及一组连续的样本，所述连续的样本和所述离散的样本适于以同步方式以标准呈现速度呈现，包括以下接收机上的步骤-开始接收所述流；_开始以低于标准呈现速度并且以与标准呈现速度呈现的离散样本不同步的方式呈现所述连续的样本；-将所述连续样本的呈现速度加速至标准呈现速度；以及-以标准呈现速度并且以与标准呈现速度呈现的离散样本同步的方式呈现所述连续的样本。
10.根据权利要求9所述的方法，其特征在于所述方法进一步包括步骤当连续的样本以低于标准速度呈现时，以及当离散的样本的呈现到达一个阈值时，以低于标准速度的速度且同步于连续样本呈现离散的样本，其中该速度被连续地加速至标准呈现速度。
全文摘要
本发明涉及一种在接收机端播放包括一组适于以标准呈现速度呈现的离散的样本的流的方法，包括在接收机的步骤开始接收流；开始以低于标准呈现速度的速度呈现离散样本，并将呈现速度加速至标准呈现速度。本发明还关于及早呈现连续样本的方法，当流中包括一组连续样本时，其中连续的和离散的样本适于以同步方式以标准呈现速度呈现。
文档编号H04N5/00GK101836458SQ200880111239
公开日2010年9月15日申请日期2008年10月8日优先权日2007年10月11日
发明者亚历山大·埃里塞, 让·巴蒂斯特·亨利申请人:汤姆逊许可公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：让.巴蒂斯特.亨利;亚历山大.埃里塞
技术所有人：汤姆逊许可公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。