用于编辑数字视频记录的方法和设备以及用这种方法制作的记录的制作方法

文档序号:7643731阅读:241来源:国知局
专利名称:用于编辑数字视频记录的方法和设备以及用这种方法制作的记录的制作方法
技术领域
本发明涉及用于编辑音/视频数据以及之后将被编辑的音/视频数据回放的方法和设备,以及涉及用这种方法和设备制作的被编辑的记录。本发明在例如平滑地回放以一种符合MPEG-2规范(ITU-T建议H.222.0|ISO/IEC 13818-1)的传输流格式被编辑的音/视频数据流中得到特定的应用。然而,对本发明来说符合那个规范并不是关键。
上面提到的MPEG-2规范对用在发送、录制和再生数字视频(包括音频)节目中的多媒体复用、同步和时基恢复指定了一般方法。该规范提供了一个基于分组的多媒体复用,其中每一个基本比特流(视频、音频、其它数据)被分割成一个分组化的基本流(PES),然后各个分组再复用成两种不同流类型中的任何一种。节目流(PS)是可变长PES分组的复用,它被设计成用于无差错环境,例如在光盘上的录制。传输流(TS)由具有188字节固定长度的分组构成,该传输流具有将多个节目进行复用以及将一个节目中的不同PES分组进行复用的功能,它被设计成用于易出错的环境,例如广播。然而在节目流格式下的PES分组能够整个被发送而不被破坏,但是TS中视频和音频的PES分组会被细分和以更小的TS分组的形式彼此复用。多媒体同步和时基恢复由用于系统时钟和表达/解码的时间戳来获得。
一个已知的视频节目分发系统是数字通用光盘(DVD)。这个标准定义了MPEG-2节目流的一个特定形式,用于在光盘上存储运动图象和相关材料。尽管当前DVD提供预录制材料的分发,但很明显仍有对商用和家用的音频和/或视频(A/V)设备能够从广播和家用录制材料中录制数字A/V数据的需求,就象当前广泛使用的视频录象带系统允许录制模拟A/V材料一样。希望数字视频记录系统有的一种增强是它应允许无缝的编辑并平滑的回放A/V数据。应用包括商用或家用视频的编辑和交互的视频,其中在回放中可能有多个分支点。与磁带媒体“线性”的性质相比较,现代基于盘的存储媒体的一个特别优点是它们“随机存取”的性质。这样,被编辑的节目不用拷贝原始流就可以被存储和改变。原则上,只有有限的额外信息需要被存储以便定义回放序列。之后它就在回放的时候控制存取盘的不同部分,以合成被编辑的节目。被编辑的节目甚至可以按照用户的输入来交互性地确定。
虽然在原理上很吸引人,但是技术人员会认识到在使用单一解码器来实际录制和编辑数字视频流时会出现很多问题。有技术的读者都知道,原始的记录一定要遵循许多不同的彼此相关的约束条件来被生成和存储,这些约束条件被指定以确保在任一兼容的解码器上回放是可能的。通常,如果一个人只是在一个希望的编辑点处简单地将回放从一个原始流中间切换到另一个原始流,那么这些约束条件就将被违反。编辑这种流的最直接的方法就是在编辑点附近独立地解码两个流,并在这个希望的编辑点处在这两个流之间切换。这项技术的例子在US 5696557和EP-A-0923243中被揭示。这实际上需要有第二个解码器的费用,然而,消费者更希望避免这个花费。还有另外的问题存在。
举一个例子,尽管基于盘的录制系统在与磁带相比较时本质上通常被认为是“随机存取”的,但是在盘上或其它媒介上的不同存储单元之间的切换中涉及的“搜寻时间”将不可避免地打断实时数据流,并且盘分配规则被强加于实际系统,以防止太多的搜寻发生和防止解码器缺少实时数据。按照欧洲专利申请EP-A-0983591(PHN 16815EP),一个“桥序列”能单独地被生成和被存储在同一张盘上以便将两个A/V段链接起来,这确保这两个段如果用其它方法被连起来就会违反该分配规则。
在原理上希望编辑在第一个图象组(GOP)和第二个图象组(GOP)之间的帧边界处或在任意帧点处将两个MPEG流连接起来。然而,因为MPEG编码和解码的性质,即象帧和缓冲约束条件之间的时间相关性这样的因素,会有许多潜在的问题出现。例如,视频信号可能是不可解码的。这是由于MPEG-2是参考其它的视频帧来编码视频帧的,如果一个参考帧丢失,那么相关的帧就是不可解码的。一个MPEG流包括独立的或内部编码的(I)帧,它是自我包含的并用作参考点;预测编码的(P)帧,它也可用作参考;以及双向预测编码的(B)帧,它用来自前面和/或后面的参考帧的预测来编码。
共同转让的WO-A-00/00981(PHB34262 WO)进一步应用桥序列的概念以在桥序列中重新编码帧并重新复用来自这两个流的音频和视频。这个桥序列将两个流链在一起而保持着编码的一致,使得可以实现精确到帧的编辑,从而经标准解码器进行平滑回放。
本申请尤其揭示了对这一方案的进一步的提高和适配。上面描述的现有技术假定记录是基于MPEG-2的节目流格式。最近希望有一种以MPEG传输流(TS)为基础的可替换的家用数字视频记录格式。关于这样一个录制格式的特征在我们共同未决的英国专利申请0007870.9、标题为“Methods and Apparatus for making and ReplayingDigital Video Recordings,and Recordings Made by Such Methods(用于制作和重播数字视频记录的方法和设备,以及用这种方法制作的记录)”(PHGB 000041)中被揭示。因此编辑和回放TS格式的记录又增加了除在PS格式下存在的问题以外的几个问题。
总结要解决的问题是用不正确的参考帧解码将会导致视觉非自然信号。重新排序TS中的视频帧会导致被编辑的流中存在不应该播放的视频帧。音频也受到编辑过程相似的影响。由于音频信号没和视频信号对齐,所以合并两个流会导致在编辑点处有不完全的音频帧,从而导致音频非自然信号。当组合流不符合MPEG缓冲器模型要求时,这将引起导致在解码器端丢失数据的缓冲器问题。当与视频帧一起被表达的音频帧在复用流中没有被对齐时,即一般在复用中对应的视频之前或之后最多一秒钟到达,就会发生音频歪斜失真。在用于(PCR/PTS/DTS)时间戳的时基内就会产生不连续。此外,TS分组内的连续性计数器在编辑点处也会不连续。
本发明人设想提供两种不同形式的编辑。有(i)简单编辑,其中流在图象组(GOP)的边界处以非无缝的方式接合,以及(ii)复杂编辑,其中流可以精确到帧并无缝地被接合,而不管GOP边界。每种编辑形式都需要小心的处理以避免上面详述的那类问题。MPEG规范规定了在传输流中用信号通知的“接合点”,既有无缝类型也有非无缝类型。然而,使用这些编辑点只可能到节目提供者已经在流中包含了这样的信令的程度,预定义的接合点不能在用户选择的帧处支持精确到帧的编辑的选择。
US 5 917 988(索尼公司)提出了一种设备和方法用于当跨越图象组(GOP)将流接合起来时,阻止有缺陷的图象的输出。提出的该方案重复其中一幅用于解码的参考图象以在回放中暂停而不是给出一副坏图象。揭示的该方法不产生平滑、精确到帧的编辑和回放,以及不考虑缓冲器的不连续性或复用连续性问题。
在专业应用中对流编辑的另外一个建议是EP 0 926 678 A2(Tektronix)。帧参考用编辑点周围的输入序列合成,仅使用利用了编辑设备中辅助存储的I图象来被解码并被重新编码。这种方法会产生无缝的编辑但不能解决由地址、复用、或音频问题引入的难题。而且,对快速辅助存储的需求并不提供适合用于消费者设备中的、存储在光盘自身上的一个编辑。更不用说只包括一连串I图象的桥序列会需要太高的数据速率以致不能被典型的盘存储设备的比特率约束条件接受。
本发明的目的是提供多种方法和设备用于被编辑的编码数据流例如MPEG-2 TS的平滑回放。应理解在MPEG-2兼容流的严格限制之外本发明也是适用的,因为当播放和编辑任何被编码的复用流时,通常也会产生相似的问题。
本发明人认识到采用不同的编辑数据流的形式是可能的,并且提出的任何方法必须考虑编码格式中固有的这个和其它的约束条件以便确保被编辑流的平滑回放,特别是经一个数字接口到一个外部解码器时。与MPEG传输流复用格式相关的问题被解决,以减少对用户造成的音频和视频的干扰。
按照本发明的第一个方面,提供了一个数据处理设备,该设备包括用于从一个存储设备中读取基于帧的数据序列并编辑它的装置,使得位于第一个帧序列内的第一个编辑点与位于第二个序列内的第二个编辑点链接起来而不违反由预定义解码器施加的约束条件,其中每个被存储的帧序列都包括至少一串传输分组,一串给定的传输分组包括各自的连续性计数器值,每个值按照预定义的连续性规则与前一个值相关,该设备包括用于计算连续性计数器值中由于链接所述的编辑点而导致的不连续的大小的装置,以及包括用于生成相应数目的额外传输分组的装置,每个传输分组都有自己的连续性计数器值,以便定义一个链接该第一和第二编辑点同时又符合约束条件和连续性规则的传输分组的被编辑序列。
在一个实施方案中,其中该第一和第二序列传送至少一个分组化的基本流,该基本流的分组本身已经被细分以形成所述传输分组,该设备还能适应于识别一个传输分组,该传输分组的净荷包括一个分组边界,以及适应于生成所述额外的一个或多个分组以便在它们被插入到该识别的分组之前时遵循所述的连续性规则。
该设备可以包括用于经一个数字接口输出包括所述额外分组的传输分组的被编辑序列的装置。
第一和第二序列以及被编辑的序列可以例如符合在此定义的MPEG-2规范。
基于帧的数据的第一和第二序列每个可以包括一个分组化基本流的复用,每个基本流有它自己的传输分组序列。连续性规则可以独立作用于每个基本流,该设备适应于按照为每个基本流单独计算出来的不连续的大小来给每个基本流生成额外的传输分组。
该设备可以包括用于生成和存储定义该编辑的额外数据以便允许该一起编辑的序列随后再生的装置。所述的额外的传输分组可以作为该额外数据的一部分被生成和存储。或者,该设备适应于在被编辑的序列的再生之前才生成该额外的分组。
在一种实施方案中,其中所述的第一和第二序列包括基于帧的数据,该数据包括不参考该序列中其它任何帧而被帧内编码的多个帧,以及参考该序列中至少一个其它帧而被帧间编码的多个帧,该设备可以包括桥生成装置,该装置被配置成生成一个传输分组的桥序列,以便通过有选择地合并来自存储的第一和第二帧序列的帧,并通过按来自第一和第二序列的、由各自的编辑点所指示的帧编码类型(帧内或帧间)所确定的那样有选择地重新编码桥序列内的一个或多个帧,而在编辑点周围将该第一和第二序列链接起来。
在这样一个实施方案中,额外的传输分组可被包括在生成的桥序列中。
所述的连续性规则允许在被编辑的序列中,在被某类帧头紧随的位置处有不连续性,在这种情况下,该设备适应于在该桥序列中包括这样一个不连续性,以便当插入所述的额外分组时确保在其它处符合该连续性规则。为了符合连续性规则这样一个实施方案只需修改较少的分组。
该设备可以包括用于将桥序列与所述的第一和第二序列一起以及播放列表信息存储在一个记录载体上的装置。在这样一个实施方案中,额外的传输分组可以被包括在被存储的桥序列中,或者可选地可以在再生时由该设备生成。
此外,按照本发明的第一方面,提供了一种方法用于从一个存储设备中读取基于帧的数据序列并编辑它,使得不会违反一个预定义解码器施加的约束条件,其中每个被存储的帧序列都包括至少一串传输分组,一串给定的传输分组包括各自的连续性计数器值,每个值按照一个预定义的连续性规则与前一个值相关,该方法包括计算连续性计数器值中由于链接所述的编辑点而导致的不连续的大小,并生成相应数目的额外传输分组,每个传输分组都有自己的连续性计数器值,以便定义一个链接该第一和第二编辑点同时符合该约束条件和连续性规则的传输分组的被编辑序列。
然而此外,按照本发明的第一个方面,提供了一个存储设备用于容纳第一和第二个帧序列以及将位于第一个帧序列内的第一个编辑点和位于第二个帧序列内的第二个编辑点链接起来的一个或多个桥序列。
第二个方面,本发明提供了一个数据再生设备,该设备包括再生装置,其作用是响应被存储的编辑数据,从一个存储设备中读取第一和第二个数据序列,该编辑数据将位于第一个序列内的第一个编辑点与位于第二个序列内的第二个编辑点链接起来以便输出一个希望的被编辑的序列,其中所述的第一和第二个序列每个都包括至少两个被复用的基本流,这两个被复用的基本流以符合一个预定义的解码器规范的形式被编码和被复用,这样在所述第一个编辑点处截断第一个序列并送入所述第二个编辑点处的第二个序列将会潜在地违反解码器规范内的一个或多个约束条件,所述的再生装置基本上通过有选择地再生所述编辑点附近的来自第一和第二个序列的数据进行而不用重新编码或重新复用所述的基本流来操作,这样所述的被编辑的序列,作为输出,就符合该解码器规范。
本发明在它的第二个方面还提供了一种方法用于再生被存储的数据,其中按照预存储的编辑数据,被存储数据的第一和第二个序列从一个存储设备中被读取并被再生,所述编辑数据将位于第一个序列内的第一个编辑点链接到位于第二个序列内的第二个编辑点,以便输出一个希望的被编辑的序列,其中所述第一和第二个序列每个都包括至少两个被复用的基本流,这两个被复用的基本流以符合一个预定义的解码器规范的形式被编码和被复用,使得在所述第一个编辑点处截断第一个序列并送入所述第二个编辑点处的第二个序列通常会违反该解码器规范内的一个或多个约束条件,所述的再生装置基本上通过有选择地再生在所述编辑点周围的来自第一和第二个序列的数据进行而不用重新编码或重新复用所述的基本流来操作,这样所述的被编辑的序列,作为输出,就符合该解码器规范。
然而本发明在它的第二个方面还提供了一个信号用于再生一个被编辑的数据序列,该信号按照本发明上面提出的一种方法来生成。
本发明的其它特征在附加的权利要求中被陈述,权利要求的公开内容在此引入作为参考,并请读者多加注意。而且,本发明的独立方面从下面的公开内容中会很明显。这些借助下面示例性的、而非限制的实施方案被进一步描述。
将参考附图
,仅通过例子来描述本发明的实施方案,附图如下图-1是一个示意性的方框图,表示了一个A/V装备,它包括一个适于实施本发明的光盘录制/重播设备;图-2更详细地示意显示了图-1设备内的元件;图-3代表在一张光盘上的一个序列区域内信息块的录制;图-4代表存储在图-3光盘上的信息的回放;图-5大体举例说明了编辑被存储的视频数据,忽略桥序列;图-6显示了一个桥序列的格式,该桥序列被录制成一个编辑过程的一部分;图-7举例说明了MPEG传输流(TS)格式的结构和关键特征,该格式形成了由图-1中的设备所做录制的基础;图-8举例说明了一个简单的(非无缝的)编辑操作;以及图-9举例说明了在一个复杂的(无缝的)编辑操作中,对一个桥序列中的数据的修改。
数字视频记录—概要下面的描述特别考虑了按照MPEG标准(用于MPEG1的ISO/IEC11172以及,特别是用于MPEG2的ISO/IEC 13818)操作的A/V设备,但是有技术的专业人员将会认识到本发明适用于其它不符合MPEG标准的A/V编码方案。
下面要描述本发明如何处理在MPEG传输流中实现精确到视频帧和/或音频帧的编辑的问题,其中由于时间相关性和用于MPEG编码和复用的缓冲模型而不能在任何帧的边界处做简单的剪切和粘贴编辑。
为了有助于在回放中不用双重解码的编辑,桥序列被生成,它是MPEG数据的短序列,被特别构造(以一种将被描述的方式)以便将两个MPEG数据的原始记录链接在一起。这在上面提到的WO-A-00/00981(PHB34262 WO)中已经被描述,原则上用于节目流格式的编辑。参考它的公布内容可以获得更多的背景。正如从那个文件中了解到,通常必须部分地解码和重新编码这个数据部分以便构造一个有效的MPEG流。
视频编辑中最后一个元素是一个控制结构或播放列表。它指导回放系统怎样将流完全排序。它指定原始流的输出点和关于桥序列起始点的信息。它指定在哪里从桥序列的结尾处跳到第二个流。它也可以包含其它信息以使回放管理更容易。
图-1在虚线框内示出一个设备的实施方案,该设备以一个光盘录制和回放设备的形式,适于作为本发明的宿主。在该设备的描述中,致力于处理基于帧的视频信号,尽管应认识到其它类型的信号可以替换或额外地被处理,例如音频或数据信号,并且本发明同样适用于其它存储设备例如磁数据存储设备和计算机硬盘设备。
该设备包括一个输入端1用于接收一个要录制到光盘3上的视频信号。该设备还包括一个输出端2用于提供从光盘中再生的一个视频信号。这些端子可以在使用中经一个数字接口例如IEEE 1394被连到一个数字电视接收机和“机顶盒”形式的解码器12,该解码器还可以从卫星、电缆或类似设备中接收MPEG TS格式的广播信号。解码器将显示信号提供给一个显示设备14,该显示设备可以是一个传统的模拟电视机。
光盘3的数据区由一个连续范围的物理扇区组成,该物理扇区具有对应的扇区地址。这个地址空间被分成序列区域,一个序列区域是一个连续扇区的序列。示于图-1的视频录制设备被分解成两个主要的系统部分,即光盘子系统6以及在此所指的视频录象机子系统8,后者用于控制录制和回放。这两个子系统的特征在于可以很容易被理解的多个特点,包括光盘子系统可以按照逻辑地址(LA)被透明寻址并能保证以最大可承受的比特率从光盘中读取数据和/或将数据写入到光盘中。
图-2更详细地示出该设备的示意性的型式。该设备包括一个信号处理单元100,它并入图-1中的子系统8内。该信号处理单元100经数字输入端1接收视频信号并将该视频数据处理成一个信道信号用于录制到盘3上。由虚线102指示出的一个读/写单元被提供,该单元并入图-1中的光盘子系统6中。该读/写单元102包括一个读/写头104,它被配置用于从光盘3中读取/写入到光盘3中。存在一个定位装置106用于在光盘3的径向上定位头104。存在一个读/写放大器108以便放大来自光盘3和到光盘3的信号。一个电动机110旋转光盘3以响应由信号生成单元112提供的一个电动机控制信号。存在一个微处理器114用于经控制线116、118和120来控制所有的电路。
信号处理单元100适应于将经输入端1接收到的视频数据转变成信道信号中的信息块该信息块的尺寸可以是可变的但应在(例如)2MB和4MB之间。写单元102适应于将信道信号的信息块写入光盘3上的一个序列区中。对应原始视频信号的信息块被写入多个序列区中,这些序列区不必是连续的,这可从图-3的录制图中看到,这种安排叫做分片断录制。盘子系统的特征在于,假如在录制时满足某些分配规则,那么它就能够足够快地录制和写入这样的分片断记录以满足实时的最后期限。
为了能够编辑在较早录制步骤中录制在盘3上的视频数据,该设备还配备了一个输入单元130用于接收录制在盘3上的第一个视频信号内的一个出口位置(出口点)并用于接收录制在相同盘上的第二个视频信号内的一个入口位置(入口点)。另外,该设备包括一个桥接序列生成单元134,它并入信号处理单元100中,用于生成桥接序列以便将这两个视频流链接起来,正如在下文中将要详细描述的那样。
图-3举例说明了一个视频信号的录制。在视频录象机子系统8中,视频信号是一个实时信号,它被转变成图-3的上面所示的一个实时文件RTF。该实时文件由一连串的信号块序列SEQ组成以便录制在对应的(尽管被分片断)序列区中。对盘上序列区的位置没有约束,因此,包括被录制的视频信号数据部分的任何两个连续的序列区可能位于示于图-3下面部分的逻辑地址空间LAS中的任何地方。在每一序列区内,实时数据被连续分配。每个实时文件代表单个A/V流。该A/V流的数据通过按文件序列的顺序将序列数据连起来获得。
图-4举例说明了录制在盘3上的一个视频信号的回放。一个视频信号的回放由存储在逻辑地址空间中其它地方的一个回放控制(PBC)节目来控制。通常,每个PBC节目定义一个新的回放序列PBS,该回放序列包括一个录制的视频和/或音频分段的被编辑的版本,并指定一个来自各个序列区的分段的序列。指向构成希望序列的各个序列的逻辑地址的指针被直接或间接包含在PBC中。从图-3和图-4的比较中可以看到,被需要以重新生成原始文件序列(来自图-3)的PBC重新排列了被分段录制的段以提供一个对应于原始序列的回放帧连续次序。
编辑数字视频记录—概要图-5举例说明了编辑录制在盘3上的一个或多个视频信号,并示出命名为“文件A”和“文件B”的这两个分段序列所指示的两个视频信号。为了实现较早录制的一个或多个视频信号的一个被编辑版本,一个新的PBC节目被生成用于定义A/V序列,该序列通过将来自较早A/V录制的部分按一个新的顺序连接起来而获得。被连接的部分可能来自同一个录制或来自不同的录制。为了回放一个PBC节目,来自(一个或多个)实时文件不同部分的数据必须传给一个解码器。这意味着将由每个实时文件代表的流的不同部分连接起来以获得一个新的数据流。在图-5中,这一点通过一个PBC节目来举例说明,该节目使用3个部分,一个部分来自文件A、两个部分来自文件B。
图-5示出被编辑的版本在文件A的一连串区域内的P1点处起始并继续直到文件A的下一个序列区中的P2点。之后再生跳到文件B序列区中的P3点并继续直到文件B的另一个序列区中的P4点。接着再生跳到同一文件B的P5点,该点可能是在位于文件B的一连串序列区中的P3点之前的点,或者是在位于一连串序列区中的P4点之后的点。再生从文件B的序列区中的P5点继续到P6点。用于P2-P3和P4-P5转移的桥序列的生成在图-5中被忽略,原因很清楚生成这些桥序列的原因和装置就要被考虑。
正如通常所理解的,下面的例子涉及基于帧的而不是基于字段的编辑。尽管编辑可以实现精确到字段级,但是MPEG趋向于成对地处理字段,所以需要做额外的处理工作来容纳一个帧的字段之间的一个编辑点。对为实现它所带来的额外的复杂性来说,对这种便利的要求被认为是不值得的。技术人员应认识到与MPEG兼容并不是强制性的(如上面提到的),在此描述的技术也可以适用于基于非MPEG字段的数据。
在帧间编码图象和帧内编码图象相交错的流中可以考虑两种类型的编辑。第一,在视频帧的边界处流被接合的地方可以做简单的编辑但却并不做什么来确保被组合的流能够平滑回放。假定在这种情况下回放跳到一个新的图象组(GOP)的开始处或其它适当的入口点,则精确到帧的编辑不是严格获得的。类似地,来自第一个序列的出口点可能被限制。用户甚至是系统可以指定精确到帧的出口点和入口点,但是考虑到图象编码类型的约束条件和可能的其它因素,回放系统实现的是最接近的逼近。
第二,当一个桥序列被生成以便处理两个流之间的不一致性时,可以设想更复杂的编辑。图-6举例说明了一个桥序列,可以被生成以包含示于图5中的任一编辑点。在桥序列的中心,如无阴影处所示,是一个确保被编辑的流满足缓冲和数据相关性的要求所需的被重新复用和重新编码的数据序列。这允许自由选择编辑点,而不管编码类型。在编辑点之前和之后的其它的A/V数据,如阴影所示,也被拷贝进桥序列,以便满足分配需求从而确保从盘子系统6进行连续的回放。上面提到的我们共同未决的申请WO-A-00/00981(PHB 34262 WO)描述了这些技术的基本原理。然而,特别是当编辑录制的格式是一个基于MPEG传输流(TS)的格式和类似格式时,几个实际的问题仍然可以以一种有效的方式被分析。
在这两种情况(简单和复杂编辑)下,假定原始流在盘上保持不变。一个桥序列被生成的复杂编辑通常在盘上来完成。简单编辑可在基于磁带的系统中实现,其中在任一视频帧边界处两个流在磁带上被连起来。在下面将要描述简单和复杂类型的编辑和回放过程的更多的细节。在本实施方案中,假定流以传输流(TS)类型格式被复用,而不是上面所指的现有技术中假定的节目流格式。
传输流格式图-7举例说明了MPEG-2传输流(TS)格式的关键特点和结构。在图-1的系统中,数据以基于TS的格式被存储在盘3上,类似于停止广播时接收数据的系统,以及系统中数据通过数字接口1和2被传送。TS在图中是一个连续的被标记为T-PKT的传输分组流,每个T-PKT包括188个字节的数据,并且具有示于图7顶部的格式。MPEG-2传输流的全部细节,包括语法、语义和适用的约束条件,会在ITU-T建议H.262|ISO/IEC 13818-1处得到。关于MPEG-2系统的信息可以在网上http//www.mpeg.org处得到。简而言之,每个传输分组包括一个头标部分和一个净荷部分,净荷由图中的DAT-0字节到DAT-N字节来指示。头标起始于一个特殊同步字节sync,后面跟随不同的标志和控制字段,包括一个传输错误指示符TEI、一个净荷单元起始指示符USI、一个传输优先级指示符TPI、一个分组标识符PID、传输加扰控制字段TSC、适配字段控制AFC和连续性计数器CC。
连续性计数器CC是一个4比特字段,它随着相对一个给定的PID的每个传输流分组而增加。CC达到最大值之后绕回到0。当分组中的适配字段控制指示没有该分组的净荷时,CC不增加。连续性计数器是传输流的一个特点,而不是节目流格式的特点,它被设计成允许设备去检测一个易出错信道中丢失的分组。一个丢失分组后面的分组通常必须被丢弃直到获得新头标中的新同步。然而这使得编辑TS流更困难解码器必须能够区分由编辑有意引进的不连续性,和由传输错误引进的不连续性。
根据字段AFC的内容,可能存在一个适配字段AF,它占据了否则会分配给净荷数据的一些空间。该适配字段AF可以例如包含一个如在ISO/IEC 13818中给MPEG2定义的不连续性指示符标志。当该标志被置为“1”时,就指示当前的传输流分组的不连续性状态为真。不连续性指示符用于指示两种不连续性类型,系统时基的不连续性和连续性计数器的不连续性。除了可选择的有预定义意义的数据字段外,适配字段可以用填塞字节来填充,以便使PES分组的结尾与TS分组边界匹配。
一个系统时基的不连续性通过使用一个PID的传输流分组内的不连续性指示符来指示,该PID被指定携带一个节目时钟参考PCR(指的是ISO/IEC 13818-2中的2.4.4.9节)形式的系统时基。引用该规范,当一个其PID被指定为PCR_PID的传输流分组的不连续性状态为真时,下一个具有相同PID的一个传输流分组中的PCR代表对相关节目的一个新系统时钟的取样。在系统时基的不连续性发生的分组中,它的不连续性指示符应被置为“1”。在包含新的系统时基PCR的分组之前的、具有相同PCR_PID的传输流分组中,不连续性指示符比特也可以被置为“1”。在这种情况下,一旦不连续性指示符已经被置为“1”,则在直到且包括包含新系统时基的第一个PCR的传输流分组的、具有相同PCR_PID的所有传输流分组中的不连续性指示符将一直被置为“1”。
与系统时基中的不连续性成对比,一旦被不连续性指示符标志,该不连续性在有效的传输流中便是预期的,并且解码器就无缝地播放这些有效的传输流。连续性计数器值中的不连续性尽管由不连续性指示符通知为“知道”,仍然会使典型解码器将数据作为无效来处理,直到新的序列头标被发现以重新同步音频/视频帧结构,并证实解码参数。
再次引用MPEG规范,一个连续性计数器中的不连续性通过用任一传输流分组中的不连续性指示符来指示。当PID没被指定为PCR_PID的任一传输流分组的不连续性状态为真时,那个分组中的连续性计数器对于前面具有相同PID的传输流分组而言可能不连续。当PID被指定为PCR_PID的传输流分组的不连续性状态为真时,只可能是在系统时基的不连续性发生的分组中的连续性计数器才是不连续的。当一个传输流分组内的不连续性状态为真并且同一分组内的连续性计数器对前面具有相同PID的传输流分组而言是不连续的时,一个连续性计数器的不连续出现。
在一个被指定为包含基本流数据的传输分组内连续性计数器的不连续性出现后,一个具有相同PID的传输流分组内的基本流数据的第一个字节应是一个基本流接入点的第一个字节。在音频的情况下,这个接入点是一个新音频帧的起始点。在视频的情况下,一个视频序列头标的第一个字节,否则就是一个由视频序列头标跟随的序列结尾码,将作为一个接入点。每个传输流分组应在对于相关节目的系统时基的不连续性出现时到达T-STD的输入,所述的传输流分组包含基本流数据,具有没被指定为PCR_PID的PID,并且其中一个连续性计数器的不连续出现,以及其中一个PTS或DTS出现。在不连续性状态为真的情况下,如果具有相同PID的两个连续传输流分组出现,它们具有相同的连续性计数器值并且适配字段控制值被置为“01”或“11”,那么第二个分组可能被丢弃。一个有效的传输流不应该用这样的一个方式被构造,因为丢弃这样一个分组会引起PES分组净荷数据或PSI数据的丢失。
在DVB数字广播格式的例子中,TS流的数据速率大约为40(Mbits/s),而一个音/视频节目的典型数据速率小于10Mbits/s。因此,正如在图-7的TS格式处所示,不同的节目PROG1、PROG3可以被复用成一个单个传输流。每个传输分组的字段PID指示该分组涉及的一个基本流,该基本流与大量其它的流以传输分组为单位来交错。一个节目可以例如包括一个视频流(在例子中PID=‘055’),一个音频流(PID=‘056’)和图文电视数据流(PID=‘057’)。PID值和节目间的对应以及每个PID携带的数据类型以节目特定信息(PSI)表的形式被保存。周期性地,在传输流内一个节目相关表PAT被一个特殊的PID=0的传输分组流所携带。PAT进而又向PROG1、PROG3等等指示哪个流携带一个节目映射表PMT,哪个全部列举了涉及单个节目的不同PID值,并描述了每一个的内容(视频、音频、可选的语言音频等)。这些表和其它用于控制目的的数据在此称为系统信息。
要从传输流中再生或录制一个给定的节目(PROG1),具有该PID的连续传输分组的净荷DAT-0到DAT-N被连成一个流,这个流携带分组化的基本流分组PES-PKT,它在MPEG-2规范中被进一步定义。每个PES分组开始于一个特殊的分组起始码前缀PSCP。接下来在PES分组头标中是一个流标识符SID,用于标识基本流的类型(例如视频、音频、填充流或专用流)。PES分组没有固定长度,除非在一个特定应用中被指定,一个PES分组长度字段LEN指定PES分组的字节数。接着是多个控制和标志字段C&F,包括例如数据对齐指示符DAI和一个头标长度字段HLEN。根据C&F字段中相关标志的值,在头标HDAT内存在多个可选择的字段,例如,存在一个表达时间戳PTS,它相对一个系统时钟指定在本PES分组中开始的一个“表达单元”(图象、音频帧等)应该被表达的到期时间。在某些情况下,表达单元用与它们的表达顺序不同的顺序被解码,在这种情况中解码时间戳DTS也可以存在。
具有相同SID的连续PES分组的净荷PY-0到PY-N形成了一个连续的基本流数据,被示意性地示于图-7中的ES处。在一个视频基本流ES-视频的情况下,存在不同图象序列或剪辑SEQ,每个序列在它的起始处包括一个序列头标SEQH。解码器的多个参数,包括量化矩阵、缓冲器大小等等,在序列的头标中被指定。因此,视频流的正确回放只能通过在一个序列头标的位置处启动解码器来获得。在每个序列的数据内有视频数据的一个或多个“接入单元”,每一单元对应一幅图象(依靠应用是字段或帧)。每幅图象之前是一个图象起始码PSC。一个图象组GOP之前是一个组起始码GSC,都跟随在一个特定的序列头标SEQH之后。
众所周知,MPEG-2格式和其它现代数字格式的图象通过参考一个和其它图象被编码以便减少时间冗余。运动补偿根据已经解码的一幅相邻图象或几幅图象的内容提供一幅图象内容的估值。所以一个图象组GOP将典型地包括一个帧内编码“I”帧,它不参考其它图象被编码;两个或三个“P”(预测)编码图象,它基于前一个I帧使用运动矢量来被编码;以及双向预测“B”图象,它通过从序列中之前和之后的I和/或P帧进行预测来被编码。一幅B图象需要的数据量少于一幅P图象需要的数据量,进而又少于一幅I图象需要的数据量。另一方面,既然P和B图象只通过参考其它图象来被编码,所以只有I图象提供一个给定序列的起始回放的一个实际入口点。此外,应注意到GOP数据,I和P图象在对应的B图象之前被编码,在解码后被重新排序以便获得正确的表达顺序。因此,B和P图象是表达时间戳PTS和解码时间戳DTS可能不同的例子。一个图象组GOP部分在图-7的视频-ES下被举例说明。
最后在图-7中示出一个音频基本流ES-音频的表达。这包括具有帧起始码的数据FRM的简单帧。允许不同的音频格式,按照采样率(32kHz、48kHz等等)还有数据速率(例如32kbits/s,或可变)来变化。音频和视频流的这些和其它属性被编进节目特殊信息PSI、PES分组头标和帧头标中。
具有相同表达时间戳PTS的音频帧和视频图象是要在解码器的输出处被同时表达的。另一方面,有很大的自由来安排来自不同基本流的数据分组,这样具有相同PTS值的音频和视频接入单元能在传输流TS中相距最多一秒钟到达。
系统目标解码器为了确保一个真正解码器的缓冲和其它方面能够解码每种类型的流而不用打断被表达的音/视频节目,MPEG-2标准指定了一个传输流“系统目标解码器”(T-STD)模型和一个节目流系统目标解码器(P-STD)模型。概括地说,每个系统目标解码器都是一个假定的真正解码器模型,该解码器具有用于解复用TS或PS格式的不同基本流的装置、具有用于音频、视频和系统控制类型数据中任一个的解码器、以及具有在输入流和解码器之间的缓冲器,用于容纳从一个数据信道中到达和解码与表达的实际时间之间的每一基本流数据。
正如在MPEG-2规范中更全面解释的那样,T-STD和P-STD在一般形式上都一样。然而,T-STD和P-STD之间的差异意味着,大体上,一个传输流如果不经过至少在PES分组级上的重新安排就不能被直接映射成一个节目流,从PS到TS格式的转换也类似。举一个例子,TS格式的音频解码器中的缓冲器尺寸比P-STD的缓冲器尺寸小。举另一个例子,在T-STD中的每一个主要缓冲器之前都是一个传输缓冲器,其作用是平滑传输流本身中相当“突发的”数据。当一个给定流的数据以每秒40兆比特的峰值速率突发到达几个传输分组时,考虑整个传输流的复用,这种流的平均速率要低的多。假定有数据被传送进主缓冲器,一个“漏出速率”被定义给传输缓冲器以便调节输入数据,使其速率为2Mbits/s(音频)和18Mbits/s(视频)。
简单编辑对于简单编辑,在编辑中不做什么去确保流被平滑回放。特别是,没有桥序列被生成和存储。所以,设备必须处理在回放时间的问题。通常不可能保证完美的回放,但是提议方法的目的是尽可能地减少对用户的干扰。
将两个MPEG流在任意帧边界处接合会引起的潜在问题有1.视频可能是不可解码的如上面解释的,MPEG通过参考其它视频帧编码大多数的视频帧。如果一个参考帧的数据丢失,那么相关的帧将是不可解码的。如果一个帧用不正确的参考帧来被解码,结果将是干扰的视频非自然信号。同样,因为重新排序了MPEG TS中的视频帧,所以可能有不应该被显示的视频帧保留在被编辑的流中。
一种特殊情况是选择入口帧和出口帧使得它们都是可以解码的。当用户能自由选择出口帧和入口帧时这种情况可能会随机发生,但一般并不是这样。在一个可替换的实施方案中,用户将被强制只选择某些帧作为出口点和入口点。
2.不完整音频帧音频和视频帧被拆分成188字节长的传输流分组并且这些传输流分组在传输流复用中被交错在一起。在复用中音/视频帧边界间没有对齐。所以在视频帧的边界处接合两个流时会导致在编辑点处的不完整音频帧。解码器尝试解码这些不完整音频帧会导致音频非自然信号。
3.缓冲器问题MPEG规范的一个主要特点是在一个环境范围内(见上面的系统目标解码器)定义缓冲器容量和解码器行为的参数。将两个MPEG兼容流的各部分在任意点连接起来获得的一个流通常不符合MPEG缓冲器模型。一旦回放,这可能会导致解码器因缓冲器上溢出或下溢出而丢失数据,从而产生音频和/或视频非自然信号。
4.音频歪斜与视频帧一起被表达的音频帧在复用中没被对齐。典型地在复用中对应视频的音频比视频晚到。然而,通常在复用中音频在对应的视频之前最多一秒或之后最多一秒到达。
5.时基的不连续性用于PCR/PTS/DTS时间戳的时基在编辑点处是不连续的。两个时基之间正确的偏移由(i)第一个序列中最后一个帧的PTS加上一个帧周期和(ii)第二个序列中第一个帧的PTS之间的差值给出。
6.连续性计数器的不连续性在TS分组中的连续性计数器在编辑点处将是不连续的。这引起解码器禁止每个分组的再生直到找到一个新的序列头标。
将要描述的方法和设备解决了这些问题。
简单编辑的生成对于简单编辑,在编辑中不改变流,但一些额外的数据(“元数据”)应作为播放列表部分被存储以用于被编辑的录制。特别是,指针被存储用于标识(i)在第一个流中被显示的最后一个帧结束处的点,以及(ii)在第二个流中被显示的第一个帧起始处的点。例如,对于图-5例子中的第一个编辑,这些指针将分别指示P2点和P3点。这些被存储的指针或者直接指向数据的逻辑地址,或者索引一个时间值。在后一种情况下,时间指针通过参考特征点信息或CPI的一个查找表可以被翻译成地址。CPI是一个索引形式,来索引至少被存储节目的一段,标识(表示)比特流内每一个图象序列起始处的位置。
同样被存储的有(iii)两个时基之间的表达时间内的偏移,由第一个流的最后一个帧的PTS减去第二个流的第一个帧的PTS来给出。注意如果偏移在下面将要被描述的步骤1到步骤4中提出的调整之后被存储,那么回放将更简单。然而也有可能有一个实施方案,在该方案中偏移不经调整就被存储,而该调整按回放中的需要进行。这需要在回放中读取和分析数据。
经数字接口简单编辑的回放经一个内建解码器再生被编辑的流,在原则上任何程度的复杂处理都是可能的。然而,要使得在一个标准STB上回放简单编辑而没有任何烦人的非自然信号,那么图-1中的设备要实现下面的过程。这包括要实现的关于回放的步骤,以及要实现的生成额外的数据以定义编辑的步骤。
1.只发送可解码的音/视频给STB。
在用于编辑的元数据中的指针被选择以确保第一个流总是在P或I帧之前结束(在比特流中,与表达顺序相反),而第二个流总是以一个I帧起始。只有完整的音频帧被发送给解码器。在音频表达中的一个缝隙将被留在编辑点。不想要的音频分组通过将每个分组的PID变成0×1FFF从而指示为一个空分组而被从流中删除。这不会引起连续性计数器的问题,因为只有在紧靠连续性计数器的不连续之后或之前的分组才被立即删除。
2.确保没有缓冲器上溢出。
为了确保没有缓冲器上溢出发生,在编辑点处的缓冲器的状态应被计算。使用下面的算法,而其它算法也同样是可能的(a)计算在该编辑点处原始第二个流的缓冲器满度Dbuff。这通过将所有在编辑点之前但具有在编辑点时间之后的DTS时间的视频帧的尺寸相加能被很容易地计算。
(b)计算在编辑点处第一个流的缓冲器满度Sbuff。这可以用与第1点相似的方法来计算。
(c)如果Sbuff>Dbuff,那么将一个帧周期加上流之间的偏移并在比前一个帧周期晚一个帧周期时将Sbuff的值调整到缓冲器满度。
(d)重复第3点直到Sbuff<Dbuff。
这将确保没有缓冲器上溢出。对上面提到的步骤(c)和步骤(d)的一个可替换的方法就是在步骤(c)中保持偏移恒定而将第一个流中的编辑点移动以排除最后帧。实际上不止一个帧需要被移走以确保第一个流总是在一个P/I帧之前结束。在任一种情况下回放的结果是来自第一个流的最后一个帧将被冻结在显示器上超过一个帧周期。这两种方法可以组合使用,这样可以减少只用一种方法对用户满意度产生的负面影响。
如果在GOP边界处来编辑,那么在大部分情况下在第一个流的结尾处和第二个流的起始处的缓冲器满度将很相似。所以通过选择只在GOP边界处进行编辑我们可以大体上减少这样的量,即这样流之间的偏移增加的量以及从而减少了在被编辑序列的回放中一个冻结帧显现的时间。因为这个原因该设备的设计者可能决定用户只能选择GOP边界。然而,通常用户可以自由选择编辑点,有或没有该设备关于怎样是最佳选择的建议。
3.确保没有缓冲器下溢出两个流之间的偏移最初是从PTS值中被计算并象如上所描述的那样被调整。第二个流开始装载的时间按照第一个时基、使用该偏移、第二个流中的第一个PCR时间戳和复用速率来计算。如果暗示的第二个流开始装载的时间在第一个流结束之前,那么因为这不可能发生故会有一个潜在的问题。结果是第二个流开始装载的时间要比复用中暗示的时间晚,并且这可能导致缓冲器下溢出(此时一个帧的数据在它的解码时间处还没有被全部装载)。要解决这个问题,在将两个流之间的偏移录制进额外的用于编辑的数据之前,该偏移简单地增加帧周期的倍数直到两个流之间的装载时间没有重叠为止。
4.更新时间戳PCR/PTS/DTS在回放中,设备在编辑点之后更新所有的时间戳以便解码器看见一个连续的流。用于更新该时间戳的偏移通过编辑点之后的第一个帧和该编辑点之前的最后一个帧的PTS间的差值被给定,如果在上面的不同步骤中需要就被调整。因为不是所有的帧被显示,所以在音频和视频的表达时间内将有一个缝隙。解码器应冻结视频并屏蔽音频(见MPEG-2一致性规范,ISO/IEC 13818-41995,2.3.3.1.1节)。如果时间戳不被更新,那么解码器将假定音频和视频是连续的。这可能导致缓冲器的上溢出和数据的丢失。
5.在连续性计数器的不连续处设置不连续性指示符一个视频序列头标通常在一个GOP起始处被发送,所以,根据上面的第1点,编辑之后视频基本流内的第一个字节将是一个视频序列头标。同样,第一个音频分组应包含一个音频帧的起始。在回放中,该设备在这些分组中设置不连续性指示符比特。
并不强制在一个GOP的起始处存在一个序列头标。然而如果没有序列头标那么解码视频流可能会有问题,因为解码器不知道解码流需要的量化矩阵。在广播流中当改变信道时一个类似的问题产生了,并且因为这个原因典型地广播设备在流内的小的时间间隔内包括一个序列头标。所以当在第二个流内选择点来编辑时,该设备不选择下一个方便的I帧,而是选择其前面是一个序列头标的下一个I帧。
跨越编辑点时字段序列(从上到下)不需要被保存,然而,如果字段序列不被保存那么这两个流之间的偏移将是奇数个字段周期。这包括32下拉(pull-down)的情况。分辨率变化和混合的帧速率(例如来自NTSC和PAL)可能导致烦人的非自然信号所以应被避免。
尽管简单的编辑被精确到帧来生成,但是通过一个数字接口它们被精确到GOP来回放。图-8示出一个例子。编辑被精确到帧来生成的事实留下的可能性是在另一个设备回放期间有更多复杂的处理,例如使用一个内建解码器。因此经一个标准接口和解码器进行再生的最重要需求可以被满足而不会阻止实现所允许的更好的性能。
鉴于上面的考虑,下面的行动由设备来实现以经数字接口1回放简单编辑(图-1)
A1.第一个流被回放直到X点,它是前一个GOP的结尾。在此考虑的录制系统中,这样的点可从特征点信息CPI中找到,该CPI被自动存储在盘上的播放列表数据中。我们共同未决的申请PCT/EP99/08252(PHN 17161)未在本申请优先权日被公布,描述了CPI可能的应用和格式。原则上,可以通过分析足够的流直到找到序列头标来得到同样的信息。
A2.一直到X点的传输分组按照它们到达的时间戳被发送。在第一个流的结尾处,具有一个不连续性信息表(DIT)的一个传输流分组被插入。DIT是DVB标准系统信息的一部分,而不是MPEG本身。基本上,DIT指定在一个部分传输流中在何处找到不连续。在ETSI文件EN 300 468“数字视频广播(DVB);用于DVB流的业务信息(SI)规范”中可找到更多细节。
A3.在第一个流的结尾处,传输分组被带有第二个流的节目分配表(PAT)地插入并且传输分组被带有第二个流的PMT地插入。这些分组也在适配字段AF中设置不连续性指示符以避免解码器将它们作为错误的分组而丢弃。
A4.通过分析直到X点的第一个流的结尾,可以确定X点处最后一幅图象的DTS和STC(PCR)。在X点和被插入的用于PAT/PMT的传输分组之后,分组的传输被暂停直到STC值大于最后一个帧的DTS。可替换地,可以用一秒钟的延时(最大被允许的时延)。然而,用被存储的偏移信息,本设备能最小化新帧表达之前的缝隙。特别是,从入口点起观察第二个流,播放器找到在一个新时基下的PCR值。被存储的偏移能被加到运行在第一个流内的STC上,以便按照新的时基获得一个当前时间值。当这与在第二个序列的入口点处被编码的PCR相匹配时,分组可以继续传输。应注意到不是所有的入口点都能在紧接的附近方便地编码PCR。然而,设备可能在编辑点之前或之后读取并推断希望的在PCR代码之间的STC(在新的时基下),或者简单地等待直到下一个PCR到达。在一个PCR和下一个PCR之间最大允许0.1秒的缝隙,建议至少每0.04秒重复。因此,即便不能立即得到新的时间值,通常仍旧可能以比其它情况下建议的“安全的”1秒钟时延快得多的时间来重新开始安全地供给分组。
A5.在分析流直到点X期间,很容易知道最后一个视频帧什么时候开始。在分析与最后的视频帧复用的数据期间,一旦一个新的音频帧的起始处被找到,这个音频分组和所有后面具有相同PID的音频分组都将它们的PID改为0×1FFF(空分组)。这是要避免不完整音频帧被发送给解码器的情况。对所有的音频PID都应该这样做。因为音频帧并不与传输分组对齐,所以可能需要填塞最后音频帧的一部分以便移去下一个音频帧的起始。填塞或者通过加一个PES填塞分组或者通过加一个适配字段来完成。该适配字段允许任意希望数目的数据字节被加到PES分组上,正如在MPEG规范中描述的那样。该数据对填塞的目的来说可能是无意义的。
A6.第二个流在点Y处开始播放,该点是入口点(从和播放列表存储在一起的CPI中找到)之后的GOP的起始。第二个流在上面步骤A4中定义的时延之后开始播放,并且在那之后传输分组按照它们具有一个对应偏移的到达的时间戳来发送。
A7.每个基本流有它自己的PID。对视频PID,一个不连续性指示符置为1的传输分组和流标识符为0×BE(填充流)的一个PES分组被插入,其中连续性计数器被置为比第一个视频分组少1。
A8.在第一个视频PTS之前的带PTS的音频(“引导音频”)被丢弃。
A9.对每个音频PID,所有的分组应被删除直到下一个音频帧开始。如果第一个剩余的音频传输分组有一个适配字段那么不连续性指示符应被置为1。再有,可能需要填塞第一个音频分组以便移去前一个音频帧的结尾。
A10.如果有一个专用的PCR PID那么在具有一个PCR的第一个分组内应设置不连续性指示符。如果PCR PID也与音频或视频共享那么设置不连续性指示符通常是不方便的,因为这个指示符位于适配字段内。要插入一个适配字段来改变分组的净荷,需要我们重新分组化并重新定时剩下的流。这特别是这样,因为一旦指示符被设置就必须在所有的分组中被设置直到PCR。如果不这样做STB行为就不在MPEG规范中被定义。
用于无缝回放的复杂编辑复杂编辑—生成对更复杂的编辑的情况,一个桥序列象上面参考图-6被描述的那样被生成。然而,在此描述的新的方法和设备采用下面的额外的约束条件1.在音频表达中应有一个小的缝隙(<1帧周期)而不是重叠。这是为了在经一个数字接口前向传送音频流时,可以避免使标准的解码器迷惑。相反,在WO-A-00/00981(PHB 34262)中提议应提供在零和一个帧之间的正重叠。这两种方法都有优点。重叠的一个优点是如果希望,一个内建的解码器能比标准解码器更复杂地处理音频编辑,例如通过从一个流到另一个流的交替淡变。然而,当通过数字接口播放到一个标准解码器(STB)时,设备应抑制重叠的一个或其它部分。
2.两个可替换的情况适用于音频的处理。在第一种情况下,音频应被重新复用以满足MPEG-2缓冲器约束条件,意味着来自第一个流的一些音频将和来自第二个流的视频复用在一起。在编辑点之后来自第一个流的音频帧的PTS/DTS值一定由一个适当的偏移来改变以指出第二个流的时基。在传输流系统目标解码器模型(T-STD)中的音频缓冲器模型不同于节目流(P-STD)的音频缓冲器模型。在桥生成期间,一定要确保重新复用的流满足T-STD。
在第二种情况下,在第一个和第二个数据流之间没有保存与单纯停顿(clean break)的混合。在这样一个被编辑序列经一个数字接口的回放中,某些音频一定被丢弃以避免在下文中将要详细描述的在STB中的缓冲器的问题。
3.当桥被生成时,在开始处连续性计数器CC应与前一个流保持一致。
4.考虑在桥序列的结尾处的连续性计数器(CC),一定要注意设法避免被编辑的流被错误地丢弃。注意桥序列中的CC值在桥序列的合成中能被自由设置,但是桥的任一边的被存储序列中的CC值被认为是固定的。
在第一个实施方案中,每个流的连续性计数器被设置成在整个桥序列中平稳增加,特别是跨越编辑点的连续性被提供。在桥序列的每个流内的分组数量只是偶然正好是被编辑的流中某一点处避免连续性计数中的不连续性所需的分组数。
同样,在桥序列的结尾处,通过插入空的PES分组(PES头标但不是数据),连续性计数器与流的剩余部分保持一致。不保证播放器跳回到第二个流的点就是对音频和视频来说的一个PES分组的起点,并且将填充分组插入一个“真正的”PES分组中间将会扰乱净荷和分组结构。所以在桥序列结束之前的一个合适的点,在每个基本流内进行CC填充,使得对音频和视频来说新的分组在一个新的PES头标之前被插入。假定桥中最后分组的数量被考虑,则在桥序列中最后计数器的值能与随后的流保持一致。在这个上下文中,如果只有桥序列中的“核心”被考虑就足够了,排除那些只是被拷贝以满足分配规则的那些分组。
应注意到MPEG定义了空的分组以填充传输流。然而,这些对桥序列内CC填充目的来说是无用的,因为在解码器中它们被连续性计数功能忽略。空分组可由重新复用过程来被插入或被删除,所以,不能假定空分组的净荷被递送到解码器。本发明人已认识到假定一个PES分组被包括在每个填充分组内,那么就可以获得CC填充。MPEG解码器对一个没有净荷的分组不会增加连续性计数器。所以为了CC填充的目的,本设备使用一个真正的传输分组,该分组内有一个完全的,但却是空的PES分组。
这样的空分组可能有不同的格式。一个优选的例子在与此相关的附录A中被举例说明,该例使用标准的MPEG语法。尽管MPEG允许在一个音/视频ES分组头中填塞,但是这种选择不合适,因为最大允许填塞32字节。在附录A中的例子中,填塞由一个额外的基本流(流标识符=填充流标识符0×BE)来实现,而不用于实际净荷(指的是图-7中的SID和ISO/IEC 13818-2 2.4.3.7节)。附录B举例说明了一个可替换的例子,其中填塞可在一个活动音频或视频ES的适配字段内被实现。附录C举例说明了另一个可替换的例子,在一个专用的填充流的适配字段内填塞。
复杂编辑—举例图-9举例说明了在本实施方案中对桥序列所做的修改,作为上面描述的一系列步骤的结果。为符合分配规则(图-6中的阴影区)而拷贝的数据为了简洁而被忽略。正如上面解释的,每个基本流(每个PID)需要分别处理一个音频流的TS分组用虚线示于视频分组的后面。不需说,尽管只有几个分组被示出以举例说明本过程的关键特点,但真正的桥序列典型地包括几千个188字节的分组。同样,视频分组和音频分组的比率通常比方框图中建议的要低的多,实际上大约是12∶1。
在视频流中,为了举例,桥序列靠近结尾处的一个分组在附图中用双线绘出,其中设备已经找到了进入第二个流SEQ2的入口点之前的最后一个PES头标。4比特的CC值在每个分组中由十六进制数字(‘0’到‘9’,‘A’到‘F’)来指示,该值随着每一个被发送的具有一个给定PID的分组而加1。加粗的分组是已经由编辑过程插入到视频流中的空分组。在桥序列中的其它分组被重新编码和/或重新复用。它们的CC值用粗体示出。SEQ2中的第一个分组用三条线绘出用于指示此处的一个视频序列头标提供了到第二个流的一个有效进入点。
跟随在从第一个流起的连续性计数器值的序列之后,我们看见在第一个流SEQ1内的视频ES以一个具有CC=5的分组结束(为了跳到桥序列的重新编码部分的目的)。所以在桥序列的构造期间,桥内视频ES数据的第一个分组将CC置为6,这样就给跨越第一个流SEQ1的入口点提供了连续性,并且从该点CC值接着是7、8等等,通过编辑点(未示出)并朝向桥序列的结尾处。
在某一点,需要存储与编辑点相关的新的PMT、PAT和PCR值。在这个实施方案中,桥的第一个分组(用粗体示出)是插入的PID=0的一个分组以便传送PAT、PMT和其它编码。这些分组带着当前下一个指示符字段表示“下一个”被发送以指示它们预备好给编辑点之后的序列。PID=0的流的CC值的序列独立于视频流和音频流的序列。为了示例,基于在第一个流SEQ 1内PID=0的最后一个TS分组具有CC=8,带PAT/PMT的被插入的分组用CC=9示出。
返回作为主要例子的视频ES,被存储在盘上的第二个流SEQ2内的第一个分组具有CC=3,并且这将不会改变。在重新编码和重新复用桥序列的中心之后,以及具有来自第一个流SEQ1的出口点的连续性,就会发现在桥中的最后一个CC值将是‘D’,它比在接合第二个流时连续性所需要的值少了5。因此,在这个例子中的编辑设备已经在桥的最后部分插入了五个空分组,以便与第二个流(SEQ2)连续。从桥序列的结尾处向后计数,CC=2、1、0等等,用双线示出的CC=E的分组被找到以与具有一个PES头标的视频ES的最后TS分组相一致。设备紧接着在它之前插入五个额外的空分组,CC=9、A、B、C和D,从而在整个编辑中建立了CC连续性。
不同数目的空分组适用于每个音频流和系统信息流,桥内最后PES头标的位置可以不同于视频流的PES头标的位置。为简单起见,在图-9中只举例说明了视频ES中分组的插入。
应意识到永远不需要在每个流中插入多于15个的空分组,因为4比特值是滚动循环的。同样,大约有16分之一的情形没有空分组需要被插入,因为由于偶然的原因CC可能在编辑时是连续的。更明显的是在所示的最后可能的点处不需要捆绑插入的分组,但可以在一个较早的点这样做,并且如果优选的话可能扩展到更大的间隔。
不连续性指示符只需在时基改变的时候被设置,原则上这可以在桥序列中的任何地方,但是在希望的编辑点处,在桥序列中间的某个地方可以最容易地被实现。
在上面技术的一个变体中,一个连续性计数器的不连续性可以留在编辑点处(在桥内),但是在连续性计数器的不连续发生的分组中设置不连续性指示符比特。回想一下,按照MPEG的不连续性状态会持续直到一个新的序列头被找到。通常在编辑点后会有一个视频序列头和一个新的音频帧的起始,所以不连续性状态对回放没有影响。要实施这个变体仍然需要从桥序列结尾处后向工作直到使得在桥的结尾处连续性计数器一致。
复杂编辑经数字接口的回放既然编辑和桥序列被构造成与MPEG-2无缝兼容,对播放器来说几乎没有什么处理工作要做。唯一的问题是有一个时基的不连续性(在PCR时间戳中)和多余音频。
在回放中PCR不连续性通过以下过程被消除C1.在PCR分组内将不连续性指示符设置成0;以及C2.通过编辑点之前的最后一个PTS和编辑点之后的第一个PTS之间的偏移来更新所有的PCR/DTS/PTS值。
对于接下来的编辑点,新的偏移一定要加到前一个偏移并使用组合的值。
作为一个替换,如果PCR不连续性没有被消除,那么带一个DIT表的传输分组可以在编辑点处被插入。
要避免音频缓冲器模型带来的问题,需要删除一些音频分组。在第一个流SEQ1的最后视频帧结束后,一旦发现开始了一个新的音频帧,那么该分组和接下来的所有音频分组在经数字接口发送之前应被删除。传统的空TS分组可以插到它们的位置上,以保持TS格式。领头的音频(即在第一个视频分组前的音频)同样被删除以避免音频缓冲器上溢出的问题。
可替换的实施方案正如通常所理解的那样,前面的例子涉及基于帧的编辑而不是基于字段的编辑这是因为在MPEG中视频编码的通用单位是帧。技术人员应认识到MPEG兼容不是强制性的(如上面提到的),在此描述的技术也同样适用于基于非MPEG字段的数据。
对于在上面第4点处谈到的桥序列的分组内连续性计数器的处理,可以设想可替换的方案,该方案可以满足无缝编辑的需求。然而,由于在回放时间特殊的处理是最少,所以上面提到的技术是优选的。一个这样的替换是在桥生成期间对连续性计数器不做校正。在回放期间,通过如上面讨论的将额外的分组插入每个PID流中,而使连续性计数器在跨越编辑点时是连续的。
附录A
附录B
附录C
权利要求
1.一种设备,包括用于从一个存储设备中读取数据序列并编辑它的装置,使得位于第一个序列内的第一个编辑点与位于第二个序列内的第二个编辑点链接起来而不违反一个预定义解码器施加的约束条件,其中每个被存储的序列都包括至少一串传输分组,一串给定的传输分组包括各自的连续性计数器值,每个值按照预定义的连续性规则与前一个值相关,该设备包括用于计算连续性计数器值中由于链接所述的编辑点而导致的不连续的大小的装置,以及包括用于生成相应数目的额外传输分组的装置,每个传输分组都有自己的连续性计数器值,以便定义一个链接第一和第二个编辑点同时符合约束条件和连续性规则的传输分组的被编辑序列。
2.如权利要求1中的设备,其中至少所述的第一个序列传送至少一个分组化的基本流,该基本流的分组本身已经被细分以形成所述的传输分组。
3.如权利要求2中的设备,其中该设备适应于识别一个传输分组,该传输分组的净荷包括一个分组边界,并且该设备适应于生成所述的额外分组,以便当其被插入到被识别的分组之前时遵循所述的连续性规则。
4.如权利要求1到3中任何一项的设备,包括用于经一个数字接口输出传输分组的所述被编辑序列的装置,该传输分组包括额外的分组。
5.如权利要求1到4中任何一项的设备,其中数据的第一和第二个序列每个都包括多个分组化基本流的一个复用,每个基本流具有自己的传输分组序列。
6.如权利要求5中的设备,其中连续性规则独立地作用于每个基本流,该设备适应于按照为每个基本流单独计算出来的不连续的大小来给每个基本流生成额外的传输分组。
7.如权利要求1到6中任何一项的设备,其中该设备包括用于在再生之前生成和存储定义该编辑的额外数据的装置。
8.如权利要求1到7中任何一项的设备,其中所述的第一和第二个序列包括基于帧的数据,该数据包括不用参考该序列中其它任何帧而被帧内编码的多个帧,以及参考该序列中至少一个其它帧而被帧间编码的多个帧。
9.如权利要求8中的设备,其中该设备包括桥生成装置,该装置被配置成生成一个传输分组的桥序列,通过有选择地合并来自存储的第一和第二个帧序列的帧以及按来自第一和第二序列由各自的编辑点所指示的帧的编码类型(帧内或帧间)所确定的那样有选择地重新编码该桥序列内的一个或多个帧,该桥序列在所述编辑点周围将第一和第二个序列链接起来。
10.如权利要求9中的设备,其中所述的连续性规则允许在被编辑的序列中,在被某类帧头紧随的位置处有不连续性,并且该设备适应于在该桥序列中包括这样一个不连续性,以便当插入所述的额外分组时确保在进入被存储的第二个序列之前符合连续性规则。
11.如权利要求1到10中任何一项的设备包括用于在一个记录载体上存储桥序列连同所述的第一和第二序列以及播放列表信息的装置。
12.一种方法,该方法从一个存储设备中读取数据序列并编辑它,使得位于第一个序列内的第一个编辑点与位于第二个序列内的第二个编辑点链接起来而不违反一个预定义解码器施加的约束条件,其中每个被存储的序列都包括至少一串传输分组,一串给定的传输分组包括各自的连续性计数器值,每个值按照预定义的连续性规则与前一个值相关,该方法包括计算连续性计数器值中由于链接所述的编辑点而导致的不连续的大小,并生成相应数目的额外传输分组,每个传输分组都有自己的连续性计数器值,以便定义一个链接该第一和第二编辑点同时符合约束条件和连续性规则的传输分组的被编辑序列。
13.如权利要求12的用于从一个存储设备中读取数据序列并编辑它的方法,其中至少所述的第一个序列传送至少一个分组化的基本流,该基本流的分组本身已经被细分以形成所述的传输分组。
14.如权利要求13的用于从一个存储设备中读取数据序列并编辑它的方法,其中该设备适应于识别一个传输分组,该传输分组的净荷包括一个分组边界,并且还适应于生成所述的额外分组,以便当其被插入到被识别的分组之前时遵循所述的连续性规则。
15.如权利要求12到14中任何一项的用于从一个存储设备中读取数据序列并编辑它的方法,其中数据的第一和第二个序列每个都包括多个分组化基本流的一个复用,每个基本流具有自己的传输分组序列。
16.如权利要求15的用于从一个存储设备中读取数据序列并编辑它的方法,其中连续性规则独立地作用于每个基本流,该设备适应于按照为每个基本流单独计算出来的不连续的大小来给每个基本流生成额外的传输分组。
17.如权利要求12到16中任何一项的用于从一个存储设备中读取数据序列并编辑它的方法,其中该设备包括用于在再生之前生成和存储定义该编辑的额外数据的装置。
18.如权利要求12到17中任何一项的用于从一个存储设备中读取数据序列并编辑它的方法,其中所述的第一和第二个序列包括基于帧的数据,该数据包括不用参考序列中其它任何帧而被帧内编码的多个帧,以及参考该序列中至少一个其它帧而被帧间编码的多个帧。
19.如权利要求18的用于从一个存储设备中读取数据序列并编辑它的方法,包括生成一个传输分组的桥序列,通过有选择地合并来自存储的第一和第二个帧序列的帧以及按来自第一和第二序列由各自的编辑点所指示的帧的编码类型(帧内或帧间)所确定的那样有选择地重新编码该桥序列内的一个或多个帧,该桥序列在所述编辑点周围将该第一和第二个序列链接起来。
20.如权利要求19的用于从一个存储设备中读取数据序列并编辑它的方法,其中所述的连续性规则允许在被编辑的序列中,在被某类帧头紧随的位置处有不连续性,并且该设备适应于在桥序列中包括这样一个不连续性,以便当插入所述的额外分组时确保在进入被存储的第二个序列之前符合连续性规则。
21.如权利要求12到20中任何一项的用于从一个存储设备中读取数据序列并编辑它的方法,包括用于在一个记录载体上存储桥序列连同所述的第一和第二序列以及播放列表信息的装置。
22.一种容纳第一和第二个帧数据序列连同一个或多个桥序列的记录,由此位于第一个帧序列中的第一个编辑点与位于第二个帧序列中的第二个编辑点链接起来,所述的桥序列通过如权利要求12到21中任何一种方法已经被生成。
23.一种数据再生设备,包括再生装置,其可作用以响应被存储的编辑数据,从一个存储设备中读取第一和第二个数据序列,该编辑数据将位于第一个序列内的第一个编辑点与位于第二个序列内的第二个编辑点链接起来以便输出一个希望的被编辑的序列,其中所述的第一和第二个序列每个都包括至少两个被复用的基本流,这两个被复用的基本流以符合一个预定义的解码器规范的形式被编码和复用,这样在所述第一个编辑点处截断第一个序列并送入所述第二个编辑点处的第二个序列将会潜在地违反该解码器规范内的一个或多个约束条件,所述的再生装置基本上通过有选择地再生来自在所述编辑点周围的第一和第二个序列的数据而不用重新编码或重新复用所述的基本流来操作,这样所述的被编辑的序列,作为输出,就符合所述解码器的规范。
24.如权利要求23中的设备,其中在第一个序列中至少其中一个基本流包括基于帧的数据,该数据中多个帧(在下文中称“I帧”)是帧内编码的,不用参考该序列中其它任何帧,多个帧(在下文中称“P帧”)是参考该序列中另外一个帧而被分别编码的,以及其余的帧(在下文中称“B帧”)是参考序列中两个或更多帧而被分别编码的,并且其中所述的再生装置包括一种装置,用于通过参考第一个编辑点的位置和由该第一个编辑点指示的附近区域内帧的编码类型来标识一个出口点,并且抑制在该出口点之后的第一个序列帧的再生。
25.如权利要求24中的设备,其中所述的出口点按照流的顺序而不是表达顺序被选择作为第一个编辑点之前并且紧挨一个I或P帧之前的数据流内的一个帧边界。
26.如权利要求24或25中的设备,其中所述的出口点是用与流数据分开存储的特征点信息来标识的。
27.如权利要求24、25或26中的设备,其中所述至少一个基本流包括视频帧数据,并且在第一和第二序列中的每一个序列内的另一个基本流包括音频帧数据,所述的再生装置被安排成通过使用基本流内的表达时间信息在所述出口点处抑制任何表达时间比视频帧表达时间晚的音频帧数据的输出。
28.如权利要求23到27中任何一项的设备,其中在第二个序列中至少其中一个基本流包括基于帧的数据,该数据中多个帧(在下文中称“I帧”)是帧内编码的,不用参考该序列中其它任何帧,多个帧(在下文中称“P帧”)是参考该序列中另外一个帧而被分别编码的,以及其余的帧(在下文中称“B帧”)是参考序列中两个或更多帧而被分别编码的,并且其中所述的再生装置包括一种装置,用于通过参考第二个编辑点的位置和由该第二个编辑点指示的附近区域内帧的编码类型来标识一个入口点,并且抑制在该入口点之前的第二个序列帧的再生。
29.如权利要求24到28中任何一项的设备,其中所述的入口点是用与流数据分开存储的特征点信息来标识。
30.如权利要求24到29中任何一项的设备,其中所述至少一个基本流包括视频帧数据,并且在该第一和第二序列中的每一个序列内的另一个基本流包括音频帧数据,所述的再生装置被安排成通过使用基本流内的表达时间信息在所述入口点处抑制任何表达时间比视频帧表达时间早的音频帧的再生。
31.如权利要求27的设备,其中所述音频帧的抑制通过修改音频数据分组内的码来实现,而不是将它们从复用中去除。
32.如权利要求31的设备,其中所述音频数据被抑制以便宁可促进可用音频数据的缝隙,而不使来自第一和第二序列的音频数据重叠。
33.如权利要求23到32中任何一项的设备,包括用于按照编码的表达时间值和帧的更新速率来计算第一和第二序列的时基间偏移的装置。
34.如权利要求33的设备,其中所述的再生装置被安排成以其初始形式计算第一个序列中的出口点和第二个序列中的入口点之间相对的缓冲器满度,并且如果需要,则按照该解码器规范中的缓冲器约束条件,延迟送入第二个序列以防止缓冲器溢出。
35.如权利要求34的设备,其中所述的再生装置被安排成通过迭代地增加计算出的时基之间的偏移来实现所述延迟,直到相对的缓冲器满度满足一个兼容准则,然后使用增加的偏移来生成被编辑的序列。
36.如权利要求33、34或35中的设备,其中所述的再生装置被反复地安排成以其初始形式计算第一个序列中的出口点和第二个序列中的入口点之间相对的缓冲器满度,并修改入口点和出口点中的至少一个点直到相对的缓冲器满度满足一个兼容准则,然后如果有修改了的入口点和出口点,则使用其来生成被编辑的序列。
37.如权利要求33到36中任何一项的设备,其中所述的再生装置被进一步安排成通过使用被编码的解码时间戳和计算出来的时基之间的偏移来计算第一和第二序列数据的装载时间以标识有关防止缓冲器下溢出的重叠装载时刻,并在所述的计算暗示第二个序列数据的装载时间在第一个序列装载数据完成之前的事件中修改所述的偏移。
38.一种再生被存储数据的方法,其中按照预存储的编辑数据,被存储数据的第一和第二序列从一个存储设备中被读取并被再生,该编辑数据将位于第一个序列中的第一个编辑点链接到位于第二个序列中的第二个编辑点,以便输出一个希望的被编辑的序列,其中所述的第一和第二个序列每个都包括至少两个被复用的基本流,这两个被复用的基本流以符合一个预定义解码器规范的形式被编码和复用,使得在所述第一个编辑点处截断第一个序列并送入第二个编辑点处的第二个序列通常会违反该解码器规范内的一个或多个约束条件,所述的再生装置基本上通过有选择地再生来自在所述编辑点周围的第一和第二序列的数据而不用重新编码或重新复用所述的基本流来操作,这样所述的被编辑的序列,作为输出,就符合解码器的规范。
39.一种再生通过如权利要求38的方法产生的一个被编辑数据序列的信号。
全文摘要
公开不同的方法用于从第一个流和第二个流(SEQ1和SEQ2)中产生一个编辑的MPEG音/视频流,所述第一和第二流以一个通常专用于广播目的的传输流格式录制。按照一种实施方案,一个桥序列被生成,该桥序列重新编码来自这两个原始流在编辑点区域内的数据。填充分组(9和A到B)被插进基本流中以调整一个连续性计数器的值以便在跨越桥序列和第二个序列间的接合处允许正确的连续解码。在另一个实施方案中,不要求无缝地回放,桥序列被忽略,不同的处理过程被“动态地”实现以生成一个符合MPEG-2规范的被编辑的流。为此,出口点和入口点受限于某些类型的编码图象,并且时基间的偏移被调整以避免缓冲器的上溢出。
文档编号H04N5/00GK1381056SQ01801543
公开日2002年11月20日 申请日期2001年3月23日 优先权日2000年3月31日
发明者D·P·凯利, P·B·伊登斯, O·J·莫里斯 申请人:皇家菲利浦电子有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1