使用因特网协议保持流式音频和视频的同步的制作方法

文档序号:7947463阅读:406来源:国知局
专利名称:使用因特网协议保持流式音频和视频的同步的制作方法
技术领域
一般而言,本发明涉及数字电影播放系统,具体来说,涉及用于在播放过程中同步数字电影的音频和视频内容的方法和设备。
背景技术
“数字电影”的概念包括使用数字技术生产、交付并在剧院或电影院呈现听觉/视觉材料的过程。数字电影节目通常在诸如DVD-ROM、磁带或计算机硬盘驱动器之类的物理介质上以压缩和加密的形式分发,并且通常可以通过使用卫星或其他宽带通信路径靠电子传输的方式来分发。
数字电影播放系统控制进行数字电影放映所需的过程。这些过程包括接收或存储数字电影节目,将其解压缩或解密为可以由数字内容解码器进行处理的数字视频或音频数据流,对数据流的内容进行解码以获取可以用于驱动视频显示器或音频放大器的信号,以及控制其他功能,如在电影剧场可以发现的特殊效果、幕布或剧场照明等。
由于各种商业原因,必须以单独的数据流传送和处理视频和音频内容。例如,一个影片的视频数据可以用多个音频数据集合来进行分发,所述音频集合具有不同语言或影响影片评级的语音的粗俗差异。在播放时,可以选择相应的音频数据以便与视频数据一起呈现。视频数据和所选择的音频数据在独立的流中向设备传输,以便进行诸如内容解码之类的处理。
典型的数字电影播放系统包括多个设备,它们通过电力网彼此进行通信,电力网类似于用于将计算机互连起来的许多网络。这些网络使用被称为传输控制协议/因特网协议(TCP/IP)的通信协议,常常遵循通常被称为以太网的标准,在IEEE 802.3标准中对该标准进行了描述。选择此网络和协议可以简化实现数字电影播放系统的任务,因为使用它们所需要的电接口以及逻辑接口以及过程都是现成的,并具有相对比较低的成本。令人遗憾的是,使用这种网络和协议使得对视频和音频数据流的处理和呈现难以同步。
在视频和音频数据流之间缺少同步可能会在本打算同时出现的视频和音频内容中的事件中引入时间差异。如果时间差异足够大,那么,结果可能对观众造成困扰。同步误差可能由播放系统中的计时误差所引起,或者它们可以由视频和音频数据流内传送的控制播放系统的操作的控制信息中的错误所引起。控制信息错误的产生来源可能有多种,包括在创作或制作视频/音频内容的母版过程中产生的错误,将数据流从一种数据格式或标准转换为另一种,视频和音频内容的长度的差异,当从一个节目切换到另一个节目时,产生对准误差。
有在各种上下文中用于同步音频和视频数据流的已知方法,包括在诸如IP网络之类的网络上以数据包传输的流的同步。这些方法中有许多是为用于网络延迟不可预测,音频或视频内容的数据包丢失或接收时有错误,以及竞争网络流量是可变的情况而设计的。用于保持独立的视频和音频数据流之间的同步的常见的方法包括从落后于一个数据流的另一个数据流中丢弃信息的数据包,调整对数据流进行处理的设备的处理时钟的速度,以及截断解码或从接收到的数据包恢复数据的进程。
与数字视频和音频内容的其他应用不同,数字电影播放系统不应该丢弃视频和音频内容的数据包,恢复的视频和音频内容的质量必须保持在其最高的水平。在某些实现方式中对处理时钟的速度的调整不可能进行,或者无吸引力,因为它在放映时会产生明显的扭曲。

发明内容
本发明的目标是提供分离的的视频和音频数据流的同步,以便视频和音频数据是完整的。
根据本发明的一个方面,通过导出传送视频和音频内容的视频和音频数据包序列的定时信息并通过有选择地延迟数据包来实现同步,来同步音频/视频节目的音频内容和视频内容。向此定时信息应用知觉模型,以获取视频和音频数据包序列之间的感觉到的错位的度量。如果感觉到的错位的度量表明音频数据包太早,则使音频数据包延迟一个量,以便根据知觉模型,音频和视频数据包序列之间的感觉到的错位减少。如果感觉到的错位的度量表明音频数据包太晚,则使视频数据包和音频数据包两者都延迟相应的量,以便根据知觉模型,音频和视频数据包序列之间的感觉到的错位减少。
通过参考下列讨论和附图,可以更好地理解本发明的各种功能以及其优选实施例,在几个附图中,类似的参考编号表示相同的元素。下列讨论和图形的内容是只作为示例来阐述的,不应该理解为对本发明的范围的限制。


图1是数字电影网络的功能示意方框图。
图2是数字电影播放系统的功能示意方框图。
图3包括用于保持视频和音频数据的同步的组件的数字电影播放系统中的影片播放器的示意方框图。
图4是可以用来实现本发明的各个方面的设备的示意方框图。
具体实施例方式
A.引言图1显示了具有多个播放系统的数字电影网络。典型的系统对于数字电影影院综合体中的每一个剧场都具有一个播放系统;然而,网络和设备可以以多种方式来组织和安装,包括,例如单个剧场中多个播放系统,具有一个或多个屏幕。这后一种方案允许多个数字电影节目同时在一个剧场中放映。
请参看图1,影院管理服务器10、网关30以及播放系统40a、40b使用影院网络交换机20通过网络彼此连接在一起。优选情况下,使用了千兆以太网或1000Base-T网络。影院管理服务器10执行各种服务,包括对数字电影网络中的播放系统40a、40b的管理和总体控制。网关30是可选的,提供了数字电影网络和一个或多个通信路径之间的通信链路,如卫星通信链路33或地球宽带网37。或者,网关也可以集成到交换机20中,以提供单一交换机/网关或路由器设备。通信路径可以用来提供诸如电影宣传材料和数字电影节目解密密钥之类的信息。也可以提供虚拟专用网络或类似的功能,以更好地保护诸如解密密钥之类的敏感信息。
在数字电影网络的优选实现方式中,每一个播放系统40都可以在功能上独立于网络中的所有其他播放系统。相应的播放系统40可以提供数字电影放映,无需从任何其他播放系统中的设备提供服务。播放系统可以以各种方式来实现。下面将描述一种方式。
B.播放系统如图2所示的示意方框图显示了播放系统40的一种实现方式,包括影片存储器41、影片播放器42、显示器43、音频处理器44、自动化接45以及交换机49。交换机49提供了影片播放器42之外的所有这些设备之间的网络连接。通信路径51、53、54直接将影片播放器42分别连接到影片存储器41、显示器43以及音频处理器44。
影片存储器41通过通信路径52连接到网络交换机20,并充当文件服务器,用于接收和存储一个或多个数字电影节目。影片存储器41可以存储影片配置、影片时间表、以及涉及授权、数字权限管理和加密的信息。在优选的实现方式中,影片存储器41还充当动态主机配置协议(DHCP)服务器,以控制向播放系统40中的设备分配网络IP地址,并可以实现服务位置协议(SLP)用户和服务代理,以便有助于在播放系统内提供服务。分别在因特网征求意见资料(RFC)1541和RFC 2165中描述了DHCP和SLP。影片存储器41从存储的节目中提取视频和音频信息,将提取的信息重新格式化为编码过的数据流,并将编码过的数据流提供到影片播放器42。优选情况下,编码过的数据流通过直接连接了影片存储器41和影片播放器42的宽带通信路径51(如专用1000Base-T以太网路径)从前者传送到后者。在典型的实现方式中,编码过的表示传送根据一些标准进行编码的视频信息,如国际标准化组织(ISO)电影专家小组(MPEG)文件SO/IEC 13818-1到13818-9中描述的MPEG-2标准,或ISO/IEC 154442000中描述的JPEG-2000标准,并传送音频信息,该音频信息可以作为脉码调制(PCM)数据、MetaAudio增强PCM数据或通过诸如MetaAudio Dolby F之类的编码过程产生的数据来进行编码。位于加利福尼亚旧金山的Dolby Laboratories所推出的Dolby Show Store DSS100是合适的影片存储器41的一个示例。
影片播放器42是数字内容解码器,该解码器对编码过的数据流进行解码,以获取数字视频和数字音频信息,所述数字视频和数字音频信息通过通信路径53、54分别提供到显示器43和音频处理器44。编码过的表示可以是加密的。如果是加密的,影片播放器42使用相应的视频内容解密密钥,对视频内容进行解密。优选情况下,使用诸如联邦信息处理标准(FIPS)出版物197中所描述的技术,并利用由诸如RSA Cryptography Standard PKCS #1 v2.1或在IEEE1363-2000标准中所描述那些技术所提供的密钥生成和交换。影片存储器41从影院管理服务器10接收相应的视频内容解密密钥,可以存储此密钥,随后根据需要将它传给影片播放器42,也可以将密钥传递给影片播放器42而不存储它。
在一个实现方式中,影片存储器41接收视频内容解密密钥的加密的版本,该加密过的视频内容解密密钥是使用唯一地与影片播放器42关联的公钥进行加密的。影片播放器42使用其自己的私钥对加密的视频内容解密密钥进行解密,根据需要,使用视频内容解密密钥对视频信息进行解密和解码,并且如果需要,对解码过的视频信息进行加密,供随后交付到显示器43。加密可以遵循一些标准或其他规范,如提出的电影与电视工程师学会(SMPTE)DC28.4标准,也可以遵循与显示器43兼容的专有的过程。位于加利福尼亚旧金山的DolbyLaboratories所推出的Dolby Show Player,DSP100是合适的影片播放器42的一个示例。
显示器43从影片播放器42接收解码过的视频信息,在必要时,对该信息进行解密,并呈现视频信息以供观看。显示器基本上可以是能够呈现视频信息的任何设备,如液晶显示器(LCD)面板或能够将图像投射到屏幕或其他显示介质中的投影仪。优选情况下,解码过的视频信息通过宽带通信路径53,以符合高清晰度串行数据接口(HD-SDI)的形式(如SMPTE 292M标准所描述的)直接从影片播放器42传送到显示器43。Barco N.V.,Pres.Kennedypark 35,8500Kortrijk,Belgium所推出的DP 100型投影仪是合适的显示器43的一个示例。
音频处理器44从影片存储器42接收音频信息,在必要时,对音频信息进行解码,并根据需要施加过滤和均衡,以产生可以供扬声器或其他声换能器放大后呈现的信号。位于加利福尼亚旧金山的Dolby Laboratories所推出的CP650型电影声音处理器是合适的音频处理器44的一个示例。优选情况下,音频信息通过直接连接影片播放器42和音频处理器44的宽带通信路径54从前者传送给后者,并遵循SMPTE 276M标准。
自动化接45响应通过交换机49接收到的命令产生信号,以控制特殊效果、剧场照明,幕布及影院自动化系统中的其他组件。位于加利福尼亚旧金山的Dolby Laboratories所推出的NetworkAutomation Interface NA10是合适的自动化接口的一个示例。
交换机49切换播放系统40的网络内的通信。在优选实现方式中,它支持1000Mb/s或更快的网络,如1000Base-T网络。
C.影片存储器下面所描述的本发明的一种实现方式被集成到接收和处理编码过的视频和音频数据的影片播放器42中。视频数据遵循上文所提及的MPEG-2标准。视频和音频数据根据内容流式协议(CSP)以数据包的形式组织。影片存储器41响应它在符合材料交换格式(MXF)的数据文件中读取的数据,产生符合CSP的数据流。MXF是一种被提议的标准,当前正处于被SMPTE W25技术委员会针对广播应用领域接受的过程中。如果需要,本发明的各个方面可以集成到其他设备中或播放系统的某些部件中。本发明的原理可以用来使符合其他标准的视频和音频数据流同步。
上文所提及的Dolby Show Store DSS100使用了CSP。使用此协议对本发明不是必不可少的,但是,也是如上文所提及的,其使用确实提供了可以由Dolby Show Player DSP 100进行处理的数据流。通过使用CSP,影片存储器41将视频和音频数据组织为数据包。每一个视频数据包都具有传送视频数据的数据部分和传送控制信息的标头部分,控制信息包括“卷ID”、视频“卷帧计数”、视频“帧分数偏移”、视频“帧时间偏移”,以及视频“帧速率”。每一个音频数据包都具有传送音频数据的数据部分和传送控制信息的标头部分,控制信息包括卷ID、音频“卷帧计数”、音频“帧分数偏移”、音频“采样速率”,以及音频“帧速率”。
对于这里所描述的实现方式,影片存储器41存储了以“轨迹文件”组织的MXF文件。每一个轨迹文件中的数据都代表节目材料的“卷”的视频内容或音频内容,原则上对应于由常规的影片的卷传送的视觉或听觉材料。轨迹文件可以代表诸如电影之类的节目的全部或一部分。通常,标准长度的电影的数据被组织在一组多个视频磁迹文件中和一组多个音频磁迹文件中,它们中每一个都按顺序播放,以产生视频和音频数据流。随着影片存储器41读取轨迹文件,它在符合CSP的数据流中产生信息的数据包。视频数据包传送相应的视频帧的视频数据。音频数据包传送可以对应于相应的视频帧的一段时间内或基本上可能需要的任何其他时间段的音频数据。
卷ID和卷帧计数是由影片存储器41产生的。从在时间上彼此关联的相应的视频和音频轨迹文件对,产生数据包,为这些数据包产生了唯一的卷ID。“卷帧计数”以帧为单位代表从该轨迹文件开始相应的帧在轨迹文件内的位置。从轨迹文件获取上文所提及的诸如“帧分数偏移”之类的其他控制信息,并将它们插入到符合CSP数据包的标头中。
D.影片播放器如图3所示的示意方框图显示了影片播放器42的一种实现方式。视频缓冲器61接收和存储在通过通信路径51从影片存储器41接收到的CSP视频数据流中传送的视频内容的数据包。可以使用常规的网络协议来控制视频数据包从影片存储器41传输到视频缓冲器61中。随后,存储在视频缓冲器61中的视频内容的数据包被传递到视频解码器63,以便解码为解码过的视频帧,然后,沿着通信路径53传递到如上文所描述的显示器43。编码过的数据包与时钟同步地传递到视频解码器63,该时钟以等于由视频解码器63输出解码过的帧的速率的恒定的速率运转。此速率是视频帧速率。在每一个数据包中传送的编码过的数据的量不是恒定的。结果,传递到视频解码器63的编码过的数据的比特速率或数据速率将改变。
缓冲器62是可选的,在需要以变化非常大的数据速率向视频解码器63提供视频数据的系统中可以使用。通过允许视频缓冲器61以较低成本的存储电路(它们不能以满足视频解码器63的需求的峰值速率提供视频数据)实现,其使用可以降低实施费用。在此可选配置中,视频缓冲器61以满足视频解码器63的平均数据速率要求的速率向缓冲器62提供视频数据。缓冲器62存储了足够的视频数据,以便它可以以实现最可能的图像质量的所需的帧速率所需要的最高数据速率向视频解码器63提供最大可能的视频内容数据包。
音频缓冲器64接收和存储在通过通信路径51从影片存储器41接收到的CSP音频数据流中传送的音频内容的数据包。可以使用常规的网络协议来控制音频数据包从影片存储器41传输到音频缓冲器64中。如上文所描述的,由处理器65读取存储在音频缓冲器64中的音频内容的数据包,并沿着通信路径54传递到音频处理器44。
剩余的组件对视频解码器63和处理器65的操作进行控制,以便可以实现视频和音频数据之间的同步,并在播放过程中保持同步。
E.同步1.概述如上所述,这里所描述的实现方式对封装在CSP数据流中的视频和音频数据进行处理,CSP数据流是从存储在根据提议的MXF标准格式化的轨迹文件中的数据产生的。这些特定编码标准所需的此特定实现方式所特有的特点不是本发明的基本特点。
请参看图3,以恒定的速率与其信号标记了视频帧周期的开始的时钟同步地从视频缓冲器61中读取编码过的视频数据的数据包。在从视频缓冲器61中读取视频数据包时,解码器模型67对在视频数据包中传送的信息进行分析,以获取那些数据包的视频定时信息。被传递到同步控制器66的此定时信息表明相应的视频数据包将由视频解码器63作为解码过的视频帧输出的时间。下面将描述此模型可以获取视频定时信息的一种方式。
原则上,通过基本上沿着从影片存储器41到显示器43的输入端的路径的任何地方的视频数据包,可以获得视频定时信息,但首选在被输入到解码器63之前对数据包进行分析的方案,因为可以更轻松地调节视频和音频数据流的相对对准。图中所显示的特定方案是有吸引力的,因为解码器模型67可以在视频数据包以相对适度的数据速率传递给缓冲器62的过程中对视频数据包中的数据进行分析,而不是必须在数据以大大可变的速率(包括高得多峰值速率,存在于缓冲器62的输出端)传递时对数据进行分析。
也可以与上文所提及的视频帧速率时钟同步地从音频缓冲器64中读取音频数据。在许多实现方式中,不能预期音频数据包与视频数据包对准,并且以不等于视频帧速率的速率来读取视频数据包。在从音频缓冲器64中读取音频数据包时,处理器65对音频数据包中传送的信息进行分析,以获取音频定时信息。被传递到同步控制器66的此定时信息表明相应的音频数据包将沿着通信路径54输出的时间。下面将描述此处理器可以获取音频数据包的音频定时信息的一种方式。
同步控制器66分别从解码器模型67和处理器65接收视频定时信息和音频定时信息,并在每一个视频帧的开始判断视频和音频数据流的相对对准。此信息被传递到知觉模型68,该模型导出两个数据流之间的任何定时错位或同步误差的可感觉性的度量。响应可感觉性的度量,同步控制器66调节视频数据包和/或音频数据包的相对定时,以减少被认为是可感觉到的任何调谐错位。下面将描述执行此任务的方式。优选的实现方式包括可选偏移控制器69。在这些实现方式中,同步控制器66解决定时对准中的由偏移控制器69指定的任何需要的偏移。例如,可能需要偏移,以解决音频处理器44中的处理延迟。
2.知觉模型视频和音频数据流之间的同步的误差将导致画面和声音彼此不协调。取决于误差的大小,此错位可能对观众造成困扰。有许多事件具有视觉和听觉线索,如爆炸、脚步声和语音。语音中的同步误差可能是最烦人的,一般被称为“口型吻合”误差。标题为“Relative Timingof Sound and Vision for Broadcasting”的国际电信联盟(ITU)文件TTU-R BT.1359-1中,如果误差超出由“Threshold of Detectability”定义的时间间隔范围,将同步误差分类为明显的,如果误差超出由“Threshold of Acceptability”定义的时间间隔范围,则将误差分类为无法接受。根据此文件,由Threshold of Detectability定义的时间间隔从+45毫秒到-125毫秒,由Threshold of Acceptability定义的时间间隔从+90毫秒到-190毫秒,其中,正数表明音频先于视频。
在一个实现方式中,知觉模型68提供了具有三个值的感觉到的错位的度量。一个值(如零),表明,定时错位,如果有的话,在由Threshold of Detectability定义的时间间隔范围之内。第二个值(如+1)表明,音频比视频超前了超出了由Threshold of Detectability定义的时间间隔范围的量。第三个值(如+1)表明,音频比视频超前了超出了由Threshold of Detectability定义的时间间隔范围的量。可以使用各种各样的模型。
3.视频定时(视频解码器模型)与上文所提及的视频帧时钟同步地,解码器模型67导出每一个视频帧周期的相应的视频数据包的视频定时信息。
通过向视频数据包中传送的信息应用解码器模型67来获取视频定时信息。相应的视频数据包的此定时信息表明将由视频解码器63输出从该相应的视频数据包解码的视频数据的时间。在下面的段落中描述了从根据上文所提及的CSP格式化的视频数据包获取视频定时信息的一种方式。
符合CSP的视频数据流中的每一个视频数据包都具有标头部分和数据部分,所述标头部分有控制信息,所述数据部分有代表帧中的图像或可视节目的画面的数据。相应的数据包的标头包括解码-顺序视频“卷帧计数”,对于相应的轨迹文件的数据流中的每一个连续的视频数据包,该计数增大1,还包括视频率“帧速”和视频“帧分数偏移”,从中可以导出视频定时信息。从可以表达为下列公式的计算中获取解码时间戳(DTS) DTS代表相应的数据包中传送的数据将被视频解码器63解码并输出的顺序或相对时间。数据包被解码的顺序不一定是对应的解码过的数据被解码器输出的顺序,后者可以被称为“呈现顺序”。
可以从DTS和也在视频数据包标头中传送的视频帧时间偏移(TO)值导出按呈现顺序的每一个数据包的相对时间或视频呈现时间(VPT)。下面将说明达到这一目的的一种方式。
每一个视频数据包都被分为三种类型中的一种,通常被称为I数据包、P数据包和B数据包,表明了是如何对数据包中的视频数据进行编码的,以及将如何对它进行解码。I数据包传送被独立于视频节目中的所有其他帧进行编码的数据,因此,可以独立于视频数据流中的所有其他数据包地对它进行解码。P数据包传送使用从视频节目中的前面的帧预测的值而进行编码的数据,在没有对对应于前面的帧的数据包进行解码的情况下,不能对它进行解码。例如,一个P数据包可以依赖于紧前面的I数据包,或者也可以依赖于另一个P数据包,而该另一个P数据包又直接或间接地依赖于一个I数据包。B数据包传送使用从视频数据流中的后面的帧预测的值(并且可能从前面的帧)而进行编码的数据,在没有对对应于那些前面的和后面的帧的数据包进行解码的情况下,不能对它进行解码。
表I中显示的信息代表视频数据流中的数据包序列的一个示例。

表I此序列中的数据包按解码顺序来显示,如DTS的值所表达的。由TO值来表达从DTS导出VPT所需要的调整。此推导可以表达为

例如,类型P的第二个数据包的VPT是DTS+TO=2+2=4。类型B的第三个数据包的VPT是DTS+TO=3+(-1)=2。
对于这里所显示的示例,DTS的值是任意选择的整数,而视频帧速率是任意选择的等于1,以简化讨论。
这些数据包的VPT表示将从这些数据包解码的帧的呈现顺序。帧的呈现顺序是I1B3B4P2B6B7P5,其中,序列中的每一个元素的下标是对应的数据包的DTS。
符合MPEG-2的视频数据流中的编码过的视频数据包被组织为以I数据包开始的Group of Pictures(GOP)中。例如,表I中所按解码顺序显示的数据包序列可以是一个GOP。虽然解码顺序中的每一个GOP都以I数据包开始,但是,I数据包不一定对应于GOP的将由视频解码器输出的第一个帧。这可以通过可以是一个GOP的数据包序列的另一个示例看出,由表II中显示的信息来代表。

表II此序列中的数据包也是按解码顺序来显示的。以与上文所讨论的相同的方式根据DTS和TO导出VPT。在此示例中,第一个B数据包可能依赖于前面的GOP中的一个数据包。
这些数据包的VPT表示,将从这些数据包解码的帧的呈现顺序是B2B3I1B5B6P4,其中,序列中的每一个元素的下标是对应的数据包的DTS。
如果时间T1是GOP中的第一个数据包被输入到视频解码器的时间,而T2是为该GOP输出解码过的数据的第一个帧的时间,那么,这两个时间之间的时间间隔(T2-T1)是常数,可以被称为该解码器的解码延迟。由于在视频解码器63中发生了帧的重新排序,所以,一个GOP内的单个帧的解码延迟不是常数。解码器模型67根据进入解码器的数据包的DTS,导出由视频解码器63输出的帧的VPT。在一个实现方式中,如上文所描述的,解码器模型67根据DTS来计算VPT,并解决缓冲器62中的缓冲延迟、解码延迟,以及在视频解码器63中发生的帧重新排序。模型的这种实现方式甚至对于异常情况(如中途开始播放)能够通过GOP判断正确的VPT值,因为模型解决视频解码器63的实际操作。
在另一个实现方式中,解码器模型67使用先进先出(FIFO)缓冲器,该缓冲器具有解决缓冲器62和视频解码器63中的延迟的长度。随着视频数据包被传递到缓冲器62,关联的DTS值被推入FIFO。随着由视频解码器63输出视频帧,从FIFO中读取时间值,作为该帧的VPT。从计算上来说,此实现方式的复杂程度比上文所描述的实现方式稍小一些,但它不能通过GOP判断异常情况(如中途开始播放)的正确的VPT。
对于任何一个实现方式,VPT代表从视频解码器63输出相应的视频数据包的解码过的视频帧,以供显示器43呈现。
4.音频定时符合CSP的音频数据流中的每一个音频数据包都具有标头部分和数据部分,所述标头部分有控制信息,所述数据部分有代表音频样本的帧的数据。数据部分可以传送代表帧中的单个样本的PCM数据,它也可以传送一组数据,该组数据代表已经使用一些块编码进程(如转换编码或块缩放)编码过的音频样本的帧。由数据包标头中的信息指定音频帧中的由一个数据包代表的样本的数量。通常,标头指定了音频采样速率和音频帧速率。通过将音频采样速率除以音频帧速率,可以计算出音频帧中的样本数量。
标头部分还包括控制信息,根据该控制信息,可以导出音频呈现时间(APT)。在下面的段落中描述了可以从符合CSP的音频数据包获取音频定时信息的一种方式。
相应的数据包的标头包括音频卷帧计数,对于相应的轨迹文件的数据流中的每一个连续的数据包,该计数增大1。从可以表达为下列公式的计算中获取按呈现顺序的每一个数据包的开始的相对时间,或音频帧时间(AFT) 在从音频缓冲器64中读取一个音频数据包时,处理器65确定对应于该数据包的每一个音频帧的AFT。与上文所提及的视频帧时钟同步地,处理器65确定音频数据流中的与当前视频帧周期的开始最接近地对准的样本周期的音频呈现时间(APT)。在典型的情况下,此对准位置并不与音频帧的开始重合,而是在一个帧内的某处出现。在这些情况下,通过外推法根据其中出现了对准位置的帧的开始的AFT获取对准位置的定时信息。可以以各种方式执行此外推法。一种方式可以表达为 其中,K=音频帧的开始和当前视频帧的开始之间的样本周期数量。
5.同步控制同步控制器66负责实现和保持视频和音频数据流之间的同步。下面的讨论描述了如何使用本发明的原理来在播放过程中保持同步;然而,也可以使用这些相同的原理在播放开始时实现同步。如果需要,也可以使用基本上任何已知的同步技术来实现播放开始时的初始同步。
根据需要监视和调整视频和音频数据流的相对对准,以通过延迟对视频数据包和音频数据包的处理,保持所需要的极限内的同步。在一个实现方式中,通过在整数的视频帧周期内暂停从视频缓冲器61读取视频数据,延迟对视频数据包的处理,通过在可以等于音频样本周期的整数倍或音频帧周期的整数倍的指定的时间段内暂停从音频缓冲器64读取数据,延迟对音频数据的处理。
对于每一个视频帧,同步控制器66获取当前视频帧的视频定时信息以及音频数据流中的实际与视频帧的开始对准的位置的音频定时信息。此定时信息被传递到知觉模型68,该模型判断两个数据流之间的任何错位是否是可感觉到的。在一个实现方式中,这是通过判断视频和音频时间之间的差异是否超出由上文所提及的ITU Threshold ofDetectability定义的时间间隔之外。
如果知觉模型68表明没有可感觉到的错位,则继续对两个数据流进行正常的处理从视频缓冲器61读取视频数据,并将它传给视频解码器63,从音频缓冲器64读取音频数据,并将它通信路径54传给音频处理器44。
如果音频和视频时间表明音频数据流早于视频数据流,并且知觉模型68表明数据流之间的错位是可感觉到的,那么,继续对视频数据流进行正常的处理,但同步控制器66指示处理器65将对音频数据流的处理延迟指定的时间间隔DA,它要么是音频帧周期的整数倍,要么是音频样本周期的整数倍。确定此时间间隔的持续时间DA的一种方式可以表达为 其中,VPT=当前视频帧的呈现时间;APT=当前音频样本的呈现时间;PA=根据需要的音频帧周期或音频样本周期;以及 在此时间间隔中,处理器65将诸如零值样本之类的数据或以前的样本的值插入到沿着路径54传递的音频数据流中。如果音频数据包传送由块编码过程产生的数据,则优选情况下,零值数据被插入在从音频缓冲器64中读取的下一个音频数据包的前面。在此实现方式中,音频处理器44可以通过屏蔽其输出或通过重复以前的样本来对对插入的数据作出响应。被屏蔽的时间间隔后面的音频的振幅可以逐渐地从非常低的电平朝着需要的正常电平的方向增大。如果影片播放器42或音频处理器44在它输出先于延迟的音频样本之前得到了延迟的通知,那么,根据需要,被屏蔽的时间间隔前面的音频的振幅可以逐渐地朝着非常低的电平的方向缩小。
如果视频和音频时间表明视频数据流早于音频数据流,并且知觉模型68表明数据流之间的错位是可感觉到的,那么,则同步控制器66指示视频解码器63将对视频数据流的处理延迟指定的时间间隔Dv,Dv是视频帧周期的整数倍,它指示处理器65将对音频数据流处理延迟指定的时间间隔DA,如上所述,它要么是音频帧周期的整数倍,要么是音频样本周期的整数倍。确定两个时间间隔的持续时间的一种方式可以表达为 其中,Pv=视频帧周期。
在时间间隔Dv过程中,视频解码器63将一个或多个视频帧的数据插入到沿着路径53传递的视频数据流中。这些插入的帧可以是以前的视频帧的重复,也可以代表任何任意图像,如没有亮度的图像,通常叫做“黑色帧”。在时间间隔Da中,如上文所描述的,处理器65将诸如零值样本之类的数据插入到沿着路径54传递的音频数据流中。
在典型的实现方式中,视频帧周期大致为40毫秒,而音频样本周期大致为20μs。对音频数据流的对准的调整通常可以以比对于视频数据流进行的细得多的增量进行。
对相对对准的调整也可以由数据流中传送的源材料的变化,如从宣传尾部变换到主要电影功能,通过视频或音频帧速率或音频采样率的变化,或指定操作员指定的偏移的变化来触发。
每当从一个轨迹文件切换到另一个轨迹文件时,影片存储器41的一个实现方式产生不同的卷ID、并为从新的轨迹文件产生的数据包重置初始帧计数(Frame Count)为零。在有些情况下,影片存储器41可以在不同的时间在视频轨迹文件和音频轨迹文件之间切换。在此情况下,影片播放器42的优选实现方式暂停进行任何对准的变化,直到两个数据流中的数据包具有匹配的卷ID。
F.实现方式集成了本发明的各个方面的设备可以以各种方式来实现,包括由计算机或某些其他设备执行的软件,其他设备包括比较专业化的组件,如连接到类似于通用计算机中的那些组件的组件的数字信号处理器(DSP)电路。图4是可以用来实现本发明的各个方面的设备70的示意方框图。处理器72提供了计算资源。RAM 73是供处理器72用来执行处理过程的系统随机存取存储器(RAM)。ROM 74代表某种形式的永久存储器,如用于存储对设备70进行操作所需要的程序的只读存储器(ROM),还可能用于实现本发明的各个方面。I/O控件75代表用于通过通信信道76、77接收和传输信号的接口电路。在所显示的实施例中,所有主要系统组件都连接到总线71,该总线可以代表一个以上的物理或逻辑总线;然而,总线体系结构不是实现本发明所需要的。
在由通用计算机系统实现的实施例中,可以包括额外的组件,用于连接到诸如键盘或鼠标和显示器,以及用于控制具有诸如磁带或磁盘或光学介质之类的存储介质的存储设备78。存储介质可以用来记录操作系统、实用程序和应用程序的指令的程序,并可以包括实现本发明的各个方面的程序。优选情况下,可以使计算机系统能容忍硬件故障。达到这一目的一种方式是提供冗余组件(如双电源)和冗余存储设备,并使用能够检测并对故障作出反应的操作系统。
实施本发明的各个方面所需的功能可以通过以多种方式实现的组件来执行,包括离散逻辑组件、集成电路、一个或多个ASIC和/或程序控制的处理器。实现这些组件的方式对本发明来说不重要。
本发明的软件实现方式可以通过诸如基带或调制通信路径之类的各种机器可读的介质,在包括从超声波到紫外线频率的频谱范围内进行传递,或通过使用了基本上任何记录技术(包括磁带、磁卡或磁盘、光卡或光盘),以及包括纸张的介质上的可检测的标记来传送信息的存储介质来进行传递。
权利要求
1.一种用于处理音频/视频节目的音频内容和视频内容的方法,其中,该方法包括接收传送第一控制信息和音频内容的音频数据包序列,并从第一控制信息中获取音频数据包序列中相应的音频数据包的音频时间信息;接收传送第二控制信息和视频内容的视频数据包序列,并从第二控制信息中获取视频数据包序列中相应的视频数据包的视频时间信息;根据音频时间信息和视频时间信息确定相应的音频数据包与相应的视频数据包的相对时间对准,并向相对时间对准应用知觉模型,以获取相应的音频数据包和相应的视频数据包之间的感觉到的错位的度量;如果感觉到的错位的度量表明相应的音频数据包在相应的视频数据包的所需要的时间对准之前一个超过第一阈值的时间间隔,将相应的音频数据包的全部或一部分延迟第一量,以便根据知觉模型,延迟的相应音频数据包和相应的视频数据包之间的感觉到的错位减少;以及如果感觉到的错位的度量表明相应的音频数据包在相应的视频数据包的所需要的时间对准之后一个超过第二阈值的时间间隔,将相应的视频数据包延迟第二量,将相应的音频数据包的全部或一部分延迟第三量,以便根据知觉模型,延迟的相应的音频数据包和延迟的相应的视频数据包之间的感觉到的错位减少。
2.根据权利要求1所述的方法,其中在相应的音频数据包中传送的数据代表具有音频帧周期的听觉信息的间隔,在相应的视频数据包中传送的数据代表具有视频帧周期的视觉信息的间隔;第一量等于音频帧周期的整数倍;第二量等于视频帧周期的整数倍;以及第三量等于音频帧周期的整数倍。
3.根据权利要求1所述的方法,其中在相应的音频数据包中传送的数据代表多个样本,每一个样本都具有音频样本周期,在相应的视频数据包中传送的数据代表具有视频帧周期的视觉信息的间隔;第一量等于音频样本周期的的整数倍;第二量等于视频帧周期的整数倍;以及第三量等于音频样本周期的的整数倍。
4.根据权利要求1所述方法,该方法包括通过外推法从传送相应的音频数据包的开始的时间的第一控制信息获取音频时间信息。
5.根据权利要求1所述的方法,包括将信息插入到从被延迟的所有或部分相应的音频数据包产生的音频数据流中;以及减少插入的信息前面的音频内容的播放电平,增大插入的信息后面的音频内容的播放电平。
6.根据权利要求1所述的方法,其中从通信网络接收音频数据包序列和视频数据包序列,并存储在设备中的一个或多个缓冲器中;以及使用用于控制网络中的通信的协议来控制存储信息在一个或多个缓冲器中的存储。
7.根据权利要求1所述方法,该方法确定第一量、第二量和第三量,以便感觉到的错位减少到这样的程度,即根据知觉模型不会感觉到所述错位。
8.一种传送可由设备执行的指令的程序的介质,所述程序被执行以执行用于处理音频/视频节目的音频内容和视频内容的方法,其中,该方法包括接收传送第一控制信息和音频内容的音频数据包序列,并从第一控制信息中获取音频数据包序列中相应的音频数据包的音频时间信息;接收传送第二控制信息和视频内容的视频数据包序列,并从第二控制信息中获取视频数据包序列中相应的视频数据包的视频时间信息;根据音频时间信息和视频时间信息确定相应的音频数据包与相应的视频数据包的相对时间对准,并向相对时间对准应用知觉模型,以获取相应的音频数据包和相应的视频数据包之间的感觉到的错位的度量;如果感觉到的错位的度量表明相应的音频数据包在相应的视频数据包的所需要的时间对准之前一个超过第一阈值的时间间隔,将相应的音频数据包的全部或一部分延迟第一量,以便根据知觉模型,延迟的相应的音频数据包和相应的视频数据包之间的感觉到的错位减少;以及如果感觉到的错位的度量表明相应的音频数据包在相应的视频数据包的所需要的时间对准之后一个超过第二阈值的时间间隔,将相应的视频数据包延迟第二量,将相应的音频数据包的全部或一部分延迟第三量,以便根据知觉模型,延迟的相应的音频数据包和延迟的相应的视频数据包之间的感觉到的错位减少。
9.根据权利要求8所述的介质,其中在相应的音频数据包中传送的数据代表具有音频帧周期的听觉信息的间隔,在相应的视频数据包中传送的数据代表具有视频帧周期的视觉信息的间隔;第一量等于音频帧周期的整数倍;第二量等于视频帧周期的整数倍;以及第三量等于音频帧周期的整数倍。
10.根据权利要求8所述的介质,其中在相应的音频数据包中传送的数据代表多个样本,每一个样本都具有音频样本周期,在相应的视频数据包中传送的数据代表具有视频帧周期的视觉信息的间隔;第一量等于音频样本周期的整数倍;第二量等于视频帧周期的整数倍;以及第三量等于音频样本周期的整数倍。
11.根据权利要求8所述的介质,其中,所述方法包括通过外推法从传送相应的音频数据包的开始的时间的第一控制信息获取音频时间信息。
12.根据权利要求8所述的介质,其中,所述方法包括将信息插入到从被延迟的所有或部分相应的音频数据包产生的音频数据流中;以及减少插入的信息前面的音频内容的播放电平,增大插入的信息后面的音频内容的播放电平。
13.根据权利要求8所述的介质,其中从通信网络接收音频数据包序列和视频数据包序列,并存储在设备中的一个或多个缓冲器中;以及使用用于控制网络中的通信的协议来控制信息在一个或多个缓冲器中的存储。
14.根据权利要求8所述的介质,其中,所述方法确定第一量、第二量和第三量,以便感觉到的错位减少到这样的程度,即根据知觉模型不会感觉到所述错位。
全文摘要
数字电影网络中的播放系统,通过导出视频和音频数据流中传送的信息的数据包的定时信息,检查定时信息以判断在两个数据流之间是否有很可能可感觉到的错位,如果错位被认为是可感觉到的,则向一个或两个数据流中引入延迟,以校正错位,从而同步视觉和听觉内容的放映。如果音频数据流先于视频数据流,则音频数据流被延迟音频样本周期的整数倍。如果视频数据流先于音频数据流,则视频数据流被延迟视频帧的整数倍,音频数据流被延迟音频样本周期的整数倍。减少插入的信息前面的音频内容的播放电平,增大插入的信息后面的音频内容的播放电平。
文档编号H04N7/24GK1969561SQ200580020154
公开日2007年5月23日 申请日期2005年4月8日 优先权日2004年6月18日
发明者特雷弗·达维斯, 约翰·D·库林, 格普·拉克什米纳拉亚纳, 马丁·J.·理查兹 申请人:杜比实验室特许公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1