从单个容器输出多种语言的音频和关联音频的系统和方法_2

文档序号:9693692阅读:来源:国知局
0然后根据媒体播放器控制程序控制的那样输出内容。控制程序可以以软件、固件、硬件或其组合实现。用户可以经由用户界面而与控制程序交互。来自苹果公司的Mac Mini 算机可以被用来实现媒体播放器设备100。控制程序可以被实现为在OS X操作系统(苹果公司)上运行的应用程序。
[0031]可替代地,通用计算机可以实现媒体播放器设备100;用于计算机的监视器可以用作电视机106并且计算机扬声器可以用作扬声器108。类似地,诸如移动电话或平板计算机之类的移动设备可以实现媒体播放器设备100;屏幕可以用作电视机106并且内置的扬声器或头戴耳机(headphones)可以用作扬声器108并且输出虚拟化的环绕声信号。
[0032]媒体播放器设备100可以与各种服务(经由网络102)交互以便获得内容,所述各种服务包括Netflix Watch Instantly?服务、Apple iTunes?服务以及Amazon InstantVideo? 服务。
[0033]图2是示出由媒体播放器设备100(参见图1)用来存储内容的容器200的逻辑布置的图。通常,一个容器存储一个电影或剧集(episode)。容器200包括元数据202、视频数据204、主要音频数据206以及关联音频数据208。容器200还可以包括其它数据,为了简便起见省略对其它数据的讨论。元数据202限定并且描述容器200以及容器200中的内容。更具体地,元数据202限定容器的数据(例如,视频数据204、主要音频数据206以及关联音频数据208)的位置以及该数据之间的关系。元数据202可以包括媒体播放器设备100使用来同步容器的数据的读取、处理或输出的同步信息。元数据202可以还包括关于容器200或内容的其它数据,诸如电影名字、持续时间、菜单、轨道列表、场景索引、封面图像等。
[0034]视频数据204—般对应于内容的视觉成分。例如,视频数据204可以是视频的帧。视频数据204的准确的格式可以根据各种编码和压缩函数而变化。例如,视频数据204可以是高清(HD)视频,诸如!1.264、具有23.976€?8的1080?。
[0035]主要音频数据206—般对应于内容的主要音轨。主要音轨一般包括各种对话轨道,其中每个对话轨道具有不同的语言。例如,对于美国制作的电影,默认的主要音轨具有英语对话轨道;其它主要音轨将具有西班牙语、法语、德语、葡萄牙语、日语、朝鲜语等的对话轨道。另外,对于单语言,可以有多个轨道,例如具有不同的格式(例如,7.1声道环绕格式、立体声格式等)、比特率(192kbps、384kbps等)等的多个轨道。
[0036]关联音频数据208—般对应于超出主要音频轨道的额外的音频轨道。关联音频的一个示例是音频描述轨道(还被称为“视频描述”或“描述视频服务(DVS)”)。音频描述轨道为视觉受损用户来描述视频。可以有与主要音频轨道的每种语言对应的音频描述轨道。关联音频的另一个示例是导演的评论轨道。一般导演的评论轨道为单语言,而不管选择哪个主要音频轨道。通常,当输出音频描述轨道时,导演的评论轨道不被输出。
[0037]主要音频数据206和关联音频数据208可以以各种格式编码。例如,主要音频数据206可以被编码作为具有192kbps的5.1环绕声声道Dolby Digital Plus?(DD+)格式,或者作为具有384kbps的7.1环绕声声道DD+格式等。关联音频数据208可以被编码作为具有64kbps的单声道DD+,作为具有96kbps的立体声DD+等。
[0038]容器200可以根据标准格式(例如,动态图像专家组版本4(MPEG-4)部分14格式,也被称为MP4格式)布置。
[0039]通常,关联音频数据208具有与主要音频数据206—样多的声道,或者比主要音频数据206更少的声道。例如,如果主要音频数据206具有5.1声道格式,则关联音频数据208可以具有单声道、立体声、5.1声道格式等。如果主要音频数据206具有立体声格式,则关联音频数据208可以具有单声道、立体声等格式,但不具有5.1声道格式。
[0040]通常,视频数据204对应于与对话轨道中的一个同时输出的单个视频轨道。类似地,当启用时,音频描述轨道中的一个与视频轨道同时地输出。此外,视频和音频轨道被同步地输出,如下面进一步讨论的。
[0041 ]图3A是示出容器300的物理布置的图。尽管图2示出了逻辑结构,但是图3A示出了物理结构——如何将数据物理地存储或者布置在容器300中(例如,容器200是容器300的逻辑图)。元数据302处于容器300的“开头”(或者“顶部”或者“前面”)。然后在元数据302之后视频数据304(304a、304b等)、主要音频数据306(306a、306b等)以及关联音频数据308(308a、308b等)依次交错(interleave)。通常,对于视频数据的给定部分(例如,304a),要被同步(例如,同时、并行等)输出的对应的主要音频数据(例如,306a)和关联音频数据(例如,308a)在视频数据的下一部分(例如,304b)之前被交错。
[0042]这种布置帮助媒体播放器设备100(参见图1)执行渐进式下载。在渐进式下载中,媒体播放器设备100首先下载元数据302,然后渐进地下载交错的视频数据304、主要音频数据306以及关联音频308;起始于内容的开头,并且依次进行到末尾。这使得媒体播放器设备100—旦已经下载了规定量的数据就能够开始播放内容。例如,如果规定量对应于30秒的内容,则媒体播放器设备100可以在它已经下载了与第一个30秒对应的交错的数据部分之后开始播放内容;在内容正在输出时的第一个30秒中,媒体播放器设备100执行后续的交错的数据部分的下载;等等。规定量可以根据各种因素(诸如与网络102的连接速度、内容的大小等)调节。
[0043]由于每个视频数据部分与它的对应主要音频部分和对应关联音频部分物理邻近,因此这三个部分中的每一个可以一起被并行地读取,处理,并且同步地输出。
[0044]图3B示出了图3A中示出的视频数据、主要音频数据和关联音频数据(例如,304x、306x和308x)的更多细节。如图3A中,交错的视频数据部分304x与交错的主要音频数据部分306x和交错的关联音频数据部分308x关联。每个音频数据部分内是轨道部分。通常,图3B通过示出每个数据部分内的多个关联轨道和多个主要音频轨道而给图3A增加更多细节。
[0045]更具体地,主要音频数据部分306x包括m个主要音频轨道部分316a、316b、316m等。m个主要音频轨道部分对应于内容的m个主要音轨。例如,内容可以具有用于对话的三种不同语言(英语、法语和德语)的三个主要音轨。如果轨道部分316a对应于英语,则来自全部交错的主要音频数据部分306的具有英语的主要音频轨道部分的每一个的集合体(aggregat1n)对应于英语的整个主要对话轨道。
[0046]类似地,关联音频数据部分308x包括对应于内容的m个音频描述轨道的m个关联音频轨道部分318a、318b、318m等。关联音频数据部分308x可以还包括其它关联音频轨道部分320x。其它关联音频轨道部分320x可以对应于导演的评论轨道。如同主要音频数据部分306x—样,给定语言的整个音频描述轨道对应于来自全部交错的关联音频数据部分308的用于该语言的关联音频轨道部分(例如,318a)的每一个的集合体。
[0047]图4是输出多种语言的音频和关联音频的方法400的流程图。方法400可以通过媒体播放器设备100(参见图1)例如如一个或更多个计算机程序控制的那样实现。
[0048]在402处,存储多媒体容器。多媒体容器包括主要音频数据集和关联音频数据集。主要音频数据集和关联音频数据集具有多种语言。多媒体容器可以类似于容器200和300(参见图2-3)。多媒体容器可以根据渐进式下载来存储。
[0049]在404处,接收第一选择信息。第一选择信息对应于该多种语言中的第一所选语言。例如,对于第一选择信息的默认设定可以是英语(或者另一种默认语言),如容器中的元数据指定的。作为另一个示例,用户可以通过从许多可用的语言中选择语言来提供第一选择信息,如通过媒体播放器设备100的用户界面显示的。作为另一个例子,第一选择信息可以根据对于先前容器中的内容的先前用户选择来设定。
[0050]在406处,从多媒体容器输出第一音频数据流。第一音频数据流对应于主要音频数据集中的具有第一所选语言的第一所选主要音频数据集。例如,媒体播放器设备100可以将作为视频和音频流152中的一个的第一音频数据流输出到AVR 104(参见图1)。
[0051]在408处,接收第二选择信息。第二选择信息与关联音频数据集有关。例如,用户可以通过与媒体播放器设备100的用户界面交互来指示要“开启”音频描述,从而提供第二选择信息。
[0052]在410处,从多媒体容器输出第二音频数据流。第二音频数据流对应于关联音频数据集中的具有第一所选语言的第一所选关联音频数据集。例如,如果用户在404中选择法语,也以法语输出音频描述。
[0053]在412处,接收第三选择信息。第三选择信息对应于该多种语言中的第二所选语言。例如,如果404中默认为英语,用户可以通过经由媒体播放器设备100的用户界面选择德语来提供第三选择信息。
[0054]在414处,从多媒体容器输出第三音频数据流代替第一音频数据流。第三音频数据流对应于主
当前第2页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1