用于存储多源多媒体表示的系统和方法

文档序号:7737775阅读:270来源:国知局
专利名称:用于存储多源多媒体表示的系统和方法
技术领域
各种实施方式总体上涉及多媒体表示的存储。更具体地,各种实施方式涉及多源多媒体表示在文件中的存储以用于本地回放或者传输,其中多源多媒体表示指的是呈现针对至少一种类型媒体的多于一个媒体流的那些多媒体表示。
背景技术
这个部分旨在提供记载在权利要求中的发明的背景或者上下文。这里的描述可以包括那些所谋求的概念,但是不必是那些先前已经构思或者继续的概念。因此,除非这里另有指示,否则这个部分中描述的内容并不是本申请中的描述和权利要求的现有技术,并且将该内容包括在这本部分中并不意味着承认其是现有技术。文件格式是由多媒体内容生产、操纵、传输以及消费链条中的重要要素。编码格式与文件格式之间存在差别。编码模式涉及将内容信息编码成比特流的特定编码算法的动作。相比而言,文件格式包括用于以一种方式组织所生成的比特流的机制,使得其能够被访问以用于本地解码以及回放、被作为文件传输、或者被流式传输,所有这些都利用很多种存储器架构和传输架构。另外,文件格式可以使用以有助于媒体的交换和编辑。例如,许多流式应用要求元数据(存储在“提示轨道”中)伴随服务器上的预编码的比特流,而该元数据辅助该服务器将视频流式传输到客户端。提示轨道并不包含媒体数据,但是相反其包含用于将一个或者多个轨道打包为流式传输信道的指令。可用的媒体文件格式标准包括国际标准化组织(ISO)基本媒体文件格式(ISO/国际电工技术委员会(IEC) 14496-12)(也简称为ISO文件格式)、运动图像专家组(MPEG)-4 文件格式(IS0/IEC14496-14)、高级视频编码(AVC)文件格式(IS0/IEC 14496-15)以及第三代合作伙伴项目(3GPP)文件格式(3GPP TS26.M4)。在MPEG中正在尝试开发分级视频编码(SVC)文件格式以及多视角视频编码(MVC)文件格式,这两种文件格式预期将会成为 AVC文件格式的修订。ISO文件格式是所有的以上标识的文件格式(除了 ISO文件格式本身)衍生的基础。这些文件格式(包括ISO文件格式它本身)称为ISO文件格式家族。根据ISO文件格式家族,每个文件恰好包含与一个表示相对应的一个影片盒(movie box)。影片盒可以包括一个或者多个轨道,并且每个轨道驻留在一个轨道盒中。针对一个媒体类型(例如音频或者视频)的表示,通常选择一个轨道,虽然有可能存在多于一个轨道存储某一媒体类型的信息。这些轨道的子集可以形成替代轨道分群,其中每个轨道可独立地进行解码并且可以选择以用于回放。在多方会议中,接收器在分屏窗口中显示来自参与者中选定子组的视频,例如图6中示出了一种布置。多点控制单元(MCU)可以将参与者中选定子组的传入视频流代码转换为一个视频流,其包含来自参与者中选定子组的所有视频内容的视频流。替代地,MCU可以简单地将来自参与者中选定子组的传入视频流转发给接收器,在此之后每个视频流被单独地进行解码。接收器可能想要存储多方会议表示以用于将来使用。然而,如果MCU将流转发给参与者,则当前标准文件格式设计并不支持对多方视频会议表示的存储。接收器可以根据现有的文件格式设计(例如ISO基本文件格式)把将要显示的视频流存储在分离的视频轨道中。然而,在这种情况下,以文件作为输入的播放器无法知道应当对哪些视频轨道进行解码以及将怎样显示相应视频轨道。在多种其他应用情境中,呈现针对至少一种类型媒体的多于一个视频流的其他类型多源多媒体表示也是有可能的。这样的其他应用情景的示例包括,例如记录的视频电话,其中存在两个参与者,即呼叫者和应答者;视频监视,其中可以存在大量摄像机(可能装备有音频传感器),摄像机将会向控制中心发送视听信号;以及记录的培训类表示,其中表示幻灯片以及一个或者多个谈话者可以记录在分离的媒体流中并且稍后对两者进行显
7J\ O另外,容易地从文件知道多源表示过去或者现在所针对的应用情景是有用的,从而提供针对当文件在将来使用时的上下文。另外,从文件知道更多的上下文信息,例如参与者的名称、电话号码以及谁做出视频电话/会议的记录或者用于视频监视的摄像机标识符和/或位置描述将是有用的。进一步并且关于视频监视,可能存在多个音频源,多个音频源中的每个音频源与一个视频源相关联。然而,常规系统和方法中并未提供将音频源(存储在一个音频轨道中)映射到视频源(存储在一个视频轨道中)的机制。另外,在诸如视频电话、会议以及监视的应用情景中,与其他方或者源相比,以更加明显的方式显示活动方或者活动源通常是有用的。因此,如果关于活动方或者活动源的信息(听觉的或者视觉的)曾经在文件中可用,则文件的将来播放器可以根据这样的信息自动地并且容易地显示活动方或者活动源。最后并且关于任何听觉和/或视觉表示,静默时间段(在其中听觉事件和视觉事件都不活动)具有最少信息量。因此,尤其出于浏览类目的,抑制这种静默时间段的播放时间将是有用的。因此,具有指示静默时间段的信息将是有益的。

发明内容
各种实施方式提供支持多源多媒体表示的存储的文件格式设计。通过包括有关表示是否为多源表示这样的指示来启用这样的支持,并且针对一个媒体类型,其轨道是来自不同的源并且应当同时进行播放。如果该表示是多源表示,则可以提供附加指示,包括但不限于关于正在存储的多源表示的类型的指示、关于每个轨道的源以及哪些轨道来自同一源的指示、关于不同方的信息(例如电话号码、参与者名称、摄像机标识符、位置描述等)的指示、关于将怎样以分屏窗口显示经解码的视频流的指示以及关于听觉或者视觉活动水平的指示。通过这样的布置,播放器能够回放记录的视频电话表示、记录的多方视频会议表示、记录的视频监视表示或者记录的培训类表示,其回放方式与这些表示在实际会话期间被呈现的方式相同或基本相同。另外,表示可以通过播放器自动地操纵以使表示变得更具信息性或者更加有效。根据各种实施方式的文件格式设计还支持呈现针对至少一种类型媒体的多于一个媒体流的其他类型多源表示的存储。从当与附随附图结合考虑时,从以下详细描述,本发明这些以及其他优点和本发明的特征,以及其组织以及操作方式,都会变得清晰明了,其中在整个以下描述的若干附图中,相似的元件具有相似的标记。


通过参照附随附图描述各种实施方式的实施方式,其中图1是用于与本发明的各种实施方式一起使用的通用多媒体通信系统的表示;图2是图示了在根据各种实施方式的编码过程中执行的示例性处理的流程图;图3是图示了在根据各种实施方式的解码过程中执行的示例性处理的流程图;图4是可以与本发明的各种实施方式的实现结合使用的电子设备的透视图;以及图5是可以包括在图4的电子设备中的电路的示意性表示。图6是多画面显示的布置的示意性表示。
具体实施例方式各种实施方式包括支持多源多媒体表示的存储的文件格式设计,这样的支持通过包括有关表示是否为多源表示这样的指示来启用的,并且针对一个媒体类型,其轨道来自不同的源并且应当同时进行回放。如果表示是多源表示,则提供附加指示。这种附加的指示/信号符可以包括但是不限于以下指示关于正在存储的多源表示的类型的指示、关于每个轨道的源以及哪些轨道来自同一源的指示、表示不同方的信息(例如电话号码、参与者名称、摄像机标识符、位置描述等)的指示、关于将怎样以分屏窗口显示经解码的视频流的指示以及关于听觉或者视觉活动水平的指示。因此,播放器可以回放记录的视频电话表示、记录的多方视频会议表示、记录的视频监视表示或者记录的培训类表示,其回放方式与这些表示在实际会话期间被呈现的方式相同或基本相同。另外,表示可以由播放器自动地操纵以使表示变得更具信息性或者更加有效。根据各种实施方式的文件格式设计还支持呈现针对至少一种类型媒体的多于一个媒体流的其他类型多源表示的存储。在一个实施方式中,如以下对常规MovieHeaderBox进行改变,使得预留比特中一些比特使用例如作为信号符以指示包含在文件中的表示是否为多源表示,并且如果为多源表示,该多源表示的类型aligned(8) class MovieHeaderBox extends FullBox(‘mvhd’,version, 0) { if (version= 1) {
unsigned int(64) creation—time; unsigned int(64) modification—time; unsigned int(32) timescale; unsigned int(64) duration;
} else {// version==0 unsigned int(32) creation—time; unsigned int(32) modification—time; unsigned int(32) timescale; unsigned int(32) duration;
}
template int(32) rate = 0x00010000; Il typically 1.0
template int( 16) volume = 0x0100; Il typically, full volume
unsigned int(8) multisource_presentation;
const bit(8)reserved = 0;
const unsigned int(32)[2] reserved = 0;
template int(32)[9] matrix =
{ 0x00010000,0,0,0,0x00010000,0,0,0,0x40000000 }; // Unity matrix bit(32)[6] pre—defined = 0; unsigned int(32) next—track—ID;
} “multisource_presentation (多源表示)”值等于0规定存储在这个文件中的表示不是多源表示,并且“multis0urce_presentati0n”值不等于0规定存储在这个文件中的表示是多源表示。所规定的值标识了多源表示的类型。例如,multisource_presentation 值为1可以规定视频电话表示、mu 11i source_presentation值为2可以规定视频会议表示、 multisource_presentation 值为 3 可以规定视步页监视表不、multisource_presentation 值为4可以规定培训类表示等。应当注意,根据各种实施方式可以指示/表明其他类型的多源表示,并且指示符/信号符可以根据需要进行配置以表示各种类型的多源表示。
如以上指示的并且根据该实施方式,当“multisourcLpresentation”值不等于0 时,则知道所有的轨道都属于多源表示。在多个轨道形成交替轨道群的情况中,仅选择这些轨道中的一个轨道用于回放。另外,当“multisourcLpresentation”的值不等于0时,定义新盒并且将该盒包含在该文件的影片盒中。这个新盒(称为多源轨道分群盒)如以下进行定义Box Type ‘mstg,Container :Movie Box ( ‘moov,)Mandatory :NoQuantity -.Zero or One这个盒规定针对多源表示的轨道的分群。用于在实现该实施方式中使用的示例语句如下
aligned(8) class MultisourceTrackGroupingBox extends FullBox('mstg', version = 0,flags = 0)
{
int i,j,k;
unsigned int(8) num—media—types; for(i=0; i<num—media—types; i++) { unsigned int(32) media—type—name; unsigned int(16) num_media—sources; for(j=0; j<num_media_sources; j++) { unsigned int(16) media_source—id; string source_info;
unsigned int(8) num_alternate_tracks; for(k=0; k<num—alternate—tracks; k++) unsigned int(32) alternate—track—id;
}
}
}针对以上描绘的语句的相关语义如下。“version”指的是规定这个盒的版本的整数(在这个实例中等于0)。“flags”是具有标志的M比特整数(在这个实例中等于0)。 "num_media_types"规定多源媒体表示中涉及的媒体类型的数目。例如,如果表示中仅涉及视频和音频,则“num_media_typeS”的值等于2。"media_type_name"规定当前媒体类型的名称(与i的值相关联),其值可以与由HandlerReferenceBox (句柄参考盒)中的 “handler_type”定义的整数相同。例如‘vide’规定视频媒体类型,并且‘soun’规定音频媒体类型。“nUm_media_S0UrceS”规定针对当前媒体类型的源的数目(与i的值相关联)。 “media_S0Urce_id”规定针对当前媒体类型(与i的值相关联)的当前媒体源的标识符(与j的值相关联)。应当注意到,源标识符除了可以是16比特无符号整数之外,还可以是任意类型的标识符,例如通用唯一标识符(UUID)、统一资源定位符(URL)、互联网协议(IP) 地址、媒体访问控制(MAC)地址、位置&方向或者它们的任意组合。“sourcejnfo”是以空字符结尾的UTF-8字符的字符串,其给出关于源的人可读的信息。例如,当“multis0urce_ presentation”(在MovieHeaderBox中)的值是1(视频电话)或者2 (视频会议)时, 在“S0Urce_inf0”中包括参与者名称、电话号码以及或者关于该源的其他相关信息。当 “multisource_presentation”的值是3(视频监视)时,在“source_info”串中包括针对这个源的摄像机标识符和位置描述。“nunualternatejracks”指定针对当前媒体类型(与i 的值相关联)的当前媒体源(与j的值相关联)的交替轨道的数目。“alternate_track_ id”规定针对当前媒体类型(与i的值相关联)的当前媒体源(与j的值相关联)的当前交替轨道的轨道标识符(与k的值相关联)。针对一种媒体类型的一个媒体源,仅选择交替轨道中一个轨道进行解码和呈现。可以通过由“media_S0Urce_id”规定的媒体源标识符的相同值对不同媒体类型进行映射。例如,在视频监视表示中,具有相同的媒体源标识符的音频轨道和视频轨道被视为来自同一源(即,通过捕获音频信号和视频信号两者的传感器来监视同一位置)。各种实施方式也涉及在本地提供相同指示(如上述)给每个轨道,而不是全局地与MovieHeaderBox以及MultisourceTrackGroupingBox相关联地提供。在一个实施方式中,定义了某些新的轨道参考类型,每个新的轨道参考类型与一个多源表示类型相对应。例如,针对视频电话表示、视频会议表示、视频监视表示以及培训类表示分别定义参考类型 ‘tlfn’、‘C0nf’、‘SUrv’以及‘pres’。根据该实施方式,对于每个媒体类型,属于多源表示的每个轨道包含以上四种类型中的一种类型的TrackReferenceTypeBox( g卩,具有等于以上四种类型的一种的referencejype)。属于同一多源会议表示的每个轨道的track_ ID等于存在于以上四种类型中一种类型的TrackReferenceTypeBox中的track_ID中的一个。用该实施方式,文件阅读器可以通过检查所有轨道而获得关于哪些轨道属于多源表示的信息。在包含以上四种类型中的一个类型的TrackReferenceTypeBox的多于一个轨道形成交替轨道分群的情况中,则仅选择它们中的一个以用于回放。替代地,不是使一个轨道参考针对每个类型的多源表示,针对所有多源表示类型仅定义一个类型为‘msrc’的新的轨道参考,使得针对同一源的其他轨道的每一个轨道,track_ID包括在类型为‘msrc’的 TrackReferenceTypeBox中。在该情况下,表示的类型可以包括在其他地方,例如包括在轨道级盒中。为了对音频轨道和视频轨道的源进行映射,在每个轨道中包括源标识符,或者在新盒中,或者在轨道级盒中,例如媒体信息盒或者轨道头盒。源标识符可以是任何类型的标识符,例如无符号整数、通用唯一标识符(UUID)、统一资源定位符(URL)、互联网协议(IP) 地址、媒体访问控制(MAC)地址、位置&方向或者它们的任意组合。当使用新盒以包含源标识符时,新盒本身可以包含在轨道级盒中,例如,媒体信息盒或者轨道头盒。在该情况下,包含源标识符的这种新盒的存在可以用作轨道属于多源表示的指示。对于某一媒体类型(例如视频)播放器可以针对源标识符的每个值选择一个轨道,并且同时播放这些来自不同源的轨道。参与者的名称和电话号码或者摄像机标识符以及位置描述等也可以包括在同一盒中。
各种实施方式还涉及提供关于应当怎样以分屏方式显示经解码的视频流的指示。根据一个特定实施方式,定义了类型为‘SSWP’的新的样本分群以规定其中应当显示轨道的每个样本的分屏窗口位置。在这个布置中,属于多源表示的每个视频轨道包括 grouping_type 等于'sswp'的 SampleToGroupBox 以及 grouping_type 等于'sswp'的 SampleGroupDescriptionBoXo Sample^ToGroupBox将每个样本映射到分屏窗口位置样本分群,并且每个样本分群通常包含多个样本。针对每个分屏窗口位置样本分群,如以下定义的 SswpSampleGroupEntrySampleGroupDescriptionBox ψ ^ : ^ ^^ ] /^
应样本分群的每个样本的分屏窗口中的位置
aligned(8) class SswpSampleGroupEntry()extends VisualSampleGroupEntry(‘sswp‘) { unsigned int(8) sswp x; unsigned int(8) sswp_y; unsigned int(8) sswp_w; unsigned int(8) sswp—h;
}一个视频源的整个区域(由相应样本分群的样本来表示)可以显示在多个分屏窗口上,或者显示在一个分屏窗口上。整个屏幕划分成多个分屏窗口并且分屏窗口应当不包含视频源或者使它的整个区域被仅一个视频源占用。在以上定义中,‘SSWp_x’规定其中应当显示由相应样本分群的样本表示的左上区域的分屏窗口的水平坐标。在该实施方式中, 左上分屏窗口具有等于O的‘SSWp_x’。‘SSWp_y’规定其中应当显示由相应样本分群的样本表示的左上区域的分屏窗口的竖直坐标。在该实施方式中,左上分屏窗口具有等于O的 ‘SSWp_y’。‘SSWp_W’规定其中应当显示相应样本分群的样本的显示区域的宽度。单位是分屏窗口的宽度。‘sswpji’规定其中应当显示相应样本分群的样本的显示区域的高度。单位是分屏窗口的高度。样本的显示覆盖这样的分屏窗口,该分屏窗口的横坐标在SSWp_x到 (sswp_x+sswp_w-1)范围内(包括 sswp_x 禾口(sswp_x+sswp_w_l)),并且纵坐标在 sswp_y 至1」 (sswp_y+sswp_h-1)范围内(包括 sswp_y 至丨J (sswp_y+sswp_h-l))。当 sswp_w 以及 sswp_ h两者都等于1时,样本恰好显示在具有坐标为(SSWp_x,SSWp_y)的一个分屏窗口中。在又一个实施方式中,在每个轨道中包括新盒以表明针对解码时间或者合成(即显示时间)时间的每个分段的、与以上相同的显示信息。根据以上描述的各种实施方式,如果在某一时间段,仅显示一个源的经解码的视频,则在真实会话期间并不发送其他源的视频。因此,对于那个时间段,那些不可见的轨道具有编辑列表,并且播放器可以基于这些列表而知道其应当显示那个轨道,在一个实施方式中优选地在整个屏幕中缩放。各种实施方式还涉及提供关于一方或者一个参与者是否活动的指示。在一个实施方式中,定义了新的样本分群类型‘actv’以规定在轨道中的每个样本的时刻,该方或者该参与者是活动还是不活动。在这个布置中,属于多源表示的每个轨道包括gr0Uping_type 等于‘actv’的Sample^ToGroupBox。SampleToGroupBox将每个样本映射到活动或者不活动的样本分群,并且每个样本分群通常包含多个样本。对于类型‘actv’的每个样本分群,如下定义的 ActiveSampleGroupEntry 包括在 SampleGroupDescriptionBox 中以文档化在相应样本分群中的样本是活动的还是不活动的aligned(8) class ActiveSampleGroupEntry() extendsVisualSampleGroupEntry( 'actv'){unsigned int (8)sample_active ;}sample_active等于O规定相应样本分群中的样本是不活动的,而sample_active 等于1规定相应样本分群中的样本是活动的。在另一实施方式中,samplejctive的值规定相应样本分群的样本的相对活动级别,其中O值指示完全不活动的样本,并且255的值指示最大的活动级别。可以使用samplejctive的任何更高值来指示更高的活动性水平。在又一实施方式中,这个信息在新的全局盒中表明,例如包含在影片盒中的全局盒。利用这些实施方式,文件的播放器可以自动地确定视频电话或者会议会话中的哪此参与者正在说话,并且选择该参与者的视频以显示在更大尺寸中、在整个窗口中或者整个屏幕中等。当快速浏览视频监视表示时,播放器也可以避免不活动时间段的回放。在又一实施方式中,新盒被定为定义为包含在每个轨道盒中。这个新盒包含循环, 针对这个循环,条目的数目等于轨道中的样本数目。该循环的每个条目包含8比特sample_ active域,samplejctive具有与以上描述相同的语义。在又一实施方式中,在文件中包括针对每个媒体轨道的定时的(timed)元数据轨道。定时的元数据轨道的样本与相应媒体轨道的样本时间对准(time-aligned)。另外,每个媒体样本的活动性可以由相应的定时的元数据样本中的8比特samplejctive域来指示,samplejctive同样具有与以上描述相同的语义。应当注意,根据各种实施方式,结合所有先前描述的实施方式而描述的布置、定义、指示等可以应用到提示轨道,每个提示轨道与媒体轨道(例如音频轨道或者视频轨道) 相对应。图1是其中本发明的各种实施方式可以实现的通用多媒体通信系统的图形表示。 如图1所示,数据源100提供模拟格式、未压缩数字格式、或者压缩数字格式或者这些格式的组合的源信号。编码器110将源信号编码成经编码的媒体比特流。应当注意,将要进行解码的比特流可以直接地或者间接地从位于几乎任何类型的网络之内的远程设备接收。另外,可以从本地硬件或者软件接收比特流。编码器110可以能够对多于一种媒体类型(例如音频和视频)进行编码,或者可以要求多于一个编码器110来对不同媒体类型的源信号进行编码。编码器110也可以获得合成产生的输入(例如图形和文本),或者编码器110可以能够产生合成媒体的经编码的比特流。在以下描述中,为了简化描述,仅考虑对一种媒体类型的一个经编码的媒体比特流进行处理。然而应当注意,通常实时广播服务包括若干流 (通常至少一个音频、视频和文本字幕流)。还应当注意,系统可以包括很多编码器,但是在图1中只呈现了一个编码器110以在不缺乏通用性的情况下简化描述。还应当理解,虽然这里包含的文本和示例可以具体地描述编码处理,本领域技术人员将会理解相同的概念和原理也可以应用到相应解码过程,并且反之亦然。经编码的媒体比特流传输到存储器120。存储器120可以包括任意类型的大容量存储器以存储经编码的媒体比特流。经编码的媒体比特流在存储器120中的格式可以是基本的自包含(self-contained)比特流格式,或者一个或者多个经编码的媒体比特流可以封装到容器文件中。一些系统“实况地”进行操作,即省略存储器并且将经编码的媒体比特流直接从编码器110转移到发送器130。经编码的媒体比特流然后以需要为基础转移到发送器130 (也称为服务器)。在传输中使用的格式可以是基本的自包含比特流格式、分组流格式或者一个或者多个经编码的媒体比特流可以封装在容器文件中。编码器110、存储器 120以服务器130可以驻留在相同物理设备中或者它们可以包含在分离的设备中。编码器 110和服务器130可以用实况实时内容操作,在这个情况下,经编码的媒体比特流通常非长久地存储,而是它们在内容编码器110和/或在服务器130中缓冲一小段时间,以平滑掉处理延迟、传输延迟、以及经编码的媒体比特率中的变化。服务器130使用通信协议栈发送经编码的媒体比特流。该栈可以包括但是不限于实时传输协议(RTP)、用户数据报协议(UDP)以及互联网协议(IP)。当通信协议栈为面向分组时,服务器130将经编码的媒体比特流封装成分组。例如,当使用RTP时,服务器130 根据RTP净荷格式将经编码的媒体比特流封装到RTP分组中。通常,每个媒体类型具有专用的RTP净负载格式。同样应当注意,系统可以包含多于一个服务器130,但是为了简单起见,以下描述只考虑一个服务器130。服务器130可以或可以不通过通信网络连接到网关140。网关140可以执行不同类型的功能,例如将根据一种通信协议栈的分组流转换为另一种通信协议栈、数据流的合并和分叉以及根据下行链路和/或接收器的能力而操纵数据流(例如根据主要的下行链路状况而控制转发流的比特率)。网关140的示例包括MCU、电路交换和分组交换视频电话之间的网关、蜂窝一键通(PoC)服务器、数字视频广播手持(DVB-H)系统中的IP封装器或者将广播传输在本地转发到家庭无线网络的机顶盒。当使用RTP时,网关140称作RTP混频器或者RTP转换器并且其通常作为RTP连接终结点而起作用。系统包括一个或者多个接收器150,该接收器通常能够对发送的信号进行接收、解调、以及解封装成经编码的媒体比特流。经编码的媒体比特流传输到记录存储器155。记录存储器巧5可以包括任意类型的大容量存储器以存储经编码的媒体比特流。记录存储器 155可以替代地或者附加地包括计算存储器,例如随机存取存储器。经编码的媒体比特流在记录存储器155中的格式可以是基本的自包含比特流格式,或者一个或者多个经编码的媒体比特流可以封装到容器文件中。如果存在许多相互关联的经编码的媒体比特流(例如音频流和视频流),则通常使用容器文件并且接收器150包括或者附接到从输入流产生容器文件的容器文件生成器。一些系统“实况地”进行操作,即省略记录存储器155并且将经编码的媒体比特流直接从接收器150转移到解码器160。在一些系统中,仅将记录的流的最近期部分(例如记录流的最近期10分钟摘录)保持在记录存储器155中,而将任意较早记录的数据从记录存储器155中丢弃。经编码的媒体比特流从记录存储器155转移到解码器160。如果有许多相互关联并且被封装到容器文件中的经编码的媒体比特流,例如音频流和视频流,则使用文件解析器(在图中未示出)以将每个经编码的媒体比特流从容器文件中解封装出来。记录存储器 155或者解码器160可以包括文件解析器,或者文件解析程序可以附接到记录存储器155或者解码器160。
经编码的媒体比特流通常由解码器160进一步处理,解码器160的输出是一个或者多个未压缩的媒体流。最后,呈现器170可以用例如扬声器或者显示器来再生未压缩的媒体流。接收器150、记录存储器155、解码器160以及呈现器170可以驻留在同一物理设备中,或者它们可以包括在分离的设备中。图2是示出根据各种实施方式在文件合成过程中执行的示例性处理的流程图。应当注意,可以根据各种实施方式执行更多或者更少的处理。在200处,存储其中包括多个轨道的文件。在210处,在文件中提供至少一个第一指示,第一指示是关于多个轨道是否属于呈现针对至少一个媒体类型的多于一个媒体流的多源表示。在220处,在文件中提供第二指示,第二指示涉及将怎样呈现属于多源表示的多个轨道。图3是示出根据各种实施方式在文件分析过程中执行的示例性处理的流程图。应当注意,可以根据各种实施方式执行更多或者更少的处理。在300处,在文件内经由至少一个第一标识将多个轨道标识为属于多源表示,其中从该多源表示呈现针对至少一种类型媒体的多于一个媒体流。在310处,从文件检索第二指示,第二指示涉及将怎样呈现属于多源表示的多个轨道。在320处,对被标识为属于多源表示的每个轨道进行呈现。本发明的通信设备可以使用各种传输技术进行通信,各种传输技术包括但是不限于码分多址(CDMA)、全球移动通信系统(GSM)、通用移动电信系统(UMTS)、时分多址 (TDMA)、频分多址(FDMA)、传输控制协议/互联网协议(TCP/IP)、短消息收发服务(SMS)、多媒体信息收发服务(MMS)、电子邮件、即时消息收发服务(IMS)、蓝牙以及IEEE 802. 11等。 通信设备可以使用,包括但是不限于,无线、红外、激光、电缆连接等的各种介质进行通信。图4和图5示出其中可以实现各种实施方式的代表性电子设备12。应当理解,各种实施方式不旨在限于一种特定类型的设备。图4和图5的电子设备12包括外壳30、以液晶显示器形式存在的显示器32、小键盘34、扬声器36、耳机38、电池40、红外端口 42、天线 44以及根据一个实施方式的以UICC形式的智能卡46、读卡器48、无线电接口电路52、编解码器电路M、控制器56以及存储器58。各种电路和元件都是本领域公知的类型。已经在方法步骤或者处理的通用上下文对这里描述的各种实施方式进行了描述, 方法步骤或者处理可以通过计算机程序产品(实现计算机可读介质中)实现在一个实施方式中,该计算机程序产品包括由组网环境中的计算机执行的计算机可执行的指令(例如程序代码)。计算机可读介质可以包括可移除以及不可移除存储设备,包括但是不限于,只读存储器(ROM)、随机存取存储器(RAM)、高密度盘(⑶)、数字通用光盘(DVD)等。通常,程序模块可以包括执行特定任务或者实现特定抽象数据类型的例程、程序、对象、组件、数据结构等。计算机可执行的指令、相关联的数据结构、以及程序模块表示用于执行这里公开的方法的步骤的程序代码示例。这样的可执行指令或者相关联数据结构的特定序列表示用于实现在这样的步骤或者处理中描述的功能的对应动作的示例。各种实施方式可以以软件、硬件、应用逻辑,或者软件、硬件以及应用逻辑的组合来实现。软件、应用逻辑和/硬件可以例如驻留在芯片、移动设备、台式机、膝上型电脑或者服务器中。各种实施方式的软件和web实现可以用标准编程技术来实现,标准编程技术具有基于规则的逻辑或者其他逻辑以实现各种数据库搜索步骤或者处理、相关步骤或处理、 比较步骤或处理以及决定步骤或者处理。各种实施方式也可以全部或者部分实现在网络元件或者模块内。应当注意,在这里和以下权利要求中使用的词“组件”和“模块”旨在涵盖使用一个或者多个软件代码行、和/或硬件实现、和/或用于接收人工输入的设备的实现方式。在前述例子中描述的单独和特定结构应当被理解为构成了用于执行所附权利要求中描述的特定功能的装置的代表性结构,但是,在术语“装置”在其中未被使用的情况中, 权利要求中的限定不应当被解释为构成“装置加功能”的限定。另外,在之前描述中使用术语“步骤”不应当被用于将权利要求中的任意特定限定解释为构成“步骤加功能”的限定。 就在这里描述或者另外提到的个别参考(包括已经授权的专利、专利申请、以及非专利出版物)的范围而言,这样的参考并非旨在并且不应当被解释为限制以下权利要求的范围。已经为图示和描述的目的呈现了实施方式的之前描述。之前描述并非旨在穷尽或者将各种实施方式限制到公开的精确形式,并且根据以上教导,修改和变形是有可能的或者其可以从各种实施方式的实践而获得。选择和描述这里论述的实施方式是为了解释各种实施方式的原理和本质以及其实际应用,使得本领域技术人员能够将各种实施方式以及各种合适修改利用到所考虑的特定使用。这里描述的实施方式的特征可以在方法、装置、模块、系统以及计算机程序产品的所有可能的组合中进行组合。
权利要求
1.一种方法,包括存储文件,所述文件中包括多个轨道;在所述文件中提供第一指示,所述第一指示关于所述多个轨道是否属于呈现多于一个媒体流的多源表示;以及在所述文件中提供第二指示,所述第二指示涉及将怎样呈现属于所述多源表示的所述多个轨道。
2.如权利要求1的方法,其中所述多源表示包括以下表示中的至少一个视频电话表示、多方视频会议表示、视频监视表示以及培训类表示。
3.如权利要求1的方法,其中所述第一指示包括所述文件的影片盒中的信号符,所述信号符指示至少一个源和源信息,以及所述文件中的媒体轨道的基于源的映射。
4.如权利要求1的方法,进一步包括在所述文件中提供第三指示,所述第三指示与属于所述多源表示的每个轨道相关联, 并且指示所述轨道中每个时间段的活动性水平。
5.如权利要求1的方法,其中所述第一指示包括所述轨道中的源标识符,并且其中所述源标识符指示轨道中包含的媒体所来自的源。
6.一种计算机可读介质,所述计算机可读介质上存储有计算机程序,所述计算机程序包括可操作以促使处理器执行权利要求1的方法的指令。
7.一种装置,配置成存储文件,所述文件中包括多个轨道;在所述文件中提供第一指示,所述第一指示关于所述多个轨道是否属于呈现多于一个媒体流的多源表示;以及在所述文件中提供第二指示,所述第二指示涉及将怎样呈现属于所述多源表示的所述多个轨道。
8.如权利要求7的装置,其中所述多源表示包括以下表示中的至少一个视频电话表示、多方视频会议表示、视频监视表示以及培训类表示。
9.如权利要求7的装置,其中所述第一指示包括所述文件的影片盒中的信号符,所述信号符指示至少一个源和源信息,以及所述文件中的媒体轨道的基于源的映射。
10.如权利要求7的装置,其中所述装置进一步配置成在所述文件中提供第三指示,所述第三指示与属于所述多源表示的每个轨道相关联, 并且指示所述轨道中每个时间段的活动性水平。
11.如权利要求7的装置,其中所述装置进一步配置成通过在轨道中包括源标识符来提供所述第一指示,并且其中所述源标识符指示所述轨道中包含的媒体所来自的源。
12.一种方法,包括从文件获取第一指示,所述第一指示指示属于多源表示的多个轨道;从所述文件获取第二指示,所述第二指示涉及将怎样呈现属于所述多源表示的所述多个轨道;以及基于所述第二指示呈现属于所述多源表示的所述多个轨道。
13.如权利要求12的方法,其中所述多源表示包括以下表示中的至少一个视频电话表示、多方视频会议表示、视频监视表示以及培训类表示。
14.如权利要求12的方法,其中所述第一指示包括所述文件的影片盒中的信号符,所述信号符指示至少一个源和源信息,以及所述文件中的媒体轨道的基于源的映射。
15.如权利要求12的方法,进一步包括从文件中获取第三指示,所述第三指示与属于所述多源表示的每个轨道相关联,并且指示在所述轨道中的每个时间段的活动性水平。
16.如权利要求12的方法,其中所述第一指示指示所述轨道中包含的媒体所来自的源。
17.一种计算机可读介质,所述计算机可读介质上存储有计算机程序,所述计算机程序包括可操作以促使处理器执行权利要求12的方法的指令。
18.一种装置,配置成从文件获取第一指示,所述第一指示指示属于多源表示的多个轨道; 从所述文件获取第二指示,所述第二指示涉及将怎样呈现属于所述多源表示的所述多个轨道;以及基于所述第二指示呈现属于所述多源表示的所述多个轨道。
19.如权利要求18的装置,其中所述多源表示包括以下表示中的至少一个视频电话表示、多方视频会议表示、视频监视表示以及培训类表示。
20.如权利要求18的装置,其中所述第一指示包括在针对所述文件的影片盒中的信号符,所述信号符指示至少一个源和源信息,以及所述文件中的媒体轨道的基于源的映射。
21.如权利要求18的装置,其中所述装置进一步配置成从文件中获取第三指示,所述第三指示与属于所述多源表示的每个轨道相关联,并且指示所述轨道中每个时间段的活动性水平。
22.如权利要求18的装置,其中所述第一指示指示所述轨道中包含的媒体所来自的源。
全文摘要
文件格式设计经由指示的包括来支持多源多媒体表示的存储,该指示关于表示是否是多源表示,并且针对一个媒体类型,它的轨道是来自不同的源并且应当同时进行回放。如果存在多源表示,则可以提供如以下的附加指示关于正在存储的多源表示的类型的指示、关于每个轨道的源以及哪些轨道具有相同源的指示、关于不同方的信息(例如电话号码等)的指示等等。因此,播放器可以回放记录的表示,其回放方式与这些表示在实际会话期间被呈现的方式相同或基本相同,并且可以自动操纵表示使得其更加有益或者更加有效。文件格式设计还支持呈现针对至少一种类型媒体的多于一个媒体流的其他类型多源表示的存储。
文档编号H04N5/00GK102246491SQ200980149283
公开日2011年11月16日 申请日期2009年10月2日 优先权日2008年10月8日
发明者M·安尼克塞拉, 王业奎 申请人:诺基亚公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1