在使用MIME类型参数的网络视频流式传输中发信重要视频信息的制作方法

文档序号:19080001发布日期:2019-11-08 22:11阅读:972来源:国知局
在使用MIME类型参数的网络视频流式传输中发信重要视频信息的制作方法

本发明涉及经编码媒体数据的输送。



背景技术:

数字视频能力可并入到广泛范围的装置中,所述装置包含数字电视、数字直播系统、无线广播系统、个人数字助理(personaldigitalassistant,pda)、膝上型或台式计算机、数字摄像机、数字记录装置、数字媒体播放器、视频游戏装置、视频游戏控制台、蜂窝式或卫星无线电电话、视频电话会议装置及类似者。数字视频装置实施视频压缩技术,例如描述于由mpeg-2、mpeg-4、itu-th.263或itu-th.264/mpeg-4第10部分“高级视频译码(advancedvideocoding,avc)”、itu-th.265(还参考高效率视频译码(highefficiencyvideocoding,hevc))及此类标准的扩展中所定义的标准中的那些技术,从而更有效地发射且接收数字视频信息。

在已编码视频(及其它媒体数据)数据之后,视频数据可经分组化以供发射或存储。可将视频数据组译成符合多种标准中的任一者的视频文件,所述标准是例如国际标准化组织(internationalorganizationforstandardization,iso)基本媒体文件格式及其扩展,例如avc。



技术实现要素:

一般来说,本发明描述用于发信关于以下各者的重要视频信息的技术:高动态范围(highdynamicrange,hdr)、广色域(widecolourgamut,wcg)视频、虚拟实境/全向/360度视频、经帧封装视频、具有显示定向改变的视频、使用iso基本媒体文件格式(isobasemediafileformat,isobmff)的受约束方案特征存储的视频,及使用需要专用后解码显现处理以提供所要视觉体验的其它特征的视频。特定来说,描述各种实例mime类型参数,其可在高水平系统发信消息主体中暴露此重要视频信息,例如,经由http的动态自适应流式传输(dynamicadaptivestreamingoverhttp,dash)媒体呈现描述(mediapresentationdescription,mpd)文件(或其它此类清单文件),使得重要视频信息可方便地通过例如dash客户端的应用客户端存取,以做出内容拒斥/选择/接受/请求决策。即,dash客户端可使用此信息以选择恰当媒体数据集合(例如,恰当的dash表示),其中当所述客户端装置能够解码及显现所述媒体数据(例如,客户端装置包含能够解码包含在dash表示中的所述媒体数据的视频解码器)时,所述媒体数据可被视为“恰当的”。

在一个实例中,一种检索媒体数据的方法包含:检索指定针对媒体呈现的至少一个表示的数据的清单文件,其中所述清单文件包含指定针对所述至少一个表示的一或多个编解码器的数据;从所述清单文件提取指定所述一或多个编解码器的所述数据,所述提取操作包含:提取表示所述至少一个表示的播放轨的样本项类型码的第一元素,其中所述第一元素表示播放轨包含使用受约束方案存储的视频数据;及提取表示针对所述播放轨的所述受约束方案的受约束方案类型码的第二元素;以及基于所述第一元素及所述第二元素检索所述至少一个表示的所述媒体数据。

在另一实例中,一种用于检索媒体数据的装置包含经配置以存储媒体数据的存储器;及一或多个处理器,其在电路中实施且经配置以:检索指定针对媒体呈现的至少一个表示的数据的清单文件,其中所述清单文件包含指定针对所述至少一个表示的一或多个编解码器的数据;从所述清单文件提取指定所述一或多个编解码器的所述数据,所述数据包含表示所述至少一个表示的播放轨的样本项类型码的第一元素及表示针对所述播放轨的受约束方案的受约束方案类型码的第二元素,其中所述第一元素表示所述播放轨包含使用所述受约束方案存储的视频数据;以及基于第一元素及第二元素检索所述至少一个表示的媒体数据。

在另一实例中,一种用于检索媒体数据的装置包含:用于检索清单文件的装置,所述清单文件指定针对媒体呈现的至少一个表示的数据,其中所述清单文件包含指定针对所述至少一个表示的一或多个编解码器的数据;用于从所述清单文件提取指定所述一或多个编解码器的所述数据的装置,所述装置包含:用于提取表示所述至少一个表示的播放轨的样本项类型码的第一元素的装置,其中所述第一元素表示所述播放轨包含使用受约束方案存储的视频数据;及用于提取第二元素的装置,所述第二元素表示针对所述播放轨的所述受约束方案的受约束方案类型码;及用于基于所述第一元素及所述第二元素检索所述至少一个表示的媒体数据的装置。

在另一实例中,一种例如非暂时性计算机可读存储媒体的计算机可读存储媒体上面已存储有指令,所述指令在被执行时致使处理器以:检索指定针对媒体呈现的至少一个表示的数据的清单文件,其中所述清单文件包含指定针对所述至少一个表示的一或多个编解码器的数据;从所述清单文件提取指定所述一或多个编解码器的所述数据,所述指令包含致使所述处理器执行以下操作的指令:提取表示所述至少一个表示的播放轨的样本项类型码的第一元素,其中所述第一元素表示所述播放轨包含使用受约束方案存储的视频数据;及提取第二元素,所述第二元素表示针对所述播放轨的所述受约束方案的受约束方案类型码;以及基于所述第一元素及所述第二元素检索所述至少一个表示的媒体数据。

在以下随附图式及描述中阐述一或多个实例的细节。其它特征、目标及优点将从所述描述及图式以及从权利要求书为显而易见。

附图说明

图1为说明实施用于经由网络而流式传输媒体数据的技术的实例系统的框图。

图2为更详细地说明图1的检索单元的组件的实例集合的框图。

图3为说明实例多媒体内容的元素的概念图。

图4为说明实例视频文件的元素的框图,所述实例视频文件可对应于表示的区段。

图5为说明根据本发明的技术的实例方法的流程图。

具体实施方式

一般来说,本发明描述用于发信关于以下各者的重要视频信息的技术:高动态范围(hdr)、广色域(wcg)视频、虚拟实境/全向/360度视频、经帧封装视频、具有显示定向改变的视频、使用iso基本媒体文件格式(isobmff)的受约束方案特征存储的视频,及使用需要专用后解码显现处理以提供所要视觉体验的其它特征的视频。特定来说,描述各种实例mime类型参数,其可在高层级系统发信消息主体中暴露此些重要视频信息,例如,经由http的动态自适应流式传输(dash)媒体呈现描述(mpd)文件(或其它此些清单文件),使得重要视频信息可适宜地通过应用客户端存取,例如dash客户端,以做出内容拒斥/选择/接受/请求决策。即,dash客户端可使用此信息来选择恰当媒体数据组(例如,恰当dash表示),其中当所述客户端装置能够解码及显现所述媒体数据(例如,客户端装置包含能够解码包含在dash表示中的所述媒体数据的视频解码器)时,所述媒体数据可被视为“恰当的”。

举例来说,本发明揭露发信关于使用受约束方案存储的视频、hdr/wcg视频、vr/全向/360视频、经帧封装视频及具有显示定向改变的视频的重要视频信息的若干实例方法,使得所述重要视频信息可通过例如dash客户端的应用客户端方便地存取,以做出内容拒斥/选择/接受/请求决策。可独立地或以任何组合执行此些方法中的一或多者。

在本文献的上下文中,“重要视频信息”包含可用于内容选择的视频信息,例如,选择视频播放轨或其部分以供消耗。

视频译码标准包含itu-th.261;iso/iecmpeg-1visual;itu-th.262或iso/iecmpeg-2visual;itu-th.263;iso/iecmpeg-4visual;itu-th.264或iso/iecmpeg-4avc,包含其可调式视频译码(scalablevideocoding,svc)及多视图视频译码(multiviewvideocoding,mvc)扩展;及也被称作itu-th.265及iso/iec23008-2的高效率视频译码(high-efficiencyvideocoding,hevc),包含其可调式译码扩展(即,可调式高效率视频译码,shvc)及多视图扩展(即,多视图高效率视频译码,mv-hevc)。

avc及hevc两者支持通过帧封装布置sei信息指示的帧封装视频。hevc也支持通过分段矩形帧封装布置sei消息指示的不同类型的帧封装视频。对于此些经帧封装视频,解码器侧应应用专用解除封装转换以在显示之前分离视频位流中表示的两个视图的分量。

avc及hevc也支持通过显示定向sei消息指示的视频内容,对于所述视频内容,解码器侧应在显示之前对经裁切的经解码图片应用旋转及/或翻转转换。此视频也被称作具有显示定向改变的视频。

本发明的技术可应用于符合根据以下各者中的任一者囊封的视频数据的视频文件:iso基本媒体文件格式、可调式视频译码(svc)文件格式、高级视频译码(avc)文件格式、第三代合作伙伴计划(3gpp)文件格式及/或多视图视频译码(mvc)文件格式或其它类似视频文件格式。

文件格式标准包含iso基本媒体文件格式(isobmff、iso/iec14496-12),及从isobmff衍生的其它标准,包含mpeg-4文件格式(iso/iec14496-15)、3gpp文件格式(3gppts26.244)及用于avc及hevc族的视频编解码器的文件格式(iso/iec14496-15)。iso/iec14496-12及14496-15的草案文本可分别在http://phenix.int-evry.fr/mpeg/doc_end_user/documents/111_geneva/wg11/w15177-v6-w15177.zip及http://wg11.sc29.org/doc_end_user/documents/115_geneva/wg11/w16169-v2-w16169.zip处获得。

将isobmff用作例如avc文件格式的许多编解码器囊封格式以及例如mpeg-4文件格式、3gpp文件格式(3gp)及dvb文件格式的许多多媒体容器格式的基础。

除例如音频及视频的连续媒体之外,例如图像的静态媒体以及元数据可存储于符合isobmff的文件中。根据isobmff结构化的文件可用于许多用途,包含本地媒体文件播放、远程文件的渐进式下载、针对经由http的动态自适应流式传输(dash)的区段、用于待流式传输的内容及其分组化指令的容器及接收到的实时媒体流的记录。

方块为isobmff中的基本语法结构,包含经四字符译码的方块类型、方块的位组计数及有效负载。isobmff文件由一系列方块组成,且方块可含有其它方块。电影方块(“moov”)含有用于存在于文件中的连续媒体流的元数据,每一媒体流在文件中表示为播放轨。将针对播放轨的元数据数据围封于播放轨方块(“trak”)中,而将播放轨的媒体内容围封于媒体数据方块(“mdat”)中或直接围封于单独文件中。针对播放轨的媒体内容由一系列样本例如若干音频或视频存取单元组成。

isobmff指定以下类型的播放轨:媒体播放轨,其含有基本媒体流;提示播放轨,其包含媒体发射指令或表示接收到的包流;及定时元数据播放轨,其包括经时间同步的元数据。

尽管最初针对存储而设计,但isobmff已证明为可极有价值地用于流式传输,例如,用于渐进式下载或dash。为了流式传输目的,可使用在isobmff中定义的电影片段。

每一播放轨的元数据包含样本描述项的列表,每一项提供在播放轨中使用的译码或囊封格式及处理彼格式需要的初始化数据。各样本是与播放轨的样本描述项中的一者相关联。

isobmff使得能够用各种机构指定样本特定元数据。样本表方块内的特定方块(“stbl”)已经标准化以对共同需要做出响应。举例来说,同步样本方块(“stss”)用以列举播放轨的随机存取样本。样本分组机构使得能够根据四字符分组类型将样本映射成共享指定为文件中的样本群组描述项的相同性质的样本群组。已在isobmff中指定若干分组类型。

高动态范围(hdr)及广色域(wcg)信息可使用定义于isobmff规范的条款12.1.5中的colourinformationbox发信。举例来说,colour_type可设定为等于“nclx”,其指示最重要的hdr/wcg信息是携载于字段colour_primaries、transfer_characteristics、matrix_coefficients及full_range_flag中。

isobmff指定受约束方案设计。isobmff中的受约束方案设计是用于处置文件创作者需要对播放器或显现器进行某些动作的情形以使得播放器能够简单地检视文件以找寻显现位流的此些要求,且使旧版播放器停止解码并显现需要进一步处理的文件。机构适用于任何类型的视频编解码器。

机构类似于内容保护转换,从而指示经加密或囊封的媒体,其中样本项隐藏于通用样本项“encv”、“enca”等后方。用于受约束视频的类似机构使用具有通用样本项“resv”的转换。方法在内容应仅由可正确地呈现内容的播放器解码时可予以应用。

受约束方案在isobmff规范的条款8.15.1到8.15.3中指定。

isobmff规范的条款8.15.4定义用于帧封装视频的特定受约束方案类型。

iso/iec23009-1中指定的经由http的动态自适应流式传输(dash)是用于http(自适应)流式传输应用的标准。其主要指定还被称作清单的媒体呈现描述(mpd)的格式,及媒体区段格式。mpd描述在服务器上可得到的媒体且在所关注的媒体时间使dash客户端自主地下载媒体版本。

用于基于dash的http流式传输的典型过程包含以下步骤:

1)dash客户端获得流式传输内容例如电影的mpd。mpd包含关于流式传输内容的不同替代性表示的信息,例如,位速率、视频分辨率、帧速率、音频语言;以及http资源的url(初始化区段及媒体区段)。

2)基于mpd中的信息及dash客户端的本地信息,例如,网络带宽、解码/显示能力及用户偏好,客户端一次一个区段(或其部分,例如,局部区段)地请求所要表示。

3)当所述dash客户端检测到网络带宽改变时,所述dash客户端请求具有具较好匹配位速率的不同表示的区段,理想地从以随机存取点开始的区段开始。

在http流式传输“会话”期间,为对用户请求作出响应以反向搜索过去的位置或前向搜索未来位置,所述dash客户端请求开始于接近用户请求的位置且理想地开始于随机存取点的过去区段或未来区段。用户还可请求快速转递内容,其可通过请求足以解码仅经帧内译码视频图片或仅视频流的临时子集的数据来实现。

在例如dash的http流式传输中,频繁使用的操作包含head、get及部分get。head操作检索文件的与给定的统一资源定位符(uniformresourcelocator,url)或统一资源名称(uniformresourcename,urn)相关联的标头而不检索与url或urn相关联的有效负载。get操作检索与给定url或urn相关的整个文件。部分get操作接收位组范围作为输入参数且检索文件的连续数目个位组,其中位组的数目对应于所接收位组范围。因此,可提供电影片段以用于http流式传输,这是因为部分get操作可得到一或多个个别的电影片段。在电影片段中,可存在不同播放轨的若干播放轨片段。在http流式传输中,媒体呈现可为客户端可存取的数据的结构化集合。客户端可请求且下载媒体数据信息以向用户呈现流式传输服务。

在使用http流式传输来流式传输3gpp数据的实例中,可能存在针对多媒体内容的视频及/或音频数据的多个表示。如下文所解释,不同表示可对应于不同译码特性(例如,视频译码标准的不同配置文件或层级)、不同译码标准或译码标准的扩展(例如多视图及/或可调式扩展)或不同位速率。此些表示的清单可在媒体呈现描述(mpd)数据结构中定义。媒体呈现可对应于对于http流式传输客户端装置可存取的数据的结构化集合。http流式传输客户端装置可请求且下载媒体数据信息以向客户端装置的用户呈现流式传输服务。媒体呈现可以mpd数据结构描述,mpd数据结构可包含mpd的更新。

媒体呈现可含有一或多个时间周期的序列。每一时间周期可延伸直到下一时间周期开始,或在最后时间周期情况下直到媒体呈现结束。每一时间周期可含有针对同一媒体内容的一或多个表示。表示可为音频、视频、定时文本或其它此类数据的数个替代性编码版本中的一者。表示可因编码类型而不同,例如,对于视频数据而言因位速率、分辨率及/或编解码器而不同,且对于音频数据因位速率、语言及/或编解码器而不同。术语表示可用以指经编码音频或视频数据的对应于特定时间周期的多媒体内容且以特定方式编码的部分。

特定时间周期的表示可指派给由mpd中的属性指示的群组,所述mpd指示表示属于的适配集。同一适配集中的表示通常被视为彼此的替代例,在于客户端装置可在此些表示之间动态且无缝地切换,以例如执行带宽适配。举例来说,特定时间周期的视频数据的每一表示可指派给同一适配集,以使得可选择所述表示中的任一者以供解码以呈现对应时间周期的多媒体内容的媒体数据,例如视频数据或音频数据。在一些实例中,一个时间周期内的媒体内容可由来自群组0(如果存在)的一个表示来表示,或由来自每一非零群组的至多一个表示的组合来表示。时间周期的每一表示的时序数据可相对于所述时间周期的开始时间来表达。

表示可包含一或多个区段。每一表示可包含初始化区段,或表示的每一区段可从初始化。当存在时,初始化区段可含有用于存取表示的初始化信息。大体而言,初始化区段不含有媒体数据。区段可由例如统一资源定位符(url)、统一资源名称(urn)或统一资源识别符(uniformresourceidentifier,uri)的识别符唯一地提及。mpd可为每一区段提供识别符。在一些实例中,mpd也可提供呈范围属性的形式的位组范围,所述范围属性可对应于由url、urn或uri可存取的文件内的区段的数据。

可选择不同表示以大体上同时检索不同类型的媒体数据。举例来说,客户端装置可选择检索区段所自的音频表示、视频表示及定时文本表示。在一些实例中,客户端装置可选择特定调适集以用于执行带宽适配。即,客户端装置可选择包含视频表示的适配集、包含音频表示的适配集及/或包含定时文本的适配集。替代地,客户端装置可选择针对特定类型媒体(例如,视频)的适配集,且直接选择针对其它类型的媒体(例如,音频及/或定时文本)的表示。

虚拟实境(virtualreality,vr)为虚拟地呈现于通过自然及/或合成图像的显现及与沉浸用户的移动相关的声音产生的非实体世界中从而允许与彼世界交互的能力。在例如头戴式显示器(headmounteddisplay,hmd)的显现装置的最新进展及vr视频(常常还称作360度视频)产生的情况下,可给予显著体验质量。vr应用包含游戏、训练、教育、运动视频、线上购物、视频娱乐等。

典型vr系统可包含如下组件及步骤:

1)摄影机集合,其通常包含指向不同方向且理想地全体涵盖所述摄影机集合周围的所有视点的多个个别摄影机。

2)图像拼接,其中通过多个个别摄影机拍摄的视频图片在时域中予以同步并在空间域中予以拼接以形成球形视频,但映射到矩形格式,例如球形展开(如世界地图)或立体图。

3)呈映射矩形格式的视频是使用视频编解码器例如h.265/hevc或h.264/avc来编码/压缩。

4)压缩视频位流可以媒体格式存储及/或囊封,且经由网络被发射(可能仅涵盖用户可见的区域的子集)到接收器。

5)接收器接收可能以格式囊封的视频位流或其部分,且发送经解码视频信号或其部分到显现装置。

6)显现装置可为例如hmd,其可跟踪头部移动及甚至眼部运动时刻,且显现视频的对应部分,使得将沉浸式体验递送到用户。

全向媒体应用格式(omaf)正通过mpeg开发以定义允许全向媒体应用的媒体应用格式,从而集中于具有360度视频及关联音频的vr应用。omaf指定投影方法的列表,所述方法可用于将球形或360°视频转换成二维矩形视频,继之以如何使用iso基本媒体文件格式(isobmff)存储全向媒体及关联元数据及如何使用经由http的动态自适应流式传输(dash)囊封、发信及流式传输全向媒体,以及最终哪些视频及音频编解码器以及媒体译码配置可用于压缩及播放全向媒体信号。

omaf打算标准化为iso/iec23000-20,且被称作omaf委员会草案(committeedraft,cd)的草案规范在http://wg11.sc29.org/doc_end_user/documents/117_geneva/wg11/w16636.zip处可得到。

omafcd的条款7.1界定用于vr/全向/360视频的特定受约束方案类型,“odvd”。omafcd指定,当scheme_type等于“odvd”时,方案信息方块(“schi”)需要含有projectedomnidirectionalvideobox(“povd”)或fisheyeomnidirectionalvideobox(“fovd”)。omafcd指定含有projectionformatbox的“povd”方块,其携载geometry_type及projection_type。按omafcd,geometry_type可例如指示球形几何形状,且projection_type可指示球形展开投影、立方图投影或某其它投影类型。此些信息段对于内容选择用途皆为重要的。

dash规范包含mpd属性@mimetype及@codecs的定义,所述两者可在适配集、表示或子表示的层级上输送。

@mimetype属性在dash规范的条款5.3.7.2中定义如下:

此外,在dash规范的条款7.3.1中,@mimetype属性的语义对于基于isobmff的媒体呈现阐明如下:

“各表示的@mimetype属性应根据rfc4337设置。额外参数可根据rfc6381添加。”

@codecs属性在dash规范的条款5.3.7.2中定义如下:

iso/iec14496-15的条款e界定用于avc、hevc及其扩展的“codecs”参数。

根据iso/iec14496-15的条款e及rfc6381,“codecs”参数是可选mime类型参数。然而,iso/iec14496-15及rfc6381并不清楚“codecs”参数是否可作为@mimetype属性的部分输送。

如rfc6381中所指定,“codecs”参数是单个值或值的经逗点分离的列表,其中各值由一或多个经点分离(例如,句点定界)元素构成。第一元素的名称空间是由mime类型确定。各后续元素的名称空间是由前一元素确定。对于isobmff,“codecs”参数值的第一元素是样本描述项四字符码。

关于hdr/wcg视频、vr/全向/360视频、帧封装视频、具有显示定向改变的视频及使用受约束方案存储的视频的发信的现有设计可遭遇如下问题:

1)缺少指示受约束方案的使用的机制,以及mime类型参数中例如针对vr/全向/360视频及帧封装视频的所使用的受约束方案的一些重要细节。此外,如下问题(question/issue)并不明显。

a.dash客户端如何处置含有未辨识可选参数的@mimetype?忽略未辨识部分且采取剩余部分,如同未辨识部分未曾存在一般?或忽略整个适配集/表示/子表示(即,不尝试请求/处理含有此@mimetype属性的适配集/表示/子表示)?

i.后者似乎更有意义。

ii.rfc4337/rfc6381对此为静默的。此应在某处清楚地指定,优选地在对rfc6381的更新中指定(其顺便更新rfc4337)。

b.针对使用受约束方案存储的视频的“codecs”参数应为何?

c.使用的受约束方案应通过“codecs”参数指示,抑或是通过不同/单独mime类型参数指示?如果“codecs”参数与在界定/具有针对使用的受约束方案的指示的额外可选mime类型参数同时不使用受约束方案情况下的彼参数相同,存在回溯相容性问题?

2)对于具显示定向改变的视频,缺失专用受约束方案,且上述第一问题也适用。

3)缺少包含针对hdr/wcg视频的重要视频信息作为mime类型参数的部分的机制。

图1为说明实例系统10的框图,所述实例系统实施用于经由网络流式传输媒体数据的技术。在此实例中,系统10包含内容准备装置20、服务器装置60及客户端装置40。客户端装置40及服务器装置60通过网络74以通信方式耦合,所述网络74可包括因特网。在一些实例中,内容准备装置20与服务器装置60也可通过网络74或另一网络耦合,或可直接以通信方式耦合。在一些实例中,内容准备装置20及服务器装置60可包括同一装置。

在图1的实例中,内容准备装置20包括音频源22及视频源24。音频源22可例如包括麦克风,其产生表示待通过音频编码器26编码的所俘获音频数据的电信号。替代地,音频源22可包括存储先前记录的音频数据的存储媒体、例如计算机化的合成器的音频数据产生器或任何其它音频数据源。视频源24可包括:摄像机,其产生待通过视频编码器28编码的视频数据;存储媒体,其编码有先前记录的视频数据;视频数据产生单元,例如计算机图形源;或任何其它视频数据源。内容准备装置20不必在所有实例中均以通信方式耦合到服务器装置60,而是可将多媒体内容存储到由服务器装置60读取的单独媒体。

原始音频及视频数据可包括模拟或数字数据。模拟数据在通过音频编码器26及/或视频编码器28编码之前可被数字化。音频源22可在说话参与者正在说话时从说话参与者获得音频数据,且视频源24可同时获得说话参与者的视频数据。在其它实例中,音频源22可包括计算机可读存储媒体,所述计算机可读媒体包括所存储的音频数据;且视频源24可包括计算机可读存储媒体,所述计算机可读存储媒体包括所存储的视频数据。以此方式,本发明中所描述的技术可应用于实况、流式传输、实时音频及视频数据,或应用到所存档的、预先记录的音频及视频数据。

对应于视频帧的音频帧通常为同时含有通过音频源22俘获(或产生)的音频数据与含有于视频帧内的通过视频源24俘获(或产生)的视频数据的音频帧。举例来说,当说话参与者通常通过说话而产生音频数据时,音频源22俘获音频数据,且视频源24同时(即,在音频源22正俘获音频数据的同时)俘获说话参与者的视频数据。因此,音频帧在时间上可对应于一或多个特定视频帧。因此,对应于视频帧的音频帧大体上对应于同时俘获音频数据及视频数据且音频帧及视频帧分别包括同时俘获到的音频数据及视频数据的情形。

在一些实例中,音频编码器26可对每一经编码音频帧中的时戳进行编码,所述时戳表示记录经编码音频帧的音频数据的时间;且类似地,视频编码器28可对每一经编码视频帧中的时戳进行编码,所述时戳表示记录经编码视频帧的视频数据的时间。在此些实例中,对应于视频帧的音频帧可包括:包括时戳的音频帧及包括相同时戳的视频帧。内容准备装置20可包括内部时脉,音频编码器26及/或视频编码器28可以根据所述内部时脉产生时戳,或音频源22及视频源24可以使用所述内部时脉来分别使音频数据及视频数据与时戳相关联。

在一些实例中,音频源22可向音频编码器26发送对应于记录音频数据的时刻的数据,且视频源24可向视频编码器28发送对应于记录视频数据的时刻的数据。在一些实例中,音频编码器26可对经编码音频数据中的序列识别符进行编码以指示经编码音频数据的相对时间排序,但未必指示记录音频数据的绝对时间,且类似地,视频编码器28也可使用序列识别符来指示经编码视频数据的相对时间排序。类似地,在一些实例中,序列识别符可经映射或以其它方式与时戳相关。

音频编码器26通常产生经编码音频数据的流,而视频编码器28产生经编码视频数据的流。每一个别数据流(不论是音频抑或视频)可被称作基本流。基本流为表示的单个经数字译码(可能经压缩)的分量。举例来说,表示的经译码视频或音频部分可为基本流。基本流可在被囊封于视频文件内之前被转换成分组化基本流(packetizedelementarystream,pes)。在同一表示内,可使用流id来区分属于一个基本流的pes包与其它pes包。基本流的数据的基本单位为分组化基本流(pes)包。因此,经译码视频数据大体对应于基本视频流。类似地,音频数据对应于一或多个相应基本流。

例如itu-th.264/avc及itu-th.265/高效率视频译码(hevc)的许多视频译码标准界定针对无错误位流的语法、语义及解码过程,所述无错误位流中的任一者符合特定配置文件或层级。视频译码标准通常并不指定编码器,但编码器具有保证所产生的位流对于解码器而言为标准兼容的任务。在视频译码标准的上下文中,“配置文件”对应于算法、特征或工具及应用到算法、特征或工具的约束的子集。举例来说,如由h.264标准所定义,“配置文件”为由h.264标准指定的整个位流语法的子集。“层级”对应于解码器资源消耗例如解码器存储器及计算的限制,所述限制涉及图片分辨率、位速率及块处理速率。配置文件可用profile_idc(配置文件指示符)值发信,而层级可用level_idc(层级指示符)值发信。

举例来说,h.264标准认识到,在由给定配置文件的语法所强加的界限内,仍然有可能要求编码器及解码器的性能的大变化,所述大变化取决于位流中由语法元素获取的值,例如经解码图片的指定大小。h.264标准进一步认识到,在许多应用中,实施能够处置特定配置文件内的语法的所有假设使用的解码器既不实际又不经济。因此,h.264标准将“层级”定义为强加于位流中的语法元素的值的约束的指定集合。此些约束可为对值的简单限制。替代地,此些约束可呈对值的算术组合(例如,图片宽度乘以图片高度乘以每秒解码的图片的数目)的约束的形式。h.264标准进一步规定,个别实施可支持针对每一所支持配置文件的不同层级。

符合配置文件的解码器一般支持配置文件中所定义的所有特征。举例来说,作为译码特征,b图片译码在h.264/avc的基线配置文件中不被支持,但在h.264/avc的其它配置文件中支持。符合层级的解码器应能够对不需要超出所述层级中所界定的限制的资源的任何位流进行解码。配置文件及层级的界定可对可解释性有帮助。举例来说,在视频发射期间,可针对整个发射会话协商及同意一对配置文件定义及层级定义。更具体来说,在h.264/avc中,层级可界定关于以下各者的限制:需要处理的宏块的数目、经解码图片缓冲器(decodedpicturebuffer,dpb)大小、经译码图片缓冲器(codedpicturebuffer,cpb)大小、垂直运动向量范围、每两个连续mb的运动向量的最大数目,及b块是否可具有小于8×8个像素的子宏块分区。以此方式,解码器可确定解码器是否能够正确地对位流进行解码。

在图1的实例中,内容准备装置20的囊封单元30从视频编码器28接收包括经译码视频数据的基本流且从音频编码器26接收包括经译码音频数据的基本流。在一些实例中,视频编码器28及音频编码器26可各自包含用于从经编码数据形成pes包的分组化器。在其它实例中,视频编码器28及音频编码器26可各自与用于从经编码数据形成pes包的相应分组化器介接。在另外其它实例中,囊封单元30可包含用于从经编码音频及视频数据形成pes包的分组化器。

视频编码器28可以多种方式对多媒体内容的视频数据进行编码,从而产生呈各种位速率且具有各种特性的多媒体内容的不同表示,所述特性是例如像素分辨率、帧速率、对各种译码标准的符合性、对各种译码标准的各种配置文件及/或配置文件层级的符合性、具有一或多个视图的表示(例如,对于二维或三维播放)或其它此类特性。如本发明中所使用,表示可包括音频数据、视频数据、文本数据(例如,用于封闭字幕)或其它此数据中的一者。表示可包含例如音频基本流或视频基本流的基本流。每一pes包可包含stream_id,其识别pes包属于的基本流。囊封单元30负责将基本流组译成各种表示的视频文件(例如,区段)。

囊封单元30从音频编码器26及视频编码器28接收表示的基本流的pes包且从所述pes包形成对应网络抽象层(networkabstractionlayer,nal)单元。译码视频区段可经组织成nal单元,其提供“网络友好”视频表示,从而定址例如视频电话、存储、广播或流式传输的应用。nal单元可分类为视频译码层(videocodinglayer,vcl)nal单元及非vclnal单元。vcl单元可含有核心压缩引擎,且可包含块、宏块及/或切片层级数据。其它nal单元可为非vclnal单元。在一些实例中,一个时间执行个体中的通常呈现为初级经译码图片的经译码图片可含有于存取单元中,所述存取单元可包含一或多个nal单元。

非vclnal单元可包含参数集nal单元及seinal单元外加其它。参数集可含有序列层级标头信息(在序列参数集(sequenceparameterset,sps)中)及不频繁地改变的图片层级标头信息(在图片参数集(pictureparameterset,pps)中)。在参数集(例如,pps及sps)的情况下,不频繁地改变的信息不需要针对每一序列或图片重复,因此可改进译码效率。此外,使用参数集可实现重要标头信息的频带外发射,从而避免对于错误复原(errorresilience)的冗余发射的需要。在频带外发射实例中,参数集nal单元可在与其它nal单元例如seinal单元不同的信道上发射。

补充增强信息(supplementalenhancementinformation,sei)可含有对于对来自vclnal单元的经译码图片样本进行解码不必要的信息,但可辅助与解码、显示、错误复原及其它目的相关的过程。sei消息可含有于非vclnal单元中。sei消息为一些标准规范的标准化部分,且因此对于标准相容的解码器实施并非始终为必选的。sei消息可为序列层级sei消息或图片层级sei消息。某一序列层级信息可含有于sei消息中,例如svc的实例中sei消息中的可调性信息,及mvc中sei消息中的视图可调性信息。此些实例sei消息可传达关于例如操作点的提取及操作点的特性的信息。另外,囊封单元30可形成清单文件,例如描述表示的特性的媒体呈现描述符(mediapresentationdescriptor,mpd)。囊封单元30可根据可延伸标记语言(extensiblemarkuplanguage,xml)格式化mpd。

囊封单元30可向输出接口32提供多媒体内容的一或多个表示的数据以及清单文件(例如,mpd)。输出接口32可包括网络接口或用于对存储媒体进行写入的接口,例如通用串行总线(universalserialbus,usb)接口、cd或dvd写入器或烧录器、到磁性或快闪存储媒体的接口,或用于存储或发射媒体数据的其它接口。囊封单元30可向输出接口32提供多媒体内容的表示中的每一者的数据,所述输出接口可经由网络发射或存储媒体向服务器装置60发送所述数据。在图1的实例中,服务器装置60包含存储各种多媒体内容64的存储媒体62,每一多媒体内容64包含相应清单文件66及一或多个表示68a到68n(表示68)。在一些实例中,输出接口32也可将数据直接发送到网络74。

在一些实例中,表示68可被分成若干调适集。即,表示68的各种子集可包含例如以下各者的特性的相应共同集合:编解码器、配置文件及层级、分辨率、视图数目、区段的文件格式、可识别待与表示一起显示的文本的语言或其它特性的文本类型信息及/或待解码及呈现(例如,由扬声器呈现)的音频数据、可描述适配集中的表示的场景的摄影机角度或真实世界摄影机视角的摄影机角度信息、描述对于特定观众的内容适合性的分级信息,或类似信息。

清单文件66可包含指示表示68的对应于特定适配集的子集以及所述适配集的共同特性的数据。清单文件66也可包含表示适配集的个别表示的个别特性例如位速率的数据。以此方式,适配集可提供简化的网络带宽适配。适配集中的表示可使用清单文件66的适配集元素的子代元素来指示。

服务器装置60包含请求处理单元70及网络接口72。在一些实例中,服务器装置60可包含多个网络接口。此外,服务器装置60的特征中的任一者或全部可在内容递送网络的其它装置例如路由器、桥接器、代理装置、交换器或其它装置上实施。在一些实例中,内容递送网络的中间装置可高速缓存多媒体内容64的数据,且包含大体上符合服务器装置60的那些组件的组件。一般来说,网络接口72经配置以经由网络74发送及接收数据。

请求处理单元70经配置以从客户端装置例如客户端装置40接收对存储媒体62的数据的网络请求。举例来说,请求处理单元70可实施如rfc2616中描述的超文本传送协议(http)版本1.1,即“超文本传送协议(hypertexttransferprotocol)-http/1.1”(r.菲尔丁(fielding)等人,网络工作群组,ietf,1999年6月)。即,请求处理单元70可经配置以接收httpget或部分get请求,且响应于所述请求而提供多媒体内容64的数据。请求可例如使用区段的url指定表示68中的一者的区段。在一些实例中,所述请求还可指定区段的一或多个位组范围,因此包括部分get请求。请求处理单元70可经进一步配置以服务httphead请求以提供表示68中的一者的区段的标头数据。在任何情况下,请求处理单元70可经配置以处理所述请求以向请求装置例如客户端装置40提供所请求的数据。

另外或替代性地,请求处理单元70可经配置以经由例如embms的广播或多播协议而递送媒体数据。内容准备装置20可以与所描述方式大体上相同的方式产生dash区段及/或子区段,但服务器装置60可使用embms或另一广播或多播网络输送协议来递送此些区段或子区段。举例来说,请求处理单元70可经配置以从客户端装置40接收多播群组加入请求。即,服务器装置60可向客户端装置包含客户端装置40广告与多播群组相关联的因特网协议(internetprotocol,ip)地址,所述客户端装置与特定媒体内容(例如,实况事件的广播)相关联。客户端装置40又可提交加入多播群组的请求。此请求可遍及网络74例如构成网络74的路由器传播,以使得致使所述路由器将目的地为与多播群组相关联的ip地址的业务导向到订用客户端装置例如客户端装置40。

如图1的实例中所说明,多媒体内容64包含清单文件66,所述清单文件66可对应于媒体呈现描述(mpd)。清单文件66可含有不同替代性表示68(例如,具有不同质量的视频服务)的描述,且所述描述可包含例如编解码器信息、配置文件值、层级值、位速率及表示68的其它描述性特性。客户端装置40可检索媒体呈现的mpd以确定如何存取表示68的区段。

详细来说,检索单元52可检索客户端装置40的配置数据(图中未示)以确定视频解码器48的解码能力及视频输出44的显现能力。配置数据还可包含以下各者中的任一者或全部:由客户端装置40的用户选择的语言偏好、对应于由客户端装置40的用户设定的深度偏好的一或多个摄影机视角,及/或由客户端装置40的用户选择的分级偏好。举例来说,检索单元52可包括网页浏览器或媒体客户端,其经配置以提交httpget及部分get请求。检索单元52可对应于由客户端装置40的一或多个处理器或处理单元(图中未示)执行的软件指令。在一些实例中,关于检索单元52所描述的功能性的全部或部分可以硬件或硬件、软件及/或固件的组合实施,其中可提供必需的硬件以执行软件或固件的指令。

检索单元52可将客户端装置40的解码及显现能力与由清单文件66的信息所指示的表示68的特征进行比较。检索单元52可最初检索列表文件66的至少一部分以确定表示68的特性。举例来说,检索单元52可请求清单文件66的描述一或多个调适集的特性的一部分。检索单元52可选择表示68的子集(例如,适配集),其具有可通过客户端装置40的译码及显现能力满足的特性。检索单元52可接着确定针对适配集中的表示的位速率,确定网络带宽的当前可用量,且从具有由网络带宽可满足的位速率的表示中的一者检索区段。

一般来说,较高位速率表示可产生较高质量的视频播放,而较低位速率表示可在可用网络带宽减少时提供足够质量的视频播放。因此,当可用网络带宽相对高时,检索单元52可从相对高位速率的表示检索数据,而当可用网络带宽为低时,检索单元52可从相对低位速率的表示检索数据。以此方式,客户端装置40可经由网络74流式传输多媒体数据,同时也适应网络74的改变的网络带宽可用性。

另外或替代地,检索单元52可经配置以根据例如embms或ip多播的广播或多播网络协议来接收数据。在此些实例中,检索单元52可提交加入与特定媒体内容相关联的多播网络群组的请求。在加入多播群组之后,检索单元52可在另外请求未发布到服务器装置60或内容准备装置20的情况下接收多播群组的数据。当不再需要多播群组的数据时,检索单元52可提交离开多播群组的请求,例如停止播放或将通道改变到不同多播群组。

网络接口54可接收经选定表示的区段的数据且将所述数据提供到检索单元52,检索单元52又可将所述区段提供到解囊封单元50。解囊封单元50可将视频文件的元素解囊封成构成性pes流,解分组化所述pes流以检索经编码数据,且取决于经编码数据为音频流抑或视频流的部分而将经编码数据发送到音频解码器46或视频解码器48,例如,如由流的pes包标头所指示。音频解码器46对经编码音频数据进行解码,且向音频输出42发送经解码音频数据;而视频解码器48对经编码视频数据进行解码,且向视频输出44发送经解码视频数据,所述经解码视频数据可包含流的多个视图。

视频编码器28、视频解码器48、音频编码器26、音频解码器46、囊封单元30、检索单元52及解囊封单元50在适用时各自可实施为多种合适处理电路系统中的任一者,合适处理电路系统为例如一或多个微处理器、数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现场可编程门阵列(fieldprogrammablegatearray,fpga)、离散逻辑电路、软件、硬件、固件或其任何组合。视频编码器28及视频解码器48中的每一者可包含于一或多个编码器或解码器中,编码器或解码器中的任一者可经集成为组合式视频编码器/解码器(编解码器,codec)的部分。同样地,音频编码器26及音频解码器46中的每一者可包含于一或多个编码器或解码器中,编码器或解码器中的任一者可经集成为组合式codec的部分。包含视频编码器28、视频解码器48、音频编码器26、音频解码器46、囊封单元30、检索单元52及/或解囊封单元50的设备可包括集成电路、微处理器及/或无线通信装置,例如蜂窝式电话。

客户端装置40、服务器装置60及/或内容准备装置20可经配置以根据本发明的技术操作。出于实例的目的,本发明关于客户端装置40及服务器装置60描述此些技术。然而,应理解,替代服务器装置60(或除所述服务器装置之外),内容准备装置20可经配置以执行此些技术。

囊封单元30可形成nal单元,所述nal单元包括识别nal单元属于的程序的标头,以及有效负载,例如音频数据、视频数据或描述nal单元对应于的输送或程序流的数据。举例来说,在h.264/avc中,nal单元包含1位组标头及具有变化大小的有效负载。在有效负载中包含视频数据的nal单元可包括各种粒度层级的视频数据。举例来说,nal单元可包括视频数据块、多个块、视频数据的切片或视频数据的整个图片。囊封单元30可从视频编码器28接收呈基本流的pes包的形式的经编码视频数据。囊封单元30可使每一基本流与对应程序相关联。

囊封单元30也可组译来自多个nal单元的存取单元。一般来说,存取单元可包括一或多个nal单元,其用于表示视频数据的帧以及音频数据,所述音频数据对应于此音频数据可用时的帧。存取单元大体上包含用于一个输出时间执行个体的全部nal单元,例如,用于时间执行个体的全部音频及视频数据。举例来说,如果每一视图具有20个帧/秒(framespersecond,fps)的帧速率,那么每一时间执行个体可对应于0.05秒的时间间隔。在此时间间隔期间,可同时显现同一存取单元(同一时间执行个体)的所有视图的特定帧。在一个实例中,存取单元可包括一个时间执行个体中的经译码图片,其可表示为主要经译码图片。

因此,存取单元可包括共同时间执行个体的所有音频帧及视频帧,例如对应于时刻x的所有视图。本发明还将特定视图的经编码图片称为“视图分量”。即,视图分量可包括特定时间针对特定视图的经编码图片(或帧)。因此,存取单元可界定为包括共同时间执行个体的所有视图分量。存取单元的解码次序未必与输出或显示次序相同。

媒体呈现可包含媒体呈现描述(mpd),所述媒体呈现描述可含有不同替代性表示(例如,具有不同质量的视频服务)的描述,且所述描述可包含例如编解码器信息、配置文件值及层级值。mpd为清单文件例如清单文件66的一个实例。客户端装置40可检索媒体呈现的mpd以确定如何存取各种呈现的电影片段。电影片段可位于视频文件的电影片段方块(moof方块)中。

清单文件66(其可包括例如mpd)可广告表示68的区段的可用性。即,mpd可包含指示表示68中的一者的第一区段变得可用时的挂钟时间的信息,以及指示表示68内的区段的持续时间的信息。以此方式,客户端装置40的检索单元52可基于开始时间以及在特定区段之前的区段的持续时间而确定每一区段可用的时间。

在囊封单元30已基于所接收的数据将nal单元及/或存取单元组译成视频文件之后,囊封单元30将视频文件传递到输出接口32以供输出。在一些实例中,囊封单元30可本地地存储视频文件,或经由输出接口32将视频文件发送到远程服务器,而非将视频文件直接发送到客户端装置40。举例来说,输出接口32可包括发射器,收发器,用于写入数据到计算机可读媒体例如光盘机、磁性媒体驱动器(例如,软盘机)的装置,通用串行总线(usb)端口、网络接口或其它输出接口。输出接口32将视频文件输出到计算机可读媒体,例如发射信号、磁性媒体、光学媒体、存储器、随身盘或其它计算机可读媒体。

网络接口54可经由网络74接收nal单元或存取单元,且经由检索单元52将nal单元或存取单元提供到解囊封单元50。解囊封单元50可将视频文件的元素解囊封成构成性pes流,解分组化所述pes流以检索经编码数据,且取决于经编码数据为音频流抑或例如如由流的pes包标头所指示的视频流的部分而将经编码数据发送到音频解码器46或视频解码器48。音频解码器46对经编码音频数据进行解码,且向音频输出42发送经解码音频数据;而视频解码器48对经编码视频数据进行解码,且向视频输出44发送经解码视频数据,所述经解码视频数据可包含流的多个视图。

图2为更详细地说明图1的检索单元52的组件的实例集合的框图。在此实例中,检索单元52包含embms中间软件单元100、dash客户端110及媒体应用112。

在此实例中,embms中间软件单元100进一步包含embms接收单元106、高速缓存存储器104及服务器单元102。在此实例中,embms接收单元106经配置以例如根据单向输送文件传递(filedeliveryoverunidirectionaltransport,flute)经由embms接收数据,所述单向输送文件传递描述于可于http://tools.ietf.org/html/rfc6726获得的t.派拉(paila)等人的“经由单向运输的flute文件递送(flute-filedeliveryoverunidirectionaltransport)”(网络工作群组,rfc6726,2012年11月)中。即,embms接收单元106可经由广播而从例如可充当bm-sc的服务器装置60接收文件。

当embms中间软件单元100接收文件的数据时,embms中间软件单元可将所接收的数据存储于高速缓存存储器104中。高速缓存存储器104可包括计算机可读存储媒体,例如快闪存储器、硬盘、ram或任何其它合适的存储媒体。

本地服务器单元102可充当dash客户端110的服务器。举例来说,本地服务器单元102可将mpd文件或其它清单文件提供到dash客户端110。本地服务器单元102可广告mpd文件中的区段的可用性时间,以及可检索所述区段的超连结。此些超连结可包含对应于客户端装置40的本机主机地址首码(例如,针对ipv4的127.0.0.1)。以此方式,dash客户端110可使用httpget或部分get请求向本地服务器单元102请求区段。举例来说,对于可从链接http://127.0.0.1/rep1/seg3获得的区段,dash客户端110可构建包含针对http://127.0.0.1/rep1/seg3的请求的httpget请求,且将所述请求提交到本地服务器单元102。本地服务器单元102可从高速缓存存储器104检索所请求的数据,且响应于此些请求而将数据提供到dash客户端110。

根据本发明的技术,囊封单元30可发信且检索单元52可接收关于使用受约束方案存储的视频数据、hdr/wcg视频、vr/全向/360视频、帧封装视频及具有显示定向改变的视频中的任一者或全部的重要视频信息,使得重要视频信息可通过应用客户端例如dash客户端方便地存取,以做出内容拒斥/选择/接受/请求决策。如上文所指出,重要视频信息可包含可用于内容选择的信息,例如,通过检索单元52选择视频播放轨或其部分以供消耗。

本发明的技术可克服上述问题。举例来说,为解决第一问题,囊封单元30及检索单元52可经配置以对“@codecs”使用新格式,其中包含受约束方案的使用的指示。在一个实例中,“@codecs”参数的值定义如下,使得被认为对于视频重要的全部信息包含于“codecs”参数中。在此实例中,“@codecs”参数的第一元素为使用受约束方案的播放轨的样本项类型码(即,所述播放轨根据受约束方案存储例如视频数据的媒体数据),例如,“resv”。在此实例中,第二元素是受约束方案类型码,例如,用于帧封装视频的“stvi”,及用于全向视频的“odvd”。

替代地,对于全向视频,第二元素为用于经投影全向视频的“povd”或用于超广角全向视频的“fovd”。替代地,对于经投影全向视频,第二元素指示投影类型,例如,用于球形展开投影的“erp”,或用于立方图投影的“cmp”。

包含特定类型的受约束方案的重要细节的更多信息可包含于所述清单文件的后续元素中。举例来说,如果第二元素为“odvd”,那么第三元素存在且是用于经投影全向视频的“povd”或用于超广角全向视频的“fovd”。替代地,如果第二元素是“odvd”及第三元素为“povd”,那么第四元素存在且指示投影类型,例如,用于球形展开投影的“erp”或用于立方图投影的“cmp”。举例来说,球形展开经投影全向视频的“codecs”参数的值的起始四个元素可为“resv.odvd.povd.erp”。

上述元素可进一步跟随有如iso/iec14496-15的条款e中所定义的“codecs”参数值的常见元素。举例来说,符合hevc、渐进式、非封装、主配置文件、主要阶层及层级3.1的球形展开经投影全向视频的“codecs”参数值可为“resv.odvd.povd.erp.hev1.1.6.l93.b0”。

以此方式,囊封单元30可发信且检索单元52可接收例如清单文件66内如上文所论述的值“resv”、“stvi”、“odvd”、“povd”、“fovd”、“erp”或“cmp”中的任何或全部作为“@codecs”参数的部分。此外,检索单元52可基于针对表示68的清单文件66中发信的@codecs参数的所述值以及视频解码器48的能力来确定待检索的表示68中的一者。

在第二替代实例中,“codecs”参数值被定义如下,使得被认为是对于视频重要的信息中的一些包含于“codecs”参数中,而被认为对于视频是重要的信息的更多细节包含于不同mime类型参数中。在此实例中,@codecs参数的第一元素是使用受约束方案的播放轨的样本项类型码,即,“resv”。在此实例中,第二元素可为受约束方案类型码,例如,用于帧封装视频的“stvi”及用于全向视频的“odvd”。替代地,对于全向视频,第二元素可为用于经投影全向视频的“povd”或用于超广角全向视频的“fovd”。

以上两个元素可进一步跟随有如iso/iec14496-15的条款e中所定义的“codecs”参数值的常见元素。举例来说,符合hevc、渐进式、非封装、主配置文件、主要阶层及层级3.1的球形展开经投影全向视频的“codecs”参数值可为“resv.odvd.hev1.1.6.l93.b0”。替代地,以上视频的“codecs”参数值可为“resv.povd.hev1.1.6.l93.b0”。替代地,以上视频的“codecs”参数值可为“resv.erp.hev1.1.6.l93.b0”。

除了上文所论述的“codecs”参数的新格式之外,也可使用含有特定类型的受约束方案的更多细节的新的可选mime类型参数。此些可选mime类型参数的格式与“codecs”参数相似,即,其可为单个值或经逗点分离值列表,其中经逗点分离列表中的各值包含一或多个经点分离(例如,句点定界)元素,且各元素的名称空间可由前述元素确定。作为一个实例,可选mime类型参数“odvdinfo”可含有全向视频的更多细节。根据此实例,对于“odvdinfo”值,第一元素可为用于经投影全向视频的“povd”或用于超广角全向视频的“fovd”,且在“povd”的前一情况下,第二元素存在且指示投影类型,例如,用于球形展开投影的“erp”或用于立方图投影的“cmp”。可添加更多元素以含有更多信息。替代地,作为另一实例,可选mime类型参数“fpvdinfo”可含有帧封装视频的更多细节。举例来说,“fpvdinfo”可包含对应于如isobmff规范的条款8.15.4.2中所定义的stereo_scheme及stereo_indication_type的元素。

作为另一实例,为解决第二问题(其可结合以上解决第一问题的技术中的任一个执行),囊封单元30及检索单元52可经配置以使用指示表示的播放轨携载具有显示定向改变的视频数据的新受约束方案类型。举例来说,4字符码“vdoc”可指示对应播放轨携载具有显示定向改变的视频。

在一个实例中,不提供关于显示定向改变的进一步信息,且schemeinformationbox在restrictedschemeinfobox中可能不存在。在另一替代方案中,旋转及翻转中的任一者抑或其两者进一步通过schemeinformationbox中含有的新方块指示。举例来说,此新方块可包含名为display_orientation_change_type的字段,其中值0指示应用旋转及翻转两者,值1指示仅应用旋转,且值2指示仅应用翻转。因此,囊封单元30可基于对应播放轨包含旋转及/或翻转的任一者抑或两者而设定display_orientation_change_type字段的值,且检索单元52可确定表示68中的一者的播放轨是否包含显示定向改变,且如果包含,那么从字段的值确定改变是否包含旋转及/或翻转的任一者或两者。

此外,也可应用如上文所定义的针对“codecs”参数的新格式。举例来说,具有显示定向所述改变的符合hevc、渐进式、非封装、主配置文件、主要阶层及层级3.1的“codecs”参数的值可为“resv.vdoc.hev1.1.6.l93.b0”。类似地,如同以上实例的若干替代例以便,例如display_orientation_change_type的某更多信息可包含于“codecs”参数值的第三元素中,且剩余元素可另外依序下推一个元素。

作为另一实例,为解决第三问题(其可结合以上解决第一问题的技术及/或以上解决第二问题的技术中的任一个执行),囊封单元30及检索单元52可经配置以使用可选mime类型参数“hdrinfo”,其可含有hdr/wcg视频的重要信息。此可选mime类型参数的格式可为单个值或经逗点分离(例如,句点定界)值列表,其中各值包含一或多个经点分离元素。举例来说,“hdrinfo”参数值可含有呈“元素1.元素2.元素3.元素4”的形式的四个字段,其中四个元素1到4可分别为字段colour_primaries、transfer_characteristics、matrix_coeffs及full_range_flag的十六进制表示,如isobmff规范的条款12.1.5中所定义。

图3为说明实例多媒体内容120的元素的概念图。多媒体内容120可对应于多媒体内容64(图1)或存储于存储媒体62中的另一多媒体内容。在图3的实例中,多媒体内容120包含媒体呈现描述(mpd)122及多个表示124a到124n(表示124)。表示124a包含可选标头数据126及区段128a到128n(区段128),而表示124n包含可选标头数据130及区段132a到132n(区段132)。为方便起见,使用字母n来指明表示124中的每一者中的最后一个电影片段。在一些实例中,表示124之间可存在不同数目个电影片段。

mpd122可包括与表示124分离开的数据结构。mpd122可对应于图1的清单文件66。同样,表示124可对应于图2的表示68。一般来说,mpd122可包含大体上描述表示124的特性的数据,例如译码及显现特性、调适集、mpd122对应的配置文件、文本类型信息、摄影机角度信息、分级信息、特技模式信息(例如,指示包含时间子序列的表示的信息)及/或用于检索远程时间周期(例如,用于在播放期间到媒体内容中的目标性广告插入)的信息。

当存在时,标头数据126可描述区段128的特性,例如随机存取点(rap,其还被称作流存取点(streamaccesspoint,sap))的时间位置、区段128中的哪一者包含随机存取点、到区段128内的随机存取点的位组偏移、区段128的统一资源定位符(url),或区段128的其它方面。当存在时,标头数据130可描述区段132的相似特性。另外或替代地,此些特性可完全包含于mpd122内。

区段128、132包含一或多个经译码视频样本,所述视频样本中的每一者可包含视频数据的帧或切片。区段128的经译码视频样本中的每一者可具有类似特性,例如,高度、宽度及带宽要求。此类特性可通过mpd122的数据来描述,尽管此数据在图3的实例中未说明。mpd122可包含如3gpp规范所描述的特性,其中添加有本发明中所描述的发信信息中的任一者或全部。

区段128、132中的每一者可与唯一统一资源定位符(url)相关联。因此,区段128、132中的每一者可使用流式传输网络协议例如dash来独立地检索。以此方式,例如客户端装置40的目的地装置可使用httpget请求来检索区段128或132。在一些实例中,客户端装置40可使用http部分get请求来检索区段128或132的特定位组范围。

根据本发明的技术,mpd122可包含上文所论述的各种实例mime类型信息中的任一者或全部。举例来说,mpd122可包含如上文所论述的@codecs参数,其例如可指示使用受约束方案的播放轨的样本项类型码、受约束方案类型码及额外信息,例如,针对全向视频、投影类型或类似者的额外信息。另外或替代地,mpd122可包含指示显示定向改变是否应用于表示124a到124n中的一者的信息,且如果是,那么包含指示显示定向改变的类型(例如,旋转及/或翻转的任一者或两者)的信息。另外或替代地,显示定向改变信息可在标头数据126、130及/或区段128、132的任何或全部的标头数据中提供。另外或替代地,如上文所论述,mpd122、标头数据126、130及/或区段128、132的任何或全部的标头数据可含有hdr/wcg视频的重要信息。

图4为说明实例视频文件150的元素的框图,实例视频文件可对应于表示的区段,例如图3的区段114、124中的一者。区段128、132中的每一者可包含大体上符合图4的实例中所说明的数据的布置的数据。视频文件150可据称为囊封区段。如上文所述,根据iso基本媒体文件格式及其扩展的视频文件将数据存储于被称为“方块”的一系列对象中。在图4的实例中,视频文件150包含文件类型(ftyp)方块152、电影(moov)方块154、区段索引(sidx)方块162、电影片段(moof)方块164及电影片段随机存取(mfra)方块166。尽管图4表示视频文件的实例,但应理解,根据iso基本媒体文件格式及其扩展,其它媒体文件可包含其它类型的媒体数据(例如,音频数据、定时文本数据或其类似者),其在结构上类似于媒体文件150的数据。

文件类型(ftyp)方块152通常描述视频文件150的文件类型。文件类型方块152可包含识别规范的数据,所述规范描述视频文件150的最优选用途。文件类型方块152可替代地放置在moov方块154、电影片段方块164及/或mfra方块166之前。

在一些实例中,例如视频文件150的区段可包含在ftyp方块152之前的mpd更新方块(图中未示)。mpd更新方块可包含指示对应于包含视频文件150的表示的mpd将更新的信息,以及用于更新mpd的信息。举例来说,mpd更新方块可提供待用以更新mpd的资源的uri或url。作为另一实例,mpd更新方块可包含用于更新mpd的数据。在一些实例中,mpd更新方块可紧接在视频文件150的区段类型(styp)方块(未图示)之后,其中styp方块可定义视频文件150的区段类型。在下文更详细地论述的图7提供关于mpd更新方块的额外信息。

在图4的实例中,moov方块154包含电影标头(mvhd)方块156、播放轨(trak)方块158及一或多个电影延伸(mvex)方块160。一般来说,mvhd方块156可描述视频文件150的一般特性。举例来说,mvhd方块156可包含描述视频文件150最初产生的时间、视频文件150经最后修改的时间、视频文件150的时序表、视频文件150的播放的持续时间的数据,或大体上描述视频150的其它数据。

trak方块158可包含视频文件150的播放轨的数据。trak方块158可包含播放轨标头(trackheader,tkhd)方块,其描述对应于trak方块158的播放播放轨的特性。在一些实例中,trak方块158可包含经译码视频图片,而在其它实例中,播放轨的经译码视频图片可包含于电影片段164中,其可由trak方块158及/或sidx方块162的数据参考。

在一些实例中,视频文件150可包含一个以上播放轨。因此,moov方块154可包含一数目个trak方块,所述数目等于视频文件150中的播放轨的数目。trak方块158可描述视频文件150的对应播放轨的特性。举例来说,trak方块158可描述相对应播放轨的时间及/或空间信息。当囊封单元30(图3)包含视频文件例如视频文件150中的参数集播放轨时,类似于moov方块154的trak方块158的trak方块可描述参数集播放轨的特性。囊封单元30可在描述参数集播放轨的trak方块内发信序列层级sei消息存在于参数集播放轨中。

mvex方块160可描述对应电影片段164的特性,例如以发信视频文件150除包含在moov方块154(如果存在)内的视频数据之外还包含电影片段164。在流式传输视频数据的内容背景中,经译码视频图片可包含于电影片段164中,而非包含于moov方块154中。因此,所有经译码视频样本可包含于电影片段164中,而非包含于moov方块154中。

moov方块154可包含一数目个mvex方块160,所述数目等于视频文件150中的电影片段164的数目。mvex方块160中的每一者可描述电影片段164中的对应电影片段的特性。举例来说,每一mvex方块可包含电影延伸标头方块(mehd)方块,其描述电影片段164中的对应电影片段的持续时间。

如上文所指出,囊封单元30可存储视频样本中的序列数据集,其并不包含实际经译码视频数据。视频样本可大体上对应于存取单元,所述存取单元为特定时间执行个体下的经译码图片的表示。在avc的内容背景下,经译码图片包含:一或多个vclnal单元,其含有用以构建存取单元的所有像素的信息;及其它相关联非vclnal单元,例如sei消息。因此,囊封单元30可包含电影片段164中的一者中的序列数据集,其可包含序列层级sei消息。囊封单元30可进一步发信序列数据集及/或序列级sei消息的存在,如存在于电影片段164中的mvex方块160中的一者内的一者中一般,所述mvex方块160中的一者对应于电影片段164中的所述一者。

sidx方块162为视频文件150的可选元素。即,符合3gpp文件格式或其它此些文件格式的视频文件未必包含sidx方块162。根据3gpp文件格式的实例,sidx方块可用以识别区段(例如,含有于视频文件150内的区段)的子区段。3gpp文件格式将子区段定义为“具有一或多个对应媒体数据方块及含有通过电影片段方块参考的数据的媒体数据方块的一或多个连续电影片段方块的自含式集合必须跟在电影片段方块之后,并在含有关于同一播放轨的信息的下一个电影片段方块之前”。3gpp文件格式还指示sidx方块“含有对由方块记录的(子)区段的子片段的参考的序列。所参考的子区段在呈现时间上为连续的。相似地,由区段索引方块参考的位组始终在区段内邻接。所参考大小给出所参考材料中的位组的数目的计数”。

sidx方块162大体上提供表示包含于视频文件150中的区段的一或多个子区段的信息。举例来说,此信息可包含子区段开始及/或结束的播放时间、子区段的位组偏移、子区段是否包含(例如,开始于)流存取点(streamaccesspoint,sap)、sap的类型(例如,sap是否为瞬时解码器再新(instantaneousdecoderrefresh,idr)图片、清洁随机存取(cleanrandomaccess,cra)图片、断链存取(brokenlinkaccess,bla)图片或其类似者)、子区段中sap的位置(就播放时间及/或位组偏移而言)及其类似者。

电影片段164可包含一或多个经译码视频图片。在一些实例中,电影片段164可包含一或多个图片群组(groupofpictures,gop),图片中的每一者可包含数个经译码视频图片,例如帧或图片。另外,如上文所描述,在一些实例中,电影片段164可包含序列数据集。电影片段164中的每一者可包含电影片段标头方块(mfhd,图4中未展示)。mfhd方块可描述对应电影片段的特性,例如电影片段的序号。电影片段164可按序号次序包含于视频文件150中。

mfra方块166可描述视频文件150的电影片段164内的随机存取点。此可辅助执行特技模式,例如执行对由视频文件150囊封的区段内的特定暂态位置(即,播放时间)的寻找。在一些实例中,mfra方块166通常为可选的且无需包含于视频文件中。同样,客户端装置例如客户端装置40未必需要参考mfra方块166来对视频文件150的视频数据进行正确解码及显示。mfra方块166可包含一数目个播放轨片段随机存取(trackfragmentrandomaccess,tfra)方块(图中未示),所述数目等于视频文件150的播放轨的数目或在一些实例中等于视频文件150的媒体播放轨(例如,非提示播放轨)的数目。

在一些实例中,电影片段164可包含一或多个流存取点(sap),例如idr图片。同样,mfra方块166可提供对sap在视频文件150内的位置的指示。因此,视频文件150的时间子序列可由视频文件150的sap形成。时间子序列还可包含其它图片,例如取决于sap的p帧及/或b帧。时间子序列的帧及/或切片可布置于区段内,以使得时间子序列的取决于子序列的其它帧/切片的帧/切片可被恰当地解码。举例来说,在数据的阶层式布置中,用于其它数据的预测的数据还可包含于时间子序列中。

如上文所论述,根据本发明的技术,moov方块154可包含一或多个方块(例如schemeinformationbox及/或restrictedschemeinfobox),其指示旋转及/或翻转中的任一者或两者是否应用到包含于电影片段164中的视频数据。如上文所论述,另外或替代地,moov方块154可含有hdr/wcg视频的重要信息。

同样,视频文件150的播放轨的视频数据可根据受约束方案例如全向视频、经帧封装视频或类似者存储。如上文所论述,清单文件例如mpd可包含指示播放轨的视频数据的受约束方案。

图5为说明根据本发明的技术的实例方法的流程图。图5的方法阐述为由图1的客户端装置40的检索单元52执行,但应理解其它装置可经配置以执行此方法或类似方法。

最初,检索单元52检索清单文件(180)。所述清单文件可对应于图1的清单文件66。举例来说,所述清单文件可为媒体呈现描述(mpd)。根据本发明的技术,所述清单文件可包含数据,所述数据指定用于一或多个表示例如图1的表示68中的一或多者的一或多个编解码器。

检索单元52可接着提取指定一或多个编解码器的数据。详细来说,根据本发明的技术,检索单元52可从清单文件提取样本项类型码(182)。样本项类型码可为针对对应于所述清单文件的表示中的一者的播放轨。如上文所论述,样本项类型码可包括“resv”以指示播放轨使用受约束方案存储视频数据。

检索单元52可接着从清单文件提取受约束方案类型码(184)。举例来说,如果播放轨的视频数据使用经帧封装视频方案存储,那么检索单元52可从针对播放轨的清单文件提取“stvi”,从而指示播放轨使用经帧封装视频方案存储视频数据。作为另一实例,检索单元52可响应于从针对播放轨的清单文件提取“odvd”,确定播放轨的视频数据是使用全向视频方案存储。作为又一实例,“fovd”可指示播放轨的视频数据是使用超广角全向视频数据存储,“erp”针对球形展开投影方案,或“cmp”针对立方图投影方案。

尽管图5说明提取两个元素的实例,但应理解检索单元52可提取例如呈句点或逗点定界格式的额外元素。在一些实例中,检索单元52可提取一或多个@codecs参数的值集合,其中@codecs参数的所述值可为元素的相应句点定界列表。举例来说,检索单元52可提取针对播放轨的“resv.odvd.povd.erp”,且确定“resv”指示播放轨包含使用受约束方案存储的视频数据,“odvd”指示视频数据是全向视频数据,“povd”指示视频数据是经投影全向视频数据,且“erp”指示视频数据经球形展开投影。

此外,如上文所论述,检索单元52可从所述清单文件提取不同mime类型参数的额外元素。举例来说,mime类型参数可为“odvdinfo”。举例来说,额外元素可为“povd”、“fovd”、“erp”、“cmp”或类似者。另外或替代地,mime类型参数可为“fpvdinfo”以指定经帧封装视频信息,例如立体方案及/或立体指示类型。

检索单元52可接着使用经提取码检索媒体数据(186)。举例来说,检索单元52可检索例如被视频解码器48及视频输出44(图1)支持的方案的视频数据,且也避免检索并不被视频解码器48及视频输出44支持的方案的视频数据。举例来说,如果视频解码器48能够解码且视频输出44能够显示全向格式的视频数据,那么检索单元52可搜索针对表示的清单文件,所述清单包含使用全向视频方案存储视频数据的播放轨,例如,“resv.odvd”。同样,如果视频解码器48不能够解码帧封装视频数据,那么检索单元52可避免检索在所述清单文件中指示为具有“针对@codecs参数的resv.stvi”的播放轨的视频数据。

以此方式,图5的方法表示一种方法的实例,所述方法包含:检索指定针对媒体呈现的至少一个表示的数据的清单文件,其中所述清单文件包含指定针对所述至少一个表示的一或多个编解码器的数据;从所述清单文件提取指定所述一或多个编解码器的所述数据,所述提取操作包含:提取表示所述至少一个表示的播放轨的样本项类型码的第一元素,其中所述第一元素表示播放轨包含使用受约束方案存储的视频数据;及提取表示针对所述播放轨的所述受约束方案的受约束方案类型码的第二元素;及基于所述第一元素及所述第二元素检索所述至少一个表示的数据。

在一或多个实例中,所描述功能可以硬件、软件、固件或其任何组合来实施。如果以软件实施,那么所述功能可作为一或多个指令或程序代码而存储于计算机可读媒体上或经由计算机可读媒体进行发射,且通过基于硬件的处理单元执行。计算机可读媒体可包含计算机可读存储媒体,其对应于例如数据存储媒体的有形媒体,或通信媒体,所述通信媒体包含例如根据通信协议促进计算机程序从一处传送到另一处的任何媒体。以此方式,计算机可读媒体通常可对应于(1)为非暂时性的有形计算机可读存储媒体,或(2)例如信号或载波的通信媒体。数据存储媒体可为可由一或多个计算机或一或多个处理器存取以检索用于实施本发明中所描述的技术的指令、程序代码及/或数据结构的任何可用媒体。计算机程序产品可包含计算机可读媒体。

作为实例且非限制,此类计算机可读存储媒体可包括ram、rom、eeprom、cd-rom或其它光盘存储器、磁盘存储器或其它磁性存储装置、快闪存储器或可用以存储呈指令或数据结构形式的所要程序代码且可由计算机存取的任何其它媒体。而且,任何连接被恰当地称为计算机可读媒体。举例来说,如果使用同轴缆线、光缆、双绞线、数字订户线(digitalsubscriberline,dsl)或例如红外线、无线电及微波的无线技术从网站、服务器或其它远程源发射指令,那么同轴缆线、光缆、双绞线、dsl或例如红外线、无线电及微波的无线技术包含于媒体的定义中。然而,应理解,计算机可读存储媒体及数据存储媒体不包含连接、载波、信号或其它暂时性媒体,而实情为是针对非暂时性有形存储媒体。如本文中所使用,磁盘及光盘包含紧密光盘(compactdisc,cd)、激光光盘、光学光盘、数字多功能光盘(digitalversatiledisc,dvd)、软盘及蓝光光盘,其中磁盘通常以磁性方式再现数据,而光盘用激光以光学方式再现数据。以上各者的组合还应包含于计算机可读媒体的范围内。

指令可通过例如一或多个数字信号处理器(digitalsignalprocessor,dsp)、通用微处理器、专用集成电路(applicationspecificintegratedcircuit,asic)、现场可编程逻辑阵列(fieldprogrammablelogicarray,fpga)或其它等效集成或离散逻辑电路的一或多个处理器来执行。因此,如本文中所使用的术语“处理器”可指前述结构或适于实施本文中所描述的技术的任何其它结构中的任一者。此外,在一些方面中,本文所描述的功能性可设置于经配置以供编码及解码或并入于经组合编解码器中的专用硬件及/或软件模块内。再者,所述技术可完全实施于一或多个电路或逻辑元件中。

本发明的技术可实施于广泛的多种装置或设备中,包含无线手持机、集成电路(integratedcircuit,ic)或ic集合(例如,芯片组)。在本发明中描述各种组件、模块或单元以强调经配置以执行所公开技术的装置的功能方面,但未必要求由不同硬件单元来实现。确切而言,如上文所描述,各种单元可与合适的软件及/或固件一起组合于编解码器硬件单元中或由互操作性硬件单元的集合提供,硬件单元包含如上文所描述的一或多个处理器。

各种实例已予以描述。此些及其它实例在以下权利要求书的范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1