非线性媒体的基于客户端的自适应流式传输的制作方法

文档序号:17357963发布日期:2019-04-09 21:51阅读:172来源:国知局
非线性媒体的基于客户端的自适应流式传输的制作方法
本发明涉及包括非线性全方位视频的非线性媒体的自适应流式传输,并且特别地但不排他地涉及用于非线性媒体的基于客户端的自适应流式传输的方法和系统、用于非线性媒体的基于客户端的自适应流式传输的客户端装置和服务器装置、使得能实现非线性视频的基于客户端的自适应流式传输的数据结构以及使用这样的方法的计算机程序产品。
背景技术
:相机和图像处理技术二者中的进步不仅使得能够以越来越高的分辨率进行记录,而且使得能够将多个相机的输出拼接在一起。这样,一组相机可以一起以高于8κx4κ的分辨率、以全景和/或全方位格式进行记录。视频表示(representation)包括被投影在曲面上的视频,诸如全方位视频或360度视频(其可被称为球面视频),或者更具体的视频表示,诸如柱面视频。这些新的视频表示使得能实现新的用户体验,诸如虚拟现实(vr)、增强现实(ar)和混合现实,所述新的用户体验当前在该行业中增加势头。然而,流式传输高质量的非平面视频内容仍然带来挑战,所述挑战包括所需的高带宽要求和适合于用比特流表示球面内容的格式。随着这些新的视频表示的日益普及,开发了新应用以用于进一步增加用户体验的沉浸感。这些新应用中的一个是所谓的交互式360视频应用,其有时被称为非线性视频的回放。us2017/0053675描述了一种被适配成创建交互式360度视频文件的内容创建系统,所述交互式360度视频文件包含多个被链接的360度视频剪辑。内容创建器系统使得能够将第一360视频剪辑中的链接插入到第二360视频剪辑。该链接可具有所谓的“热点”的形式,通常是以视频上的图形覆盖的形式的指示符,其可以由用户激活。这样,可通过使用光标激活热点来回放内容,所述光标跟随佩戴hmd的用户的观看方向,即视点。内容创建器系统因而使用热点链接了360个视频剪辑,并通过将被链接的剪辑转码为单个交互式360视频文件而创建了一个交互式360视频文件。这样,360视频内容可以经由不同的回放路径来回放。与引用的内容创建器系统相关的问题是它不生成可以以可伸缩的方式分发并且与现有技术水平的流式传输协议(包括例如比如mpegdash和hls之类的http自适应流式传输协议)和诸如内容分发网络(cdn)之类的内容分发系统兼容的内容。这样的特征对于大规模内容递送而言是必不可少的。为了高效的内容流式传输而优化cdn,其中内容文件的不同部分(例如流行和非流行内容、广告内容、频繁使用的图块流等)以分布式方式(即在网络中的不同位置处)存储和/或缓存。涉及内容创建器系统的另一问题是该技术在创作方面不太灵活。一旦视频文件被创建,链接和内容(视频剪辑)就被固定。该技术不允许灵活创作和动态引入360视频的新链接块和/或在回放期间移除到现有360视频的链接。在个性化内容(例如定向广告)的背景下,缺少这样的功能性特别不利,所述个性化内容需要在回放期间动态插入媒体。krishnamoorthi等人的文章“empoweringthecreativeuser:personalhttp-basedadaptivestreamingofmulti-pathnonlinearvideo”第53-58页描述一种能够回放一个类型的非线性媒体的自适应流式传输方案。流式传输过程基于adobe的http动态流式传输(hds)协议,其中源视频被划分成一系列所谓的视频片段(即,短持续时间的视频文件,其在其它标准中可被称为大块(chunk)或(媒体)分段(segment))。每个视频片段具有序列号,其中后续视频片段的序列号随回放时间线单调增加。可以以所谓的hds分段(即视频片段的序列)在逻辑上对表示源视频的视频片段的序列进行格式化,其中每个视频片段可仅是一个分段的部分。描述视频片段和相关联的hds分段的元数据被存储在清单文件中,并且hds客户端设备使用清单文件来依据hds分段中的视频片段的序列号来检索和回放所述视频片段。该文章的作者用下载管理器扩展了hds客户端设备,所述下载管理器被适配成接收限定hds分段的不同序列的另一元数据文件,其中hds分段的每个序列通过顺序地排序的视频片段来限定回放路径。通过hds分段的序列的不同的回放路径可以用包括分支的树结构来表示,其中在分支处,hds客户端可以基于某些规则在不同的hds分段之间进行选择。与以上引用的自适应流式传输方案相关的问题是它在创作、修改回放路径和使回放路径个性化方面仅具有有限的灵活性。由于基于序列号来寻址视频片段的事实,该方案不允许重复回放已经在回放路径中较早回放的一个或多个hds分段。这在可以回放视频的方式方面提供实质性限制,尤其是在处理球面视频时。以上引用的自适应流式传输方案也没有提供其中作者可以在已经存在的回放方案中灵活地插入不同的替代分段的方案。另一问题是没有提供用于非线性球面视频的自适应流式传输的方案。因此,从以上由此得出结论,在本领域中存在对用于非线性媒体的自适应流式传输的改进的方法和系统的需要。特别地,在本领域中存在对与现有技术水平的内容递送网络兼容的用于非线性媒体的自适应流式传输的方法和系统的需要。此外,在本领域中存在对允许灵活地生成非线性媒体(例如视频和音频数据)的用于非线性媒体的自适应流式传输的方法和系统的需要,其中在流式传输期间,客户端设备可从不同的媒体路径中进行选择,其中每个媒体路径可与不同的媒体体验相关联。技术实现要素:如由本领域技术人员将领会的,本发明的方面可体现为系统、方法或计算机程序产品。因此,本发明的方面可采取完全硬件实施例、完全软件实施例(包括固件、驻留软件、微代码等)、或者组合软件和硬件方面的实施例的形式,它们在本文中一般都可被称为“电路”、“模块”或“系统”。本公开中所描述的功能可被实现为由计算机的微处理器执行的算法。此外,本发明的方面可采取体现在一个或多个计算机可读介质中的计算机程序产品的形式,所述计算机可读介质有计算机可读程序代码体现(例如存储)在其上。可利用一个或多个计算机可读介质的任何组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以例如是但不限于电子、磁、光学、电磁、红外或半导体系统、装置或设备,或者前述的任何合适的组合。计算机可读存储介质的更具体示例(非详尽列表)将包括以下:具有一根或多根电线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或闪存)、光纤、便携式光盘只读存储器(cd-rom)、光学存储设备、磁存储设备或者前述的任何合适的组合。在本文档的上下文中,计算机可读存储介质可以是可以包含或存储用于由指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合使用的程序的任何有形介质。计算机可读信号介质可包括有计算机可读程序代码体现在其中(例如在基带中或作为载波的部分)的传播的数据信号。这样的传播的信号可采取多种形式中的任何形式,包括但不限于电磁、光学或其任何合适的组合。计算机可读信号介质可以为不是计算机可读存储介质并且可以传送、传播或输送用于由指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合使用的程序的任何计算机可读介质。计算机可读介质上体现的程序代码可使用任何适当的介质(包括但不限于无线电、电线、光纤、电缆、rf等)或者前述的任何合适的组合来传输。用于执行用于本发明的方面的操作的计算机程序代码可用一个或多个编程语言的任何组合来写,所述编程语言包括诸如java(tm)、smalltalk、c++等之类的面向对象的编程语言,以及诸如“c”编程语言或类似编程语言之类的常规过程编程语言。程序代码可完全在用户的计算机上、部分在用户的计算机上、作为独立的软件包、部分在用户的计算机上并且部分在远程计算机上、或者完全在远程计算机或服务器上执行。在后面的场景中,远程计算机可通过包括局域网(lan)或广域网(wan)的任何类型的网络而连接到用户的计算机,或者可向外部计算机做出该连接(例如通过使用因特网服务提供者的因特网)。下面参照根据本发明的实施例的方法、装置(系统)和计算机程序产品的流程图图示和/或框图来描述本发明的方面。将理解:流程图图示和/或框图的每个框以及流程图图示和/或框图中的框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机或产生机器的其它可编程数据处理装置的处理器(特别是微处理器或中央处理单元(cpu)),使得经由计算机、其它可编程数据处理装置或其它设备的处理器执行的指令创建用于实现在一个或多个流程图和/或框图框中指定的功能/动作的手段。这些计算机程序指令也可被存储在计算机可读介质中,其可指导计算机、其它可编程数据处理装置或其它设备以特定方式起作用,使得存储在计算机可读介质中的指令产生包括实现在一个或多个流程图和/或框图框中指定的功能/动作的指令的制品。计算机程序指令也可被加载到计算机、其它可编程数据处理装置或其它设备上,以使得在计算机、其它可编程装置或其它设备上执行一系列操作步骤来产生计算机实现过程,使得在计算机或其它可编程装置上执行的指令提供用于实现在一个或多个流程图和/或框图框中指定的功能/动作的过程。附图中的流程图和框图图示了根据本发明的各种实施例的系统、方法和计算机程序产品的可能实现的架构、功能性和操作。在该点上,流程图或框图中的每个框可表示模块、分段或代码的部分,其包括用于实现(一个或多个)指定的逻辑功能的一个或多个可执行指令。还应当注意:在一些替代实现中,框中指出的功能可不按图中指出的次序发生。例如,连续示出的两个框实际上可以被基本上同时地执行,或者框有时可以以倒序来执行,这取决于所涉及的功能性。还将注意:框图和/或流程图图示的每个框以及框图和/或流程图图示中的框的组合可以由执行指定功能或动作的基于专用硬件的系统、或者专用硬件和计算机指令的组合来实现。本发明的目的是减少或消除现有技术中已知的缺点中的至少一个。本公开中描述的本发明的目的是允许内容创建者基于用户与视频交互的方式(例如用户的观看行为和/或用户的平移或缩放动作)来创建不同的媒体体验。取决于用户与媒体交互的方式具有不同的媒体体验的媒体可被称为非线性媒体,其中非线性媒体可包括非线性视频和/或音频。在一方面,本发明可涉及一种用于非线性媒体的自适应流式传输的方法。在实施例中,该方法包括:客户端装置(例如http自适应流式传输(has)客户端装置)接收包括限定一个或多个回放时段的元数据的第一清单文件,回放时段限定预定回放持续时间的视频数据,回放时段包括限定多个表示的至少一个适配集,每个表示限定一组分段标识符,每个分段标识符标识包括视频数据的分段,视频数据包括一系列视频帧;元数据进一步包括空间回放信息,所述空间回放信息至少包括与第一回放时段的第一适配集相关联的第一区域描述符,第一区域描述符限定目的地标识符以及第一适配集的视频帧中的第一区域,目的地标识符用信号通知客户端装置:第一区域被链接到第二适配集,优选地,第二适配集与第二区域描述符相关联,第二区域描述符包括与目的地标识符匹配的源标识符;客户端装置通过请求一个或多个网络节点传输第一适配集的分段而使用元数据来回放第一适配集的视频数据;并且,在所请求的分段的回放期间,接收或确定与第一适配集的视频帧中的至少第二区域相关联的信息,第二区域限定客户端装置的用户的感兴趣区域(roi);以及,客户端装置基于第一和第二区域来选择用于在第一适配集的回放结束之后回放的第二适配集,所述选择基于第一和第二区域之间的距离或重叠。因此,本发明允许非线性媒体(即限定不同的媒体回放路径的媒体)的回放,其中可基于和用户在回放期间与媒体交互的方式(例如用户在特定时间实例处在特定的观看方向上看)相关联的信息来选择回放路径。不同的媒体回放路径可由清单文件中的空间回放信息(特别是空间回放区域描述符)来限定,所述空间回放信息将属于第一适配集的(在表示中的)视频帧中的区域链接到另一适配集。如果客户端装置确定用户以特定方式(例如用户使用头戴式设备(hmd)等看360视频的视点或视口与回放区域一致或至少部分重叠)与回放区域交互,客户端装置可选择另一适配集作为在当前适配集的视频的回放结束之后将要回放的下一个回放时段。本发明因而允许非线性(交互式)媒体的流式传输,其中媒体,不同的回放时段的适配集的分段的集合,可以以分布式方式存储在网络中,即在cdn的不同的网络节点(媒体服务器和/或高速缓存)处。此外,可以通过基于空间回放信息链接适配集来简单地完成非线性媒体的创作,在实施例中所述空间回放信息可被(至少部分地)插入清单文件中。客户端应当以其回放分段的序列仅被固定在适配集中。因此,作者未在在创作期间可链接适配集的方式方面被限制。因此,媒体回放路径可包括多次回放相同的适配集。在实施例中,第一区域描述符进一步包括时段标识符,时段标识符用信号通知客户端装置:在第二回放时段的元数据中限定第二适配集。在实施例中,空间回放信息可被配置成将回放时段的适配集链接到逻辑排序的适配集的序列中,其中每个序列形成媒体回放路径。在另一实施例中,第一区域描述符进一步包括第一区域的位置信息,并且可选地包括与第一区域的尺寸和/或形状相关联的信息,优选地,位置信息包括:第一适配集的视频帧中的第一区域的坐标或者用来确定第一适配集的视频帧中的第一区域的坐标的信息。在这些实施例中,区域描述符可包括用于限定区域的位置和形状的另外的信息。区域的位置可基于合适的坐标系来限定,所述坐标系例如是2d笛卡尔坐标系或球面坐标系(例如在球面视频数据的情况下)。在实施例中,空间回放信息可进一步包括动态区域参数,该动态区域参数用信号通知客户端装置:第一区域的位置作为时间的函数而改变。在实施例中,与动态区域的位置相关联的坐标可被存储作为第一回放时段的视频数据的元数据。在该实施例中,由区域描述符限定的区域可以是第一适配集的媒体分段的视频帧中的运动区域(动态区域)。可将运动区域的坐标连同视频数据(例如一个或多个视频轨道(track))一起存储作为元数据(例如元数据轨道)。在实施例中,第一适配集可与限定第一适配集的视频帧中的多个区域的位置的多个区域描述符相关联,区域描述符中的每个用信号通知客户端装置:所述多个区域中的每个被链接到另一适配集,客户端装置基于所述多个区域的位置以及客户端装置的用户的感兴趣区域(roi)的位置来选择第二适配集。在实施例中,第一清单文件可进一步包括限定第二适配集的元数据。在实施例中,该方法可进一步包括:客户端装置请求一个或多个网络节点传输第二适配集的媒体分段。在该实施例中,在单个清单文件中描述被链接的适配集的至少部分。在实施例中,空间回放信息可进一步包括清单文件引用标识符或用于确定清单文件引用标识符的信息,清单文件引用标识符包括网络节点的位置的信息,优选地是url,清单文件引用标识符用信号通知客户端装置请求网络节点将第二适配集的元数据传输到客户端设备,优选地,清单文件引用标识符限定与第二适配集相关联的mpd链锁元素。在实施例中,该方法可进一步包括:客户端装置使用清单文件引用标识符来请求网络节点传输第二清单文件,所述第二清单文件包括媒体分段标识符或用于确定与第二适配集相关联的媒体分段标识符的信息;并且,客户端装置使用第二清单文件来请求网络节点传输第二适配集的分段。在该实施例中,将在另一清单文件或清单文件更新中将限定第二适配集的元数据发送到客户端装置。在实施例中,自适应流式传输可基于http自适应流式传输协议,优选地,协议是以下中的一个:通过http的mpeg动态自适应流式传输(mpegdash)、3gppdash或mpeg常用媒体应用格式(cmaf)。在实施例中,回放时段可被限定为如在mpegdash标准中限定的时段或如在cmaf标准中限定的cmaf呈现。在实施例中,适配集可被限定为根据mpegdash标准的适配集或根据cmaf标准的cmaf交换集(switchingset)。在实施例中,表示可被限定为根据mpegdash标准的表示或根据cmaf标准的cmaf轨道。此外,分段可被限定为根据mpegdash标准的媒体分段或者根据cmaf标准的cmaf片段。在实施例中,其中视频数据包括球面视频数据,球面视频数据限定曲面上的像素。在实施例中,感兴趣区域可包括用户观看球面视频数据的视频回放的观看方向。在实施例中,可基于球面坐标系来限定感兴趣区域和第一区域。在另一方面,本发明涉及一种客户端装置,该客户端装置包括:具有以其体现的计算机可读程序代码的计算机可读存储介质,以及耦合到计算机可读存储介质的处理器,优选地是微处理器,其中响应于执行第一计算机可读程序代码,其中处理器可被配置成实行包括如下各项的可执行操作:接收包括限定一个或多个回放时段的元数据的第一清单文件,回放时段限定预定回放持续时间的视频数据,回放时段包括限定多个表示的至少一个适配集,每个表示限定一组分段标识符,每个分段标识符标识包括视频数据的分段,视频数据包括一系列视频帧;元数据进一步包括空间回放信息,所述空间回放信息至少包括与第一回放时段的第一适配集相关联的第一区域描述符,第一区域描述符限定目的地标识符以及第一适配集的视频帧中的第一区域,目的地标识符用信号通知客户端装置:第一区域被链接到第二适配集,优选地,第二适配集与第二区域描述符相关联,第二区域描述符包括与目的地标识符匹配的源标识符;通过请求一个或多个网络节点传输第一适配集的分段,使用元数据来回放第一适配集的视频数据;并且,在所请求的分段的回放期间,接收或确定第一适配集的视频帧中的至少第二区域,第二区域限定客户端装置的用户的感兴趣区域(roi);以及,基于第一和第二区域来选择用于在第一适配集的回放结束之后回放的第二适配集,所述选择基于第一和第二区域之间的距离或重叠。在又一个方面,本发明涉及一种非暂时性计算机可读存储介质,其包括用于客户端装置的清单文件,所述客户端装置优选地是http自适应流式传输has客户端装置,清单文件包括计算机可读程序代码,该代码包括:限定一个或多个回放时段的元数据,回放时段限定预定回放持续时间的视频数据,回放时段包括限定多个表示的至少一个适配集,每个表示限定一组分段标识符,每个分段标识符标识包括视频数据的分段,视频数据包括一系列视频帧;元数据进一步包括空间回放信息,所述空间回放信息至少包括与第一回放时段的第一适配集相关联的第一区域描述符,第一区域描述符限定目的地标识符以及第一适配集的视频帧中的第一区域,目的地标识符用信号通知客户端装置:第一区域被链接到第二适配集,优选地,第二适配集与第二区域描述符相关联,第二区域描述符包括与目的地标识符匹配的源标识符;元数据使得客户端装置能够:通过请求一个或多个网络节点传输第一适配集的分段来回放第一适配集的视频数据;以及基于第一和第二区域来选择用于在第一适配集的回放结束之后回放的第二适配集;所述选择基于第一适配集的视频帧中的第一区域和第二区域之间的距离或重叠,第二区域限定客户端装置的用户的感兴趣区域(roi)并且在所请求的分段的回放期间被接收或确定。本发明还可涉及一种包括软件代码部分的程序产品,所述软件代码部分被配置用于当在计算机的存储器中运行时执行上面描述的任何方法步骤。将参照附图进一步说明本发明,所述附图将示意性地示出根据本发明的实施例。将理解:本发明不以任何方式限于这些具体实施例。附图说明图1描绘了用于非线性媒体的已知自适应流式传输方案的数据模型;图2a和2b描绘了图示用于非线性媒体的已知自适应流式传输方案中的不同的回放路径的图;图3描绘了根据本发明的实施例的用于非线性媒体的自适应流式传输过程的示意图;图4描绘了图示根据本发明的实施例的用于非线性媒体的自适应流式传输方案中的不同的回放路径的图;图5描绘了在根据本发明的实施例的用于非线性媒体的自适应流式传输过程中对空间回放区域的使用;图6示意性地描绘了根据本发明的实施例的使用区域描述符对清单文件中的适配集的链接;图7a和7b描绘了根据本发明的实施例的用于使得能实现非线性媒体的自适应流式传输的各种清单文件;图8描绘了根据本发明的实施例的用于非线性媒体的自适应流式传输的系统;图9a和9b图示了根据本发明的实施例的空间回放区域的标识;图10示意性地描绘了球面视频数据的表示;图11a和11b图示了用于描述视口的球面坐标系的使用;图12a和图12b描绘了根据本发明的各种实施例的在球形表面上的空间回放区域的示例;图13a-13e图示了根据本发明的各种实施例的使用空间回放区域对适配集的选择;图14图示了根据本发明的实施例的基于空间回放区域对适配集的选择;图15a-15d示出了在本申请中描述的各种实施例中可能出现的空间回放区域选择场景;图16是图示了可用于执行本公开中描述的方法和软件产品的示例性数据计算系统的框图。具体实施方式本公开中的实施例的目的是提供用于非线性媒体的http自适应流式传输(has)和创作方案。本公开中的实施例允许流式传输经分段的非线性媒体,包括高级视频格式,诸如超高清全景视频、球面视频(例如全方位或360视频)或其它类型的视频格式(例如柱面视频等)。虽然基于被称为mpegdash的http自适应流式传输(has)协议来描述本发明的示例性实现,但是在用于递送诸如3gppdash和mpeg常用媒体应用格式(cmaf)之类的经分段的媒体的其它类型的流式传输协议中的实现也被预见到。用于递送经分段的非线性媒体的自适应流式传输方案在现有技术中是已知的。例如,krishnamoorthi等人在他们的文章“empoweringthecreativeuser:personalhttp-basedadaptivestreamingofmulti-pathnonlinearvideo”第53-58页中描述了一种能够回放一个类型的非线性媒体的自适应流式传输方案。图1和2中示意性地描绘了该已知方案的部分。流式传输过程基于adobe的http动态流式传输(hds)协议,其被用作图1中所示的数据模型。线性源视频102被划分成一系列所谓的视频片段104(即,短持续时间的视频文件,其在其它标准中可被称为大块或(媒体)分段)。每个视频片段可以以不同的质量来存储,使得在流式传输期间,客户端设备可以基于可用带宽来决定这样从一个视频质量切换到另一个视频质量。这样,客户端设备能够响应于改变的网络条件来适配其流式传输行为。每个视频片段具有序列号106,其中后续视频片段的序列号随回放时间线单调增加。可以以所谓的hds分段108在逻辑上对表示源视频的视频片段的序列进行格式化。hds分段限定一组视频片段,其中根据它们的序列号来布置视频帧。每个视频片段可能仅是一个分段的部分。描述视频片段和相关联的hds分段的元数据被存储在清单文件中,并且hds客户端设备使用清单文件来依照hds分段中的视频片段的序列号检索和回放所述视频片段。视频片段的检索包括hds客户端设备向服务器发送http请求,用于请求向该客户端设备传输不同序列号的视频片段。该文章的作者用下载管理器扩展hds客户端设备,所述下载管理器被适配成接收限定hds分段的不同序列的另一元数据文件,其中hds分段的每个序列通过顺序地排序的视频片段来限定回放路径。这被示意性地描绘在图2a和2b中。如图2a中所示,元数据文件可限定可基于分段s1的视频片段来开始视频回放。在分段s1的回放之后,元数据文件中的元数据可限定分段s1的末尾与分支点214相关联,其中——取决于一些规则——可回放或者分段s2的视频片段或者分段s3的视频片段。分支点因而限定两个不同的回放路径。这样,元数据文件可限定对多个回放路径进行限定的hds分段的多个序列。可以在包括分支的树结构218中表示不同的回放路径220的结构,其中在分支处,hds客户端可以基于某些规则而在不同的hds分段之间进行选择。与以上引用的自适应流式传输方案相关的问题是它在创作、修改回放路径和使回放路径个性化方面仅具有有限的灵活性。如图2b中所示,每个回放路径220由分段的序列形成,其中基于升序的序列号对视频片段进行排序。由于基于序列号寻址视频片段的事实,该方案仅允许选择和回放包括具有比已经回放的视频片段的序列号高的序列号的视频片段的分段。换言之,该方案不允许重复回放已经在回放路径中较早回放的一个或多个hds分段。这在可以回放视频的方式方面提供实质性限制,尤其是在处理球面视频时——例如用户可能想要返回并尝试另一个观看方向。以上引用的自适应流式传输方案也不提供其中作者可以在已经存在的回放方案中灵活地插入不同的替代分段的方案。图3描绘了根据本发明的实施例的用于非线性媒体的自适应流式传输过程的示意图。特别地,图3描绘了非线性媒体的自适应流式传输过程,所述非线性媒体使用与mpegdash标准兼容的数据格式。在该方案中,媒体数据(音频和视频数据)被限定为多个回放时段302-312,其中每个回放时段可限定预定长度和预定开始时间的内容的一块或多块。如图3中所示,回放时段,例如回放时段a314,可包含以时间排序的短媒体文件的集合的形式的媒体数据,其在mpegdash中被称为媒体分段316。包括预定质量的媒体的分段的序列也可被称为表示318。回放时段可被存储作为多个表示,其中每个表示表示不同质量版本(例如不同地编码的版本)的媒体数据。多个表示可被称为适配集320。在回放时段的媒体数据的回放期间,客户端设备可顺序地请求网络传输预定表示的分段。如果可用带宽要求如此,则客户端设备可能基于另一个表示的分段(例如较低的视频质量)而在一个点处决定继续回放。关于媒体的结构的信息可被存储在所谓的清单文件中,所述信息包括回放时段、适配集、表示和分段,所述清单文件在mpegdash中被称为媒体呈现描述(mpd)。清单文件可被提供给客户端设备,所述客户端设备可将所述清单文件存储在其存储器中。在回放期间,has客户端设备可解析清单文件并寻找被限定为媒体回放的开始的第一回放时段。在当前回放时段的适配集的媒体分段的回放期间,has客户端将寻找在当前回放时段的回放结束之后需要回放的下一个回放时段。在常规的清单文件(例如mpd)中,限定适配集的常规时段被按顺序次序列出,并且has客户端将按清单文件中列出时段的次序简单地回放媒体。相比之下,在本发明中,mpd中不同的回放时段的适配集的回放次序由所谓的空间回放信息控制,所述空间回放信息包括将第一回放时段的第一适配集的视频中的感兴趣区域(roi)链接到第二回放时段的第二适配集的视频中的感兴趣区域的信息。这样的感兴趣区域可被称为空间回放区域,或者——简称为——区域。如图3中所示,在回放期间,has客户端可选择回放时段的适配集的视频数据,并将这些所选适配集顺序地放在媒体回放时间线上。例如,has客户端可将回放时段a314的适配集作为第一时段n放在媒体时间线上以用于回放。在回放期间,has客户端可解析mpd并且基于mpd中的空间回放信息322确定mpd中的三个不同的回放时段b、b’、b’’304的三个适配集可用于作为媒体时间线上的下一个时段n+1回放。特别地,基于mpd中的空间回放信息,has客户端设备可确定:与回放时段a的适配集相关联的视频帧中的三个区域中的每个被链接到三个不同的回放时段b、b’、b’’中的一个的适配集的区域,并且基于某些用户信息,例如用户交互信息,一旦完成时段a的适配集的媒体回放,就可回放这些适配集中的一个。在与第一适配集相关联的视频帧中限定的一个或多个区域以及这些区域中的每个到另一适配集(例如与如图3中描绘的回放时段b、b’和b’’相关联的适配集)的链接使得has客户端能够基于某些用户信息(例如某些用户交互)来选择适配集,并将所选适配集作为下一个回放时段放在媒体时间线上以用于回放。与适配集相关联的视频帧中的这些空间回放区域可被限定为mpd中的元数据,并且mpd中基于空间回放区域来控制适配集的回放的所有信息元素可被称为空间回放信息。空间回放信息可限定与适配集相关联的一个或多个空间回放区域描述符,用于限定与适配集相关联的视频数据(视频帧或视频图片)中的一个或多个区域,并且用于将每个区域链接到与空间回放区域相关联的另一适配集。这样的空间回放区域描述符在下文中可被称为区域描述符。下面将更详细地描述区域描述符及其在has流式传输方案中的非线性媒体的回放中的使用。因此,has客户端可从多个回放时段中选择下一个回放时段的适配集,所述多个回放时段可链接到has客户端当前正在播放的回放时段的内容中的不同的空间回放区域。可以以不同方式实现由has客户端基于mpd中的元数据并基于用户信息对下一个回放时段的选择。例如,在实施例中,has客户端可接收关于用户的观看行为的信息。观看行为可包括例如与表示用户当前正在看或与之交互的场景的视频帧的区域相关联的坐标。当用户正在看球面视频数据时,用户正在看的区域可被称为视口。has客户端可基于用户的观看行为从所述多个回放时段中选择下一个回放时段的适配集。例如,当视口在某个时间内与一区域匹配或至少部分一致时,has客户端可选择链接到该区域的适配集。参考图3,如果在当前适配集的回放期间,has客户端设备确定用户(在预定的时间段内)正在看某个预定区域,或者在链接到回放时段b’的适配集的区域的在当前适配集的视频中的某个空间回放区域的方向上看,则has客户端设备可选择该回放时段的该适配集作为下一个回放时段并将这作为时段n+1304放在媒体时间线上。mpd中的元数据可用信号通知has客户端设备:与回放时段b’的适配集相关联的视频帧中的区域被链接到回放时段c中的适配集。因此,在回放时段b’的回放之后,has客户端设备可将回放时段c作为时段n+2306放在媒体时间线上。此后,在回放时段c的视频数据的回放期间,has客户端设备可从与不同的回放时段(即回放时段b、回放时段d或回放时段d')相关联的多个适配集中进行选择。因此,在该情况下,取决于用户的观看行为,has客户端可将回放时段b作为时段n+3308再次放在媒体时间线上。图3中描绘的has媒体回放方案允许has客户端设备回放被限定为可来自相同或不同的回放时段的预定数目的被链接的适配集的视频。取决于用户与视频交互的方式,例如用户的观看行为,用户可经历不同的媒体体验。图4描绘了图示根据本发明的实施例的用于非线性媒体的自适应流式传输方案中的不同的回放路径的图。这里,不同的回放时段的适配集可形成有向图,所述有向图包括由有向边410-418连接的顶点4081-7,所述有向边即与方向相关联的边。在该方案中,顶点可表示回放时段中的适配集,并且有向边限定回放时段中的适配集如何链接到彼此。如图4中所示,有向边可通过回放区域的被链接的适配集来限定不同的回放路径。至少一个顶点,例如顶点a4081,可限定回放路径的开始,并且至少一个顶点可限定回放方案的结束。例如,第一回放路径416可用信号通知has客户端设备:可能可以顺序地回放回放时段a、b、c和d的适配集,以便向用户提供第一媒体体验。类似地,第二回放路径417可用信号通知has客户端设备:可顺序地回放回放时段a、b’’、c和d’的适配集,以便向用户提供第二媒体体验。取决于元数据,媒体回放路径可包括多次一适配集的回放,例如a、b、c、d、d、d……。如图4中所示,本发明允许构造不同类型的回放路径,例如边可限定两个顶点之间的双向路径412,边414可限定向后涉及回放路径的开始的路径和/或自循环,即将顶点与它本身连接的边418。因此,与用于非线性回放的现有技术自适应流式传输方案相比,本发明允许创作多次允许媒体路径(的部分)的回放的非线性媒体。这样的功能性在球面视频的回放方案中是特别有利的,例如通过建筑物的区域的被指导游览,在所述区域中用户被允许经由媒体通过与媒体交互来确定其自己的路径。图5描绘了在根据本发明的实施例的用于非线性媒体的自适应流式传输过程中对空间回放区域的使用。特别地,图5示意性地描绘了在媒体时间线上作为时段n的回放时段a500的适配集502的回放。在回放期间,has客户端设备使用清单文件中的元数据来检索与第一(当前)适配集502相关联的媒体分段。这些分段可包括球面视频数据,所述球面视频数据可由视频解码器解码成将使用合适的回放设备渲染(render)为球面视频的视频帧504。清单文件中的空间回放信息可限定可以被映射到第一适配集的视频帧上的空间回放区域502-508。空间回放区域(spr)可限定某个媒体空间中的区域,所述媒体空间例如是其中内容被表示在2d平面中(例如以矩形视频帧中的像素的形式)的2d媒体空间,或者其中内容可被表示在球面上(例如以球体上的像素的形式)的3d媒体空间。合适的坐标系,例如2d笛卡尔坐标系或3d球面坐标系,可用于限定媒体空间中的区域的位置。可使用一个或多个空间回放划分器510、512来限定区域。空间回放划分器可限定将视频帧划分成不同区域的线。在另一个实施例中,可基于坐标来限定区域。此外,mpd中的限定空间回放区域的元数据可包括对可在第一适配集之后由客户端设备播出的回放时段的适配集的引用514-520。图5中的示例描绘了第一适配集的视频帧中的四个区域502-508,所述四个区域502-508链接到三个不同的回放时段b、b’、b’’522-526的适配集,所述第一适配集用信号通知has客户端设备:它可基于用户与所述区域中的一个或多个交互来选择这些适配集中的一个。可使用清单文件中的区域描述符向has客户端发信号通知空间回放信息,诸如限定空间回放区域和到适配集的链接的信息。在实施例中,区域描述符可被限定为mpd中与适配集相关联的预限定的mpd元素,例如spatialplaybackregionmpd元素。区域描述符可使用包括常规笛卡尔坐标系或使用球面坐标的球面坐标系的合适坐标系来限定与适配集相关联的视频帧中的区域的位置和尺寸。下面更详细地描述用于球面坐标情况的语法。下面的表1描述了根据本发明的实施例的区域描述符的示例。特别地,表1描述了与mpegdash类型区域描述符spatialplaybackregion相关联的许多参数。spatialplaybackregionmpd元素可包括用于限定表示空间回放区域的区的参数。表1-空间回放区域限定。如表1中所示,区域描述符可包括第一区域描述符标识符(“id”),其标识与空间回放区域描述符所属的(第一)适配集相关联的区域视频帧的描述符。该第一区域描述符标识符可简称为源标识符。此外,描述符可包括限定(以预定单位表达的)源区域的位置(和尺寸)的一个或多个参数(width、height、top_left_x、top_left_y)。例如,在实施例中,与源区域的位置(和尺寸)相关联的参数可被表达为视频帧的百分比,并且乘以视频分辨率以获得用像素单位的准确位置。例如,如果宽度为50%并且观看分辨率的宽度为1920,则spr为960像素宽。代替百分比记法,其它单位也是可能的,例如:给出为0和1之间的实数的归一化值;用任意单位的宽度和高度;以及给出比率的新的total_width和total_height参数。因此,在该实施例中,关于尺寸的值可被表达为相应视频分辨率的百分比。这样,空间回放区域不用像素单位来限定,使得它可以用在多个视频分辨率的情况中,例如用在在具有不同图片分辨率的适配集中存在多个表示的情况中。区域描述符可进一步包括至少第二区域描述符标识符(“区域”),用于标识与第二适配集相关联的目的地区域描述符。该参数可简称为目的地标识符。目的地标识符用信号通知has客户端设备:由源区域描述符限定的区域涉及目的地区域描述符,即由目的地标识符标识的区域描述符,其中目的地区域描述符与另一(第二)适配集相关联。空间回放区域描述符可进一步包括与目的地区域标识符相关联的回放时段标识符(“时段”),所述目的地区域标识符用信号通知客户端设备:第二适配集属于第二回放时段。该参数可简称为时段标识符。表2中提供了这些参数的示例:表2-具有内容选择信息的spatialplaybackregion。因此,第一区域描述符中的时段和目的地参数用于将第一适配集中的区域链接到与第二回放时段的第二适配集相关联的第二区域描述符。如果第一区域描述符的目的地参数与第二区域描述符的源参数匹配,则has客户端设备将确定适配集被链接。下面参照表3中的mpd来描述该机制的示例。区域描述符可进一步包括被称作“标签”的可用作人类可读性以及语音控制(与用户说了什么和标签匹配)的参数。它可为视力受损的人服务,使得应用读出或显示与标签相关联的文本,所以用户可以知道要选择什么。以下表3提供了根据本发明的实施例的包括区域描述符的mpd的示例。在该示例中,区域可由宽度、高度和视频帧内的其左上角的位置来限定。然而,在其它实施例中,其它条件和/或参数可用于限定区域。在该实施例中,mpd元件可用信号通知has客户端设备:该视频指代球面视频。特别地,包括值“urn:mpeg:mpegb:cicp:pf”的@schemeiduri属性的essentialpropertympd元素可用信号通知客户端设备:该视频是以如由mpegomaf规范iso/iec23090-2指定的正方形投影(equirectangularprojection)格式所格式化的360视频。表3-具有spatialplaybackregion的mpd的示例。如在该实施例中所示,mpd限定使用区域描述符链接到彼此的多个回放时段(在该示例中为四个)。在图6中图示了如在表3中描绘的使用空间区域描述符对适配集的链接。该图描绘了限定回放时段1的数据结构,所述回放时段1包括与两个区域描述符6021、6022相关联的适配集1。第一区域描述符6021:限定了链接到回放时段2的另一适配集的区域(的宽度、高度和坐标)。第一区域描述符包括目的地标识符606(区域=“a”)和时段标识符608(时段=“2”)。第一区域描述符中的目的地和时段标识符用信号通知has客户端设备:由第一区域描述符描述的区域被链接到适配集,所述适配集与具有与第一区域描述符6021的目的地标识符606匹配的源标识符604(id=“a”)的区域描述符6023相关联。第一区域描述符中的时段标识符用信号通知has客户端:由目的地标识符标识的区域描述符由回放时段2的元数据限定。实际上,如表3中所示,回放时段2的元数据包括具有标识符“a”的区域描述符:这样,当解析清单文件时,has客户端设备可确定:与回放时段1的适配集1相关联的视频帧中的区域被链接到回放时段2的适配集2。以类似的方式,has客户端设备可基于第二区域描述符604确定:与适配集1相关联的视频帧中的另一区域被链接到回放时段3的适配集2,并且基于回放时段2和3的适配集2的区域描述符,其可确定:与回放时段2和3的适配集2相关联的视频帧中的区域都被链接到回放时段4的适配集1。注意:表3和图6的示例仅是区域描述符可以如何用于高效地将不同的适配集链接到彼此以便形成表示其中每个回放路径可提供不同的用户体验的多个回放路径的数据结构(例如xml数据结构)的说明。图7a和7b描绘了根据本发明的实施例的用于使得能实现非线性媒体的自适应流式传输的各种清单文件。特别地,图7a示意性地描绘了包括与不同的回放时段704-708相关联的适配集的清单文件702,其中清单文件中的不同的回放时段的适配集如参照图6和表3描述的那样使用空间回放区域描述符来构造和链接。在该实施例中,清单文件包括has客户端基于用户信息选择用于在第一(当前)适配集的播出结束之后播出的第二(另一)适配集所需的所有元数据,所述用户信息例如是关于用户与在与第一适配集相关联的视频帧中限定的区域进行交互或不进行交互的信息。用户与空间回放区域的“交互”可基于用户的观看行为来确定,所述观看行为例如是用户在回放时段1的适配集的区域中的一个的方向上寻找预定时间(或平均时间)的信息。mpd中列出的回放时段元素的序列不再意味着has客户端设备应当按列出时段的次序回放这些回放时段。相反,has客户端设备必须考虑空间回放区域信息,以便从mpd中列出的预定数目的适配集中选择适配集。链接不同回放时段中的适配集的空间回放描述符可由mpd作者限定。在替代实施例中,has客户端设备可使用清单文件中的空间回放信息,以便请求服务器将所选适配集的元数据传输到该客户端设备。因此,在该实施例中,下一个回放时段的一个或多个所选适配集的元数据可由服务器在一个或多个另外的mpd中传输到has客户端设备,例如由清单文件服务器传输到has客户端设备。如图7b中所示,has客户端设备从多个适配集中选择适配集触发清单文件服务器将包括所选适配集的元数据的新mpd或mpd更新补丁传输到has客户端。清单文件服务器可包括其中存储了所有回放路径的元数据的数据库。当服务器从has客户端设备接收对与一个或多个所选适配集相关联的元数据的请求时,它可解析元数据数据库,选择所请求的部分,生成新mpd并将mpd传输到客户端设备。在实施例中,如在dash标准iso/iec23009-1中指定的mpd链锁(chaining)方案的扩展版本可用于将新mpd传输到has客户端设备。mpd链锁提供了用来指示在第一mpd中描述的一个媒体呈现结束时与后续的第二mpd相关联的新媒体呈现开始的机制。在常规的链锁机制中,第一mpd可包括mpd链锁元素,例如以必要属性mpd元素或补充属性元素的形式,所述mpd链锁元素指向被配置成将新的(第二)mpd或mpd更新传输到has客户端设备的服务器的位置。mpd链锁元素将触发正在基于第一mpd中的元数据来回放视频的客户端设备请求另一mpd,使得其可以刚好在基于第一mpd的视频回放结束之后基于第二mpd中的元数据继续视频回放。相比之下,在该实施例中,mpd链锁方案被扩展成使得可以在区域描述符中包括mpd链锁元素,例如如上面参照表1和2描述的spatialplaybackregionmpd元素。在实施例中,根据本发明的mpd链锁元素可包括url和目的地标识符以及时段标识符,其中url由客户端设备用于请求新mpd。一旦客户端设备接收到包括新mpd的响应消息,它就可使用目的地标识符和时段标识符,以便从新mpd中选择与下一个适配集相关联的元数据。以下表4提供了用于为下一个回放时段选择适配集的mpd链锁元素的语法的示例。表4-基于新mpd的下一个回放时段的内容选择。如该表中所示,与常规mpd链锁的主要区别在于:通常mpd链锁元素是元素mpd的子,而在该实施例中,mpd链锁元素被用作适配集的子,从而在其使用中提供多得多的灵活性。以下提供根据本发明的实施例的mpd链锁元素的使用的示例:如该示例中所示,第一区域描述符限定涉及回放时段2中的适配集的区域,其中该适配集与由目的地标识符“a”标识的区域描述符相关联。第一区域描述符进一步包括mpd链锁元素,其用信号通知has客户端设备:时段2中的适配集位于另一个mpd中,所述mpd可通过发送具有如在值属性中提供的url的请求来请求。根据一般url规范,在“#”之后的所有信息都意在用于客户端设备,并且在将http请求发送到服务器之前该部分被剥去。客户端设备因而将http请求发送到urlserver.com/next.mpd。当客户端接收包括新mpd的响应时,它寻找mpd中由#period=1&region=d指向的部分。图7b示意性地图示了根据本发明的实施例的使用mpd链锁方案链接回放时段的适配集。如该图中所示,第一mpd712可限定回放时段1的适配集,所述适配集包括两个区域描述符:包括第一mpd链锁元素的第一区域描述符和包括第二mpd链锁元素的第二区域描述符。这里,第一和第二区域描述符可用信号通知has客户端设备:与在时段1中的适配集相关联的视频帧中的第一区域被链接到回放时段2的适配集,并且视频帧中的第二区域被链接到回放时段3的适配集。另外,第一和第二区域描述符中的mpd链锁元素用信号通知has客户端设备:必须基于第二mpd7161的元数据来回放时段2和3的适配集的视频数据,并且必须基于第三mpd7162来回放时段3的适配集。在又一个实施例中,可使用如在iso/iec23009-1中限定的mpd更新事件方案来用信号通知下一个回放时段。在该实施例中,代替传输完整的新mpd,下一个回放时段的元数据可被作为更新补丁传输到has客户端设备。更新补丁可包括元数据和用于使has客户端设备将元数据插入其正在使用的清单文件中的指令。在第一实施例中,可在客户端的与回放时间相关联的mpd中插入mpd有效性到期事件,其意味着客户端将在mpd不再有效的经确定的回放时间处下载新mpd。在第二实施例中,可在客户端设备正在下载的分段中插入mpd有效性到期事件。在两个情况下,当客户端设备在如由mpd有效性到期事件指示的回放时间处时,新mpd将由服务器发送到该客户端设备。在实施例中,服务器可在到期或到期之前的预定时间时将mpd发送到客户端设备。在另一个实施例中,客户端设备可请求服务器在到期之前将mpd发送到客户端设备。新mpd包括下一个回放时段,并且客户端设备可以以正常方式继续回放。在以下表5中,提供了用于这样的有效性到期事件的参数。presentation_time和时间尺度(timescale)参数可以是内容相关的并且由客户端设备使用以便确定客户端设备应当在媒体回放中的什么时间实例处接收或请求mpd更新。表5-用于mpd有效性到期事件的参数。图8描绘了根据本发明的实施例的用于非线性媒体的自适应流式传输的系统。特别地,图8描绘了用于非线性媒体的自适应流式传输的系统,所述系统包括服务器802,例如媒体服务器,所述服务器802包括服务器处理器806和用于存储以合适的数据容器格式的媒体(例如球面视频数据)和相关联的元数据(例如被客户端设备用于检索媒体的一个或多个清单文件)的服务器存储介质810。清单文件在mpegdash中可被称为媒体呈现描述(mpd),并且可依照某个机器可读文档格式(例如xml等)来构造。清单文件可包括关于可用媒体资产(例如包括视频和音频流的媒体流)以及has客户端可以如何检索这些媒体资产的信息。清单文件中标识的媒体数据可基于参照图3描述的数据模型来组织,所述数据模型例如是包括一个或多个适配集的回放时段、包括不同表示的适配集以及包括媒体分段的序列的表示,其中媒体分段包括预定质量的经压缩的视频数据。在一些实施例中,清单文件中的媒体流还可被空间地划分(“分块(tile)”)成(空间)图块流,其中图块流的空间关系可使用空间关系描述(srd)来限定。清单或者直接地提供url以请求这些分段,或者替代地为has客户端提供元数据以构建待请求的分段url。mpd可提供用于用信号通知分段url、url模板、显式url等的不同方式。另外,元数据还可包括如参照图1-7详细地描述的空间回放信息。客户端设备818可包括客户端处理器822以及用于存储一个或多个清单文件(包括客户端设备当前正在使用的清单文件)的存储器826。客户端和服务器处理器可被配置成管理和执行与如参照本申请中的实施例描述的非线性球面视频的回放相关联的过程步骤。服务器可以是被配置成将视频数据流式传输到客户端设备的内容递送网络(cdn)的部分。客户端设备818可与视频处理设备832一起被实现或与视频处理设备832相关联。在实施例中,视频数据可包括球面视频数据,即视频内容(例如像素)到球形表面上的球面表示,其中像素在球形表面上的位置可基于3d球面坐标系来限定。视频处理设备可被配置成处理球面视频数据并渲染球面视频数据以用于显示。用于球面内容的视频处理设备的非限制性示例是头戴式显示器(hmd)。这样的设备常常用在包括球面视频、虚拟现实和增强现实的应用中。hmd可包括用于跟踪用户的头部、眼睛和/或身体运动的一个或多个传感器。视频处理设备中的一个或多个传感器可生成传感器信息831,其可用于确定视点,即视频处理设备的用户朝向球体表面上看的3d空间中的方向,其中用户位于球体的中心处。可基于球面坐标系的坐标来表达视点。hmd可进一步由视野(fov)表征,所述视野即hmd能够显示的球面视频的最大区。在特定时刻的特定视点处,在fov的限制下显示的球面视频的具体部分被称作视口。视口也可被称为球形表面上的感兴趣区域(roi)。视频处理设备可被配置成渲染视频内容的球面表示,其中用户可通过在球形表面上移动roi来自由地选择球面视频。可通过移动视频处理设备或通过跟踪用户的头部、眼睛和/或身体运动来移动roi。因此,在渲染期间,用户的观看方向(例如视点)可由视频处理设备(例如hdm)监视,并且用于根据fov和视频处理装置的当前视点方向来确定应当渲染内容的哪个部分。传感器信息可被发送到客户端设备,所述客户端设备包括导航功能830或者可与导航功能830相关联,所述导航功能830被配置成接收传感器信息并生成导航信息8331,2。导航信息可包括视频处理设备的用户的导航度量,其包括提供关于用户的观看行为的信息的一个或多个参数。这些参数可包括当前视点、历史视点和/或其它度量,例如运动信息、显示给用户的视野的尺寸和形状等。在另一实施例中,导航功能可接收用户输入836以用于生成导航信息。用户输入可包括与视频处理设备的各种用户交互接口(例如语音控制应用和/或(3d)手势识别应用)相关的信息。除了视点信息之外或代替视点信息,可使用该信息。客户端设备可被配置成使用mpd中的元数据,例如分段标识符(例如url)或用来生成分段标识符的信息,以用于将请求消息814(例如http请求)传输到服务器。请求消息可包括分段标识符,使得服务器能够从存储介质中选择分段并指示发射器808在一个或多个响应消息816(http响应消息)中将所请求的视频数据(例如以分段的形式)发送到客户端设备。视频数据可被作为经编码的比特流而传输到客户端设备。与客户端设备相关联的解码和渲染模块820可缓冲比特流,将其解码成视频帧,将视频帧变换成球面视频,并使用视频处理设备渲染球面视频。客户端设备可被进一步配置成请求服务器传输新的清单文件,例如mpd,例如如果回放了清单文件中的所有视频内容或者如果清单文件过时的话。例如,客户端设备可请求清单文件更新(例如mpd更新补丁),所述清单文件更新可由客户端设备用于更新存储在客户端设备的存储器中的清单文件的部分。mpd更新机制可被配置成在客户端设备基于当前mpd来渲染视频时向客户端设备提供新mpd或mpd更新。替代地,客户端设备可被配置成从服务器接收新mpd,而不用显式地请求服务器这样做。例如,当前mpd可在mpd中具有元数据,所述元数据用信号通知客户端设备:服务器将在预定时间之后传输新mpd。这样可以保证球面视频的连续回放。mpd生成器804可被配置成生成mpd或mpd更新补丁813。在一些实施例中,mpd或mpd更新补丁可包括如上面参照以上图3-7描述的空间回放信息。在回放期间,客户端处理器可解析mpd并使用mpd中的空间回放信息来回放如在mpd中限定的适配集的视频数据。客户端可使用mpd中的元数据来选择下一个回放时段的适配集。为此目的,客户端侧空间回放区域选择器824可使用导航功能的导航信息833和mpd中的空间回放信息来从多个适配集中选择下一个适配集,所述多个适配集被链接到与客户端设备当前正在处理的适配集相关联的视频帧中的区域。可以以不同的方式限定空间回放区域。空间回放区域可以是静态的,即其坐标对于它所属的整个回放时段而言是静态的。因此,在该情况下,空间回放区域的坐标可被插入mpd中。表1描述了静态回放区域的语法的示例。在实施例中,空间回放区域的位置和/或大小可在回放时段期间随时间改变。如果内容创建者想要将空间回放区域与场景中的移动对象相关联,则这样的动态空间回放区域是非常有用的。为此目的,可以预定的文件结构来存储区域的坐标连同场景的视频。例如,在实施例中,区域的坐标可被存储作为定时的元数据轨道。在实施例中,作为指定的iso/iec23001-10:2015/fdamd1的“2dcc”样本条目可用于存储定时的元数据轨道。在该实施例中,dynamicspatialplaybackregion元素然后可包括如表6中所示的属性。表6-动态空间区域回放坐标。下面在表7中提供了图示动态空间区域回放区域的使用的mpd的示例。表7-包括用于动态回放区域的元数据的mpd示例。在另一实施例中,代替明确的几何限定,可使用区域的分析限定,例如作为要由如在spatialplaybackregion元素中限定的2d空间中的一对点满足的条件。表8提供了区域的这样的分析限定的语法的示例。表8-区域的分析描述的示例。在另一实施例中,区域之间的成某种形状的边界在spatialplaybackregion元素中可被限定为要由2d空间中的多个(例如一对)点满足的条件。表9中提供了这样的限定的示例性语法:表9-通过使用两个点绘制线和/或圆的区域描述的示例。在另一实施例中,可使用具体形状(例如矩形或圆)来限定区域。以下表10提供了圆形区域的限定。表10-圆形空间回放区域。另外,在spatialplaybackregion的限定中添加形状属性以使得能够在相同的语法中选择若干个区域形状也是可能的。如在表7和8中所示的空间回放区域的隐式信令的情况下,不能通过参数化的值来显式地索引分离的区域。然而,需要对区域的单独标识。因此,在该情况下,可提出区域的默认排序。图9a和9b图示了根据本发明的实施例的基于光栅扫描排序方案的对空间回放区域的标识。在图9a中,提供了从左上位置移动到右下位置的像素的光栅扫描次序的示例。扫描次序可用于对区域进行排序。图9b描绘了包括多个空间回放区域9021-5的视频帧,其中号码(空间回放区域标识符)可能根据应用的光栅扫描排序约定而与区域相关联。可以以不同的方式限定空间回放区域的区域空间。空间回放区域的区域空间可或者被映射到视频的图片(例如视频帧)上,或者——在经分块的媒体流式传输的情况下——被映射到由多个视频的合成形成的图片上。在实施例中,空间回放区域的空间可基于如例如在以上表1-9的示例中图示的笛卡尔坐标来限定。在另一个实施例中,可使用球面坐标。在处理球面视频时,球面坐标尤其有用。当在360环境中限定用户的视点时,球面坐标准许更好的限定。图10示意性地描绘了球面视频数据作为球体202上的像素的表示,其中球体上的像素的位置可由经度和纬度坐标来描述。这样的球面视频数据可由全景或360度图像捕获系统生成,所述系统通常包括多个(即两个或更多个)图像传感器。由不同图像传感器生成的重叠视野的图像可被一起拼接成一个全景或高分辨率图像。因为现有技术水平的编解码器标准不能够处置球面视频数据,所以在将球面视频数据提供给视频编码器的输入之前将该视频数据变换成2d视频帧格式。这样的变换通常包括投影操作1004,所述投影操作1004将3d球面视频数据投影到视频帧1006的3d矩形区上。在实施例中,正方形投影操作可用于将与球面坐标ϕ、θ相关联的像素直接变换成与平面2d坐标x、y相关联的像素。代替正方形投影,可使用另一个投影来,例如立方体投影,其中球体被放在3d立方体中并且其中球体上的像素被投影在立方体的2d表面上。随后以可以由现有技术水平的编码器处理的2d矩形格式来布置2d表面。图11a和11b图示了用于球面视频的球面坐标系的使用。图11a描绘了与视频处理设备1104相关联或佩戴视频处理设备1104的用户1102,所述视频处理设备1104被配置成渲染球面视频。用户被定位在球体1106的中心,并且用户观看球体上的视点1110的方向的观看方向可相对于3d笛卡尔坐标系1108的轴来限定。视频处理设备被配置成向网络请求并接收包括球面内容的内容,并且向用户渲染视口1112(球体上的感兴趣区域)中的球面内容。图11b图示了基于3d球面坐标系限定的视口,其中偏航-俯仰-滚转欧拉角约定系统可用于在3d笛卡尔坐标系中表示观看者头部的旋转。半径、仰角、方位角坐标系(也被称为球面坐标系)可用于表示球面上的区域。这里,方位角范围在0与360度之间,并且仰角范围在-90与+90之间。偏航轴的开始(0度)位置可由内容提供者任意选择,或者与基本方向一致,其中0和360度表示北,90度表示东,180度表示南,并且270度表示西。对于俯仰轴,正值可表示地平线以上的方向,并且负值表示地平线以下的方向。对于滚转轴,可假设正值指示用户的左眼高于右眼,并且相反,负值指示用户的头部以相反的方式倾斜(其中左眼低于右眼)。在实施例中,三个角度参数(球面视口坐标)可用于指示roi在球体上的位置。在实施例中,三个仰角-方位角-定向角(θ、φ、ψ)可用于指示视口的方向(视口的中心位于球体上在位置r、θ、φ处)和视口的定向ψ。视口的边界可在客户端设备中被预先配置,或者可由客户端设备基于fov确定。另外,视口的边界可基于关于视口需要被投影在的地点的信息。在实施例中,球体上的视口可具有球面多边形的形状。对于这些多边形,它认为每条边都被限定为大圆的线段。例如,图11b中描绘的视口1112图示了在球体上具有矩形形状的球面多边形。许多角坐标可用于限定这样的矩形球面多边形。例如,五个角坐标可用于限定球体上的矩形roi,包括:θ、φ、ψ、三个仰角-方位角-定向角,用来指示视口方向(视点是在球体上在位置r、θ、φ处的视口中心),和视口的定向ψ以及参数w、h:其中w表示视口的在弧度上的宽度,并且h表示视口在弧度上的高度。这里,高度h可被限定为穿过视口的中心并且具有等于ψ的方位的大圆上的分段。类似地,宽度w可被限定为位于穿过视口的中心并且与和高度h相关联的大圆基本正交的大圆上的分段。在实施例中,用于描述用户的视口的坐标系可用于限定球形表面上的空间回放区域。例如,在实施例中,球体上的空间回放区域可使用角度偏航和俯仰两者的下部和上部范围来限定。表11中提供了这样的区域的限定。表11-球体上的分析空间回放区域限定。在另一实施例中,球体上的空间回放区域可由球体上的点(例如其中心、其大小及其形状,即限定球体上的空间回放区域的边界的几何对象)限定。表12中提供了这样的区域的限定的示例。表12-球体上的几何空间回放区域限定。图12a和图12b描绘了根据本发明的各种实施例的在球形表面上的空间回放区域的示例。特别地,图12a描绘了使用四个大圆12061-4的在球形表面1204上的空间回放区域1202的球面描述的示例。图12b描绘了由两个偏航圆12081,2和两个俯仰圆12101,2指定的球形表面1204上的区域1202的示例。如参照图8所解释的,在一些实施例中,经分块视频流式传输方案可用于使用视频处理设备的用户的视点来回放非线性媒体。在这样的经分块视频流式传输方案中,视频内容(例如高分辨率全景视频或高分辨率球面视频)或者可被或者格式化为一组独立的图块流,或者格式化为包括hevc图块的一个hevc视频流。清单文件可限定用于标识图块流的一个或多个图块流标识符,每个图块流可包括源视频(例如大的全景视频或球面视频)的空间子部分的视频数据。例如,图块可限定2d平坦全景图片的空间子部分,使得图块流可限定独立的视频流,其中图块流的视频帧表示由全景视频的视频帧表示的视频场景的空间子部分。类似地,图块可限定球形表面的空间子部分。在该情况下,图块流可限定独立的视频流,其中这样的图块流的视频帧表示由球面视频的视频帧表示的视频场景的子部分。这里,图块流的视频帧可包括被投影的球面视频数据,即投影到2d平面上的球面视频数据,使得视频数据可以由被适配成处理以平坦2d视频帧的形式的视频数据的常规编解码器来处理。在两个情况下,想法是客户端设备仅下载与用户的当前视口一致的(全景或球面的)场景的空间部分。为此目的,客户端选择与当前视点一致的图块。为此目的,mpd可使用所谓的空间关系描述(srd)来表达与一起组成场景的完整视频图片的不同图块流相关联的该不同适配集。srd限定不同的视频图块之间的空间关系,并且包括以下参数:参数描述object_x图块视频在x轴上的左上角坐标object_y图块视频在y轴上的左上角坐标object_w图块视频的宽度object_h图块视频的高度注意:该坐标用如由所谓的srd指定的任意单位来表达。mpd中的适配集可包括遵循mpeg贡献iso/iecjtcc1/sc29/wg11mpeg2016/m38605的所扩展的“用于vr的srd”提议的语法的srd描述符,其公开了对常规srd的以下修改。用于vr和360视频服务的该srd包括其值指示球面视频表示的类型的supplementalproperty元素或essentialproperty元素内的参数空间。在用于vr的srd方案中,在坐标参数object_x和object_y表示图块的中心位置(有时也称为空间子部分)的意义上改变常规srd参数的语义。这些参数表示偏航和俯仰角,其提供与vr或球面渲染系统处理视点的方式的改进的兼容性。类似地,参数object_width和object_height可表示根据图块在球形表面上的角长的图块的宽度和高度。表13提供了用于经分块的非线性媒体的播出的mpd示例。表13-结合空间关系描述(srd)的空间回放区域。在实施例中,当结合如在本申请中描述的空间回放信息使用srd元素(限定经分块媒体)时,不根据父适配集中的表示的视频分辨率、根据由srd元素限定的参考空间来限定空间回放区域的坐标和尺寸。例如,在表13的mpd示例中,由源标识符@id“1”标识的spatialplaybackregion属于具有@id“左”的适配集,其也具有包括包含参数值=“0、0、0、1、1、2、1”的srd元素。因此,(可基于表1的语法来限定的)空间回放区域的top_left_x、top_left_y、width和height属性可关于srd元素的参考空间来限定,即被限定成在该示例中分别具有值“2”和“1”的srd的total_width和total_height属性。具体地,这暗示以下映射:区域宽度=width*total_width区域宽度=0.7*2区域宽度=1.4区域高度=height*total_height区域高度=1*1区域高度=1。因此,具有@id“1”的spatialplaybackregion转换srd空间中的自点(0;0)并且大小为(1.4;1)的区域。使用srd元素的参考空间代替视频分辨率来计算区域的位置和大小,允许使图块边界和空间回放区域边界解耦合,所述图块边界和空间回放区域边界是由两个不同实体(分别是服务提供者和内容创建者)使用的两个不同的功能工具。图13a-13e图示了根据本发明的各种实施例的使用空间回放区域和用户输入对适配集的选择。选择可由与用户基于用户接口与视频交互相关联的信息来控制。该信息可包括由用户使用用户接口(例如gui、基于手势的ui或者光学指向设备)选择的感兴趣区域(roi)的位置(例如坐标或用于确定坐标的信息)。例如,位置信息可例如包括由用户所佩戴的头戴式显示器(hmd)的传感器确定的用户的视点的坐标、由hmd的传感器确定的用户的眼睛注视的坐标、由用户与移动设备的用户接口(例如触敏屏幕或基于手势的接口)或指向设备交互而生成的感兴趣区域的坐标。在另一个实施例中,代替视点,语音识别可用于通过与标签参数匹配所进行的选择。在实施例中,视点信息可使用hmd或其等同物来获得。在该情况下,视点的位置信息(其可被表示为球体上的点)或视口(其可被表示为球体上的成某个形状的区域)可与球面视频中的一个或多个空间回放区域(其可被限定为球体上的区域)的位置信息比较。如果视点的位置在回放区域内或者如果视口的位置至少部分与该区域重叠,则客户端设备可决定回放区域被选择。这样的方案可通过获得用户的视点或视口的坐标并确定视点或视口位于空间回放(spr)地图上的哪个位置处来实现。图13a图示了根据本发明的实施例的空间回放区域选择方案的示例。在该特定实施例中,如由视频处理设备(例如hmd)确定的用户的视口和空间回放区域可用于选择下一个适配集。视频处理设备的一个或多个传感器可基于用户的头部的定向来确定视口,其中视点被限定为视口的中心。该图描绘了矩形空间回放区域(spr)地图,其中外边界可与视频(例如全景视频或360视频)的视频帧的边界一致。spr地图可包括不同大小和形状的多个空间回放区域,在该示例中是五个空间回放区域1-5。当视频由用户的视频处理设备渲染时,仅渲染视频帧的内容的一部分。该部分可被称为用户的视口。用户可使用视口来选择被链接到特定空间回放区域的适配集。例如,在图13a中,视点的位置位于空间回放区域1内,使得客户端设备将选择被链接到该区域的适配集。图13b图示了基于眼睛注视检测传感器(其可被实现在例如hmd中)的空间回放区域选择的示例。通过检测眼睛注视,可以更准确地确定用户的观看方向(视点)。在hmd的情况下,例如,这将意味着视点不再一定在视口(其是基于用户的头部的定向确定的,如参照图13a中所描述的那样)的中心。图13b示出包括五个空间回放区域的空间回放区域地图的示例(类似于图13a),其中基于眼睛注视检测传感器来控制视口和视点。在图13b的示例中,视点的位置位于空间回放区域2内,使得客户端设备将选择被链接到该区域的适配集。图13c图示了基于在移动设备的2d屏幕上渲染的视口的空间回放区域选择的示例。例如,客户端设备可渲染由全景视频的视频帧限定的完整场景的感兴趣区域(roi),其中空间回放区域信息可限定全景视频的视频帧中的5个空间回放区域。用户可基于用户接口(例如触摸屏或基于手势的用户接口等)与渲染的内容交互。例如,用户可使用平移和缩放动作来选择场景的特定感兴趣区域(roi)以用于显示。在屏幕上渲染的内容的中心可限定视点或视口,并且可由客户端设备用于确定选择哪个区域。图13c描绘了包括视点(黑点)和在屏幕上渲染的地图的区域(虚线)的空间回放区域地图的示例。视点的位置位于空间回放区域3内,使得客户端设备可选择被链接到该区域的适配集。图13d图示了基于用户的有效手指手势的空间回放区域选择的示例。用户可使用触敏屏幕或手势类型的用户接口来确定向用户显示的场景中的感兴趣区域。用户可通过触摸屏幕或预定手势来选择感兴趣区域。图13d描绘了包括点击点(黑点)和在屏幕上渲染的地图上的区域(虚线)的空间回放区域地图的示例。点击点的位置(用户触摸的屏幕的点)位于空间回放区域4内,使得客户端设备可选择被链接到该区域的适配集。图13e图示了基于经由输入设备的有效指向的空间回放区域选择的示例。在该实施例中,指向设备可用于生成视点信号。例如,存在允许光源(例如激光器)作为指向设备的显示器。图13e描绘了具有远程指示物(pointer)(黑点)的空间回放区域地图的示例。指示物的位置位于空间回放区域5内,使得客户端设备将选择被链接到该区域的适配集。虽然基于2d坐标系图示了图13a-13e中的空间回放区域和视点,但是也可使用其它坐标系,例如(例如如参照图11和12所描述的)3d球面坐标系。当描述球面视频的非线性回放时,球面坐标系尤其适合。图13e还可图示了基于语音命令应用的空间回放区域选择的示例。在该场景中,每个区域可使用如参照表2描述的“标签”参数与预定的语音命令链接。将(或者视觉上或者通过音频)向用户呈现一个或多个选项,并且此后用户可使用受语音控制的接口来选择选项。例如,用户可讲他期望的选择,并且受语音控制的接口将会将用户选择与和每个区域相关联的“标签”参数匹配。这可以帮助视力受损以及例如正在听呈现选项的音轨的人。图14图示了根据本发明的实施例的对来自多个适配集中的一个或多个适配集的选择。特别地,图14描绘了实施例,其中允许已经选择空间回放区域sprα的客户端设备选择适配集1、5和6,并且允许已经选择空间回放区域sprβ的客户端设备选择适配集2和6。客户端设备的空间回放区域选择器可使用mpd中的空间回放信息和视点信息和/或其它用户输入来选择下一个适配集。适配集的该子集选择可优先于例如如在dash标准中所限定的所有其它选择准则。例如,语言选择可仅在适配集的子集内部发生。图15a-15d示出了可在本申请中描述的各种实施例中出现的空间回放区域选择场景。如果——在当前适配集的回放结束时——用户未与如由当前适配集的空间回放区域描述符限定的任何区域交互(例如未看所述区域),则将不触发基于如在本公开中描述的空间回放信息的选择方案。如果视频图片未被完全分区成空间回放区域,则可能存在这样的场景。在该情况下,回放可由has客户端设备继续,如在常规的has回放场景中那样。has客户端设备可解析清单文件并根据清单文件中列出的回放时段的次序来选择回放时段的适配集,并且将继续回放而不使用空间回放信息(如图15a中所示)。在一个空间回放区域位于另一个回放区域内的情况下(或者在存在重叠的情况下),可限定较小的空间回放区域优先于较大的空间回放区域(如图15b中所示)。如果两个回放区域具有相同的大小,则可计算从视点到回放区域中的每个的中心的距离。可限定可选择最接近视点的回放区域(如图15c中所示)。替代地或另外(例如如果距离相同),则可选择具有最小id号的回放区域(如图15d中所示)。因此,如这些图中所示,如果用户与两个或更多个回放区域交互,则可基于回放区域的尺寸、空间回放区域(的中心)和视点的距离和/或诸如空间回放区域的id号之类的其它规则来限定选择规则。图16是图示了本公开中描述的示例性数据处理系统的框图。数据处理系统1600可包括通过系统总线1606耦合到存储器元件1604的至少一个处理器1602。照此,数据处理系统可将程序代码存储在存储器元件1604内。此外,处理器1602可执行经由系统总线1606从存储器元件1604访问的程序代码。在一个方面,数据处理系统可被实现为适合于存储和/或执行程序代码的计算机。然而,应当领会:数据处理系统1600可以以包括处理器和存储器的能够执行本说明书内所描述的功能的任何系统的形式来实现。存储器元件1604可包括一个或多个物理存储器设备,诸如例如本地存储器1608和一个或多个大容量存储设备1610。本地存储器可指代随机存取存储器或一般在程序代码的实际执行期间使用的(一个或多个)其它非持久性存储器设备。大容量存储设备可被实现为硬盘驱动器或其它持久性数据存储设备。处理系统1800还可包括一个或多个高速缓冲存储器(未示出),其提供至少一些程序代码的临时存储以便减少在执行期间必须从大容量存储设备1610检索程序代码的次数。被描绘为输入设备1612和输出设备1614的输入/输出(i/o)设备可选地可以耦合到数据处理系统。输入设备的示例例如可包括但不限于键盘、诸如鼠标之类的指向设备等。输出设备的示例例如可包括但不限于监视器或显示器、扬声器等。输入设备和/或输出设备可或者直接地或者通过介于中间的i/o控制器耦合到数据处理系统。网络适配器1616也可耦合到数据处理系统,以使得其能够通过介于中间的私有或公共网络耦合到其它系统、计算机系统、远程网络设备和/或远程存储设备。网络适配器可包括数据接收器,以及用于将数据传输到所述系统、设备和/或网络的数据发射器,所述数据接收器用于接收由所述系统、设备和/或网络向所述数据接收器传输的数据。调制解调器、电缆调制解调器和以太网卡是可与数据处理系统1600一起使用的不同类型的网络适配器的示例。如图16中所画出的,存储器元件1604可存储应用1618。应当领会:数据处理系统1600可进一步执行可以促进应用的执行的操作系统(未示出)。以可执行程序代码的形式实现的应用可以由数据处理系统1600(例如由处理器1602)执行。响应于执行应用,数据处理系统可被配置成执行将在本文中进一步详细地描述的一个或多个操作。在一个方面,例如,数据处理系统1600可表示客户端数据处理系统或在本申请中简称客户端设备或客户端装置。在该情况下,应用1618可表示客户端应用,所述客户端应用在被执行时将数据处理系统1600配置成实行本文中参照“客户端”所描述的各种功能。客户端设备或客户端装置的示例可以包括但不限于个人计算机、便携式计算机、移动电话、头戴式设备等。在另一方面,数据处理系统可表示服务器。例如,数据处理系统可表示(http)服务器,例如如在本申请中提到的网络节点,在该情况下应用1618在被执行时可将数据处理系统配置成实行(http)服务器操作。在另一方面,数据处理系统可表示如在本说明书中提到的模块、客户端、单元或功能。本文中使用的术语仅用于描述特定实施例的目的,并不意图限制本发明。如本文中使用的,单数形式“一”、“一个”和“该”意图也包括复数形式,除非上下文另外明确地指示。将进一步理解:当在本说明书中使用时,术语“包括”和/或“包含”指定所陈述的特征、整数、步骤、操作、元件和/或组件的存在,但不排除一个或多个其它特征、整数、步骤、操作、元素、组件和/或其组的存在或添加。以下权利要求书中的所有部件或步骤加功能元件的对应结构、材料、动作和等同物意图包括用于与如具体地要求保护的其它要求保护的元件相结合执行功能的任何结构、材料或动作。本发明的描述已经出于说明和描述的目的被呈现,但是并不意图是详尽的或限于以所公开的形式的本发明。在不脱离本发明的范围和精神的情况下,许多修改和变型对于本领域普通技术人员来说将是显而易见的。实施例被选取和描述以便最好地解释本发明的原理和实际应用,并且以便使得本领域普通技术人员能够理解用于具有如适合于设想的特定用途的各种修改的各种实施例的本发明。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1