发送全向视频的方法、接收全向视频的方法、发送全向视频的装置和接收全向视频的装置与流程

文档序号:17537266发布日期:2019-04-29 14:07阅读:230来源:国知局
发送全向视频的方法、接收全向视频的方法、发送全向视频的装置和接收全向视频的装置与流程

本发明涉及用于发送和接收全向媒体的方法和装置,更具体地,涉及用于发送和接收全向视频以及与全向视频有关的元数据的方法和装置。



背景技术:

随着模拟广播信号传输终止,已开发出用于发送和接收数字广播信号的各种技术。数字广播信号能够包含比模拟广播信号更大量的视频/音频数据,并且还包含各种类型的附加数据以及视频/音频数据。

虚拟现实(vr)系统向用户提供处于电子投影的环境中的体验。可增强vr系统以便提供具有更高清晰度的图像和空间声音。vr系统可允许用户交互地使用vr内容。



技术实现要素:

发明目的

需要增强vr系统以便更有效地向用户提供vr环境。为此,有必要为了诸如vr内容的大量数据的传输、发送和接收网络之间的鲁棒性、考虑移动接收机的网络灵活性、有效再现和信令方法等提供数据传输效率。

本发明提出当提供全向视频内容时通过定义和传送关于全向视频的属性的元数据来有效地提供全向视频服务的方法。

技术方案

本说明书公开了定义、存储和用信号通知与全向视频有关的元数据,使得在再现全向视频时用户可观看制作者所预期的视图(点)或区域的方法。具体方法如下。

公开了一种定义、存储和用信号通知关于2d空间中的区域信息的元数据的方法。

公开了一种定义、存储和用信号通知关于2d空间中的视点(点)信息的元数据的方法。

公开了一种定义、存储和用信号通知关于3d空间中的区域信息的元数据的方法。

公开了一种定义、存储和用信号通知关于3d空间中的视点(点)信息的元数据的方法。

公开了一种用信号通知关于区域信息或视点(点)信息的元数据轨道与全向视频轨道之间的关系的方法。

公开了一种使用dash来发送和用信号通知元数据的方法。

公开了一种使用mpeg-2ts来发送和用信号通知元数据的方法。

公开了一种使用视频编码层(vcl)来发送和用信号通知元数据的方法。

说明书公开了在再现全向视频时定义、存储和用信号通知关于与视频有关的gps信息的元数据的方法。具体方法如下。

公开了一种定义、存储和用信号通知关于gps相关信息的元数据的方法。

公开了一种用信号通知关于gps相关信息的元数据轨道与全向视频轨道之间的关系的方法。

本说明书还公开了一种发送和接收全向媒体内容以及关于全向视频服务的关联的元数据的处理。

本说明书还公开了一种发送和接收关于制作者预期的时间点(点)或区域或者统计上优选的视口(点)或区域的roi(感兴趣区域)元数据的方法。

本发明的技术效果

本发明可在支持使用地面广播网络和互联网的未来混合广播的环境中有效地发送全向内容。

本发明可提出在用户的全向内容消费中提供交互体验的方法。

本发明可提出在用户的全向内容消费中正确地反映全向内容制作者的意图的信令方法。

本发明可提出有效地增加传输容量并在全向内容传送中传送必要信息的方法。

本发明可提出当提供全向视频内容时通过定义和传送关于360度视频的属性的元数据来有效地提供全向视频服务的方法。

附图说明

图1示出根据本发明的用于提供360度视频的架构。

图2示出根据本发明的一方面的360度视频发送装置。

图3示出根据本发明的另一方面的360度视频接收装置。

图4示出根据本发明的另一实施方式的360度视频发送装置/360度视频接收装置。

图5示出用于描述根据本发明的3d空间的飞行器主轴的概念。

图6示出根据本发明的一个实施方式的投影方案。

图7示出根据本发明的一个实施方式的拼块。

图8示出根据本发明的一个实施方式的360度视频相关元数据。

图9示出根据本发明的一个实施方式的媒体文件结构。

图10示出根据本发明的一个实施方式的isobmff中的盒的分层结构。

图11示出根据本发明的一个实施方式的基于dash的自适应流模型的总体操作。

图12示出根据本发明的一个实施方式的关于2d空间中的区域信息的元数据。

图13示出根据本发明的一个实施方式的关于2d空间中的视点(点)信息的元数据。

图14示出根据本发明的一个实施方式的关于3d空间中的区域信息的元数据。

图15示出根据本发明的各种实施方式的关于要在3d空间中表示的个体区域的元数据。

图16示出根据本发明的另一实施方式的关于3d空间中的区域信息的元数据。

图17示出根据本发明的另一实施方式的关于3d空间中的区域信息的元数据。

图18示出根据本发明的另一实施方式的关于3d空间中的区域信息的元数据。

图19是示出根据本发明的实施方式的由区域类型限定区域的方法的参考图。

图20示出根据本发明的一个实施方式的tref盒。

图21示出根据本发明的一个实施方式的关于gps的元数据。

图22示出根据本发明的一个实施方式的关于区域信息或视点信息的元数据的mpd信令传输。

图23示出根据本发明的另一实施方式的关于区域信息或视点信息的元数据的mpd信令传输。

图24是根据本发明的一个实施方式的接收机的框图。

图25示出根据本发明的另一实施方式的关于区域信息或视点信息的元数据的mpd信令传输。

图26是根据本发明的另一实施方式的接收机的框图。

图27示出根据本发明的另一实施方式的关于区域信息或视点信息的元数据的mpd信令传输。

图28示出根据本发明的另一实施方式的关于区域信息或视点信息的元数据的mpd信令传输。

图29是根据本发明的另一实施方式的接收机的框图。

图30示出流标识符以及关于分配给流标识符的流的信息。

图31示出流类型以及关于分配给流类型的流的部分信息。

图32示出通过pes分组发送的访问单元。

图33示出根据本发明的一个实施方式的适配字段。

图34示出根据本发明的一个实施方式的扩展描述符。

图35示出包括在扩展描述符中的扩展描述符标签的值以及值的描述。

图36示出根据本发明的一个实施方式的vdci扩展描述符。

图37示出根据本发明的一个实施方式的2dvdci描述符。

图38示出根据本发明的一个实施方式的球面vcdi描述符。

图39是根据本发明的另一实施方式的接收机的框图。

图40示出根据本发明的一个实施方式的包括在sei消息中的关于区域信息或视点信息的元数据。

图41示出根据本发明的另一实施方式的包括在sei消息中的关于区域信息或视点信息的元数据。

图42是根据本发明的另一实施方式的接收机的框图。

图43是示出根据本发明的实施方式的发送和接收内容以及关于360度视频服务的元数据的处理的图。

图44示出根据本发明的实施方式的包括在渲染元数据和投影/映射元数据中的信息的示例。

图45示出根据本发明的另一实施方式的包括投影/映射元数据的盒。

图46是示出根据本发明的另一实施方式的发送和接收内容以及关于360度视频服务的元数据的处理的图。

图47是示出根据本发明的另一实施方式的发送和接收内容以及关于360度视频服务的元数据的处理的图。

图48示出根据本发明的实施方式的roi元数据。

图49是示出根据本发明的一个实施方式的发送全向视频的方法的流程图。

图50是根据本发明的一个实施方式的发送全向视频的装置的框图。

图51是示出根据本发明的一个实施方式的接收全向视频的方法的流程图。

图52是根据本发明的一个实施方式的接收全向视频的装置的框图。

具体实施方式

现在将详细参考本发明的优选实施方式,其示例示出于附图中。下面将参照附图给出的详细描述旨在说明本发明的示例性实施方式,而非示出可根据本发明实现的仅有实施方式。

尽管本说明书中的元件的大多数术语是考虑其在本说明书中的功能从本领域中广泛使用的一般术语中选择的,但是这些术语可根据本领域技术人员的意图或习惯或者新技术的引入而改变。一些术语已由申请人任意选择,其含义根据需要在以下描述中说明。因此,本说明书中所使用的术语应该基于本说明书的总体内容以及术语的实际含义而非其简单名称或含义来解释。

图1示出根据本发明的用于提供360度视频的架构。

本发明提出了一种用于提供360度内容或全向媒体以便向用户提供vr(虚拟现实)的方法。vr是指用于复制实际或虚拟环境的技术或环境。vr人为地向用户提供感官体验,因此用户可体验到电子投影的环境。

360度内容是指用于实现和提供vr的内容,并且可包括360度视频和/或360度音频。360度视频可指提供vr所需的在所有方向上(360度)拍摄或再现的视频或图像内容。360度视频可指根据3d模型在3d空间上以各种形式表示的视频或图像。例如,360度视频可被表示在球面上。360度音频是用于提供vr的音频内容,并且可指可被识别为具有位于特定空间上的音频生成源的内容的空间音频内容。360度内容可被生成、处理并发送给用户,用户可使用360度内容来消费vr体验。以下,360内容/视频/图像/音频可被表示为没有单位(度)的360内容/视频/图像/音频或vr内容/视频/图像/音频。此外,360内容/视频/图像/音频可与全向内容/视频/图像/音频互换使用。

本发明提出了一种有效地提供360度视频的方法。为了提供360视频,首先,可使用一个或更多个相机来拍摄360视频。所拍摄的360视频通过一系列处理来发送,并且接收方可将所接收的数据处理成原始360视频并渲染360视频。因此,可将360视频提供给用户。

具体地,用于提供360视频的过程可包括拍摄处理、准备处理、传输处理、加工处理、渲染处理和/或反馈处理。

拍摄处理可指通过一个或更多个相机拍摄多个视点的图像或视频的处理。可通过拍摄处理生成图中所示的图像/视频数据t1010。所示图像/视频数据t1010的各个平面可指各个视点的图像/视频。所拍摄的图像/视频可被称为原始数据。在拍摄处理中,可生成与拍摄有关的元数据。

为了拍摄,可使用用于vr的特殊相机。当根据实施方式提供使用计算机生成的虚拟空间的360视频时,可不执行使用相机的拍摄。在这种情况下,拍摄处理可由简单地生成相关数据的处理代替。

准备处理可以是处理所拍摄的图像/视频以及在拍摄处理中生成的元数据的处理。在准备处理中,所拍摄的图像/视频可经历拼接、投影、区域式打包和/或编码。

首先,图像/视频可经历拼接处理。拼接处理可以是将所拍摄的图像/视频连接以创建单个全景图像/视频或球面图像/视频的处理。

然后,拼接的图像/视频可经历投影处理。在投影处理中,拼接的图像/视频可被投影到2d图像上。该2d图像可被称为2d图像帧。2d图像上的投影可被表示为向2d图像的映射。投影的图像/视频数据可具有如图所示的2d图像t1020的形式。

投影到2d图像上的视频数据可经历区域式打包处理以便增加视频编码效率。区域式打包可指将投影到2d图像上的视频数据分割成区域并处理所述区域的处理。这里,区域可指通过分割投影有360视频数据的2d图像而获得的区域。根据实施方式,这些区域可通过相等地或随机地分割2d图像来获得。根据实施方式,可根据投影方案来分割区域。区域式打包处理是可选处理,因此可在准备处理中省略。

根据实施方式,该处理可包括在2d图像上旋转区域或重新布置区域以便增加视频编码效率的处理。例如,区域可被旋转,使得区域的特定边被定位成彼此邻近,以增加编码效率。

根据实施方式,该处理可包括增大或减小特定区域的分辨率以便区分360视频的区域的分辨率的处理。例如,与360视频的相对重要的部分对应的区域的分辨率可被增大到高于其它区域。投影到2d图像上的视频数据或区域式打包的视频数据可经历使用视频编解码器的编码处理。

根据实施方式,准备处理可另外包括编辑处理。在编辑处理中,可编辑投影之前或之后的图像/视频数据。在准备处理中,可生成关于拼接/投影/编码/编辑的元数据。另外,可生成关于投影到2d图像上的视频数据的初始视点或roi(感兴趣区域)的元数据。

传输处理可以是处理并发送已经历准备处理的图像/视频数据和元数据的处理。为了传输,可执行根据任意传输协议的处理。已被处理用于传输的数据可经由广播网络和/或宽带来传送。可按照按需方式向接收方传送数据。接收方可通过各种路径接收数据。

加工处理指将接收的数据解码并将投影的图像/视频数据重新投影在3d模型上的处理。在此处理中,投影到2d图像上的图像/视频数据可重新投影到3d空间上。该处理可被称为映射投影。这里,映射有数据的3d空间可具有取决于3d模型的形式。例如,3d模型可包括球体、立方体、圆柱体和锥体。

根据实施方式,加工处理还可包括编辑处理、放大处理等。在编辑处理中,可编辑重新投影之前或之后的图像/视频数据。当图像/视频数据已被缩小时,可在放大处理中通过样本的放大来增大图像/视频数据的大小。必要时,可通过缩小来减小大小。

渲染处理可指渲染并显示重新投影到3d空间上的图像/视频数据的处理。重新投影和渲染可被共同表示为在3d模型上渲染。在3d模型上重新投影(或渲染)的图像/视频可具有如图所示的形式t1030。形式t1030对应于图像/视频被重新投影到球形3d模型上的情况。用户可通过vr显示器等来观看渲染的图像/视频的区域。这里,用户所观看的区域可具有图中所示的形式t1040。

反馈处理可指将可在显示处理中获取的各种类型的反馈信息传送到发送方的处理。通过反馈处理,可提供360视频消费中的交互性。根据实施方式,在反馈处理中,可将头部取向信息、指示用户当前观看的区域的视口信息等传送到发送方。根据实施方式,用户可与vr环境中实现的内容交互。在这种情况下,可在反馈处理中将与交互有关的信息传送到发送方或服务提供方。根据实施方式,可不执行反馈处理。

头部取向信息可指关于用户的头部的位置、角度和运动的信息。基于该信息,可计算关于用户当前观看的360视频的区域的信息(即,视口信息)。

视口信息可以是关于用户当前观看的360视频的区域的信息。可使用视口信息来执行注视分析,以检查用户消费360视频的方式、用户所注视的360视频的区域以及用户注视该区域多久。注视分析可由接收方执行,并且可通过反馈信道将分析结果传送至发送方。诸如vr显示器的装置可基于用户头部的位置/方向、装置所支持的垂直或水平fov等来提取视口区域。

根据实施方式,上述反馈信息可在接收方处消费以及被传送至发送方。即,可使用上述反馈信息执行接收方的解码、重新投影和渲染处理。例如,可优先使用头部取向信息和/或视口信息仅解码并渲染与用户当前观看的区域对应的360视频。

这里,视口或视口区域可指用户当前观看的360视频的区域。视点是360视频中用户观看的点,并且可指视口区域的中心点。即,视口是基于视点的区域,该区域的大小和形式可由fov(视场)(将在下面描述)确定。

在用于提供360视频的上述架构中,经受一系列拍摄/投影/编码/传输/解码/重新投影/渲染处理的图像/视频数据可被称为360视频数据。术语“360视频数据”可用作包括与这种图像/视频数据有关的元数据或信令信息的概念。

图2示出根据本发明的一方面的360视频发送装置。

根据一方面,本发明可涉及一种360视频发送装置。根据本发明的360视频发送装置可执行与上述准备处理至传输处理有关的操作。根据本发明的360视频发送装置可包括数据输入单元、拼接器、投影处理器、区域式打包处理器(未示出)、元数据处理器、(发送方)反馈处理器、数据编码器、封装处理器、发送处理器和/或发送器作为内部/外部元件。

数据输入单元可接收各个视点的拍摄的图像/视频。视点的图像/视频可以是通过一个或更多个相机拍摄的图像/视频。另外,数据输入单元可接收在拍摄处理中生成的元数据。数据输入单元可将接收的视点的图像/视频传送至拼接器并将在拍摄处理中生成的元数据传送至信令处理器。

拼接器可将拍摄的视点的图像/视频拼接。拼接器可将拼接的360视频数据传送至投影处理器。必要时,拼接器可从元数据处理器接收必要的元数据并将该元数据用于拼接操作。拼接器可将在拼接处理中生成的元数据传送至元数据处理器。拼接处理中的元数据可包括指示是否执行拼接、拼接类型等的信息。

投影处理器可将拼接的360视频数据投影在2d图像上。投影处理器可根据各种方案执行投影(将在下面描述)。投影处理器可考虑各个视点的360视频数据的深度来执行映射。必要时,投影处理器可从元数据处理器接收投影所需的元数据并将该元数据用于投影操作。投影处理器可将在投影处理中生成的元数据传送至元数据处理器。投影处理器的元数据可包括投影方案类型。

区域式打包处理器(未示出)可执行上述区域式打包处理。即,区域式打包处理器可执行将投影的360视频数据分割成区域,旋转或重新布置区域,或者改变各个区域的分辨率的处理。如上所述,区域式打包处理是可选处理,当不执行区域式打包处理时,可省略区域式打包处理器。必要时,区域式打包处理器可从元数据处理器接收区域式打包所需的元数据并将该元数据用于区域式打包操作。区域式打包处理器的元数据可包括各个区域旋转的程度、各个区域的大小等。

根据实施方式,上述拼接器、投影处理器和/或区域式打包处理器可由一个硬件组件实现。

元数据处理器可处理可在拍摄处理、拼接处理、投影处理、区域式打包处理、编码处理、封装处理和/或加工处理中生成的元数据以用于传输。元数据处理器可使用这种元数据来生成360视频相关元数据。根据实施方式,元数据处理器可按照信令表的形式生成360视频相关元数据。根据上下文,360视频相关元数据可被称为元数据或360视频相关信令信息。此外,必要时,元数据处理器可将所获取或生成的元数据传送至360视频发送装置的内部元件。元数据处理器可将360视频相关元数据传送至数据编码器、封装处理器和/或发送处理器,使得元数据可被发送至接收方。

数据编码器可对投影到2d图像上的360视频数据和/或区域式打包的360视频数据进行编码。可按照各种格式对360视频数据进行编码。

封装处理器可将编码的360视频数据和/或360视频相关元数据封装到文件中。这里,360视频相关元数据可以是从元数据处理器传送来的。封装处理器可按照诸如isobmff、cff等的文件格式来封装数据,或者将数据处理成dash分段。根据实施方式,封装处理器可包括文件格式的360视频相关元数据。例如,360视频相关元数据可按照isobmff文件格式包括在各种级别的盒中,或者作为数据包括在文件中的附加轨道中。根据实施方式,封装处理器可将360视频相关元数据封装到文件中。发送处理器可对按照文件格式封装的360视频数据执行用于发送的处理。发送处理器可根据任意传输协议来处理360视频数据。用于发送的处理可包括用于通过广播网络传送的处理以及用于经由宽带传送的处理。根据实施方式,除了360视频数据之外,发送处理器可从元数据处理器接收360视频相关元数据并对该360视频相关元数据执行用于发送的处理。

发送单元可经由广播网络和/或宽带来发送处理的360视频数据和/或360视频相关元数据。发送单元可包括用于经由广播网络发送的元件以及用于经由宽带发送的元件。

根据本发明的实施方式,360视频发送装置还可包括数据存储单元(未示出)作为内部/外部元件。数据存储单元可在传送至发送处理器之前存储编码的360视频数据和/或360视频相关元数据。这种数据可按照诸如isobmff的文件格式存储。当实时发送360视频时,可不使用数据存储单元。然而,按需、非实时或经由宽带传送360视频,封装的360数据可被存储在数据存储单元中达预定时段然后发送。

根据本发明的另一实施方式,360视频发送装置还可包括(发送方)反馈处理器和/或网络接口(未示出)作为内部/外部元件。网络接口可从根据本发明的360视频接收装置接收反馈信息,并将该反馈信息传送至(发送方)反馈处理器。反馈处理器可将反馈信息传送至拼接器、投影处理器、区域式打包处理器、数据编码器、封装处理器、元数据处理器和/或发送处理器。根据实施方式,反馈信息可被传送至元数据处理器,然后被传送至各个内部元件。在接收到反馈信息时,内部元件可在360视频数据处理中反映反馈信息。

根据本发明的360视频发送装置的另一实施方式,区域式打包处理器可旋转区域并将区域映射在2d图像上。这里,区域可在不同的方向上以不同的角度旋转并被映射在2d图像上。可考虑投影之前在球面上360视频数据的邻近部分和拼接部分来旋转区域。关于区域的旋转的信息(即,旋转方向和角度)可使用360视频相关元数据用信号通知。根据依据本发明的360视频发送装置的另一实施方式,数据编码器可对各个区域不同地执行编码。数据编码器可对特定区域以高质量进行编码,并且对其它区域以低质量进行编码。发送方的反馈处理器可将从360视频接收装置接收的反馈信息传送至数据编码器,使得数据编码器可使用针对区域区分的编码方法。例如,反馈处理器可将从接收方接收的视口信息传送至数据编码器。数据编码器可对包括视口信息所指示的区域的区域以比其它区域更高的质量(uhd)进行编码。

根据依据本发明的360视频发送装置的另一实施方式,发送处理器可对各个区域不同地执行用于发送的处理。发送处理器可对区域应用不同的传输参数(调制阶数、码率等),使得为区域传送的数据具有不同的鲁棒性。

这里,反馈处理器可将从360视频接收装置接收的反馈信息传送至发送处理器,使得发送处理器可执行针对各个区域区分的发送处理。例如,反馈处理器可将从接收方接收的视口信息传送至发送处理器。发送处理器可对包括视口信息所指示的区域的区域执行发送处理,使得所述区域具有比其它区域更高的鲁棒性。

根据本发明的360视频发送装置的上述内部/外部元件可以是硬件元件。根据实施方式,内部/外部元件可被修改、省略、由其它元件代替或者与其它元件集成。根据实施方式,附加元件可被添加到360视频发送装置。

图3示出根据本发明的另一方面的360视频接收装置。

根据另一方面,本发明可涉及一种360视频接收装置。根据本发明的360视频接收装置可执行与上述加工处理和/或渲染处理有关的操作。根据本发明的360视频接收装置可包括接收单元、接收处理器、解封装处理器、数据解码器、元数据解析器、(接收方)反馈处理器、重新投影处理器和/或渲染器作为内部/外部元件。

接收单元可接收从根据本发明的360视频发送装置发送来的360视频数据。根据传输信道,接收单元可通过广播网络或宽带来接收360视频数据。

接收处理器可根据传输协议对所接收的360视频数据执行处理。接收处理器可执行发送处理器的逆处理。接收处理器可将所获取的360视频数据传送至解封装处理器并将所获取的360视频相关元数据传送至元数据解析器。由接收处理器获取的360视频相关元数据可具有信令表的形式。

解封装处理器可将从接收处理器接收的文件格式的360视频数据解封装。解封装处理器可按照isobmff将文件解封装以获取360视频数据和360视频相关元数据。所获取的360视频数据可被传送至数据解码器,并且所获取的360视频相关元数据可被传送至元数据解析器。由解封装处理器获取的360视频相关元数据可具有文件格式中的盒或轨道的形式。必要时,解封装处理器可从元数据解析器接收解封装所需的元数据。

数据解码器可将360视频数据解码。数据解码器可从元数据解析器接收解码所需的元数据。在数据解码处理中获取的360视频相关元数据可被传送至元数据解析器。

元数据解析器可解析/解码360视频相关元数据。元数据解析器可将所获取的元数据传送至数据解封装处理器、数据解码器、重新投影处理器和/或渲染器。

重新投影处理器可重新投影解码的360视频数据。重新投影处理器可将360视频数据重新投影在3d空间上。3d空间可根据所使用的3d模型而具有不同的形式。重新投影处理器可从元数据解析器接收重新投影所需的元数据。例如,重新投影处理器可从元数据解析器接收关于所使用的3d模型的类型的信息及其详细信息。根据实施方式,重新投影处理器可使用重新投影所需的元数据在3d空间上仅重新投影与特定区域对应的360视频数据。

渲染器可渲染重新投影的360视频数据。如上所述,这可被表示为在3d空间上渲染360视频数据。当以这样的方式同时执行两个处理时,重新投影处理器和渲染器可被集成并且可在渲染器中执行这些处理。根据实施方式,渲染器可根据用户的观看信息仅渲染用户当前观看的部分。

用户可通过vr显示器观看渲染的360视频的部分。vr显示器是用于再现360视频的装置,并且可被包括在360视频接收装置中(系留)或者作为单独的装置连接到360视频接收装置(非系留)。

根据本发明的实施方式,360视频接收装置还可包括(接收方)反馈处理器和/或网络接口(未示出)作为内部/外部元件。反馈处理器可从渲染器、重新投影处理器、数据解码器、解封装处理器和/或vr显示器获取反馈信息并处理反馈信息。反馈信息可包括视口信息、头部取向信息、注视信息等。网络接口可从反馈处理器接收反馈信息并将其发送至360视频发送装置。

如上所述,除了被传送至发送方之外,反馈信息还可由接收方使用。接收方反馈处理器可将所获取的反馈信息传送至360视频接收装置的内部元件,使得反馈信息被反映在渲染处理中。接收方反馈处理器可将反馈信息传送至渲染器、重新投影处理器、数据解码器和/或解封装处理器。例如,渲染器可优先使用反馈信息来渲染用户观看的区域。另外,解封装处理器和数据解码器可优先将用户观看的区域或用户要观看的区域解封装和解码。

根据本发明的360视频接收装置的内部/外部元件可以是硬件元件。根据实施方式,内部/外部元件可被修改、省略、由其它元件代替或者与其它元件集成。根据实施方式,附加元件可被添加到360视频接收装置。

本发明的另一方面可涉及一种发送360视频的方法和接收360视频的方法。根据本发明的发送/接收360视频的方法可由上述360视频发送/接收装置或其实施方式执行。

360视频发送/接收装置的上述实施方式及其内部/外部元件的实施方式可被组合。例如,投影处理器的实施方式和数据编码器的实施方式可被组合以创建与实施方式的数量一样多的360视频发送装置的实施方式。组合的实施方式也被包括在本发明的范围内。

图4示出根据本发明的另一实施方式的360视频发送装置/360视频接收装置。

如上所述,可根据(a)中所示的架构来提供360内容。360内容可按照文件的形式或者按照基于分段的下载或流服务(例如,dash)的形式提供。这里,360内容可被称为vr内容。

如上所述,可获取360视频数据和/或360音频数据。

360音频数据可经受音频预处理和音频编码。通过这些处理,可生成音频相关元数据,并且编码的音频和音频相关元数据可经受用于发送的处理(文件/分段封装)。

360视频数据可经历上述处理。360视频发送装置的拼接器可对360视频数据进行拼接(视觉拼接)。根据实施方式,该处理可被省略并在接收方执行。360视频发送装置的投影处理器可将360视频数据投影在2d图像上(投影和映射(打包))。

(b)中详细示出拼接和投影处理。在(b)中,当传送360视频数据(输入图像)时,可对其执行拼接和投影。投影处理可被视为将拼接的360视频数据投影在3d空间上并将投影的360视频数据布置在2d图像上。在本说明书中,该处理可被表示成将360视频数据投影在2d图像上。这里,3d空间可以是球体或立方体。3d空间可与接收方用于重新投影的3d空间相同。

2d图像也可被称为投影的帧c。可在2d图像上可选地执行区域式打包。当执行区域式打包时,可指示区域的形式和大小,使得2d图像上的区域可被映射在打包的帧d上。当不执行区域式打包时,投影的帧可与打包的帧相同。区域将在下面描述。投影处理和区域式打包处理可被表示成将360视频数据的区域投影在2d图像上。根据设计,360视频数据可被直接转换为打包的帧,而没有中间处理。

在(a)中,可对投影的360视频数据进行图像编码或视频编码。由于对于不同的视点可能存在相同的内容,所以相同的内容可被编码到不同的比特流中。编码的360视频数据可根据上述封装处理器被处理成诸如isobmff的文件格式。另选地,封装处理器可将编码的360视频数据处理成分段。分段可被包括在个体轨道中以用于基于dash的发送。

与360视频数据的处理一起,如上所述,可生成360视频相关元数据。该元数据可被包括在视频比特流或文件格式中并传送。元数据可用于编码、文件格式封装、用于发送的处理等。

360音频/视频数据可根据传输协议经历用于发送的处理,然后被发送。上述360视频接收装置可经由广播网络或宽带来接收360音频/视频数据。

在(a)中,vr服务平台可对应于上述360视频接收装置的实施方式。在(a)中,扬声器/耳机、显示器和头部/眼睛跟踪组件由360视频接收装置的外部装置或vr应用执行。根据实施方式,360视频接收装置可包括所有这些组件。根据实施方式,头部/眼睛跟踪组件可对应于上述接收方反馈处理器。

360视频接收装置可对360音频/视频数据执行用于接收的处理(文件/分段解封装)。360音频数据可经受音频解码和音频渲染,然后通过扬声器/耳机提供给用户。

360视频数据可经受图像解码或视频解码和视觉渲染并通过显示器提供给用户。这里,显示器可以是支持vr的显示器或一般显示器。

如上所述,渲染处理可被视为将360视频数据重新投影在3d空间上并渲染重新投影的360视频数据的处理。这可被表示成在3d空间上渲染360视频数据。

头部/眼睛跟踪组件可获取并处理用户的头部取向信息、注视信息和视口信息。这已在上面描述。

接收方可包括与接收方的上述处理通信的vr应用。

图5示出用于描述本发明的3d空间的飞行器主轴的概念。

在本发明中,可使用飞行器主轴的概念来表示3d空间中的特定点、位置、方向、间距和区域。

即,可使用飞行器主轴的概念来描述投影之前或重新投影之后的3d空间并用信号通知其。根据实施方式,可使用利用x、y和z轴或球坐标系的方法。

飞行器可在三个维度自由地旋转。形成这三个维度的轴被称为俯仰轴、偏航轴和横滚轴。在本说明书中,这些可被表示成俯仰、偏航和横滚或者俯仰方向、偏航方向和横滚方向。

俯仰轴可指飞行器的前端上下旋转的方向的参考轴。在所示飞行器主轴的概念中,俯仰轴可指在飞行器的机翼之间连接的轴。

偏航轴可指飞行器的前端向左/右旋转的方向的参考轴。在所示飞行器主轴的概念中,偏航轴可指从飞行器的顶部到底部连接的轴。

在所示飞行器主轴的概念中,横滚轴可指从飞行器的前端到机尾连接的轴,并且横滚方向上的旋转可指基于横滚轴的旋转。

如上所述,本发明中的3d空间可使用俯仰、偏航和横滚的概念来描述。

图6示出根据本发明的实施方式的投影方案。

如上所述,根据本发明的360视频发送装置的投影处理器可将拼接的360视频数据投影在2d图像上。在此处理中,可使用各种投影方案。

根据依据本发明的360视频发送装置的另一实施方式,投影处理器可使用立方体投影方案来执行投影。例如,拼接的360视频数据可被表示在球面上。投影处理器可将360视频数据分段为立方体的面并将其投影在2d图像上。球面上的360视频数据可对应于立方体的面并如(a)所示投影到2d图像上。

根据依据本发明的360视频发送装置的另一实施方式,投影处理器可使用圆柱体投影方案来执行投影。类似地,如果拼接的360视频数据可被表示在球面上,则投影处理器可将360视频数据分段为圆柱体的部分并将其投影在2d图像上。球面上的360视频数据可对应于圆柱体的侧面、顶部和底部并如(b)所示投影到2d图像上。

根据依据本发明的360视频发送装置的另一实施方式,投影处理器可使用锥体投影方案来执行投影。类似地,如果拼接的360视频数据被表示在球面上,则投影处理器可将360视频数据视为锥体形式,将360视频数据分段为锥体的面,并将其投影在2d图像上。球面上的360视频数据可对应于锥体的前侧、左上侧、左下侧、右上侧和右下侧并如(c)所示投影到2d图像上。

根据实施方式,除了上述方案之外,投影处理器可使用等距矩形投影方案和全景投影方案来执行投影。

如上所述,区域可指通过将投影有360视频数据的2d图像分割而获得的区域。这些区域不需要与根据投影方案投影的2d图像的各个面对应。然而,根据实施方式,区域可被分割,使得投影的2d图像的面与区域对应并且可执行区域式打包。根据实施方式,区域可被分割,使得多个面可与一个区域对应或者一个面可与多个区域对应。在这种情况下,区域可取决于投影方案。例如,在(a)中,立方体的顶侧、底侧、前侧、左侧、右侧和后侧可以是各个区域。在(b)中,圆柱体的侧面、顶侧和底侧可以是各个区域。在(c)中,锥体的前侧、左上侧、左下侧、右上侧和右下侧可以是各个区域。

图7示出根据本发明的实施方式的拼块。

投影到2d图像上的360视频数据或区域式打包的360视频数据可被分割成一个或更多个拼块。(a)示出一个2d图像被分割成16个拼块。这里,2d图像可以是上述投影的帧或打包的帧。根据本发明的360视频发送装置的另一实施方式,数据编码器可独立地对拼块进行编码。

上述区域式打包可区别于平铺。上述区域式打包可指将投影到2d图像上的360视频数据分割成区域并处理所述区域以便增加编码效率或调节分辨率的处理。平铺可指数据编码器将投影的帧或打包的帧分割成拼块并独立地对拼块进行编码的处理。当提供360视频数据时,用户不同时使用360视频的所有部分。平铺使得能够在有限的带宽上仅将与重要部分或特定部分(例如,用户当前观看的视口)对应的拼块发送到接收方或由其消费。通过平铺,可更有效地使用有限的带宽,并且与同时处理整个360视频数据的情况相比,接收方可降低计算负荷。

区域和拼块彼此相区别,因此它们不需要相同。然而,根据实施方式,区域和拼块可指相同的区域。根据实施方式,可基于拼块来执行区域式打包,因此区域可对应于拼块。此外,根据实施方式,当根据投影方案的侧面对应于区域时,根据投影方案的各个侧面、区域和拼块可指相同的区域。根据上下文,区域可被称为vr区域,并且拼块可被称为拼块区域。

roi(感兴趣区域)可指由360内容提供商提供的用户感兴趣的区域。当360内容提供商制作360视频时,360内容提供商可考虑预期为用户感兴趣的区域的特定区域来制作360视频。根据实施方式,roi可对应于再现360视频的重要内容的区域。

根据本发明的360视频发送/接收装置的另一实施方式,接收方反馈处理器可提取并收集视口信息并将其传送至发送方反馈处理器。在此处理中,视口信息可使用双方的网络接口来传送。在(a)所示的2d图像中,显示视口t6010。这里,视口可显示在2d图像的九个拼块上。

在这种情况下,360视频发送装置还可包括平铺系统。根据实施方式,平铺系统可位于数据编码器之后(b),可被包括在上述数据编码器或发送处理器中,或者可作为单独的内部/外部元件包括在360视频发送装置中。

平铺系统可从发送方反馈处理器接收视口信息。平铺系统可仅选择包括在视口区域中的拼块并发送其。在(a)所示的2d图像中,可仅发送16个拼块当中包括视口区域t6010的九个拼块。这里,平铺系统可经由宽带以单播方式发送拼块,因为对于用户,视口区域不同。

在这种情况下,发送方反馈处理器可将视口信息传送至数据编码器。数据编码器可对包括视口区域的拼块以比其它拼块更高的质量进行编码。

此外,发送方反馈处理器可将视口信息传送至元数据处理器。元数据处理器可将与视口区域有关的元数据传送至360视频发送装置的各个内部元件,或者将元数据包括在360视频相关元数据中。

通过使用该平铺方法,可节省传输带宽,并且可执行针对拼块区分的处理,以实现高效的数据处理/传输。

与视口区域有关的上述实施方式可按照相似的方式应用于视口区域以外的特定区域。例如,对视口区域执行的上述处理可对通过上述注视分析确定为用户感兴趣的区域的区域、roi以及当用户通过vr显示器观看360视频时最初再现的区域(初始视图、初始视点)执行。

根据本发明的360视频发送装置的另一实施方式,发送处理器可对拼块不同地执行用于发送的处理。发送处理器可对拼块应用不同的传输参数(调制阶数、码率等),使得为拼块传送的数据具有不同的鲁棒性。

这里,发送方反馈处理器可将从360视频接收装置接收的反馈信息传送至发送处理器,使得发送处理器可执行针对拼块区分的发送处理。例如,发送方反馈处理器可将从接收方接收的视口信息传送至发送处理器。发送处理器可执行发送处理,使得包括对应视口区域的拼块具有比其它拼块更高的鲁棒性。

图8示出根据本发明的实施方式的360视频相关元数据。

上述360视频相关元数据可包括与360视频有关的各种类型的元数据。根据上下文,360视频相关元数据可被称为360视频相关信令信息。360视频相关元数据可被包括在附加信令表中并发送,或者包括在dashmpd中并发送,或者按照盒的形式包括在诸如isobmff的文件格式中并传送。当360视频相关元数据以盒的形式包括时,360视频相关元数据可被包括在诸如文件、片段、轨道、样本条目、样本等的各种级别中,并且可包括关于对应级别的数据的元数据。

根据实施方式,将在下面描述的元数据的一部分可按照信令表的形式配置并传送,剩余部分可按照盒或轨道的形式包括在文件格式中。

根据360视频相关元数据的实施方式,360视频相关元数据可包括与投影方案有关的基本元数据、立体相关元数据、初始视图/初始视点相关元数据、roi相关元数据、fov(视场)相关元数据和/或裁剪区域相关元数据。根据实施方式,除了上述元数据之外,360视频相关元数据还可包括附加元数据。

根据本发明的360视频相关元数据的实施方式可包括上述基本元数据、立体相关元数据、初始视图/初始视点相关元数据、roi相关元数据、fov相关元数据、裁剪区域相关元数据和/或附加元数据中的至少一个。根据本发明的360视频相关元数据的实施方式可根据其中包括的元数据的情况的数量按照各种方式配置。根据实施方式,除了上述元数据之外,360视频相关元数据还可包括附加元数据。

基本元数据可包括3d模型相关信息、投影方案相关信息等。基本元数据可包括vr_geometry字段、projection_scheme字段等。根据实施方式,基本元数据还可包括附加信息。

vr_geometry字段可指示对应360视频数据所支持的3d模型的类型。如上所述,当360视频数据被重新投影到3d空间上时,3d空间可具有根据vr_geometry字段所指示的3d模型的形式。根据实施方式,用于渲染的3d模型可不同于vr_geometry字段所指示的用于重新投影的3d模型。在这种情况下,基本元数据还可包括指示用于渲染的3d模型的字段。当该字段具有值0、1、2和3时,3d空间可符合球体、立方体、圆柱体和锥体的3d模型。当该字段具有剩余值时,该字段可为未来使用预留。根据实施方式,360视频相关元数据还可包括关于该字段所指示的3d模型的详细信息。这里,例如,关于3d模型的详细信息可指球体的半径、圆柱体的高度等。该字段可被省略。

projection_scheme字段可指示在将360视频数据投影到2d图像上时所使用的投影方案。当该字段具有值0、1、2、3、4和5时,该字段指示使用了等距矩形投影方案、立方体投影方案、圆柱体投影方案、基于拼块的投影方案、锥体投影方案和全景投影方案。当该字段具有值6时,该字段指示360视频数据在没有拼接的情况下直接投影到2d图像上。当该字段具有剩余值时,该字段可为未来使用预留。根据实施方式,360视频相关元数据还可包括关于根据该字段所指定的投影方案生成的区域的详细信息。这里,例如,关于区域的详细信息可指指示区域是否旋转、圆柱体的顶部区域的半径等的信息。

立体相关元数据可包括关于360视频数据的3d相关属性的信息。立体相关元数据可包括is_stereoscopic字段和/或stereo_mode字段。根据实施方式,立体相关元数据还可包括附加信息。

is_stereoscopic字段可指示360视频数据是否支持3d。当该字段为1时,360视频数据支持3d。当该字段为0时,360视频数据不支持3d。该字段可被省略。

stereo_mode字段可指示对应360视频所支持的3d布局。可仅使用该字段来指示360视频是否支持3d。在这种情况下,is_stereoscopic字段可被省略。当该字段为0时,360视频可为单一模式。即,投影的2d图像可仅包括一个单一视图。在这种情况下,360视频可不支持3d。

当该字段被设定为1和2时,360视频可符合左右布局和上下布局。左右布局和上下布局可被称为并排格式和上下格式。在左右布局的情况下,投影有左图像/右图像的2d图像可被设置在图像帧上的左侧/右侧。在上下布局的情况下,投影有左图像/右图像的2d图像可被设置在图像帧上的顶侧/底侧。当该字段具有剩余值时,该字段可为未来使用预留。

初始视图/初始视点相关元数据可包括关于最初再现360视频时用户观看的视图(初始视图)的信息。初始视图/初始视点相关元数据可包括initial_view_yaw_degree字段、initial_view_pitch_degree字段和/或initial_view_roll_degree字段。根据实施方式,初始视图/初始视点相关元数据还可包括附加信息。

initial_view_yaw_degree字段、initial_view_pitch_degree字段和initial_view_roll_degree字段可指示360视频被再现时的初始视图。即,可由这三个字段指示360视频被再现时最初观看的视口的中心点。这些字段可基于偏航轴、俯仰轴和横滚轴使用旋转的方向(符号)和程度(角度)来指示中心点。这里,根据fov可决定360视频被再现时最初观看的视口。可通过fov确定基于所指示的初始视图的初始视口的宽度和高度。即,360视频接收装置可使用这三个字段和fov信息向用户提供360视频的特定区域作为初始视口。

根据实施方式,由初始视图/初始视点相关元数据指示的初始视图可每场景改变。即,随着360内容随时间继续进行,360视频的场景改变。用户最初观看的初始视图或初始视口可针对360视频的各个场景而改变。在这种情况下,初始视图/初始视点相关元数据可每场景指示初始视图。为此,初始视图/初始视点相关元数据还可包括标识应用初始视图的场景的场景标识符。另外,由于fov可每360视频的场景改变,所以初始视图/初始视点相关元数据还可包括指示与相对场景对应的fov的每场景fov信息。

roi相关元数据可包括与上述roi有关的信息。roi相关元数据可包括2d_roi_range_flag字段和/或3d_roi_range_flag字段。这两个字段可指示roi相关元数据是否包括基于2d图像表示roi的字段或者基于3d空间表示roi的字段。根据实施方式,roi相关元数据还可包括附加信息,例如根据roi区分编码信息以及根据roi区分发送处理信息。

当roi相关元数据包括基于2d图像表示roi的字段时,roi相关元数据可包括min_top_left_x字段、max_top_left_x字段、min_top_left_y字段、max_top_left_y字段、min_width字段、max_width字段、min_height字段、max_height字段、min_x字段、max_x字段、min_y字段和/或max_y字段。

min_top_left_x字段、max_top_left_x字段、min_top_left_y字段、max_top_left_y字段可表示roi的左上端的坐标的最小值/最大值。这些字段可依次指示左上端的最小x坐标、最大x坐标、最小y坐标和最大y坐标。

min_width字段、max_width字段、min_height字段和max_height字段可指示roi的宽度和高度的最小值/最大值。这些字段可依次指示宽度的最小值和最大值以及高度的最小值和最大值。

min_x字段、max_x字段、min_y字段和max_y字段可指示roi中的坐标的最小值和最大值。这些字段可依次指示roi中的坐标的最小x坐标、最大x坐标、最小y坐标和最大y坐标。这些字段可被省略。

当roi相关元数据包括基于3d渲染空间上的坐标指示roi的字段时,roi相关元数据可包括min_yaw字段、max_yaw字段、min_pitch字段、max_pitch字段、min_roll字段、max_roll字段、min_field_of_view字段和/或max_field_of_view字段。

min_yaw字段、max_yaw字段、min_pitch字段、max_pitch字段、min_roll字段和max_roll字段可使用偏航、俯仰和横滚的最小值/最大值来指示roi在3d空间上所占据的区域。这些字段可依次指示以偏航轴为基准的旋转量的最小值、以偏航轴为基准的旋转量的最大值、以俯仰轴为基准的旋转量的最小值、以俯仰轴为基准的旋转量的最大值、以横滚轴为基准的旋转量的最小值以及以横滚轴为基准的旋转量的最大值。

min_field_of_view字段和max_field_of_view字段可指示对应360视频数据的fov的最小值/最大值。fov可指360视频被再现时一次显示的视图范围。min_field_of_view字段和max_field_of_view字段可指示fov的最小值和最大值。这些字段可被省略。这些字段可被包括在fov相关元数据(将在下面描述)中。

fov相关元数据可包括上述fov相关信息。fov相关元数据可包括content_fov_flag字段和/或content_fov字段。根据实施方式,fov相关元数据还可包括附加信息,例如fov的上述最小值/最大值相关信息。

content_fov_flag字段可指示对应360视频是否包括关于制作360视频时预期的fov的信息。当该字段值为1时,可存在content_fov字段。

content_fov字段可指示关于制作360视频时预期的fov的信息。根据实施方式,可根据360视频接收装置的垂直或水平fov来确定360视频中一次显示给用户的区域。另选地,根据实施方式,可通过反映该字段的fov信息来确定360视频中一次显示给用户的区域。

裁剪区域相关元数据可包括关于图像帧中包括360视频数据的区域的信息。图像帧可包括投影360视频数据的有效视频区域和其它区域。这里,有效视频区域可被称为裁剪区域或默认显示区域。有效视频区域在实际vr显示器上作为360视频观看,并且360视频接收装置或vr显示器可仅处理/显示有效视频区域。例如,当图像帧的宽高比为4:3时,仅图像帧的上部和下部以外的图像帧区域可包括360视频数据。该区域可被称为有效视频区域。

裁剪区域相关元数据可包括is_cropped_region字段、cr_region_left_top_x字段、cr_region_left_top_y字段、cr_region_width字段和/或cr_region_height字段。根据实施方式,裁剪区域相关元数据还可包括附加信息。

is_cropped_region字段可以是指示360视频接收装置或vr显示器是否使用图像帧的整个区域的标志。即,该字段可指示是否整个图像帧指示有效视频区域。当仅图像帧的一部分是有效视频区域时,可添加以下四个字段。

cr_region_left_top_x字段、cr_region_left_top_y字段、cr_region_width字段和cr_region_height字段可指示图像帧中的有效视频区域。这些字段可指示有效视频区域的左上x坐标、左上y坐标、宽度和高度。宽度和高度可以像素为单位来表示。

如上所述,360度视频相关信令信息或元数据可被包括在任意定义的信令表中,以盒的形式包括在诸如isobmff的文件格式或通用文件格式中,或者包括在dashmpd中并发送。另外,360度媒体数据可被包括在这种文件格式或dash分段中并发送。

下面将依次描述isobmff和dashmpd。

图9示出根据本发明的一个实施方式的媒体文件结构。

图10示出根据本发明的一个实施方式的isobmff中的盒的分层结构。

为了存储和发送诸如音频或视频的媒体数据,可定义标准化的媒体文件格式。根据实施方式,媒体文件可具有基于iso基础媒体文件格式(isobmff)的文件格式。

根据本发明的媒体文件可包括至少一个盒。这里,盒可以是包括媒体数据或者与媒体数据有关的元数据的数据块或对象。盒可按照分层结构布置,因此数据可被分类并且媒体文件可采取适合于媒体数据的存储和/或传输的形式。另外,媒体文件可具有方便访问媒体信息(例如,用户移到媒体内容中的特定点)的结构。

根据本发明的媒体文件可包括ftyp盒、moov盒和/或mdat盒。

ftyp盒(文件类型盒)可提供与对应媒体文件的文件类型或兼容性有关的信息。ftyp盒可包括关于媒体文件的媒体数据的配置版本信息。解码器可参考ftyp盒来标识对应媒体文件。

moov盒(电影盒)可包括关于媒体文件的媒体数据的元数据。moov盒可用作所有元数据的容器。moov盒可以是元数据相关盒当中级别最高的盒。根据实施方式,媒体文件中可仅包括一个moov盒。

mdat盒(媒体数据盒)可包含对应媒体文件的实际媒体数据。媒体数据可包括音频样本和/或视频样本,并且mdat盒可用作包含这些媒体样本的容器。

根据实施方式,moov盒还可包括mvhd盒、trak盒和/或mvex盒作为下级盒。

mvhd盒(电影头盒)可包括对应媒体文件中所包括的媒体数据的媒体呈现相关信息。即,mvhd盒可包括诸如对应媒体呈现的媒体生成时间、改变时间、时间标准和时段的信息。

trak盒(轨道盒)可提供与对应媒体数据的轨道有关的信息。trak盒可包括诸如关于音频轨道或视频轨道的流相关信息、呈现相关信息和访问相关信息的信息。根据轨道的数量,可提供多个trak盒。

根据实施方式,trak盒还可包括tkhd盒(轨道头盒)作为下级盒。tkhd盒可包括关于trak盒所指示的轨道的信息。tkhd盒可包括诸如对应轨道的生成时间、改变时间和轨道标识符的信息。

mvex盒(电影扩展盒)可指示对应媒体文件可包括moof盒(将在下面描述)。可能需要扫描moof盒以识别特定轨道的所有媒体样本。

根据实施方式,根据本发明的媒体文件可被分割成多个片段(t18010)。因此,媒体文件可被分段并存储或发送。媒体文件的媒体数据(mdat盒)被分割成多个片段,各个片段可包括moof盒和分割的mdat盒。根据实施方式,可能需要ftyp盒和/或moov盒的信息以使用片段。

moof盒(电影片段盒)可提供关于对应片段的媒体数据的元数据。moof盒可以是与对应片段的元数据有关的盒当中最高层的盒。

如上所述,mdat盒(媒体数据盒)可包括实际媒体数据。mdat盒可包括与各个片段对应的媒体数据的媒体样本。

根据实施方式,上述moof盒可包括mfhd盒和/或traf盒作为下级盒。

mfhd盒(电影片段头盒)可包括与分割的片段的相关性有关的信息。mfhd盒可包括指示对应片段的媒体数据的次序的序列号。另外,可使用mfhd盒来检查分割的数据当中是否存在省略的数据。

traf盒(轨道片段盒)可包括关于对应轨道片段的信息。traf盒可提供关于对应片段中所包括的分割的轨道片段的元数据。traf盒可提供用于解码/再现对应轨道片段中的媒体样本的元数据。根据轨道片段的数量,可提供多个traf盒。

根据实施方式,上述traf盒可包括tfhd盒和/或trun盒作为下级盒。

tfhd盒(轨道片段头盒)可包括对应轨道片段的头信息。tfhd盒可提供诸如上述traf盒所指示的轨道片段的媒体样本的基本样本大小、时段、偏移和标识符的信息。

trun盒(轨道片段运行盒)可包括与对应轨道片段有关的信息。trun盒可包括诸如各个媒体样本的时段、大小和再现定时的信息。

上述媒体文件和媒体文件的片段可被处理成分段并发送。分段可包括初始化分段和/或媒体分段。

图中所示的实施方式t18020的文件可以是除了媒体数据之外包括与媒体解码器的初始化有关的信息的文件。该文件可对应于上述初始化分段。初始化分段可包括上述ftyp盒和/或moov盒。

图中所示的实施方式t18030的文件可以是包括上述片段的文件。例如,该文件可对应于上述媒体分段。媒体分段可包括上述moof盒和/或mdat盒。另外,媒体分段还可包括styp盒和/或sidx盒。

styp盒(分段类型盒)可提供用于标识分割的片段的媒体数据的信息。styp盒可针对分割的片段起到与上述ftyp盒相同的作用。根据实施方式,styp盒可具有与ftyp盒相同的格式。

sidx盒(分段索引盒)可提供指示分割的片段的索引的信息,因此,sidx盒可指示分割的片段的次序。

根据实施方式t18040,还可提供ssix盒。当分段被分割成子分段时,ssix盒(子分段索引盒)可提供指示子分段的索引的信息。

媒体文件中的盒还可包括基于实施方式t18050中所示的盒或完整盒的扩展信息。在此实施方式中,size字段和largesize字段可按照字节为单位指示对应盒的长度。version字段可指示对应盒格式的版本。type字段可指示对应盒的类型或标识符。flags字段可指示与对应盒有关的标志。

图11示出根据本发明的实施方式的基于dash的自适应流模型的总体操作。

根据图中所示的实施方式t50010的基于dash的自适应流模型描述了http服务器与dash客户端之间的操作。这里,dash(基于http的动态自适应流传输)是支持基于http的自适应流传输的协议并且可根据网络状态动态地支持流传输。因此,可无缝地提供av内容的再现。

首先,dash客户端可获取mpd。可从诸如http服务器的服务提供商传送mpd。dash客户端可使用用于访问分段的信息向服务器请求mpd中所描述的分段。该请求可基于网络状态来执行。

dash客户端可获取分段,在媒体引擎中处理分段,并将处理的分段显示在画面上。dash客户端可通过实时地反映呈现时间和/或网络状态来请求并获取必要分段(自适应流传输)。因此,可无缝地呈现内容。

mpd(媒体呈现描述)是包括用于dash客户端动态地获取分段的详细信息的文件,并且可按照xml表示。

dash客户端控制器可基于网络状态来生成用于请求mpd和/或分段的命令。另外,dash客户端控制器可控制诸如媒体引擎的内部块使用所获取的信息。

mpd解析器可实时地解析所获取的mpd。因此,dash客户端控制器可生成用于获取必要分段的命令。

分段解析器可实时地解析所获取的分段。诸如媒体引擎的内部块可根据分段中所包括的信息来执行特定操作。

http客户端可向http服务器请求必要mpd和/或分段。另外,http客户端可将从服务器获取的mpd和/或分段传送至mpd解析器或分段解析器。

媒体引擎可使用分段中所包括的媒体数据来显示内容。这里,可使用mpd的信息。

dash数据模型可具有分层结构t50020。媒体呈现可由mpd描述。mpd可描述形成媒体呈现的多个时段的时间序列。时段指示媒体内容的一个区段。

在一个时段中,数据可被包括在适配集合中。适配集合可以是可交换的媒体内容组件的集合。自适应可包括表示的集合。表示可对应于媒体内容组件。在一个表示中,为了适当的可访问性和传送,内容可被暂时地分割成多个分段。为了访问各个分段,可提供各个分段的url。

mpd可提供与媒体呈现有关的信息,并且period元素、adaptationset元素和representation元素可描述对应时段、适配集合和表示。表示可被分割成子表示,并且sub-representation元素可描述对应子表示。

这里,可定义公共属性/元素。公共属性/元素可被应用于子表示(包括在其中)。公共属性/元素可包括基本性质和/或补充性质。

基本性质可以是包括在处理对应媒体呈现相关数据时被视为强制元素的元素的信息。补充性质可以是包括可用于处理对应媒体呈现相关数据的元素的信息。在实施方式中,可在基本性质和/或补充性质中定义描述符(将在下面描述)并通过mpd传送。

基于dash的描述符可包括@schemeiduri字段、@value字段和/或@id字段。@schemeiduri字段可提供用于标识对应描述符的方案的uri。@value字段可具有由@schemeiduri字段所指示的方案定义的值。即,@value字段可根据方案(可被称为参数)具有描述符元素的值。参数可通过“,”来区别。@id字段可指示对应描述符的id。当描述符具有相同的id时,描述符可包括相同的方案id、值和参数。

360视频相关元数据的实施方式可被重写为基于dash的描述符的实施方式。当根据dash传送360视频数据时,360视频相关元数据可按照dash描述符的形式描述,包括在mpd中并传送至接收方。描述符可按照上述基本性质描述符和/或补充性质描述符的形式传送。这些描述符可被包括在mpd的适配集合、表示和子表示中并传送。

本说明书公开了定义、存储和用信号通知相关元数据以便传送关于制作者预期的视点(点)(例如,导演剪辑)的信息,使得用户可在360视频的再现中观看预期的视点(点)或区域的方法。区域信息或视点信息(将在下面描述)可以是指示制作者预期的区域或视图(点)的区域信息或视点信息。关于推荐的视点(点)或区域的信息可指当用户或用户装置无法控制方向或视点或者方向控制被释放时显示在用户装置上的区域。

所述方法需要传送的信息可对应于2d空间中的区域、2d空间中的视点(点)、3d空间中的区域或3d空间中的视点(点)。2d空间可指拍摄或编码的矩形图像平面,3d空间可指用于360视频渲染的投影空间或投影结构,例如球形、圆柱形或正方形形式。这里,区域可指上述区域,并且3d空间中的区域或视点(点)可与2d空间中的区域或视点(点)对应。即,2d空间的区域或视点(点)可通过将3d空间的区域或视点(点)投影/映射在2d帧上来获得。

<传送2d空间中的区域和视点信息的方法>

2d空间中的区域和视点(点)信息可按照isobmff作为定时元数据存储在单个轨道中。下面将依次描述关于2d空间中的区域信息的元数据和关于2d空间中的视点(点)信息的元数据的实施方式。

图12示出根据本发明的一个实施方式的关于2d空间中的区域信息的元数据。

图12的(a)示出存储2d空间中的区域信息的轨道的样本条目的配置,图12的(b)示出要在2d空间中表示的个体区域的个体样本的配置。

存储2d空间中的区域信息的轨道的样本条目可包括reference_width、reference_height、min_top_left_x、max_top_left_x、min_top_left_y、max_top_left_y、min_width、max_width、min_height和/或max_height。

reference_width指示2d空间的水平大小。这里,2d空间的水平大小可按照像素数表示。

reference_height指示2d空间的垂直大小。这里,2d空间的垂直大小可按照像素数表示。

min_top_left_x指示要表示的区域的左上点的水平坐标的最小值。

max_top_left_x指示要表示的区域的左上点的水平坐标的最大值。

min_top_left_y指示要表示的区域的左上点的垂直坐标的最小值。

max_top_left_y指示要表示的区域的左上点的垂直坐标的最大值。

min_width指示要表示的区域(2d空间中的区域)的水平大小的最小值。这里,要表示的区域的水平大小的最小值可按照像素数表示。

max_width指示要表示的区域(2d空间中的区域)的水平大小的最大值。这里,要表示的区域的水平大小的最大值可按照像素数表示。

min_height指示要表示的区域(2d空间中的区域)的垂直大小的最小值。这里,要表示的区域的垂直大小的最小值可按照像素数表示。

max_height指示要表示的区域(2d空间中的区域)的垂直大小的最大值。这里,要表示的区域的垂直大小的最大值可按照像素数表示。

要在2d空间中表示的个体区域的个体样本可包括top_left_x、top_left_y、width、height和/或interpolate。

top_left_x指示要表示的区域的左上点的水平坐标。

top_left_y指示要表示的区域的左上点的垂直坐标。

width指示要表示的区域的水平大小。这里,要表示的区域的水平大小可按照像素数表示。

height指示要表示的区域的垂直大小。这里,要表示的区域的垂直大小可按照像素数表示。

interpolate指示先前样本所表示的区域与当前样本所表示的区域之间的值是否由线性插值的值填充。在实施方式中,当interpolate为1时,先前样本所表示的区域与当前样本所表示的区域之间的值可由线性插值的值填充。

图13示出根据本发明的一个实施方式的关于2d空间中的视点(点)的元数据。

图13的(a)示出存储2d空间中的视点(点)信息的轨道的样本条目的配置,图13的(b)示出要在2d空间中表示的个体视点(点)的个体样本的配置。

存储2d空间中的点信息的轨道的样本条目可包括reference_width、reference_height、min_x、max_x、min_y和/或max_y。

reference_width指示2d空间的水平大小。这里,2d空间的水平大小可按照像素数表示。

reference_height指示2d空间的垂直大小。这里,2d空间的垂直大小可按照像素数表示。

min_x指示要呈现的点的水平坐标的最小值。

max_x指示要呈现的点的水平坐标的最大值。

min_y指示要呈现的点的垂直坐标的最小值。

max_y指示要呈现的点的垂直坐标的最大值。

要在2d空间中表示的个体点的个体样本可包括x、y和/或interpolate。

“x”指示要表示的点的水平坐标。

“y”指示要表示的点的垂直坐标。

“interpolate”指示先前样本所表示的区域与当前样本所表示的区域之间的值是否由线性插值的值填充。在实施方式中,当interpolate为1时,先前样本所表示的区域与当前样本所表示的区域之间的值可由线性插值的值填充。

<传送3d空间中的区域和视点信息的方法>

3d空间中的区域和视点信息可按照isobmff作为定时元数据存储在单个轨道中。下面将依次描述关于3d空间中的区域信息的元数据和关于3d空间中的视点(点)信息的元数据的实施方式。

这里,3d空间可指球体,并且360度视频可在该球体上表示。上述2d空间可指投影/映射3d空间的3d平面。

图14示出根据本发明的各种实施方式的关于3d空间中的区域信息的元数据。

图14的(a)示出根据本发明的一个实施方式的存储3d空间中的区域信息的轨道的轨道的样本条目的配置,图14的(b)示出根据本发明的另一实施方式的存储3d空间中的区域信息的轨道的样本条目的配置。

参照图14的(a),根据本发明的一个实施方式的存储3d空间中的区域信息的轨道的样本条目可包括min_yaw、max_yaw、min_pitch、max_pitch、min_roll、max_roll、min_field_of_view和/或max_field_of_view。

min_yaw指示相对于要表示的区域的偏航轴的旋转量的最小值。

max_yaw指示相对于要表示的区域的偏航轴的旋转量的最大值。

min_pitch指示相对于要表示的区域的俯仰轴的旋转量的最小值。

max_pitch指示相对于要表示的区域的俯仰轴的旋转量的最大值。

min_roll指示相对于要表示的区域的横滚轴的旋转量的最小值。

max_roll指示相对于要表示的区域的横滚轴的旋转量的最大值。

min_field_of_view指示要表示的视场的最小值。

max_field_of_view指示要表示的视场的最大值。

当min_field_of_view和max_field_of_view被设定为0时,参考样本条目的样本的区域可以是点。

参照图14的(b),根据本发明的另一实施方式的存储3d空间中的区域信息的轨道的样本条目可包括center_yaw、center_pitch、center_roll、horizontal_field_of_view和/或vertical_field_of_view。

center_yaw指示相对于要表示的区域的偏航轴的旋转量的中心值。

center_pitch指示相对于要表示的区域的俯仰轴的旋转量的中心值。

center_roll指示相对于要表示的区域的横滚轴的旋转量的中心值。

horizontal_field_of_view指示要表示的水平视场的值。该值可以是基于center_yaw的水平视场。

vertical_field_of_view指示要表示的垂直视场的值。该值可以是基于center_pitch的垂直视场。

当horizontal_field_of_view和vertical_field_of_view被设定为0时,参考样本条目的样本的区域可以是点。

对应样本条目的horizontal_field_of_view和vertical_field_of_view可被应用于各个样本,只要它们在各个样本中不改变即可。

在一个实施方式中,根据本发明的一个实施方式和/或另一实施方式的存储3d空间中的区域信息的轨道的样本条目还可包括dynamic_range_flag。dynamic_range_flag可指示由对应样本条目指示的水平视场和垂直视场不改变,而是针对参考样本条目的所有样本维持。例如,dynamic_range_flag当设定为0时可指示样本条目的水平视场和垂直视场在参考样本条目的样本中维持。

图15示出根据本发明的各种实施方式的关于要在3d空间中表示的个体区域的元数据。

图15的(a)示出根据本发明的一个实施方式的要在3d空间中表示的个体区域的个体样本的配置,图15的(b)示出根据本发明的另一实施方式的要在3d空间中表示的个体区域的个体样本的配置。

参照图15的(a),根据本发明的一个实施方式的要在3d空间中表示的个体区域的个体样本可包括yaw、pitch、roll、field_of_view和/或interpolate。

“yaw”指示相对于要表示的区域的偏航轴的旋转量。

“pitch”指示相对于要表示的区域的俯仰轴的旋转量。

“roll”指示相对于要表示的区域的横滚轴的旋转量。

在实施方式中,“yaw”和“pitch”可指示视口的中心,roll可指示视口的横滚角。

field_of_view指示要表示的视场。视场可被再分成horizontal_field_of_view和vertical_field_of_view。

horizontal_field_of_view指示要表示的水平视场的值。该值可以是基于center_yaw的水平视场。

vertical_field_of_view指示要表示的垂直视场的值。该值可以是基于center_pitch的垂直视场。

“interpolate”指示先前样本所表示的区域与当前样本所表示的区域之间的值是否由线性插值的值填充。在实施方式中,当interpolate为1时,先前样本所表示的区域与当前样本所表示的区域之间的值可由线性插值的值填充。

参照图15的(b),根据本发明的另一实施方式的要在3d空间中表示的个体区域的个体样本可包括yaw、pitch、roll和/或interpolate。

“yaw”指示相对于要表示的区域的偏航轴的旋转量。

“pitch”指示相对于要表示的区域的俯仰轴的旋转量。

“roll”指示相对于要表示的区域的横滚轴的旋转量。

“interpolate”指示先前样本所表示的区域与当前样本所表示的区域之间的值是否由线性插值的值填充。在实施方式中,当interpolate为1时,先前样本所表示的区域与当前样本所表示的区域之间的值可由线性插值的值填充。

图16示出根据本发明的另一实施方式的关于3d空间中的区域信息的元数据。

图16的(a)示出根据本发明的另一实施方式的用于存储3d空间中的区域信息的轨道的样本条目的配置,图16的(b)示出要在3d空间中渲染的个体区域的个体样本的配置。

参照图16的(a),根据本发明的另一实施方式的用于存储3d空间中的区域信息的轨道的样本条目可包括region_type、reference_yaw_center、reference_pitch_center、reference_roll_center、reference_width、reference_height和/或reference_roll_range。

region_type可标识要渲染的区域的类型。

例如,如果region_type为0,则对应区域可以是诸如头戴式显示器(hmd)的用户装置中的视口。这里,视口可按照与直线投影相同的方式生成。在这种情况下,区域可以是由存在于球面上的两个水平大圆与两个水平大圆的交点组成的内侧区域。换言之,区域可以是球面上由四个大圆指定的区域。

例如,如果region_type为1,则对应区域可以是可由应该包括在用户装置的视口中的偏航、俯仰和横滚的特定范围表示的视点集(视点的集合)。在这种情况下,区域可以是由存在于球面上的两个水平大圆和两个水平小圆的交点组成的区域。在更特定的实施方式中,区域可以是由存在于球面上的两个俯仰圆和两个偏航圆限定的球面区域。

此外,当region_type被设定为1时,用户装置中的视口可根据用户装置的唯一水平/垂直视场的值来配置,并且视点设定区域可包括在视口中。

在实施方式中,如果元数据中不包括region_type字段,则区域标识方法可被设定为由region_type表示的区域标识方法之一。换言之,如果元数据中不包括region_type字段,则区域标识方法可被预设为region_type为0的情况,或者可被预设为region_type为1的情况,其中可不用信号通知region_type字段。

reference_yaw_center可指示限定可呈现存在于轨道中的样本的区域的参考空间的中心点的偏航值。这里,样本可由3dsphericalcoordinatessample()(将稍后描述)定义。

reference_pitch_center可指示限定可呈现存在于轨道中的样本的区域的参考空间的中心点的俯仰值。这里,样本可由3dsphericalcoordinatessample()(将稍后描述)定义。

reference_roll_center可指示限定可呈现存在于轨道中的样本的区域的参考空间的中心点的横滚值。这里,样本可由3dsphericalcoordinatessample()(将稍后描述)定义。

reference_width可指示限定可呈现存在于轨道中的样本的区域的参考空间的水平宽度。这里,样本可由3dsphericalcoordinatessample()(将稍后描述)定义。

reference_width的含义可取决于region_type的值。

在一个示例中,当reference_type为0时,reference_width可指示诸如头戴式显示器(hmd)的用户装置中的视口的水平视场。这里,视口可按照与直线投影相同的方式生成。

在另一示例中,当reference_type为1时,reference_width可指示构成视点集的参考空间的点的偏航值的范围。

reference_height可指示限定可呈现存在于轨道中的样本的区域的参考空间的垂直高度。这里,样本可由3dsphericalcoordinatessample()(将稍后描述)定义。

reference_height的含义可取决于region_type的值。

在一个示例中,当reference_type为0时,reference_height可指示诸如头戴式显示器(hmd)的用户装置中的视口的垂直视场。这里,视口可按照与直线投影相同的方式生成。

在另一示例中,当reference_type为1时,reference_height可指示构成视点集的参考空间的点的俯仰值的范围。

reference_roll_range可指示参考空间相对于中心点的横滚值的范围。

接下来,参照图16的(b),根据本发明的另一实施方式的要在3d空间中渲染的个体区域的个体样本可包括yaw_center、pitch_center、roll_center、width、height和/或interpolate。

yaw_center可指示要渲染的区域的中心点的偏航值。

pitch_center可指示要渲染的区域的中心点的俯仰值。

roll_center可指示要渲染的区域的中心点的横滚值。

“width”可指示要渲染的区域的水平宽度。width可取决于上述region_type的值。

在一个示例中,当reference_type为0时,“width”可指示诸如头戴式显示器(hmd)的用户装置中的视口的水平视场。这里,视口可按照与直线投影相同的方式生成。

在另一示例中,当reference_type为1时,“width”可指示构成视点集的参考空间的点的偏航值的范围。

“height”可指示要渲染的区域的垂直高度。“height”的含义可取决于上述region_type的值。

在一个示例中,当reference_type为0时,“height”可指示诸如头戴式显示器(hmd)的用户装置中的视口的垂直视场。这里,视口可按照与直线投影相同的方式生成。

在另一示例中,当reference_type为1时,“height”可指示构成视点集的参考空间的点的俯仰值的范围。

“interpolate”可指示是否使用线性插值的值作为由先前样本表示的区域与由当前样本表示的区域之间的值。在实施方式中,当interpolate为1时,由先前样本表示的区域与由当前样本表示的区域之间的值可由线性插值的值表示。

图17示出根据本发明的另一实施方式的关于3d空间中的区域信息的元数据。

图17的(a)示出根据本发明的另一实施方式的用于存储3d空间中的区域信息的轨道的样本条目的配置,图17的(b)示出要在3d空间中渲染的个体区域的个体样本的配置。

图17的实施方式与图16的实施方式的不同之处在于,可根据region_type的值配置不同的字段。

参照图17的(a),根据本发明的另一实施方式的用于存储3d空间中的区域信息的轨道的样本条目可包括region_type、reference_yaw_center、reference_pitch_center、reference_roll_center、reference_horizontal_field_of_view、reference_vertical_field_of_view、reference_viewpoint_yaw_range、reference_viewpoint_pitch_range和/或reference_roll_range。

对于region_type、reference_yaw_center、reference_pitch_center、reference_roll_center和reference_roll_range,可应用图16的(a)的描述。

在此实施方式中,当region_type为0时,样本条目中可包括reference_horizontal_field_of_view和reference_vertical_field_of_view。

reference_horizontal_field_of_view可指示与诸如头戴式显示器(hmd)的用户装置中的参考空间对应的视口的水平视场。这里,视口可按照与直线投影相同的方式生成。

reference_vertical_field_of_view可指示与诸如头戴式显示器(hmd)的用户装置中的参考空间对应的视口的垂直视场。这里,视口可按照与直线投影相同的方式生成。

在此实施方式中,当region_type为1时,样本条目中可包括reference_viewpoint_yaw_range和reference_viewpoint_pitch_range。

reference_viewpoint_yaw_range可指示构成视点集的参考空间的点的偏航值的范围。

reference_viewpoint_pitch_range可指示构成视点集的参考空间的点的俯仰值的范围。

接下来,参照图17的(b),根据本发明的另一实施方式的要在3d空间中渲染的个体区域的个体样本可包括yaw_center、pitch_center、roll_center、horizontal_field_of_view、vertical_field_of_view、viewpoint_yaw_range、viewpoint_pitch_range和/或interpolate。

对于yaw_center、pitch_center、roll_center和interpolate,可应用图16的(b)给出的描述。

在此实施方式中,当region_type为0时,对应样本中可包括horizontal_field_of_view和vertical_field_of_view。

horizontal_field_of_view可指示与诸如头戴式显示器(hmd)的用户装置中的区域对应的视口的水平视场。这里,视口可按照与直线投影相同的方式生成。

vertical_field_of_view可指示与诸如头戴式显示器(hmd)的用户装置中的区域对应的视口的垂直视场。这里,视口可按照与直线投影相同的方式生成。

在此实施方式中,当region_type为1时,对应样本中可包括viewpoint_yaw_range和viewpoint_pitch_range。

viewpoint_yaw_range可指示构成视点集的点的偏航值的范围。

viewpoint_pitch_range可指示构成视点集的点的俯仰值的范围。

图18示出根据本发明的另一实施方式的关于3d空间中的区域信息的元数据。

图18的(a)示出根据本发明的另一实施方式的用于存储3d空间中的区域信息的轨道的样本条目的配置,图18的(b)示出要在3d空间中渲染的个体区域的个体样本的配置。

在图18的实施方式中,根据region_type的值,样本条目可由不同的字段组成,并且个体样本被配置为包括当region_type为0时要包括的字段和当region_type为1时要包括的字段二者。

参照图18的(a),根据本发明的另一实施方式的用于存储3d空间中的区域信息的轨道的样本条目可包括reference_yaw_center、reference_pitch_center、reference_roll_center、reference_horizontal_field_of_view、reference_vertical_field_of_view、reference_viewpoint_yaw_range、reference_viewpoint_pitch_range和/或reference_roll_range。

接下来,参照图18的(b),根据本发明的另一实施方式的要在3d空间中渲染的个体区域的个体样本可包括yaw_center、pitch_center、roll_center、horizontal_field_of_view、vertical_field_of_view、viewpoint_yaw_range、viewpoint_pitch_range和/或interpolate。

当图18所示的实施方式与图17的实施方式比较时,图18的(b)的实施方式的区别之处在于,样本中同时包括当region_type为0时要包括的字段和当region_type为1时要包括的字段二者。

在图18(图18的(a))的实施方式中,要渲染的区域的参考空间可以是属于reference_viewpoint_yaw_range和reference_viewpoint_pitch_range的范围的任何点的视点的超集以及由reference_horizontal_field_of_view和reference_vertical_field_of_view的值确定的视口

在图18(图18的(b))的实施方式中,要渲染的区域可以是属于viewpoint_yaw_range和viewpoint_pitch_range的范围的任何点的视点的超集以及由horizontal_field_of_view和vertical_field_of_view的值确定的视口。

在图17和图18的实施方式中,指派相同名称的字段基本上相同,因此,图17的对应描述可应用于图18的各个字段。

图19是示出根据本发明的实施方式的通过区域类型限定区域的方法的参考图。

图19的(a)示出球面3d模型,图19的(b)示出由两个大圆和两个大圆的交点组成的区域,图19的(c)示出由两个大圆和两个小圆的交点组成的区域。

首先,将描述大圆、小圆、俯仰圆和偏航圆的含义。

大圆可指穿过球体的中心的圆。更具体地,大圆可指穿过球体的中心点的平面与球体之间的交点。大圆可被称为大圆线(orthodrome)或黎曼圆。另一方面,球体的中心和大圆的中心可以是相同的位置。

小圆可指不穿过球体的中心的圆。

俯仰圆可指球体表面上将具有相同俯仰值的所有点连接的圆。类似地球上的纬度,俯仰圆可能不是大圆。

偏航圆可指球体表面上将具有相同偏航值的所有点连接的圆。偏航圆总是大圆,就像地球上的经度一样。

如上所述,根据本发明的实施方式的“区域类型”可指示指定存在于球面上的区域的类型。

图19的(b)示出当根据本发明的实施方式的“区域类型”为0时指定球面上的区域。

由于“区域类型”为0,所以球面上的区域由四个大圆指定。更具体地,球面上的区域由两个俯仰圆和两个偏航圆指定。

如图中所示,球面上的指定区域的中心可由center_pitch、center_yaw表示。center_pitch和center_yaw可用于与诸如水平视场(或宽度)和垂直视场(或高度)的视场信息一起限定视口。

换言之,如果region_type为0,则区域可以是边界由偏航值为center_yaw-horizontal_field_of_view/2和center_yaw+horizontal_field_of_view/2的两个垂直大圆以及俯仰值为center_pitch-vertical_field_of_view/2和center_pitch+vertical_field_of_view/2的两个水平大圆限定的内曲面。

图19的(c)示出当根据本发明的实施方式的“区域类型”为1时指定球面上的区域。

由于区域类型为1,所以球面上的区域由两个大圆和两个小圆指定。更具体地,球面上的区域由两个俯仰圆和两个偏航圆指定。这里,两个俯仰圆是小圆,不是大圆。

如图中所示,球面上的指定区域的中心可由center_pitch和center_yaw表示。center_pitch和center_yaw可用于与诸如水平视场和垂直视场的视场信息一起限定视口。

换言之,如果region_type为0,则区域可以是边界由偏航值为center_yaw-horizontal_field_of_view/2和center_yaw+horizontal_field_of_view/2的两个垂直大圆以及俯仰值为center_pitch-vertical_field_of_view/2和center_pitch+vertical_field_of_view/2的两个水平小圆限定的内曲面。

<用信号通知关于区域信息或视点信息的元数据轨道与360度视频轨道之间的关系的方法>

可通过以下方法用信号通知关于区域信息或视点信息的元数据轨道以及将应用这种元数据的360度视频轨道。

首先,将描述用信号通知360度视频轨道之间的关系的方法。

在实施方式中,当一个视频帧被分割成一个或更多个区域,区域被编码并且关于区域的数据通过一个或更多个轨道传送时,关于各个轨道的360度视频相关元数据可按照盒的形式包括。这里,360度视频相关元数据可以是上面参照图2、图3、图4和图8描述的360度视频相关元数据。当360度视频相关元数据按照盒的形式包括时,360度视频相关元数据可被定义为omvideoconfigurationbox类。omvideoconfigurationbox可被称为omvb盒。360度视频相关元数据可被包括在诸如文件、片段、轨道、样本条目和样本的各种级别中并传送,并且可提供关于与之对应的级别(轨道、流、样本等)的数据的元数据。

当仅一些特定轨道包括omvideoconfigurationbox并且剩余轨道不包括omvideoconfigurationbox时,需要信令,所述剩余轨道可通过该信令来参考包括omvideoconfigurationbox的轨道。为此,指示包括omvideoconfigurationbox的轨道的信息可被包括在不包括omvideoconfigurationbox的剩余轨道的trackreferencetypebox中。根据实施方式,可定义“omvb”的轨道参考类型,并且可通过包括在对应trackreferencetypebox中的轨道id来指示包括360度视频相关元数据的轨道。

接下来,将描述用信号通知关于区域信息或视点信息的元数据轨道与360度视频轨道之间的关系的方法。

关于区域信息或视点信息的元数据轨道可与360度视频轨道分开存储和传送。换言之,关于区域信息或视点信息的元数据可通过与360度视频轨道分开的轨道来传送。当关于区域信息或视点信息的元数据以这种方式包括在轨道中并传送时,可能需要包括关于区域信息或视点信息的元数据的轨道和与元数据轨道有关的360度视频轨道之间的参考。

根据实施方式,可使用作为isobmff的盒之一的trackreferencebox(“tref”)中定义的“cdsc”参考类型来执行关于区域信息或视点信息的元数据轨道和与元数据轨道有关的360度视频轨道之间的参考。

根据另一实施方式,可通过重新定义trackreferencebox(“tref”)中的“vdsc”的参考类型来执行关于区域信息或视点信息的元数据轨道和与元数据轨道有关的360度视频轨道之间的参考。

图20示出根据本发明的实施方式的tref盒。

trackreference(“tref”)盒提供包括在其中的轨道与其它轨道之间的参考。trackreference(“tref”)盒可包括预定参考类型以及具有id的一个或更多个轨道参考类型盒。

track_id可以是在与之对应的轨道中的呈现中提供对其它轨道的参考的整数。track_id不能重用并且不能为0。

reference_type可被设定为以下值之一。此外,reference_type可被设定为下文没有定义的值。

由“hint”引用的轨道可包括对应提示轨道的原始媒体。

“cdsc”轨道描述参考的轨道。该轨道可包括关于参考轨道的定时元数据。

“font”轨道可使用参考的轨道中传送/定义的字体。

“hind”轨道取决于参考的提示轨道。即,该轨道可在使用参考的提示轨道时使用。

“vdep”轨道可包括关于参考视频轨道的辅助深度视频信息。

“vplx”轨道可包括关于参考视频轨道的辅助视差视频信息。

“subt”轨道可包括关于参考的轨道或者包括对应轨道的替代组的所有轨道的字幕、定时文本和/或覆盖图形信息。

“vdsc”轨道可以是将传送区域信息的元数据轨道与360视频轨道相关联的参考类型。在一个实施方式中,包括具有该reference_type的tref盒的轨道可以是传送区域信息或视点信息的元数据轨道。这里,包括在tref盒中的track_id可参考360视频轨道。在另一实施方式中,包括具有该reference_type的tref盒的轨道可以是360视频轨道。这里,包括在tref盒中的track_id可参考传送区域信息或视点信息的元数据轨道。

另外,可使用“cdsc”的参考类型以便参考关于区域信息或视点信息的元数据轨道和与元数据轨道有关的360度视频轨道。

即,为了参考关于区域信息或视点信息的元数据轨道和与元数据轨道有关的360度视频轨道,可使用“cdsc”或“vdsc”的参考类型。

<gps信息传送方法>

gps信息可按照isobmff作为定时元数据存储在单个轨道中。

将描述关于gps信息的元数据的实施方式。

图21示出根据本发明的实施方式的关于gps的元数据。

图21的(a)示出根据本发明的实施方式的存储gps信息的轨道的样本条目的配置,图21的(b)示出根据本发明的实施方式的存储gps数据的个体样本的配置,图21的(c)示出根据本发明的另一实施方式的存储gps数据的个体样本的配置。

存储gps信息的轨道的样本条目可包括coordinate_reference_sys和/或altitude_flag。

coordinate_reference_sys指示关于包括在样本中的纬度、经度和高度值的坐标参考系(crs)。coordinate_reference_sys可被表示成uri(统一资源标识符)。例如,coordinate_reference_sys可指示“urn:ogc:def:crs:epsg::4979”。这里,“urn:ogc:def:crs:epsg::4979”可指示epsg数据库中具有代码4979的坐标参考系(crs)。

altitude_flag指示样本是否包括高度值。在一个实施方式中,altitude_flag当设定为1时可指示样本包括高度值,当设定为0时指示样本不包括高度值。

gps数据可被存储在个体样本中。关于可存储在个体样本中的gps数据的配置的实施方式示出于图21的(b)和图21的(c)中。

图21的(b)示出根据本发明的实施方式的存储gps数据的个体样本的配置。图21的(b)所示的gps数据样本可包括longitude、latitude和/或altitude。

longitude指示点的经度值。正值可指示东经,负值可指示西经。

latitude指示点的纬度值。正值可指示北纬,负值可指示南纬。

altitude指示点的高度值。在一个实施方式中,当样本条目的altitude标志指示样本包括高度值(例如,altitude标志=1)时,样本可包括altitude。在另一实施方式中,当样本条目的altitude标志指示样本不包括高度值(例如,altitude标志=0)时,样本可不包括altitude。参照图21的(c)描述样本不包括altitude的实施方式。

图21的(c)示出根据本发明的另一实施方式的存储gps数据的个体样本的配置。图21的(c)所示的gps数据样本可包括longitude和/或latitude。图21的(c)所示的gps数据样本可不包括altitude。

longitude指示点的经度值。正值可指示东经,负值可指示西经。

latitude指示点的纬度值。正值可指示北纬,负值可指示南纬。

<用信号通知gps信息传送元数据轨道与360度视频轨道之间的关系的方法>

可通过以下方法用信号通知关于gps信息的元数据轨道以及将应用这种元数据的360度视频轨道。

首先,将描述用信号通知360度视频轨道之间的关系的方法。

在一个实施方式中,当一个视频帧被分割成一个或更多个区域,区域被编码并且关于区域的数据通过一个或更多个轨道传送时,关于各个轨道的360度视频相关元数据可按照盒的形式包括。这里,360度视频相关元数据可以是上面参照图2、图3、图4和图8描述的360度视频相关元数据。当360度视频相关元数据按照盒的形式包括时,360度视频相关元数据可被定义为omvideoconfigurationbox类。omvideoconfigurationbox可被称为omvb盒。360度视频相关元数据可被包括在诸如文件、片段、轨道、样本条目和样本的各种级别中并传送,并且可提供关于与之对应的级别(轨道、流、样本等)的数据的元数据。

当仅一些特定轨道包括omvideoconfigurationbox并且剩余轨道不包括omvideoconfigurationbox时,需要信令,所述剩余轨道可通过该信令来参考包括omvideoconfigurationbox的轨道。为此,指示包括omvideoconfigurationbox的轨道的信息可被包括在不包括omvideoconfigurationbox的剩余轨道的trackreferencetypebox中。根据实施方式,可定义“omvb”的轨道参考类型,并且可通过包括在对应trackreferencetypebox中的轨道id来指示包括360度视频相关元数据的轨道。

接下来,将描述用信号通知关于gps信息的元数据轨道与360度视频轨道之间的关系的方法。

关于gps信息的元数据轨道可与360度视频轨道分开存储和传送。换言之,关于gps信息的元数据可通过与360度视频轨道分开的轨道来传送。当关于gps信息的元数据以这种方式包括在轨道中并传送时,可能需要包括关于gps信息的元数据的轨道和与元数据轨道有关的360度视频轨道之间的参考。

根据实施方式,可使用作为isobmff的盒之一的trackreferencebox(“tref”)中定义的“cdsc”参考类型来执行关于gps信息的元数据轨道和与元数据轨道有关的360度视频轨道之间的参考。

根据另一实施方式,可通过重新定义trackreferencebox(“tref”)中的“gpsd”的参考类型来执行关于gps信息的元数据轨道和与元数据轨道有关的360度视频轨道之间的参考。

返回参照图20,图20示出根据本发明的实施方式的tref盒。

trackreference(“tref”)盒提供包括在其中的轨道与其它轨道之间的参考。trackreference(“tref”)盒可包括预定参考类型以及具有id的一个或更多个轨道参考类型盒。这里,“gpsd”可被重新定义并用作参考类型。

track_id可以是在与之对应的轨道中的呈现中提供对其它轨道的参考的整数。track_id不能重用并且不能为0。

reference_type可被设定为以下值之一。此外,reference_type可被设定为下文没有定义的值。

由“hint”引用的轨道可包括对应提示轨道的原始媒体。

“cdsc”轨道描述引用的轨道。该轨道可包括关于参考轨道的定时元数据。

“font”轨道可使用引用的轨道中传送/定义的字体。

“hind”轨道取决于参考的提示轨道。即,该轨道可在使用参考的提示轨道时使用。

“vdep”轨道可包括关于参考视频轨道的辅助深度视频信息。

“vplx”轨道可包括关于参考视频轨道的辅助视差视频信息。

“subt”轨道可包括关于参考的轨道或者包括对应轨道的替代组的所有轨道的字幕、定时文本和/或覆盖图形信息。

“gpsd”轨道可以是将传送gps信息的元数据轨道与360视频轨道相关联的参考类型。在一个实施方式中,包括具有该reference_type的tref盒的轨道可以是传送gps信息的元数据轨道。这里,包括在tref盒中的track_id可参考360视频轨道。在另一实施方式中,包括具有该reference_type的tref盒的轨道可以是360视频轨道。这里,包括在tref盒中的track_id可参考传送gps信息的元数据轨道。

另外,可使用“cdsc”的参考类型以便参考关于gps信息的元数据轨道和与元数据轨道有关的360度视频轨道。

即,为了参考关于gps信息的元数据轨道和与元数据轨道有关的360度视频轨道,可使用“cdsc”或“vdsc”的参考类型。

本说明书中所公开的方法可应用于基于诸如isobmff的基于盒的文件格式生成关于支持360视频服务的内容的文件,生成可在mpegdash中操作的dash分段,或者生成可在mpegmmt中操作的mpu的情况。另外,包括dash客户端或mmt客户端的接收机可基于360视频相关元数据(标志、参数等)有效地解码并显示内容。

用于关于区域信息或视点信息的元数据和/或关于gps信息的元数据的上述样本条目和/或样本(例如,2dreagioncartesiancoordinatessampleentry、2dpointcartesiancoordinatessampleentry、3dcartesiancoordinatessampleentry和gpssampleentry)可通常存在于单个isobmff字段、dash分段或mmtmpu中的多个盒中。

在这种情况下,下级盒中定义的360视频相关标志或360视频元数据的值可覆盖上级盒中定义的关于区域信息或视点信息和/或gps信息的元数据的值。

将基于dash描述与上面参照图12至图20描述的发送和用信号通知关于区域信息或视点信息的元数据的方法有关的实施方式。

<使用dash发送和用信号通知关于区域信息或视点信息的元数据的方法>

配置用于元数据传输的附加适配集合的实施方式

当通过dash发送关于区域信息或视点信息的元数据时,可配置用于元数据传输的附加适配集合。在这种情况下,mpd中需要包括用于指示通过附加适配集合传输关于区域信息或视点信息的元数据的信令。在实施方式中,角色描述符可用作指示通过附加适配集合传输关于区域信息或视点信息的元数据的信令。

可分配新的schemeiduri值以将角色方案与mpd中的传统角色方案相区别。例如,可为角色方案分配诸如“urn:mpeg:dash:role:201x”的新schemeiduri值。可向这种新的方案分配“dirc”作为指示关于区域信息或视点信息的元数据的值。这里,作为指示关于区域信息或视点信息的元数据的值分配的“dirc”是示例性的,可分配“dirc”以外的值。在用于传输vr视频或360视频的适配集合的情况下,可向该值分配“main”。

为了用信号通知用于vr视频传输的表示与用于传输关于区域信息或视点信息的元数据的表示之间的关系,可使用representation@associationid和associationtype。用于传输关于区域信息或视点信息的元数据的表示可使用associationid指示用于传输将应用该元数据的vr视频的表示的id(“vr_video”),并且其中可分配“dirc”作为associationtype。这里,“dirc”可被新定义为指示关于区域信息或视点信息的元数据的值。除了dash之外,此方法可用于表示isobmff(iso基础媒体文件格式)的轨道之间的关系。即,出于相同的目的,可代替associationid使用“tref”盒的track_id,并且可代替associationtype使用“tref”盒的reference_type。

图22示出根据本发明的实施方式的用信号通知关于区域信息或视点信息的元数据的传输的mpd。

参照图22,mpd包括用于指示通过附加适配集合传输关于区域信息或视点信息的元数据的信令。

另外,在图22所示的实施方式中,角色描述符用作指示通过附加适配集合传输关于区域信息或视点信息的元数据的信令。

在图22所示的实施方式中,“urn:mpeg:dash:role:201x”被分配给角色方案并且“dirc”被分配给值,以便指示通过附加适配集合传输关于区域信息或视点信息的元数据(h22020)。在用于vr视频传输的适配集合的情况下,“urn:mpeg:dash:role:2011”被分配给角色方案并且“main”被分配给值(h22010)。

此外,在图22所示的实施方式中,使用representation@associationid和associationtype以便用信号通知用于vr视频传输的表示和用于关于区域信息或视点信息的元数据的传输的表示之间的关系。用于关于区域信息或视点信息的元数据的传输的表示(表示id=“directors_cut”)使用associationid指示用于将应用该元数据的vr视频的传输的表示的id(“vr_video”),并且其中分配“dirc”作为associationtype(h22030)。

如图22的实施方式中一样,可定义新的角色方案以便用信号通知关于区域信息或视点信息的元数据的传输。另选地,可使用与传统角色方案兼容的方法以便用信号通知关于区域信息或视点信息的元数据的传输。

图23示出根据本发明的另一实施方式的用信号通知关于区域信息或视点信息的元数据的传输的mpd。

参照图23,mpd包括用于指示通过附加适配集合传输关于区域信息或视点信息的元数据的信令。

参照图23,“urn:mpeg:dash:role:2011”被分配给角色方案并且“metadata”被分配给值(h23020)。在用于vr视频传输的适配集合的情况下,“urn:mpeg:dash:role:2011”被分配给角色方案并且“main”被分配给值(h23010)。即,图23的实施方式可被视为用于元数据传输的传统适配集合标识方法(role@schemeiduri=“urn:mpeg:dash:role:2011”,value=“metadata”)被应用于标识用于传输关于区域信息或视点信息的元数据的适配集合的实施方式。

另外,在图23所示的实施方式中,使用representation@associationid和associationtype以便用信号通知用于vr视频传输的表示和用于关于区域信息或视点信息的元数据的传输的表示之间的关系。用于关于区域信息或视点信息的元数据的传输的表示(表示id=“directors_cut”)使用associationid指示用于将应用该元数据的vr视频的传输的表示的id(“vr_video”),并且其中分配“dirc”作为associationtype(h23030)。

将描述与上面参照图18和图19描述的通过附加适配集合发送和用信号通知关于区域信息或视点信息的元数据的方法有关的接收机操作。

图24是根据本发明的实施方式的接收机的框图。

参照图24,根据本发明的实施方式的接收机可包括dash客户端h24020、分段解析器h24030、视频解码器h24040、dirc解析器h24050和/或投影仪/渲染器/传感器h24060。

mpd、vr内容和/或关于区域信息或视点信息的元数据可由dash服务器h24010提供并由dash客户端h24020接收。这里,接收机的dash客户端h24020可从dash服务器h24010以数据分组格式接收vr内容、mpd和/或关于区域信息或视点信息的元数据。dash客户端h24020可向dash服务器h24010请求mpd、vr内容和/或关于区域信息或视点信息的元数据。dash客户端h24020可从所接收的分组生成mpd和分段。

dash客户端h24020可解析所接收的mpd以获取关于内容(vr内容)的信息。这里,dash客户端h24020可通过上面参照图22和图23描述的关于发送关于区域信息或视点信息的元数据的适配集合的信令来识别是否存在关于区域信息或视点信息的元数据。另外,dash客户端h24020可根据接收机的能力和/或内容的使用目的来启用dirc解析器和用于dirc的分段解析器(参照图中的虚线)。例如,当接收机无法处理关于区域信息或视点信息的元数据或者根据目的不使用关于区域信息或视点信息的元数据时,可不使用(可跳过)发送关于区域信息或视点信息的元数据的适配集合。分段可被传送至分段解析器h24030。

分段解析器h24030可解析所接收的分段并将视频比特流和关于区域信息或视点信息的元数据(dirc元数据)分别传送至视频解码器h24040和dirc解析器h24050。分段解析器h24030可根据解析目标进行功能分类。即,分段解析器h24030可被分类为用于解析视频的分段的分段解析器和用于关于区域信息或视点信息的元数据的分段解析器。

视频解码器h24040可将视频比特流解码并将解码的视频比特流传送至投影仪/渲染器/传感器h24060。

dirc解析器h24050可解析dirc元数据并将解析的信息(dirc信息)传送至投影仪/渲染器/传感器h24060。

投影仪/渲染器/传感器h24060可从视频解码器h24040接收视频比特流并从dirc解析器h24050接收dirc元数据。另外,投影仪/渲染器/传感器h24060可使用dirc信息向用户提供视频数据。投影仪/渲染器/传感器h24060使用dirc信息向用户提供vr内容的方法可取决于应用。例如,可通过自动导航向用户显示由dirc指示的制作者预期的视点。作为另一示例,可根据用户的视点以用于引导制作者预期的视点的方向指示显示vr内容。

图25示出根据本发明的另一实施方式的用信号通知关于区域信息或视点信息的元数据的传输的mpd。

在图25所示的实施方式中,区别于图22和图23的实施方式,vr视频由两个或更多个空间区域组成,并且通过两个或更多个适配集合发送。在图25的示例中,vr视频被分割成分别与vr视频拼块对应的左空间区域和右空间区域。两个vr视频拼块对应于两个适配集合。两个vr视频拼块之间的空间关系通过srd(supplementalproperty@schemeiduri=“urn:mpeg:dash:srd:2014”)描述。更具体地,与左空间区域对应的vr视频拼块的空间信息通过<supplementalpropertyschemeiduri=“urn:mpeg:dash:srd:2014”value=“1,0,0,1920,1920,3840,1920,0”/>描述(h25010),与右空间区域对应的vr视频拼块的空间信息通过<supplementalpropertyschemeiduri=“urn:mpeg:dash:srd:2014”value=“1,0,1920,1920,1920,3840,1920,0”/>描述(h25020)。

另外,如图22和图23的实施方式中一样,关于区域信息或视点信息的元数据可通过role@value=“dirc”或“metadata”标识。在本实施方式中,如图22的实施方式中一样,定义新角色方案并分配role@value=”dirc”以标识使用关于区域信息或视点信息的元数据(h25030)。

representation@associationid可指示与两个或更多个空间区域对应的vr视频拼块的表示或单个表示(用于传输基础拼块轨道的表示)。本实施方式指示与两个空间区域对应的vr视频拼块1和vr视频类型2(h25040)。

将描述与参照图25描述的在vr视频被分割成两个或更多个空间区域并通过两个或更多个适配集合发送的实施方式中发送和用信号通知关于区域信息或视点信息的元数据的方法有关的接收机操作。

图26是根据本发明的另一实施方式的接收机的框图。

参照图26,根据本发明的另一实施方式的接收机可包括dash客户端h26020、分段解析器h26030、视频解码器h26040、dirc解析器h26050和/或投影仪/渲染器/传感器h26060。

mpd、vr内容和/或关于区域信息或视点信息的元数据可由dash服务器h26010提供并由dash客户端h26020接收。这里,接收机的dash客户端h26020可从dash服务器h26010以数据分组格式接收vr内容、mpd和/或关于区域信息或视点信息的元数据。dash客户端h26020可向dash服务器h26010请求mpd、vr内容和/或关于区域信息或视点信息的元数据。dash客户端h26020可从所接收的分组生成mpd和分段。

在图26的实施方式中,从dash服务器h26010发送的数据分组可以是vr视频的空间区域(例如,vr视频拼块)的一部分。即,从dash服务器h26010发送的vr视频内容可对应于包括用户的初始视点的空间区域(拼块)或者包括制作者预期的视点或区域的空间区域(拼块),其由从dirc解析器h26050(将在下面描述)传送的信息(dirc信息)指示。

dash客户端h26020可解析所接收的mpd以获取关于内容(vr内容)的信息。这里,dash客户端h26020可通过上面参照图24描述的关于发送关于区域信息或视点信息的元数据的适配集合的信令来识别是否存在关于区域信息或视点信息的元数据。另外,dash客户端h26020可根据接收机的能力和/或内容的使用目的来启用dirc解析器和用于dirc的分段解析器(参照图中的虚线)。例如,当接收机无法处理关于区域信息或视点信息的元数据或者根据目的不使用关于区域信息或视点信息的元数据时,可不使用(可跳过)发送关于区域信息或视点信息的元数据的适配集合。分段可被传送至分段解析器h26030。

分段解析器h26030可解析所接收的分段并将视频比特流和关于区域信息或视点信息的元数据(dirc元数据)分别传送至视频解码器h26040和dirc解析器h26050。分段解析器h26030可根据解析目标进行功能分类。即,分段解析器h26030可被分类为用于解析视频的分段的分段解析器和用于关于区域信息或视点信息的元数据的分段解析器。

视频解码器h26040可将视频比特流解码并将解码的视频比特流传送至投影仪/渲染器/传感器h26060。

dirc解析器h26050可解析dirc元数据并将解析的信息(dirc信息)传送至投影仪/渲染器/传感器h26060。

另外,dirc解析器h26050可将解析的信息(dirc信息)传送至dash客户端h26010。传送至dash客户端h26010的信息(dirc信息)可用于dash客户端h26010选择与包括制作者预期的视点或区域的空间区域(拼块)对应的适配集合。

投影仪/渲染器/传感器h26060可从视频解码器h26040接收视频比特流并从dirc解析器h26050接收dirc元数据。另外,投影仪/渲染器/传感器h26060可使用dirc信息向用户提供视频数据。投影仪/渲染器/传感器h26060使用dirc信息向用户提供vr内容的方法可取决于应用。例如,可通过自动导航向用户显示由dirc指示的制作者预期的视点。作为另一示例,可根据用户的注视以用于引导制作者预期的视点的方向指示显示vr内容。

在参照图24至图26描述的实施方式中,用于发送并用信号通知vr视频的适配集合与用于发送并用信号通知元数据的适配集合分开存在。

将参照图27至图29描述在单个适配集合中一起发送并用信号通知vr视频和元数据的实施方式。

在单个适配集合中发送视频和元数据的实施方式

与参照图22至图26描述的情况相区别,关于视点信息或区域信息的元数据可与vr视频一起在单个适配集合中发送。在这种情况下,视频数据和元数据可通过单个文件(分段或isobmff)发送。在特定实施方式中,vr视频和元数据可被配置成单个文件中的单独轨道或者配置成包括元数据的单个视频文件。

下面将依次描述vr视频和元数据被配置成单个文件中的单独轨道的实施方式和配置包括元数据的单个视频轨道的实施方式。

图27示出根据本发明的另一实施方式的用信号通知关于区域信息或视点信息的元数据的传输的mpd。

图27的实施方式对应于vr视频和关于区域信息或视点信息的元数据被配置成单个文件中的单独轨道的实施方式。vr视频和关于区域信息或视点信息的元数据被配置成单个适配集合和单个文件中的单独轨道并发送。

在图27的实施方式中,vr视频轨道和元数据轨道可由作为mpd中的adaptationset的下级元素的contentcomponent标识,并且可具有“video”和“application”的contenttype(h27010和h27020)。contentcomponent可具有role作为下级元素并且role用于指示vr视频和/或元数据(关于区域信息或视点信息的元数据)是否通过上述通过附加适配集合发送元数据的方法来发送。即,对于vr视频,“urn:mpeg:dash:role:2011”可被分配给角色方案并且“main’可被分配给值。在关于区域信息或视点信息的元数据的情况下,“urn:mpeg:dash:role:201x”可被分配给角色方案并且“dirc”可被分配给值,或者“urn:mpeg:dash:role:2011”可被分配给角色方案并且“metadata”可被分配给值。

在图27的实施方式的情况下,对于vr视频,“urn:mpeg:dash:role:2011”被分配给角色方案并且“main”被分配给值(h27030),对于关于区域信息或视点信息的元数据,“urn:mpeg:dash:role:201x”被分配给角色方案并且“dirc”被分配给值(h27040)。

图28示出根据本发明的另一实施方式的用信号通知关于区域信息或视点信息的元数据的传输的mpd。

在图28的实施方式中,vr视频和关于区域信息或视点信息的元数据被配置成单个轨道。vr视频和关于区域信息或视点信息的元数据被配置成单个适配集合和单个文件中的单个轨道。

单个文件可基本上包括单个视频轨道。关于区域信息或视点信息的元数据可按照附接到轨道的元数据的形式(例如,样本组描述)存储。在这种情况下,mpd可包括包含视频和元数据的单个适配集合以及分别指示视频和元数据是否发送的两个角色。即,在vr视频的情况下,“urn:mpeg:dash:role:2011”可被分配给角色方案并且“main”可被分配给值。另外,在关于区域信息或视点信息的元数据的情况下,“urn:mpeg:dash:role:201x”可被分配给角色方案并且“dirc”可被分配给值,或者“urn:mpeg:dash:role:2011”可被分配给角色方案并且“metadata”可被分配给值。

在图28的实施方式中,区别于图27的实施方式,用于标识vr视频和元数据的contentcomponent不作为适配集合的下级元素存在。

在图28的实施方式的情况下,对于vr视频,“urn:mpeg:dash:role:2011”被分配给角色方案并且“main”被分配给值(h28030),对于关于区域信息或视点信息的元数据,“urn:mpeg:dash:role:201x”被分配给角色方案并且“dirc”被分配给值(h28040)。

将描述与上面参照图27和图28描述的通过单个适配集合发送并用信号通知关于区域信息或视点信息的元数据的方法有关的接收机操作。

图29是根据本发明的另一实施方式的接收机的框图。

参照图29,根据本发明的另一实施方式的接收机可包括dash客户端h29020、分段解析器h29030、视频解码器h29040、dirc解析器h29050和/或投影仪/渲染器/传感器h29060。

mpd、vr内容和/或关于区域信息或视点信息的元数据可由dash服务器h29010提供并由dash客户端h29020接收。这里,接收机的dash客户端h29020可从dash服务器h29010以数据分组格式接收vr内容、mpd和/或关于区域信息或视点信息的元数据。dash客户端h29020可向dash服务器h29010请求mpd、vr内容和/或关于区域信息或视点信息的元数据。dash客户端h29020可从所接收的分组生成mpd和分段。

dash客户端h29020可解析所接收的mpd以获取关于内容(vr内容)的信息。这里,dash客户端h29020可通过上面参照图27和图28描述的关于发送关于区域信息或视点信息的元数据的适配集合的信令来识别是否存在关于区域信息或视点信息的元数据。另外,dash客户端h29020可根据接收机的能力和/或内容的使用目的来启用dirc解析器和用于dirc的分段解析器(参照图中的虚线)。例如,当接收机无法处理关于区域信息或视点信息的元数据或者根据目的不使用关于区域信息或视点信息的元数据时,可不使用(可跳过)发送关于区域信息或视点信息的元数据的适配集合。分段可被传送至分段解析器h29030。

分段解析器h29030可解析所接收的分段并将视频比特流和关于区域信息或视点信息的元数据(dirc元数据)分别传送至视频解码器h29040和dirc解析器h29050。分段解析器h29030可根据解析目标进行功能分类。即,分段解析器h29030可被分类为用于解析视频的分段的分段解析器和用于关于区域信息或视点信息的元数据的分段解析器。

视频解码器h29040可将视频比特流解码并将解码的视频比特流传送至投影仪/渲染器/传感器h29060。

dirc解析器h29050可解析dirc元数据并将解析的信息(dirc信息)传送至投影仪/渲染器/传感器h29060。

投影仪/渲染器/传感器h29060可从视频解码器h29040接收视频比特流并从dirc解析器h29050接收dirc元数据。另外,投影仪/渲染器/传感器h29060可使用dirc信息向用户提供视频数据。投影仪/渲染器/传感器h29060使用dirc信息向用户提供vr内容的方法可取决于应用。例如,可通过自动导航向用户显示由dirc指示的制作者预期的视点。作为另一示例,可根据用户的视点以用于引导制作者预期的视点的方向指示显示vr内容。

<使用mpeg-2ts发送并用信号通知关于区域信息或视点信息的元数据的方法>

参照图12至图20描述的关于区域信息或视点信息的元数据可通过mpeg-2ts发送。更具体地,关于区域信息或视点信息的元数据可通过打包基本流分组(pes分组)或传输流(ts)的适配字段来发送。

下面将依次描述通过具有唯一pid的pes分组发送关于区域信息或视点信息的元数据的实施方式以及通过ts的适配字段发送关于区域信息或视点信息的元数据的实施方式。

通过pes发送元数据的实施方式

根据实施方式,可通过以下方法通过pes分组发送关于区域信息或视点信息的元数据。包括关于区域信息或视点信息的元数据的pes分组的流idstream_id可被设定为指示私有流,并且私有流的流类型stream_type可被设定为指示关于区域信息或视点信息的元数据流。

图30示出流id以及关于分配给该流id的流的信息,图31示出流类型以及关于分配给该流类型的流的信息的一部分,图32示出通过pes分组发送的访问单元。

参照图30,当stream_id为“10111101”时,与之对应的流指示private_stream_1。当stream_id=“10111101”并且stream_type为“0x27”时,与之对应的流(vr导演剪辑信息流)是与关于区域信息或视点信息的元数据有关的流(参照图30的注释11)。参照图31,当stream_type为“0x27”时,与之对应的流是与关于区域信息或视点信息的元数据有关的流(vr导演剪辑信息流)。

图32示出通过单个pes分组发送的访问单元的配置。图32所示的访问单元(vdci_au)包括vdci_descriptor(),并且vdci_descriptor()可包括关于区域信息或视点信息的元数据。下面将描述vdci_descriptor()。

在适配字段中发送元数据的实施方式

根据实施方式,可通过以下方法通过ts的适配字段发送关于区域信息或视点信息的元数据。当关于区域信息或视点信息的元数据被包括在适配字段中并发送时,可使用标志字段来指示是否存在包括关于区域信息或视点信息的元数据的描述符,并且当标志字段指示存在包括关于区域信息或视点信息的元数据的描述符时,包括关于区域信息或视点信息的元数据的描述符可被包括在适配字段中。

图33示出根据本发明的实施方式的适配字段。

参照图33,适配字段包括vcdi_descriptor_not_present_flag。vcdi_descriptor_not_present_flag指示是否存在vcdi_descriptor()。在图33所示的实施方式中,当vcdi_descriptor_not_present_flag被设定为0时,adaptation_filed()中存在vcdi_descriptor()。

ts组件是否可在适配字段中包括关于区域信息或视点信息的元数据可通过扩展描述符来指示。当extension_descriptor_tag被分配给预设值时,extension_descriptor_tag可指示组件的适配字段可包括针对关于区域信息或视点信息的元数据的描述符。

图34示出根据本发明的实施方式的扩展描述符,图35示出包括在扩展描述符中的扩展描述符标签的值以及值的描述,图36示出根据本发明的实施方式的vdci扩展描述符。

参照图34,根据本发明的实施方式的扩展描述符可包括描述符标签、描述符长度和扩展描述符标签,并且根据扩展描述符标签的值包括描述符。

描述符标签可指示当前描述符。在图34所示的实施方式中,描述符标签可被设定为指示扩展描述符的值。在特定实施方式中,描述符标签可被设定为“63”以指示扩展描述符。这里,描述符标签的特定值可取决于实施方式。

描述符长度可以字节为单位描述对应描述符的长度。

扩展描述符标签可指示包括在扩展描述符中的特定描述符。

参照图35,扩展描述符标签的值指示包括在扩展描述符中的特定描述符。如图34和图35所示,当扩展描述符标签为0x02时,扩展描述符包括objectdescriptorupdate描述符。当扩展描述符标签为0x03时,扩展描述符包括hevc_timing_and_hrd_descriptor。当扩展描述符标签为0x04时,扩展描述符包括af_extension_descriptor。当扩展描述符标签为0x05时,扩展描述符包括vdci_extension_descriptor。

图36示出根据本发明的实施方式的vdci_extension_descriptor。

根据本发明的实施方式的vdci_extenstions_descriptor可包括vdci描述符类型。

vdci描述符类型指示vdci描述符(将在下面描述)的类型。例如,当vdci描述符类型“0x01”时,vdci描述符为2d_vcdi_descriptor()。当vdci描述符类型为“0x02”时,vdci描述符为spherical_vcdi_descriptor()。

图37和图38示出根据本发明的实施方式的vdci描述符。

更具体地,图37示出根据本发明的实施方式的2dvdci描述符,图38示出根据本发明的实施方式的球面vcdi描述符。

参照图37,示出根据本发明的实施方式的2dvdci描述符。

2d_vcdi_descriptor可包括2d_vcdi_descr_tag、2d_vdci_descr_length、reference_region_flag、duration_flag、next_vcdi_flag、reference_width、reference_height、top_left_x、top_left_y、width、height、interpolate、duration、next_top_left_x、next_top_left_y、next_width、next_height和/或next_interpolate。

2d_vcdi_descr_tag可通过向其分配唯一值来标识2dvdci描述符。

2d_vdci_descr_length可以字节为单位指示2dvdci描述符的长度。

reference_region_flag可指示是否存在reference_width和reference_height字段。在实施方式中,当reference_region_flag被设定为1时,reference_region_flag可指示存在reference_width和reference_height字段。

duration_flag可指示是否存在duration字段。在实施方式中,duration_flag当设定为1时可指示存在duration字段。

next_vcdi_flag可指示是否存在next_top_left_x、next_top_left_y、next_width和next_height字段。在实施方式中,next_vcdi_flag当设定为1时可指示存在next_top_left_x、next_top_left_y、next_width和next_height字段。

“duration”可指示当前区域的持续时间。在另一实施方式中,“duration”可指示当前区域表示时间与下一区域表示时间之间的差异。

reference_width可指示2d空间的水平大小。这里,2d空间的水平大小可由像素数表示。

reference_height可指示2d空间的垂直大小。这里,2d空间的垂直大小可由像素数表示。

top_left_x可指示要表示的区域的左上点的水平坐标。

top_left_y可指示要表示的区域的左上点的垂直坐标。

“width”可指示要表示的区域的水平大小。这里,要表示的区域的水平大小可按照像素数表示.

“height”可指示要表示的区域的垂直大小。这里,要表示的区域的垂直大小可按照像素数表示。

“interpolate”可指示先前区域与当前区域之间的值是否由线性插值的值填充。在实施方式中,当interpolate为1时,先前区域与当前区域之间的值可由线性插值的值填充。

next_top_left_x可指示要表示的下一区域的左上点的水平坐标。

next_top_left_y可指示要表示的下一区域的左上点的垂直坐标。

next_width可指示要表示的下一区域的水平大小。这里,要表示的区域的水平大小可按照像素数表示。

next_height可指示要表示的下一区域的垂直大小。这里,要表示的区域的垂直大小可按照像素数表示。

next_interpolate可指示当前区域与下一区域之间的值是否由线性插值的值填充。在实施方式中,当next_interpolate为1时,当前区域与下一区域之间的值可由线性插值的值填充。

参照图38,示出根据本发明的实施方式的球面vdci描述符。

spherical_vcdi_descriptor可包括spherical_vcdi_descr_tag、spherical_vdci_descr_length、reference_region_flag、duration_flag、next_vcdi_flag、reference_min_yaw、reference_max_yaw、reference_min_pitch、reference_max_pitch、yaw、pitch、roll、field_of_view、interpolate、duration、next_yaw、next_pitch、next_roll、next_field_of_view和/或next_interpolate。

spherical_vcdi_descr_tag可通过向其分配唯一值来指示球面vdci描述符。

spherical_vdci_descr_length可以字节为单位来指示球面vdci描述符的长度。

reference_region_flag可指示是否存在reference_min_yaw、reference_max_yaw、reference_min_pitch和reference_max_pitch字段。在实施方式中,reference_region_flag当设定为1时可指示存在reference_min_yaw、reference_max_yaw、reference_min_pitch和reference_max_pitch字段。

duration_flag可指示是否存在duration字段。在实施方式中,duration_flag当设定为1时可指示存在duration字段。

next_vcdi_flag可指示是否存在next_yaw、next_pitch、next_roll、next_field_of_view和next_interpolate字段。在实施方式中,next_vcdi_flag当设定为1时可指示存在next_yaw、next_pitch、next_roll、next_field_of_view和next_interpolate字段。

“duration”可指示当前区域的持续时间。另选地,duration可指示当前区域表示时间与下一区域表示时间之间的差异。

reference_min_yaw可指示相对于3d空间的偏航轴的旋转量的最小值。

reference_max_yaw可指示相对于3d空间的偏航轴的旋转量的最大值。

reference_min_pitch可指示相对于3d空间的俯仰轴的旋转量的最小值。

reference_max_pitch可指示相对于3d空间的俯仰轴的旋转量的最大值。

“yaw”可指示相对于要表示的区域的偏航轴的旋转量。

“pitch”可指示相对于要表示的区域的俯仰轴的旋转量。

“roll”可指示相对于要表示的区域的横滚轴的旋转量。

field_of_view可指示要表示的区域的视场。

“interpolate”可指示先前区域与当前区域之间的值是否由线性插值的值填充。在实施方式中,当interpolate为1时,先前区域与当前区域之间的值可由线性插值的值填充。

next_yaw可指示相对于要表示的下一区域的偏航轴的旋转量。

next_pitch可指示相对于要表示的下一区域的俯仰轴的旋转量。

next_roll可指示相对于要表示的下一区域的横滚轴的旋转量。

next_field_of_view可指示要表示的下一区域的视场。

next_interpolate可指示当前区域与下一区域之间的值是否由线性插值的值填充。在实施方式中,当interpolate为1时,当前区域与下一区域之间的值可由线性插值的值填充。

图37和图38中所示的2dvdci描述符和spherical_vcdi_descriptor分别是关于2d空间中的区域信息或视点信息的元数据和关于3d空间中的区域信息或视点信息的元数据的具体示例。参照图12至图20描述的元数据信息可选择性地包括在描述符中,并且包括在此实施方式的描述符中的信息可被省略。

以下,将描述与上面参照图29至图38描述的通过mpeg-2ts发送并用信号通知关于区域信息或视点信息的元数据的方法有关的接收机操作。

图39是根据本发明的另一实施方式的接收机的框图。

参照图39,根据本发明的另一实施方式的接收机可包括mpeg-2ts接收器h39020、视频解码器h39030、dirc解析器h39040和/或投影仪/渲染器/传感器h39050。

vr内容和/或关于区域信息或视点信息的元数据可由mpeg-2ts发送器h39010提供并由mpeg-2ts接收器h39020接收。这里,接收机的mpeg-2ts接收器h39020可从mpeg-2ts发送器h39010以分组格式接收vr内容和/或关于区域信息或视点信息的元数据。mpeg-2ts接收器h39020可分析所接收的mpeg-2ts分组以生成视频比特流和关于区域信息或视点信息的元数据(dirc元数据)。

这里,mpeg-2ts接收器h39020可通过上述标识通过peg或适配字段发送的关于区域信息或视点信息的元数据的方法来识别是否存在元数据。

另外,mpeg-2接收器h39020可根据接收机的能力和/或内容的使用目的来启用dirc解析器(参照图中的虚线)。例如,当接收机无法处理关于区域信息或视点信息的元数据或者根据目的不使用关于区域信息或视点信息的元数据时,可不使用(可跳过)发送关于区域信息或视点信息的元数据的适配集合。mpeg-2接收器h39020可将视频比特流和关于区域信息或视点信息的元数据(dirc元数据)传送至视频解码器h39030和dirc解析器h39040。

视频解码器h39030可将视频比特流解码并将解码的视频比特流传送至投影仪/渲染器/传感器h39050。

dirc解析器h39040可解析dirc元数据并将解析的信息(dirc信息)传送至投影仪/渲染器/传感器h39050。

投影仪/渲染器/传感器h39050可从视频解码器h39030接收视频比特流并从dirc解析器h39040接收dirc元数据。另外,投影仪/渲染器/传感器h39050可使用dirc信息来向用户提供视频数据。投影仪/渲染器/传感器h39050使用dirc信息向用户提供vr内容的方法可取决于应用。例如,由dirc指示的制作者预期的视点可通过自动导航显示给用户。作为另一示例,可根据用户的视点以用于引导制作者预期的视点的方向指示显示vr内容。

<使用视频编码层发送并用信号通知关于区域信息或视点信息的元数据的方法>

上面参照图12至图20描述的关于区域信息或视点信息的元数据可通过视频编码层(vcl)发送。更具体地,关于区域信息或视点信息的元数据可按照vclsei(补充增强信息)消息的形式发送。

图40示出根据本发明的实施方式的包括在sei消息中的关于区域信息或视点信息的元数据。

参照图40的上部,根据本发明的实施方式的sei消息的有效载荷包括关于2d空间中的区域信息或视点信息的元数据。

根据本发明的实施方式的sei消息的有效载荷可包括directors_cut_id、reference_region_flag、duration_flag、next_vcdi_flag、reference_width、reference_height、top_left_x、top_left_y、width、height、interpolate、duration、next_top_left_x、next_top_left_y、next_width、next_height和/或next_interpolate。

directors_cut_id可指示关于2d空间中的区域信息或视点信息的元数据的唯一id。当在同一流中存在关于多个2d空间中的区域信息或视点信息的元数据时,directors_cut_id可用于标识各条元数据。即,具有相同directors_cut_id的元数据形成指示单个2d空间中的区域信息或视点信息的元数据序列。

参照图33对2d_vcdi_descriptor()的描述可应用于根据本发明的实施方式的sei消息的有效载荷中包括的其它字段。

参照图40的下部,根据本发明的另一实施方式的sei消息的有效载荷包括关于3d空间中的区域信息或视点信息的元数据。

根据本发明的另一实施方式的sei消息的有效载荷可包括directors_cut_id、reference_region_flag、duration_flag、next_vcdi_flag、reference_min_yaw、reference_max_yaw、reference_min_pitch、reference_max_pitch、yaw、pitch、roll、field_of_view、interpolate、duration、next_yaw、next_pitch、next_roll、next_field_of_view和/或next_interpolate。

directors_cut_id可指示关于3d空间中的区域信息或视点信息的元数据的唯一id。当在同一流中存在关于多个3d空间中的区域信息或视点信息的元数据时,directors_cut_id可用于标识各条元数据。即,具有相同directors_cut_id的元数据形成指示单个3d空间中的区域信息或视点信息的元数据序列。

参照图34对spherical_vcdi_descriptor()的描述可应用于根据本发明的实施方式的sei消息的有效载荷中所包括的其它字段。

图41示出根据本发明的另一实施方式的包括在sei消息中的关于区域信息或视点信息的元数据。

图41所示的根据本发明的另一实施方式的元数据包括关于3d空间中的区域信息或视点信息的元数据。

根据本发明的另一实施方式的sei消息可通过上述四个大圆来设定一个或更多个区域的边界。即,sei消息可按照与图16至图19中的“区域类型”为1的情况对应的方式来设定边界。

这里,设定的区域可以是用于显示的推荐视口。

参照图41,根据本发明的另一实施方式的sei消息的有效载荷可包括omni_viewport_id、omni_viewport_cancel_flag、omni_viewport_persistence_flag、omni_viewport_cnt_minus1、omni_viewport_yaw_center、omni_viewport_pitch_center、omni_viewport_roll_center、omni_viewport_yaw_range和/或omni_viewport_pitch_range。

omni_viewport_id可指示标识一个或更多个区域的标识号。在更特定的实施方式中,omni_viewport_id可指示可用于标识推荐视口区域的目的的标识号。

omni_viewport_cancel_flag可指示先前全向视口sei消息的持久性。在实施方式中,如果omni_viewport_cancel_flag为1,则先前全向视口sei消息的持久性可被取消。如果omni_viewport_cancel_flag为0,则这可指示全向视口sei消息继续。

omni_viewport_persistence_flag可指示当前层的全向视口sei消息的持久性。在实施方式中,如果omni_viewport_persistence_flag为0,则这可指示全向视口sei消息仅应用于当前解码的画面。如果omni_viewport_persistence_flag为1,则这可指示全向视口sei消息应用于当前层。即使omni_viewport_persistence_flag为1,如果满足预定条件,则全向视口sei消息也可被设定为不再应用。

omni_viewport_cnt_minus1可指示由sei消息指示的区域的数量。在更特定的实施方式中,omni_viewport_cnt_minus1可指示由sei消息指示的推荐视口区域的数量。

omni_viewport_yaw_center可指示对应区域的中心点的偏航值。在更特定的实施方式中,omni_viewport_yaw_center[i]可指示第i区域(可以是推荐视口区域)的中心点的偏航值。

omni_viewport_pitch_center可指示对应区域的中心点的俯仰值。在更特定的实施方式中,omni_viewport_pitch_center[i]可指示第i区域(可以是推荐视口区域)的中心点的俯仰值。

omni_viewport_roll_center可指示对应区域的中心点的横滚值。在更特定的实施方式中,omni_viewport_roll_center[i]可指示第i区域(可以是推荐视口区域)的中心点的横滚值。

omni_viewport_yaw_range可通过偏航值指示区域的范围或大小。在更特定的实施方式中,omni_viewport_yaw_range[i]可通过偏航值指示第i区域的范围或大小,其中该区域可以是推荐视口区域。

omni_viewport_pitch_range可通过俯仰值指示区域的范围或大小。在更特定的实施方式中,omni_viewport_pitch_range[i]可通过俯仰值指示第i区域的范围或大小,其中该区域可以是推荐视口区域。

图40所示的vr_2d_directors_cut(payloadsize)是关于2d空间中的区域信息或视点信息的元数据的具体示例,图40和图41所示的vr_2d_directors_cut(payloadsize)和omnidirectional_viewport(payloadsize)是关于3d空间中的区域信息或视点信息的元数据的具体示例。可选地,图12至图20中描述的元数据信息可被包括在sei消息中,并且可选地,包括在sei消息中的信息可被省略。

以下,将描述与上面参照图40和41描述的通过vcl发送并用信号通知关于区域信息或视点信息的元数据的方法有关的接收机操作。

图42是根据本发明的另一实施方式的接收机的框图。

参照图42,根据本发明的另一实施方式的接收机可包括网络客户端/内容解析器h42020、视频解码器h42030、dirc解析器h42040和/或投影仪/渲染器/传感器h42050。

包括vr内容和/或关于区域信息或视点信息的元数据的视频数据可由内容/网络服务器h42010提供并由网络客户端/内容解析器h42020接收。这里,接收机的网络客户端/内容解析器h42020可从内容/网络服务器h42010以网络分组或文件的形式接收视频数据。网络客户端/内容解析器h42020可分析所接收的网络分组或文件以生成视频比特流。

网络客户端/内容解析器h42020可将视频比特流传送至视频解码器h42030。

视频解码器h42030可将视频比特流解码。视频解码器h42030可将视频比特流解码以获取视频数据和关于区域信息或视点信息的元数据(dirc元数据)。

视频解码器h42030可将视频比特流传送到投影仪/渲染器/传感器h42050。

另外,视频解码器h42030可根据接收机的能力和/或内容的使用目的来启用dirc解析器h42040并将关于区域信息或视点信息的元数据(dirc元数据)传送至dric解析器h42040。例如,当接收机无法处理关于区域信息或视点信息的元数据或者根据目的不使用关于区域信息或视点信息的元数据时,可不使用(可跳过)发送关于区域信息或视点信息的元数据的适配集合。

dirc解析器h42040可解析dirc元数据并将解析的信息(dirc信息)传送至投影仪/渲染器/传感器h42050。

投影仪/渲染器/传感器h42050可从视频解码器h42030接收视频比特流并从dirc解析器h42040接收dirc元数据。另外,投影仪/渲染器/传感器h42050可使用dirc信息来向用户提供视频数据。投影仪/渲染器/传感器h42050使用dirc信息向用户提供vr内容的方法可取决于应用。例如,由dirc指示的制作者预期的视点可通过自动导航显示给用户。作为另一示例,可根据用户的视点以用于引导制作者预期的视点的方向指示显示vr内容。

<用于360度视频服务的内容发送和接收处理和元数据>

图43是示出根据本发明的实施方式的发送和接收关于360度视频服务的内容和元数据的处理的图。

参照图43,示出用于发送和接收关于360度视频服务的内容和元数据的发送方和接收方的配置。这里,发送方配置可包括在360度视频发送装置中,接收方配置可包括在360度视频接收装置中。发送方配置和处理可包括用于生成360度视频的配置和处理。

以下,将参照图43描述发送和接收关于360度视频服务的内容和元数据的处理。

首先,360度视频发送装置可生成使用一个或更多个相机在各种方向上拍摄的一个或更多个图像(输入图像)(sh43010)。这里,360度视频发送装置可拍摄全向(360度)图像。因此,在多个方向上拍摄图像的处理可被称为获取处理。

接下来,360度视频发送装置可将拍摄的图像拼接到3d几何形状上(sh43020)。这里,3d几何形状可以是球体、立方体等。拼接处理可以是通过在3d几何形状上连接多个拍摄的图像来创建全景图像或球面图像的处理。在此实施方式中,通过图像拼接生成球面图像。

接下来,360度视频发送装置可生成关于360度视频(vr视频)的渲染特性的的渲染元数据(sh43030)。因此,生成关于360度视频(vr视频)的渲染元数据的处理可被称为制作处理。

接下来,360度视频发送装置可将拼接的图像投影到投影格式(形式几何)上,以形成矩形帧(打包的帧、打包的图像)(投影/映射,sh43040)。

该处理可被再分成将图像投影到投影格式(形式几何)上并创建投影的帧(投影的图像)的投影处理以及将投影的帧(投影的图像)映射到打包的帧(打包的图像)上的映射处理。

这里,投影格式可以是等距矩形投影、立方体投影等。拼接的图像可通过投影处理投影到2d帧上。

另外,在映射处理中,可通过调节构成投影的帧的矩形区域的布置方式和/或分辨率来配置打包的帧。此时,还可增加特定区域的质量。这里,特定区域可以是特定用户视点区域,或者可以是上述制作者预期视点区域。

此映射处理可被称为逐区域打包处理。逐区域打包处理可选择性地执行。如果不执行逐区域打包处理,则投影的帧(投影的图像)可与打包的帧(打包的图像)相同。

360度视频发送装置可在投影/映射处理中生成关于投影特性和/或映射特性的元数据。

接下来,360度视频发送装置可通过对打包的帧(打包的图像)进行编码来生成编码的视频画面(视频编码,sh43050)。

接下来,360度视频发送装置可生成包括编码的视频画面的文件或分段(sh43060)。在此实施方式中,360度视频发送装置发送包括渲染元数据和投影/映射元数据以及编码的视频画面的文件或分段。

360度视频发送装置可生成dash(基于http的动态自适应流传输)mps(媒体呈现描述)并发送mpd和分段(sh43070)。

360度视频接收装置可接收并解析dashmpd,并且请求并接收分段(sh43080)。

360度视频接收装置可接收文件或分段并从文件或分段提取编码的视频画面(sh43090)。在此实施方式中,文件或分段中包括渲染元数据和投影/映射元数据。因此,360度视频接收装置可提取渲染元数据和投影/映射元数据并分析该元数据。

接下来,360度视频接收装置可通过将编码的视频画面解码来生成打包的帧(sh43100)。

接下来,360度视频接收装置可从打包的帧(打包的图像)恢复三维几何形状的图像。在此实施方式中,360度视频接收装置可从打包的帧(打包的图像)恢复三维几何形状的球面图像(sh43110)。此时,360度视频接收装置可使用投影/映射元数据来恢复三维图像。

接下来,360度视频接收装置可在三维空间中渲染三维几何形状的图像(球面图像)(sh43130)。此时,360度视频接收装置可使用渲染元数据在三维空间中渲染三维图像。

此外,360度视频接收装置可另外使用用户视口信息(将稍后描述)在三维空间中渲染三维图像。

接下来,360度视频接收装置可在显示器上呈现三维空间中的图像(sh43140)。

360度视频接收装置可在操作期间通过检测用户的头部/眼睛的移动来跟踪用户视口信息(sh43120)。跟踪的用户视口信息可实时地生成并用于渲染360度视频的处理。

该用户视口信息也可用于渲染360度视频的处理以外的处理。例如,如果应用视图相关处理,则可根据用户视口信息执行各个步骤。

具体地,可根据用户视口信息对与包括用户视口的区域有关的视频数据执行视频解码(情况a)。

另选地,可根据用户视口信息对与包括用户视口的区域有关的文件或分段执行解封装(情况b)。

另选地,可根据用户视口信息执行与包括用户视口的区域有关的分段的接收(情况c)。

以下,将参照图44描述图43中所描述的渲染元数据和投影/映射元数据中可包括的信息。

图44示出根据本发明的实施方式的包括在渲染元数据和投影/映射元数据中的信息的示例。

根据实施方式,渲染元数据可包括vr_mapping_type、center_yaw、center_pitch、min_yaw、max_yaw、min_pitch、max_pitch、区域映射信息(即,equimapvideoinfobox、cubemapvideoinfobox)和/或立体模式。

vr_mapping_type可指示关于360度视频的映射的映射类型的信息。根据实施方式,如果vr_mapping_type的值为0,则这可指示“equirectangular”作为映射类型。如果vr_mapping_type的值为1,则这可指示“cubic”作为映射类型。如果vr_mapping_type的值为2,则这可指示“cylinder”或“panorama”作为映射类型。如果vr_mapping_type的值为3,则这可指示“pyramid”作为映射类型。

换言之,vr_mapping_type信息可指示用于将360度视频映射到2d图像(帧)上的投影方案。在上述实施方式中,如果vr_mapping_type的值为0,则这可指示使用等距矩形投影。如果vr_mapping_type的值为1,则这可指示使用立方体投影。如果vr_mapping_type的值为2,则这可指示使用圆柱体投影或全息投影。如果vr_mapping_type的值为3,则这可指示使用锥体投影。

center_yaw字段可提供与投影有360度视频数据的2d图像的中心像素和3d空间中的中心点有关的信息。在实施方式中,center_yaw字段可指示3d空间的中心点相对于拍摄空间坐标系的原点或全局坐标系的原点的旋转程度。在此实施方式中,center_yaw字段可指示旋转程度作为偏航值。

center_pitch字段可提供与投影有360度视频数据的2d图像的中心像素和3d空间中的中心点有关的信息。在实施方式中,center_pitch字段可指示3d空间的中心点相对于拍摄空间坐标系的原点或全局坐标系的原点的旋转程度。在此实施方式中,center_pitch字段可指示旋转程度作为俯仰值。

min_yaw字段可利用最小偏航值来指示在3d空间中占据的区域。此字段可指示绕偏航轴的旋转量的最小值。

max_yaw字段可利用最大偏航值来指示在3d空间中占据的区域。此字段可指示绕偏航轴的旋转量的最大值。

min_pitch字段可利用最小俯仰值来指示在3d空间中占据的区域。此字段可指示绕俯仰轴的旋转量的最小值。

max_pitch字段可利用最大俯仰值来指示在3d空间中占据的区域。此字段可指示绕俯仰轴的旋转量的最大值。

区域映射信息(即,equimapvideoinfobox、cubemapvideoinfobox)可指示作为360度视频投影到2d域上的结果的投影的画面与构成实际用作编码器的输入的打包的画面的区域之间的映射关系。另选地,区域映射信息(即,equimapvideoinfobox、cubemapvideoinfobox)可指示构成打包的画面的区域与3d域中的球面区域之间的映射关系。

立体模式字段可指示360度视频所支持的3d布局。另外,立体模式字段可指示360度视频是否支持3d。在实施方式中,如果立体模式字段的值为0,则360度视频可处于单像模式。即,投影的2d图像可仅包含一个单像视图。在这种情况下,360度视频可不支持3d。

如果立体模式字段值为1或2,则360度视频可符合左右布局和上下布局。左右布局和上下布局可分别被称为并排格式和上下格式。在左右布局的情况下,投影有左图像/右图像的2d图像可水平地布置在图像帧中。在上下布局的情况下,投影有左图像/右图像的2d图像可垂直地布置在图像帧中。如果立体模式字段具有其它值,则其可为未来使用预留。

接下来,根据本发明的实施方式的渲染元数据可包括initial_yaw、initial_pitch、initial_roll、viewport_vfov和/或viewport_hfov。

根据本发明的实施方式的渲染元数据可包括与初始视点有关的信息。关于初始视点的信息可指图8的初始视图相关元数据。

initial_yaw、initial_pitch和initial_roll字段可指示360度视频的再现的初始时间。即,可由这三个字段指示在再现时初始显示的视口的中心点。

initial_yaw字段可通过绕偏航轴旋转的方向(符号)和程度(角度)来指示在360度视频的再现中中心点的位置。

initial_pitch字段可通过绕俯仰轴旋转的方向(符号)和程度(角度)来指示在360度视频的再现中中心点的位置。

initial_roll字段可通过绕横滚轴旋转的方向(符号)和程度(角度)来指示在360度视频的再现中中心点的位置。

viewport_vfov可指示视口的垂直视场的值。在实施方式中,viewport_vfov可以是以initial_pitch作为参考(中心)的垂直视场。

viewport_hfov可指示视口的水平视场的值。在实施方式中,viewport_hfov可以是参考initial_yaw(中心)的水平视场。

在另一实施方式中,渲染元数据可提供roi(感兴趣区域)相关信息以及关于初始视点的信息。roi相关信息可指图8的roi相关元数据,并且可用于指示推荐区域。另外,roi相关信息可用于指示制作者预期区域等。

图43中描述的投影/映射元数据可如图45所示采取盒形式并被包括在文件中。

图45示出根据本发明的另一实施方式的包括投影/映射元数据的盒。

根据本发明的实施方式的vrvd盒可包括global_yaw、global_pitch、global_roll、projection_format、format_uri、mapping_flag、num_regions、pf_width、pf_height、quality_ranking、pf_reg_width、pf_reg_height、pf_reg_top、pf_reg_left、pf_reg_min_yaw、pf_reg_max_yaw、pf_reg_min_pitch、pf_reg_max_pitch、pf_reg_roll、rect_width、rect_height、rect_top、rect_left和/或rect_rotation。

global_yaw、global_pitch和global_roll可分别描述投影的偏航、俯仰和横滚。更具体地,global_yaw、global_pitch和global_roll可描述与投影的帧对应的3d渲染模型的偏航、俯仰和横滚。

在实施方式中,global_yaw、global_pitch和global_roll可基于全局坐标系以16.16的固定小数点的度为单位描述投影的偏航、俯仰和横滚。

projection_format可描述投影格式。在实施方式中,projection_format可如[cicp:编码独立媒体描述码点]中所列描述投影格式。

format_uri可描述定义projection_format的uri。在实施方式中,format_uri可描述将projection_format定义为utf-8字符的null终止串的uri。

mapping_flag可指示是否应用区域式映射或区域式打包。在实施方式中,如果mapping_flag为0,则这可指示不应用区域式映射或区域式打包。如果mapping_flag为1,则这可指示应用区域式映射或区域式打包。

如果不应用区域式映射或区域式打包,则打包的帧可具有与投影的帧相同的呈现格式。在这种情况下,可指定区域并且可描述质量分级。

num_regions可指示投影的帧中映射到打包的帧的区域的数量。在实施方式中,如果num_regions为0,则打包的帧可具有与投影的帧相同的呈现格式。

pf_width和pf_height可分别描述投影的帧的宽度和高度。

quality_ranking可描述区域的质量分级。在实施方式中,如果quality_ranking为0,则这可指示质量等级未定义。在实施方式中,如果quality_ranking[i]小于quality_ranking[j],则这可指示由索引i指示的区域具有比由索引j指示的区域更高的质量。

pf_reg_width可描述区域的宽度。更具体地,pf_reg_width[i]可描述第i区域的宽度。

在实施方式中,如果i小于num_regions-1,则pf_reg_width[i]可不为0。

pf_reg_width[num_regions-1]可为0。如果pf_reg_width[num_regions-1]为0,则mapping_flag应该等于1,并且第(num_regions-1)区域(具有i=num_regions-1的区域)包括投影的帧中未被先前区域(具有i<num_region-1的区域)覆盖的所有区域。

pf_reg_height可描述区域的高度。更具体地,pf_reg_height[i]可描述第i区域的高度。

pf_rect_top和pf_reg_left可描述投影的帧中的区域的顶部样本行和最左样本列。更具体地,pf_rect_top[i]和pf_reg_left[i]可描述投影的帧的第i区域的顶部样本行和最左样本列。在实施方式中,pf_rect_top可具有大于或等于0并且小于pf_height的值,pf_reg_left可具有大于或等于0并且小于pf_width的值。这里,0可意指投影的帧的左上角。

pf_reg_min_yaw和pf_reg_max_yaw可分别指示与投影的帧的区域对应的3d渲染模型的偏航的最小值和最大值。更具体地,pf_reg_min_yaw[i]和pf_reg_max_yaw[i]可分别指示与投影的帧的第i区域对应的3d渲染模型的偏航的最小值和最大值。

pf_reg_min_pitch和pf_reg_max_pitch可分别指示与投影的帧的区域对应的3d渲染模型的俯仰的最小值和最大值。更具体地,pf_reg_min_pitch[i]和pf_reg_max_pitch[i]可分别指示与投影的帧的第i区域对应的3d渲染模型的俯仰的最小值和最大值。

pf_reg_roll可指示与投影的帧的区域对应的3d渲染模型的横滚值。更具体地,pf_reg_roll[i]可指示与投影的帧的第i区域对应的3d渲染模型的横滚值。

rect_width、rect_height、rect_top和rect_left可分别描述打包的帧中的区域的宽度、高度、顶部样本行和最左样本列。更具体地,rect_width[i]、rect_height[i]、rect_top[i]和rect_left[i]可描述打包的帧中的第i区域的宽度、高度、顶部样本行和最左样本列。

rect_rotation可描述打包的帧中的区域的旋转值。更具体地,rect_rotation[i]可描述打包的帧中的第i区域绕第i区域的中心的旋转值。

<发送和接收制作者预期视点/区域、统计上优选视点/区域的roi元数据的方法>

以下,将描述发送/接收关于制作者预期视点/区域和统计上优选视点/区域的roi元数据的方法以及具体发送/接收操作处理。

关于vr视频服务中的制作者预期视点/区域(导演剪辑)、统计上优选视点/区域(最感兴趣区域)的信息可按照roi元数据的形式发送。在两种情况下,发送和接收操作可执行如下。

图46是示出根据本发明的另一实施方式的发送和接收关于360度视频服务的内容和元数据的处理的图。

图46所示的发送和接收关于360度视频服务的内容和元数据的处理可与上面参照图43描述的那些基本上相同。因此,下面将主要描述差异。

根据实施方式的roi元数据可发送关于指示制作者预期的视口和/或方向的制作者预期视点/区域(导演剪辑)的信息。

这种关于制作者预期视点/区域(导演剪辑)的信息可以是在制作期间或之后根据导演或内容制作者的意图确定的信息。

这种关于制作者预期视点/区域(导演剪辑)的信息可用于按照为用户装置中的应用指定的方式渲染vr视频。

包括在关于制作者预期视点/区域(导演剪辑)的信息中的视口和/或旋转信息可被呈现在球面坐标中。

关于制作者预期视点/区域(导演剪辑)的信息可在投影/映射处理之前被编辑并发送给接收方。在接收方的用户设备中,关于制作者预期视点/区域(导演剪辑)的信息可在重新投影/映射处理之后使用。即,关于制作者预期视点/区域(导演剪辑)的信息可被应用于3d模型(球面图像)以用于vr视频渲染。

由于在3d模型(球面图像)中执行关于制作者预期视点/区域(导演剪辑)的信息的编辑和使用,所以可提供比二维打包的帧或编码的视频画面更直观的信息。因此,制作者可容易地编辑关于制作者预期视点/区域(导演剪辑)的信息,并且用户装置也可容易地渲染vr图像。

图47是示出根据本发明的另一实施方式的发送和接收关于360度视频服务的内容和元数据的处理的图。

图47所示的发送和接收关于360度视频服务的内容和元数据的处理可与上面参照图43描述的那些基本上相同。因此,下面将主要描述差异。

根据另一实施方式的roi元数据可发送关于统计上优选视点/区域(最感兴趣区域)的信息。关于统计上优选视点/区域(最感兴趣区域)的信息可用于vr视频预取中的数据预取。

关于统计上优选视点/区域(最感兴趣区域)的信息可从服务/内容提供商的用户统计推导,或者可通过服务/内容提供商的预测确定。

关于统计上优选视点/区域(最感兴趣区域)的信息可用于用户装置选择为了预取而要请求的数据。

关于统计上优选视点/区域(最感兴趣区域)的信息可在投影/映射处理之前被编辑并发送到接收方。另外,包括在统计上优选视点/区域(最感兴趣区域)中的视口和/或旋转信息可按照与关于制作者预期视点/区域(导演剪辑)的信息相同的方式呈现在球面坐标中。

关于统计上优选视点/区域(最感兴趣区域)的信息可用于确定用户装置将请求预取的分段。即,关于统计上优选视点/区域(最感兴趣区域)的信息可用在接收dashmpd和分段的处理中。

尽管2d笛卡尔坐标的roi元数据在描述立方体的各个面的分段时无效,但是球面坐标在描述作为连续分段的roi元数据时可以是有利的。然而,由于投影格式不限于球体,所以可应用其它投影格式。

上述roi元数据发送/接收处理中使用的元数据的句法和语义可如图48所示给出。

图48示出根据本发明的实施方式的roi元数据。

roi元数据轨道可经由“cdsc(内容描述)”轨道参考链接到描述其的轨道。

连接到元数据轨道的媒体轨道可通过“tref”盒连接到另一媒体轨道。

sphericalcoordinates样本条目(“sphc”)提供与参考轨道关联的空间信息,并且参考轨道由球面坐标系表示。

参照图48的顶部,sphericalcoordinates样本条目可包括reference_min_yaw、reference_max_yaw、reference_min_pitch和reference_max_pitch。

reference_min_yaw、reference_max_yaw、reference_min_pitch和reference_max_pitch可在计算所有roi坐标(yaw、pitch、roll和field_of_view)的参考球面空间中以度为单位提供偏航和俯仰值的范围。

reference_min_yaw可指示参考球面空间中的偏航的最小值。

reference_max_yaw可指示参考球面空间中的偏航的最大值。

reference_min_pitch可指示参考球面空间中的俯仰的最小值。

reference_max_pitch可指示参考球面空间中的俯仰的最小值。

与sphericalcoordinates样本条目关联的球面坐标样本遵循如图48的底部所示的句法。

参照图48的底部,球面坐标样本可包括yaw、pitch、roll、field_of_view、duration和/或interpolate。

“yaw”可指示与参考轨道的媒体样本关联的区域的中心点绕偏航轴的旋转角度(以度为单位)。

“pitch”可指示与参考轨道的媒体样本关联的区域的中心点绕俯仰轴的旋转角度(以度为单位)。

“roll”可指示与参考轨道的媒体样本关联的区域的中心点绕横滚轴的旋转角度(以度为单位)。

field_of_view可指示与参考轨道的媒体样本关联的区域的视场(度)。

“duration”可指示对应球面坐标样本的持续时间。该值的时间单位可以是由元数据轨道的“mvhd”或“mdhd”盒提供的时间尺度。

“interpolate”可指示连续样本的时间连续性。在实施方式中,如果“interpolate”为真,则应用可对先前样本和当前样本之间的roi坐标值进行线性插值。如果“interpolate”为假,则可不执行先前样本和当前样本之间的插值。roi元数据轨道的同步样本的插值值为0。

根据本发明的一方面,公开了一种发送全向视频的方法。

图49是示出根据本发明的实施方式的发送全向视频的方法的流程图。

根据本发明的实施方式的发送全向视频的方法可包括获取全向视频的图像(sh49100)、将全向视频的图像投影到三维投影结构上(sh49200)、将投影到三维投影结构上的图像打包在2d帧中(sh49300)、对打包到2d帧中的图像进行编码(sh49400)以及发送包含编码的图像和关于全向视频的元数据在内的数据信号(sh49500)。

在获取全向视频的图像的步骤sh49100中,可获取全向视频的图像。如上面参照图1、图2和图4所描述的,可通过使用全向相机(360度相机、vr相机)拍摄全向视频的图像或者通过生成与全向视频对应的数据来获得全向视频的图像。

获取全向视频的图像的步骤sh49100可对应于图1的拍摄处理t1010、图2的数据输入单元中的操作以及图43、图46和图47的获取处理。

将全向视频的图像投影到三维投影结构上的步骤sh49200可包括将全向视频的图像投影到3d投影结构或3d模型。在实施方式中,3d投影结构或3d模型可以是球体、立方体、圆柱体或锥体。

将全向视频的图像投影到三维投影结构上的步骤sh49200可对应于图1的准备处理t1010的投影、图2的投影处理器中的操作、图4的投影以及图43、图46和图47的投影/映射处理的投影。

在实施方式中,发送全向视频的方法还可在获取全向视频的图像的步骤sh49100和将全向视频的图像投影到三维投影结构上的步骤sh49200之间包括将全向视频的图像连接的拼接步骤。即,全向视频的图像可通过拼接连接,并且连接的图像可被投影到3d投影结构上。

将投影到三维投影结构上的图像打包在2d帧中的步骤sh49300可以是将投影到三维投影结构上的三维图像映射到2d帧上的步骤。投影到三维投影结构上的三维图像可通过三维区域信息呈现,并且打包到2d帧中的图像可通过二维区域信息呈现。

这里,二维区域信息和三维区域信息可彼此对应。即,由二维区域信息指示的2d帧中的区域或点可与由三维区域信息指示的三维投影结构中的区域或点对应。

二维区域信息可以是参照图12、图13、图37、图40、图44和图45描述的信息,三维区域信息可以是参照图14、图15、图16、图17、图18、图38、图40、图41、图44和图45描述的信息。另外,二维区域信息和三维区域信息可以是包括在关于全向视频的元数据中的信息。

将投影到三维投影结构上的图像打包在2d帧中的步骤sh49300可对应于图1的准备处理t1010中的2d图像映射、图2的投影处理器的2d投影操作、图4的投影和映射的映射处理以及图43、图46和图47的投影/映射处理的映射。

在实施方式中,将投影到三维投影结构上的图像打包在2d帧中的步骤sh49300可包括:将投影到三维投影结构上的图像分割成预定区域;将按照预定区域分割的子图像打包在2d帧中。

将投影到三维投影结构上的图像分割成预定区域的步骤以及将按照预定区域分割的子图像打包在2d帧中的步骤可对应于图1的区域式打包处理、图2的区域式打包单元的操作以及图4的区域式打包处理。如果已执行区域式打包,则按照预定区域分割的子图像可对应于打包的帧。如果未执行区域式打包,则2d帧可与打包的帧相同。

对打包成2d帧的图像进行编码的步骤sh49400可以是根据预定编码方案对打包的图像进行编码的步骤。

对打包成2d帧的图像进行编码的步骤sh49400可对应于图1的准备处理t1010的编码处理和图2的数据编码器的操作以及图43、图46和图47的视频编码处理。

在实施方式中,如果已执行区域式打包,则对打包成2d帧的图像进行编码的步骤sh49400可以是对与各个区域对应的打包的图像进行编码的步骤。这里,对于打包的图像可使用不同的编码方案。

发送包括编码的图像和关于全向视频的元数据在内的数据信号的步骤sh49500可以是将包括编码的图像和关于全向视频的元数据在内的数据信号发送到接收装置的步骤。

发送包括编码的图像和关于全向视频的元数据在内的数据信号的步骤sh49500可对应于图1的发送处理以及图2的发送机的操作和图4所示的传送。

在实施方式中,数据信号可以是广播信号,并且编码的图像和关于全向视频的元数据可经由广播信号来发送。

在另选实施方式中,编码的图像可经由广播网络来发送,关于全向视频的元数据可经由宽带网络来发送。另选地,编码的图像可经由宽带网络来发送,关于全向视频的元数据可经由广播网络来发送。另选地,编码的图像和关于全向视频的元数据二者可经由宽带网络来发送。

关于全向视频的元数据可指接收装置处理全向视频所需的信息。关于全向视频的元数据可对应于图8所示的元数据的全部或部分,并且可指图12至图19、图20至图23、图25、图27、图28、图30至图38、图40、图41、图44、图45和/或图48所示的信息。

在特定实施方式中,关于全向视频的元数据可包括关于投影到3d投影结构上的图像的3d区域信息或者关于打包成2d帧的图像的2d区域信息。这里,2d区域信息可以是参照图12、图13、图37、图40、图44和图45描述的信息,3d区域信息可以是参照图14、图15、图16、图17、图18、图38、图40、图41、图44和图45描述的信息。此外,2d区域信息和3d区域信息可以是包括在关于全向视频的元数据中的信息。

在更特定的实施方式中,3d区域信息可用于指示投影到3d球面投影结构上的3d图像的区域。即,3d区域信息可以是指示球面的区域的信息(参见图14、图15、图16、图17、图18、图38、图40、图41、图44和图45)。在此实施方式中,3d区域信息可包括指示水平视场的水平视场信息和指示垂直视场的垂直视场信息。另外,3d区域信息还可包括偏航信息和俯仰信息,其指示用于指示水平视场和垂直视场的中心的偏航轴角度和俯仰轴角度。在实施方式中,水平视场信息和垂直视场信息可以是图14至图18的field_of_view、min_field_of_view、max_field_of_view、horizontal_field_of_view、vertical_field_of_view、reference_width、reference_height、width、height、reference_horizontal_field_of_view、reference_vertical_field_of_view、reference_viewpoint_yaw_range、reference_viewpoint_pitch_range、horizontal_field_of_view、vertical_field_of_view、viewpoint_yaw_range和/或viewpoint_pitch_range。

在实施方式中,指示用于指示水平视场和垂直视场的中心的偏航轴角度和俯仰轴角度的偏航信息和俯仰信息可以是图14至图18的center_yaw、yaw、center_pitch、pitch、reference_yaw_center、reference_pitch_center、reference_roll_center、yaw_center、pitch_center和/或roll_center。

在更特定的实施方式中,关于全向视频的元数据可包括用于标识指定球体表面的区域的区域类型的区域类型信息。区域类型可包括通过属于球体的四个大圆指定区域的第一类型以及通过属于球体的两个大圆和两个小圆指定区域的第二类型。大圆可表示穿过球体的中心的圆,小圆可表示没有穿过球体的中心的圆。这里,区域类型可指图16至图19中所描述的region_type。

关于全向视频的元数据可指示roi信息、推荐区域信息或者关于制作者预期的全向视频的视点的信息。

关于全向视频的元数据可通过isobmff文件格式、dashmpd/分段、mpeg-2ts的pes分组或适配字段和/或vcl的sei消息来发送。

在实施方式中,关于全向视频的元数据可被包括在dash(基于http的动态自适应流传输)的适配集合中并发送。这已在上面参照图22至图29详细描述。

在另一实施方式中,关于全向视频的元数据可被包括在mpeg-2ts的pes(打包基本流)分组或ts的适配字段中并发送。这已在上面参照图30至图39详细描述。

在另一实施方式中,关于全向视频的元数据可被包括在vcl(视频编码层)的sei(补充增强层)消息中。这已在上面参照图40至图42详细描述。其描述将在图40至图42以及附图的描述中详细描述。在实施方式中,球体的区域可如上面参照图41所述通过属于球体的四个大圆来指定。

根据本发明的另一方面,公开了一种发送全向视频的装置。

图50是根据本发明的实施方式的发送全向视频的装置的框图。

根据本发明的实施方式的发送全向视频的装置可包括:图像获取单元h50100,用于获取全向视频的图像;投影单元h50200,用于将全向视频的图像投影到3d投影结构上;打包单元h50300,用于将投影到3d投影结构上的图像打包成2d帧;编码器h50400,用于对打包成2d帧的图像进行编码;以及发送单元h50500,用于发送包括编码的图像和关于全向视频的元数据在内的数据信号。

图像获取单元h50100的操作可对应于上面参照图49描述的根据本发明的实施方式的发送全向视频的方法中的获取全向视频的图像的步骤sh49100,因此适用步骤sh49100的描述。

投影单元h50200的操作可对应于上面参照图49描述的根据本发明的实施方式的发送全向视频的方法中的将全向视频的图像投影到3d投影结构上的步骤sh49200,因此适用步骤sh49200的描述。

打包单元h50300的操作可对应于上面参照图49描述的根据本发明的实施方式的发送全向视频的方法中的将投影到3d投影结构上的图像打包成2d帧的步骤sh49300,因此适用步骤sh49300的描述。

编码器h50400的操作可对应于上面参照图49描述的根据本发明的实施方式的发送全向视频的方法中的对打包成2d帧的图像进行编码的步骤sh49400,因此适用步骤sh49400的描述。

发送单元h50500的操作可对应于上面参照图49描述的根据本发明的实施方式的发送全向视频的方法中的发送包括编码的图像和关于全向视频的元数据在内的数据信号的步骤sh49500,因此适用步骤sh49500的描述。

在实施方式中,发送全向视频的装置还可包括拼接器(未示出)。拼接器可将全向视频的图像连接。拼接器的操作可对应于上面参照图49描述的根据本发明的实施方式的发送全向视频的方法中的拼接步骤,因此适用拼接步骤的描述。

在实施方式中,打包单元h50300可将投影到3d投影结构上的图像分割成预定区域并将按照预定区域分割的子图像打包成2d帧。打包单元的这种区域式打包操作可对应于上面参照图49描述的根据本发明的实施方式的发送全向视频的方法中的区域式打包步骤,因此适用区域式打包步骤的描述。

关于全向视频的元数据可指接收装置处理全向视频所需的信息。关于全向视频的元数据已在上面根据本发明的实施方式的发送全向视频的方法中描述。

根据本发明的另一方面,提供了一种接收全向视频的方法。

图51是示出根据本发明的实施方式的接收全向视频的方法的流程图。

根据本发明的实施方式的接收全向视频的方法可包括:步骤sh51100,接收包括全向视频的图像和关于全向视频的元数据在内的数据信号;步骤sh51200,解析关于全向视频的元数据;步骤sh51300,将全向视频的图像解码;以及步骤sh51400,将全向视频的图像重新投影到3d模式上。

根据本发明的实施方式的接收全向视频的方法可以是与上述根据本发明的实施方式的发送全向视频的方法对应的接收方的方法。

接收包括全向视频的图像和关于全向视频的元数据在内的数据信号的步骤sh51100可以是接收包括全向视频的图像和关于全向视频的元数据在内的数据信号的步骤,并且该数据信号可发送自发送装置。

全向视频的图像可以是在根据本发明的实施方式的发送全向视频的方法中编码的图像。即,全向视频的图像可以是通过图49的步骤sh49100、sh49200、sh49300和sh49400生成的编码的图像。

接收包括全向视频的图像和关于全向视频的元数据在内的数据信号的步骤sh51100可对应于图1的接收处理、图3所示的接收单元的操作和图4的接收处理。

在实施方式中,数据信号可以是广播信号,并且全向视频的图像和关于全向视频的元数据可通过广播信号来发送。

在另选实施方式中,全向视频的图像可经由广播网络来发送,关于全向视频的元数据可经由宽带网络来发送。另选地,全向视频的图像可经由宽带网络来发送,关于全向视频的元数据可经由广播网络来发送。另选地,全向视频的图像和关于全向视频的元数据二者可经由宽带网络来发送。

关于全向视频的元数据可指接收装置处理全向视频所需的信息。关于全向视频的元数据可对应于图8所示的元数据的全部或部分,并且可指图12至图19、图20至图23、图25、图27和图28、图30至图38、图40和图41、图44和图45和/或图48的信息。

在特定实施方式中,关于全向视频的元数据可包括关于投影到3d投影结构上的图像的3d区域信息或者关于打包成2d帧的图像的2d区域信息。这里,2d区域信息可以是参照图12、图13、图37、图40、图44和图45描述的信息,3d区域信息可以是参照图14、图15、图16、图18、图38、图40、图41、图44和图45描述的信息。此外,2d区域信息和3d区域信息可以是包括在关于全向视频的元数据中的信息。

在更特定的实施方式中,3d区域信息可用于指示投影到3d球面投影结构上的3d图像的区域。即,3d区域信息可以是指示球体的区域的信息(参见图14、图15、图16、图17、图18、图38、图40、图41、图44和图45)。在此实施方式中,3d区域信息可包括指示水平视场的水平视场信息和指示垂直视场的垂直视场信息。另外,3d区域信息还可包括偏航信息和俯仰信息,其指示用于指示水平视场和垂直视场的中心的偏航轴角度和俯仰轴角度。在实施方式中,水平视场信息和垂直视场信息可以是图14至图18的field_of_view、min_field_of_view、max_field_of_view、horizontal_field_of_view、vertical_field_of_view、reference_width、reference_height、width、height、reference_horizontal_field_of_view、reference_vertical_field_of_view、reference_viewpoint_yaw_range、reference_viewpoint_pitch_range、horizontal_field_of_view、vertical_field_of_view、viewpoint_yaw_range和/或viewpoint_pitch_range。

在实施方式中,指示用于指示水平视场和垂直视场的中心的偏航轴角度和俯仰轴角度的偏航信息和俯仰信息可以是图14至图18所示的center_yaw、yaw、center_pitch、pitch、reference_yaw_center、reference_pitch_center、reference_roll_center、yaw_center、pitch_center和/或roll_center。

在更特定的实施方式中,关于全向视频的元数据可包括用于标识指定球体表面的区域的区域类型的区域类型信息。区域类型可包括通过属于球体的四个大圆指定区域的第一类型以及通过属于球体的两个大圆和两个小圆指定区域的第二类型。大圆可表示穿过球体的中心的圆,小圆可表示没有穿过球体的中心的圆。这里,区域类型可指图16至图19中所描述的region_type。

关于全向视频的元数据可指示roi信息、推荐区域信息或者关于制作者预期的全向视频的视点的信息。

关于全向视频的元数据可通过isobmff文件格式、dashmpd/分段、mpeg-2ts的pes分组或适配字段和/或vcl的sei消息来发送。

在实施方式中,关于全向视频的元数据可被包括在dash(基于http的动态自适应流传输)的适配集合中并发送。这已在上面参照图22至图29详细描述。

在另一实施方式中,关于全向视频的元数据可被包括在mpeg-2ts的pes(打包基本流)分组或ts的适配字段中并发送。这已在上面参照图30至图39详细描述。

在另一实施方式中,关于全向视频的元数据可被包括在vcl(视频编码层)的sei(补充增强层)消息中。这已在上面参照图40至图42详细描述。其描述将在图40至图42以及附图的描述中详细描述。在实施方式中,球体的区域可如上面参照图41所述通过属于球体的四个大圆来指定。

解析关于全向视频的元数据的步骤sh51200可以是解析包括在数据信号中的关于全向视频的元数据的步骤。

如上所述,关于全向视频的元数据可通过isobmff、dashmpd/分段、mpeg-2ts的pes分组或适配字段和/或vcl的sei消息来发送,因此可在各个级别解析。

将全向视频的图像解码的步骤sh51300可以是使用与用于编码的图像的编码方案对应的解码方案对编码的图像进行解码的步骤。

将全向视频的图像解码的步骤sh51300可对应于图1的解码处理、图3的数据解码器的操作、图4的视频解码或图像解码处理以及图43、图46和图47的视频解码处理。

在实施方式中,如果执行区域式打包,则将全向视频的图像解码的步骤sh51300可以是将与各个区域对应的打包的图像解码的步骤。这里,对于打包的图像可使用不同的解码方案。

在通过vcl的sei消息发送关于全向视频的元数据的实施方式中,可在步骤sh51300中提取关于全向视频的元数据。

将全向视频的图像重新投影到3d模型上的步骤sh51400可以是将打包成2d帧的图像重新投影到3d模型上的步骤。由于通过步骤sh51300解码的全向视频的图像是指打包成2d帧的图像,所以步骤sh51400可指将打包成2d帧的图像重新投影到3d模型上的步骤。这里,3d模型可与根据本发明的实施方式的发送全向视频的方法中的3d投影结构相同。

将全向视频的图像重新投影在3d模型上的步骤sh51400可对应于图1的渲染处理t1030、图3的重新投影处理器的操作、图4的视频渲染处理以及图43、图46和图47的重新投影处理和vr视频渲染处理。

在实施方式中,根据本发明的实施方式的接收全向视频的方法还可包括反馈步骤。反馈步骤是输出用户装置的视口信息或旋转信息的步骤。可基于用户装置的视口信息或旋转信息来处理与观看区域对应的数据。可在重新投影步骤、渲染步骤、图像解码步骤或传输文件或分段解封装步骤之前提供包括用户装置的视口信息或旋转信息的反馈信息。此外,反馈信息可被发送给发送方。

反馈步骤可对应于图1的反馈处理、图3的反馈处理器的操作、图4的vr应用的跟踪处理以及图46和图47的跟踪处理(头部/眼睛跟踪)。

根据本发明的另一方面,提供了一种接收全向视频的装置。

图52是根据本发明的实施方式的接收全向视频的装置的框图。

根据本发明的实施方式的接收全向视频的装置可包括:接收单元h52100,用于接收包括全向视频的图像和关于全向视频的元数据在内的数据信号;元数据解析器h52200,用于解析关于全向视频的元数据;解码器h52300,用于将全向视频的图像解码;以及渲染单元h52400,用于将全向视频的图像重新投影到3d模型上。

接收单元h52100的操作可对应于上面参照图51描述的根据本发明的实施方式的接收全向视频的方法中的接收包括全向视频的图像和关于全向视频的元数据在内的数据信号的步骤sh51100,因此适用步骤sh51100的描述。

元数据解析器h52200的操作可对应于上面参照图51描述的根据本发明的实施方式的接收全向视频的方法中的解析关于全向视频的元数据的步骤sh51200,因此适用步骤sh51200的描述。

解码器h52300的操作可对应于上面参照图51描述的根据本发明的实施方式的接收全向视频的方法中的将全向视频的图像解码的步骤sh51300,因此适用步骤sh51300的描述。

渲染单元h52400的操作可对应于上面参照图51描述的根据本发明的实施方式的接收全向视频的方法中的将全向视频的图像重新投影到3d模型上的步骤sh51400,因此适用步骤sh51400的描述。

在实施方式中,接收全向视频的装置还可包括反馈处理器(未示出)。反馈处理器可通过跟踪用户装置的视口和/或旋转来生成并输出视口信息和/或旋转信息。

关于全向视频的元数据可指接收装置处理全向视频所需的信息。关于全向视频的元数据已在上面根据本发明的实施方式的接收全向视频的方法中描述。

上述装置的内部组件可以是执行存储在存储器或硬件组件中的连续过程的处理器。处理器或硬件组件可被设置到装置的内部/外部。

根据实施方式,上述模块可被省略或者由执行相似/相同操作的其它模块代替。

上述部件、模块或单元中的每一个可以是被设计为执行存储在存储器(或存储单元)中的一系列执行步骤的处理器或硬件部件。在上述实施方式中描述的各个步骤可由处理器或硬件部件实现。在上述实施方式中描述的各个模块、各个块和/或各个单元可由处理器/硬件实现。另外,本发明的上述方法可通过记录介质中编写的代码来实现,所述记录介质被配置为由处理器读取以使得代码可由设备提供的处理器读取。

尽管为了清楚起见参照各个附图说明了本发明的描述,但是可通过将附图中所示的实施方式彼此合并来设计新的实施方式。如果本领域技术人员设计出记录有用于执行以上描述中提及的实施方式的程序的计算机可读记录介质,则其可落入所附权利要求及其等同物的范围内。

根据本发明的装置和方法可不受以上描述中提及的实施方式的配置和方法限制。在以上描述中提及的实施方式可按照选择性地彼此完全或部分地组合的方式来配置,以实现各种修改。

另外,根据本发明的方法可利用提供给网络装置的处理器可读记录介质中的处理器可读代码来实现。处理器可读介质可包括能够存储可由处理器读取的数据的所有类型的记录装置。处理器可读介质可包括rom、ram、cd-rom、磁带、软盘、光学数据存储装置等中的一个,并且还包括载波型实现方式(例如,经由互联网的传输)。此外,当处理器可读记录介质被分发给经由网络连接的计算机系统时,可按照分布式方式保存和执行处理器可读代码。

尽管已参照示例性实施方式描述了本发明,但是本领域技术人员将理解,在不脱离所附权利要求中描述的本发明的精神或范围的情况下,可对本发明进行各种修改和变化。例如,本领域技术人员可将上述实施方式中描述的各个构造彼此组合使用。因此,本发明不应限于本文所描述的具体实施方式,而应符合与本文所公开的原理和新颖特征一致的最宽范围。

本领域技术人员将理解,在不脱离本发明的精神或范围的情况下,可对本发明进行各种修改和变化。因此,本发明旨在覆盖对本发明的修改和变化,只要其落入所附权利要求及其等同物的范围内。

在本说明书中提及了设备和方法发明二者,并且设备和方法发明二者的描述可彼此互补地应用。

本发明的模式

已在具体实施方式中描述了各种实施方式。

工业实用性

本发明可用在一系列广播信号提供领域中。

对于本领域技术人员而言将显而易见的是,在不脱离本发明的精神或范围的情况下,可对本发明进行各种修改和变化。因此,本发明旨在覆盖对本发明的修改和变化,只要其落入所附权利要求及其等同物的范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1