信息处理装置和信息处理方法与流程

文档序号:11142441阅读:273来源:国知局
信息处理装置和信息处理方法与制造工艺

本公开涉及信息处理装置和信息处理方法,并且更具体地,涉及能够提高在多种类型的音频数据之中获取预定类型的音频数据的效率的信息处理装置和信息处理方法。



背景技术:

最近最流行的流传输服务之一是经由互联网的互联网视频(OTT-V)。通过HTTP的运动图像专家组相位动态自适应流传输(MPEG-DASH)被广泛用作其底层技术(参见,例如非专利文献1)。

在MPEG-DASH中,传送服务器为一个视频内容项准备具有不同屏幕尺寸和编码率的一组视频数据,并且播放终端根据传输线路条件请求具有最佳屏幕尺寸和编码率的一组视频数据,因此实现自适应流传送。

引用文献列表

非专利文献

非专利文献1:MPEG-DASH(通过HTTP的动态自适应流传输)(URL:http://mpeg.chiariglione.org/standards/mpeg-dash/media-presentation-de scription-and-segment-formats/text-isoiec-23009-12012-dam-1)



技术实现要素:

本发明要解决的问题

然而,没有考虑到提高在视频内容的多种类型的音频数据之中获取预定类型的音频数据的效率。

本公开鉴于上述情况而做出并能够提高在多种类型的音频数据之中获取预定类型的音频数据的效率。

问题的解决方案

根据本公开的第一方面的信息处理装置为包括获取单元的信息处理装置,该获取单元获取文件的预定轨道中的音频数据,其中,多种类型的音频数据根据类型被划分为多个轨道并且该轨道被布置。

根据本公开的第一方面的信息处理方法对应于根据本公开的第一方面的信息处理装置。

在本公开的第一方面,获取文件中的预定轨道的音频数据,其中,多种类型的音频数据根据被布置的类型和轨道被划分为多个轨道。

根据本公开的第二方面的信息处理装置为包括生成单元的信息处理装置,该生成单元生成多种类型的音频数据根据被布置的类型和轨道被划分为多个轨道的文件。

根据本公开的第二方面的信息处理方法对应于根据本公开的第二方面的信息处理装置。

在本公开的第二方面,生成多种类型的音频数据根据被布置的类型和轨道被划分为多个轨道的文件。

应指出,根据第一方面和第二方面的信息处理装置可以通过促使计算机执行程序来实施。

此外,为了实现根据第一方面和第二方面的信息处理装置,由计算机执行的程序可以经由传输介质通过传送程序或通过在记录介质中记录程序来提供。

本发明的效果

根据本公开的第一方面,可以获取音频数据。此外,根据本公开的第一方面,多种类型的音频数据之中的特定类型的音频数据可以被高效获取。

根据本公开的第二方面,可以生成文件。此外,根据本公开的第二方面,可以生成提高获取多种类型的音频数据之中的特定类型的音频数据的效率的文件。

附图说明

图1为示出应用本公开的信息处理系统的第一示例的概述的示意图。

图2为示出文件的示例的示意图。

图3为示出对象的示意图。

图4为示出对象位置信息的示意图。

图5为示出图像帧尺寸信息的示意图。

图6为示出MPD文件的结构的示意图。

图7为示出在“Period”、“Representation”和“Segment”之间的关系的示意图。

图8为示出MPD文件的分层结构的示意图。

图9为示出在MPD文件的结构和时间轴之间的关系的示意图。

图10为示出MPD文件的示例性描述的示意图。

图11为示出文件生成装置的配置示例的框图。

图12为示出文件生成装置的文件生成过程的流程图。

图13为示出流播放单元的配置示例的框图。

图14为示出流播放单元的流播放过程的流程图。

图15为示出MPD文件的示例性描述的示意图。

图16为示出MPD文件的另一示例性描述的示意图。

图17为示出音频流的布置示例的示意图。

图18为示出gsix的示例性描述的示意图。

图19为示出指示在样本组条目和对象ID之间的对应关系的信息的示例的示意图。

图20为示出AudioObjectSampleGroupEntry的示例性描述的示意图。

图21为示出类型分配盒的示例性描述的示意图。

图22为示出应用本公开的信息处理系统的第二示例的概述的示意图。

图23为示出应用本公开的信息处理系统的流播放单元的配置示例的框图。

图24为示出确定对象的位置的方法的示意图。

图25为示出确定对象的位置的方法的示意图。

图26为示出确定对象的位置的方法的示意图。

图27为示出在水平角θAi和水平角θAi'之间的关系的示意图。

图28为示出在图23中示出的流播放单元的流播放过程的流程图。

图29为示出在图28中示出的位置确定过程的细节的流程图。

图30为示出在图29中示出的水平角θAi'估算过程的细节的流程图。

图31为示出MP4的3D音频文件格式的轨道的概述的示意图。

图32为示出moov盒的结构的示意图。

图33为示出根据应用本公开的第一实施例的轨道的概述的示意图。

图34为示出在图33中示出的基本轨道的样本条目的示例性语法的示意图。

图35为示出在图33中示出的声道轨道的样本条目的示例性语法的示意图。

图36为示出在图33中示出的对象音频轨道的样本条目的示例性语法的示意图。

图37为示出在图33中示出的HOA音频轨道的样本条目的示例性语法的示意图。

图38为示出在图33中示出的对象元数据轨道的样本条目的示例性语法的示意图。

图39为示出片段结构的第一示例的示意图。

图40为示出片段结构的第二示例的示意图。

图41为示出级别分配盒的示例性描述的示意图。

图42为示出在应用本公开的第一实施例中的MDF文件的示例性描述的示意图。

图43为基本属性的定义的示意图。

图44为示出在应用本公开的第一实施例中的信息处理系统的概述的示意图。

图45为示出在图44中示出的文件生成装置的配置示例的框图。

图46为示出在图45中示出的文件生成装置的文件生成过程的流程图。

图47为示出由在图44中示出的视频播放终端实施的流播放单元的配置示例的框图。

图48为示出在图47中示出的流播放单元的声道音频播放过程的流程图。

图49为示出在图47中示出的流播放单元的对象指定过程的流程图。

图50为示出在图47中示出的流播放单元的指定对象音频播放过程的流程图。

图51为示出在应用本公开的第二实施例中的轨道的概述的示意图。

图52为示出在图51中示出的基本轨道的样本条目的示例性语法的示意图。

图53为示出基本样本的结构的示意图。

图54为示出基本样本的示例性语法的示意图。

图55为示出提取器的数据的示例的示意图。

图56为示出在应用本公开的第三实施例中的轨道的概述的示意图。

图57为示出在应用本公开的第四实施例中的轨道的概述的示意图。

图58为示出在应用本公开的第四实施例中的MDF文件的示例性描述的示意图。

图59为示出在应用本公开的第四实施例中的信息处理系统的概述的示意图。

图60为示出在图59中示出的文件生成装置的配置示例的框图。

图61为示出在图60中示出的文件生成装置的文件生成过程的流程图。

图62为示出由在图59中示出的视频播放终端实施的流播放单元的配置示例的框图。

图63为示出在图62中示出的流播放单元的声道音频播放过程的示例的流程图。

图64为示出在图62中示出的流播放单元的对象音频播放过程的第一示例的流程图。

图65为示出在图62中示出的流播放单元的对象音频播放过程的第二示例的流程图。

图66为示出在图62中示出的流播放单元的对象音频播放过程的第三示例的流程图。

图67为示出基于优先级选择的对象的示例的示意图。

图68为示出在应用本公开的第五实施例中的轨道的概述的示意图。

图69为示出在应用本公开的第六实施例中的轨道的概述的示意图。

图70为示出3D音频的分层结构的示意图。

图71为示出Web服务器过程的第一示例的示意图。

图72为示出Web服务器的轨道划分过程的流程图。

图73为示出音频解码处理单元的过程的第一示例的示意图。

图74为示出音频解码处理单元的解码过程的第一示例的细节的流程图。

图75为示出音频解码处理单元的过程的第二示例的示意图。

图76为示出音频解码处理单元的解码过程的第二示例的细节的流程图。

图77为示出Web服务器过程的第二示例的示意图。

图78为示出音频解码处理单元的过程的第三示例的示意图。

图79为示出音频解码处理单元的解码过程的第三示例的细节的流程图。

图80为示出被设置在基本样本中的配置信息的语法的第二示例的示意图。

图81为用于在图80中示出的Ext元件的配置信息的示例性语法。

图82为示出用于在图81中示出的提取器的配置信息的示例性语法的示意图。

图83为示出被设置在基本样本中的帧单元的数据语法的第二示例的示意图。

图84为示出在图83中示出的提取器的示例性数据语法的示意图。

图85为示出被设置在基本样本中的配置信息的语法的第三示例的示意图。

图86为示出被设置在基本样本中的帧单元的数据语法的第三示例的示意图。

图87为示出在应用本公开的信息处理系统的第七实施例中的音频流的配置示例的示意图。

图88为示出在第七实施例中的轨道的概述的示意图。

图89为示出在第七实施例中的文件生成过程的流程图。

图90为示出在第七实施例中的音频播放过程的流程图。

图91为示出应用本公开的信息处理系统的第八实施例中的轨道的概述的示意图。

图92为示出音频文件的配置示例的示意图。

图93为示出音频文件的另一配置示例的示意图。

图94为示出音频文件的又一配置示例的示意图。

图95为示出计算机的硬件的配置示例的框图。

具体实施方式

用于实施本公开的模式(在下文中,称为实施例)将在下面按以下顺序描述。

0.本公开的预述(图1至30)

1.第一实施例(图31至50)

2.第二实施例(图51至55)

3.第三实施例(图56)

4.第四实施例(图57至67)

5.第五实施例(图68)

6.第六实施例(图69)

7.3D音频的分层结构的说明(图70)

8.Web服务器过程的第一示例的说明(图71和72)

9.音频解码处理单元的过程的第一示例的说明(图73和74)

10.音频解码处理单元的过程的第二示例的说明(图75和76)

11.Web服务器过程的第二示例的说明(图77)

12.音频解码处理单元的过程的第三示例的说明(图78和79)

13.基本样本的语法的第二示例(图80至84)

14.基本样本的语法的第三示例(图85和86)

15.第七实施例(图87至90)

16.第八实施例(图91至94)

17.第九实施例(图95)

<本公开的预述>

(信息处理系统的第一示例的概述)

图1为示出应用本公开的信息处理系统的第一示例的概述的示意图。

如图1所示的信息处理系统10具有一配置,其中Web服务器12(其被连接到文件生成装置11)以及视频播放终端14经由互联网13连接。

在信息处理系统10中,Web服务器12通过兼容MPEG-DASH的方法向视频播放终端14传送以瓦片(tile)为单位的视频内容的图像数据(瓦片流传输)。

具体地,文件生成装置11获取视频内容的图像数据并以瓦片为单位编码图像数据以生成视频流。文件生成装置11将每个瓦片的视频流处理为时间间隔从几秒到约十秒的文件格式,该文件格式被称为片段。文件生成装置11向Web服务器12上传所得的每个瓦片的图像文件。

此外,文件生成装置11获取每个对象的视频内容的音频数据(后面详细描述)并以对象为单位编码图像数据以生成音频流。文件生成装置11将每个对象的音频流处理为以片段为单位的文件格式,并向Web服务器12上传所得的每个对象的音频文件。

应指出,每个对象为声音源。每个对象的音频数据通过附接到该对象的麦克风或类似装置来获取。该对象可为诸如固定麦克风支架的物体或可为诸如人的移动体。

文件生成装置11编码音频元数据,该音频元数据包含指示每个对象的位置(获取音频数据的位置)的对象位置信息(音频位置信息)和作为对象的唯一ID的对象ID。文件生成装置11将通过编码音频元数据所获得的编码数据处理为以片段为单位的文件格式,并向Web服务器12上传所得的音频元文件。

此外,文件生成装置11生成媒体表示描述(MPD)文件(控制信息),其管理图像文件和音频文件并包含指示视频内容的图像的帧尺寸的图像帧尺寸信息和指示图像上的每个瓦片的位置的位置信息。文件生成装置11向Web服务器12上传MPD文件。

Web服务器12存储图像文件、音频文件、音频元文件和从文件生成装置11上传的MPD文件。

在如图1所示的示例中,Web服务器12存储由瓦片ID为“1”的瓦片的图像文件组成的多个片段的片段组和由瓦片ID为“2”的瓦片的图像文件组成的多个片段的片段组。Web服务器12也存储由对象ID为“1”的对象的音频文件组成的多个片段的片段组和由对象ID为“2”的对象的音频文件组成的多个片段的片段组。虽然未示出,但是也类似地存储由音频元文件组成的片段组。

应指出,瓦片ID为i的文件在下文中被称为“瓦片#i”,以及对象ID为i的对象在下文中被称为“对象#i”。

Web服务器12充当发送器并响应于来自视频播放终端14的请求向视频播放终端14发送所存储的图像文件、音频文件、音频元文件、MPD文件等。

视频播放终端14执行例如用于控制流传输数据的软件21(在下文中被称为控制软件)、视频播放软件22和用于超文本传输协议(HTTP)访问的客户端软件23(在下文中被称为访问软件)。

控制软件21为控制经由流传输从Web服务器12递送的数据的软件。具体地,控制软件21允许视频播放终端14从Web服务器12获取MPD文件。

此外,控制软件21基于显示区域和被包含在MPD文件中的瓦片位置信息来指定在显示区域中的瓦片,该显示区域为在图像中的区域,用于显示由视频播放软件22指示的视频内容。控制软件21命令访问软件23发出发送指定瓦片的图像文件的请求。

此外,控制软件21命令访问软件23发出发送音频元文件的请求。控制软件21基于显示区域、被包含在MPD文件中的图像帧尺寸信息和被包含在音频元文件中的对象位置信息来指定对应于在该显示区域中的图像的对象。控制软件21命令访问软件23发出发送指定对象的音频文件的请求。

视频播放软件22为播放从Web服务器12获取的图像文件和音频文件的软件。具体地,在使用者指定显示区域时,视频播放软件22向控制软件21指示该指定的显示区域。视频播放软件22响应于该指示来解码从Web服务器12获取的图像文件和音频文件,并且视频播放软件22合成并输出所解码的文件。

访问软件23为控制使用HTTP经由互联网13与Web服务器12通信的软件。具体地,访问软件23允许视频播放终端14响应于控制软件21的指令发送请求发送图像文件、音频文件和音频元文件的请求。此外,访问软件23允许视频播放终端14响应于该发送请求接收从Web服务器12所发送的图像文件、音频文件和音频元文件。

(瓦片的示例)

图2为示出瓦片的示例的示意图。

如图2所示,视频内容的图像被划分为多个瓦片。作为从1开始的顺序号的瓦片ID被分配给每个瓦片。在图2所示的示例中,视频内容的图像被划分为四个瓦片#1至#4。

(对象的解释)

图3为示出对象的示意图。

图3的示例示出获取图像中的八个音频对象作为视频内容的音频。作为从1开始的顺序号的对象ID被分配给每个对象。对象#1至#5为移动体,以及对象#6至#8为固定物体。此外,在图3的示例中,视频内容的图像被划分为7(宽度)×5(高度)个瓦片。

在此情况下,如图3所示,在使用者指定由3(宽度)×2(高度)个瓦片组成的显示区域31时,显示区域31仅包含对象#1、#2和#6。因此,视频播放终端14仅从Web服务器12获取例如对象#1、#2和#6的音频文件并播放。

在显示区域31中的对象可基于图像帧尺寸信息和对象位置信息来指定,如下所述。

(对象位置信息的解释)

图4为示出对象位置信息的示意图。

如图4所示,对象位置信息包含对象40的水平角θA(-180°≤θA≤180°)、垂直角γA(-90°≤γA≤90°)和距离rA(0<rA)。例如在以下设置时,水平角θA为由连接对象40和原点O的直线与YZ平面形成的在水平方向的角度:图像的中心的拍摄位置可被设置为原点(基点)O;图像的水平方向被设置为X方向;图像的垂直方向被设置为Y方向;以及垂直于XY平面的深度方向被设置为Z方向。垂直角γA为由连接对象40和原点O的直线与XZ平面所形成的在垂直方向的角度。距离rA为在对象40和原点O之间的距离。

此外,在本文中,假设向左和上旋转的角度被设置为正的角度,以及向右和下旋转的角度被设置为负的角度。

(图像帧尺寸信息的解释)

图5为示出图像帧尺寸信息的示意图。

如图5所示,图像帧尺寸信息包含在图像帧中的左端的水平角θv1、右端的水平角θv2、上端的垂直角γv1、下端的垂直角γv2以及距离rv

例如在图像的中心的拍摄位置被设置为原点O;图像的水平方向被设置为X方向;图像的垂直方向被设置为Y方向;以及垂直于XY平面的深度方向被设置为Z方向时,水平角θv1为连接图像帧的左端和原点O的直线与YZ平面形成的在水平方向的角度。水平角θv2为连接图像帧的右端和原点O的直线与YZ平面所形成的在水平方向的角度。因此,通过组合水平角θv1和水平角θv2获得的角度为水平视角。

垂直角γV1为XZ平面与连接图像帧的上端以及原点O的直线形成的角度,以及垂直角γv2为由XZ平面与连接图像帧的下端以及原点O的直线形成的角度。通过组合垂直角γV1和γv2获得的角度变为垂直视角。距离rv为在原点O和图像平面之间的距离。

如上所述,对象位置信息表示对象40和原点O之间的位置关系,以及图像帧尺寸信息表示图像帧和原点O之间的位置关系。因此,基于对象位置信息和图像帧尺寸信息检测(识别)每个对象在图像上的位置是可能的。因此,指定在显示区域31中的对象是可能的。

(MPD文件的结构的说明)

图6为示出MPD文件的结构的示意图。

在MPD文件的分析(解析)中,视频播放终端14从被包含在MPD文件的“Period”(“周期”)中的“Representation”(“表示”)的属性之中选择最佳属性(在图6中的Media Presentation(“媒体展示”))。

通过参考在所选的“Representation”(表示)的头部的“Initialization Segment”(“初始化片段”)的统一资源定位符(URL)等,视频播放终端14获取文件并处理所获取的文件。接着,通过参考后续“Media Segment”(“媒体片段”)的URL等,视频播放终端14获取文件并播放所获取的文件。

应指出,在MPD文件中,在Period”(周期)、“Representation”(表示)和“Segment”(“片段”)之间的关系变为如图7所示。换句话说,单个视频内容项可通过Period”(周期)而以比片段更长的时间单位来被管理,并且可以由每个Period”(周期)中通过“Segment”(“片段”)而以片段为单位来被管理。此外,在每个Period”(周期)中,可以通过“Representation”(表示)以流属性为单位来管理视频内容。

因此,MPD文件具有如图8所示的从Period”(周期)开始的分层结构。此外,被布置在时间轴上的MPD文件的结构变为如图9所示的配置。从图9可以清楚看出,在相同片段中存在多个“Representation”(表示)元素。视频播放终端14从这些元素之中自适应地选择任一个,并因此可以在由使用者所选的显示区域中获取图像文件和音频文件并播放所获取的文件。

(MPD文件的描述的解释)

图10为示出MPD文件的描述的示意图。

如上所述,在信息处理系统10中,图像帧尺寸信息被包含在MPD文件中以允许在显示区域中的对象由视频播放终端14指定。如图10所示,用于定义新的图像帧尺寸信息(视度)的方案(urn:mpeg:DASH:viewingAngle:2013)通过利用Viewpoint(视点)的DescriptorType元素来扩展,并因此图像帧尺寸信息被布置在用于音频的“Adaptation Set”(“自适应集”)中和用于图像的“Adaptation Set”(“自适应集”)中。图像帧尺寸信息可只被布置在用于图像的“Adaptation Set”(“自适应集”)中。

此外,用于音频元文件的“Representation”(“表示”)在用于MPD文件的音频的“Adaptation Set”(“自适应集”)中描述。作为用于指定音频元文件(audiometadata.mp4)的信息的URL等在“Representation”(“表示”)的“Segment”(“片段”)中描述。在此情况下,描述了要在“片段”中指定的文件为利用Role(角色)元素的音频元文件(objectaudiometadata)。

用于每个对象的音频元文件的“Representation”(“表示”)也在用于MPD文件的音频的“Adaptation Set”(“自适应集”)中描述。作为用于指定每个对象的音频文件(audioObje1.mp4,audioObje5.mp4)的信息的URL等在“Representation”(“表示”)的“Segment”(“片段”)中描述。在此情况下,对应于音频文件的对象的对象ID(1和5)也通过扩展的Viewpoint(视点)来描述。

应指出,虽然未示出,瓦片位置信息被布置在用于图像的“Adaptation Set”(“自适应集”)中。

(文件生成装置的配置示例)

图11为示出在图1中示出的文件生成装置11的配置示例的框图。

如图11所示的文件生成装置11包括屏幕拆分处理单元51、图像编码处理单元52、图像文件生成单元53、图像信息生成单元54、音频编码处理单元55、音频文件生成单元56、MPD生成单元57和服务器上传处理单元58。

文件生成装置11的屏幕拆分处理单元51将从外面输入的视频内容的图像数据拆分为瓦片单元。屏幕拆分处理单元51向图像信息生成单元54提供瓦片位置信息。此外,屏幕拆分处理单元51向图像编码处理单元提供以瓦片为单位配置的图像数据。

图像编码处理单元52针对每个瓦片对(以瓦片为单位来配置并从屏幕拆分处理单元51提供的)图像数据进行编码以生成视频流。图像编码处理单元52向图像文件生成单元53提供每个瓦片的视频流。

图像文件生成单元53将从图像编码处理单元52提供的每个瓦片的视频流处理为以片段为单位的文件格式并向MPD生成单元57提供所得的每个瓦片的图像文件。

图像信息生成单元54向MPD生成单元57提供从屏幕拆分处理单元51所提供的瓦片位置信息和作为图像信息的从外面输入的图像帧尺寸信息。

音频编码处理单元55针对每个对象,编码音频数据并生成音频流,该音频数据被配置成以从外面输入的视频内容的对象为单位。此外,音频编码处理单元55编码从外面输入的每个对象的对象位置信息和包含对象ID等的音频元数据以生成编码数据。音频编码处理单元55向音频文件生成单元56提供每个对象的音频流和音频元数据的编码数据。

音频文件生成单元56充当音频文件生成单元,将从音频编码处理单元55提供的每个对象的音频流处理为以片段为单位的文件格式并向MPD生成单元57提供所得的每个对象的音频文件。

此外,音频文件生成单元56充当元文件生成单元,将从音频编码处理单元55提供的音频元数据的编码数据处理为以片段为单位的文件格式并向MPD生成单元57提供所得的音频元文件。

MPD生成单元57确定用于存储从图像文件生成单元53提供的每个瓦片的图像文件的Web服务器12的URL等。此外,MPD生成单元57确定用于存储从音频文件生成单元56提供的每个对象的音频文件和音频元文件的Web服务器12的URL等。

MPD生成单元57在用于MPD文件的图像的“Adaptation Set”(“自适应集”)中布置从图像信息生成单元54提供的图像信息。此外,MPD生成单元57在用于MPD文件的音频的“Adaptation Set”(“自适应集”)中布置图像信息块之中的图像帧尺寸信息。MPD生成单元57在用于瓦片的图像文件的“Representation”(“表示”)的“Segment”(“片段”)中布置每个瓦片的图像文件的URL等。

MPD生成单元57在用于对象的音频文件的“Representation”(“表示”)的“Segment”(“片段”)中布置每个对象的音频文件的URL等。此外,MPD生成单元57充当信息生成单元并在用于音频元文件的“Representation”(“表示”)的“Segment”(“片段”)中布置URL等作为用于指定音频元文件的信息。MPD生成单元57向服务器上传处理单元58提供MPD文件、图像文件、音频文件和音频元文件,其中在MPD文件中,各种类型的信息如上所述进行布置。

服务器上传处理单元58向Web服务器12上传从MPD生成单元57提供的每个瓦片的图像文件、每个对象的音频文件、音频元文件和MPD文件。

(文件生成装置的过程的说明)

图12为示出在图11中示出的文件生成装置11的文件生成过程的流程图。

在图12的步骤S11中,文件生成装置11的屏幕拆分处理单元51将从外面输入的视频内容的图像数据拆分为瓦片单元。屏幕拆分处理单元51向图像信息生成单元54提供瓦片位置信息。此外,屏幕拆分处理单元51向图像编码处理单元52提供以瓦片为单位配置的图像数据。

在步骤S12中,图像编码处理单元52针对每个瓦片对从屏幕拆分处理单元51提供的以瓦片为单位配置的图像数据进行编码,以生成每个瓦片的视频流。图像编码处理单元52向图像文件生成单元53提供每个瓦片的视频流。

在步骤S13中,图像文件生成单元53将从图像编码处理单元52提供的每个瓦片的视频流处理为以片段为单位的文件格式以生成每个瓦片的图像文件。图像文件生成单元53向MPD生成单元57提供每个瓦片的图像文件。

在步骤S14中,图像信息生成单元54从外面获取图像帧尺寸信息。在步骤S15中,图像信息生成单元54生成包含从屏幕拆分处理单元51提供的瓦片位置信息和图像帧尺寸信息的图像信息,并向MPD生成单元57提供图像信息。

在步骤S16中,音频编码处理单元55针对每个对象编码音频数据并生成每个对象的音频流,其中该音频数据以从外面输入的视频内容的对象为单位配置。此外,音频编码处理单元55编码从外面输入的每个对象的对象位置信息和包含对象ID的音频元数据以生成编码数据。音频编码处理单元55向音频文件生成单元56提供每个对象的音频流和音频元数据的编码数据。

在步骤S17中,音频文件生成单元56将从音频编码处理单元55提供的每个对象的音频流处理为以片段为单位的文件格式以生成每个对象的音频文件。此外,音频文件生成单元56将从音频编码处理单元55提供的音频元数据的编码数据处理为以片段为单位的文件格式以生成音频元文件。音频文件生成单元56向MPD生成单元57提供每个对象的音频文件和音频元文件。

在步骤S18中,MPD生成单元57生成包含从图像信息生成单元54提供的图像信息、每个文件的URL等的MPD文件。MPD生成单元57向服务器上传处理单元58提供MPD文件、每个瓦片的图像文件、每个对象的音频文件和音频元文件。

在步骤S19中,服务器上传处理单元58向Web服务器12上传从MPD生成单元57提供的每个瓦片的图像文件、每个对象的音频文件、音频元文件和MPD文件。接着该过程终止。

(视频播放终端的功能配置示例)

图13为示出流播放单元的配置示例的框图,该流播放单元以如图1所示的视频播放终端14执行控制软件21、视频播放软件22和访问软件23的方式实施。

如图13所示的流播放单元90包括MPD获取单元91、MPD处理单元92、元文件获取单元93、音频选择单元94、音频文件获取单元95、音频解码处理单元96、音频合成处理单元97、图像选择单元98、图像文件获取单元99、图像解码处理单元100和图像合成处理单元101。

流播放单元90的MPD获取单元91充当接收器、从Web服务器12获取MPD文件并向MPD处理单元92提供该MPD文件。

MPD处理单元92从提供自MPD获取单元91的MPD文件提取信息(诸如在用于音频元文件的“Segment”(“片段”)中描述的URL),并向元文件获取单元93提供所提取的信息。此外,MPD处理单元92从MPD文件提取在用于图像的“Adaptation Set”(“自适应集”)中描述的图像帧尺寸信息并向音频选择单元94提供所提取的信息。MPD处理单元92从MPD文件提取信息(诸如在用于从音频选择单元94所请求的对象的音频文件的Segment”(“片段”)中描述的URL),并向音频选择单元94提供所提取的信息。

MPD处理单元92从MPD文件提取在用于图像的“Adaptation Set”(“自适应集”)中描述的瓦片位置信息并向图像选择单元98提供所提取的信息。MPD处理单元92从MPD文件提取信息(诸如在用于从图像选择单元98所请求的瓦片的图像文件的“Segment”(“片段”)中描述的URL),并向图像选择单元98提供所提取的信息。

基于信息(诸如从MPD处理单元92提供的URL),元文件获取单元93请求Web服务器12发送由该URL指定的音频元文件,并获取该音频元文件。元文件获取单元93向音频选择单元94提供被包含在该音频元文件中的对象位置信息。

音频选择单元94充当位置确定单元并基于从MPD处理单元92提供的图像帧尺寸信息和从元文件获取单元93提供的对象位置信息计算在图像上的每个对象的位置。音频选择单元94基于在图像上的每个对象的位置选择由使用者指定的显示区域中的对象。音频选择单元94请求MPD处理单元92发送信息(诸如所选对象的音频文件的URL)。音频选择单元94响应于该请求,向音频文件获取单元95提供信息(诸如从MPD处理单元92提供的URL)。

音频文件获取单元95充当接收器。基于诸如从音频选择单元94提供的URL的信息,音频文件获取单元95请求Web服务器12发送由URL指定并以对象为单位配置的音频文件,并获取该音频文件。音频文件获取单元95向音频解码处理单元96提供所获取的以对象为单位的音频文件。

音频解码处理单元96解码被包含在从音频文件获取单元95提供并以对象为单位配置的音频文件中的音频流,以生成以对象为单位的音频数据。音频解码处理单元96向音频合成处理单元97提供以对象为单位的音频数据。

音频合成处理单元97合成从音频解码处理单元96提供并以对象为单位配置的音频数据并输出该合成数据。

图像选择单元98基于从MPD处理单元92提供的瓦片位置信息选择由使用者指定的显示区域中的瓦片。图像选择单元98请求MPD处理单元92发送诸如所选瓦片的图像文件的URL的信息。图像选择单元98响应于该请求,向图像文件获取单元99提供诸如从MPD处理单元92提供的URL的信息。

基于诸如从图像选择单元98提供的URL的信息,图像文件获取单元99请求Web服务器12发送由URL指定并以瓦片为单位配置的图像文件,并获取该图像文件。图像文件获取单元99向图像解码处理单元100提供所获取的以瓦片为单位的图像文件。

图像解码处理单元100解码视频流(该视频流被包含在从图像文件获取单元99提供并以瓦片为单位配置的图像文件中),以生成以瓦片为单位的图像数据。图像解码处理单元100向图像合成处理单元101提供以瓦片为单位的图像数据。

图像合成处理单元101合成从图像解码处理单元100提供并以瓦片为单位配置的图像数据并输出该合成数据。

(运动图像播放终端的过程的解释)

图14为示出视频播放终端14的流播放单元(图13)的流播放过程的流程图。

在图14的步骤S31中,流播放单元90的MPD获取单元91从Web服务器12获取MPD文件并向MPD处理单元92提供该MPD文件。

在步骤S32中,MPD处理单元92从提供自MPD获取单元91的MPD文件获取在用于图像的“Adaptation Set”(“自适应集”)中描述的图像帧尺寸信息和瓦片位置信息。MPD处理单元92向音频选择单元94提供图像帧尺寸信息并向图像选择单元98提供瓦片位置信息。此外,MPD处理单元92提取诸如在用于音频元文件的“Segment”(“片段”)中描述的URL的信息,并向元文件获取单元93提供所提取的信息。

在步骤S33中,基于诸如从MPD处理单元92提供的URL的信息,元文件获取单元93请求Web服务器12发送由该URL指定的音频元文件,并获取该音频元文件。元文件获取单元93向音频选择单元94提供被包含在该音频元文件中的对象位置信息。

在步骤S34中,音频选择单元94基于从MPD处理单元92提供的图像帧尺寸信息和从元文件获取单元93提供的对象位置信息来选择由使用者指定的在显示区域中的对象。音频选择单元94请求MPD处理单元92发送诸如所选对象的音频文件的URL的信息。

MPD处理单元92从MPD文件提取诸如在用于从音频选择单元94所请求的对象的音频文件的“Segment”(“片段”)中描述的URL的信息,并向音频选择单元94提供所提取的信息。音频选择单元94向音频文件获取单元95提供诸如从MPD处理单元92提供的URL的信息。

在步骤S35中,基于诸如从音频选择单元94提供的URL的信息,音频文件获取单元95请求Web服务器12发送由该URL指定的所选对象的音频文件,并获取该音频文件。音频文件获取单元95向音频解码处理单元96提供所获取的以对象为单位的音频文件。

在步骤S36中,图像选择单元98基于从MPD处理单元92提供的瓦片位置信息选择由使用者指定的显示区域中的瓦片。图像选择单元98请求MPD处理单元92发送诸如所选瓦片的图像文件的URL的信息。

MPD处理单元92从MPD文件提取诸如在用于从图像选择单元98所请求的对象的图像文件的“Segment”(“片段”)中描述的URL的信息,并向图像选择单元98提供所提取的信息。图像选择单元98向图像文件获取单元99提供诸如从MPD处理单元92提供的URL的信息。

在步骤S37中,基于诸如从图像选择单元98提供的URL的信息,图像文件获取单元99请求Web服务器12发送由该URL指定的所选瓦片的图像文件,并获取该图像文件。图像文件获取单元99向图像解码处理单元100提供所获取的以瓦片为单位的图像文件。

在步骤S38中,音频解码处理单元96解码被包含在从音频文件获取单元95提供并以对象为单位配置的音频文件中的音频流,以生成以对象为单位的音频数据。音频解码处理单元96向音频合成处理单元97提供以对象为单位的音频数据。

在步骤S39中,图像解码处理单元100解码被包含在从图像文件获取单元99提供并以瓦片为单位配置的图像文件中的视频流,以生成以瓦片为单位的图像数据。图像解码处理单元100向图像合成处理单元101提供以瓦片为单位的图像数据。

在步骤S40中,音频合成处理单元97合成从音频解码处理单元96提供并以对象为单位配置的音频数据并输出该合成数据。在步骤S41中,图像合成处理单元101合成从图像解码处理单元100提供并以瓦片为单位配置的图像数据并输出该合成数据。接着该过程终止。

如上所述,Web服务器12发送图像帧尺寸信息和对象位置信息。因此,视频播放终端14可以指定例如在显示区域中的对象以选择性获取所指定的对象的音频文件,以便该音频文件对应于在该显示区域中的图像。这允许视频播放终端14仅获取必要的音频文件,这使得传输效率提高。

应指出,如图15所示,对象ID(指定信息的对象)可在用于MPD文件的图像的“Adaptation Set”(“自适应集”)中被描述,作为用于指定对应于将要与图像同时播放的音频的对象的信息。对象ID可通过利用Viewpoint(视点)的DescriptorType(描述符类型)元素来定义新对象ID信息(audioObj)的扩展方案(urn:mpeg:DASH:audioObj:2013)来描述。在此情况下,视频播放终端14选择与在用于图像的“Adaptation Set”(“自适应集”)中描述的对象ID对应的对象的音频文件,并获取该音频文件以用于播放。

作为生成以对象为单位的音频文件的替换,所有对象的编码数据可被复用为单个音频流以生成单个音频文件。

在此情况下,如图16所示,用于音频文件的一个“Representation”(“表示”)被设置在用于MPD文件的音频的“Adaptation Set”(“自适应集”)中,以及用于包含所有对象的编码数据的音频文件(audioObje.mp4)的URL等在“Segment”(“片段”)中描述。此时,对应于音频文件的所有对象的对象ID(1、2、3、4和5)通过扩展Viewpoint(视点)来描述。

另外,在此情况下,如图17所示,每个对象的编码数据(音频对象)作为子样本被布置在通过参考MPD文件的“Media Segment”(“媒体片段”)所获取的音频文件(在下文中,在适当时,也被称为音频媒体文件)的mdat盒(box)中。

具体地,数据以子片段为单位被布置在音频媒体文件中,该子片段在任何时间比片段更短。以子片段为单位的数据的位置由sidx盒指定。此外,以子片段为单位的数据由moof盒和mdat盒组成。mdat盒由多个样本组成,以及每个对象的编码数据被布置为该样本的每个子样本。

此外,描述关于样本的信息的gsix盒被布置在音频媒体文件的sidx盒之后。描述关于样本的信息的gsix盒以此方式与moof盒分开设置,并因此视频播放终端14可以快速获取关于样本的信息。

如图18所示,表示样本组条目的类型的grouping_type在gsix盒中描述,其中,每个样本组条目包含由gsix盒管理的一或多个样本或子样本。例如,在样本组条目为以对象为单位的编码数据的子样本时,样本组条目的类型为如图17所示的“obja”。grouping_type的多个gsix盒被布置在音频媒体文件中。

此外,如图18所示,每个样本组条目的索引(entry_index)和作为指示在音频媒体文件中的位置的数据位置信息的字节范围(range_size)在gsix盒中描述。应指出,在索引(entry_index)为0时,对应字节范围指示moof盒的字节范围(在图17的示例中的a1)。

指示哪个对象被用于允许每个样本组条目对应于编码数据的子样本的信息在通过参考MPD文件的“Initialization Segment”(“初始化片段”)所获取的音频文件中描述(本文后面适当地也称为音频初始化文件)。

具体地,如图19所示,该信息通过使用mvex盒的类型分配盒(typa)来指示,该类型分配盒(typa)与在音频初始化文件的sbtl盒中的样本组描述盒(sgpd)的AudioObjectSampleGroupEntry相关联的。

换句话说,如图20的A所示,对应于被包含在样本中的编码数据的对象ID(audio_object_id)在每个AudioObjectSampleGroupEntry盒中描述。例如,如图20B所示,对象ID 1、2、3和4在四个AudioObjectSampleGroupEntry盒中的每者中描述。

另一方面,如图21所示,在类型分配盒中,作为对应于AudioObjectSampleGroupEntry的样本组条目的参数(grouping_type_parameter)的索引被描述以用于每个AudioObjectSampleGroupEntry。

音频媒体文件和音频初始化文件如上所述进行配置。因此,在视频播放终端14获取被选择为显示区域中的对象的对象的编码数据时,在其中描述所选对象的对象ID的AudioObjectSampleGroupEntry被从音频初始化文件的stbl盒检索出。接着,对应于所检索的AudioObjectSampleGroupEntry的样本组条目的索引从mvex盒读取。接着,以子片段为单位的数据的位置从音频文件的sidx读取,以及读取索引的样本组条目的字节范围从gsix读取。接着,被布置在mdat中的编码数据基于以子片段为单位的数据的位置和字节范围来获取。因此,所选对象的编码数据得以获取。

虽然在上述的描述中,样本组的索引和AudioObjectSampleGroupEntry的对象ID通过mvex盒彼此相关联,但是它们可彼此直接相关联。在此情况下,样本组条目的索引在AudioObjectSampleGroupEntry中描述。

此外,在音频文件由多个轨道组成时,sgpd可以被存储在mvex中,这允许该sgpd在轨道之间共享。

(信息处理系统的第二示例的概述)

图22为示出应用本公开的信息处理系统的第二示例的概述的示意图。

应指出,在图22中示出的与图3所示相同的元素由相同的附图标号表示。

在图22所示的如同图3的情况的示例中,视频内容的图像被划分为7(宽度)×5(高度)个瓦片,以及对象#1至#8的音频如同视频内容的音频一样被获取。

在此情况下,在使用者指示由3(宽度)×2(高度)个瓦片组成的显示区域31时,显示区域31被转换(扩展)到尺寸与视频内容的图像的尺寸相同的区域,从而获得在如图22所示的第二示例中的显示图像111。对象#1至#8的音频基于对象#1至#8在显示图像111中的位置来合成并与显示图像111一起被输出。换句话说,除了在显示区域31内的对象#1、#2和#6的音频之外,在显示区域31外面的对象#3至#5、#7和#8的音频也被输出。

(流播放单元的配置示例)

应用本公开的信息处理系统的第二示例的配置与图1所示的信息处理系统10的配置相同,除了流播放单元的配置之外,并因此仅在下面描述该流播放单元。

图23为示出应用本公开的信息处理系统的流播放单元的配置示例的框图。

在图23中示出的与图13所示相同的组件由相同的附图标号表示,并且在适当时,省略重复的解释。

如图23所示的流播放单元120的配置不同于如图13所示的流播放单元90的配置之处在于,新提供以分别取代MPD处理单元92、音频合成处理单元97和图像合成处理单元101的MPD处理单元121、音频合成处理单元123和图像合成处理单元124以及另外提供的位置确定单元122。

流播放单元120的MPD处理单元121从提供自MPD获取单元91的MPD文件提取诸如在用于音频元文件的“Segment”(“片段”)中描述的URL的信息,并向元文件获取单元93提供所提取的信息。此外,MPD处理单元121从MPD文件提取在用于图像的“Adaptation Set”(“自适应集”)中描述的视频内容的图像的图像帧尺寸信息(在下文中,被称为内容图像帧尺寸信息)并向位置确定单元122提供所提取的信息。MPD处理单元121从MPD文件提取诸如在用于所有对象的音频文件的“Segment”(“片段”)中描述的URL的信息,并向音频文件获取单元95提供所提取的信息。

MPD处理单元121从MPD文件提取在用于图像的“Adaptation Set”(“自适应集”)中描述的瓦片位置信息并向图像选择单元98提供所提取的信息。MPD处理单元121从MPD文件提取诸如在用于从图像选择单元98所请求的瓦片的图像文件的“Segment”(“片段”)中描述的URL的信息,并向图像选择单元98提供所提取的信息。

位置确定单元122获取被包含在通过元文件获取单元93获得的音频元文件中的对象位置信息和从MPD处理单元121提供的内容图像帧尺寸信息。此外,位置确定单元122获取作为由使用者指定的显示区域的图像帧尺寸信息的显示区域图像帧尺寸信息。位置确定单元122基于对象位置信息、内容图像帧尺寸信息和显示区域图像帧尺寸信息来确定(识别)每个对象在显示区域中的位置。位置确定单元122向音频合成处理单元123提供所确定的每个对象的位置。

音频合成处理单元123基于从位置确定单元122提供的对象位置来合成从音频解码处理单元96提供的以对象为单位的音频数据。具体地,音频合成处理单元123基于对象位置和输出声音的每个扬声器的位置来确定针对每个对象分配给每个扬声器的音频数据。音频合成处理单元123针对每个扬声器合成每个对象的音频数据并输出作为每个扬声器的音频数据的合成音频数据。基于对象位置合成每个对象的音频数据的方法的详细描述在例如1997年的《AES期刊》卷45第6期的第456-466页的Ville Pulkki的“Virtual Sound Source Positioning Using Vector Base Amplitude Panning(使用矢量基幅值平移的虚拟声源定位)”中公开。

图像合成处理单元124合成从图像解码处理单元100提供的以瓦片为单位的图像数据。图像合成处理单元124充当转换器,并将对应于合成图像数据的图像尺寸转换成视频内容的尺寸以生成显示图像。图像合成处理单元124输出该显示图像。

(对象位置确定方法的解释)

图24至26中的每者示出如图23所示的位置确定单元122的对象位置确定方法。

显示区域31从视频内容提取以及显示区域31的尺寸被转换为该视频内容的尺寸,以便生成显示图像111。因此,显示图像111的尺寸等同于如图24所示通过将显示区域31的中心C位移到显示图像111的中心C′以及如图25所示通过将显示区域31的尺寸转换为视频内容的尺寸所获得的尺寸。

因此,位置确定单元122通过下面的公式(1)计算在显示区域31的中心O被位移到显示图像111的中心O′时的在水平方向的位移量θshift

【数学公式1】

在公式(1)中,θv1'表示被包含在显示区域图像帧尺寸信息中的在显示区域31的左端的水平角,以及θv2'表示被包含在显示区域图像帧尺寸信息中的在显示区域31的右端的水平角。此外,θv1表示在内容图像帧尺寸信息中的在左端的水平角,以及θv2表示在内容图像帧尺寸信息中的在右端的水平角。

接下来,位置确定单元122通过下面的公式(2)计算在通过使用位移量θshift将显示区域31的中心O位移到显示图像111的中心O′之后在显示区域31的左端的水平角θv1_shift'以及在其右端的水平角θv2_shift'。

【数学公式2】

θv1_shift'=mod(θv1'+θshift+180°,360°)-180°

θv2_shift'=mod(θv2'+θshift+180°,360°)-180°...(2)

根据公式(2),水平角θv1_shift'和水平角θv2_shift'被计算以便不超过-180°至180°的范围。

应指出,如上所述,显示图像111尺寸等同于通过将显示区域31的中心O位移到显示图像111的中心O′以及通过将显示区域31的尺寸转换为视频内容的尺寸所获得的尺寸。因此,下面的公式(3)满足水平角θV1和θV2

【数学公式3】

位置确定单元122以上述的方式计算位移量θshift、水平角θv1_shift'和水平角θv2_shift',并接着计算每个对象在显示图像111中的水平角。具体地,在通过使用位移量θshift将显示区域31的中心C被位移到显示图像111的中心C′之后,位置确定单元122通过下面的公式(4)计算的对象#i的水平角θAi_shift

【数学公式4】

θAi_shift=mod(θAishift+180°,360°)-180°...(4)

在公式(4)中,θAi表示被包含在对象位置信息中的对象#i的水平角。此外,根据公式(4),水平角θAi_shift被计算以便不超过-180°至180°的范围。

接下来,在对象#i存在于显示区域31中时,即满足θv2_shif'<θAi_shiftv1_shift'的条件时,位置确定单元122通过下面的公式(5)计算对象#i在显示图像111中的水平角θA1'。

【数学公式5】

根据公式(5),通过根据显示区域31的尺寸和显示图像111的尺寸之间的比率扩展对象#i在显示图像11中的位置和显示图像111的中心C'之间的距离来计算水平角θA1'。

另一方面,在没有对象#i存在于显示区域31中时,即满足-180°≤θAi_shift≤θv2_shift'或θv1_shift'≤θAi_shift≤180°的条件时,位置确定单元122通过下面的公式(6)计算对象#i在显示图像111中的水平角θAi'。

【数学公式6】

根据公式(6),如图26所示,在对象#i存在于显示区域31的右侧的位置151时(-180°≤θAi_shift≤θv2_shift'),通过根据角度R1和角度R2之间的比率扩展水平角θAi_shift来计算水平角θAi'。应指出,角度R1为从显示图像111的右端到刚好在观众153后面的位置154而测量的角度,以及角度R2为从其中心被位移的显示区域31的右端到位置154测量的角度。

此外,根据公式(6),在对象#i存在于显示区域31的左侧的位置155时(θv1_shift'≤θAi_shift≤180°),通过根据角度R3和角度R4之间的比率扩展水平角θAi_shift来计算水平角θAi'。应指出,角度R3为从显示图像111的左端到位置154测量的角度,以及角度R4为从其中心被位移的显示区域31的左端到位置154测量的角度。

另外,位置确定单元122以类似于水平角θAi'的方式计算垂直角γAi'。具体地,位置确定单元122通过下面的公式(7)计算在显示区域31的中心C被位移到显示图像111的中心C′时,在垂直方向的位移量γshift

【数学公式7】

在公式(7)中,γv1'表示包含在显示区域图像帧尺寸信息中的显示区域31的上端的垂直角,以及γv2′表示在其下端的垂直角。此外,γv1表示在内容图像帧尺寸信息中的上端的垂直角,以及γv2表示在内容图像帧尺寸信息中的下端的垂直角。

接下来,位置确定单元122通过下面的公式(8)使用位移量γshift,计算在显示区域31的中心C被位移到显示图像111的中心C′之后,在显示区域31的上端的垂直角γv1_shift'以及在其下端的垂直角γv2_shift'。

【数学公式8】

γv1_shift'=mod(γv1'+γshift+90°,180°)-90°

γv2_shift'=mod(γv2'+γshift+90°,180°)-90°...(8)

根据公式(8),垂直角γv1_shift'和垂直角γv2_shift'被计算以便不超过-90°至90°的范围。

位置确定单元122以上述的方式计算位移量γshift、垂直角γv1_shift'和垂直角γv2_shift',并接着计算每个对象在显示图像111中的位置。具体地,位置确定单元122通过下面的公式(9)使用位移量γshift,计算在显示区域31的中心C被位移到显示图像111的中心C′之后,对象#i的垂直角γAi_shift

【数学公式9】

γAi_shift=mod(γAishift+90°,180°)-90°...(9)

在公式(9)中,γAi表示被包含在对象位置信息中的对象#i的垂直角。此外,根据公式(9),垂直角γAi_shift被计算以便不超过-90°至90°的范围。

接下来,位置确定单元122通过下面的公式(10)计算对象#i在显示图像111中的垂直角γA1'。

【数学公式10】

此外,位置确定单元122确定对象#i在显示图像111中的距离rA1'为被包含在对象位置信息中的对象#i的距离rA1。位置确定单元122向音频合成处理单元123提供如上所述获得并作为对象#i的位置的水平角θAi'、垂直角γA1'和对象#i的距离rA1,作为对象#i的位置。

图27为示出在水平角θAi和水平角θAi'之间的关系的示意图。

在图27的曲线图中,水平轴线表示水平角θAi,以及垂直轴线表示水平角θAi'。

如图27所示,在满足条件θV2'<θAiV1'时,水平角θAi以位移量θshift位移并被扩展,并接着水平角θAi变得等于水平角θAi'。此外,在满足条件-180°≤θAi≤θv2'orθv1'≤θAi≤180°时,水平角θAi以位移量θshift位移并被减少,并接着水平角θAi变得等于水平角θAi'。

(流播放单元的过程的说明)

图28为示出在图23中示出的流播放单元120的流播放过程的流程图。

在图28的步骤S131中,流播放单元120的MPD获取单元91从Web服务器12获取MPD文件并向MPD处理单元121提供该MPD文件。

在步骤S132中,MPD处理单元121从提供自MPD获取单元91的MPD文件获取在用于图像的“Adaptation Set”(“自适应集”)中描述的内容图像帧尺寸信息和瓦片位置信息。MPD处理单元121向位置确定单元122提供图像帧尺寸信息并向图像选择单元98提供瓦片位置信息。此外,MPD处理单元121提取诸如在用于音频元文件的“Segment”(“片段”)中描述的URL的信息,并向元文件获取单元93提供所提取的信息。

在步骤S133中,元文件获取单元93基于诸如从MPD处理单元121提供的URL的信息,请求Web服务器12发送由该URL指定的音频元文件并获取该音频元文件。元文件获取单元93向位置确定单元122提供被包含在该音频元文件中的对象位置信息。

在步骤S134中,位置确定单元122基于对象位置信息、内容图像帧尺寸信息和显示区域图像帧尺寸信息来执行用于确定每个对象在显示图像中的位置的位置确定过程。该位置确定过程将参考在后面描述的图29来详述。

在步骤S135中,MPD处理单元121从MPD文件提取诸如在用于所有对象的音频文件的“Segment”(“片段”)中描述的URL的信息,并向音频文件获取单元95提供所提取的信息。

在步骤S136中,音频文件获取单元95基于诸如从MPD处理单元121提供的URL的信息,请求Web服务器12发送由该URL指定的所有对象的音频文件并获取该音频文件。音频文件获取单元95向音频解码处理单元96提供所获取的以对象为单位的音频文件。

步骤S137至S140的过程类似于如图14所示的步骤S36至S39的过程,并因此其描述将被省略。

在步骤S141中,音频合成处理单元123基于从位置确定单元122提供的每个对象的位置来合成从音频解码处理单元96提供的以对象为单位的音频数据并输出该音频数据。

在步骤S142中,图像合成处理单元124合成从图像解码处理单元100提供的以瓦片为单位的图像数据。

在步骤S143中,图像合成处理单元124将对应于合成图像数据的图像尺寸转换成视频内容的尺寸并生成显示图像。接着,图像合成处理单元124输出该显示图像,并且该过程终止。

图29为示出在图28的步骤S134中的位置确定过程的细节的流程图。该位置确定过程被执行例如以用于每个对象。

在图29的步骤S151中,位置确定单元122执行用于估算在显示图像中的水平角θAi'的水平角θAi'估算过程。水平角θAi'估算过程的细节将参考在后面描述的图30来描述。

在步骤S152中,位置确定单元122执行用于估算在显示图像中的垂直角γAi'的垂直角γAi'估算过程。垂直角γAi'估算过程的细节类似于在步骤S151中的水平角θAi'估算过程的细节,除了使用替代水平方向的垂直方向之外,并因此其详细描述将被省略。

在步骤S153中,过程确定单元122确定在显示图像中的距离rAi'为被包含在从元文件获取单元93提供的对象位置信息中的距离rAi

在步骤S154中,位置确定单元122向音频合成处理单元123输出作为对象#i的位置的水平角θAi'、垂直角γA1'和距离rA1。接着,该过程返回到图28的步骤S134并前进至步骤S135。

图30为示出在图29的步骤S151中的水平角θAi'估算过程的细节的流程图。

在如图30所示的步骤S171中,位置确定单元122获取被包含在提供自元文件获取单元93的对象位置信息中的水平角θAi

在步骤S172中,位置确定单元122获取提供自MPD处理单元121的内容图像帧尺寸信息和由使用者指定的显示区域图像帧尺寸信息。

在步骤S173中,位置确定单元122基于该内容图像帧尺寸信息和显示区域图像帧尺寸信息通过上述的公式(1)来计算位移量θshift

在步骤S174中,位置确定单元122使用该位移量θshift和显示区域图像帧尺寸通过上述的公式(2)来计算水平角θv1_shift'和θv2_shift'。

在步骤S175中,位置确定单元122使用水平角θAi和位移量θshift通过上述的公式(4)来计算水平角θAi_shift

在步骤S176中,位置确定单元122确定对象#i是否存在于显示区域31中(对象#i的水平角在显示区域31的两端的水平角之间),即,是否满足θv2_shift'<θAi_shiftv1_shift'的条件。

在步骤S176中确定对象#i存在于显示区域31中时,即在满足条件θv2_shift'<θAi_shiftv1_shift'时,该过程前进至步骤S177。在步骤S177中,位置确定单元122基于内容图像帧尺寸信息、水平角θv1_shift'和θv2_shift'以及水平角θAi_shift通过上述的公式(5)来计算水平角θA1'。

另一方面,在步骤S176中确定对象#i不存在于显示区域31中时,即在满足条件-180°≤θAi_shift≤θv2_shift'或θv1_shift'≤θAi_shift≤180°时,该过程前进至步骤S178。在步骤S178中,位置确定单元122基于内容图像帧尺寸信息、水平角θv1_shift'或θv2_shift'以及水平角θAi_shift通过上述的公式(6)来计算水平角θAi'。

在步骤S177或步骤S178的过程之后,该过程返回到图29的步骤S151并前进至步骤S152。

应指出,在第二示例中,显示图像的尺寸与视频内容的尺寸相同,但替代地,显示图像的尺寸可与视频内容的尺寸不同。

此外,在第二示例中,所有对象的音频数据未被合成和输出,而是仅改为合成和输出一些对象(例如,在显示区域中的对象、在显示区域的预定范围内的对象等)的音频数据。用于选择待输出的音频数据的对象的方法可被事先确定或可由使用者指定。

此外,在上面的描述中,仅使用单位对象的音频数据,但是音频数据可包含声道音频的音频数据、高阶高保真度(HOA)音频的音频数据、空间音频对象编码(SAOC)的音频数据和音频数据的元数据(场景信息、动态或静态元数据)。在此情况下,例如不仅每个对象的编码数据而且这些数据块的编码数据被布置为子样本。

<第一实施例>

(3D音频文件格式的概述)

在描述应用本公开的第一实施例之前,MP4的3D音频文件格式的声道概述将参考图31来描述。

在MP4文件中,视频内容的编解码信息和指示在文件中的位置的位置信息可以针对每个轨道进行管理。在MP4的3D音频文件格式中,3D音频(声道音频/对象音频/HOA音频/元数据)的所有音频流(基本流(ES))被记录为以样本(帧)为单位的一个轨道。此外,3D的编解码信息(简况(profile)/级别(level)/音频配置(audio configuration))作为样本条目来存储。

构成3D音频的声道音频为以声道为单位的音频数据;对象音频为以对象为单位的音频数据;HOA音频为球形音频数据;以及元数据为声道音频/对象音频/HOA音频的元数据。在此情况下,以对象为单位的音频数据被用作对象音频,但是替换地可改为使用SAOC的音频数据。

(moov盒的结构)

图32示出MP4文件的moov盒的结构。

如图32所示,在MP4文件中,图像数据和音频数据被记录在不同的轨道中。图32未示出音频数据的轨道的细节,而是示出类似于图像数据的轨道的音频数据的轨道。样本条目被包含在被布置在moov盒内的stsd盒中的样本描述中。

附带地讲,在广播或本地存储播放中,在解析所有的音频流并输出(再现)该音频流时,Web服务器传送所有的音频流,以及视频播放终端(客户端)解码必要的3D音频的音频流。在比特率(Bitrate)为高时或本地存储的读取速率存在限制时,存在通过仅获取必要的3D音频的音频流来降低解码过程的负载的需求。

此外,在流播放时,存在以下需求:视频播放终端(客户端)仅获取必要的3D音频的编码数据,从而获取对于播放环境最佳的编码速率的音频流。

因此,在本公开中,3D音频的编码数据被划分为用于每种类型的数据的轨道并且该轨道被布置在音频文件中,这使得可以有效地仅获取预定类型的编码数据。因此,在广播和本地存储播放时在系统上的负载得以降低。此外,在流播放时,必要的3D音频的最高质量编码数据可以根据频带来播放。此外,由于仅有必要以子片段的轨道为单位在音频文件内记录3D文件的音频流的位置信息,因此,与以对象为单位的编码数据被布置在子样本中的情况相比,可以减少位置信息的量。

(轨道的概述)

图33为示出在应用本公开的第一实施例中的轨道的概述的示意图。

如图33所示,在第一实施例中,构成3D音频的声道音频/对象音频/HOA音频/元数据分别被设置为不同轨道(声道音频轨道/对象音频轨道/HOA音频轨道/对象元数据轨道)的音频流。音频元数据的音频流被布置在对象元数据轨道中。

此外,提供作为用于布置关于整个3D音频的信息的轨道的基本轨道(基本轨道)。在如图33所示的基本轨道中,在没有样本被布置在样本条目中时,关于整个3D音频的信息被布置在样本条目中。此外,基本轨道、声道音频轨道、对象音频轨道、HOA音频轨道和对象元数据作为相同的音频文件(3dauio.mp4)来记录。

轨道参考序号(Track Reference)被布置在例如轨道盒中,并表示在对应的轨道和另一轨道之间的参考关系。具体地,轨道参考序号表示对于在其它被参考轨道中的轨道是唯一的ID(在下文中,被称为轨道ID)。在图33所示的示例中,基本轨道、声道音频轨道、HOA音频轨道、对象元数据轨道和对象音频轨道的轨道ID分别为1、2、3、4、10、...。基本轨道的轨道参考序号为2、3、4、10、...,以及声道音频轨道/HOA音频轨道/对象元数据轨道/对象音频轨道的轨道参考序号为1,其对应于基本轨道的轨道ID。

因此,基本轨道和声道音频轨道/HOA音频轨道/对象元数据轨道/对象音频轨道具有参考关系。具体地,在播放声道音频轨道/HOA音频轨道/对象元数据轨道/对象音频轨道的过程中,基本轨道被参考。

(基本轨道的样本条目的示例性语法)

图34为示出在图33中示出的基本轨道的样本条目的示例性语法的示意图。

作为关于整个3D音频的信息,如图34所示的configurationVersion、MPEGHAudioProfile和MPEGHAudioLevel分别表示3D音频的整个音频流的配置信息、简况(profile)信息和级别(level)信息(正常3D音频的音频流)。此外,作为关于整个3D音频的信息,如图34所示的宽度和高度分别表示在视频内容的水平方向的像素的数量和视频内容的垂直方向的像素的数量。作为关于整个3D音频的信息,θ1、θ2、γ1和γ2分别表示在视频内容的图像帧尺寸信息中的在图像帧的左端的水平角θv1、在图像帧的右端的水平角θv2、在图像帧的上端的垂直角γv1和在图像帧的下端的垂直角γv2。

(声道音频轨道的样本条目的示例性语法)

图35为示出在图33中示出的声道音频轨道(声道音频轨道)的样本条目的示例性语法的示意图。

图35示出分别表示声道音频的配置信息、简况信息和级别信息的configurationVersion、MPEGHAudioProfile和MPEGHAudioLevel。

(对象音频轨道的样本条目的示例性语法)

图36为示出在图33中示出的对象音频轨道(对象音频轨道)的样本条目的示例性语法的示意图。

在被包含在对象音频轨道中的一或多个对象音频中,如图36所示的ConfigurationVersion、MPEGHAudioProfile和MPEGHAudioLevel分别表示配置信息、简况信息和级别信息。object_is_fixed指示被包含在对象音频轨道中的一或多个对象音频对象是否被固定。在object_is_fixed指示1时,其指示该对象被固定,以及在object_is_fixed指示0时,其指示该对象被位移。mpegh3daConfig表示被包含在对象音频轨道中的一或多个对象音频对象的识别信息的配置。

此外,objectTheta1/objectTheta2/objectGamma1/objectGamma2/objectRength表示被包含在对象音频轨道中的一或多个对象音频的对象信息。此对象信息为在保持Object_is_fixed=1时为有效的信息。

maxobjectTheta1、maxobjectTheta2、maxobjectGamma1、maxobjectGamma2/和maxobjectRength表示在被包含在对象音频轨道中的一或多个对象音频对象被位移时的对象信息的最大值。

(HOA音频轨道的样本条目的示例性语法)

图37为示出在图33中示出的HOA音频轨道的样本条目的示例性语法的示意图。

如图37所示的ConfigurationVersion、MPEGHAudioProfile和MPEGHAudioLevel分别表示HOA音频的配置信息、简况信息和级别信息。

(对象元数据轨道的样本条目的示例性语法)

图38为示出在图33中示出的对象元数据轨道(对象元数据轨道)的样本条目的示例性语法的示意图。

如图38所示的ConfigurationVersion表示元数据的配置信息。

(3D音频的音频文件的片段结构的第一示例)

图39为示出在应用本公开的第一实施例中的3D音频的音频文件的片段结构的第一示例的示意图。

在如图39所示的片段结构中,初始片段(Initial segment)由ftyp盒和moov盒组成。用于被包含在音频文件中的每个轨道的trak盒被布置在moov盒中。mvex盒被布置在moov盒中,其中该mvex盒包含指示每个轨道的轨道ID和在媒体片段(media segment)内的ssix盒中使用的级别之间的对应关系的信息。

此外,媒体片段由sidx盒、ssix盒以及一或多个子片段组成。指示在每个子片段的音频文件中的位置的位置信息被布置在sidx盒中。ssix盒包含被布置在mdat盒中的在每个级别的音频流的位置信息。应指出,每个级别对应于每个轨道。此外,第一轨道的位置信息为由moof盒的音频流和第一轨道组成的数据的位置信息。

关于任何时间长度设置子片段。为所有轨道共用的一对moof盒和mdat盒被设置在子片段中。在mdat盒中,所有轨道的音频流关于任何时间长度而集中布置。在moof盒中,布置音频流的管理信息。被布置在mdat盒中的每个轨道的音频流对于每个轨道来说是连续的。

在图39的示例中,轨道ID为1的轨道1为基本轨道,以及轨道ID为2至N的轨道2至轨道N分别为声道音频轨道、对象音频轨道、HOA音频轨道和对象元数据轨道。后面描述的图40的情况同样如此。

(3D音频的音频文件的片段结构的第二示例)

图40为示出在应用本公开的第一实施例中的3D音频的音频文件的片段结构的第二示例的示意图。

如图40所示的片段结构不同于如图39所示的片段结构之处在于moof盒和mdat盒被设置用于每个轨道。

具体地,如图40所示的初始片段(Initial segment)类似于如图39所示的初始片段。像如图39所示的媒体片段,如图40所示的媒体片段由sidx盒、ssix盒以及一或多个子片段组成。此外,像如图39所示的sidx盒,每个子片段的位置信息被布置在sidx盒中。ssix盒包含由moof盒和mdat盒组成的每个级别的数据的位置信息。

关于任何时间长度设置子片段。一对moof盒和mdat盒被设置用于子片段中的每个轨道。具体地,每个轨道的音频流以任何时间长度被集中布置(交织并存储)在每个轨道的mdat盒中,以及音频流的管理信息被布置在moof盒中。

如图39和40所示,用于每个轨道的音频流被以任何时间长度而集中布置,以便与音频流以样本为单位集中布置的情况相比,可以提高经由HTTP等获取音频流的效率。

(mvex盒的示例性描述)

图41为示出被布置在如图39和40的mvex盒中的级别分配盒的示例性描述的示意图。

级别分配盒为用于将每个轨道的轨道ID与用在ssix盒中使用的级别相关联的盒。在图41的示例中,轨道ID为1的基本轨道与级别0相关联,以及轨道ID为2的声道音频轨道与级别1相关联。此外,轨道ID为3的HOA音频轨道与级别2相关联,以及轨道ID为4的对象元数据轨道与级别3相关联。此外,轨道ID为10的对象音频轨道与级别4相关联。

(MPD文件的示例性描述)

图42为示出在应用本公开的第一实施例中的MDF文件的示例性描述的示意图。

如图42所示,用于管理3D音频的音频文件(3daudio.mp4)的片段的“Representation”(“表示”)、用于管理被包含在片段中的轨道的“SubRepresentation”(“子表示”)等在MPD文件中描述。

在“Representation”(“表示”)和“SubRepresentation”(“子表示”)中,包含“codecs”(“编解码器”),其表示在3D音频文件格式中定义的代码中的对应片段或轨道的编解码器的类型。此外,“Representation”(“表示”)中包含“id”、“associationId”和“assciationType”。

“id”表示包含“id”的“Representation”(“表示”)的ID。“associationId”表示指示对应轨道和另一轨道之间的参考关系的信息并且表示参考轨道的“id”。“assciationType”表示指示关于参考轨道的参考关系(相关性关系)的含义的代码。例如,使用与MP4的轨道参考序号的值相同的值。

此外,在“SubRepresentation”(“子表示”)中包含“level”(“级别”),其为设置在级别分配盒中的值,作为表示对应轨道和对应级别的值。在“SubRepresentation”(“子表示”)中包含“dependencyLevel”,其为表示对应于具有参考关系(相关性)的另一轨道(在下文中,被称为参考轨道)的级别的值。

此外,“SubRepresentation”(“子表示”)包含作为选择3D音频所需的信息的<EssentialProperty schemeIdUri="urn:mpeg:DASH:3daudio:2014"value="audioType,contentkind,priority">。

此外,在对象音频轨道中的“SubRepresentation”(“子表示”)包含<EssentialProperty schemeIdUri="urn:mpeg:DASH:viewingAngle:2014"value="θ,γ,r">。在对应于“SubRepresentation”(“子表示”)的对象被固定时,θ、γ和r分别表示在对象位置信息中的水平角、垂直角和距离。另一方面,在对象被位移时,值θ、γ和r分别表示对象位置信息的最大值之中的水平角的最大值、垂直角的最大值和距离的最大值。

图43为示出在图42中示出的基本属性的定义的示意图。

在图43的左上侧,定义<EssentialProperty schemeIdUri="urn:mpeg:DASH:3daudio:2014"value="audioType,contentkind,priority">的audioType(音频类型)。audioType表示对应轨道的3D音频的类型。

在图43的示例中,在audioType指示1时,其指示对应轨道的音频数据为3D音频的声道音频,以及在audioType指示2时,其指示对应轨道的音频数据为HOA音频。此外,在audioType指示3时,其指示对应轨道的音频数据为对象音频,以及在audioType为4时,其指示对应轨道的音频数据为元数据。

此外,在图43的右侧,定义<EssentialProperty schemeIdUri="urn:mpeg:DASH:3daudio:2014"value="audioType,contentkind,priority">的contentkind(内容种类)。contentkind表示对应音频的内容。例如,在图43的示例中,在contentkind指示3时,对应音频为音乐。

如图43的左下侧所示,priority(优先级)由23008-3定义并表示对应对象的处理优先级。仅当值未在音频流的过程中改变时,才描述表示对象的处理优先级的值,当该值在音频流的过程中改变时,描述为“0”的值。

(信息处理系统的概述)

图44为示出根据应用本公开的第一实施例的信息处理系统的概述的示意图。

在图44中示出的与图1所示组件相同的组件由相同的附图标号表示。在适当时,省略重复的解释。

如图44所示的信息处理系统140具有如下配置:(被连接到文件生成装置141的)Web服务器142经由互联网13连接到视频播放终端144的配置。

在信息处理系统140中,Web服务器142通过兼容MPEG-DASH的方法以瓦片为单位向视频播放终端144传送视频内容的视频流(瓦片流传输)。此外,在信息处理系统140中,Web服务器142向视频播放终端144传送与待播放的瓦片对应的对象音频的音频流、声道音频或的HOA音频。

信息处理系统140的文件生成装置141类似于如图11所示的文件生成装置11,除了例如音频文件生成单元56在第一实施例中生成音频文件以及MPD生成单元57在第一实施例中生成MPD文件之外。

具体地,文件生成装置141获取视频内容的图像数据并以瓦片为单位编码图像数据以生成视频流。文件生成装置141将每个瓦片的视频流处理为文件格式。文件生成装置141向Web服务器142上传作为处理结果获得的每个瓦片的图像文件。

此外,文件生成装置141获取视频内容的3D音频并针对3D音频的每种类型(声道音频/对象音频/HOA音频/元数据)对3D音频进行编码以生成音频流。文件生成装置141针对每种类型的3D音频向音频流分配轨道。文件生成装置141生成如图39或40所示的片段结构(其中,每个轨道的音频流以子片段为单位来布置)的音频文件并向Web服务器142上传该音频文件,。

文件生成装置141生成MPD文件,其包含图像帧尺寸信息、瓦片位置信息和对象位置信息。文件生成装置141向Web服务器142上传MPD文件。

Web服务器142存储图像文件、音频文件和从文件生成装置141上传的MPD文件。

在图44的示例中,We服务器142存储由瓦片#1的多个片段的图像文件形成的片段组和由瓦片#2的多个片段的图像文件形成的片段组。Web服务器142也存储由3D音频的音频文件形成的片段组。

Web服务器142响应于来自视频播放终端144的请求,向视频播放终端144发送存储在该Web服务器中的图像文件、音频文件、MPD文件等。

视频播放终端144执行控制软件161、视频播放软件162、访问软件163等。

控制软件161为用于控制从Web服务器142流传输的数据的软件。具体地,控制软件161促使视频播放终端144从Web服务器142获取MPD文件。

此外,控制软件161基于从视频播放软件162命令的显示区域和被包含在MPD文件中的瓦片位置信息来指定在该显示区域中的瓦片。接着,控制软件161命令访问软件163发送该瓦片的图像文件的请求。

在对象音频待播放时,控制软件161命令访问软件163发送音频文件中图像帧尺寸信息的请求。此外,控制软件161命令访问软件163发送元数据的音频流的请求。控制软件161基于图像帧尺寸信息和被包含在元数据的音频流中的对象位置信息来指定对应于显示区域中的图像的对象,该对象位置信息根据指令和显示区域从Web服务器142发送。接着,控制软件161命令访问软件163发送对该对象的音频流的请求。

此外,在声道音频或HOA音频待播放时,控制软件161命令访问软件163发送对该声道音频或HOA音频的音频流的请求。

视频播放软件162为用于播放从Web服务器142获取的图像文件和音频文件的软件。具体地,在显示区域由使用者指定时,视频播放软件162命令控制软件161发送该显示区域。此外,视频播放软件162根据指令解码从Web服务器142获取的图像文件和音频文件。视频播放软件162合成作为解码的结果所获得的以瓦片为单位的图像数据并输出该图像数据。此外,在需要时,视频播放软件162合成作为解码的结果所获得的对象音频、声道音频或HOA音频并输出该音频。

访问软件163为用于控制使用HTTP经由互联网13与Web服务器142通信的软件。具体地,访问软件163促使视频播放终端144响应于控制软件161的指令发送关于图像文件和音频文件中的图像帧尺寸信息或预定的音频流的请求。此外,访问软件163促使视频播放终端144响应于该发送请求,接收从Web服务器12所发送的图像文件和音频文件中的图像帧尺寸信息或预定的音频流。

(文件生成装置的配置示例)

图45为示出在图44中示出的文件生成装置141的配置示例的框图。

在图45中示出的与图11所示组件相同的组件由相同的附图标号表示。在适当时,省略重复的解释。

如图45所示的文件生成装置141的配置不同于如图11所示的文件生成装置11的配置之处在于,提供音频编码处理单元171、音频文件生成单元172、MPD生成单元173和服务器上传处理单元174以取代音频编码处理单元55、音频文件生成单元56、MPD生成单元57和服务器上传处理单元58。

具体地,文件生成装置141的音频编码处理单元171针对每种类型(声道音频/对象音频/HOA音频/元数据)对从外面输入的视频内容的3D音频进行编码以生成音频流。音频编码处理单元171向音频文件生成单元172提供关于每种类型的3D音频的音频流。

音频文件生成单元172针对每种类型的3D音频向从音频编码处理单元171提供的音频流分配轨道。音频文件生成单元172生成如图39或40所示的片段结构的音频文件,其中,每个轨道的音频流以子片段为单位来布置。此时,音频文件生成单元172将从外面输入的图像帧尺寸信息存储在样本条目中。音频文件生成单元172向MPD生成单元173提供所生成的音频文件。

MPD生成单元173确定存储从图像文件生成单元53提供的每个瓦片的图像文件的Web服务器142的URL等。此外,MPD生成单元173确定存储从音频文件生成单元172提供的音频文件的Web服务器142的URL等。

MPD生成单元173在用于MPD文件的图像的“Adaptation Set”(“自适应集”)中布置从图像信息生成单元54提供的图像信息。此外,MPD生成单元173在用于瓦片的图像文件的“Representation”(“表示”)的“Segment”(“片段”)中布置每个瓦片的图像文件的URL等。

MPD生成单元173在用于音频文件的“Representation”(“表示”)的“Segment”(“片段”)中布置该音频文件的URL等。此外,MPD生成单元173在用于对象的对象元数据轨道的“SubRepresentation”(“子表示”)中布置从外面输入的每个对象的对象位置信息等。MPD生成单元173向服务器上传处理单元174提供MPD文件(在MPD文件中,各种信息块如上所述进行布置)以及图像文件和音频文件。

服务器上传处理单元174向Web服务器142上传从MPD生成单元173提供的图像文件、音频文件和每个瓦片的MPD文件。

(文件生成装置的过程的解释)

图46为示出在图141中示出的文件生成装置45的文件生成过程的流程图。

如图46所示的步骤S191至S195的过程类似于如图12所示的步骤S11至S15的过程,并因此其描述被省略。

在步骤S196中,音频编码处理单元171针对每种类型(声道音频/对象音频/HOA音频/元数据)将从外面输入的视频内容的3D音频进行编码以生成音频流。音频编码处理单元171针对每种类型的3D音频向音频文件生成单元172提供音频流。

在步骤S197中,音频文件生成单元172针对每种类型的3D音频向从音频编码处理单元171提供的音频流分配轨道。

在步骤S198中,音频文件生成单元172生成如图39或40所示的片段结构的音频文件,在所述音频文件中,每个轨道的音频流以子片段为单位来布置。此时,音频文件生成单元172将从外面输入的图像帧尺寸信息存储在样本条目中。音频文件生成单元172向MPD生成单元173提供所生成的音频文件。

在步骤S199中,MPD生成单元173生成包含从图像信息生成单元54提供的图像信息的MPD文件、每个文件的URL和对象位置信息。MPD生成单元173向服务器上传处理单元174提供图像文件、音频文件和MPD文件。

在步骤S200中,服务器上传处理单元174向Web服务器142上传从MPD生成单元173提供的图像文件、音频文件和MPD文件。接着该过程终止。

(视频播放终端的功能配置示例)

图47为示出流播放单元的配置示例的框图,该流播放单元以如图44所示的视频播放终端144执行控制软件161、视频播放软件162和访问软件163的方式实施。

在图47中示出的与图13所示组件相同的组件由相同的附图标号表示。在适当时,省略重复的解释。

如图47所示的流播放单元190的配置不同于如图13所示的流播放单元90的配置在于:提供MPD处理单元191、音频选择单元193、音频文件获取单元192、音频解码处理单元194和音频合成处理单元195以取代MPD处理单元92、音频选择单元94、音频文件获取单元95、音频解码处理单元96和音频合成处理单元97以及未提供的元文件获取单元93。

流播放单元190类似于如图13所示的流播放单元90,除了例如获取所选对象的待播放音频数据的方法之外。

具体地,流播放单元190的MPD处理单元191从提供自MPD获取单元91的MPD文件提取信息(诸如在用于音频元文件的“Segment”(“片段”)中描述的待播放的片段的音频文件的URL),并向音频文件获取单元192提供所提取的信息。

MPD处理单元191从MPD文件提取在用于图像的“Adaptation Set”(“自适应集”)中描述的瓦片位置信息,并向图像选择单元98提供所提取的信息。MPD处理单元191从MPD文件提取信息(诸如在用于从图像选择单元98所请求的瓦片的图像文件的“Segment”(“片段”)中描述的URL),并向图像选择单元98提供所提取的信息。

在对象音频待播放时,音频文件获取单元192基于诸如从MPD处理单元191提供的URL的信息,请求Web服务器142发送由该URL指定的音频文件中的基本轨道的初始片段(Initial Segment)并获取该基本轨道的初始片段。

此外,基于诸如音频文件的URL的信息,音频文件获取单元192请求Web服务器142发送在由该URL指定的音频文件中的对象元数据轨道的音频流,并获取该对象元数据轨道的音频流。音频文件获取单元192向音频选择单元193提供被包含在对象元数据轨道的音频流中的对象位置信息、被包含在基本轨道的初始片段中的图像帧尺寸信息和诸如音频文件的URL的信息。

此外,在声道音频待播放时,音频文件获取单元192基于诸如该音频文件的URL的信息,请求Web服务器142发送由该URL指定的音频文件中的声道音频轨道的音频流并获取声道音频轨道的音频流。音频文件获取单元192向音频解码处理单元194提供所获取的声道音频轨道的音频流。

在HOA音频待播放时,音频文件获取单元192执行类似于在声道音频待播放时执行的过程。因此,HOA音频轨道的音频流被提供给音频解码处理单元194。

应指出,确定对象音频、声道音频和HOA音频中的哪一个例如根据使用者的指令来播放。

音频选择单元193基于图像帧尺寸信息和从音频文件获取单元192提供的对象位置信息计算在图像上的每个对象的位置。音频选择单元193基于在图像上的每个对象的位置选择由使用者指定的显示区域中的对象。基于诸如从音频文件获取单元192提供的音频文件的URL的信息,音频选择单元193请求Web服务器142发送在由该URL指定的音频文件中的所选对象的对象音频轨道的音频流,并获取该对象音频轨道的音频流。音频选择单元193向音频解码处理单元194提供所获取的对象音频轨道的音频流。

音频解码处理单元194解码从音频文件获取单元192提供的声道音频轨道或HOA音频轨道的音频流,或解码从音频选择单元193提供的对象音频轨道的音频流。音频解码处理单元194向音频合成处理单元195提供作为解码的结果所获得的声道音频、HOA音频和对象音频中的一个。

在需要时,音频合成处理单元195合成对象音频、声道音频或从音频解码处理单元194提供的HOA音频并输出该音频。

(视频播放终端的过程的解释)

图48为示出在图47中示出的流播放单元190的声道音频播放过程的流程图。例如,在使用者将声道音频选择为待播放的对象时,该声道音频播放过程被执行。

在图48的步骤S221中,MPD处理单元191分析从MPD获取单元91提供的MPD文件,并基于基本属性和在“SubRepresentation”(“子表示”)中描述的编解码来指定待播放的片段的声道音频的“SubRepresentation”(“子表示”)。此外,MPD处理单元191从MPD文件提取诸如在用于待播放的片段的音频文件的“Segment”(“片段”)中描述的URL的信息,并向音频文件获取单元192提供所提取的信息。

在步骤S222中,MPD处理单元191基于在步骤S221中指定的“SubRepresentation”(“子表示”)的dependencyLevel指定作为参考轨道的基本轨道的级别,并向音频文件获取单元192提供基本轨道的指定级别。

在步骤S223中,音频文件获取单元192基于诸如从MPD处理单元191提供的URL的信息,请求Web服务器142发送待播放的片段的初始片段并获取该初始片段。

在步骤S224中,音频文件获取单元192从初始片段中的级别分配盒(Level assignment box)获取与声道音频轨道和作为参考轨道的基本轨道的级别对应的轨道ID。

在步骤S225中,音频文件获取单元192基于声道音频轨道和作为参考轨道的基本轨道的轨道ID获取对应于初始片段的轨道ID的轨道盒(track box)中的初始片段的样本条目。音频文件获取单元192向音频解码处理单元194提供包含在所获取的样本条目中的编解码信息。

在步骤S226中,基于诸如从MPD处理单元191提供的URL的信息,音频文件获取单元192向Web服务器142发送请求并从待播放的片段的音频文件的头部获取sidx盒和ssix盒。

在步骤S227中,音频文件获取单元192从在步骤S223中获取的sidx盒和ssix盒获取待播放的片段的参考轨道和声道音频轨道的位置信息。在此情况下,由于作为参考轨道的基本轨道并不包含任何音频流,因此不存在参考轨道的位置信息。

在步骤S228中,音频文件获取单元192基于声道音频轨道的位置信息和诸如待播放的片段的音频文件的URL的信息,请求Web服务器142发送被布置在mdat盒中的声道音频轨道的音频流,并获取该声道音频轨道的音频流。音频文件获取单元192向音频解码处理单元194提供所获取的声道音频轨道的音频流。

在步骤S229中,音频解码处理单元194基于从音频文件获取单元192提供的编解码信息,解码声道音频轨道的音频流。音频文件获取单元192向音频合成处理单元195提供作为解码的结果所获得的声道音频。

在步骤S230中,音频合成处理单元195输出声道音频。接着该过程终止。

应指出,虽然未示出,用于通过流播放单元190播放HOA音频的HOA音频播放过程以类似于如图48所示的声道音频播放过程的方式来执行。

图49为示出在图47中示出的流播放单元190的对象指定过程的流程图。例如,在使用者将对象音频选择为待播放的对象并且播放区域被改变时,该对象指定过程被执行。

在图49的步骤S251中,音频选择单元193获取使用者通过使用者的操作等所指定的显示区域。

在步骤S252中,MPD处理单元191分析从MPD获取单元91提供的MPD文件,并基于基本属性和在“SubRepresentation”(“子表示”)中描述的编解码来指定待播放的片段的元数据的“SubRepresentation”(“子表示”)。此外,MPD处理单元191从MPD文件提取信息(诸如在用于音频元文件的“Segment”(“片段”)中描述的待播放的片段的音频文件的URL),并向音频文件获取单元192提供所提取的信息。

在步骤S253中,MPD处理单元191基于在步骤S252中指定的“SubRepresentation”(“子表示”)的dependencyLevel指定作为参考轨道的基本轨道的级别,并向音频文件获取单元192提供基本轨道的指定级别。

在步骤S254中,音频文件获取单元192基于诸如从MPD处理单元191提供的URL的信息,请求Web服务器142发送待播放的片段的初始片段并获取该初始片段。

在步骤S255中,音频文件获取单元192从初始片段中的级别分配盒(Level assignment box)获取与对象元数据轨道和作为参考轨道的基本轨道的级别对应的轨道ID。

在步骤S256中,音频文件获取单元192基于对象元数据轨道和作为参考轨道的基本轨道的轨道ID获取与初始片段的轨道ID对应的轨道盒中的初始片段的样本条目。音频文件获取单元192向音频选择单元193提供被包含在作为参考轨道的基本轨道的样本条目中的图像帧尺寸信息。此外,音频文件获取单元192向音频选择单元193提供初始片段。

在步骤S257中,基于诸如从MPD处理单元191提供的URL的信息,音频文件获取单元192向Web服务器142发送请求并从待播放的片段的音频文件的头部获取sidx盒和ssix盒。

在步骤S258中,音频文件获取单元192从在步骤S257中获取的sidx盒和ssix盒获取参考轨道和待播放的子片段的对象元数据轨道的位置信息。在此情况下,由于作为参考轨道的基本轨道并不包含任何音频流,因此不存在参考轨道的位置信息。音频文件获取单元192向音频选择单元193提供sidx盒和ssix盒。

在步骤S259中,音频文件获取单元192基于对象元数据轨道的位置信息和诸如待播放的片段的音频文件的URL的信息请求Web服务器142发送被布置在mdat盒中的对象元数据轨道的音频流,并获取该对象元数据轨道的音频流。

在步骤S260中,音频文件获取单元192基于被包含在步骤S256中获取的样本条目中的编解码信息,解码在步骤S259中获取的对象元数据轨道的音频流。音频文件获取单元192向音频选择单元193提供包含在作为解码的结果所获得的元数据中的对象位置信息。此外,音频文件获取单元192向音频选择单元193提供诸如从MPD处理单元191提供的音频文件的URL的信息。

在步骤S261中,音频选择单元193基于图像帧尺寸信息和从音频文件获取单元192提供的对象位置信息并基于由使用者指定的显示区域来选择在该显示区域中的对象。接着该过程终止。

图50为示出在图49中示出的对象指定过程之后由流播放单元190执行的指定对象音频播放过程的流程图。

在图50的步骤S281中,MPD处理单元191分析从MPD获取单元91提供的MPD文件,并基于基本属性和在“SubRepresentation”(“子表示”)中描述的编解码来指定所选对象的对象音频的“SubRepresentation”(“子表示”)。

在步骤S282中,MPD处理单元191基于在步骤S281中指定的“SubRepresentation”(“子表示”)的dependencyLevel指定作为参考轨道的基本轨道的级别,并向音频文件获取单元192提供基本轨道的指定级别。

在步骤S283中,音频文件获取单元192从初始片段中的级别分配盒(Level assignment box)获取与对象音频轨道和作为参考轨道的基本轨道的级别对应的轨道ID,并向音频选择单元193提供该轨道ID。

在步骤S284中,音频选择单元193基于对象音频轨道和作为参考轨道的基本轨道的轨道ID获取与初始片段的轨道ID对应的轨道盒中的初始片段的样本条目。该初始片段从如图49所示的步骤S256中的音频文件获取单元192提供。音频选择单元193向音频解码处理单元194提供包含在所获取的样本条目中的编解码信息。

在步骤S285中,音频选择单元193从步骤S258中从音频文件获取单元192提供的sidx盒和ssix盒,获取参考轨道和待播放的子片段的所选对象的对象音频轨道的位置信息。在此情况下,由于作为参考轨道的基本轨道并不包含任何音频流,因此不存在参考轨道的位置信息。

在步骤S286中,音频选择单元193基于对象音频轨道的位置信息和诸如待播放的片段的音频文件的URL的信息请求Web服务器142发送被布置在mdat盒中的所选对象的对象音频轨道的音频流,并获取该对象音频轨道的音频流。音频选择单元193向音频解码处理单元194提供所获取的对象音频轨道的音频流。

在步骤S287中,音频解码处理单元194基于从音频选择单元193提供的编解码信息解码对象音频轨道的音频流。音频选择单元193向音频合成处理单元195提供作为解码的结果所获得的对象音频。

在步骤S288中,音频合成处理单元195合成从音频解码处理单元194提供的对象音频并输出该对象音频。接着该过程终止。

如上所述,在信息处理系统140中,文件生成装置141生成音频文件,其中,3D音频根据3D音频的类型被划分为多个轨道并且布置该轨道。视频播放终端144在音频文件中的预定类型的3D音频的音频流。因此,视频播放终端144可以有效获取预定类型的3D音频的音频流。因此,可以说文件生成装置141生成能够提高获取预定类型的3D音频的音频流的效率的音频文件。

<第二实施例>

(轨道的概述)

图51为示出在应用本公开的第二实施例中的轨道的概述的示意图。

如图51所示,第二实施例不同于第一实施例之处在于基本样本被记录为基本轨道的样本。基本样本由被声道音频/对象音频/HOA音频/元数据的样本参考的信息形成。参考包含在基本样本中的参考信息的声道音频/对象音频/HOA音频/元数据的样本以参考信息的布置的顺序来布置,从而使得有可能在3D音频被划分为轨道之前生成该3D音频的音频流。

(基本轨道的样本条目的示例性语法)

图52为示出在图51中示出的基本轨道的样本条目的示例性语法的示意图。

如图52所示的语法与如图34所示的语法相同,除了描述表示样本条目为如图51所示的基本轨道的样本条目的“mha2”,而不是描述表示样本条目为如图33所示的基本轨道的样本条目的“mha1”之外。

(基本条目的示例性结构)

图53为示出基本样本的示例性结构的示意图。

如图53所示,基本样本使用以作为子样本的样本为单位的声道音频/对象音频/HOA音频/元数据的提取器来配置。声道音频/对象音频/HOA音频/元数据的提取器由提取器的类型和对应声道音频轨道/对象音频轨道/HOA音频轨道/对象元数据轨道的子样本的偏移和大小组成。该偏移为在基本样本的子样本的文件中的基本样本的位置和在该样本的文件中的声道音频轨道/对象音频轨道/HOA音频轨道/对象元数据轨道的位置之间的差值。换句话说,该偏移为指示与包含该偏移的基本样本的子样本对应的另一轨道的样本的文件内的位置的信息。

图54为示出基本样本的示例性语法的示意图。

如图54所示,在基本样本中,用于在对象音频轨道的样本中存储对象音频的SCE元素被用于存储提取器的EXT元素代替。

图55为示出提取器数据的示例的示意图。

如图55所示,提取器的类型和对应的声道音频轨道/对象音频轨道/HOA音频轨道/对象元数据轨道的子样本的偏移和大小在该提取器中描述。

应指出,提取器可以利用网络抽象层(NAL)结构扩展,该NAL结构在高级视频编码(AVC)/高效视频编码(HEVC)中定义,以便可以存储音频元素和配置信息。

在第二实施例中的信息处理系统和由该信息处理系统执行的过程类似于第一实施例,并因此省略其描述。

<第三实施例>

(轨道的概述)

图56为示出在应用本公开的第三实施例中的轨道的概述的示意图。

如图56所示,第三实施例不同于第一实施例之处在于,基本样本和元数据的样本被记录为基本轨道的样本并且未提供对象元数据轨道。

在第三实施例中的信息处理系统和由该信息处理系统执行的过程类似于第一实施例,除了基本轨道而不是对象元数据轨道的音频流被获取,以便获取对象位置信息。因此,省略其描述。

<第四实施例>

(轨道的概述)

图57为示出在应用本公开的第四实施例中的轨道的概述的示意图。

如图57所示,第四实施例不同于第一实施例之处在于,轨道被记录为不同文件(3da_base.mp4/3da_channel.mp4/3da_object_1.mp4/3da_hoa.mp4/3da_meta.mp4)。在此情况下,只有期望轨道的音频数据可以经由HTTP通过获取期望轨道的文件才获取。因此,期望轨道的音频数据可以经由HTTP有效获取。

(MPD文件的示例性描述)

图58为示出根据应用本公开的第四实施例的MDF文件的示例性描述的示意图。

如图58所示,管理3D音频的每个音频文件(3da_base.mp4/3da_channel.mp4/3da_object_1.mp4/3da_hoa.mp4/3da_meta.mp4)的片段的“Representation”(“表示”)等在MPD文件中描述。

“Representation”(“表示”)包含“codecs”、“id”、“associationId”和“assciationType”。此外,声道音频轨道/对象音频轨道/HOA音频轨道/对象元数据轨道的“Representation”(“表示”)也包含"<EssentialProperty schemeIdUri="urn:mpeg:DASH:3daudio:2014"value="audioType,contentkind,priority">"。此外,对象音频轨道的“Representation”(“表示”)包含<EssentialProperty schemeIdUri="urn:mpeg:DASH:viewingAngle:2014"value="θ,γ,r">。

(信息处理系统的概述)

图59为示出在应用本公开的第四实施例中的信息处理系统的概述的示意图。

在图59中示出的与图1所示组件相同的组件由相同的附图标号表示。在适当时,省略重复的说明。

如图59所示的信息处理系统210具有如下配置:其中连接到文件生成装置211的Web服务器212以及视频播放终端214经由互联网13连接。

在信息处理系统210中,Web服务器212通过兼容MPEG-DASH的方法向视频播放终端214以瓦片为单位传送视频内容的视频流(瓦片流传输)。此外,在信息处理系统210中,Web服务器212向视频播放终端214传送对应于待播放文件的对象音频、声道音频或HOA音频的音频文件。

具体地,文件生成装置211获取视频内容的图像数据并以瓦片为单位编码图像数据以生成视频流。文件生成装置211将每个瓦片的视频流处理为用于每个片段的文件格式。文件生成装置211向Web服务器212上传作为上述处理结果获得的每个文件的图像文件。

此外,文件生成装置211获取视频内容的3D音频并针对3D音频的每种类型(声道音频/对象音频/HOA音频/元数据)每种类型编码3D音频以生成音频流。文件生成装置211向每种类型的3D音频的音频流分配轨道。文件生成装置211针对每个轨道生成音频文件(在该音频文件中布置有音频流)并向Web服务器212上传所生成的音频文件。

文件生成装置211生成MPD文件,其包含图像帧尺寸信息、瓦片位置信息和对象位置信息。文件生成装置211向Web服务器212上传MPD文件。

Web服务器212存储从文件生成装置211上传的图像文件、关于每种类型的3D音频的音频文件和MPD文件。

在图59的示例中,We服务器212存储由瓦片#1的多个片段的图像文件形成的片段组和由瓦片#2的多个片段的图像文件形成的片段组。Web服务器212也存储由声道音频的音频文件形成的片段组和对象#1的音频文件的片段组。

Web服务器212响应于来自视频播放终端214的请求,向视频播放终端214传送存储在该Web服务器中的图像文件、预定类型的3D音频的音频文件、MPD文件等。

视频播放终端214执行控制软件221、视频播放软件222、访问软件223等。

控制软件221为用于控制从Web服务器212流传输的数据的软件。具体地,控制软件221促使视频播放终端214从Web服务器212获取MPD文件。

此外,控制软件221基于从视频播放软件222命令的显示区域和被包含在MPD文件中的瓦片位置信息来指定在该MPD文件中的瓦片。接着,控制软件221命令访问软件223发送用于传送该瓦片的图像文件的请求。

在对象音频待播放时,控制软件221命令访问软件223发送用于发送基本轨道的音频文件的请求。接着,控制软件221命令访问软件223发送用于发送对象元数据轨道的音频文件的请求。控制软件221获取基本轨道的音频文件中的图像帧尺寸信息和被包含在元数据的音频文件中的对象位置信息,该图像帧尺寸信息根据指令从Web服务器142发送。控制软件221基于图像帧尺寸信息、对象位置信息和显示区域来指定对应于在该显示区域中的图像的对象。此外,控制软件221命令访问软件223发送用于发送该对象的音频文件的请求。

此外,在声道音频或HOA音频待播放时,控制软件221命令访问软件223发送用于发送该声道音频或HOA音频的音频文件的请求。

视频播放软件222为用于播放从Web服务器212获取的图像文件和音频文件的软件。具体地,在显示区域由使用者指定时,视频播放软件222将关于显示区域的指令给予控制软件221。此外,视频播放软件222根据指令解码从Web服务器212获取的图像文件和音频文件。视频播放软件222合成作为解码的结果所获得的以瓦片为单位的图像数据并输出该图像数据。此外,在需要时,视频播放软件222合成作为解码的结果所获得的对象音频、声道音频或HOA音频并输出该音频。

访问软件223为用于使用HTTP经由互联网13控制与Web服务器212的通信的软件。具体地,访问软件223促使视频播放终端214响应于来自控制软件221的指令发送请求发送图像文件和预定的音频文件的请求。此外,访问软件223促使视频播放终端214根据该传送请求接收从Web服务器212所发送的图像文件和预定的音频文件。

(文件生成装置的配置示例)

图60为在图59中示出的文件生成装置211的框图。

在图60中示出的与图45所示组件相同的组件由相同的附图标号表示。在适当时,省略重复的解释。

如图60所示的文件生成装置211的配置不同于如图45所示的文件生成装置141的配置之处在于,提供音频文件生成单元241、MPD生成单元242和服务器上传处理单元243以分别取代音频文件生成单元172、MPD生成单元173和服务器上传处理单元174。

具体地,文件生成装置211的音频文件生成单元241向音频流分配轨道以用于每种类型的3D音频,该音频流从音频编码处理单元171提供。音频文件生成单元241针对每个轨道生成音频文件(在该音频文件中布置有音频流)。此时,音频文件生成单元241将从外面输入的图像帧尺寸信息存储在基本轨道的样本条目中。音频文件生成单元241向MPD生成单元242提供用于每种类型的3D音频的音频文件。

MPD生成单元242确定存储从图像文件生成单元53提供的每个瓦片的图像文件的Web服务器212的URL等。此外,MPD生成单元242针对每种类型的3D音频,确定存储从音频文件生成单元241提供的音频文件的Web服务器212的URL等。

MPD生成单元242在用于MPD文件的图像的“Adaptation Set”(“自适应集”)中布置从图像信息生成单元54提供的图像信息。此外,MPD生成单元242在用于瓦片的图像文件的“Representation”(“表示”)的“Segment”(“片段”)中布置每个瓦片的图像文件的URL等。

MPD生成单元242针对每种类型的3D音频,在用于音频文件的“Representation”(“表示”)的“Segment”(“片段”)中布置该音频文件的URL等。此外,MPD生成单元242在用于对象的对象元数据轨道的“Representation”(“表示”)中布置从外面输入的每个对象的对象位置信息等。MPD生成单元242向服务器上传处理单元243提供其中各种信息块如上所述进行布置的MPD文件、图像文件和用于每种类型的3D音频的音频文件。

服务器上传处理单元243向Web服务器212上传从MPD生成单元242提供的每个瓦片的图像文件、每种类型的3D音频的音频文件和MPD文件。

(文件生成装置的过程的说明)

图61为示出在图211中示出的文件生成装置60的文件生成过程的流程图。

如图61所示的步骤S301至S307的过程类似于如图46所示的步骤S191至S197的过程,并因此其描述被省略。

在步骤S308中,音频文件生成单元241针对每个轨道生成音频文件(在音频文件中布置有音频流)。此时,音频文件生成单元241将从外面输入的图像帧尺寸信息存储在基本轨道的音频文件中的样本条目中。音频文件生成单元241向MPD生成单元242提供所生成的用于每种类型的3D音频的音频文件。

在步骤S309中,MPD生成单元242生成包含从图像信息生成单元54提供的图像信息的MPD文件、每个文件的URL和对象位置信息。MPD生成单元242向服务器上传处理单元243提供图像文件、用于每种类型的3D音频的音频文件和MPD文件。

在步骤S310中,服务器上传处理单元243向Web服务器212上传从MPD生成单元242提供的图像文件、每种类型的3D音频的音频文件和MPD文件。接着该过程终止。

(视频播放终端的功能配置示例)

图62为示出流播放单元的配置示例的框图,该流播放单元以如图59所示的视频播放终端214执行控制软件221、视频播放软件222和访问软件223的方式实施。

在图62中示出的与图13和47所示组件相同的组件由相同的附图标号表示。在适当时,省略重复的说明。

如图62所示的流播放单元260的配置不同于如图13所示的流播放单元90的配置在于:提供MPD处理单元261、元文件获取单元262、音频选择单元263、音频文件获取单元264、音频解码处理单元194和音频合成处理单元195以分别取代MPD处理单元92、元文件获取单元93、音频选择单元94、音频文件获取单元95、音频解码处理单元96和音频合成处理单元97。

具体地,在对象音频待播放时,流播放单元260的MPD处理单元261从提供自MPD获取单元91的MPD文件提取信息(诸如在待播放的片段的对象元数据轨道的音频文件的“Segment”(“片段”)中描述的URL),并向元文件获取单元262提供所提取的信息。此外,MPD处理单元261从MPD文件提取信息(诸如在从音频选择单元263所请求的对象的对象音频轨道的音频文件的“Segment”(“片段”)中描述的URL),并向音频选择单元263提供所提取的信息。此外,MPD处理单元261从MPD文件提取信息(诸如在待播放的片段的基本轨道的音频文件的“Segment”(“片段”)中描述的URL),并向元文件获取单元262提供所提取的信息。

此外,在声道音频或HOA音频待播放时,MPD处理单元261从MPD文件提取信息(诸如在待播放的片段的声道音频轨道或HOA音频轨道的音频文件的“Segment”(“片段”)中描述的URL)。MPD处理单元261经由音频选择单元263向音频文件获取单元264提供诸如URL的信息。

应指出,确定对象音频、声道音频和HOA音频中的哪一个将被播放例如是根据使用者的指令的。

MPD处理单元261从MPD文件提取在用于图像的“Adaptation Set”(“自适应集”)中描述的瓦片位置信息并向图像选择单元98提供所提取的瓦片位置信息。MPD处理单元261从MPD文件提取信息(诸如在用于从图像选择单元98所请求的瓦片的图像文件的“Segment”(“片段”)中描述的URL),并向图像选择单元98提供所提取的信息。

基于诸如从MPD处理单元261提供的URL的信息,元文件获取单元262请求Web服务器212发送由该URL指定的对象元数据轨道的音频文件,并获取该对象元数据轨道的音频文件。元文件获取单元93向音频选择单元263提供被包含在该对象元数据轨道的音频元文件中的对象位置信息。

此外,基于诸如音频文件的URL的信息,元文件获取单元262请求Web服务器142发送在由该URL指定的基本轨道的音频文件的初始片段,并获取该初始片段。元文件获取单元262向音频选择单元263提供被包含在初始片段的样本条目中的图像帧尺寸信息。

音频选择单元263基于图像帧尺寸信息和从元文件获取单元262提供的对象位置信息计算在图像上的每个对象的位置。音频选择单元263基于在图像上的每个对象的位置选择由使用者指定的显示区域中的对象。音频选择单元263请求MPD处理单元261发送信息(诸如所选对象的对象音频轨道的音频文件的URL)。音频选择单元263根据该请求,向音频文件获取单元264提供诸如从MPD处理单元261提供的URL的信息。

基于信息(诸如从音频选择单元263提供的对象音频轨道、声道音频轨道或HOA音频轨道的音频文件的URL),音频文件获取单元264请求Web服务器12发送由该URL指定的音频文件的音频流,并获取该音频文件的音频流。音频文件获取单元95向音频解码处理单元194提供所获取的以对象为单位的音频文件。

(视频播放终端的过程的说明)

图63为示出在图62中示出的流播放单元260的声道音频播放过程的流程图。例如,在使用者将声道音频选择为待播放的对象时,该声道音频播放过程被执行。

在图63的步骤S331中,MPD处理单元261分析从MPD获取单元91提供的MPD文件,并基于基本属性和在“Representation”(“表示”)中描述的编解码来指定待播放的片段的声道音频的“Representation”(“表示”)。此外,MPD处理单元261提取信息(诸如在被包含在“Representation”(“表示”)中的“Segment”(“片段”)中描述的用于待播放的片段的声道音频轨道的音频文件的URL),并经由音频选择单元263向音频文件获取单元264提供所提取的信息。

在步骤S332中,基于在步骤S331中指定的“Representation”(“表示”)的associationId,MPD处理单元261指定作为参考轨道的基本轨道的“Representation”(“表示”)。MPD处理单元261提取信息(诸如在被包含在“Representation”(“表示”)中的“Segment”(“片段”)中描述的参考轨道的音频文件的URL),并经由音频选择单元263向音频文件获取单元264提供所提取的文件。

在步骤S333中,音频文件获取单元264基于诸如从音频选择单元263提供的URL的信息,请求Web服务器212发送待播放的片段的声道音频轨道和参考轨道的音频文件的初始片段并获取该初始片段。

在步骤S334中,音频文件获取单元264获取在所获取的初始片段的trak盒中的样本条目。音频文件获取单元264向音频解码处理单元194提供包含在所获取的样本条目中的编解码信息。

在步骤S335中,音频文件获取单元264基于诸如从音频选择单元263提供的URL的信息,向Web服务器142发送请求,并从待播放的片段的声道音频轨道的音频文件的头部获取sidx盒和ssix盒。

在步骤S336中,音频文件获取单元264从在步骤S333中获取的sidx盒和ssix盒获取待播放的子片段的位置信息。

在步骤S337中,音频选择单元263基于在步骤S337中获取的位置信息和诸如待播放的片段的声道音频轨道的音频文件的URL的信息,请求Web服务器142发送被布置在该音频文件的mdat盒中的声道音频轨道的音频流,并获取该声道音频轨道的音频流。音频选择单元263向音频解码处理单元194提供所获取的声道音频轨道的音频流。

在步骤S338中,音频解码处理单元194基于从音频文件获取单元264提供的编解码信息解码从音频选择单元263提供的声道音频轨道的音频流。音频选择单元263向音频合成处理单元195提供作为解码的结果所获得的声道音频。

在步骤S339中,音频合成处理单元195输出声道音频。接着该过程终止。

虽然未示出,用于通过流播放单元260播放HOA音频的HOA音频播放过程以类似于如图63所示的声道音频播放过程的方式来执行。

图64为示出在图62中示出的流播放单元260的对象音频播放过程的流程图。例如,在使用者选择对象音频作为待播放的对象并且播放区域被改变时,该对象音频播放过程被执行。

在图64的步骤S351中,音频选择单元263获取使用者通过使用者的操作等所指定的显示区域。

在步骤S352中,MPD处理单元261分析从MPD获取单元91提供的MPD文件,并基于基本属性和在“Representation”(“表示”)中描述的编解码来指定待播放的片段的元数据的“Representation”(“表示”)。此外,MPD处理单元261提取信息(诸如在被包含在“Representation”(“表示”)中的“Segment”(“片段”)中描述的待播放的片段的对象元数据轨道的音频文件的URL),并向元文件获取单元262提供所提取的信息。

在步骤S353中,基于在步骤S352中指定的“Representation”(“表示”)的associationId,MPD处理单元261指定作为参考轨道的基本轨道的“Representation”(“表示”)。MPD处理单元261提取信息(诸如在被包含在“Representation”(“表示”)中的“Segment”(“片段”)中描述的参考轨道的音频文件的URL),并向元文件获取单元262提供所提取的信息。

在步骤S354中,元文件获取单元262基于诸如从MPD处理单元261提供的URL的信息,请求Web服务器212发送待播放的片段的对象元数据轨道和参考轨道的音频文件的初始片段并获取该初始片段。

在步骤S355中,元文件获取单元262获取在所获取的初始片段的trak盒中的样本条目。元文件获取单元262向音频文件获取单元264提供被包含在为参考轨道的基本轨道的样本条目中的图像帧尺寸信息。

在步骤S356中,元文件获取单元262基于诸如从MPD处理单元261提供的URL的信息,向Web服务器142发送请求,并从待播放的片段的对象元数据轨道的音频文件的头部获取sidx盒和ssix盒。

在步骤S357中,元文件获取单元262从在步骤S356中获取的sidx盒和ssix盒获取待播放的子片段的位置信息。

在步骤S358中,元文件获取单元262基于在步骤S357中获取的位置信息和诸如待播放的片段的对象元数据轨道的音频文件的URL的信息,请求Web服务器142传送被布置在该音频文件的mdat盒中的对象元数据轨道的音频流,并获取该对象元数据轨道的音频流。

在步骤S359中,元文件获取单元262基于被包含在步骤S355中获取的样本条目中的编解码信息,解码在步骤S358中获取的对象元数据轨道的音频流。元文件获取单元262向音频选择单元263提供作为解码的结果所获得的被包含在元数据中的对象位置信息。

在步骤S360中,音频选择单元263基于图像帧尺寸信息和从元文件获取单元262提供的对象位置信息并基于由使用者指定的显示区域来选择在该显示区域中的对象。音频选择单元263请求MPD处理单元261发送诸如所选对象的对象音频轨道的音频文件的URL的信息。

在步骤S361中,MPD处理单元261分析从MPD获取单元91提供的MPD文件,并基于基本属性和在“Representation”(“表示”)中描述的编解码来指定所选对象的对象音频的“Representation”(“表示”)。此外,MPD处理单元261提取信息(诸如在被包含在“Representation”(“表示”)中的“Segment”(“片段”)中描述的待播放的片段的所选对象的对象音频轨道的音频文件的URL),并经由音频选择单元263向音频文件获取单元264提供所提取的信息。

在步骤S362中,基于在步骤S361中指定的“Representation”(“表示”)的associationId,MPD处理单元261指定作为参考轨道的基本轨道的“Representation”(“表示”)。MPD处理单元261提取信息(诸如在被包含在“Representation”(“表示”)中的“Segment”(“片段”)中描述的参考轨道的音频文件的URL),并经由音频选择单元263向音频文件获取单元264提供所提取的信息。

在步骤S363中,音频文件获取单元264基于诸如从音频选择单元263提供的URL的信息,请求Web服务器212发送待播放的片段的对象音频轨道和参考轨道的音频文件的初始片段,并获取该初始片段。

在步骤S364中,音频文件获取单元264获取在所获取的初始片段的trak盒中的样本条目。音频文件获取单元264向音频解码处理单元194提供包含在样本条目中的编解码信息。

在步骤S365中,音频文件获取单元264基于诸如从音频选择单元263提供的URL的信息,向Web服务器142发送请求,并从待播放的片段的对象音频轨道的音频文件的头部获取sidx盒和ssix盒。

在步骤S366中,音频文件获取单元264从在步骤S365中获取的sidx盒和ssix盒获取待播放的子片段的位置信息。

在步骤S367中,音频文件获取单元264基于在步骤S366中获取的位置信息和诸如待播放的片段的对象音频轨道的音频文件的URL的信息,请求Web服务器142发送被布置在该音频文件内的mdat盒中的对象音频轨道的音频流,并获取该对象音频轨道的音频流。音频文件获取单元264向音频解码处理单元194提供所获取的对象音频轨道的音频流。

步骤S368和S369的过程类似于如图50所示的步骤S287和S288的过程,并因此其描述被省略。

应指出,在上面的描述中,音频选择单元263选择显示区域中的所有对象。然而,音频选择单元263可只选择显示区域中的具有高处理优先级的对象,或可只选择预定内容的音频对象。

图65为示出在音频选择单元263只选择显示区域中的对象之中具有高处理优先级的对象时,对象音频播放过程的流程图。

如图65所示的对象音频播放过程类似于如图64所示的对象音频播放过程,除了如图65所示的步骤S390的过程被执行以取代如图64所示的步骤S360。具体地,如图65所示的步骤S381至S389和步骤S391至S399的过程类似于如图64所示的步骤S351至S359和步骤S361至S369的过程。因此,下面将只描述步骤S390的过程。

在如图65所示的步骤S390中,音频文件获取单元264基于图像帧尺寸信息、对象位置信息、显示区域和每个对象的优先级来选择该显示区域中具有高处理优先级的对象。具体地,音频文件获取单元264基于图像帧尺寸信息、对象位置信息和显示区域来指定该显示区域的每个对象。音频文件获取单元264从所指定的对象之中选择优先级等于或高于预定值的对象。应指出,例如,MPD处理单元261分析MPD文件,从而从指定对象的对象音频的“Representation”(“表示”)获取优先级。音频选择单元263请求MPD处理单元261发送诸如所选对象的对象音频轨道的音频文件的URL的信息。

图66为示出在音频选择单元263在选择显示区域中的对象之中只选择具有高处理优先级的预定内容的音频对象时的对象音频播放过程的流程图。

如图66所示的对象音频播放过程类似于如图64所示的对象音频播放过程,除了如图66所示的步骤S420的过程被执行以取代如图64所示的步骤S360。具体地,如图66所示的步骤S381至S389和步骤S391至S399的过程类似于如图64所示的步骤S411至S419和步骤S421至S429的过程。因此,下面将只描述步骤S420的过程。

在如图66所示的步骤S420中,音频文件获取单元264基于图像帧尺寸信息、对象位置信息、显示区域、每个对象的优先级以及每个对象的内容种类来选择该显示区域中具有高处理优先级的预定内容的音频对象。具体地,音频文件获取单元264基于图像帧尺寸信息、对象位置信息和显示区域来指定该显示区域中的每个对象。音频文件获取单元264从所指定的对象之中选择优先级等于或高于预定值并具有由预定值指示的内容种类的对象。

应指出,例如,MPD处理单元261分析MPD文件,从而从指定对象的对象音频的“Representation”(“表示”)获取优先级和内容种类。音频选择单元263请求MPD处理单元261传送诸如所选对象的对象音频轨道的音频文件的URL的信息。

图67为示出基于优先级选择的对象的示例的示意图。

在图67的示例中,对象#1(对象1)至#4(对象4)为在显示区域中的对象,以及优先级等于或低于2的对象从显示区域中的对象之中选择。假设数值越小,处理优先级越高。此外,在图67中,圆圈中的数值表示对应对象的优先级的值。

在如图67所示的示例中,在对象#1至#4的优先级分别为1、2、3和4时,对象#1和对象#2被选择。此外,在对象#1至#4的优先级被分别改变为3、2、1和4时,对象#2和对象#3被选择。此外,在对象#1至#4的优先级被改变为3、4、1和2时,对象#3和对象#4被选择。

如上所述,只有具有高处理优先级的对象的对象音频的音频流从显示区域中的对象之中选择性获取,在Web服务器142(212)和视频播放终端144(214)之间的频带被有效利用。同样适用于在对象基于该对象的内容种类来选择。

<第五实施例>

(轨道的概述)

图68为示出在应用本公开的第五实施例中的轨道的概述的示意图。

如图68所示,第五实施例不同于第二实施例之处在于,轨道被记录为不同文件(3da_base.mp4/3da_channel.mp4/3da_object_1.mp4/3da_hoa.mp4/3da_meta.mp4)。

根据第五实施例的信息处理系统和由该信息处理系统执行的过程类似于第四实施例,并因此省略其描述。

<第六实施例>

(轨道的概述)

图69为示出在应用本公开的第六实施例中的轨道的概况的示意图。

如图69所示,第六实施例不同于第三实施例之处在于,轨道被记录为不同文件(3da_basemeta.mp4/3da_channel.mp4/3da_object_1.mp4/3da_hoa.mp4)。

根据第六实施例的信息处理系统和由该信息处理系统执行的过程类似于第四实施例,除了基本轨道而不是对象元数据轨道的音频流被获取,以便获取对象位置信息。因此,省略其描述。

应指出,在第一至第三实施例、第五实施例和第六实施例中,在显示区域中的对象也可以基于该对象的优先级或内容种类来选择。

此外,在第一至第六实施例中,流播放单元可获取显示区域外面的对象的音频流并合成该对象的对象音频且输出该对象音频,如同图23中示出的流播放单元120。

此外,在第一至第六实施例中,对象位置信息从元数据获取,但是替代地,对象位置信息可从MPD文件获取。

<3D音频的分层结构的解释>

图70为示出3D音频的分层结构的示意图。

如图70所示,对于每个音频数据都不同的音频元素(元素)被用作3D音频的音频数据。作为音频元素的类型,存在单声道元素(SCE)和声道对元素(CPE)。用于一个声道的音频数据的音频元素的类型为SCE,以及对应于两个声道的音频数据的音频元素的类型为CPE。

相同音频类型(声道/对象/SAOC对象/HOA)的音频元素形成组。组类型(GroupType)的示例包含声道、对象、SAOC对象和HOA。在需要时,两组或多组可以形成开关组或组预设。

开关组定义待单独播放的音频元素的组。具体地,如图70所示,在存在用于英语(EN)的对象音频组和用于法语(FR)的对象音频组时,该组中的一者为待播放。因此,开关组由组ID为2的用于英语的对象音频组和组ID为3的用于法语的对象音频组形成。因此,用于英语的对象音频和用于法语的对象音频被单独播放。

另一方面,组预设定义由内容生产商预定的组的组合。

关于每个元数据都不同的Ext元素(Ext Elements)被用作3D音频的元数据。Ext元素的类型的示例包含对象元数据、SAOC 3D元数据、HOA元数据、DRC元数据、SpatialFrame和SaocFrame。对象元数据的Ext元素为对象音频的所有元数据,以及SAOC 3D元数据的Ext元素为SAOC音频的所有元数据。此外,HOA元数据的Ext元素为HOA音频的所有元数据以及动态范围控制(DRC)元数据的Ext元素为对象音频、SAOC音频和HOA音频的所有元数据。

如上所述,3D音频的音频数据以音频元素、组类型、组、开关组和组预设(group preset)为单位划分。因此,音频数据可被划分为音频元素、组、开关组或组预设,以替代如同第一至第六实施例所述的针对每种组类型将音频数据划分为轨道(然而,在此情况下,对象音频针对每个对象被划分)。

此外,3D音频的元数据被划分为以Ext元素类型(ExtElementType)为单位或以对应于元数据的音频元素为单位。因此,元数据可针对对应于该元数据的每个音频元素而划分,以取代如同第一至第六实施例所述的针对每种类型的Ext元素来划分元数据。

假设在下面的描述中,音频数据针对每个音频元素而划分;元数据针对每种类型的Ext元素而划分;以及不同轨道的数据被布置。使用其它划分单位时,也同样适用。

<Web服务器过程的第一示例的说明>

图71为示出Web服务器142(212)的过程的第一示例的示意图。

在图71的示例中,对应于从文件生成装置141(211)上传的音频文件的3D音频由五个声道的声道音频、三个对象的对象音频和对象音频的元数据(对象元数据)组成。

五个声道的声道音频被划分为前中心(FC)声道的声道音频、前左/前右(FL,FR)声道的声道音频和后左/后右(RL,RR)声道的声道音频,这些声道音频被布置为不同轨道的数据。此外,每个对象的对象音频被布置为不同轨道的数据。此外,对象元数据被布置为一个轨道的数据。

此外,如图71所示,3D音频的每个音频流由配置信息和以帧(样本)为单位的数据组成。在图71的示例中,在音频文件的音频流中,五个声道的声道音频、三个对象的对象音频和对象元数据的配置信息被集中布置,以及每个帧的数据项被集中布置。

在此情况下,如图71所示,Web服务器142(212)针对每个轨道划分从文件生成装置141(211)上传的音频文件的音频流并生成七个轨道的音频流。具体地,Web服务器142(212)根据诸如ssix盒的信息从音频文件的音频流提取每个轨道的配置信息和音频数据,并生成每个轨道的音频流。每个轨道的音频流由该轨道的配置信息和每个帧的音频数据组成。

图72为示出Web服务器142(212)的轨道划分过程的流程图。例如,在从文件生成装置141(211)上传音频文件时,开始该轨道划分过程。

在如图72所示的步骤S441中,Web服务器142(212)存储从文件生成装置141上传的音频文件。

在步骤S442中,Web服务器142(212)根据诸如音频文件的ssix盒的信息针对每个轨道来划分构成音频文件的音频流。

在步骤S443中,Web服务器142(212)保持每个轨道的音频流。接着该过程终止。在音频流被从视频播放终端144(214)的音频文件获取单元192(264)请求时,该音频流从Web服务器142(212)被传送至视频播放终端144(214)。

<音频解码处理单元的过程的第一示例的说明>

图73为示出在Web服务器142(212)执行上述参考图71和72的过程时的音频解码处理单元194的过程的第一示例的示意图。

在图73的示例中,Web服务器142(212)保持如图71所示的每个轨道的音频流。待播放的轨道为前左/前右声道的声道音频、后左/后右声道的声道音频、第一对象的对象音频和对象元数据的轨道。后面描述的图75的情况同样如此。

在此情况下,音频文件获取单元192(264)获取前左/前右声道的声道音频、后左/右声道的声道音频、第一对象的对象音频和对象元数据的轨道。

音频解码处理单元194首先从由音频文件获取单元192(264)获取的对象元数据的轨道的音频流提取第一对象的对象音频的元数据的音频流。

接下来,如图73所示,音频解码处理单元194合成待播放的音频轨道的音频流和所提取的元数据的音频流。具体地,音频解码处理单元194生成音频流,其中,被包含在所有音频流中的配置信息项被集中布置,以及每个帧的数据项被集中布置。此外,音频解码处理单元194解码所生成的音频流。

如上所述,在待播放音频流除了一个声道音频轨道的音频流之外还包括音频流时,两个或多个轨道的音频流待播放。因此,音频流在解码之前被合成。

另一方面,只有一个声道音频的轨道的音频流待播放时,不需要合成该音频流。因此,音频解码处理单元194直接解码由音频文件获取单元192(264)获取的音频流。

图74为示出在Web服务器142(212)执行上述参考图71和72的过程时的音频解码处理单元194的解码过程的第一示例的细节的流程图。该解码过程为待播放轨道除了一个声道音频轨道之外还包括轨道时所执行的如图48所示的步骤S229和如图50所示的步骤S287的过程中的至少一者。

在图74的步骤S461中,音频解码处理单元194将表示被包含在所生成的音频流中的元素数量的所有元素数量设置为“0”。在步骤S462中,音频解码处理单元194将指示被包含在所生成的音频流中的元素类型的所有元素类型信息复位(清除)。

在步骤S463中,音频解码处理单元194将待播放轨道之中的未被确定为待处理轨道的轨道设置为待处理轨道。在步骤S464中,音频解码处理单元194从例如待处理的轨道的音频流获取被包含在待处理的轨道中的元素的数量和类型。

在步骤S465中,音频解码处理单元194将所获取的元素的数量添加至总的元素数量。在步骤S466中,音频解码处理单元194将所获取的元素的类型添加至所有的元素类型信息。

在步骤S467中,音频解码处理单元194确定待播放的所有轨道是否被设置为待处理的轨道。在步骤S467中确定不是所有的待播放轨道被设置为待处理的轨道时,该过程返回到步骤S463,并且步骤S463至S467的过程被重复直到所有的待播放轨道被设置为待处理的轨道。

另一方面,在步骤S467中确定所有的待播放轨道被设置为待处理的轨道时,该过程前进至步骤S468。在步骤S468中,音频解码处理单元194在所生成的音频流上的预定位置处布置总的元素数量和所有的元素类型信息。

在步骤S469中,音频解码处理单元194将待播放的轨道之中未被确定为待处理轨道的轨道,设置为待处理的轨道。在步骤S470中,在元素待处理时,音频解码处理单元194将被包含在待处理的轨道中的还未被确定为待处理的元素的元素,设置为待处理的元素。

在步骤S471中,音频解码处理单元194从待处理的轨道的音频流获取待处理的元素的配置信息并将该配置信息布置在所生成的音频流上。此时,待播放的所有轨道的所有元素的配置信息项被连续布置。

在步骤S472中,音频解码处理单元194确定被包含在待处理的轨道中的所有元素是否被设置为待处理的元素。在步骤S472中确定不是所有的元素被设置为待处理的元素时,该过程返回到步骤S470,并且步骤S470至S472的过程被重复直到所有的元素被设置为待处理的元素。

另一方面,在步骤S472中确定所有元素被设置为待处理的元素时,该过程前进至步骤S473。在步骤S473中,音频解码处理单元194确定待播放的所有轨道是否被设置为待处理的轨道。在步骤S473中确定不是所有的待播放轨道被设置为待处理的轨道时,该过程返回到步骤S469,并且步骤S469至S473的过程被重复直到所有的待播放轨道被设置为待处理的轨道。

另一方面,在步骤S473中确定所有的待播放轨道被设置为待处理的轨道时,该过程前进至步骤S474。在步骤S474中,音频解码处理单元194确定待处理的帧。在第一时间的步骤S474的过程中,头帧被确定为待处理的帧。在第二时间和后续时间的步骤S474的过程中,紧接着待处理的当前帧的帧被确定为待处理的新帧。

在步骤S475中,音频解码处理单元194将待播放的轨道之中未被确定为的待处理的轨道的轨道设置为待处理的轨道。在步骤S476中,音频解码处理单元194将被包含在待处理的轨道中的元素之中的还未被确定为待处理的元素的元素,设置为待处理的元素。

在步骤S477中,音频解码处理单元194确定待处理的元素是否为EXT元素。在步骤S477中确定待处理的元素不是EXT元素时,该过程前进到步骤S478。

在步骤S478中,音频解码处理单元194从待处理的轨道的音频流获取待处理的元素的待处理帧的音频数据并将该音频数据布置在所生成的音频流上。此时,待播放的所有轨道的所有元素的相同帧中的数据被连续布置。在步骤S478的过程之后,该过程前进到步骤S481。

另一方面,在步骤S477中确定待处理的元素是EXT元素时,该过程前进到步骤S479。在步骤S479中,音频解码处理单元194从待处理的轨道的音频流获取待处理的元素的待处理帧中的所有对象的元数据。

在步骤S480中,音频解码处理单元194在所生成的音频流上布置所获取的所有对象的元数据之中待播放的对象的元数据。此时,待播放的所有轨道的所有元素的相同帧中的数据项被连续布置。在步骤S480的过程之后,该过程前进到步骤S481。

在步骤S481中,音频解码处理单元194确定被包含在待处理的轨道中的所有元素是否被设置为待处理的元素。在步骤S481中确定不是所有的元素被设置为待处理的元素时,该过程返回到步骤S476,并且步骤S476至S481的过程被重复直到所有的元素被设置为待处理的元素。

另一方面,在步骤S481中确定所有元素被设置为待处理的元素时,该过程前进至步骤S482。在步骤S482中,音频解码处理单元194确定待播放的所有轨道是否被设置为待处理的轨道。在步骤S482中确定不是所有的待播放轨道被设置为待处理的轨道时,该过程返回到步骤S475,并且步骤S475至S482的过程被重复直到所有的待播放轨道被设置为待处理的轨道。

另一方面,在步骤S482中确定所有的待播放轨道被设置为待处理的轨道时,该过程前进至步骤S483。

在步骤S483中,音频解码处理单元194确定所有帧是否被设置为待处理的帧。在步骤S483中确定不是所有的帧被设置为待处理的帧时,该过程返回到步骤S474,并且步骤S474至S483的过程被重复直到所有的帧被设置为待处理的帧。

另一方面,在步骤S483中确定所有帧被设置为待处理的帧时,该过程前进至步骤S484。在步骤S484中,音频解码处理单元194解码所生成的音频流。具体地,音频解码处理单元194解码音频流,在该音频流中,总的元素数、所有元素类型信息、配置信息、音频数据和待播放的对象的元数据被布置。音频解码处理单元194向音频合成处理单元195提供作为解码的结果所获得的音频数据(对象音频、声道音频、HOA音频)。接着该过程终止。

<音频解码处理单元的过程的第二示例的解释>

图75为示出在Web服务器142(212)执行上述参考图71和72的过程时,音频解码处理单元194的过程的第二示例的示意图。

如图75所示,音频解码处理单元194的过程的第二示例不同于第一示例之处在于,所有轨道的音频流被布置在所生成的音频流上以及指示零解码结果流或标记(在下文中,被称为零流)被布置作为不播放的轨道的音频流。

具体地,音频文件获取单元192(264)获取被包含在保持在Web服务器142(212)中的所有轨道的音频流中的配置信息以及被包含在待播放的轨道的音频流中的每个帧的数据。

如图75所示,音频解码处理单元194将所有轨道的配置信息项集中布置在所生成的音频流上。此外,音频解码处理单元194将待播放的轨道的每个帧的数据和作为不播放的轨道的每个帧的数据的零流布置在所生成的音频流上。

如上所述,由于音频解码处理单元194将作为不播放的轨道的音频流的零流布置在所生成的音频流上,所以也存在不播放的对象的音频流。因此,可在所生成的音频流中包含不播放的对象的元数据。这消除了音频解码处理单元194从对象元数据的轨道的音频流提取待播放的对象的元数据的音频流的需要。

应指出,零流可被布置作为不播放的轨道的配置信息。

图76为示出在Web服务器142(212)执行上述参考图71和72的过程时的音频解码处理单元194的解码过程的第二示例的细节的流程图。该解码过程为在待播放轨道除了一个声道音频轨道外还包括轨道时所执行的,如图48所示的步骤S229的过程和如图50所示的步骤S287的过程中的至少一者。

如图76所示的步骤S501和S502的过程类似于如图74所示的步骤S461至S462的过程,并因此其描述被省略。

在步骤S503中,音频解码处理单元194将对应于在Web服务器142(212)中保持的音频流的轨道之中未被确定为待处理的轨道的轨道,设置为待处理的轨道。

步骤S504至S506的过程类似于步骤S464至S466的过程,并因此其描述将被省略。

在步骤S507中,音频解码处理单元194确定对应于保持在Web服务器142(212)中的音频流的所有轨道是否被设置为待处理的轨道。在步骤S507中确定不是所有的轨道被设置为待处理的轨道时,该过程返回到步骤S503,并且步骤S503至S507的过程被重复直到所有的轨道被设置为待处理的轨道。

另一方面,在步骤S507中确定所有轨道被设置为待处理的轨道时,该过程前进至步骤S508。在步骤S508中,音频解码处理单元194在所生成的音频流上的预定位置布置总的元素数量和所有的元素类型信息。

在步骤S509中,音频解码处理单元194将对应于在Web服务器142(212)中保持的音频流的轨道之中未被确定为待处理的轨道的轨道,设置为待处理的轨道。在步骤S510中,音频解码处理单元194将被包含在待处理的轨道中的元素之中未被确定为待处理的元素的元素,设置为待处理的元素。

在步骤S511中,音频解码处理单元194从待处理的轨道的音频流获取待处理的元素的配置信息并在所生成的音频流上生成该配置信息。此时,对应于被保持在Web服务器142(212)中的音频流的所有轨道的所有元素的配置信息项被连续布置。

在步骤S512中,音频解码处理单元194确定被包含在待处理的轨道中的所有元素是否被设置为待处理的元素。在步骤S512中确定不是所有的元素被设置为待处理的元素时,该过程返回到步骤S510,并且步骤S510至S512的过程被重复直到所有的元素被设置为待处理的元素。

另一方面,在步骤S512中确定所有元素被设置为待处理的元素时,该过程前进至步骤S513。在步骤S513中,音频解码处理单元194确定对应于保持在Web服务器142(212)中的音频流的所有轨道是否被设置为待处理的轨道。在步骤S513中确定不是所有的轨道被设置为待处理的轨道时,该过程返回到步骤S509,并且步骤S509至S513的过程被重复直到所有的轨道被设置为待处理的轨道。

另一方面,在步骤S513中确定所有轨道被设置为待处理的轨道时,该过程前进至步骤S514。在步骤S514中,音频解码处理单元194确定待处理的帧。在第一时间的步骤S514的过程中,头帧被确定为待处理的帧。在第二时间和后续时间的步骤S514的过程中,紧接着待处理的当前帧的帧被确定为待处理的新帧。

在步骤S515中,音频解码处理单元194将对应于在Web服务器142(212)中保持的音频流的轨道之中未被确定为待处理的轨道的轨道设置为待处理的轨道。

在步骤S516中,音频解码处理单元194确定待处理的轨道是否为待播放的轨道。在步骤S516中确定待处理的轨道是待播放的轨道时,该过程前进到步骤S517。

在步骤S517中,音频解码处理单元194将被包含在待处理的轨道中的元素之中未被确定为待处理的元素的元素设置为待处理的元素。

在步骤S518中,音频解码处理单元194从待处理的轨道的音频流获取待处理的元素的待处理帧的音频数据并将该音频流布置在所生成的音频流上。此时,对应于被保持在Web服务器142(212)中的音频流的所有轨道的所有元素的相同帧中的数据项被连续布置。

在步骤S519中,音频解码处理单元194确定被包含在待处理的轨道中的所有元素是否被设置为待处理的元素。在步骤S519中确定不是所有的元素被设置为待处理的元素时,该过程返回到步骤S517,并且步骤S517至S519的过程被重复直到所有的元素被设置为待处理的元素。

另一方面,在步骤S519中确定所有元素被设置为待处理的元素时,该过程前进至步骤S523。

此外,在步骤S516中确定待处理的轨道不是待播放的轨道时,该过程前进到步骤S520。在步骤S520中,音频解码处理单元194将被包含在待处理的轨道中的元素之中未被确定为待处理的元素的元素设置为待处理的元素。

在步骤S521中,音频解码处理单元194将作为待处理的元素的待处理帧的数据的零流布置在所生成的音频流上。此时,对应于被保持在Web服务器142(212)中的音频流的所有轨道的所有元素的相同帧中的数据项被连续布置。

在步骤S522中,音频解码处理单元194确定被包含在待处理的轨道中的所有元素是否被设置为待处理的元素。在步骤S522中确定不是所有的元素被设置为待处理的元素时,该过程返回到步骤S520,并且步骤S520至S522的过程被重复直到所有的元素被设置为待处理的元素。

另一方面,在步骤S522中确定所有元素被设置为待处理的元素时,该过程前进至步骤S523。

在步骤S523中,音频解码处理单元194确定对应于保持在Web服务器142(212)中的音频流的所有轨道是否被设置为待处理的轨道。在步骤S522中确定不是所有的轨道被设置为待处理的轨道时,该过程返回到步骤S515,并且步骤S515至S523的过程被重复直到所有的待播放轨道被设置为待处理的轨道。

另一方面,在步骤S523中确定所有轨道被设置为待处理的轨道时,该过程前进至步骤S524。

在步骤S524中,音频解码处理单元194确定所有帧是否被设置为待处理的帧。在步骤S524中确定不是所有的帧被设置为待处理的帧时,该过程返回到步骤S514,并且步骤S514至S524的过程被重复直到所有的帧被设置为待处理的帧。

另一方面,在步骤S524中确定所有帧被设置为待处理的帧时,该过程前进至步骤S525。在步骤S525中,音频解码处理单元194解码所生成的音频流。具体地,音频解码处理单元194解码音频流,在音频流中,总的元素数、所有元素类型信息和配置信息以及对应于被保持在Web服务器142(212)中的音频流的所有轨道的数据被布置。音频解码处理单元194向音频合成处理单元195提供作为解码的结果所获得的音频数据(对象音频、声道音频、HOA音频)。接着该过程终止。

<Web服务器过程的第二示例的解释>

图77为示出Web服务器142(212)的过程的第二示例的示意图。

如图77所示的Web服务器142(212)的过程的第二示例与图71所示的第一示例相同,除了每个对象的对象元数据作为不同轨道的数据被布置在音频文件中之外。

因此,如图77所示,Web服务器142(212)针对每个轨道划分从文件生成装置141(211)上传的音频文件的音频流并生成九个轨道的音频流。

在此情况下,Web服务器142(212)的轨道划分过程类似于图72所示的轨道划分过程,并因此省略其描述。

<音频解码处理单元的第三示例的说明>

图78为示出在Web服务器142(212)执行上述参考图77的过程时,音频解码处理单元194的过程的示意图。

在图78的示例中,Web服务器142(212)保持如图77所示的每个轨道的音频流。待播放的轨道为前左/前右声道的声道音频、后左/后右声道的声道音频、第一对象的对象音频和第一对象的对象元数据。

在此情况下,音频文件获取单元192(264)获取前左/前右声道的声道音频、后左/后右声道的声道音频、第一对象的对象音频和第一对象的对象元数据的轨道的音频流。音频解码处理单元194合成所获取的待播放的轨道的音频流并解码所生成的音频流。

如上所述,在对象元数据被布置为用于每个对象的不同轨道的数据时,对于音频解码处理单元194,不需要提取待播放的对象的对象元数据的音频流。因此,音频解码处理单元194可以很容易生成待解码的音频流。

图79为示出在Web服务器142(212)执行上述参考图77的过程时的音频解码处理单元194的解码过程的细节的流程图。该解码过程为在待播放轨道除了一个声道音频轨道外还包含轨道时所执行的如图48所示的步骤S229的过程和如图50所示的步骤S287的过程中的一者。

如图79所示的解码过程类似于如图74所示的解码过程,除了步骤S477、S479和S480中的过程未被执行以及不仅音频数据而且元数据也被布置在步骤S478的过程中之外。具体地,如图79所示的步骤S541至S556的过程类似于如图74所示的步骤S461至S476的过程。在如图79所示的步骤S557的过程中,待处理的元素的待处理帧的数据如同步骤S478中的过程进行布置。此外,步骤S558至S561的过程类似于如图74所示的步骤S481至S484的过程。

应指出,在上述过程中,视频播放终端144(214)生成待解码的音频流,但是替代地,Web服务器142(212)可生成被假设为待播放的轨道的组合的音频流的组合。在此情况下,只有通过从Web服务器142(212)获取具有待播放的轨道的组合的音频流并解码该音频流,视频播放终端144(214)才可以播放待播放的轨道的音频。

此外,音频解码处理单元194可针对每个轨道解码从Web服务器142(212)获取的待播放的轨道的音频流。在此情况下,音频解码处理单元194需要合成作为解码的结果所获得的音频数据和元数据。

<基本样本的语法的第二示例>

(被布置在基本样本中的配置信息的语法的第二示例)

图80为示出被布置在基本样本中的配置信息的语法的第二示例的示意图。

在图80的示例中,被布置在基本样本中的元素数量(numElements)被描述为配置信息。此外,作为被布置在基本样本中的每种元素的类型(usacElementType),表示Ext元素的“ID_USAC_EXT”被描述以及用于每个元素的Ext元素的配置信息(mpegh3daExtElementCongfig)也被描述。

图81为示出用于在图80中示出的Ext元素的配置信息(mpegh3daExtElementCongfig)的示例性语法的示意图。

如图81所示,表示作为Ext元素的类型的提取器的“ID_EXT_ELE_EXTRACTOR”被描述为用于如图80所示的Ext元素的配置信息(mpegh3daExtElementCongfig)。此外,描述用于提取器的配置信息(ExtractorConfig)。

图82为示出用于在图81中示出的提取器的配置信息(ExtractorConfig)的示例性语法的示意图。

如图82所示,作为用于如图81所示的提取器的配置信息(ExtractorConfig),有待通过该提取器参考的元素的类型(usac Element Type Extractor)被描述。此外,在元素类型(usac Element Type Extractor)为表示Ext元素的“ID_USAC_EXT”时的Ext元素的类型(usacExtElementTypeExtractor)被描述。此外,待参考的元素(子样本)的配置信息的大小(configLength)和位置(configOffset)被描述。

(被布置在基本样本中的帧单元的数据语法的第二示例)

图83为示出被布置在基本样本中的帧单元中的数据语法的第二示例的示意图。

如图83所示,作为被布置在基本样本中的帧单元中的数据,表示作为Ext元素的类型的提取器的“ID_EXT_ELE_EXTRACTOR”被描述,其中,该Ext元素为数据元。提取器数据(Extractor Metadata)也被描述。

图84为示出在图83中示出的提取器数据(Extractor Metadata)的示例性语法的示意图。

如图84所示,待通过提取器参考的元素的数据的大小(elementLength)和位置(elementOffset)被描述为如图83所示的提取器数据(Extractor Metadata)。

<基本样本的语法的第三示例>

(被布置在基本样本中的配置信息的语法的第三示例)

图85为示出被布置在基本样本中的配置信息的语法的第三示例的示意图。

在图85的示例中,被布置在基本样本中的元素数量(numElements)被描述为配置信息。此外,指示提取器的“1”被描述作为提取器标记(flag Extractor),其指示配置信息被布置在其中的样本是否为提取器。此外,“1”被描述作为elementLengthPresent。

此外,待通过元素参考的元素类型被描述为被布置在基本样本中的每个元素的类型(usacElementType)。在元素类型(usacElementType)为表示Ext元素的“ID_USAC_EXT”时,Ext元素的类型(usacExtElementType)被描述。此外,待参考的元素的配置信息的大小(configLength)和位置(configOffset)被描述。

(被布置在基本样本中的帧单元中的数据语法的第三示例)

图86为示出被布置在基本样本中的帧单元中的数据语法的第三示例的示意图。

如图86所示,作为被布置在基本样本中的帧单元中的数据,待通过数据参考的元素的数据的大小(elementLength)和位置(elementOffset)被描述。

<第七实施例>

(音频流的配置示例)

图87为示出被存储在应用本公开的信息处理系统的第七实施例中的音频文件中的音频流的配置示例的示意图。

如图87所示,在第七实施例中,音频文件针对每种组类型以3D音频的样本为单位存储编码数据(然而,在此情况下,对象音频被存储以用于每个对象)和被布置为子样本的音频流(3D音频流)。

此外,音频文件存储线索流(3D音频提示流),其中提取器被设置为子样本,所述提取器包含以用于每种组类型的3D音频的样本为单位的编码数据的大小、位置和组类型。该提取器的配置类似于上述的配置,以及该组类型被描述为提取器的类型。

(轨道的概述)

图88为示出在第七实施例中的轨道的概述的示意图。

如图88所示,在第七实施例中,不同的轨道被分别分配给音频流和线索流。对应线索流的轨道的轨道ID“2”被描述为音频流的轨道的轨道参考序号。此外,相应音频流的轨道的轨道ID“1”被描述为线索流的轨道的轨道参考序号。

音频流的轨道的样本条目的语法为如图34所示的语法,以及线索流的轨道的样本条目的语法包含如图35至38所示的语法。

(文件生成装置的过程的解释)

图89为示出在第七实施例中的文件生成装置的文件生成过程的流程图。

应指出,根据第七实施例的文件生成装置与如图45所示的文件生成装置141相同,除了音频编码处理单元171和音频文件生成单元172的过程之外。因此,根据第七实施例的文件生成装置、音频编码处理单元和音频文件生成单元在下文中分别被称为文件生成装置301、文件编码处理单元341和音频文件生成单元342。

如图89所示的步骤S601至S605的过程类似于如图46所示的步骤S191至S195的过程,并因此其描述被省略。

在步骤S606中,音频编码处理单元341针对每种组类型编码从外面输入的视频内容的3D音频并生成如图87所示的音频流。音频编码处理单元341向音频文件生成单元342提供所生成的音频流。

在步骤S607中,音频文件生成单元342从提供自音频编码处理单元341的音频流获取子样本信息。该子样本信息指示以每种组类型的3D音频的样本为单位的编码数据的大小、位置和组类型。

在步骤S608中,音频文件生成单元342基于该子样本信息生成如图87所示的线索流。在步骤S609中,音频文件生成单元342将音频流和线索流复用为不同轨道并生成音频文件。此时,音频文件生成单元342将从外面输入的图像帧尺寸信息存储在样本条目中。音频文件生成单元342向MPD生成单元173提供所生成的音频文件。

步骤S610和S611的过程类似于如图46所示的步骤S199和S200的过程,并因此其描述被省略。

(视频播放终端的过程的解释)

图90为示出在第七实施例中的视频播放终端的流播放单元的音频播放过程的流程图。

应指出,根据第七实施例的流播放单元与如图47所示的流播放单元190相同,除了MPD处理单元191、音频文件获取单元192和音频解码处理单元194的过程是不同的并且未提供音频选择单元193之外。因此,根据第七实施例的流播放单元、MPD处理单元、音频文件获取单元和音频解码处理单元在下文中分别被称为流播放单元360、MPD处理单元381、音频文件获取单元382和音频解码处理单元383。

在如图90所示的步骤S621中,流播放单元360的MPD处理单元381分析从MPD获取单元91提供的MPD文件、获取诸如待播放的片段的音频文件的URL的信息,并向音频文件获取单元382提供所获取的信息。

在步骤S622中,音频文件获取单元382基于诸如从MPD处理单元381提供的URL的信息,请求Web服务器发送待播放的片段的初始片段并获取该初始片段。

在步骤S623中,音频文件获取单元382从在初始片段中的moov盒的线索流的轨道(在下文中被称为线索轨道)的样本条目获取作为参考轨道的音频流的轨道的轨道ID。

在步骤S624中,音频文件获取单元382基于诸如从MPD处理单元381提供的URL的信息,请求Web服务器从待播放的片段的媒体片段的头部发送sidx盒和ssix盒并获取该sidx盒和ssix盒。

在步骤S625中,音频文件获取单元382从在步骤S624中获取的sidx盒和ssix盒获取线索轨道的位置信息。

在步骤S626中,音频文件获取单元382基于在步骤S625中获取的线索轨道的位置信息,请求Web服务器发送该线索流并获取该线索流。此外,音频文件获取单元382从该线索流获取待播放的3D音频的组类型的提取器。应指出,在待播放的3D音频为对象音频时,待播放的对象基于图像帧尺寸信息和对象位置信息来选择。

在步骤S627中,音频文件获取单元382从在步骤S624中获取的sidx盒和ssix盒获取参考轨道的位置信息。在步骤S628中,音频文件获取单元382基于在步骤S627中获取的参考轨道的位置信息和被包含在所获取的提取器中的子样本信息来确定待播放的3D音频的组类型的音频流的位置信息。

在步骤S629中,音频文件获取单元382基于在步骤S627确定的位置信息请求Web服务器发送待播放的3D音频的组类型的音频流并获取该音频流。音频文件获取单元382向音频解码处理单元383提供所获取的音频流。

在步骤S630中,音频解码处理单元383解码从音频文件获取单元382提供的音频流,并向音频合成处理单元195提供作为解码结果所获得的音频数据。

在步骤S631中,音频合成处理单元195输出音频数据。接着该过程终止。

应指出,在第七实施例中,音频流的轨道和线索轨道被存储在相同音频文件中,但是可被存储在不同文件中。

<第八实施例>

(轨道的概述)

图91为示出应用本公开的信息处理系统的第八实施例中的轨道的概述的示意图。

第八实施例的音频文件不同于第七实施例的音频文件之处在于所存储的线索流为用于每种组类型的流。具体地,针对每种组类型生成第八实施例的线索流,并且包含以每种组类型的3D音频的样本为单位的编码数据的大小、位置和组类型的提取器被布置为在每个线索流中的样本。应指出,在3D音频包含多个对象的对象音频时,提取器被布置为用于每个对象的子样本。

此外,如图91所示,在第八实施例中,不同的轨道被分配给音频流和每个线索流。该音频流的轨道与如图88所示的音频流的轨道相同,并因此省略其描述。

作为组类型为“声道”、“对象”、“HOA”和“元数据”的线索轨道的轨道参考序号,相应的音频流的轨道的轨道ID“1”被描述。

组类型“声道”、“对象”、“HOA”和“元数据”中的每者的线索轨道的样本条目的语法与如图35至38所示的语法相同,除了指示样本条目的类型的信息之外。指示组类型“声道”、“对象”、“HOA”和“元数据”中的每者的线索轨道的样本条目的类型的信息与如图35至38所示的信息相同,除该信息的编号“1”被替换成“2”之外。编号“2”表示线索轨道的样本条目。

(音频文件的配置示例)

图92为示出音频文件的配置示例的示意图。

如图92所示,音频文件存储如图91所示的所有轨道。具体地,音频文件存储每种组类型的音频流和线索流。

根据第八实施例的文件生成装置的文件生成过程类似于如图89所示的文件生成过程,除了与如图87所示的线索流相反,线索流针对每种组类型而被生成之外。

此外,根据第八实施例的视频播放终端的流播放单元的音频播放过程类似于如图90所示的音频播放过程,除了待播放的组类型的线索轨道的轨道ID以及在步骤S623中获取的参考轨道的轨道ID;在步骤S625中的待播放的组类型的线索轨道的位置信息被获取;以及待播放的组类型的线索流在步骤S626中被获取之外。

应指出,在第八实施例中,音频流的轨道和线索轨道被存储在相同音频文件中,但是可被存储在不同文件中。

例如,如图93所示,音频流的轨道可被存储在一个音频文件(3D音频流MP4文件)中,以及线索轨道可被存储在一个音频文件(3D音频提示流MP4文件)中。此外,如图94所示,线索轨道可被划分为待存储的多个音频文件。在图94的示例中,线索轨道被存储在不同的音频文件中。

此外,在第八实施例中,针对每种组类型生成线索流,甚至在该组类型指示对象时。然而,在组类型指示对象时,可针对每个对象生成线索流。在此情况下,不同的轨道被分配给每个对象的线索流。

如上所述,在第七和第八实施例的音频文件中,3D音频的音频流被存储在一个轨道中。因此,视频播放终端可以通过获取轨道来播放3D音频的所有音频流。

此外,线索流被存储在第七和第八实施例的音频文件中。因此,视频播放终端仅获取3D音频的所有音频流之中的期望组类型的音频流而不参考moof盒,其中,在该moof盒中描述了使子样本与该子样本的大小或位置相关联的表格,从而使得有可能播放该音频流。

此外,在第七和第八实施例的音频文件中,视频播放终端可以被促使仅通过存储3D音频的所有音频流和线索流来获取每种组类型的音频流。因此,不需要出于广播或本地存储的目的,针对每种组类型与所有生成的3D音频的音频流分离地准备3D音频的音频流,以便能够获取用于每种组类型的音频流。

应指出,在第七和第八实施例中,提取器被生成以用于每种组类型,但是可以音频元素、组、开关组或组预设为单位来生成。

在提取器以组为单位生成时,第八实施例的每个线索轨道的样本条目包含关于相应组的信息。关于组的信息例如由指示组的ID的信息和被分类为组的元素的数据的内容组成。在组形成开关组时,该组的线索轨道的样本条目也包含关于开关组的信息。关于开关组的信息由例如开关组的ID和形成开关组的组的ID组成。第七实施例的线索轨道的样本条目包含被包含在第八实施例的所有线索轨道的样本条目中的信息。

此外,在第七和第八实施例中的片段结构与如图39和40所示的片段结构相同。

<第九实施例>

(应用本公开的计算机的解释)

上述的Web服务器的一系列过程也可以由硬件或软件执行。在该系列过程由软件执行时,构成软件的程序被安装在计算机中。计算机的示例包含并入专用硬件的计算机和通过安装各种程序能够执行各种功能的通用个人计算机。

图95为示出通过使用程序执行Web服务器的一系列过程的计算机的硬件的配置示例的框图。

在计算机中,中央处理单元(CPU)601、只读存储器(ROM)602和随机存取存储器(RAM)603经由总线604互连。

总线604也被连接到输入/输出接口605。输入/输出接口605被连接到输入单元606、输出单元607、存储单元608、通信单元609和驱动器610中的每者。

输入单元606由键盘、鼠标、麦克风等形成。输出单元607由显示器、扬声器等形成。存储单元608由硬件、非易失性存储器等形成。通信单元609由网络接口等形成。驱动器610驱动可移除介质611,诸如磁盘、光盘、磁光盘或半导体存储器。

在如上所述进行配置的计算机中,CPU 601例如经由输入/输出接口605和总线604加载存储在存储单元608在RAM 603中的程序并执行该程序,从而执行上述的系列过程。

由计算机(CPU 601)执行的程序可以被设置记录在用作例如包装介质等的可移除介质611中。此外,程序可以经由有线或无线传输介质,诸如局域网、互联网或数字卫星广播来提供。

程序可以通过在驱动器610中加载可移除介质611经由输入/输出接口605被安装在存储单元608中。此外,程序可以经由有线或无线传输介质通过通信单元609来接收并被安装在存储单元608中。此外,程序可以被事先安装在ROM 602或存储单元608中。

应指出,由计算机执行的程序可为以在本描述中所述的次序的时间序列的方式执行该过程的程序,或可为例如并行或在被恳求时在必要的时间执行该过程的程序。

上述的视频播放终端可具有类似于如图95所示的计算机的硬件配置。在此情况下,例如CPU 601可以执行控制软件161(221)、视频播放软件162(222)和访问软件163(223)。视频播放终端144(214)的过程可由硬件执行。

在本描述中,系统具有一组多个组件(诸如装置或模块(部件)),并且并未考虑所有的组件是否在相同的壳体中。因此,系统可为可被存放在单独的壳体中并通过网络进行连接的多个装置以及在单个壳体内的多个模块。

应指出,本公开的实施例并不局限于上述的实施例,并且在不脱离本公开的要点的情况下可以进行各种更改。

例如,文件生成装置141(211)可通过复用所有瓦片的编码数据以生成一个图像文件而不是生成以瓦片为单位的图像文件来生成视频流。

本公开不仅可以被应用于MPEG-H 3D音频,而且可以被应用于能够形成每个对象的流的通用音频编解码。

此外,本公开也可以被应用于执行广播和本地存储播放以及流播放的信息处理系统。

此外,本公开可具有下列配置。

(1)

信息处理装置,其包括获取文件中的预定轨道的音频数据的获取单元,在该文件中,多种类型的音频数据根据类型被划分为多个轨道并且该轨道被布置。

(2)

根据上述项(1)所述的信息处理装置,其中,该类型被配置为音频数据的元素、元素的类型或元素被分类的组。

(3)

根据上述项(1)或(2)所述的信息处理装置,另外包括解码由获取单元获取的预定轨道的音频数据的解码单元。

(4)

根据上述项(3)所述的信息处理装置,其中,在存在多个预定轨道时,该解码单元合成由该获取单元获取的预定轨道的音频数据并解码所合成的音频数据。

(5)

根据上述项(4)所述的信息处理装置,其中

所述文件以如下方式配置:以多个对象为单位的音频数据被划分为关于每个对象而不同的所述轨道并且所述轨道被布置,并且以对象为单位的所有音频数据的元数据项被集中布置在与所述轨道不同的轨道中,

所述获取单元被配置成获取待播放的所述对象的所述轨道的音频数据以作为所述预定轨道的音频数据并获取所述元数据,以及

所述解码单元被配置成从由所述获取单元获取的所述元数据提取待播放的所述对象的元数据,并合成所述元数据和由所述获取单元获取的音频数据。

(6)

根据上述项(4)所述的信息处理装置,其中

所述文件以如下方式配置:以多个对象为单位的音频数据被划分为关于每个对象而不同的所述轨道并且所述轨道被布置,并且以对象为单位的所有所述音频数据的元数据项被集中布置在与所述轨道不同的轨道中,

获取单元被配置成获取待播放的对象的轨道的音频数据以作为预定轨道的音频数据并获取元数据,以及

解码单元被配置成将零数据和音频数据以及由获取单元获取的元数据合成,该零数据指示作为未被播放的轨道的音频数据的零的解码结果。

(7)

根据上述项(4)所述的信息处理装置,其中

所述文件以如下方式配置:以多个对象为单位的音频数据被划分为关于每个对象而不同的轨道并且所述轨道被布置,以对象为单位的所述音频数据的元数据项被布置在关于每个对象而不同的轨道中,

获取单元被配置成获取待播放的对象的轨道的音频数据以作为预定轨道的音频数据并获取待播放的对象的元数据,以及

解码单元被配置成合成音频数据和由该获取单元获取的元数据。

(8)

根据上述项(1)至(7)中的任一项所述的信息处理装置,其中,多个轨道的音频数据项被配置成被布置在一个文件中。

(9)

根据上述项(1)至(7)中的任一项所述的信息处理装置,其中,多个轨道的音频数据项被配置成被布置在关于每个轨道而不同的文件中。

(10)

根据上述项(1)至(9)中的任一项所述的信息处理装置,其中,所述文件以如下方式配置:关于所述多种类型的所述音频数据的信息被布置为不同于所述多个轨道的轨道。

(11)

根据上述项(10)所述的信息处理装置,其中,关于多种类型的音频数据的信息被配置成包含指示对应于音频数据的图像数据的图像帧尺寸的图像帧尺寸信息。

(12)

根据上述项(1)至(9)中的任一项所述的信息处理装置,其中,该文件以如下方式配置:作为不同于多个轨道的轨道的音频数据,指示对应于音频数据的另一轨道的音频数据的位置的信息被布置。

(13)

根据上述项(1)至(9)中的任一项所述的信息处理装置,其中,该文件以如下方式配置:作为不同于多个轨道的轨道的数据,指示对应于其它轨道的音频数据的数据和元数据的另一轨道的音频数据的位置的信息被布置。

(14)

根据上述项(13)所述的信息处理装置,其中,音频数据的元数据被配置成包含指示音频数据被获取的位置的信息。

(15)

根据上述项(1)至(14)中的任一项所述的信息处理装置,其中,该文件被配置成包含指示轨道和其它轨道之间的参考关系的信息。

(16)

根据上述项(1)至(15)中的任一项所述的信息处理装置,其中,该文件被配置成包含每个轨道的音频数据的编解码信息。

(17)

根据上述项(1)至(16)中的任一项所述的信息处理装置,其中,预定类型的音频数据为指示另一类型的音频数据被获取的位置的信息。

(18)

信息处理方法,其包含通过信息处理装置获取文件中的预定轨道的音频数据的获取步骤,在所述文件中多种类型的音频数据根据类型被划分为多个轨道并且所述轨道被布置。

(19)

信息处理装置,其包括生成文件的生成单元,在所述文件中,多种类型的音频数据根据所述类型被划分为多个轨道并且所述轨道被布置。

(20)

信息处理方法,其包含由信息处理装置生成文件的生成步骤,在所述文件中,多种类型的音频数据根据所述类型被划分为多个轨道并且所述轨道被布置。

附图标记列表

141 文件生成装置

144 运动图像播放终端

172 音频文件生成单元

192 音频文件获取单元

193 音频选择单元

211 文件生成装置

214 运动图像播放终端

241 音频文件生成单元

264 音频文件获取单元

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1