本发明涉及场景再现,更具体地,涉及能够提高用户体验质量的音频和/视频再现方法和装置。
背景技术:
1、1.介绍
2、在许多应用中,可听消息的传递可以改善媒体消费期间的用户体验。虚拟现实(vr)内容给出了此类消息最相关的应用之一。在vr环境中,或类似地在增强现实(ar)或混合现实(mr)或360度视频环境中,用户通常可以使用例如头戴式显示器(hmd)来将全360度内容可视化,并通过耳机(或类似地通过扬声器,包括取决于其位置的正确渲染)收听360度内容。用户通常可以在vr/ar空间中运动,或至少更改观看方向——视频的所谓“视口”。在使用经典再现系统(宽显示器)而不是hmd的360度视频环境中,可以使用远程控制设备来模拟用户在场景中的运动,并且适用类似的原理。应当注意的是,360度内容可以指的是用户可以从中选择(例如,通过用户的头部取向或使用遥控设备)的任何类型的内容,这些内容包括同一时刻的一个以上的视角。
3、与传统的内容消费相比,对于vr而言,内容创建者无法再控制用户在各个时刻——当前视口——可视化的内容。用户可以在每个时间实例从允许或可用的视口中自由选择不同视口。
4、vr内容消费的常见问题是以下风险:由于错误的视口选择,导致用户错过视频场景中的重要事件。为了解决此问题,引入了感兴趣区域(roi)的概念,并考虑了用于发信号通知roi的几种概念。尽管roi通常用于向用户指示包含推荐视口在内的区域,但它也可以用于其他目的,例如:指示场景中存在新字符/对象;指示与场景中的对象相关联的可访问性特征;基本上是可以与组成视频场景的元素相关联的任何特征。例如,可以使用视觉消息(例如,“将头向左转动”),并将其叠加在当前视口上。替代地,可以通过在roi的位置处播放可听声音(自然声音或合成声音)来使用可听声音。这些音频消息被称为“earcons”。
5、在本技术的上下文中,earcon的概念将用于表征为发信号通知roi所传达的音频消息,但是建议的信号通知和处理也可以用于通用(generic)音频消息,其目的不是发信号通知roi。这样的音频消息的一个示例由音频消息给出,该音频消息用于传达用户/用户在交互式ar/vr/mr环境中所具有的各种选项的信息/指示(例如,“跳过您左侧的盒子以进入房间x”)。此外,将使用vr示例,但本文献中描述的机制适用于任何媒体消费环境。
6、2.术语和定义
7、在技术领域中使用以下术语:
8、·元素:可以表示为例如音频对象、音频信道、基于场景的音频(高阶ambisonics(hoa))或所有这些的组合的音频信号。
9、·兴趣的区域(roi):在一个时刻用户感兴趣的视频内容(或显示或模拟的环境)的一个区域。例如,这通常可以是球体上的一区域,也可以是2d地图中的多边形选择。roi针对特定目的而标识特定区域,限定了所考虑对象的边界。
10、·用户位置信息:位置信息(例如x、y、z坐标)、取向信息(偏航、俯仰、侧倾)、运动方向和速度等。
11、·视口:当前显示和用户观看的球形视频的一部分。
12、·视点:视口的中心点。
13、·360度视频(也称为沉浸式视频或球形视频):在本文献的上下文中,表示“视频内容”,该视频内容在同一时刻在一个方向上包含一个以上的视图(即,视口)。例如,可以使用全向相机或相机集来创建此类内容。在回放期间,观看者可以控制观看方向。
14、·自适应集包含媒体流或媒体流集。在最简单的情况下,一个自适应集包含该内容的所有音频和视频,但是为了减少带宽,可以将每个流分裂为不同的自适应集。一种常见的情况是具有一个视频自适应集和多个音频自适应集(对于每种支持的语言存在一个音频自适应集)。自适应集还可以包含副标题或任意元数据。
15、·表示允许适应集包含以不同方式编码的相同内容。在大多数情况下,将以多种比特率提供表示。这允许客户端请求它们可以播放的最高质量的内容,而不必等待缓冲。表示也可以使用不同的编解码进行编码,从而支持具有不同支持的编解码的客户端。
16、·媒体表示描述(mpd)是一种xml语法,其包含关于媒体段的信息、媒体段的关系、以及在媒体段之间进行选择所必需的信息。
17、在本技术的上下文中,自适应集的概念被更通用地使用,有时实际上是指表示。而且,通常将媒体流(音频/视频流)首先封装到媒体段中,该媒体段是客户端(例如,dash客户端)播放的实际媒体文件。可以针对媒体段使用各种格式,例如类似于mpeg-4容器格式的iso基本媒体文件格式(isobmff)和mpeg-ts。媒体段的且在不同的表示/自适应集中的封装独立于此处描述的方法,这些方法适用于所有各种选项。
18、此外,本文档中对方法的描述可以以dash服务器-客户端通信为中心,但是这些方法足够通用,以与其他传送环境一起使用,例如mmt、mpeg-2传输流、dash-route、用于文件回放的文件格式等。
19、3.当前解决方案
20、当前的解决方案是:
21、[1].iso/iec 23008-3:015,information technology--high efficiencycoding and media delivery in heterogeneous environments--part 3:3d audio(iso/iec 23008-3:015,信息技术——异构环境中的高效编码和媒体传递——第3部分:3d音频)
22、[2].n16950,study of iso/iec dis23000-20omnidirectional media format(n16950,对iso/iec dis23000-20全向媒体格式的研究)
23、[3].m41184,use of earcons for roi identification in 360-degree video(m41184,在360度视频中使用earcons进行roi识别)。
24、iso/iec 23000-20全向媒体格式[2]给出了360度内容的传递机制。该标准规定了用于对全向图像、视频和相关音频进行编码、存储、传递和渲染的媒体格式。它提供了与用于音频和视频压缩的媒体编解码有关的信息、以及用于正确消费360度a/v内容的附加元数据信息。它还规定了关于传送信道的约束和要求,例如dash/mmt上的流传输或基于文件的回放。
25、earcon概念最早是在m41184“在360度视频中使用earcons进行roi识别”[3]中引入的,它提供了一种向用户发信号通知earcon音频数据信号的机制。
26、然而,一些用户报告了对这些系统的令人失望的评论。通常,大量的earcons令人讨厌。当设计者减少earcon的数量时,一些用户会丢失重要的信息。值得注意的是,每个用户都有他/她自己的知识和经验水平,并且偏好适合于他/她自己的系统。仅给出一示例,每个用户都偏好以优选的音量(例如,与用于其他音频信号的音量无关)来再现earcons。对于系统设计者来说,已经证明很难获得一种对所有可能的用户都提供良好的满意水平的系统。因此,已经寻找一种解决方案以允许增加几乎所有用户的满意度。
27、此外,已经证明,即使对于设计者来说,也很难重新配置系统。例如,他们在准备音频流的新版本和更新earcons时遇到困难。
28、此外,受限制的系统对于功能施加了某些限制,例如不能将earcons准确地识别到一个音频流中。此外,earcons必须始终为活动的(active),并且如果在不需要earcons时被回放,则earcons可能会给用户带来烦恼。
29、此外,earcon空间信息不能被例如dash客户端发信号通知或修改。在系统级别上轻松访问此信息可以启用附加功能,以提供更好的用户体验。
30、而且,在处理各种类型的earcons(例如,自然声音、合成声音、在dash client中生成的声音等)时没有灵活性。
31、所有这些问题导致用户体验质量差。因此,更灵活的体系架构将是优选的。
技术实现思路
1、4.本发明
2、根据示例,提供了一种用于虚拟现实vr、增强现实ar、混合现实mr或360度视频环境的系统,所述系统配置为:
3、接收与要再现的音频视频场景相关联的至少一个视频流;以及
4、接收与要再现的音频视频场景相关联的至少一个第一音频流,
5、其中,所述系统包括:
6、至少一个媒体视频解码器,被配置为从至少一个视频流中解码至少一个视频信号,以向用户表示音频视频场景;以及
7、至少一个媒体音频解码器,被配置为从至少一个第一音频流中解码至少一个音频信号,以向用户表示音频视频场景;
8、感兴趣区域roi处理器,被配置为:
9、至少基于用户的当前视口和/或头部取向和/或运动数据和/或视口元数据和/或音频信息消息元数据,决定是否要再现与至少一个roi相关联的音频信息消息,其中,所述音频信息消息独立于所述至少一个视频信号和所述至少一个音频信号;以及
10、在决定要再现信息消息的情况下,使得再现所述音频信息消息。
11、根据示例,提供了一种用于虚拟现实vr、增强现实ar、混合现实mr或360度视频环境的系统,所述系统被配置为:
12、接收至少一个视频流;以及
13、接收至少一个第一音频流,
14、其中,所述系统包括:
15、至少一个媒体视频解码器,被配置为从所述至少一个视频流中解码至少一个视频信号,以向用户表示vr、ar、mr或360度视频环境场景;以及
16、至少一个媒体音频解码器,被配置为从所述至少一个第一音频流中解码至少一个音频信号,以向用户表示音频场景;
17、感兴趣区域roi处理器,被配置为:
18、基于用户的当前视口和/或头部取向和/或运动数据和/或视口元数据和/或音频信息消息元数据,决定是否要再现与至少一个roi相关联的音频信息消息,其中,所述音频信息消息是earcon;并且
19、在决定要再现信息消息的情况下,使得再现所述音频信息消息。
20、所述系统可以包括:
21、元数据处理器,被配置为:接收和/或处理和/或操控音频信息消息元数据,以便在决定要再现所述信息消息时,使得根据所述音频信息消息元数据来再现所述音频信息消息。
22、所述roi处理器可以被配置为:
23、接收用户的当前视口和/或位置和/或头部取向和/或运动数据和/或其他与用户相关的数据;以及
24、从所述至少一个视频流接收与至少一个视频信号相关联的视口元数据,所述视口元数据定义了至少一个roi;以及
25、基于用户的当前视口和/或位置和/或头部取向和/或运动数据以及所述视口元数据和/或其他标准中至少之一,决定是否要再现与所述至少一个roi相关联的音频信息消息。
26、所述系统可以包括:
27、元数据处理器,被配置为:接收和/或处理和/或操控描述所述音频信息消息的音频信息消息元数据和/或描述编码在所述至少一个音频流中的所述至少一个音频信号的音频元数据和/或所述视口元数据,以便使得根据所述音频信息消息元数据和/或描述编码在所述至少一个音频流中的所述至少一个音频信号的音频元数据和/或所述视口元数据来再现所述音频信息消息。
28、所述roi处理器可以被配置为:
29、在所述至少一个roi在用户的当前视口和/或位置和/或头部取向和/或运动数据之外的情况下,除了再现所述至少一个音频信号之外,还使得再现与所述至少一个roi相关联的音频信息消息;以及
30、在所述至少一个roi在用户的当前视口和/或位置和/或头部取向和/或运动数据内的情况下,禁止和/或去激活与所述至少一个roi相关联的音频信息消息的再现。
31、所述系统可以被配置为:
32、接收至少一个附加音频流,所述至少一个音频信息消息被编码在所述至少一个附加音频流中,
33、其中,所述系统还包括:
34、至少一个复用器或多路复用器,用于在所述元数据处理器和/或所述roi处理器和/或另一处理器的控制下,基于所述roi处理器提供的要再现所述至少一个音频信息消息的决定,将所述至少一个附加音频流的分组与所述至少一个第一音频流的分组合并到一个流中,以使得除了所述音频场景之外还再现所述音频信息消息。
35、所述系统可以被配置为:
36、接收描述编码在所述至少一个音频流中的所述至少一个音频信号的至少一个音频元数据;
37、从至少一个音频流接收与至少一个音频信息消息相关联的音频信息消息元数据;
38、在决定要再现所述信息消息的情况下,修改所述音频信息消息元数据以使得除了再现所述至少一个音频信号之外,还能够再现所述音频信息消息。
39、所述系统可以被配置为:
40、接收描述编码在所述至少一个音频流中的所述至少一个音频信号的至少一个音频元数据;
41、从所述至少一个音频流接收与至少一个音频信息消息相关联的音频信息消息元数据;
42、在决定要再现所述音频信息消息的情况下,修改所述音频信息消息元数据以使得除了再现所述至少一个音频信号之外,还能够再现与所述至少一个roi相关联的音频信息消息;以及
43、修改描述所述至少一个音频信号的所述音频元数据,以允许合并所述至少一个第一音频流和所述至少一个附加音频流。
44、所述系统可以被配置为:
45、接收描述编码在所述至少一个音频流中的所述至少一个音频信号的至少一个音频元数据;
46、从至少一个音频流接收与至少一个音频信息消息相关联的音频信息消息元数据;
47、在决定要再现所述音频信息消息的情况下,将所述音频信息消息元数据提供给合成音频生成器以创建合成音频流,以便将所述音频信息消息元数据与所述合成音频流相关联,并将所述合成音频流和所述音频信息消息元数据提供给多路复用器或复用器,以允许合并所述至少一个音频流和所述合成音频流。
48、所述系统可以被配置为:
49、从所述至少一个附加音频流获得其中编码有所述音频信息消息的至少一个附加音频流。
50、所述系统可以包括:
51、音频信息消息元数据生成器,被配置为:基于要再现与所述至少一个roi相关联的音频信息消息的决定来生成音频信息消息元数据。
52、所述系统可以被配置为:
53、存储所述音频信息消息元数据和/或所述音频信息消息流以供将来使用。
54、所述系统可以包括:
55、合成音频生成器,被配置为:基于与所述至少一个roi相关联的音频信息消息元数据来合成音频信息消息。
56、所述元数据处理器被配置为:基于所述音频元数据和/或音频信息消息元数据,将所述音频信息消息流的分组与所述至少一个第一音频流的分组合并到一个流中,以获得所述音频信息消息向所述至少一个音频流的添加。
57、所述音频信息消息元数据可以被编码在包括以下项中的至少一项的配置帧和/或数据帧中:
58、识别标签,
59、唯一标识所述音频信息消息元数据的再现的整数,
60、消息类型,
61、状态,
62、对场景的依赖性/非依赖性的指示,
63、位置数据,
64、增益数据,
65、对相关联文本标签的存在的指示,
66、可用语言的数量,
67、音频信息消息的语言,
68、数据文本长度,
69、相关联的文本标签的数据文本,和/或
70、音频信息消息的描述。
71、所述元数据处理器和/或所述roi处理器可以被配置为执行以下操作中的至少一项:
72、从流中提取音频信息消息元数据;
73、修改音频信息消息元数据以激活所述音频信息消息和/或设置/更改所述音频信息消息的位置;
74、将元数据嵌回流中;
75、将流馈送给附加媒体解码器;
76、从至少一个第一音频流中提取音频元数据;
77、从附加流中提取音频信息消息元数据;
78、修改音频信息消息元数据以激活所述音频信息消息和/或设置/更改所述音频信息消息的位置;
79、修改至少一个第一音频流的音频元数据,以考虑到音频信息消息的存在并允许合并;
80、基于从所述roi处理器接收到的信息,将流馈送给多路复用器或复用器以对其进行多路复用或复用。
81、所述roi处理器可以被配置为:对其中编码有所述音频信息消息的附加音频流和/或音频信息消息元数据执行本地搜索,并且在未检索到的情况下,向远程实体请求所述附加音频流和/或音频信息消息元数据。
82、所述roi处理器被配置为:对附加音频流和/或音频信息消息元数据执行本地搜索,并且在未检索到的情况下,使合成音频生成器生成所述音频信息消息流和/或音频信息消息元数据。
83、所述系统可以被配置为:
84、接收所述至少一个附加音频流,所述至少一个附加音频流包括与所述至少一个roi相关联的至少一个音频信息消息;以及
85、如果所述roi处理器决定要再现与所述至少一个roi相关联的音频信息消息,则对所述至少一个附加音频流进行解码。
86、所述系统可以包括:
87、至少一个第一音频解码器,用于从至少一个第一音频流中解码所述至少一个音频信号;
88、至少一个附加音频解码器,用于从附加音频流中解码所述至少一个音频信息消息;以及
89、至少一个混合器和/或渲染器,用于将来自所述至少一个附加音频流的音频信息消息与来自所述至少一个第一音频流的至少一个音频信号混合和/或叠加。
90、所述系统可以被配置为:跟踪与关联于所述音频信息消息的再现的历史数据和/或统计数据相关联的度量,以便如果所述度量超过预定阈值,则禁用所述音频信息消息的再现。
91、roi处理器的决定可以基于相对于roi的位置对用户的当前视口和/或位置和/或头部取向和/或运动数据122的预测。
92、所述系统可以被配置为:接收至少一个第一音频流,并且在决定要再现信息消息时,向远程实体请求音频消息信息流。
93、所述系统可以被配置为确立:是否同时再现两个音频信息消息,或者是否相对于较低优先级的音频信息消息来优先选择较高优先级的音频信息消息进行再现。
94、所述系统可以被配置为:基于音频信息消息在音频流中的地址和/或位置,在编码在一个附加音频流中的多个音频信息消息中识别所述音频信息消息。
95、所述音频流可以被格式化为mpeg-h 3d音频流格式。
96、所述系统可以被配置为:
97、接收关于多个自适应集的可用性的数据,可用的自适应集包括用于所述至少一个第一音频流的至少一个音频场景自适应集以及用于至少一个附加音频流的至少一个音频消息自适应集,所述至少一个附加音频流包含至少一个音频信息消息;
98、基于所述roi处理器的决定,创建选择数据,所述选择数据识别要检索哪个自适应集,所述可用的自适应集包括至少一个音频场景自适应集和/或至少一个音频消息自适应集;以及
99、请求和/或检索由所述选择数据识别的自适应集的数据,
100、其中,每个自适应集对针对不同比特率的不同编码进行分组。
101、所述系统可以使得所述至少一个如果其元素包括基于http、dash、客户端的动态自适应流传输,和/或被配置为使用iso基础媒体文件格式iso bmff或mpeg-2传输流mpeg-2ts来检索每个自适应集的数据。
102、所述roi处理器可以被配置为:检查所述roi与当前视口和/或位置和/或头部取向和/或运动数据之间的对应关系,以便检查所述roi是否在所述当前视口中表示,并且在所述roi在所述当前视口和/或位置和/或头部取向和/或运动数据之外的情况下,将所述roi的存在以声音的形式发信号通知给用户。
103、所述roi处理器可以被配置为:检查所述roi与当前视口和/或位置和/或头部取向和/或运动数据之间的对应关系,以便检查所述roi是否在所述当前视口中表示,并且在所述roi在所述当前视口和/或位置和/或头部取向和/或运动数据内的情况下,不将所述roi的存在以声音的形式发信号通知给用户。
104、所述系统可以被配置为:从远程实体接收与所述视频环境场景相关联的至少一个视频流和与所述音频场景相关联的至少一个音频流,其中,所述音频场景与所述视频环境场景相关联。
105、所述roi处理器可以被配置为:在要再现的多个音频信息消息中选择在第二音频信息消息之前再现一个第一音频信息消息。
106、所述系统可以包括:高速缓冲存储器,存储从远程实体接收或合成生成的音频信息消息,以在不同的时间实例处重复使用所述音频信息消息。
107、所述音频信息消息可以是earcon。
108、所述至少一个视频流和/或所述至少一个第一音频流可以分别是所述当前视频环境场景和/或视频音频场景的一部分,并且独立于当前视频环境场景和/或视频音频场景中的用户的当前视口和/或头部取向和/或运动数据。
109、所述系统可以被配置为:分别与所述音频流和/或视频环境流相关联地向远程实体请求所述至少一个第一音频流和/或至少一个视频流,并且基于用户的当前视口和/或头部取向和/或运动数据来再现所述至少一个音频信息消息。
110、所述系统可以被配置为:分别与所述音频流和/或视频环境流相关联地向远程实体请求所述至少一个第一音频流和/或至少一个视频流,并且基于用户的当前视口和/或头部取向和/或运动数据来向远程实体请求所述至少一个音频信息消息。
111、所述系统可以被配置为:分别与所述音频流和/或视频环境流相关联地向远程实体请求所述至少一个第一音频流和/或至少一个视频流,并且基于用户的当前视口和/或头部取向和/或运动数据来合成所述至少一个音频信息消息。
112、所述系统可以被配置为:检查用于再现所述音频信息消息的附加标准中的至少一个附加标准,所述标准还包括用户的选择和/或用户的设置。
113、所述系统还被配置为:检查用于再现所述音频信息消息的附加标准中的至少一个附加标准,所述标准还包括所述系统的状态。
114、所述系统可以被配置为:检查用于再现所述音频信息消息的附加标准中的至少一个附加标准,所述标准还包括已被执行的音频信息消息再现的数量。
115、所述系统可以被配置为:检查用于再现所述音频信息消息的附加标准中的至少一个附加标准,所述标准还包括从远程实体获得的数据流中的标志。
116、根据一个方面,提供了一种系统,所述系统包括:客户端被配置为根据以上和/或以下任一示例的系统;以及远程实体,被配置为用于传送至少一个视频流和至少一个音频流的服务器。
117、所述远程实体可以被配置为:在数据库、内联网、互联网和/或地理网络中搜索至少一个附加音频流和/或音频信息消息元数据,并且在检索到的情况下,传送所述至少一个附加音频流和/或所述音频信息消息元数据。
118、远程实体可以被配置为:合成至少一个附加音频流,和/或生成音频信息消息元数据。
119、根据一个方面,可以提供一种用于虚拟现实vr、增强现实ar、混合现实mr或360度视频环境的方法,所述方法包括:
120、从至少一个视频音频场景中解码至少一个视频信号,以向用户再现;
121、从所述视频音频场景中解码至少一个音频信号以便再现;
122、基于用户的当前视口和/或头部取向和/或运动数据和/或元数据,决定是否要再现与至少一个roi相关联的音频信息消息,其中,所述音频信息消息独立于所述至少一个视频信号和所述至少一个音频信号;以及
123、在决定要再现所述信息消息的情况下,使得再现所述音频信息消息。
124、根据一个方面,可以提供一种用于虚拟现实vr、增强现实ar、混合现实mr或360度视频环境的方法,所述方法包括:
125、从至少一个视频流中解码至少一个视频信号,以向用户表示vr、ar、mr或360度视频环境场景;
126、从至少一个第一音频流中解码至少一个音频信号,以向用户表示音频场景;
127、基于用户的当前视口和/或头部取向和/或运动数据和/或元数据,决定是否要再现与至少一个roi相关联的音频信息消息,其中,所述音频信息消息是earcon;并且
128、在决定要再现所述信息消息的情况下,使得再现所述音频信息消息。
129、以上和/或以下方法可以包括:
130、接收和/或处理和/或操控元数据,以便在决定要再现信息消息的情况下,使得根据所述元数据来再现所述音频信息消息,以使所述音频信息消息是音频场景的一部分。
131、以上和/或以下方法可以包括:
132、再现音频视频场景;以及
133、基于用户的当前视口和/或头部取向和/或运动数据和/或元数据,决定还再现所述音频信息消息。
134、以上和/或以下方法可以包括:
135、再现音频视频场景;以及
136、在所述至少一个roi在用户的当前视口和/或位置和/或头部取向和/或运动数据之外的情况下,除了再现所述至少一个音频信号之外,还使得再现与所述至少一个roi相关联的音频信息消息;和/或
137、在所述至少一个roi在用户的当前视口和/或位置和/或头部取向和/或运动数据内的情况下,禁止和/或去激活与所述至少一个roi相关联的音频信息消息的再现。
138、根据示例,提供了一种用于虚拟现实vr、增强现实ar、混合现实mr或360度视频环境的系统,所述系统被配置为:
139、接收至少一个视频流;以及
140、接收至少一个第一音频流,
141、其中,所述系统包括:
142、至少一个媒体视频解码器,被配置为从所述至少一个视频流中解码至少一个视频信号,以向用户表示vr、ar、mr或360度视频环境场景;以及
143、至少一个媒体音频解码器,被配置为从所述至少一个第一音频流中解码至少一个音频信号,以向用户表示音频场景;
144、感兴趣区域roi处理器,被配置为:
145、基于用户的当前视口和/或头部取向和/或运动数据和/或元数据,决定是否要再现与至少一个roi相关联的音频信息消息;并且
146、在决定要再现信息消息的情况下,使得再现所述音频信息消息。
147、在示例中,提供了一种用于虚拟现实vr、增强现实ar、混合现实mr或360度视频环境的系统,所述系统被配置为:
148、接收至少一个视频流;以及
149、接收至少一个第一音频流,
150、其中,所述系统包括:
151、至少一个媒体视频解码器,被配置为从所述至少一个视频流中解码至少一个视频信号,以向用户表示vr、ar、mr或360度视频环境场景;以及
152、至少一个媒体音频解码器,被配置为从所述至少一个第一音频流中解码至少一个音频信号,以向用户表示音频场景;
153、感兴趣区域roi处理器,被配置为:基于用户的当前视口和/或位置和/或头部取向和/或运动数据以及视口元数据和/或其他标准,决定是否要再现与至少一个roi相关联的音频信息消息;以及
154、元数据处理器,被配置为:接收和/或处理和/或操控元数据,以便在决定要再现信息消息的情况下,使得根据所述元数据来再现所述音频信息消息,以使所述音频信息消息是音频场景的一部分。
155、根据一个方面,提供了一种存储指令的非暂时性存储单元,所述指令在由处理器执行时使所述处理器执行以上和/或以下所述的方法。