音频装置和音频处理的方法与流程

文档序号:34903275发布日期:2023-07-26 15:37阅读:28来源:国知局
音频装置和音频处理的方法与流程

本发明涉及音频装置和音频处理的方法,并且具体涉及但非排他地涉及使用这些来支持增强/虚拟现实应用。


背景技术:

1、近年来,随着利用和消费视听内容的新的服务和方式的不断开发和推出,基于视听内容的体验的种类和范围已经大幅增加。具体地,许多空间和交互服务、应用和体验正被开发以给予用户更投入且沉浸的体验。

2、此类应用的范例是迅速成为主流的虚拟现实(vr)、增强现实(ar)和混合现实(mr)应用,其中,许多技术方案瞄准消费者市场。许多标准也正在由许多标准化主体开发中。此类标准化活动正在主动开发用于vr/ar/mr系统的各种方面(包括例如流送、传播、渲染等)的标准。

3、vr应用趋向于提供对应于用户在不同世界/环境/场景的用户体验,而ar(包括混合现实mr)应用趋向于提供对应于用户在当前环境中但是具有额外信息或被添加的虚拟对象或信息的用户体验。因此,vr应用趋向于提供完全沉浸的合成生成的世界/场景,而ar应用趋向于提供被叠加在用户物理地存在于的真实场景上的部分合成的世界/场景。然而,术语经常被可互换地使用,并且具有高度的交叠。在下文中,术语虚拟现实/vr将会用来表示虚拟现实和增强现实两者。

4、作为范例,日益流行的服务是以用户能够与系统主动且动态地交互以改变渲染的参数使得这适合于用户的位置和取向的移动和改变的方式提供图像和音频。在许多应用中极具吸引力的特征是改变观看者的有效观看位置和观看方向的能力,例如,允许观看者在正被呈现的场景中移动和“环视”。

5、这种特征能够特别允许给用户提供虚拟现实体验。这可以允许用户在虚拟环境中(相对)自由地四处移动且动态地改变其位置和其正在观看的地方。通常,这种虚拟现实应用基于场景的三维模型,其中,该模型被动态地评价以提供特定请求的视图。对于计算机和控制台而言,该方法在例如游戏应用中(例如在第一人称射击者类别中)是熟知的。

6、特别是对于虚拟现实应用而言,也期望所呈现的图像是三维图像。实际上,为了优化观看者的沉浸感,通常优选使用户体验的呈现场景为三维场景。实际上,虚拟现实体验应当优选允许用户选择他/她自身的位置、摄像机视点和相对于虚拟世界的时刻。

7、通常,虚拟现实应用被固有地限制于基于预定的场景模型并且通常基于人造的虚拟世界模型。在一些应用中,虚拟现实体验可以基于真实世界捕获来提供。在许多情况下,这种方法趋向于基于根据真实世界捕获而构建的真实世界的虚拟模型。然后通过评价该模型来生成虚拟现实体验。

8、许多当前方法趋向于是次优的,并且通常趋向于具有高计算要求或高通信资源要求和/或提供具有例如降低质量或有限自由度的次优的用户体验。

9、作为应用的范例,允许观看者体验所捕获的360°(全景)或180°视频的虚拟现实眼镜已经正在进入市场。这些360°视频通常是使用摄像机装备预先捕获的,其中,个体图像被拼接在一起而成为单个球形映射。180°或360°视频的常见立体格式是上/下和左/右。类似于非全景立体视频,左眼图片和右眼图片例如被压缩为单个h.264视频流的部分。

10、除了虚拟渲染之外,大多数vr/ar应用还提供对应的音频体验。在许多应用中,音频优选地提供空间音频体验,其中,音频源被感知为从与虚拟场景中的对应对象的位置相对应的位置到达。因此,音频和视频场景优选地被感知为是一致的,并且其中,两者提供完全空间体验。

11、对于音频,直到现在主要集中于使用双耳音频渲染技术的耳机再现。在许多情况下,耳机再现为用户实现了高度沉浸的个性化体验。使用头部跟踪,渲染能够对用户的头部运动做出响应,这高度增加了沉浸感。

12、最近,在市场上和在标准讨论中,都开始提出涉及vr(和ar)的“社交”或“共享”方面的使用实例,即与其他人一起分享体验的可能性。这些能够是不同位置处的人,而且也可以是同一位置中的人(或两者的组合)。例如,同一房间中的若干人可以利用存在于vr内容/场景中的每个参与者的投影(音频和视频)共享相同的vr体验。例如,在多个人参与的游戏中,每个游戏者在游戏场景中可能具有不同的位置并且因此音频和视频场景的不同投影。

13、作为特定范例,mpeg试图针对具有六个自由度的逼真的沉浸式ar/vr体验标准化比特流和解码器。社交vr是重要的特征,并且允许用户在共享环境(游戏、电话会议、在线购物等)中进行交互。对于物理上处于相同位置但是在例如头戴式显示器或其他vr头盔提供与物理环境的感知隔离的情况下的用户,社交vr的概念也有助于使vr体验更像社交活动。

14、耳机再现在这种“社交”或“共享”ar(或vr)使用实例中的缺点是,在每个用户佩戴个体耳机的情况下,处于相同位置(例如:房间)的用户与彼此至少部分地声学上隔离,这减少了体验的“社交”部分(例如,对于站在彼此附近的人来说具有自然交谈变得困难或不便)。

15、这可以通过使用扬声器而非耳机用于音频再现来解决。然而,这具有音频再现不能根据个体用户被自由调整和定制的缺点。例如,难以使音频再现动态地适应于头部运动,并且特别地适应于每个个体用户头部取向的改变。这种效果对于沉浸式体验是非常重要的,并且因此扬声器趋向于对于生成优化的用户体验来说是次优的。

16、因此,用于音频处理、具体地用于虚拟/增强/混合现实体验/应用、应用的改进的方法将会是有利的。具体地,允许改进的操作、增加的灵活性、降低的复杂性、方便的实施、改进的音频体验、音频视觉场景的更一致的感知、改进的定制、改进的个性化;改进的虚拟现实体验和/或改进的性能和/或操作的方法将会是有利的。


技术实现思路

1、因此,本发明试图优选地单独地或以任何组合减轻、缓解或者消除上文所提到的缺点中的一个或多个。

2、根据本发明的一方面,提供了一种音频装置,包括:接收器,其用于接收描述音频场景的数据,所述数据包括针对与所述场景中的音频源相对应的一组音频元素的音频数据和至少包含针对所述一组音频元素的第一音频元素的第一音频渲染性质指示符的元数据;第一渲染器,其用于通过生成针对一组扬声器的第一组音频信号来渲染音频元素;第二渲染器,其用于通过生成针对耳机的第二组音频信号来渲染音频元素;以及选择器,其被布置为响应于所述第一音频渲染性质指示符而在所述第一渲染器与所述第二渲染器之间进行选择以用于渲染所述第一音频元素的至少第一部分;其中,所述音频渲染性质指示符指示所述第一音频元素的所述第一部分是与听者姿态相关位置相关联还是与听者姿态无关位置相关联。

3、在许多实施例中,该方法可以提供改进的用户体验,并且可以具体地为许多虚拟现实(包括增强和混合现实)应用提供改进的用户体验,具体地包括社交或共享体验。该方法可以使用混合渲染提供改进的性能。例如,在许多实施例中,它可以允许相同房间中的用户更容易地直接谈话,同时仍然提供音频场景的靶向且个性化渲染。

4、音频渲染性质指示符可以指示第一音频元素表示具有固定到头部取向还是非固定到头部取向(分别对应于听者姿态相关位置和听者姿态无关位置)的空间性质的音频源。该方法可以降低复杂性和资源要求。

5、在一些实施例中,所述装置可以包括用于根据第一组音频信号驱动所述一组扬声器的第一驱动器和用于根据第二组音频信号驱动所述耳机的第二驱动器。第一组音频信号可以具体地是一组环绕信号,并且第二组音频信号可以具体地是双耳立体信号。

6、第一音频渲染性质指示符可以指示要被应用于第一音频元素的渲染的性质或第一音频元素的性质。

7、根据本发明的可选特征,所述装置还包括听者姿态接收器,所述听者姿态接收器用于接收指示听者的姿态的听者姿态,并且所述第一渲染器被布置为独立于所述听者姿态生成所述第一组音频信号,并且所述第二渲染器被布置为响应于所述听者姿态而生成所述第二组音频信号。

8、该音频装置可以提供高度有利的且灵活的用户体验,允许例如听者移动与感知的音频场景之间的密切一致性。姿态可以指的是位置和/或取向数据,并且也可以被称为方位。听者姿态可以是听者的位置指示、听者的取向指示或听者的组合的位置和取向指示。姿态/方位可以通过提供位置和/或方向的指示的一个或多个值来表示。

9、根据本发明的可选特征,所述装置被布置为为多个听者生成音频信号,其中,所述第一渲染器被布置为生成所述第一组音频信号作为针对所述多个听者的共同的一组音频信号;并且所述第二渲染器被布置为为所述多个听者中的第一听者生成针对耳机的所述第二组音频信号,并且为所述多个听者中的第二听者生成针对耳机的第三组音频信号。

10、该音频装置可以为多个用户提供有利的支持。在许多应用中,改进的支持可以针对低复杂性和资源使用被实现,但是提供通常具有音频级的一致且自然的感知的吸引人的用户体验。

11、第二组音频信号可以响应于第一听者的第一听者姿态而被生成,并且第三组音频信号可以响应于第二听者的第二听者姿态而被生成。第一组音频信号可以独立于听者姿态而被生成。

12、根据本发明的可选特征,所述第一部分是所述第一音频元素的频率子范围。

13、在许多实施例中,这可以提供改进的性能。

14、根据本发明的可选特征,所述选择器被布置为针对所述第一音频元素的所述第一部分和针对所述第一音频元素的第二部分选择所述第一渲染器和所述第二渲染器中的不同渲染器。

15、在许多实施例中,这可以提供改进的用户体验。选择器可以具体地被布置为针对第一音频元素的不同频率范围选择不同的渲染器。

16、在许多应用中,这可以提供高效的方法。音频渲染性质指示符可以指示第一音频元素是否是剧情声。

17、根据本发明的可选特征,所述音频渲染性质指示符指示所述第一音频元素的音频格式。

18、在许多实施例中,这可以提供改进的用户体验。音频渲染性质指示符可以指示来自一组音频格式的音频格式,包括来自以下组中的至少一个音频格式:音频对象格式;高阶立体混响音频格式;以及音频信道信号音频格式。

19、根据本发明的可选特征,所述音频渲染性质指示符指示所述第一音频元素的音频源类型。

20、在许多实施例中,这可以提供改进的用户体验。音频渲染性质指示符可以指示来自一组音频源类型的音频源类型,包括来自以下组中的至少一个音频源类型:语音音频;音乐音频;前景音频;背景音频;旁白音频;以及叙述者音频。

21、根据本发明的可选特征,其中,所述音频渲染性质指示符指示用于渲染所述第一音频元素的渲染的引导渲染性质。

22、在许多实施例中,这可以提供改进的用户体验和/或性能。

23、根据本发明的可选特征,所述音频渲染性质指示符指示所述第一音频项的所述第一部分是旨在用于在扬声器上进行渲染还是旨在用于在耳机上进行渲染。

24、在许多实施例中,这可以提供改进的用户体验和/或性能。

25、根据本发明的可选特征,所述接收器还被布置为接收指示对应于所述音频场景的虚拟场景的视觉数据,并且所述音频渲染性质指示符指示所述第一音频元素是否表示对应于虚拟场景对象的音频源。

26、在许多实施例中,这可以提供改进的用户体验和/或性能。

27、在一些实施例中,音频渲染性质指示符可以指示第一音频元素是否表示对应于在针对当前听者姿态确定的视口内的场景对象的音频源。

28、根据本发明的可选特征,所述装置还包括用于接收用户输入的用户输入端,并且其中,所述选择器被布置为响应于所述用户输入而在所述第一渲染器与所述第二渲染器之间进行选择以用于渲染所述第一音频元素的至少所述第一部分。

29、在许多实施例中,这可以提供改进的用户体验。

30、根据本发明的可选特征,所述选择器被布置为确定所述第一音频元素的音频性质,并且响应于音频性质而在所述第一渲染器与所述第二渲染器之间进行选择以用于渲染所述第一音频元素的至少所述第一部分。

31、在许多实施例中,这可以提供改进的用户体验和/或性能。

32、根据本发明的一方面,提供了一种音频处理的方法,包括:接收描述音频场景的数据,所述数据包括针对与所述场景中的音频源相对应的一组音频元素的音频数据和至少包含针对所述一组音频元素中的第一音频元素的第一音频渲染性质指示符的元数据;通过生成针对一组扬声器的第一组音频信号来渲染音频元素;通过生成针对耳机的第二组音频信号来渲染音频元素;并且响应于所述第一音频渲染性质指示符而在针对所述一组扬声器渲染所述第一音频元素的至少第一部分与针对所述耳机渲染所述第一音频元素的至少第一部分之间进行选择;其中,所述音频渲染性质指示符指示所述第一音频元素的所述第一部分是与听者姿态相关位置相关联还是与听者姿态无关位置相关联。

33、本发明的这些和其他方面、特征和优点将参考下文描述的(一个或多个)实施例变得显而易见并将参考下文描述的(一个或多个)实施例得以阐述。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1