目标空间音频参数和相关联的空间音频播放的确定的制作方法

文档序号:37035326发布日期:2024-02-20 20:27阅读:17来源:国知局
目标空间音频参数和相关联的空间音频播放的确定的制作方法

本技术涉及用于频带中声场相关参数估计的装置和方法,但并不排它地涉及用于对音频编码器和解码器的时频域声场相关参数估计的装置和方法。


背景技术:

1、参数空间音频处理是音频信号处理的一个领域,其中,使用一组参数来描述声音的空间方面。例如,在从麦克风阵列进行参数化空间音频捕获时,从麦克风阵列信号估计一组参数是一种典型且有效的选择,该组参数诸如是频带中声音的方向、以及频带中被捕获声音的定向与非定向部分的比率。众所周知,这些参数很好地描述了在麦克风阵列的位置处的被捕获声音的感知空间特性。这些参数可相应地在空间声音的合成中使用,以用于双耳式耳机、扬声器、或诸如环绕立体声(ambisonics)的其它格式。

2、因此,频带中的方向和直接总能量比率是对空间音频捕获特别有效的参数化。

3、包括频带中的方向参数和频带中的能量比率参数(指示声音的定向性)的参数集也可被用作用于音频编解码器的空间元数据。例如,这些参数可从麦克风阵列捕获的音频信号来估计,并且例如可从麦克风阵列信号生成立体声信号以与空间元数据一起传达。立体声信号例如可用evs或aac编码器来编码。解码器可将音频信号解码成pcm信号,并(使用空间元数据)处理频带中的声音以获得空间输出,例如,双耳输出。

4、前述的解决方案尤其适用于编码来自麦克风阵列(例如,在移动电话、vr相机、独立麦克风阵列中)的被捕获空间声音。然而,可期望这种编码器除了麦克风阵列捕获的信号之外还具有其它输入类型,例如,扬声器信号、音频对象信号、或环绕立体声信号。

5、分析一阶环绕立体声(foa)输入用于空间元数据提取已经在与定向音频编码(dirac)和谐波平面波展开(harpex)有关的科学文献中进行了详尽的记录。这是因为存在直接提供foa信号(更准确地:其变体,b格式信号)的麦克风阵列,并且因此分析这种输入已经成为该领域的研究重点。

6、编码器的另一个输入也是多通道扬声器输入,诸如5.1或7.1通道环绕声输入。

7、然而,可以容易地证明如上所述的元数据表示不能传达诸如在许多系统中常规使用的5.1或7.1混音的多通道输入的所有相关方面。这些方面与录音工程师用于生成艺术环绕声扬声器混音的方法有关。具体地,录音工程师可使用声音在两个或更多个方向上的相干再现,这是不能通过利用频带中的方向和比率元数据的声场相关参数化很好地解释的场景。

8、因此,需要更有效的元数据参数以更准确地传达多通道输入的相关方面。


技术实现思路

1、根据第一方面,提供一种用于空间音频信号处理的方法,其包括:对于两个或更多个播放音频信号,确定用于提供空间音频再现的至少一个空间音频参数;在两个或更多个播放音频信号之间确定至少一个音频信号关系参数,至少一个音频信号关系参数与两个或更多个播放音频信号之间的并且用于至少两个频带的通道间信号关系信息的确定相关联,以使得两个或更多个播放音频信号被配置为基于至少一个空间音频参数和至少一个音频信号关系参数来再现。

2、在两个或更多个播放音频信号之间确定至少一个音频信号关系参数可包括:确定至少一个相干性参数,至少一个相干性参数与两个或更多个播放音频信号之间的并且用于至少两个频带的通道间相干性信息的确定相关联。

3、对于两个或更多个播放音频信号,确定用于提供空间音频再现的至少一个空间音频参数可包括:对于两个或更多个播放音频信号,确定至少一个方向参数和至少一个能量比率。

4、该方法还可包括:从两个或更多个播放音频信号确定下混合信号,其中,两个或更多个播放音频信号可以是基于至少一个空间音频参数、至少一个相干性参数、和/或下混合信号来再现的。

5、在两个或更多个播放音频信号之间确定至少一个相干性参数可包括:确定扩展相干性参数,其中,扩展相干性参数可以是基于在空间上与所识别的播放音频信号相邻的两个或更多个播放音频信号之间的通道间相干性信息来确定的,所识别的播放音频信号是基于至少一个空间音频参数来识别的。

6、确定扩展相干性参数可包括:确定立体度参数,立体度参数与指示两个或更多个播放音频信号使用在空间上与所识别的播放音频信号相邻的两个播放音频信号来相干地再现相关联,所识别的播放音频信号是在空间上最接近至少一个方向参数的播放音频信号;确定相干平移参数,相干平移参数与指示两个或更多个播放音频信号使用在空间上与所识别的播放音频信号相邻的至少两个或更多个播放音频信号来相干地再现相关联;以及基于立体度参数和相干平移参数,生成扩展相干性参数。

7、基于立体度参数和相干平移参数,生成扩展相干性参数可包括:当立体度参数和相干平移参数中的任意一个大于0.5并且相干平移参数大于立体度参数时,将扩展相干性参数设置为以下中的最大值:0.5,以及0.5加上立体度参数与相干平移参数之差;或者否则,将扩展相干性参数设置为立体度参数和相干平移参数中的最大值。

8、确定立体度参数可包括:计算与两个或更多个播放音频信号相关联的协方差矩阵;确定在空间上最接近至少一个方向参数的播放音频信号和与最接近至少一个方向参数的播放音频信号相关联的在空间上相邻的播放音频信号对;基于协方差矩阵,确定最接近至少一个方向参数的通道和相邻的播放音频信号对的能量;确定相邻的播放音频信号对的能量与在空间上最接近至少一个方向的播放音频信号和播放音频信号对的组合的能量之间的比率;对协方差矩阵进行归一化;以及基于播放音频信号对之间的归一化相干性乘以播放音频信号对的能量与在空间上最接近至少一个方向的播放音频信号和播放音频信号对的组合的能量之间的比率,生成立体度参数。

9、确定相干平移参数可包括:确定在空间上最接近至少一个方向的播放音频信号与播放音频信号对中的每一个播放音频信号之间的归一化相干性值;选择归一化相干性值中的最小值,最小值描述播放音频信号之间的相干性;确定用于描述能量如何均匀分布的能量分布参数;以及基于归一化相干性值中的最小值与能量分布参数的乘积,生成相干平移参数。

10、确定至少一个相干性参数可包括:确定环绕相干性参数,其中,环绕相干性参数是基于两个或更多个播放音频信号之间的通道间相干性来确定的。

11、确定环绕相干性参数可包括:计算与两个或更多个播放音频信号相关联的协方差矩阵;监视具有最大能量的播放音频信号,最大能量是基于协方差矩阵和其它播放音频信号的子集来确定的,其中,子集是在1与小于具有次最大能量的播放音频信号的总数的数量之间的确定数量;以及基于选择在具有最大能量的播放音频信号与次最大能量播放音频信号中的每一个之间确定的归一化相干性中的最小值,生成环绕参数。

12、该方法还可包括:基于至少一个相干性参数,修改至少一个能量比率。

13、基于至少一个相干性参数,修改至少一个能量比率可包括:基于在空间上与所识别的播放音频信号相邻的两个或更多个播放音频信号之间的通道间相干性信息,确定第一替代能量比率,其中所识别的播放音频信号是基于至少一个空间音频参数来识别的;基于在所识别的播放音频信号与在空间上与所识别的播放音频信号相邻的两个或更多个播放音频信号之间的通道间相干性信息,确定第二替代能量比率;以及基于至少一个能量比率、第一替代能量比率和第二替代能量比率中的最大值,选择至少一个能量比率、第一替代能量比率和第二替代能量比率中的一个作为修改的能量比率。

14、该方法还可包括:对下混合信号、至少一个方向参数、至少一个能量比率和至少一个相干性参数进行编码。

15、根据第二方面,提供一种用于合成空间音频的方法,其包括:接收至少一个音频信号,至少一个音频信号是基于两个或更多个播放音频信号;接收至少一个音频信号关系参数,至少一个音频信号关系参数是基于两个或更多个播放音频信号之间的并且用于至少两个频带的通道间信号关系信息的确定;接收用于提供空间音频再现的至少一个空间音频参数;以及基于至少一个音频信号、至少一个空间音频参数和至少一个音频信号关系参数,再现两个或更多个播放音频信号。

16、接收至少一个音频信号关系参数,至少一个音频信号关系参数是基于两个或更多个播放音频信号之间的并且用于至少两个频带的通道间信号关系信息的确定可包括:接收至少一个相干性参数,至少一个相干性参数是基于两个或更多个播放音频信号之间的并且用于至少两个频带的通道间相干性信息的确定。

17、至少一个空间音频参数可包括至少一个方向参数和至少一个能量比率,其中,基于至少一个音频信号、至少一个空间音频参数和至少一个音频信号关系参数,再现两个或更多个播放音频信号还可包括:从至少一个空间音频参数、至少一个相干性参数和基于至少一个音频信号的估计协方差矩阵确定目标协方差矩阵;基于目标协方差矩阵和基于至少一个音频信号的估计协方差矩阵,生成混合矩阵;以及对至少一个音频信号应用混合矩阵以生成用于再现两个或更多个播放音频信号的至少两个输出空间音频信号。

18、从至少一个空间音频参数、至少一个音频信号关系参数和估计协方差矩阵确定目标协方差矩阵可包括:基于估计协方差矩阵,确定总能量参数;基于总能量参数和至少一个能量比率,确定直接能量和环境能量;基于所确定的环境能量和至少一个相关性参数中的一个相关性参数,估计环境协方差矩阵;基于输出通道配置和/或至少一个方向参数,估计以下中的至少一个:幅度平移增益向量;环绕立体声平移向量或至少一个头部相关传递函数;基于以下项,估计直接协方差矩阵:幅度平移增益向量、环绕立体声平移向量或至少一个头部相关传递函数;所确定的直接部分能量;以及至少一个相干性参数中的另一个相干性参数;以及通过组合环境协方差矩阵和直接协方差矩阵来生成目标协方差矩阵。

19、根据第三方面,提供一种用于空间音频信号处理的装置,该装置包括至少一个处理器和包括计算机程序代码的至少一个存储器,至少一个存储器和计算机程序代码被配置为利用至少一个处理器使得该装置至少:对于两个或更多个播放音频信号,确定用于提供空间音频再现的至少一个空间音频参数;在两个或更多个播放音频信号之间确定至少一个音频信号关系参数,至少一个音频信号关系参数与两个或更多个播放音频信号之间的并且用于至少两个频带的通道间信号关系信息的确定相关联,以使得两个或更多个播放音频信号被配置为基于至少一个空间音频参数和至少一个音频信号关系参数来再现。

20、被使得在两个或更多个播放音频信号之间确定至少一个音频信号关系参数的该装置可进一步被使得:确定至少一个相干性参数,至少一个相干性参数与两个或更多个播放音频信号之间的并且用于至少两个频带的通道间相干性信息的确定相关联。

21、被使得对于两个或更多个播放音频信号,确定用于提供空间音频再现的至少一个空间音频参数的该装置可进一步被使得:对于两个或更多个播放音频信号,确定至少一个方向参数和至少一个能量比率。

22、该装置可进一步被使得:从两个或更多个播放音频信号确定下混合信号,其中,两个或更多个播放音频信号可以是基于至少一个空间音频参数、至少一个相干性参数、和/或下混合信号来再现的。

23、可进一步被使得在两个或更多个播放音频信号之间确定至少一个相干性参数的该装置可进一步被配置为:确定扩展相干性参数,其中,扩展相干性参数可以是基于在空间上与所识别的播放音频信号相邻的两个或更多个播放音频信号之间的通道间相干性信息来确定的,所识别的播放音频信号是基于至少一个空间音频参数来识别的。

24、被使得确定扩展相干性参数的该装置可进一步被使得:确定立体度参数,立体度参数与指示两个或更多个播放音频信号使用在空间上与所识别的播放音频信号相邻的两个播放音频信号来相干地再现相关联,所识别的播放音频信号是在空间上最接近至少一个方向参数的播放音频信号;确定相干平移参数,相干平移参数与指示两个或更多个播放音频信号使用在空间上与所识别的播放音频信号相邻的至少两个或更多个播放音频信号来相干地再现相关联;以及基于立体度参数和相干平移参数,生成扩展相干性参数。

25、被使得基于立体度参数和相干平移参数,生成扩展相干性参数的该装置可进一步被使得:当立体度参数和相干平移参数中的任意一个大于0.5并且相干平移参数大于立体度参数时,将扩展相干性参数设置为以下中的最大值:0.5,以及0.5加上立体度参数与相干平移参数之差;或者否则,将扩展相干性参数设置为立体度参数和相干平移参数中的最大值。

26、被使得确定立体度参数的该装置可进一步被使得:计算与两个或更多个播放音频信号相关联的协方差矩阵;确定在空间上最接近至少一个方向参数的播放音频信号和与最接近至少一个方向参数的播放音频信号相关联的在空间上相邻的播放音频信号对;基于协方差矩阵,确定最接近至少一个方向参数的通道和相邻的播放音频信号对的能量;确定相邻的播放音频信号对的能量与在空间上最接近至少一个方向的播放音频信号和播放音频信号对的组合的能量之间的比率;对协方差矩阵进行归一化;以及基于播放音频信号对之间的归一化相干性乘以播放音频信号对的能量与在空间上最接近至少一个方向的播放音频信号和播放音频信号对的组合的能量之间的比率,生成立体度参数。

27、被使得确定相干平移参数的该装置可进一步被使得:确定在空间上最接近至少一个方向的播放音频信号与播放音频信号对中的每一个播放音频信号之间的归一化相干性值;选择归一化相干性值中的最小值,最小值描述播放音频信号之间的相干性;确定用于描述能量如何均匀分布的能量分布参数;以及基于归一化相干性值中的最小值与能量分布参数的乘积,生成相干平移参数。

28、被使得确定至少一个相干性参数的该装置可进一步被使得:确定环绕相干性参数,其中,环绕相干性参数是基于两个或更多个播放音频信号之间的通道间相干性来确定的。

29、被使得确定环绕相干性参数的该装置可进一步被使得:计算与两个或更多个播放音频信号相关联的协方差矩阵;监视具有最大能量的播放音频信号,最大能量是基于协方差矩阵和其它播放音频信号的子集来确定的,其中,子集是在1与小于具有次最大能量的播放音频信号的总数的数量之间的确定数量;以及基于选择在具有最大能量的播放音频信号与次最大能量播放音频信号中的每一个之间确定的归一化相干性中的最小值,生成环绕参数。

30、该装置可进一步被使得:基于至少一个相干性参数,修改至少一个能量比率。

31、被使得基于至少一个相干性参数,修改至少一个能量比率的该装置可进一步被使得:基于在空间上与所识别的播放音频信号相邻的两个或更多个播放音频信号之间的通道间相干性信息,确定第一替代能量比率,其中所识别的播放音频信号是基于至少一个空间音频参数来识别的;基于在所识别的播放音频信号与在空间上与所识别的播放音频信号相邻的两个或更多个播放音频信号之间的通道间相干性信息,确定第二替代能量比率;以及基于至少一个能量比率、第一替代能量比率和第二替代能量比率中的最大值,选择至少一个能量比率、第一替代能量比率和第二替代能量比率中的一个作为修改的能量比率。

32、该装置可进一步被使得:对下混合信号、至少一个方向参数、至少一个能量比率和至少一个相干性参数进行编码。

33、根据第四方面,提供一种用于合成空间音频的装置,其包括至少一个处理器和包括计算机程序代码的至少一个存储器,至少一个存储器和计算机程序代码被配置为利用至少一个处理器使得该装置至少:接收至少一个音频信号,至少一个音频信号是基于两个或更多个播放音频信号;接收至少一个音频信号关系参数,至少一个音频信号关系参数是基于两个或更多个播放音频信号之间的并且用于至少两个频带的通道间信号关系信息的确定;接收用于提供空间音频再现的至少一个空间音频参数;以及基于至少一个音频信号、至少一个空间音频参数和至少一个音频信号关系参数,再现两个或更多个播放音频信号。

34、至少一个音频信号关系参数,至少一个音频信号关系参数是基于两个或更多个播放音频信号之间的并且用于至少两个频带的通道间信号关系信息的确定可包括:至少一个相干性参数,至少一个相干性参数是基于两个或更多个播放音频信号之间的并且用于至少两个频带的通道间相干性信息的确定。

35、至少一个空间音频参数可包括至少一个方向参数和至少一个能量比率,其中,基于至少一个音频信号、至少一个空间音频参数和至少一个音频信号关系参数,被使得基于至少一个音频信号、至少一个空间音频参数和至少一个音频信号关系参数,再现两个或更多个播放音频信号的该装置可进一步被使得:从至少一个空间音频参数、至少一个相干性参数和基于至少一个音频信号的估计协方差矩阵确定目标协方差矩阵;基于目标协方差矩阵和基于至少一个音频信号的估计协方差矩阵,生成混合矩阵;以及对至少一个音频信号应用混合矩阵以生成用于再现两个或更多个播放音频信号的至少两个输出空间音频信号。

36、被使得从至少一个空间音频参数、至少一个音频信号关系参数和估计协方差矩阵确定目标协方差矩阵的该装置可被使得:基于估计协方差矩阵,确定总能量参数;基于总能量参数和至少一个能量比率,确定直接能量和环境能量;基于所确定的环境能量和至少一个相关性参数中的一个相关性参数,估计环境协方差矩阵;基于输出通道配置和/或至少一个方向参数,估计以下中的至少一个:幅度平移增益向量;环绕立体声平移向量或至少一个头部相关传递函数;基于以下项,估计直接协方差矩阵:幅度平移增益向量、环绕立体声平移向量或至少一个头部相关传递函数;所确定的直接部分能量;以及至少一个相干性参数中的另一个相干性参数;以及通过组合环境协方差矩阵和直接协方差矩阵来生成目标协方差矩阵。

37、一种装置,包括用于执行如上所述的方法的动作的装置。

38、一种装置,被配置为执行如上所述的方法的动作。

39、一种计算机程序,包括用于使计算机执行如上所述的方法的程序指令。

40、一种在介质上存储的计算机程序产品,可使得装置执行如本文所述的方法。

41、一种电子设备,可包括如本文所述的装置。

42、一种芯片组,可包括如本文所述的装置。

43、本技术的实施例旨在解决与现有技术相关联的问题。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1