空间音频参数编码和相关联的解码的确定的制作方法

文档序号:21849976发布日期:2020-08-14 17:27阅读:227来源:国知局
空间音频参数编码和相关联的解码的确定的制作方法

本申请涉及用于声场相关的参数编码的装置和方法,但并不排它地涉及用于针对音频编码器和解码器的时频域方向相关的参数编码的装置和方法。



背景技术:

参数空间音频处理是音频信号处理的一个领域,其中使用一组参数来描述声音的空间方面。例如,在从麦克风阵列进行参数化空间音频捕获时,从麦克风阵列信号估计一组参数是一种典型且有效的选择,该组参数诸如是频带中声音的方向、以及频带中被捕获声音的定向与非定向部分的比率。众所周知,这些参数很好地描述了在麦克风阵列的位置处的被捕获声音的感知空间特性。这些参数可相应地在空间声音的合成中使用,以用于双耳式耳机、扬声器、或诸如环绕立体声(ambisonics)的其它格式。

因此,频带中的方向和直接总能量比率是对空间音频捕获特别有效的参数化。

包括频带中的方向参数和频带中的能量比率参数(指示声音的定向性)的参数集也可被用作用于音频编解码器的空间元数据。例如,这些参数可从麦克风阵列捕获的音频信号来估计,并且例如可从麦克风阵列信号生成立体声信号以与空间元数据一起传达。立体声信号例如可用aac编码器来编码。解码器可将音频信号解码成pcm信号,并(使用空间元数据)处理频带中的声音以获得空间输出,例如,双耳输出。

前述的解决方案尤其适用于编码来自麦克风阵列(例如,在移动电话、vr相机、独立麦克风阵列中)的被捕获空间声音。然而,可期望这种编码器除了麦克风阵列捕获的信号之外还具有其它输入类型,例如,扬声器信号、音频对象信号、或环绕立体声信号。

分析一阶环绕立体声(foa)输入用于空间元数据提取已经在与定向音频编码(dirac)和谐波平面波展开(harpex)有关的科学文献中进行了详尽的记录。这是因为存在直接提供foa信号(更准确地:其变体,b格式信号)的麦克风阵列,并且因此分析这种输入已经成为该领域的研究重点。

编码器的另一个输入也是多通道扬声器输入,诸如5.1或7.1通道环绕声输入。

然而,关于元数据的方向分量,其对于每个所考虑的时间/频率子带可包括所得到的方向的仰角、方位角(以及扩散性)。这些方向分量的量化是当前的研究主题。



技术实现要素:

根据第一方面,提供了一种用于空间音频信号编码的装置,该装置包括至少一个处理器和包括计算机程序代码的至少一个存储器,至少一个存储器和计算机程序代码被配置为与至少一个处理器一起使该装置至少:对于两个或更多个音频信号,确定用于提供空间音频再现的至少一个空间音频参数,至少一个空间音频参数包括具有仰角和方位角分量的方向参数;定义通过用更小球体覆盖球体而生成的球形网格,更小球体被布置成球体圆,其中,第一球体圆包括更小球体中的中心位于相对于球体的参考方向的90度仰角处的更小球体;以及基于所定义的球形网格,将方向参数的仰角和方位角分量转换成索引值。

被使得定义通过用更小球体覆盖球体而生成的球形网格,更小球体被布置成球体圆,其中第一球体圆包括更小球体中的中心位于相对于球体的参考方向的90度仰角处的更小球体的该装置可进一步被使得:选择第一确定数量的更小球体以用于球体的另一圆,该另一圆是基于更小球体中的中心位于相对于球体的参考方向的90度仰角处的更小球体的直径来定义的。

另一圆可与球体的赤道平行。

被使得定义通过用更小球体覆盖球体而生成的球形网格,更小球体被布置成球体圆,其中第一球体圆包括更小球体中的中心位于相对于球体的参考方向的90度仰角处的更小球体的该装置可进一步被使得:定义与第一圆和另一圆相关联的圆索引顺序。

被使得定义通过用更小球体覆盖球体而生成的球形网格,更小球体被布置成球体圆,其中第一球体圆包括更小球体中的中心位于相对于球体的参考方向的90度仰角处的更小球体的该装置可进一步被使得:将在球体上的更小球体近似等距离地彼此间隔开。

更小球体的数量可以是基于输入量化值来确定的。

被使得基于所定义的球形网格来将方向参数的仰角和方位角分量转换成索引值的该装置可进一步被使得:基于从第一圆开始的所定义顺序并基于方向参数的仰角分量,确定圆索引值;基于方向参数的方位角分量,确定圆内索引值;以及基于组合圆内索引值与基于圆索引值的偏移值,生成索引值。

该装置可进一步被使得:基于两个或更多个音频信号的分析,确定至少一个参考方向。

被使得基于两个或更多个音频信号的分析来确定至少一个参考方向的该装置可被使得:基于与具有最高子带能量值的至少一个子带相关联的方向参数,确定至少一个参考方向。

被使得定义通过用更小球体覆盖球体而生成的球形网格,更小球体被布置成球体圆,其中第一球体圆包括更小球体中的中心位于相对于球体的参考方向的90度仰角处的更小球体的该装置可进一步被使得:定义球体圆,以使得球体圆与参考方向共面并且具有基于与参考方向的仰角而定义的直径,以使得最接近参考方向的圆具有最大直径。

被使得定义通过用更小球体覆盖球体而生成的球形网格,更小球体被布置成球体圆,其中第一球体圆包括更小球体中的中心位于相对于球体的参考方向的90度仰角处的更小球体的该装置可进一步被使得:针对第一圆定义具有第一直径的更小球体,以及针对另一圆定义具有第二直径的更小球体。

根据第二方面,提供了一种用于空间音频信号解码的装置,该装置包括至少一个处理器和包括计算机程序代码的至少一个存储器,至少一个存储器和计算机程序代码被配置为与至少一个处理器一起使该装置至少:确定与两个或更多个音频信号相关联的用于提供空间音频再现的至少一个方向索引,至少一个方向索引表示具有仰角和方位角分量的空间参数;定义通过用更小球体覆盖球体而生成的球形网格,更小球体被布置成球体圆,其中第一球体圆包括更小球体中的中心位于相对于球体的参考方向的90度仰角处的更小球体;以及基于所定义的球形网格,将至少一个方向索引转换成方向参数的仰角和方位角分量对索引值的量化仰角和量化方位角表示。

被使得定义通过用更小球体覆盖球体而生成的球形网格,更小球体被布置成球体圆,其中第一球体圆包括更小球体中的中心位于相对于球体的参考方向的90度仰角处的更小球体的该装置可进一步被使得:选择第一确定数量的更小球体以用于球体的另一圆,该另一圆是由更小球体中的中心位于相对于球体的参考方向的90度仰角处的更小球体的直径来定义的。

另一圆可与球体的赤道平行。

被使得定义通过用更小球体覆盖球体而生成的球形网格,更小球体被布置成球体圆,其中第一球体圆包括更小球体中的中心位于相对于球体的参考方向的90度仰角处的更小球体的该装置可进一步被使得:定义与第一圆和另一圆相关联的圆索引顺序。

被使得定义通过用更小球体覆盖球体而生成的球形网格,更小球体被布置成球体圆,其中第一球体圆包括更小球体中的中心位于相对于球体的参考方向的90度仰角处的更小球体的该装置可进一步被使得:将在球体上的更小球体近似等距离地彼此间隔开。

更小球体的数量可以是基于输入量化值来确定的。

被使得基于所定义的球形网格,将至少一个方向索引转换成方向参数的仰角和方位角分量对索引值的量化仰角和量化方位角表示的该装置可进一步被使得:基于索引值,确定圆索引值;基于圆索引值,确定仰角分量的量化仰角表示;以及基于在从索引值中去除与圆索引值相关联的偏移之后的剩余索引值,生成方位角分量的量化方位角表示。

该装置可进一步被使得基于以下中的至少一个来确定至少一个参考方向:所接收的参考方向值;以及基于两个或更多个音频信号的分析。

被使得基于基于两个或更多个音频信号的分析来确定至少一个参考方向的该装置可被使得:基于与具有最高子带能量值的至少一个子带相关联的方向参数,确定至少一个参考方向。

被使得定义通过用更小球体覆盖球体而生成的球形网格,更小球体被布置成球体圆,其中第一球体圆包括更小球体中的中心位于相对于球体的参考方向的90度仰角处的更小球体的该装置可进一步被使得:定义球体圆,以使得球体圆与参考方向共面并且具有基于与参考方向的仰角而定义的直径,以使得最接近参考方向的圆具有最大直径。

被使得定义通过用更小球体覆盖球体而生成的球形网格,更小球体被布置成球体圆,其中第一球体圆包括更小球体中的中心位于相对于球体的参考方向的90度仰角处的更小球体的该装置可进一步被使得:针对第一圆定义具有第一直径的更小球体,以及针对另一圆定义具有第二直径的更小球体。

根据第三方面,提供了一种方法,其包括:对于两个或更多个音频信号,确定用于提供空间音频再现的至少一个空间音频参数,至少一个空间音频参数包括具有仰角和方位角分量的方向参数;定义通过用更小球体覆盖球体而生成的球形网格,更小球体被布置成球体圆,其中,第一球体圆包括更小球体中的中心位于相对于球体的参考方向的90度仰角处的更小球体;以及基于所定义的球形网格,将方向参数的仰角和方位角分量转换成索引值。

定义通过用更小球体覆盖球体而生成的球形网格,更小球体被布置成球体圆,其中第一球体圆包括更小球体中的中心位于相对于球体的参考方向的90度仰角处的更小球体还可包括:选择第一确定数量的更小球体以用于球体的另一圆,该另一圆是由更小球体中的中心位于相对于球体的参考方向的90度仰角处的更小球体的直径来定义的。

另一圆可与球体的赤道平行。

定义通过用更小球体覆盖球体而生成的球形网格,更小球体被布置成球体圆,其中第一球体圆包括更小球体中的中心位于相对于球体的参考方向的90度仰角处的更小球体还可包括:定义与第一圆和另一圆相关联的圆索引顺序。

定义通过用更小球体覆盖球体而生成的球形网格可包括:将在球体上的更小球体近似等距离地彼此间隔开。

定义通过用更小球体覆盖球体而生成的球形网格可包括:基于输入量化值,定义更小球体的数量。

基于所定义的球形网格,将方向参数的仰角和方位角分量转换成索引值还可包括:基于从第一圆开始的所定义顺序并基于方向参数的仰角分量,确定圆索引值;基于方向参数的方位角分量,确定圆内索引值;以及基于组合圆内索引值与基于圆索引值的偏移值,生成索引值。

该方法还可包括:基于两个或更多个音频信号的分析,确定至少一个参考方向。

基于两个或更多个音频信号的分析,确定至少一个参考方向还可包括:基于与具有最高子带能量值的至少一个子带相关联的方向参数,确定至少一个参考方向。

定义通过用更小球体覆盖球体而生成的球形网格,更小球体被布置成球体圆,其中第一球体圆包括更小球体中的中心位于相对于球体的参考方向的90度仰角处的更小球体还可包括:定义球体圆,以使得球体圆与参考方向共面并且具有基于与参考方向的仰角而定义的直径,以使得最接近参考方向的圆具有最大直径。

定义通过用更小球体覆盖球体而生成的球形网格,更小球体被布置成球体圆,其中第一球体圆包括更小球体中的中心位于相对于球体的参考方向的90度仰角处的更小球体还可包括:针对第一圆定义具有第一直径的更小球体,以及针对另一圆定义具有第二直径的更小球体。

根据第四方面,提供了一种方法,其包括:确定与两个或更多个音频信号相关联的用于提供空间音频再现的至少一个方向索引,至少一个方向索引表示具有仰角和方位角分量的空间参数;定义通过用更小球体覆盖球体而生成的球形网格,更小球体被布置成球体圆,其中,第一球体圆包括更小球体中的中心位于相对于球体的参考方向的90度仰角处的更小球体;以及基于所定义的球形网格,将至少一个方向索引转换成方向参数的仰角和方位角分量对索引值的量化仰角和量化方位角表示。

定义通过用更小球体覆盖球体而生成的球形网格,更小球体被布置成球体圆,其中第一球体圆包括更小球体中的中心位于相对于球体的参考方向的90度仰角处的更小球体还可包括:选择第一确定数量的更小球体以用于球体的另一圆,该另一圆是由更小球体中的中心位于相对于球体的参考方向的90度仰角处的更小球体的直径来定义的。

另一圆可与球体的赤道平行。

定义通过用更小球体覆盖球体而生成的球形网格,更小球体被布置成球体圆,其中第一球体圆包括更小球体中的中心位于相对于球体的参考方向的90度仰角处的更小球体还可包括:确定与第一圆和另一圆相关联的圆索引顺序。

定义通过用更小球体覆盖球体而生成的球形网格可包括:将在球体上的更小球体近似等距离地彼此间隔开。

定义通过用更小球体覆盖球体而生成的球形网格可包括:基于输入量化值,定义更小球体的数量。

基于所定义的球形网格,将至少一个方向索引转换成方向参数的仰角和方位角分量对索引值的量化仰角和量化方位角表示还可包括:基于索引值,确定圆索引值;基于圆索引值,确定仰角分量的量化仰角表示;以及基于在从索引值中去除与圆索引值相关联的偏移之后的剩余索引值,生成方位角分量的量化方位角表示。

该方法还可包括基于以下中的至少一个来确定至少一个参考方向:所接收的参考方向值;以及基于两个或更多个音频信号的分析。

基于基于两个或更多个音频信号的分析,确定至少一个参考方向还可包括:基于与具有最高子带能量值的至少一个子带相关联的方向参数,确定至少一个参考方向。

定义通过用更小球体覆盖球体而生成的球形网格,更小球体被布置成球体圆,其中第一球体圆包括更小球体中的中心位于相对于球体的参考方向的90度仰角处的更小球体还可包括:定义球体圆,以使得球体圆与参考方向共面并且具有基于与参考方向的仰角而定义的直径,以使得最接近参考方向的圆具有最大直径。

定义通过用更小球体覆盖球体而生成的球形网格,更小球体被布置成球体圆,其中第一球体圆包括更小球体中的中心位于相对于球体的参考方向的90度仰角处的更小球体还可包括:针对第一圆定义具有第一直径的更小球体,以及针对另一圆定义具有第二直径的更小球体。

根据第五方面,提供了一种装置,其包括:用于对于两个或更多个音频信号,确定用于提供空间音频再现的至少一个空间音频参数的部件,其中至少一个空间音频参数包括具有仰角和方位角分量的方向参数;用于定义通过用更小球体覆盖球体而生成的球形网格的部件,其中更小球体被布置成球体圆,其中第一球体圆包括更小球体中的中心位于相对于球体的参考方向的90度仰角处的更小球体;以及用于基于所定义的球形网格,将方向参数的仰角和方位角分量转换成索引值的部件。

用于定义通过用更小球体覆盖球体而生成的球形网格的部件,其中更小球体被布置成球体圆,其中第一球体圆包括更小球体中的中心位于相对于球体的参考方向的90度仰角处的更小球体还可包括:用于选择第一确定数量的更小球体以用于球体的另一圆的部件,其中该另一圆是由更小球体中的中心位于相对于球体的参考方向的90度仰角处的更小球体的直径来定义的。

另一圆可与球体的赤道平行。

用于定义通过用更小球体覆盖球体而生成的球形网格的部件,其中更小球体被布置成球体圆,其中第一球体圆包括更小球体中的中心位于相对于球体的参考方向的90度仰角处的更小球体还可包括:用于定义与第一圆和另一圆相关联的圆索引顺序的部件。

用于定义通过用更小球体覆盖球体而生成的球形网格的部件可包括:用于将在球体上的更小球体近似等距离地彼此间隔开的部件。

用于定义通过用更小球体覆盖球体而生成的球形网格的部件可包括:用于基于输入量化值,定义更小球体的数量的部件。

用于基于所定义的球形网格,将方向参数的仰角和方位角分量转换成索引值的部件还可包括:用于基于从第一圆开始的所定义顺序并基于方向参数的仰角分量,确定圆索引值的部件;用于基于方向参数的方位角分量,确定圆内索引值的部件;以及用于基于组合圆内索引值与基于圆索引值的偏移值,生成索引值的部件。

该装置还可包括:用于基于两个或更多个音频信号的分析,确定至少一个参考方向的部件。

用于基于两个或更多个音频信号的分析,确定至少一个参考方向的部件还可包括:用于基于与具有最高子带能量值的至少一个子带相关联的方向参数,确定至少一个参考方向的部件。

用于定义通过用更小球体覆盖球体而生成的球形网格的部件,其中更小球体被布置成球体圆,其中第一球体圆包括更小球体中的中心位于相对于球体的参考方向的90度仰角处的更小球体还可包括:用于定义球体圆,以使得球体圆与参考方向共面并且具有基于与参考方向的仰角而定义的直径,以使得最接近参考方向的圆具有最大直径的部件。

用于定义通过用更小球体覆盖球体而生成的球形网格的部件,其中更小球体被布置成球体圆,其中第一球体圆包括更小球体中的中心位于相对于球体的参考方向的90度仰角处的更小球体还可包括:用于针对第一圆定义具有第一直径的更小球体,以及针对另一圆定义具有第二直径的更小球体的部件。

根据第六方面,提供了一种装置,其包括:用于确定与两个或更多个音频信号相关联的用于提供空间音频再现的至少一个方向索引的部件,其中至少一个方向索引表示具有仰角和方位角分量的空间参数;用于定义通过用更小球体覆盖球体而生成的球形网格的部件,其中更小球体被布置成球体圆,其中第一球体圆包括更小球体中的中心位于相对于球体的参考方向的90度仰角处的更小球体;以及用于基于所定义的球形网格,将至少一个方向索引转换成方向参数的仰角和方位角分量对索引值的量化仰角和量化方位角表示的部件。

用于定义通过用更小球体覆盖球体而生成的球形网格的部件,其中更小球体被布置成球体圆,其中第一球体圆包括更小球体中的中心位于相对于球体的参考方向的90度仰角处的更小球体还可包括:用于选择第一确定数量的更小球体以用于球体的另一圆的部件,其中该另一圆是由更小球体中的中心位于相对于球体的参考方向的90度仰角处的更小球体的直径来定义的。

另一圆可与球体的赤道平行。

用于定义通过用更小球体覆盖球体而生成的球形网格的部件,其中更小球体被布置成球体圆,其中第一球体圆包括更小球体中的中心位于相对于球体的参考方向的90度仰角处的更小球体还可包括:用于确定与第一圆和另一圆相关联的圆索引顺序的部件。

用于定义通过用更小球体覆盖球体而生成的球形网格的部件可包括:用于将在球体上的更小球体近似等距离地彼此间隔开的部件。

用于定义通过用更小球体覆盖球体而生成的球形网格的部件可包括:用于基于输入量化值,定义更小球体的数量的部件。

用于基于所定义的球形网格,将至少一个方向索引转换成方向参数的仰角和方位角分量对索引值的量化仰角和量化方位角表示的部件还可包括:用于基于索引值,确定圆索引值的部件;用于基于圆索引值,确定仰角分量的量化仰角表示的部件;以及用于基于在从索引值中去除与圆索引值相关联的偏移之后的剩余索引值,生成方位角分量的量化方位角表示的部件。

该装置还可包括用于基于以下中的至少一个来确定至少一个参考方向的部件:所接收的参考方向值;以及基于两个或更多个音频信号的分析。

用于基于基于两个或更多个音频信号的分析,确定至少一个参考方向的部件可包括:用于基于与具有最高子带能量值的至少一个子带相关联的方向参数,确定至少一个参考方向的部件。

用于定义通过用更小球体覆盖球体而生成的球形网格的部件,其中更小球体被布置成球体圆,其中第一球体圆包括更小球体中的中心位于相对于球体的参考方向的90度仰角处的更小球体还可包括:用于定义球体圆,以使得球体圆与参考方向共面并且具有基于与参考方向的仰角而定义的直径,以使得最接近参考方向的圆具有最大直径的部件。

用于定义通过用更小球体覆盖球体而生成的球形网格的部件,其中更小球体被布置成球体圆,其中第一球体圆包括更小球体中的中心位于相对于球体的参考方向的90度仰角处的更小球体还可包括:用于针对第一圆定义具有第一直径的更小球体,以及针对另一圆定义具有第二直径的更小球体的部件。

一种装置,包括用于执行如上所述的方法的动作的部件。

一种装置,被配置为执行如上所述的方法的动作。

一种计算机程序,包括用于使计算机执行如上所述的方法的程序指令。

一种在介质上存储的计算机程序产品,可使得装置执行如本文所述的方法。

一种电子设备,可包括如本文所述的装置。

一种芯片组,可包括如本文所述的装置。

本申请的实施例旨在解决与现有技术相关联的问题。

附图说明

为了更好地理解本发明,现在将通过示例的方式参考附图,其中:

图1示意性地示出适合于实现一些实施例的装置的系统;

图2示意性地示出根据一些实施例的如图1所示的分析处理器。

图3a示意性地示出根据一些实施例的如图1所示的元数据编码器/量化器;

图3b示意性地示出根据一些实施例的如图1所示的元数据提取器;

图3c示意性地示出根据一些实施例的如在图3a和图3b所示的元数据编码器/量化器和元数据提取器中使用的示例性球体位置配置;

图4示出根据一些实施例的如图1所示的系统的操作的流程图;

图5示出根据一些实施例的如图2所示的分析处理器的操作的流程图;

图6更详细地示出基于输入方向参数来生成方向索引的流程图;

图7更详细地示出从方向参数转换方向索引的示例性操作的流程图;

图8更详细地示出基于输入方向索引来生成量化方向参数的流程图;

图9更详细地示出从方向索引转换量化方向参数的示例性操作的流程图;

图10示意性地示出适合于实现所示出的装置的示例性设备。

具体实施方式

下面更详细地描述用于提供用于多通道输入格式音频信号的有效空间分析导出的元数据参数的合适装置和可能机制。在下面的讨论中,将关于多通道麦克风实现来讨论多通道系统。然而,如上所述,输入格式可以是任何合适的输入格式,诸如多通道扬声器、环绕立体声(foa/hoa)等。应理解,在一些实施例中,通道位置是基于麦克风的位置的,或者是基于虚拟位置或方向的。此外,示例性系统的输出是多通道扬声器布置。然而,应理解,该输出可经由除了扬声器以外的手段渲染给用户。此外,多通道扬声器信号可被概括为两个或更多个播放音频信号。

如前面所讨论的,频带中的空间元数据参数,诸如方向和直接总能量比率(或扩散比率、绝对能量、或指示在给定时频间隔处的声音的定向性/非定向性的任何合适表达)参数特别适合于表达自然声场的感知特性。诸如5.1扬声器混音的合成声音场景通常利用音频效果和幅度平移方法,其提供不同于自然声场中发生的声音的空间声音。特别地,5.1或7.1混音可被配置以使它包含从多个方向播放的相干声音。例如,通常在正面直接感知的5.1混音的一些声音不是由中央(通道)扬声器产生的,而是例如从左前和右前(通道)扬声器,并且还可能从中央(通道)扬声器相干地产生的。诸如方向和能量比率的空间元数据参数没有准确地表达这种空间相干特征。如此,可从音频信号的分析中确定诸如相干性参数的其它元数据参数,以表达通道之间的音频信号关系。

因此,该概念是尝试确定用于空间元数据的量化方向参数并基于实际的基于球体覆盖的方向分布来索引该参数,以便定义更一致的方向分布。特别地,之后将进一步详细讨论的实施例尝试产生分别沿着方位角分量和仰角分量(当这两个参数被分别添加到元数据中时)实现均匀粒度的量化和/或编码,该量化和/或编码还旨在产生量化和编码状态的均匀分布。例如,针对这两者的统一方法分别产生更接近方向球体的“极点”(换句话说,在轨迹或参考位置的正上方或正下方)的具有更高密度的编码方案。

因此,可以以这种方式来实现该概念:从参考方向开始定义用于量化方向参数的球形网格,以使得在该帧内关于该方向的信息是相对于最重要的方向的并且必须被编码的信息量是最小的。实际上,这意味着首先针对例如具有最高能量比率的子带而发送方向索引。随后子带的方向索引由围绕主方向而构建的网格构成,其中主或参考方向被确定为具有+/-90度的仰角,换句话说,关于参考位置的“北”或“南”极方向。

所提出的元数据索引然后可与下混合信号(“通道”)一起使用,以定义例如可用于ivas编解码器的参数化沉浸式格式。可替代地以及附加地,球形网格格式可在编解码器中使用以量化方向。

此外,该概念讨论了这种所索引的方向参数的解码以产生量化的方向参数,量化的方向参数可在基于声场相关的参数化(频带中的方向和比率)的空间音频合成中使用。

关于图1,示出了用于实现本申请的实施例的示例性装置和系统。系统100被示出具有“分析”部分121和“合成”部分131。“分析”部分121是从接收多通道扬声器信号直到元数据和下混合信号的编码的部分,“合成”部分131是从编码元数据和下混合信号的解码到(例如,以多通道扬声器形式)呈现重新生成的信号的部分。

系统100和“分析”部分121的输入是多通道信号102。在下面的示例中描述了麦克风通道信号输入,然而,在其它实施例中可实现任何合适的输入(或合成多通道)格式。

多通道信号被传递到下混合器103和分析处理器105。

在一些实施例中,下混合器103被配置为接收多通道信号、将信号下混合为确定数量的通道、以及输出下混合信号104。例如,下混合器103可被配置为生成多通道信号的2个音频通道下混合。所确定的通道数量可以是任何合适的通道数量。在一些实施例中,下混合器103是可选的,并且多通道信号以与下混合信号在该示例中相同的方式未经处理地被传递到编码器107。

在一些实施例中,分析处理器105也被配置为接收多通道信号,并分析该信号以产生与多通道信号相关联并因此与下混合信号104相关联的元数据106。分析处理器105可被配置为生成元数据,对于每个时频分析间隔,该元数据可包括方向参数108、能量比率参数110、相干性参数112、以及扩散性参数114。在一些实施例中,方向参数、能量比率参数和扩散性参数可被认为是空间音频参数。换句话说,空间音频参数包括旨在表征由多通道信号(或者一般地,两个或更多个播放音频信号)创建的声场的参数。相干性参数可被认为是旨在表征多通道信号之间的关系的信号关系音频参数。

在一些实施例中,所生成的参数可在频带与频带之间不同。因此,例如,在频带x中,所有的参数被生成和发送,而在频带y中,仅其中一个参数被生成和发送,此外,在频带z中,没有参数被生成或发送。这种情况的实际示例可能是对于诸如最高频带的一些频带,出于感知方面原因而不需要一些参数。下混合信号104和元数据106可被传递到编码器107。

编码器107可包括nas立体声核心109,nas立体声核心109被配置为接收下混合(或其它)信号104并生成这些音频信号的合适的编码。在一些实施例中,编码器107可以是计算机(运行存储在存储器上和至少一个处理器上的合适的软件),或者可替代地可以是例如利用fpga或asic的特定设备。编码可以使用任何合适的方案来实现。此外,编码器107可包括被配置为接收元数据并输出编码或压缩形式的信息的元数据编码器或量化器109。在一些实施例中,在图1中由虚线所示的传输或存储之前,编码器107可进一步交织、复用到单个数据流或将元数据嵌入编码的下混合信号内。复用可使用任何合适的方案来实现。

在解码器侧,所接收或获取的数据(流)可由解码器/解复用器133来接收。解码器/解复用器133可对编码流进行解复用,并将音频编码流传递到被配置为对音频信号进行解码以获得下混合信号的下混合提取器135。类似地,解码器/解复用器133可包括被配置为接收编码元数据并生成元数据的元数据提取器137。在一些实施例中,解码器/解复用器133可以是计算机(运行存储在存储器上和在至少一个处理器上的合适的软件),或者可替代地可以是例如利用fpga或asic的特定设备。

解码元数据和下混合音频信号可被传递到合成处理器139。

系统100的“合成”部分131还示出了合成处理器139,合成处理器139被配置为接收下混合和元数据,并基于下混合信号和元数据以任何合适的格式重新创建采用多通道信号110形式的合成空间音频(根据使用情况,这些合成空间音频可以是多通道扬声器格式,或者在一些实施例中可以是诸如双耳或环绕立体声信号的任何合适的输出格式)。

关于图4,示出了图1所示的概况的示例性流程图。

首先,如在图4中由步骤401所示,系统(分析部分)被配置为接收多通道音频信号。

然后,如在图4中由步骤403所示,系统(分析部分)被配置为生成多通道信号的下混合。

此外,如在图4中由步骤405所示,系统(分析部分)被配置为分析信号以生成元数据,诸如方向参数;能量比率参数;扩散性参数;以及相干性参数。

然后,如在图4中由步骤407所示,系统被配置为对下混合信号和元数据进行编码以用于存储/发送。

在这之后,如在图4中由步骤409所示,系统可存储/发送编码的下混合和元数据。

如在图4中由步骤411所示,系统可获取/接收编码的下混合和元数据。

然后,如在图4中由步骤413所示,系统被配置为从编码的下混合和元数据参数中提取下混合和元数据,例如,对编码的下混和元数据参数进行解复用和解码。

如在图4中由步骤415所示,系统(合成部分)被配置为基于所提取的多通道音频信号的下混合和具有相干性参数的元数据,合成输出多通道音频信号。

关于图2更详细地描述了根据一些实施例的示例性分析处理器105(如图1中所示)。在一些实施例中,分析处理器105包括时频域变换器201。

在一些实施例中,时频域变换器201被配置为接收多通道信号102,并应用诸如短时间傅立叶变换(stft)的合适的时频域变换,以便将输入时域信号转换成合适的时频信号。这些时频信号可被传递到方向分析器203和信号分析器205。

因此,例如,时频信号202可在时频域表示中被表示为:

si(b,n)

其中,b是频率区间索引,n是帧索引,i是通道索引。在另一个表达中,n可被认为是具有比原始时域信号的采样率低的采样率的时间索引。这些频率区间可被分组成多个子带,这些子带将一个或多个区间分组成频带索引k=0,…,k-1的子带。每个子带k具有最低区间bk,low和最高区间bk,high,并且该子带包含从bk,low到bk,high的所有区间。子带的宽度可近似于任何合适的分布。例如,等效矩形带宽(erb)尺度或bark尺度。

在一些实施例中,分析处理器105包括方向分析器203。方向分析器203可被配置为接收时频信号202,并基于这些信号估计方向参数108。方向参数可基于任何基于音频的“方向”确定来确定。

例如,在一些实施例中,方向分析器203被配置为用两个或更多个信号输入来估计方向。这表示用于估计“方向”的最简单配置,更复杂的处理可以用甚至更多个信号来执行。

因此,方向分析器203可被配置为针对每个频带和时间帧提供被标示为方位角(k,n)的方位角和被标示为仰角θ(k,n)的仰角。方向参数108也可被传递到信号分析器205。方向分析器203还被配置为确定能量比率参数110。能量比率可被认为是对可被认为是从一方向到达的音频信号的能量的确定。直接总能量比率r(k,n)可例如使用定向估计的稳定性度量、或者使用任何相关性度量、或者任何其它用于获得比率参数的合适的方法来估计。

所估计的方向108和能量比率110参数可被输出(并被传递到编码器)。

在一些实施例中,分析处理器105包括信号分析器205。信号分析器205被配置为从方向分析器203接收方向参数108(诸如方位角(k,n)和仰角θ(k,n))和能量比率参数110。信号分析器205可进一步被配置为从时频域变换器201接收时频信号(si(b,n))202。所有这些是在时频域中;b是频率区间索引,k是频带索引(每个带可能包括若干区间b),n是时间索引,i是通道。

虽然在此方向和比率针对每个时间索引n进行表达,但在一些实施例中,参数可在若干时间索引上进行组合。如已表达的,同样适用于频率轴,若干频率区间b的方向可由包括若干频率区间b的带k中的一个方向参数来表达。这同样适用于本文中所有所讨论的空间参数。

信号分析器205被配置为产生多个信号参数,诸如相干性和扩散性,它们都在时频域中分析。另外,在一些实施例中,信号分析器205可被配置为修改所估计的能量比率(r(k,n))。信号分析器205被配置为基于任何合适的已知方法来生成相干性和扩散性参数。

关于图5,示出了总结分析处理器105的操作的流程图。

如在图5中由步骤501所示,第一操作是接收时域多通道(扬声器)音频信号。

接下来,如在图5中由步骤503所示,应用时域到频域变换(例如,stft)以生成合适的时频域信号以用于分析。

然后,在图5中由步骤505示出了应用方向分析以确定方向和能量比率参数。

然后,如在图5中由步骤507示出了应用分析以确定相干性参数(诸如环绕参数和/或扩展相干性参数)和扩散性参数。在一些实施例中,在该步骤中还可基于所确定的相干性参数来修改能量比率。

在图5中由步骤509示出了输出所确定的参数的最终操作。

关于图3a,示出了根据一些实施例的示例性元数据编码器,并且尤其示出了方向元数据编码器300。

在一些实施例中,方向元数据编码器300包括量化输入302。量化输入(也可被称为编码输入)被配置为定义围绕参考位置或地点而布置的球体的粒度,方向参数是根据该参考位置或地点来确定的。在一些实施例中,量化输入是预定义或固定值。此外,在一些实施例中,量化输入302可定义可实现球形量化操作的配置的其它方面或输入。例如,在一些实施例中,量化输入302包括参考方向(例如,相对于诸如磁北的绝对方向)。在一些实施例中,参考方向是基于输入信号的分析来确定或定义的。例如,在一些实施例中,参考方向是基于具有最高能量值或能量比率的子带的方向来确定的。

在一些实施例中,方向元数据编码器300包括球体定位器303。球体定位器被配置为基于量化输入值来配置球体的布置。所提出的球形网格使用这样的想法:用更小球体来覆盖一球体,并将更小球体的中心视为定义几乎等距离的方向的网格的点。

如本文所示出的概念是相对于参考位置和参考方向来定义球体。该球体可被可视化为一系列的圆(或交点),并且对于每个圆交点,在圆的圆周处存在定义数量的(更小)球体。这例如关于图3c被示出。例如,图3c示出了示例性“极性”参考方向配置,其示出了具有被定义为主球体半径的半径的第一主球体370。在图3c中还示出了更小球体(被示出为圆)381、391、393、395、397和399,以使得每个更小球体的圆周在一个点接触主球体圆周,并且在至少另一点接触至少另一更小球体圆周。因此,如图3c所示,更小球体381接触主球体370以及更小球体391、393、395、397和399。此外,更小球体381被定位以使得更小球体的中心位于延伸穿过主球体370中心的+/-90度仰角线(z轴)上。

更小球体391、393、395、397和399被定位以使得它们每个接触主球体370、更小球体381以及另外一对相邻的更小球体。例如,更小球体391另外接触相邻的更小球体399和393,更小球体393另外接触相邻的更小球体391和395,更小球体395另外接触相邻的更小球体393和397,更小球体397另外接触相邻的更小球体399和391,更小球体399另外接触相邻的更小球体397和391。

因此,更小球体381关于+90度仰角线定义了圆锥体380或立体角,更小球体391、393、395、397和399关于+90度仰角线定义了另一圆锥体390或立体角,其中,该另一圆锥体390的立体角比该圆锥体380大。

换句话说,更小球体381(其定义了第一球体圆)可被认为位于第一仰角(具有+90度的更小球体中心)处,更小球体391、393、395、397和399(其定义了第二球体圆)可被认为位于相对于主球体的第二仰角(具有<90度的更小球体中心)处并且仰角低于前一圆。

该布置然后可用接触位于相对于主球体的其它仰角处的并且具有比先前的圆低的仰角的球体的其它圆来进一步重复。

因此,在一些实施例中,球体定位器303被配置为执行以下操作以定义与覆盖球体相对应的方向:

输入:仰角的角度分辨率,δθ(在理想情况下是整数)

输出:圆的数量nc、以及在每个圆上的点的数量n(i),i=0,nc-1

因此,根据以上内容,圆i上的每个点的仰角由θ(i)的值给出。对于在赤道上方的每个圆,在赤道(由x-y轴定义的平面)下方存在对应的圆。

此外,如在上面所讨论的,在一个圆上的每个方向点可以以关于方位角递增的顺序来索引。每个圆中的第一个点的索引由可从每个圆上的点的数量n(i)推断出的偏移给出。为了获得这些偏移,对于所考虑的圆的顺序,这些偏移被计算为对于给定顺序的圆上累积的点的数量,从值0开始作为第一偏移。

换句话说,圆是从“北极”开始向下排列的。

在另一个实施例中,沿着与赤道平行的圆的点的数量也可通过来获得,其中,λi≥1,λi≤λi+1。换句话说,沿着与赤道平行的圆的球体具有更大的半径,因为它们离北极更远,即,它们离主方向的北极更远。

对于一个元数据帧,至少具有针对每个子带的方向信息和能量比率信息。在一些实施例中,主方向可被决定为由至少具有最大能量比率的子带中的数据给出的方向。因此,主方向信息由对应于至少具有最高能量比率的子带的方向数据给出。如果基于能量比率值存在多于一个的主方向(即,最大的能量比率值彼此非常接近),则主方向可被获得为这些方向的加权组合。

对于一个帧,如果首先发送主方向信息(φd,θd),则相对于主方向发送与随后的子带相对应的方向信息。这意味着后续子带的仰角和方位角的值是φ(i)-φd、θ(i)-θd,并且它们在由算法a提出的网格中被量化和索引。

已经确定了多个圆和圆的数量nc、在每个圆上的点的数量n(i),i=0,nc-1以及索引顺序的球体定位器可被配置为将此信息传递到ea到di转换器305。

在一些实施例中,方向元数据编码器300包括方向参数输入108。方向参数输入可定义仰角和方位角值d=(θ,φ)。

在以下段落中提供了从(仰角/方位角)(ea)到方向索引(di)以及反向的转换过程。在此考虑了替代的圆的顺序。

方向元数据编码器300包括仰角-方位角到方向索引(ea-di)转换器305。在一些实施例中,仰角-方位角到方向索引转换器305被配置为接收方向参数输入108和球体定位器信息,并将来自方向参数输入108的仰角-方位角值转换成将要输出的方向索引。

在一些实施例中,仰角-方位角到方向索引(ea-di)转换器305被配置为根据以下算法来执行该转换:

输入:

输出:id

沿着方位角的粒度δθ是已知的。值θ,φ来自对应于所索引的方向的一组离散值。根据所考虑的圆的顺序,在每个圆上的点的数量和对应的偏移off(i)是已知的。

1.找到圆索引i=(-θ+π/2)/δθ

2.找到圆i内的方位角的索引:

3.方向索引是id=off(i)+j

可输出方向索引id306。

关于图6,示出了根据一些实施例的用于生成方向索引的示例性方法。

在图6中由步骤601示出了量化输入的接收。

然后,如在图6中由步骤603所示,该方法可基于该量化输入来确定球体定位。

如在图6中由步骤602所示,该方法还可包括接收方向参数。

如在图6中由步骤605所示,在已接收到方向参数和球体定位信息后,该方法可包括基于球体定位信息将方向参数转换成方向索引。

然后,如在图6中由步骤607所示,该方法可输出方向索引。

关于图7,示出了根据一些实施例的如在图6中由步骤605所示的用于将仰角-方位角转换成方向索引(ea-di)的示例性方法。

如在图7中由步骤701所示,该方法开始于从仰角值θ找到圆索引i。

如在图7中由步骤703所示,在已确定圆索引后,基于方位角值φ而找到方位角的索引。

如在图7中由步骤705所示,在已确定圆索引i和方位角的索引后,然后通过将方位角的索引的值添加到与圆索引相关联的偏移来确定方向。

关于图3b,示出了根据一些实施例的示例性元数据提取器137,并且尤其示出了方向元数据提取器350。

在一些实施例中,方向元数据提取器350包括量化输入352。在一些实施例中,该量化输入是从元数据编码器传递的,或者以其它方式与编码器商定的。量化输入被配置为定义围绕参考位置或地点而布置的球体的粒度。此外,在一些实施例中,量化输入还定义了球体的配置,例如,参考方向的定向(相对于诸如磁北的绝对方向)。

在一些实施例中,方向元数据提取器350包括方向索引输入351。该方向索引输入可从编码器接收或者通过任何合适的手段获取。

在一些实施例中,方向元数据提取器350包括球体定位器353。球体定位器353被配置为接收量化输入作为输入,并以与在编码器中生成的相同的方式来生成球体布置。在一些实施例中,量化输入和球体定位器353是可选的,并且球体布置信息是从编码器传递的而不是在提取器中生成的。

方向元数据提取器350包括方向索引到仰角-方位角(di-ea)转换器355。方向索引到仰角-方位角转换器355被配置为接收方向索引以及球体位置信息,并生成近似或量化的仰角-方位角输出。在一些实施例中,该转换根据以下算法来执行。

输入:id

输出:(θ,φ)

1.找到圆索引i,以使得off(i)≤id≤off(i+1)

2.θ=i·δθ

3.

对于其中仅方位角描述方向的2个维度的情况,在决定由φm给定的主方向之后,按以下顺序给出方向的索引:φm,φm+δφ,φm-δφ,φm+2δφ,φm-2δφ...

关于图8,示出了根据一些实施例的用于提取方向参数(或生成量化的方向参数)的示例性方法。

在图8中由步骤801示出了量化输入的接收。

然后,如在图8中由步骤803所示,该方法可基于量化输入来确定球体定位。

如在图8中由步骤802所示,该方法还可包括接收方向索引。

如在图8中由步骤805所示,在已接收方向索引和球体定位信息后,该方法可包括基于球体定位信息将方向索引转换成采用量化的方向参数形式的方向参数。

然后,如在图8中由步骤807所示,该方法可输出量化的方向参数。

关于图9,示出了根据一些实施例的如在图8中由步骤805所示的用于将方向索引转换成量化的仰角-方位角(di-ea)参数的示例性方法。

如在图9中由步骤901所示,在一些实施例中,该方法包括找到圆索引值i,以使得off(i)≤id≤off(i+1)。

如在图9中由步骤903所示,在已确定圆索引后,下一操作是从球体定位信息计算半球体中的圆索引。

然后,如在图9中由步骤905所示,基于圆索引来确定量化的仰角。

如在图9中由步骤907所示,在已确定量化的仰角后,基于圆索引和仰角信息来确定量化的方位角。

虽然在整个文档中没有重复,但应当理解,空间音频处理通常且在该上下文中是在频带中发生的。那些频带例如可以是时频变换的频率区间,或者是组合若干频率区间的频带。该组合可使得近似于人类听力的特性,诸如bark频率分辨率。换句话说,在一些情况下,我们可以在组合若干频率区间b和/或时间索引n的时频区域中测量和处理音频。为了简便起见,这些方面均未通过以上所有公式来表达。在组合多个时频样本的情况下,通常针对该时频区域来估计诸如一个方向的一个参数集,然后根据诸如该一个方向参数的该参数集来合成该区域内的所有时频样本。

在参数分析中使用与所应用的滤波器组的频率分辨率不同的频率分辨率是空间音频处理系统中的典型方法。

关于图10,示出了可用作分析或合成设备的示例性电子设备。该设备可以是任何合适的电子设备或装置。例如,在一些实施例中,设备1400是移动设备、用户设备、平板计算机、计算机、音频播放装置等。

在一些实施例中,设备1400包括至少一个处理器或中央处理单元1407。处理器1407可被配置为执行诸如本文所描述的方法的各种程序代码。

在一些实施例中,设备1400包括存储器1411。在一些实施例中,至少一个处理器1407被耦合到存储器1411。存储器1411可以是任何合适的存储部件。在一些实施例中,存储器1411包括,用于存储可在处理器1407上实现的程序代码的程序代码部分。此外,在一些实施例中,存储器1411还可包括用于存储数据(例如,根据本文所描述的实施例的已被处理或将要处理的数据)的存储数据部分。无论何时只要需要,处理器1407就可经由存储器-处理器耦合来获取存储在程序代码部分中的实现程序代码和存储在存储数据部分中的数据。

在一些实施例中,设备1400包括用户接口1405。在一些实施例中,用户接口1405可被耦合到处理器1407。在一些实施例中,处理器1407可控制用户接口1405的操作并从用户接口1405接收输入。在一些实施例中,用户接口1405可使得用户能够例如经由键盘将命令输入到设备1400。在一些实施例中,用户接口1405可使得用户能够从设备1400获得信息。例如,用户接口1405可包括被配置为将信息从设备1400显示给用户的显示器。在一些实施例中,用户接口1405可包括触摸屏或触摸界面,其能够使得信息被输入到设备1400并且还向设备1400的用户显示信息。在一些实施例中,用户接口1405可以是用于与如本文所描述的位置确定器通信的用户接口。

在一些实施例中,设备1400包括输入/输出端口1409。在一些实施例中,输入/输出端口1409包括收发机。在这种实施例中,收发机可被耦合到处理器1407并且被配置为使得能够例如经由无线通信网络与其它装置或电子设备进行通信。在一些实施例中,收发机或任何合适的收发机或发射机和/或接收机装置可被配置为经由有线或有线耦合与其它电子设备或装置通信。

收发机可通过任何合适的已知通信协议与其它装置通信。例如,在一些实施例中,收发机可使用合适的通用移动电信系统(umts)协议、诸如例如ieee802.x的无线局域网(wlan)协议、诸如蓝牙的合适的短距离射频通信协议、或者红外数据通信路径(irda)。

收发机输入/输出端口1409可被配置为接收信号,并且在一些实施例中通过使用执行合适的代码的处理器1407来确定如本文所描述的参数。此外,设备可生成合适的下混合信号和参数输出以发送到合成设备。

在一些实施例中,装置1400可被作为合成设备的至少一部分。这样,输入/输出端口1409可被配置为接收下混合信号,并且在一些实施例中接收如本文所描述的在捕获设备或处理设备处确定的参数,以及通过使用执行合适的代码的处理器1407来生成合适的音频信号格式输出。输入/输出端口1409可被耦合到任何合适的音频输出,例如被耦合到多通道扬声器系统和/或耳机或类似物。

通常,本发明的各种实施例可以采用硬件或专用电路、软件、逻辑或其任何组合来实现。例如,一些方面可以采用硬件实现,而其它方面可以采用可由控制器、微处理器或其它计算设备执行的固件或软件实现,但是本发明不限于此。虽然本发明的各个方面可被示出并描述为框图、流程图或使用一些其它图示表示来示出或描述,但是应当充分理解,本文所描述的这些框、装置、系统、技术或方法可以作为非限制性的示例采用硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其它计算设备、或其一些组合来实现。

本发明的实施例可由计算机软件、或由硬件、或由软件和硬件的组合来实现,计算机软件是移动设备的数据处理器可执行的,诸如在处理器实体中。此外,在此方面,应当注意附图中的逻辑流程的任何框都可表示程序步骤、或互连的逻辑电路、块和功能、或程序步骤和逻辑电路、块和功能的组合。软件可存储在物理介质上,诸如存储器芯片、或在处理器内实现的存储器块、诸如硬盘或软盘的磁介质、以及诸如dvd及其数据变体、cd的光学介质。

存储器可以是适合于本地技术环境的任何类型,并且可使用任何合适的数据存储技术来实现,诸如基于半导体的存储器设备、磁存储器设备和系统、光存储器设备和系统、固定存储器、以及可移动存储器。数据处理器可以是适合于本地技术环境的任何类型,并且作为非限制性示例可包括通用计算机、专用计算机、微处理器、数字信号处理器(dsp)、专用集成电路(asic)、门级电路、以及基于多核处理器架构的处理器中的一个或多个。

本发明的实施例可在诸如集成电路模块的各种组件中实践。集成电路的设计基本上是高度自动化的过程。复杂且功能强大的软件工具可用于将逻辑级设计转换成准备在半导体衬底上蚀刻和形成的半导体电路设计。

程序,诸如加利福尼亚州山景城的synopsys公司和加利福尼亚州圣何塞的cadencedesign公司提供的程序,使用完善的设计规则以及预先存储的设计模块库在半导体芯片上自动布线导体和定位元件。一旦完成了对半导体电路的设计,就可以将采用标准化电子格式(例如,opus、gdsii等)的设计结果传送到半导体制造设备或“fab”以进行制造。

前面的描述已经通过示例性和非限制性示例提供了对本发明的示例性实施例的完整且信息丰富的描述。然而,当结合附图和所附权利要求进行阅读时,鉴于前面的描述,各种修改和调整对于相关领域技术人员而言将变得显而易见。然而,对本发明的教导的所有这些和类似的修改仍将落入所附权利要求中限定的本发明的范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1