音频信号处理装置和方法与流程

文档序号:11291519阅读:216来源:国知局
音频信号处理装置和方法与流程

本发明涉及音频信号处理装置和方法。具体而言,本发明涉及用于对音频信号进行下混和上混的音频信号处理装置和方法。



背景技术:

声音编码、传输、记录、混合和再现的技术一直是数十年来的研发主题。从单声道技术开始,多声道音频技术已逐渐发展到立体声、四声道、5.1声道等。与传统的单声道或立体声音频相比,多声道音频给终端用户带来了全新的聆听体验,因此越来越吸引音频制作者。

为了成功实现多声道音频,就应该可以在仅支持任意数量q的记录声道的子集m的传统播放设备上再现多声道音频。播放设备中的m个再现声道,如扬声器或耳机,的子集可以根据用户需求而变化。当用户切换其设备,例如从立体声切换到5.1声道或从立体声切换到任何3个扬声器设备时,可能发生这种情况。

在传统播放设备上再现多声道音频的传统方式是通过使用固定的下混矩阵来将q声道音频输入信号下混到仅具有m个声道的音频输出信号中。这可以在发送器或接收器侧进行,受到立体声、5.1声道和7.1声道等普遍可用的内容格式的约束。迄今为止,如果没有事先的再现布局信息,任何播放设备都不可能以最佳且灵活的方式支持任意数量的输出声道,也不会向记录设备进行反馈,例如即插即用立体声到3.0、立体声到8.2等。

因此,需要一种改良的音频信号处理装置和方法。



技术实现要素:

本发明的目的是提供一种改良的音频信号处理装置和方法。

该目的通过独立权利要求的主题实现。更多实施方式从从属权利要求、描述内容和附图中显而易见。

根据第一方面,本发明涉及一种用于将输入音频信号处理为输出音频信号的音频信号下混装置,其中所述输入音频信号包括在多个空间位置处记录的多个输入声道,所述输出音频信号包括多个主输出声道。所述音频信号下混装置包括:下混矩阵确定器,用于为多个频率点中的每个频率点j确定下混矩阵du,其中j是范围从1到n的整数;对于给定频率点j,所述下混矩阵du将与所述输入音频信号的所述多个输入声道相关联的多个傅立叶系数映射到所述输出音频信号的所述主输出声道的多个傅立叶系数;对于j小于或等于截止频率点k的频率点,所述下混矩阵du通过确定离散laplace-beltrami算子l的特征向量来确定,所述离散laplace-beltrami算子l通过记录所述多个输入声道的所述多个空间位置定义;对于j大于所述截止频率点k的频率点,所述下混矩阵du通过确定协方差矩阵cov的特征向量的第一子集来确定,所述协方差矩阵cov通过所述输入音频信号的所述多个输入声道定义;以及处理器,用于使用所述下混矩阵du将所述输入音频信号处理为所述输出音频信号。所述空间位置可以通过多个麦克风的空间位置定义。

因此,由于以下事实而提供了一种改良且灵活的音频信号处理装置:最佳下混矩阵以考虑到采集系统几何的实际设计的频选方式得到。

根据本发明所述第一方面,在所述音频信号下混装置的第一可能实施形式中,所述下混矩阵确定器用于使用以下等式确定所述离散laplace-beltrami算子l:

l=c-w

c=diag{c}

c=[c1,...,cp,...,cq]

其中,l是所述laplace-beltrami算子的矩阵表示,c和w是各自维度为qxq的矩阵,其中q是输入声道的数量,diag(…)表示将输入向量元素作为输出矩阵的对角线而其余矩阵元素为0的矩阵对角化运算,c是维度q的向量,wpq是局部平均系数。

所述第一可能实施形式提供了一种计算所述离散laplace-beltrami算子l的高效计算方式。

根据本发明所述第一方面的所述第一实施形式,在所述音频信号下混装置的第二可能实施形式中,所述下混矩阵确定器用于使用以下等式确定所述局部平均系数wpq:

wpq=0;p=q

其中rp或rq是定义所述多个空间位置中的一个空间位置的向量,其中在所述多个空间位置处记录所述输入音频信号的所述多个输入声道。

所述第二可能实施形式提供了一种基于各个设备的三维位置rp和rq使用所述平均系数wpq的距离权重记录所述多个输入声道的高效计算近似法。

根据如上所述本发明第一方面或其所述第一或第二实施形式中的任一者,在第三可能实施形式中,通过选择特征值大于预定义阈值的所述离散laplace-beltrami算子l的所述特征向量来为j小于或等于所述截止频率点k的频率点确定所述下混矩阵du。

所述第三可能实施形式提供了一种为所述下混矩阵du选择所述laplace-beltrami算子l的最佳特征向量的高效计算方式。

根据如上所述本发明第一方面或其所述第一至第三实施形式中的任一者,在第四可能实施形式中,通过选择特征值大于预定义阈值的所述协方差矩阵cov的特征向量来为j大于所述截止频率点k的频率点确定所述下混矩阵du。

所述第四可能实施形式提供了一种为所述下混矩阵du选择所述协方差矩阵cov的最佳特征向量的高效计算方式。

根据如上所述本发明第一方面或其所述第一至第四实施形式中的任一者,在第五可能实施形式中,所述下混矩阵确定器用于通过以下操作确定所述截止频率点k:确定所述多个频率点中的密实度程度θc大于预定义阈值t的所有频率点中的所述密实度程度θc最小的频率点,其中频率点的所述密实度程度θc使用以下等式确定:

其中,表示包含所述离散laplace-beltrami算子l的所述选定特征向量的酉矩阵,表示的厄米特转置,diag(…)表示将除了沿着给出矩阵输入的矩阵的对角线的系数之外的所有系数归零的矩阵对角化运算,off(…)表示将所述矩阵的所述对角线上的所有系数归零的矩阵运算,||…||f表示frobenius范数。

所述第五可能实施形式提供了一种用于通过使用所述密实度程度θc确定所述截止频率点k的高效计算实施方式。如本领域技术人员将理解的那样,所述截止频率点k可以确定为最大频率点n,从而在这种情况下,所述下混矩阵du仅由所述离散laplace-beltrami算子l的所述特征向量决定。

根据如上所述本发明第一方面或其所述第一至第五实施形式中的任一者,在第六可能实施形式,所述音频信号下混装置还包括:下混矩阵扩展确定器,用于通过确定所述协方差矩阵cov的特征向量的第二子集来确定下混矩阵扩展dw,所述第二子集包含所述协方差矩阵cov的至少一个特征向量以提供所述输出音频信号的至少一个辅助输出声道,其中,所述协方差矩阵cov的特征向量的所述第一子集与所述协方差矩阵cov的特征向量的所述第二子集是不相交集合,所述下混矩阵du和所述下混矩阵扩展dw定义扩展后的下混矩阵d。

根据本发明所述第一方面的所述第六实施形式,在第七可能实施形式中,所述下混矩阵扩展确定器用于通过以下操作确定所述协方差矩阵cov的特征向量的所述第二子集:为所述协方差矩阵cov的每个特征向量确定所述特征向量与所述下混矩阵du的列定义的多个向量之间的多个角,为每个特征向量确定所述特征向量与所述下混矩阵du的所述列定义的所述多个向量之间的所述多个角中的最小角,以及选择所述协方差矩阵cov的所述特征向量与所述下混矩阵du的所述列定义的所述多个向量之间的所述最小角大于阈值角θmin的那些特征向量。

所述第七可能实施形式提供了一种使用所述协方差矩阵cov的其它特征向量得到所述下混矩阵扩展dw的高效计算方式。

根据如上所述本发明第一方面或其所述第一至第七实施形式中的任一者,在第八可能实施形式中,所述处理器用于针对所述多个输入声道中的每一个以多个输入音频信号时间帧的形式处理所述输入音频信号,与所述输入音频信号的所述多个输入声道相关联的所述多个傅立叶系数通过所述多个输入音频信号时间帧的离散傅立叶变换获得。

所述第八可能实施形式提供了一种使用离散傅立叶变换,尤其是fft,逐帧进行的所述输入音频信号的所述输出声道的高效计算处理。所述音频信号时间帧可以重叠。

根据本发明所述第一方面的所述第八实施形式,在第九可能实施形式中,所述下混矩阵确定器用于通过以下操作确定所述输入音频信号的所述多个输入声道定义的所述协方差矩阵cov:使用以下等式为所述多个输入音频信号时间帧中的给定输入音频信号时间帧n以及为所述多个频率点中的给定频率点j确定所述协方差cov的系数cxy:

其中,e{}表示期望算子,jx表示所述输入音频信号的输入声道x在频率点j处的傅立叶系数,*表示复共轭,x和y的范围是从1到所述输入声道的数量q。

所述第九可能实施形式提供了一种确定所述协方差矩阵cov的高效计算方式。

根据本发明所述第一方面的所述第八实施形式,在第十可能实施形式中,所述下混矩阵确定器用于通过以下操作确定所述输入音频信号的所述多个输入声道定义的所述协方差矩阵cov:使用以下等式为所述多个输入音频信号时间帧中的给定输入音频信号时间帧n以及为所述多个频率点中的给定频率点j确定所述协方差cov的系数cxy:

其中,β表示遗忘因子,0≤β<1,表示的实部,jx表示所述输入音频信号的输入声道x在频率点j处的傅立叶系数,*表示复共轭,x和y的范围是从1到所述输入声道的数量q。

根据第二方面,本发明涉及一种用于将输入音频信号处理为输出音频信号的音频信号下混方法,其中所述输入音频信号包括在多个空间位置处记录的多个输入声道,所述输出音频信号包括多个主输出声道。所述方法包括以下步骤:为多个频率点中的每个频率点j确定下混矩阵du,其中j是范围从1到n的整数;对于给定频率点j,所述下混矩阵du将与所述输入音频信号的所述多个输入声道相关联的多个傅立叶系数映射到所述输出音频信号的所述主输出声道的多个傅立叶系数;对于j小于或等于截止频率点k的频率点,所述下混矩阵du通过确定离散laplace-beltrami算子l的特征向量来确定,所述离散laplace-beltrami算子l通过记录所述多个输入声道的所述多个空间位置定义;对于j大于所述截止频率点k的频率点,所述下混矩阵du通过确定协方差矩阵cov的特征向量的第一子集来确定,所述协方差矩阵cov通过所述输入音频信号的所述多个输入声道定义;以及使用所述下混矩阵du将所述输入音频信号处理为所述输出音频信号。

根据本发明所述第二方面的所述音频信号下混方法可以由根据本发明所述第一方面的所述音频信号下混装置来执行。根据本发明所述第二方面的所述音频信号下混方法的更多特征从根据本发明所述第一方面的所述音频信号下混装置的功能和其不同实施形式直接得到。

根据第三方面,本发明涉及一种编码装置,包括:根据本发明所述第一方面的所述音频信号下混装置;以及编码器a,用于对所述输出音频信号的所述多个主输出声道进行编码,以获得第一比特流形式的多个已编码主输出声道。

根据第四方面,本发明涉及一种用于将输入音频信号处理为输出音频信号的音频信号上混装置,其中所述输入音频信号包括基于在多个空间位置处记录的多个输入声道的多个主输入声道,所述输出音频信号包括多个输出声道。所述音频信号上混装置包括:上混矩阵确定器,用于为多个频率点中的每个频率点j确定上混矩阵,其中j是范围从1到n的整数;对于给定频率点j,所述上混矩阵将与所述输入音频信号的所述多个主输入声道相关联的多个傅立叶系数映射到所述输出音频信号的所述输出声道的多个傅立叶系数;对于j小于或等于截止频率点k的频率点,所述上混矩阵通过确定离散laplace-beltrami算子l的特征向量来确定,所述离散laplace-beltrami算子l通过记录所述多个输入声道的所述多个空间位置定义;对于j大于所述截止频率点k的频率点,所述上混矩阵通过确定协方差矩阵cov的特征向量的第一子集来确定,所述协方差矩阵cov通过所述输入音频信号的所述多个输入声道定义;以及处理器,用于使用所述上混矩阵将所述输入音频信号处理为所述输出音频信号。

根据第五方面,本发明涉及一种用于将输入音频信号处理为输出音频信号的音频信号上混方法,其中所述输入音频信号包括基于在多个空间位置处记录的多个输入声道的多个主输入声道,所述输出音频信号包括多个输出声道。所述方法包括以下步骤:为多个频率点中的每个频率点j确定上混矩阵,其中j是范围从1到n的整数;对于给定频率点j,所述上混矩阵将与所述输入音频信号的所述多个输入声道相关联的多个傅立叶系数映射到所述输出音频信号的所述主输出声道的多个傅立叶系数,对于j小于或等于截止频率点k的频率点,所述上混矩阵通过确定离散laplace-beltrami算子(l)的特征向量来确定,所述离散laplace-beltrami算子(l)通过记录所述多个输入声道的所述多个空间位置定义;对于j大于所述截止频率点k的频率点,所述上混矩阵通过确定协方差矩阵cov的特征向量的第一子集来确定,所述协方差矩阵cov通过所述输入音频信号的所述多个输入声道定义;以及使用所述上混矩阵将所述输入音频信号处理为所述输出音频信号。

根据本发明所述第五方面的所述音频信号上混方法可以由根据本发明所述第四方面的所述音频信号上混装置来执行。根据本发明所述第五方面的所述音频信号上混方法的更多特征从根据本发明所述第四方面的所述音频信号上混装置的功能直接得到。

根据第六方面,本发明涉及一种解码装置,包括:根据本发明所述第四方面的音频信号上混装置;以及解码器a,用于从根据本发明所述第三方面的编码装置接收第一比特流,并对所述第一比特流进行解码来获得将由所述音频信号上混装置处理的多个主输入声道。

根据第七方面,本发明涉及一种音频信号处理系统,包括根据本发明所述第三方面的编码装置和根据本发明所述第六方面的解码装置,其中所述编码装置用于至少临时与所述解码装置进行通信。

根据第八方面,本发明涉及一种包括程序代码的计算机程序,当在计算机上执行时,用于执行根据本发明所述第二方面的音频信号下混方法和/或根据本发明所述第五方面的音频信号上混方法。

本发明可以在硬件和/或软件中实施。

附图说明

本发明的具体实施方式将结合以下附图进行描述,其中:

图1示出了作为音频信号处理系统的一部分的根据一实施例的音频信号下混装置和根据一实施例的音频信号上混装置的示意图;

图2示出了根据一实施例的音频信号下混方法的示意图。

具体实施方式

以下结合附图进行详细描述,所述附图是描述的一部分,并通过图解说明的方式示出可以实施本发明的具体方面。可以理解的是,在不脱离本发明范围的情况下,可以利用其它方面,并可以做出结构上或逻辑上的改变。因此,以下详细的描述并不当作限定,本发明的范围由所附权利要求书界定。

应理解,关于描述方法的公开还可以适用于执行所述方法的对应设备或系统,反之亦然。例如,如果描述了特定方法步骤,则对应设备或装置可以包括用于执行所描述的方法步骤的单元,即使此类单元没有在图中明确描述或图示。此外,应理解,本文所描述的各种示例性方面的特征可以相互组合,除非另外明确说明。

图1示出了作为音频信号处理系统100的一部分的根据一实施例的音频信号下混装置105的示意图。

音频信号下混装置105用于将输入音频信号处理为输出音频信号,其中输入音频信号包括在多个空间位置处记录的多个输入声道113,输出音频信号包括多个主输出声道123。在一个实施例中,多声道输入音频信号113包括q个输入声道。在一个实施例中,音频信号下混装置105用于逐帧,即以多个输入音频信号时间帧的形式,处理多声道输入音频信号113,其中音频信号时间帧可以具有例如每个声道约10ms至40ms的长度。在一个实施例中,随后的输入音频信号时间帧可以部分重叠。在一个实施例中,在频域中处理多声道输入音频信号113。在一个实施例中,通过离散傅立叶变换,尤其是fft,将多声道输入音频信号113的声道的输入音频信号时间帧变换到频域,从而在多声道音频输入信号113的输入声道x的频率点j处产生多个傅立叶系数jx,其中j的范围是从1到n,即,总频率点数,x的范围是从1到总输入声道数q。

音频信号下混装置105包括:下混矩阵确定器107,用于为每个频率点j(并且在针对每个输入音频信号时间帧进行多声道输入音频信号113的逐帧处理时)确定一个下混矩阵du,其中,对于给定频率点j,下混矩阵du将与输入音频信号的多个输入声道113相关联的多个傅立叶系数映射到输出音频信号的主输出声道123的多个傅立叶系数。

另外,音频信号下混装置105包括处理器109,用于使用下混矩阵du将多声道输入音频信号113处理为输出音频信号。

对于j小于或等于截止频率点k的频率点,下混矩阵确定器107通过确定离散laplace-beltrami算子l的特征向量来确定下混矩阵du,离散laplace-beltrami算子l通过记录或已记录多个输入声道113的多个空间位置定义。在一个实施例中,记录或已记录多个输入声道113的多个空间位置通过用于记录多声道音频输入信号113的对应的多个麦克风或其它录音设备的空间位置定义。在一个实施例中,关于已记录多个输入声道113的多个空间位置的信息可以提供给或存储到下混矩阵确定器107。

在一个实施例中,下混矩阵确定器107用于使用以下等式确定离散laplace-beltrami算子l:

l=c-w,

c=diag{c},

c=[c1,...,cp,...,cq],以及

其中,l是laplace-beltrami算子的矩阵表示,c和w是各自维度为qxq的矩阵,其中q是输入声道113的数量,diag(…)表示将输入向量元素作为输出矩阵的对角线而其余矩阵元素为0的矩阵对角化运算,c是维度q的向量,wpq是局部平均系数。

在一个实施例中,下混矩阵确定器107用于使用以下等式确定局部平均系数wpq:

wpq=0;p=q,

其中rp或rq是三维向量,定义记录输入音频信号的多个输入声道的多个空间位置中的一个空间位置,例如用于记录多声道音频输入信号113的q个麦克风或其它录音设备的空间位置。

在一个实施例中,下混矩阵确定器107用于通过以下操作为j小于或等于截止频率点k的频率点确定下混矩阵du:选择离散laplace-beltrami算子l的特征值大于预定义阈值λl的特征向量。

对于j大于截止频率点k的频率点,下混矩阵确定器107用于通过确定协方差矩阵cov的特征向量的第一子集来确定下混矩阵du,协方差矩阵cov通过输入音频信号的多个输入声道113定义。

在逐帧处理多声道音频输入信号113的实施例中,下混矩阵确定器107用于通过以下操作确定由输入音频信号的多个输入声道113定义的协方差矩阵cov:使用以下等式为多个输入音频信号时间帧中的给定输入音频信号时间帧n以及为多个频率点中的给定频率点j确定协方差矩阵cov的系数cxy:

其中,e{}表示期望算子,*表示复共轭,x和y的范围是从1到输入声道的数量q。

在逐帧处理多声道音频输入信号113的实施例中,下混矩阵确定器107用于通过以下操作确定由输入音频信号的多个输入声道113定义的协方差矩阵cov:使用以下等式为多个输入音频信号时间帧中的给定输入音频信号时间帧n以及为多个频率点中的给定频率点j确定协方差矩阵cov的系数cxy:

其中,β表示遗忘因子,0≤β≤1,表示的实部。

在一个实施例中,为了降低计算复杂度,可以基于某些心理声学量度,例如bark量度或者mel量度,将傅立叶系数分组为b种不同频带,并且可以对每个频带b确定协方差矩阵cov,其中b的范围是从1到b。在这种情况下,通过执行例如加法,可以使用具有以下系数的简化协方差矩阵:

这种分组为b种频带通过仅获取总傅立叶系数的子集来降低计算复杂度。

在一个实施例中,下混矩阵确定器107用于通过以下操作为j大于截止频率点k的频率点确定下混矩阵du:将协方差矩阵cov的那些特征值大于预定义阈值λcov的特征向量选为特征向量的第一子集。

在一个实施例中,下混矩阵确定器107用于通过特征值分解(eigenvaluedecomposition,evd)为多个输入音频信号时间帧中的给定输入音频信号时间帧n以及为多个频率点中的给定频率点j确定协方差矩阵cov的特征向量,即,

cov(n,j)=uλuh

其中,u是包含特征向量的酉矩阵,λ是包含特征值的对角矩阵,uh是矩阵u的厄米特转置。

在一个实施例中,协方差矩阵cov的特征向量通过利用协方差矩阵估计的秩一修正字符来迭代地计算,以降低计算复杂度,因为不需要为每个帧n执行evd。

利用变换域中自相关估计的性质得到有效的karhunen-loeve变换(karhunen-loevetransform,klt)

λ(i)(n)=αλ(i(n-1)+(1-α)y(i)h(n)y(i)(n):

y(i)(n):=x(i)(n)u(i)(n-1).

其中,α是值在0与1之间的遗忘因子,y和x表示布置为由矩阵u执行的下混操作的行向量的输出和输入傅立叶系数。

该估计基于对角线矩阵的秩一修改。在文献中已经表明,λ(i)(n)的特征值是以下函数的零:

函数w(λ)的零可以迭代地找到。但是搜索过程的收敛是二次的。一旦计算出特征值,就可以通过以下等式明确地计算λ(i)(n)的经修改的时空变换的自相关矩阵guq的特征向量:

在一个实施例中,下混矩阵确定器107用于通过以下操作确定截止频率点k:确定多个频率点中的密实度程度θc大于预定义阈值t的所有频率点中的密实度程度θc最小的频率点,其中频率点的密实度程度θc通过以下等式定义:

其中,表示包含离散laplace-beltrami算子l的选定特征向量的酉矩阵,表示的厄米特转置,diag(…)表示将除了沿着给出矩阵输入的矩阵的对角线的系数之外的所有系数归零的矩阵对角化运算,off(…)表示将矩阵的对角线上的所有系数归零的矩阵运算,||…||f表示frobenius范数。为简单起见,以上定义频率点的密实度程度θc的等式中省略了索引n和j。密实度程度θc随着j从低频到高频(j=1到n)而变小。然后使用预定义阈值t启发性地确定截止频率点k的选择,其中可以考虑听力测试以确保感知上的无损编码是可能的。

本发明还涵盖截止频率点k等于与最高频率对应的频率点的实施例。如本领域人员将理解的那样,在这种情况下,下混矩阵du仅通过所有频率点的离散laplace-beltrami算子l的特征向量来定义。

在一个实施例中,音频信号下混装置105还包括:下混矩阵扩展确定器111,用于通过确定协方差矩阵cov的特征向量的第二子集来确定下混矩阵扩展dw,第二子集包含协方差矩阵cov的至少一个特征向量以提供输出音频信号的至少一个辅助输出声道125。下混矩阵确定器107确定的协方差矩阵cov的特征向量的第一子集与下混矩阵扩展确定器111确定的协方差矩阵cov的特征向量的第二子集以这样一种方式确定:特征向量的第一与第二子集是不相交集合。下混矩阵du和下混矩阵扩展dw共同定义扩展后的下混矩阵d。

在一个实施例中,下混矩阵扩展确定器111用于使用以下步骤确定协方差矩阵cov的特征向量的第二子集。在第一步骤中,下混矩阵确定器111为协方差矩阵cov的每个特征向量确定该特征向量与下混矩阵du的列定义的多个向量之间的多个角。在第二步骤中,下混矩阵确定器111为每个特征向量确定该特征向量与下混矩阵du的列定义的多个向量之间的多个角中的最小角。在第三步骤中,下混矩阵确定器111选择协方差矩阵cov的特征向量与下混矩阵du的列定义的多个向量之间的最小角大于预定义阈值角θmin的那些特征向量。

下混矩阵du定义由扩展后的下混矩阵d定义的空间的子空间u。下混矩阵扩展dw定义由扩展后的下混矩阵d定义的所述空间的子空间w。子空间u与子空间w之间的子空间角被定义为跨越子空间u的所有向量u与跨越子空间w的所有向量w之间的最小角,即,

其中,<u,w>表示向量u和w的点积,||u||表示向量u的范数。

下面给出了示例性情况m=2和q=4的示例,使得子空间u被向量u1和u2跨越,即u={u1,u2},并且子空间w被向量w1、w2、w3和w4跨越,即w={w1,w2,w3,w4}。在一个实施例中,计算以下角:

θ1=∠(u1,w1)θ5=∠(u2,w1)

θ2=∠(u1,w2)θ6=∠(u2,w2)

θ3=∠(u1,w3)θ7=∠(u2,w3)

θ4=∠(u1,w4)θ8=∠(u2,w4).

为了计算协方差矩阵cov的特征向量与下混矩阵du跨越的空间之间的子空间角,在每个特征向量与下混矩阵du的列之间计算θ。在上述示例中,产生以下角:

θa=min(θ1,θ5)θc=min(θ3,θ7)

θb=min(θ2,θ6)θd=min(θ4,θ8)

协方差矩阵cov的特征向量按子空间角的降序排列,其中优选地选择具有较大角的那些子空间角,用来定义下混矩阵扩展dw。例如,在θc>θa>θb>θd的情况下,至少与角度θ3和θ7相关联的特征向量w3会被选为下混矩阵扩展dw的一部分。

如上所述,音频信号下混装置105的上述实施例可以实施为图1所示的音频信号处理系统100的编码装置101的组成部分。如上所述,编码装置101的音频信号下混装置105作为输入接收包括q个输入音频信号声道113的输入音频信号。

如上详细描述,音频信号下混装置105基于下混矩阵du,或者,在一个实施例中,基于扩展后的下混矩阵d,对多声道输入音频信号113的q个声道进行处理,并且提供音频输出信号的m个主输出声道123,并且,在一个实施例中,还提供音频输出信号的多达q-m个辅助输出声道125。

编码装置101还包括编码器a119和另一编码器b121。编码器a119接收由音频信号下混装置105提供的m个主输出声道123作为输入。另一编码器b121接收由音频信号下混装置105提供的从0个到多达q-m个辅助输出声道125作为输入。

编码器a119用于将由音频信号下混装置105提供的m个主输出声道123编码为第一比特流127。另一编码器b121用于将音频信号下混装置105在一个实施例中提供的多达q-m个辅助输出声道125编码为第二比特流129。在一个实施例中,编码器a119和另一编码器b121可以实施为单个编码器,从而提供单个比特流作为输出。

将第一比特流127和第二比特流129作为输入提供给图1所示的音频信号处理系统100的解码装置103。解码装置103包括对应的解码器,即解码器a133和另一解码器b143,分别用于解码第一比特流127和第二比特流129。

解码器a133用于对第一比特流127进行解码,使得由解码器a133提供的m个主输入声道135作为输出对应于由音频信号下混装置105提供的m个主输出声道123,即,使得由解码器a133提供的m个主输入声道135作为输出基本上与由音频信号下混装置105提供的m个主输出声道123或其降级版本(在编码器a119和解码器a133中实施有损编解码的情况下)相同。

另一解码器b143用于对第二比特流129进行解码,使得由另一解码器b143提供的多达q-m个辅助输入声道145作为输出对应于由音频信号下混装置105提供的多达q-m个辅助输出声道125,即,使得由另一解码器b143提供的多达q-m个辅助输入声道145作为输出基本上与由音频信号下混装置105提供的多达q-m个辅助输出声道125或其降级版本(在其它编码器b121和其它解码器b143中实施有损编解码的情况下)相同。

在图1所示的实施例中,解码装置103包括音频信号上混装置139。在一个实施例中,音频信号上混装置139和/或其组件用于基本上执行音频信号处理装置105和/或其组件的逆操作,以产生输出音频信号149。为此,音频信号上混装置139可以包括上混矩阵确定器137、处理器141和上混矩阵扩展确定器147。在一个实施例中,处理器141基本上执行编码装置101的音频信号处理装置105的处理器109的逆操作(通过广义逆方法,例如伪逆)。在一个实施例中,上混矩阵确定器137可用于基于laplace-beltrami算子l的特征向量,并且,如果适用,还基于协方差矩阵cov的特征向量,来确定上混矩阵。在一个实施例中,音频信号上混装置139可以用来产生输出音频信号的任何额外数据,例如元数据,都可以通过比特流131传输。例如,在一个实施例中,音频信号下混装置105可以通过比特流131向解码装置的音频信号上混装置139提供laplace-beltrami算子的特征向量和/或,如果适用,还提供协方差矩阵cov的特征向量,用于产生输出音频信号149。可以对比特流131进行编码。额外的信号处理工具,即再混合(例如,平移和波场合成)可进一步应用于输出音频信号149以获得目标期望输出音频信号。如本领域技术人员将理解的那样,由解码器a133提供的m个主输入声道135表示m个主输入声道135,由另一解码器b143提供的多达q-m个辅助输入声道145表示由音频信号上混装置139处理的输入音频信号的多达q-m个辅助输入声道145。

图2示出了用于将输入音频信号处理为输出音频信号的音频信号处理方法200的示意图,其中输入音频信号包括在多个空间位置处记录的多个输入声道113,输出音频信号包括多个主输出声道123。

音频信号处理方法200包括为多个频率点中的每个频率点j确定下混矩阵du的步骤201,其中j是范围从1到n的整数;对于给定频率点j,下混矩阵du将与输入音频信号的多个输入声道113相关联的多个傅立叶系数映射到输出音频信号的主输出声道123的多个傅立叶系数;对于j小于或等于截止频率点k的频率点,下混矩阵du通过确定离散laplace-beltrami算子l的特征向量来确定,离散laplace-beltrami算子l通过记录多个输入声道113的多个空间位置定义;对于j大于截止频率点k的频率点,下混矩阵du通过确定协方差矩阵cov的特征向量的第一子集来确定,协方差矩阵cov通过输入音频信号的多个输入声道113定义。

此外,音频信号处理方法200包括使用下混矩阵du将输入音频信号处理为输出音频信号的步骤203。

本发明实施例可以在用于在计算机系统上运行的计算机程序中实现,至少包括当在诸如计算机系统等的可编程装置上运行时用于执行根据本发明的方法步骤的代码部分,或者使得可编程装置执行根据本发明的设备或系统的功能的代码部分。

计算机程序是指令列表,例如,特定的应用程序和/或操作系统。计算机程序例如可以包括以下中的一个或多个:子例程、函数、流程、对象方法、对象实现、可执行应用、小程序、服务器小程序、源代码、目标代码、共享库/动态加载库和/或设计用于在计算机系统上执行的其它指令序列。

计算机程序可以存储在计算机可读存储介质内部或通过计算机可读传输介质传输到计算机系统。全部或部分计算机程序可以在永久地、可移除地或远程地耦合至信息处理系统的瞬时性或非瞬时性计算机可读介质上提供。计算机可读介质可以包括,例如但不限于,任意数量的以下示例:磁存储介质,包括磁盘和磁带存储介质;光存储介质,例如光盘介质(例如,cd-rom、cd-r等)和数字视频光盘存储介质;非易失性存储器存储介质,包括基于半导体的存储器单元,例如闪存、eeprom、eprom、rom;铁磁数字存储器;mram;易失性存储介质,包括寄存器、缓冲器或缓存、主存储器、ram等;以及数据传输介质,包括计算机网络、点对点电信设备、载波传输介质,此处仅举几例。

计算机进程通常包括执行(运行)程序或程序的一部分、当前程序值和状态信息,以及操作系统用来管理进程的执行的资源。操作系统(operatingsystem,简称os)是管理计算机资源共享的软件,并为程序员提供用于访问这些资源的接口。操作系统处理系统数据和用户输入,并通过分配及管理任务和内部系统资源作为服务对系统的用户和程序进行响应。

计算机系统例如可以包括至少一个处理单元、关联存储器和多个输入/输出(input/output,简称i/o)设备。当执行计算机程序时,计算机系统根据计算机程序处理信息并通过i/o设备生成合成的输出信息。

此处讨论的连接可以是适用于例如通过中间设备从或向相应节点、单元或设备传递信号的任意类型的连接。因此,除非另有所指或所述,该连接例如可以是直接连接或间接连接。可以结合单个连接、多个连接、单向连接或双向连接对该连接进行说明或描述。然而,不同的实施例可能会使该连接的实现发生变化。例如,可以使用单独的单向连接而不是双向连接,反之亦然。此外,多个连接可以被替换为以串行或时间复用方式传递多个信号的单个连接。同样地,携带多个信号的单个连接可以被分离成携带这些信号的子集的各种不同的连接。因此,存在许多用于传递信号的选择。

本领域技术人员将意识到,各逻辑块之间的界限仅仅是说明性的,并且替代实施例可以合并逻辑块或电路元件,或者可以在各种逻辑块或电路元件上实行功能的替代分解。因此,应当理解,此处所描述的架构仅仅是示例性的,并且实际上,许多其它实现相同功能的架构也能够实现。

因此,实现相同功能的组件的任意布置是有效地“关联”,从而实现了所期望的功能。因此,不论是架构或是中间组件,此处组合以实现某个特定功能的任意两个组件可被视为相互“关联”,从而实现了所期望的功能。同样地,任意两个如此关联的组件也可被视为相互“可操作地连接”或“可操作地耦合”,以实现所期望的功能。

此外,本领域技术人员将意识到,以上所描述的操作之间的界限仅仅是说明性的。多个操作可以组合成单个操作,单个操作可以分布在附加操作中,操作可以以在时间上至少部分重叠的方式来执行。另外,替代实施例可以包括某个特定操作的多个示例,在各种其它实施例中可以改变操作的顺序。

此外,例如,其中的示例或部分可以,例如以任意合适类型的硬件描述语言,实现为物理电路的或可转换成物理电路的逻辑表示的软或代码表示。

此外,本发明不限于在不可编程硬件中实现的物理设备或单元,也可以应用于能够通过根据合适的程序代码进行操作来执行所期望的设备功能的可编程设备或单元,例如,大型主机、小型计算机、服务器、工作站、个人计算机、记事本、个人数字助理、电子游戏、汽车和其它嵌入式系统、蜂窝电话和各种其它无线设备,在本申请中通常表示为‘计算机系统’。

然而,其它修改、变形和替代也是可能的。应认为本说明书和附图具有说明性意义而非限制性意义。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1