用于处理多声道音频信号的方法及设备的制作方法

文档序号：2832809阅读：173来源：国知局

专利名称：用于处理多声道音频信号的方法及设备的制作方法
技术领域：
本发明涉及用于处理多声道音频信号的方法及设备。
背景技术：
时间比例缩放调整算法可改变音频信号的持续时间，同时保留了信号局部频率组成，从而可实现使记录的音频信号的感受到的播放速率加速或减速的整体效果，却不会影响到原始信号的音调或音色。换言之，虽然原始信号的持续时间增加或减少，但感觉上原始信号的重要特征保持不变；在语音的情况下，经过时间比例缩放调整的信号听起来就好像原始说话者是以较快或较慢的速率说话一样；在音乐的情况下，经过时间比例缩放调整的信号听起来就好像演奏者用不同的节奏演奏一样。时间比例缩放调整算法可用于VoIP应用或音频/视频广播、音频/视频后期制作同步及多轨记录与混频中的自适应抖动缓冲管理(JBM)。在IP语音应用中，首先使用语音编码器压缩语音信号。为了保持互通性，IP语音系统通常建立在开放语音编解码器上。这些系统可经标准化，例如在ITU-T或3GPP编解码器中(若干标准化语音编解码器用于VoIP:G.711、G.722、G.729、G.723.K AMR-WB)或具有专有格式(SpeeX、Silk、CELT)。经编码的语音信号在IP包中分包及传输。包将在VoIP中遇到可变网络延迟，因此包以不规则的时间间隔到达。为了使此抖动平滑，在接收器中通常需要抖动缓冲管理机制，其中将接收到的包缓冲一会儿，并在调度的时间循序播出。如果可针对每个包调整播出时间，则可能需要进行时标修改以确保在声卡上连续播出语音数据。因为延迟并不是恒定的延迟，所以使用时间比例缩放调整算法来拉伸或压缩给定的接收到的包的持续时间。在包含抖动缓冲管理机制的多声道VoIP应用的情况下，特别是当多声道音频编解码器是基于以双重/多重单声道模式操作的单声道编解码器的时候，即，针对每个声道使用一个单声道编码器/解码器，则针对每个声道使用时间比例缩放调整算法的独立应用，可能导致质量下降，特别是空间声音图像的质量下降，因为独立的时间比例缩放调整将无法保证保留空间线索。在音频/视频广播及后期制作应用中，对每个声道进行时间比例缩放调整可能会保持视频与音频之间的同步，但无法保证空间线索与原始的空间线索一样。空间感知的最重要的空间线索是声道之间的能量差，声道之间的时间或相位差，及声道之间的相干或相关。当时间比例缩放调整算法进行音频信号的拉伸及压缩操作时，时间比例缩放调整声道之间的能量、延迟及相干可能与原始的不同。

发明内容
本发明的目标是提供一种在多声道音频应用中的抖动缓冲管理的概念，其可保留空间感知。这个目标是通过独立权利要求的特征实现的。通过附属权利要求、说明及附图可了解其它实施形式。
本发明的基本原理是，在多声道时间比例缩放调整处理期间保留多声道音频信号的空间线索，可保留空间感知。空间线索是多声道信号的空间信息，例如声道间时间差(ITD)、声道间声级差(ILD)、声道间相干/声道间交叉相关(ICC)等等。
为了详细说明本发明，将使用以下术语、缩写及符号。
ITD:声道间时间差，
ILD:声道间声级差，
ICC:声道间相干，
IC:声道间交叉相关，
交叉AMDF:交叉平均幅度差函数，
WSOLA:基于波形相似性的同步重叠相加，
IP:因特网协议，
VoIP:因特网协议语音。
根据第一方面，本发明涉及一种处理多声道音频信号的方法，所述多声道音频信号带有多个音频声道信号，所述方法包括:使用所述多个音频声道信号来确定时间比例缩放调整位置；及根据所述时间比例缩放调整位置对所述多个音频声道信号的每个音频声道信号进行时间比例缩放调整，以获得多个经时间比例缩放调整的音频声道信号。时间比例缩放调整位置能使不同的音频声道信号同步，以便保留空间信息。在包含抖动缓冲管理机制的多声道VoIP应用的情况下，当多声道音频编解码器是基于以双重/多重单声道模式操作的单声道编解码器的时候，即，针对每个声道使用一个单声道编码器/解码器，则针对每个声道使用时间比例缩放调整算法的独立应用，不会导致质量下降，因为时间比例缩放调整位置使每个声道的时间比例缩放调整同步，从而保留空间线索，因而保留空间声音图像。用户能在很大程度上更好地感知到多声道音频信号。在音频/视频广播及后期制作应用中，用共同的时间比例缩放调整位置单独对每个声道进行时间比例缩放调整，可保留视频与音频之间的同步，而且能保证空间线索不会改变。空间感知的最重要的空间线索是声道之间的能量差，声道之间的时间或相位差，及声道之间的相干或相关。通过确定时间比例缩放调整位置，这些换片信号得以保留，而且与原始的换片信号没有差别。用户感知得到改善。在根据第一方面的所述方法的第一可能实施形式中，所述方法包括:从所述多个音频声道信号中提取第一组空间线索参数，所述第一组空间线索参数与多个音频声道信号同根据所述多个音频声道信号中的至少一者导出的参考音频声道信号之间的差的差值测量有关；从多个经时间比例缩放调整的音频声道信号中提取第二组空间线索参数，所述第二组空间线索参数与同第一组空间线索参数有关的相同类型的差值测量有关，其中第二组空间线索参数与多个经时间比例缩放调整的音频声道信号同从所述多个经时间比例缩放调整的音频声道信号中的至少一者导出的参考经时间比例缩放调整的音频声道信号之间的差有关；及确定第二组空间线索参数是否关于第一组空间线索参数满足质量标准。差值测量可为由等式(5)、(1)、(8)及(6)定义且如下文关于图2说明的交叉相关(cc)、归一化交叉相关(cn)及交叉平均幅值差函数(ca)中的一者。质量标准可为优化标准。其可基于第二组空间线索参数与第一组空间线索参数之间的相似性。参考信号可例如为音频声道信号中的一者或根据多个音频声道信号中的一些或全部导出的下混频信号。将相同操作应用于经时间比例缩放调整的音频声道信号。在根据第一方面的第一实施形式的方法的第二可能实施形式中，提取第一组空间线索参数中的一空间线索参数包括使多个音频声道信号中的一音频声道信号与参考音频声道信号相关，提取第二组空间线索参数中的一空间线索参数包括使多个经时间比例缩放调整的音频声道信号中的一经时间比例缩放调整的音频声道信号与参考经时间比例缩放调整的音频声道信号相关。参考音频声道信号可为多个音频声道信号中的一者，其显示出其频谱分量、其能量及其语音声音方面与其它音频声道信号的相似行为。参考音频声道信号可为单声道下混频信号，可将其计算为所有M个声道的平均值。将下混频信号用作多声道音频信号的参考的优点是避免将静默信号用作参考信号。实际上，下混频代表所有声道的能量的平均值，因此不太可能是静默的。同样，经时间比例缩放调整的音频声道信号可为多个经时间比例缩放调整的音频声道信号中的一者，其显示出其频谱分量、其能量及其语音声音方面与其它经时间比例缩放调整的音频声道信号的相似行为。参考经时间比例缩放调整的音频声道信号可为单声道下混频信号，其是所有M个经时间比例缩放调整的声道的平均值，因此不太可能是静默的。在根据第一方面的第一或第二实施形式的方法的第三可能的实施形式中，如果提取的第二组空间线索参数不能满足质量标准，则所述方法包括以下步骤:根据其它时间比例缩放调整位置对多个音频声道信号中的每个音频声道信号进行时间比例缩放调整，以获得其它多个经时间比例缩放调整的音频声道信号，其中所述其它时间比例缩放调整位置是使用所述多个音频声道信号确定的；从所述其它多个经时间比例缩放调整的音频声道信号中提取第三组空间线索参数，所述第三组空间线索参数与同第一组空间线索参数有关的相同类型的差值测量有关，其中所述第三组空间线索参数与其它多个经时间比例缩放调整的音频声道信号同根据所述其它多个经时间比例缩放调整的音频声道信号中的至少一者导出的其它参考经时间比例缩放调整的音频声道信号之间的差有关；确定第三组空间线索参数关于第一组空间线索参数是否满足质量标准；及如果第三组空间线索参数满足质量标准则输出所述其它多个经时间比例缩放调整的音频声道信号。质量标准可能具有限制性，因而得出一组高质量的空间线索参数。在根据第一方面的任一前述实施形式的方法的第四可能的实施形式中，如果相应一组空间线索参数在空间线索参数范围内，则相应一组空间线索参数关于第一组空间线索参数满足质量标准。通过空间线索参数范围，用户可控制所述方法得出的质量水平。如果发现相应多组空间线索参数都不满足质量标准，则可连续扩大范围。不但一个空间线索参数而且一整组都应该在参数范围内。在根据此第一方面或根据第一方面的任一前述实施形式的方法的第五可能的实施形式中，相应一组空间线索参数包括以下参数之一:声道间时间差(ITD)、声道间声级差(ILD)、声道间相干(ICC)及声道间交叉相关(1C)。如下文相对于图2所述，由用于ILD的等式(11)、用于ITD的等式(12)及用于IC及ICC的等式(13)表达这些参数的定义。在根据此第一方面或根据第一方面的任一前述实施形式的方法的第六可能的实施形式中，确定时间比例缩放调整位置包括:对于多个音频声道信号中的每一者，确定以候选时间比例缩放调整位置为参数的声道交叉相关函数；通过依据候选时间比例缩放调整位置累计多个声道交叉相关函数来确定所累计的交叉相关函数；选择与所累计的交叉相关函数的最大所累计的交叉相关值相关联的时间比例缩放调整位置以获得时间比例缩放调整位置。如果发现时间比例缩放调整位置不满足质量标准，则可选择具有最大交叉相关(cc)、归一化交叉相关(cn)或交叉平均幅值差函数(ca)的时间比例缩放调整位置。在任何情况下都可找到至少一次等时间比例缩放调整位置。可选择与第二最大所累计的交叉相关值相关联的其它时间比例缩放调整位置。可选择与第三、第四等等最大所累计的交叉相关值相关联的其它时间比例缩放调整位置。在根据第一方面的第六实施形式的方法的第七可能的实施形式中，相应交叉相关函数是以下交叉相关函数之一:交叉相关函数、归一化交叉相关函数及交叉平均幅值差函数(交叉AMDF)。这些函数由关于图2说明的等式(2)、(3)及(4)表达。在根据第一方面的第六或第七实施形式的方法的第八可能的实施形式中，所述方法进一步包括:针对多个音频声道信号中的每一音频声道信号，根据空间线索参数确定加权因子，其中所述空间线索参数是基于音频声道信号及根据所述多个音频声道信号中的至少一者导出的参考音频声道信号提取的，且其中所述空间线索参数特别是声道间声级差；及使用针对音频声道信号确定的加权因子分别对每个声道交叉相关函数进行加权。关于图2说明的等式(7)或者等式(9)中定义了加权因子的计算。根据空间线索参数来确定加权因子，所述空间线索参数可能是第一组空间线索参数中的一空间线索参数，或者至少是相同类型的，但其也可为另一种类型的空间线索参数。举例来说，第一组使用ITD作为空间线索参数，但加权因子是基于ILD。在根据此第一方面或根据第一方面的任一前述实施形式的方法的第九可能的实施形式中，所述方法进一步包括在对多个音频声道信号中的每个音频声道信号进行时间比例缩放调整之前缓冲所述多个音频声道信号。缓冲器可以是存储器单元、RAM或任何其它物理存储器。缓冲器可为如下文关于图5所述的抖动缓冲器。在根据此第一方面或根据第一方面的任一前述实施形式的方法的第十可能的实施形式中，时间比例缩放调整包括将同一音频声道信号的音频声道信号部分重叠且相加。重叠与相加可为基于波形相似性的同步重叠一相加(WSOLA)算法的一部分。在根据此第一方面或根据第一方面的任一前述实施形式的方法的第i^一可能的实施形式中，多声道音频信号包括多个编码的音频声道信号，且所述方法包括:将所述多个编码的音频声道信号解码以获得多个音频声道信号。使用解码器来解压缩多声道音频信号，其可能是语音信号。解码器可以是标准解码器，以便保持与IP语音系统的互通性。解码器可利用开放的语音编解码器，例如标准化的ITU-T或3GPP编解码器。解码器的编解码器可实施G.711、G.722、G.729、G.723.1及AMR-WB的VoIP标准化格式之一，或Speex、Silk及CELT专用格式之一。经编码的语音信号在IP包中分包及传输。这保证了与此项技术中使用的标准VoIP应用的互通。在根据第一方面的第i^一实施形式的方法的第十二可能的实施形式中，所述方法进一步包括:接收单个音频信号包；及从接收到的单个音频信号包中提取多个编码的音频声道。可在单个IP包内将多声道音频信号分包，使得每个音频声道信号经历相同的抖动。这有助于保持多声道音频信号的服务质量(QoS)。在根据第一方面的第i^一实施形式的方法的第十三可能的实施形式中，所述方法进一步包括:接收多个音频信号包，每个音频信号包包括多个单独编码的音频声道中的一编码的音频声道，及表示相应编码的音频声道的声道索引；从接收到的多个音频信号包中提取多个编码的音频声道；及基于接收到的声道索引使多个编码的音频声道对准。通过声道索引，可向接收器提供相应编码的音频声道在编码的多声道音频信号内的时间位置，使得接收器内的抖动缓冲控制机制可重建相应声道的确切位置。在通过网络用不同方式传输音频信号帧，因此音频信号帧经历不同延迟的情况下，抖动缓冲机制可补偿不同传输路径的延迟。在下文关于图5所述的抖动缓冲管理装置中实施此抖动缓冲机制。根据第二方面，本发明涉及一种用于处理多声道音频信号的音频信号处理设备，所述多声道音频信号包括多个音频声道信号，所述音频信号处理设备包括:确定器，其适于使用所述多个音频声道信号来确定时间比例缩放调整位置；及时间比例缩放调整器，其适于根据所述时间比例缩放调整位置对所述多个音频声道信号中的每个音频声道信号进行时间比例缩放调整，以获得多个经时间比例缩放调整的音频声道信号。时间比例缩放调整位置能使不同的音频声道信号同步，以便保留空间信息。在包含抖动缓冲管理机制的多声道VoIP应用的情况下，当多声道音频编解码器是基于以双重/多重单声道模式操作的单声道编解码器的时候，即，针对每个声道使用一个单声道编码器/解码器，则使用共同时间比例缩放调整位置针对每个声道使用时间比例缩放调整算法的独立应用，不会导致质量下降，因为时间比例缩放调整位置使每个声道的时间比例缩放调整同步，从而保留空间线索，因而保留空间声音图像。用户能在很大程度上更好地感知到多声道音频信号。在音频/视频广播及后期制作应用中，用共同的时间比例缩放调整位置单独对每个声道进行时间比例缩放调整，可保留视频与音频之间的同步，而且能保证空间线索不会改变。空间感知的最重要的空间线索是声道之间的能量差，声道之间的时间或相位差，及声道之间的相干或相关。通过确定时间比例缩放调整位置，这些换片信号得以保留，而且与原始的换片信号没有差别。用户感知得到改善。在根据第二方面的音频信号处理设备的第一可能的实施形式中，多声道音频信号包括多个编码的音频声道信号，且音频信号处理设备包括:解码器，其适于将所述多个编码的音频声道信号解码以获得多个音频声道信号。所述解码器也可实施在如下文关于图5所述的音频信号处理设备的外部。解码器可以是标准解码器，以便保持与IP语音系统的互通性。解码器可利用开放的语音编解码器，例如标准化的ITU-T或3GPP编解码器。解码器的编解码器可实施G.711、G.722、G.729、G.723.1及AMR-WB的VoIP标准化格式之一，或Speex、Silk及CELT专用格式之一。经编码的语音信号在IP包中分包及传输。这保证了与此项技术中使用的标准VoIP应用的互通。在根据此第二方面或根据第二方面的第一实施形式的音频信号处理设备的第二可能的实施形式中，音频信号处理设备包括:提取器，其适于从所述多个音频声道信号中提取第一组空间线索参数，所述第一组空间线索参数与多个音频声道信号同根据所述多个音频声道信号中的至少一者导出的参考音频声道信号之间的差的差值测量有关，其中所述提取器进一步适于从多个经时间比例缩放调整的音频声道信号中提取第二组空间线索参数，所述第二组空间线索参数与同第一组空间线索参数有关的相同类型的差值测量有关，其中第二组空间线索参数与多个经时间比例缩放调整的音频声道信号同从所述多个经时间比例缩放调整的音频声道信号中的至少一者导出的参考经时间比例缩放调整的音频声道信号之间的差有关；及处理器，其适于确定第二组空间线索参数是否关于第一组空间线索参数满足质量标准。差值测量可为由等式(1)、(5)、(6)及(8)定义且如下文关于图2说明的交叉相关(cc)、归一化交叉相关(cn)及交叉平均幅值差函数(ca)中的一者。质量标准可为优化标准。其可基于第二组空间线索参数与第一组空间线索参数之间的相似性。参考音频声道信号可为多个音频声道信号中的一者，其显示出其频谱分量、其能量及其语音声音方面与其它音频声道信号的相似行为。参考音频声道信号可为单声道下混频信号，其为所有M个声道的平均值。将下混频信号用作多声道音频信号的参考的优点是避免将静默信号用作参考信号。实际上，下混频代表所有声道的能量的平均值，因此不太可能是静默的。同样，经时间比例缩放调整的音频声道信号可为多个经时间比例缩放调整的音频声道信号中的一者，其显示出其频谱分量、其能量及其语音声音方面与其它经时间比例缩放调整的音频声道信号的相似行为。参考经时间比例缩放调整的音频声道信号可为单声道下混频信号，其是所有M个经时间比例缩放调整的声道的平均值，因此不太可能是静默的。在根据此第二方面或根据第二方面的任一前述实施形式的音频信号处理设备的第三可能的实施形式中，所述确定器适于对于多个音频声道信号中的每一者，确定与候选时间比例缩放调整位置相关的声道交叉相关函数；通过依据候选时间比例缩放调整位置累计多个声道交叉相关函数来确定所累计的交叉相关函数；选择与所累计的交叉相关函数的最大所累计的交叉相关值相关联的时间比例缩放调整位置以获得时间比例缩放调整位置。如果发现时间比例缩放调整位置不满足质量标准，则可选择具有最大交叉相关(cc)、归一化交叉相关(cn)或交叉平均幅值差函数(ca)的时间比例缩放调整位置。在任何情况下都可找到至少一次等时间比例缩放调整位置。根据第三方面，本发明涉及一种用于处理多声道音频信号的用可编程方式设置的音频信号处理设备，所述多声道音频信号包括多个音频声道信号，所述用可编程方式设置的音频信号处理设备包括处理器，所述处理器经配置以执行用于执行根据此第一方面或根据第一方面的任一实施形式的方法的计算机程序。所述用可编程方式设置的音频信号处理设备包括根据第三方面的第一可能的实施形式的在处理器上运行的软件或固件，且可在不同的环境下灵活使用。如果发现错误或发现更好的算法或算法的更好参数，则可重新编写软件，或者可在处理器上重新加载固件，以便改善音频信号处理设备的性能。所述用可编程方式设置的音频信号处理设备可在早期现场安装，如果出现问题再重新编程或者重新加载，从而加快上市时间并改善电信操作人员的安装基础。本发明可在数字电子电路或在计算机硬件、固件、软件或其组合中实施。

将参照下图说明本发明的其它实施例，其中:图1绘示根据一种实施形式的处理多声道音频信号的方法的框图；图2绘示根据一种实施形式的音频信号处理设备的框图；图3绘示根据一种实施形式的音频信号处理设备的框图；图4绘示根据一种实施形式的处理多声道音频信号的方法的框图；图5绘示根据一种实施形式的抖动缓冲管理装置的框图；图6绘示一时间图，其图解说明由根据一种实施形式的音频信号处理设备应用的受限制的时间比例缩放调整。具-体实施方式图1绘示根据一种实施形式的处理带有多个音频声道信号的多声道音频信号的方法的框图。此方法包括使用所述多个音频声道信号来确定时间比例缩放调整位置(101);及根据所述时间比例缩放调整位置对所述多个音频声道信号中的每个音频声道信号进行时间比例缩放调整(103)，以获得多个经时间比例缩放调整的音频声道信号。图2绘示根据一种实施形式的处理包括多个11个音频声道信号201_1、201，_2、...、201_M的多声道音频信号201的音频信号处理设备200的框图。音频信号处理设备200包括确定器203及时间比例缩放调整器207。确定器203经配置以使用所述多个音频声道信号201_1、201，_2、…、201_11来确定时间比例缩放调整位置205。时间比例缩放调整器207经配置以根据所述时间比例缩放调整位置205对所述多个音频声道信号201_1、201，_2、…、201_M中的每个音频声道信号进行时间比例缩放调整，以获得多个经时间比例缩放调整的音频声道信号209_1、209，_2、…、209_M，这些信号构成经时间比例缩放调整的多声道音频信号209。确定器203具有M个输入端，用于接收多个M个音频声道信号201_1、201，_2、…、201_M，还具有一个输出端，用于提供时间比例缩放调整位置205。时间比例缩放调整器207具有M个输入端，用于接收多个M个音频声道信号201_1、201，_2、...、201_Μ，还具有一个输入端，用于接收时间比例缩放调整位置205。时间比例缩放调整器207具有M个输出端，用于提供多个M个经时间比例缩放调整的音频声道信号209_1、209，_2、…、209_Μ，这些信号构成经时间比例缩放调整的多声道音频信号209。在音频信号处理设备200的第一实施形式中，确定器203经配置以通过根据多声道音频信号201计算时间比例缩放调整位置δ来确定时间比例缩放调整位置205。确定器203如下计算交叉相关cc (m，δ )、归一化交叉相关cn (m，δ )及/或交叉平均幅值差函数(交叉AMDF ) ca (m，δ):cc (m, δ ) =Cc1 (m, δ ) +cc2 (m, δ ) +...+ccM(m, δ )cn (m, δ ) =Cn1 (m, δ ) +cn2 (m, δ ) +...+cnM (m, δ )(I)ca (m, δ) =Ca1On, δ ) +ca2 (m, δ ) +...+caM(m, δ )并确定每个声道1..M的使cc (m, δ ) ^ cn (m, δ)或ca(m, δ)最大化的时间比例缩
放调整位置δ。交叉相关cc (m，3)、归一化交叉相关(:11(111，δ)及交叉平均幅值差函数(交叉AMDF) ca(m, δ )是如下确定的相似性测量:
cc(m...δ) = ο χ(η + τ 1 ((ηι -1).L)+Am—+ L).χ( π +1 !(ην ^+δ)(2)
权利要求
1.一种处理多声道音频信号(201)的方法，所述多声道音频信号(201)带有多个音频声道信号(201_1，201_2，201_M)，所述方法包括: 使用所述多个音频声道信号(201_1，201_2，201_M)来确定(101)时间比例缩放调整位置(205);及根据所述时间比例缩放调整位置(205)对所述多个音频声道信号(201_1，201_2，201_M)中的每个音频声道信号进行时间比例缩放调整(103)，以获得多个经时间比例缩放调整的音频声道信号(209_1，209_2，209_M)。
2.根据权利要求1所述的方法，其包括: 从所述多个音频声道信号(201_1，201_2，201_M)中提取第一组空间线索参数，所述第一组空间线索参数与所述多个音频声道信号(201_1，201_2，201_M)同根据所述多个音频声道信号(201_1，201_2，201_M)中的至少一者导出的参考音频声道信号之间的差的差值测量有关；从所述多个经时间比例缩放调整的音频声道信号(201_1，201_2，201_M)中提取第二组空间线索参数，所述第二组空间线索参数与同所述第一组空间线索参数有关的相同类型的差值测量有关，其中所述第二组空间线索参数与所述多个经时间比例缩放调整的音频声道信号(209_1，209_2，209_M)同从所述多个经时间比例缩放调整的音频声道信号(209_1，209_2，209_M)中的至少一者导出的参考经时间比例缩放调整的音频声道信号之间的差有关；及确定所述第二组空间线索参数是否关于所述第一组空间线索参数满足质量标准。
3.根据权利要求2所述的方法，其中所述提取所述第一组空间线索参数中的一空间线索参数包括使所述多个音频声道信号(201_1，201_2，201_M)中的一音频声道信号与所述参考音频声道信号相关 '及其中所述提取所述第二组空间线索参数中的一空间线索参数包括使所述多个经时间比例缩放调整的音频声道信号(209_1，209_2，209_M)中的一经时间比例缩放调整的音频声道信号与所述参考经时间比例缩放调整的音频声道信号相关。
4.根据权利要求2或3所述的方法，如果所述提取的第二组空间线索参数不能满足所述质量标准，则所述方法包括以下步骤: 根据其它时间比例缩放调整位置对所述多个音频声道信号(201_1，201_2，201_M)中的每个音频声道信号进行时间比例缩放调整，以获得其它多个经时间比例缩放调整的音频声道信号，其中所述其它时间比例缩放调整位置是使用所述多个音频声道信号确定的；从所述其它多个经时间比例缩放调整的音频声道信号中提取第三组空间线索参数，所述第三组空间线索参数与同所述第一组空间线索参数有关的相同类型的差值测量有关，其中所述第三组空间线索参数与所述其它多个经时间比例缩放调整的音频声道信号同根据所述其它多个经时间比例缩放调整的音频声道信号中的至少一者导出的其它参考经时间比例缩放调整的音频声道信号之间的差有关；确定所述第三组空间线索参数关于所述第一组空间线索参数是否满足所述质量标准;及如果所述第三组空间线索参数满足所述质量标准则输出所述其它多个经时间比例缩放调整的音频声道信号。
5.根据权利要求2到4中的任一权利要求所述的方法，其中如果相应一组空间线索参数在空间线索参数范围内，则所述相应一组空间线索参数关于所述第一组空间线索参数满足所述质量标准。
6.根据前述权利要求中任一权利要求所述的方法，其中所述相应一组空间线索参数包括以下参数之一: 声道间时间差(ITD)，声道间声级差(ILD)，声道间相干(ICC)，及声道间交叉相关(IC)。
7.根据前述权利要求中任一权利要求所述的方法，其中所述确定(101)所述时间比例缩放调整位置(205)包括: 对于所述多个音频声道信号(201_1，201_2，201_M)中的每一者，确定以候选时间比例缩放调整位置为参数的声道交叉相关函数；通过依据所述候选时间比例缩放调整位置累计所述多个声道交叉相关函数来确定所累计的交叉相关函数；选择与所述所累计的交叉相关函数的最大所累计的交叉相关值相关联的时间比例缩放调整位置(205)以获得所述时间比例缩放调整位置(205)。
8.根据权利要求7所述的方法，其中相应交叉相关函数是以下交叉相关函数之一: 交叉相关函数，归一化交叉相关函数，及交叉平均幅值差函数(交叉AMDF )。
9.根据权利要求7或8所述的方法，其进一步包括: 针对所述多个音频声道信号(201_1，201_2，201_M)中的每一音频声道信号(201」)，根据空间线索参数确定加权因子，其中所述空间线索参数是基于所述音频声道信号(201_i)及根据所述多个音频声道信号(201_1，201_2，201_M)中的至少一者导出的参考音频声道信号提取的，且其中所述空间线索参数特别是声道间声级差；及使用针对所述音频声道信号(201_i)确定的所述加权因子分别对每个声道交叉相关函数进行加权。
10.根据前述权利要求中任一权利要求所述的方法，其进一步包括在对所述多个音频声道信号(201_1，201_2，201_M)中的每个音频声道信号进行时间比例缩放调整(103)之前缓冲所述多个音频声道信号(201_1，201_2，201_M)。
11.根据前述权利要求中任一权利要求所述的方法，其中所述时间比例缩放调整(103)包括将同一音频声道信号的音频声道信号部分重叠且相加。
12.根据前述权利要求中任一权利要求所述的方法，其中所述多声道音频信号(201)包括多个编码的音频声道信号，且所述方法包括: 将所述多个编码的音频声道信号解码以获得所述多个音频声道信号(201_1, 201_2, 201_M)。
13.一种用于处理多声道音频信号(201)的音频信号处理设备(200)，所述多声道音频信号(201)包括多个音频声道信号(201_1，201_2，201_M)，所述音频信号处理设备(200)包括: 确定器(203)，其适于使用所述多个音频声道信号(201_1，201_2，201_M)来确定时间比例缩放调整位置(205);及时间比例缩放调整器(207)，其适于根据所述时间比例缩放调整位置(205)对所述多个音频声道信号(201_1，201_2，201_M)中的每个音频声道信号进行时间比例缩放调整，以获得多个经时间比例缩放调整的音频声道信号(209_1，209_2，209_M)。
14.根据权利要求13所述的音频信号处理设备(200，300)，其中所述多声道音频信号(201,301)包括多个编码的音频声道信号，且其中所述音频信号处理设备(200，300)包括: 解码器，其适于将所述多个编码的音频声道信号解码以获得所述多个音频声道信号(201_1, 201_2, 201_M;301_1, 301_2, 301_M)。
15.根据权利要求13或14所述的音频信号处理设备(300)，其进一步包括: 提取器(303_1)，其适于从所述多个音频声道信号(301_1，301_2，301_M)中提取第一组空间线索参数，所述第一组空间线索参数与所述多个音频声道信号(301_1，301_2，301_M)同根据所述多个音频声道信号(301_1， 301_2，301_M)中的至少一者导出的参考音频声道信号之间的差的差值测量有关，其中所述提取器(303_1)进一步适于从所述多个经时间比例缩放调整的音频声道信号(309_1，309_2，309_M)中提取第二组空间线索参数，所述第二组空间线索参数与同所述第一组空间线索参数有关的相同类型的差值测量有关，其中所述第二组空间线索参数与所述多个经时间比例缩放调整的音频声道信号(309_1，309_2，309_M)同从所述多个经时间比例缩放调整的音频声道信号(309_1，309_2，309_M)中的至少一者导出的参考经时间比例缩放调整的音频声道信号之间的差有关；及处理器，其适于确定所述第二组空间线索参数是否关于所述第一组空间线索参数满足质量标准。
16.根据权利要求13到15中任一权利要求所述的音频信号处理设备(200，300)，其中所述确定器(203，303)适于: 对于所述多个音频声道信号(201_1，201_2，201_M)中的每一者，确定与候选时间比例缩放调整位置相关的声道交叉相关函数；通过依据所述候选时间比例缩放调整位置累计所述多个声道交叉相关函数来确定所累计的交叉相关函数 '及选择与所述所累计的交叉相关函数的最大所累计的交叉相关值相关联的时间比例缩放调整位置(205，δ)以获得所述时间比例缩放调整位置(205，δ)。
17.一种用于处理多声道音频信号(201)的用可编程方式设置的音频信号处理设备(200)，所述多声道音频信号(201)包括多个音频声道信号(201_1，201_2，201_Μ)，所述用可编程方式设置的音频信号处理设备(200)包括处理器，所述处理器经配置以执行用于执行根据权利要求1到12中任一权利要求所述的方法的计算机程序。
全文摘要
本发明涉及一种处理多声道音频信号(201)的方法，所述多声道音频信号带有多个音频声道信号(201_1,201_2,201_M)。所述方法包括使用所述多个音频声道信号(201_1,201_2,201_M)来确定(101)时间比例缩放调整位置(205)；及根据所述时间比例缩放调整位置(205)对所述多个音频声道信号(201_1,201_2,201_M)中的每个音频声道信号进行时间比例缩放调整(103)，以获得多个经时间比例缩放调整的音频声道信号(209_1,209_2,209_M)。
文档编号G10L19/008GK103155030SQ201180034344
公开日2013年6月12日申请日期2011年7月15日优先权日2011年7月15日
发明者阿里斯·塔勒布, 大卫·维雷特, 庞立昀, 郎玥申请人:华为技术有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：阿里斯·塔勒布;大卫·维雷特;庞立昀;郎玥
技术所有人：华为技术有限公司
我是此专利的发明人

上一篇：吸声材料、吸声材料的制造方法及吸声材料用片材的制作方法
上一篇：处理音频信号的方法和装置的制作方法