生成用于音频信号的滤波器的方法及其参数化装置与流程

文档序号:11143032阅读:522来源:国知局
生成用于音频信号的滤波器的方法及其参数化装置与制造工艺

本发明涉及用于生成用于音频信号的滤波器及其参数化装置,并且更加特别地,涉及生成用于音频信号的滤波器来以低计算复杂性实现对输入音频信号的滤波的方法及其参数化装置。



背景技术:

存在随着目标滤波器的长度增加,用于立体收听多声道信号的双耳渲染要求高计算复杂性的问题。特别地,当使用反映了录音室特性的双耳室脉冲响应(BRIR)滤波器时,BRIR滤波器的长度可以达到48000至96000个采样。在此,当输入声道的数目时,例如22.2声道格式,计算复杂性是巨大的。

当通过xi(n)表示第i个声道的输入信号时,通过biL(n)和biR(n)分别表示相对应的声道的左右BRIR滤波器,并且通过yL(n)和yR(n)表示输出信号,通过下面给出的等式能够表达双耳滤波。

[等式1]

在此,m是L或R,并且*表示卷积。通常基于快速傅立叶变换(FFT)通过使用快速卷积执行上述时域卷积。当通过使用快速卷积执行双耳渲染时,需要通过与输入声道的数目相对应的次数执行FFT,并且需要通过与输出声道的数目相对应的次数执行逆FFT。此外,因为像多声道音频编解码器一样在实时再现环境下需要考虑延迟,因此需要执行块方式快速卷积,并且与相对于总长度仅执行快速卷积的情况下相比可能消耗更多的计算复杂性。

然而,在频域中实现大多数编译方案,并且在一些编译方案(例如,HE-AAC、USAC等等)中,在QMF域中执行解码的最后步骤。因此,当如在上面给出的等式1中所示在时域中执行双耳滤波时,另外要求有与声道的数目一样多的用于QMF合成的操作,这是非常低效的。因此,在QMF域中直接地执行双耳渲染是有优势的。



技术实现要素:

技术问题

本发明具有下述目的,关于立体再现多声道或者多对象信号,实现双耳渲染的要求高计算复杂性的滤波过程,用于以非常低的复杂性保留原始信号的沉浸感同时最小化音质的损坏。

此外,本发明具有当在输入信号中包含失真时通过使用高质量的滤波器最小化失真的扩展的目的。

此外,本发明具有通过具有较短长度的滤波器实现具有长度长的有限脉冲响应(FIR)滤波器的目的。

此外,本发明具有当通过使用被截断的FIR滤波器执行滤波时最小化由于丢弃的滤波器系数而破坏的部分的失真的目的。

技术方案

为了实现目的,本发明提供一种如下面的用于处理音频信号的方法和设备。

本发明的示例性实施例提供一种用于生成用于音频信号的滤波器的方法,包括:接收用于输入音频信号的双耳滤波的至少一个双耳室脉冲响应(BRIR)滤波器系数;将BRIR滤波器系数转换成多个子带滤波器系数;通过使用从子带滤波器系数中提取的混响时间信息来获 得对应子带的平均混响时间信息;获得用于所获得的平均混响时间信息的曲线拟合的至少一个系数;获得指示BRIR滤波器系数在时域中的长度是否超过预先确定的值的标志信息;获得用于确定子带滤波器系数的截断长度的滤滤器阶数信息,滤波器阶数信息是根据所获得的标志信息通过使用平均混响时间信息或至少一个系数来获得的,并且至少一个子带的滤波器阶数信息不同于另一子带的滤波器阶数信息;以及通过使用所获得的滤波器阶数信息截断子带滤波器系数。

本发明的示例性实施例提供一种用于生成用于音频信号的滤波器的参数化装置,其中:参数化装置接收用于输入音频信号的双耳滤波的至少一个双耳室脉冲响应(BRIR)滤波器系数;将BRIR滤波器系数转换成多个子带滤波器系数;通过使用从子带滤波器系数中提取的混响时间信息来获得对应子带的平均混响时间信息;获得用于所获得的平均混响时间信息的曲线拟合的至少一个系数;获得指示BRIR滤波器系数在时域中的长度是否超过预先确定的值的标志信息;获得用于确定子带滤波器系数的截断长度的滤滤器阶数信息,滤波器阶数信息是根据所获得的标志信息通过使用平均混响时间信息或至少一个系数来获得的,并且至少一个子带的滤波器阶数信息不同于另一子带的滤波器阶数信息;以及通过使用所获得的滤波器阶数信息截断子带滤波器系数。

根据本发明的示例性实施例,当标志信息指示BRIR滤波器系数的长度超过预先确定的值时,可以通过使用所获得的至少一个系数基于曲线拟合值来确定滤波器阶数信息。

在这样的情况下,可以使用通过将至少一个系数用作指数执行多项式曲线拟合的近似整数值来将经曲线拟合的滤波器阶数信息确定为2的幂的值。

此外,根据本发明的示例性实施例,当标志信息指示BRIR滤波 器系数的长度不超过预先确定的值时,可以在无需执行曲线拟合的情况下基于对应子带的平均混响时间信息确定滤波器阶数信息。

在此,可以使用平均混响时间信息的对数标度的近似整数值作为指数来将滤波器阶数信息确定为2的幂的值。

此外,可以将滤波器阶数信息确定为基于平均混响时间信息而确定的对应子带的参考截断长度以及子带滤波器系数的原始长度中的较小值。

另外,参考截断长度可以是2的幂的值。

此外,滤波器阶数信息对于每个子带可以具有单个值。

根据本发明的示例性实施例,平均混响时间信息可以是从相同子带的至少一个子带滤波器系数中提取的每个声道的混响时间信息的平均值。

本发明的另一示例性实施例提供一种用于处理音频信号的方法,包括:接收输入音频信号;接收用于输入音频信号的双耳滤波的至少一个双耳室脉冲响应(BRIR)滤波器系数;将BRIR滤波器系数转换成多个子带滤波器系数;获得指示BRIR滤波器系数在时域中的长度是否超过预先确定的值的标志信息;基于通过至少部分地使用从对应的子带滤波器系数中提取的特性信息获得的滤波器阶数信息截断每个子带滤波器系数,被截断的子带滤波器系数是基于标志信息执行其能量补偿的滤波器系数,并且至少一个被截断的子带滤波器系数的长度不同于另一子带的被截断的子带滤波器系数的长度;以及通过使用被截断的子带滤波器系数来滤波输入音频信号的每个子带信号。

本发明的另一示例性实施例提供一种用于为输入音频信号的双耳 渲染而处理音频信号的设备,包括:参数化单元,该参数化单元生成用于输入音频信号的滤波器;以及双耳渲染单元,该双耳渲染单元接收输入音频信号并且通过使用由参数化单元生成的参数来滤波输入音频信号,其中,参数化单元接收用于输入音频信号的双耳滤波的至少一个双耳室脉冲响应(BRIR)滤波器系数;将BRIR滤波器系数转换成多个子带滤波器系数;获得指示BRIR滤波器系数在时域中的长度是否超过预先确定的值的标志信息;基于通过至少部分地使用从对应的子带滤波器系数中提取的特性信息获得的滤波器阶数信息截断每个子带滤波器系数,被截断的子带滤波器系数是基于标志信息执行其能量补偿的滤波器系数,并且至少一个被截断的子带滤波器系数的长度不同于另一子带的被截断的子带滤波器系数的长度;并且双耳渲染单元通过使用被截断的子带滤波器系数来滤波输入音频信号的每个子带信号。

本发明的另一示例性实施例提供一种用于生成用于音频信号的滤波器的参数化装置,其中:参数化装置接收用于输入音频信号的双耳滤波的至少一个双耳室脉冲响应(BRIR)滤波器系数;将BRIR滤波器系数转换成多个子带滤波器系数;获得指示BRIR滤波器系数在时域中的长度是否超过预先确定的值的标志信息;并且基于通过至少部分地使用从对应的子带滤波器系数中提取的特性信息获得的滤波器阶数信息截断每个子带滤波器系数,被截断的子带滤波器系数是基于标志信息执行其能量补偿的滤波器系数,并且至少一个被截断的子带滤波器系数的长度不同于另一子带的被截断的子带滤波器系数的长度。

在这样的情况下,当标志信息指示BRIR滤波器系数的长度不超过预先确定的值时可以执行能量补偿。

此外,可以通过将直到基于滤波器阶数信息的截断点的滤波器系数除以直到截断点的滤波器功率、并且乘以对应的滤波器系数的总滤波器功率来执行能量补偿。

根据本示例性实施例,该方法还可以包括:当标志信息指示BRIR滤波器系数的长度超过预先确定的值时,执行与子带滤波器系数当中的继被截断的子带滤波器系数之后的时段相对应的子带信号的混响处理。

此外,特性信息可以包括对应的子带滤波器系数的混响时间信息并且滤波器阶数信息对于每个子带可以具有单个值。

本发明的又一个示例性实施例提供一种用于生成用于音频信号的滤波器的方法,包括:接收用于输入音频信号的双耳滤波的至少一个时域双耳室脉冲响应(BRIR)滤波器系数;获得时域BRIR滤波器系数的传播时间信息,传播时间信息表示从初始采样到BRIR滤波器系数的直接声音的时间;QMF转换继获得的传播时间信息之后的时域BRIR滤波器系数以生成多个子带滤波器系数;通过至少部分地使用从子带滤波器系数中提取的特性信息来获得用于确定子带滤波器系数的截断长度的滤波器阶数信息,至少一个子带的滤波器阶数信息不同于另一子带的滤波器阶数信息;以及基于所获得的滤波器阶数信息截断子带滤波器系数。

本发明的又一个示例性实施例提供了一种用于生成用于音频信号的滤波器的参数化装置,其中:参数化装置接收用于输入音频信号的双耳滤波的至少一个时域双耳室脉冲响应(BRIR)滤波器系数;获得时域BRIR滤波器系数的传播时间信息,传播时间信息表示从初始采样到BRIR滤波器系数的直接声音的时间;QMF转换继所获得的传播时间信息之后的时域BRIR滤波器系数以生成多个子带滤波器系数;通过至少部分地使用从子带滤波器系数中提取的特性信息来获得用于确定子带滤波器系数的截断长度的滤波器阶数信息,至少一个子带的滤波器阶数信息不同于另一子带的滤波器阶数信息;并且基于所获得的滤波器阶数信息截断子带滤波器系数。

在这样的情况下,获得传播时间信息还包括:通过移位预先确定的跳跃大小来测量帧能量;识别其中帧能量大于预先确定的阈值的第一帧;以及基于识别的第一帧的位置信息获得传播时间信息。

此外,测量帧能量可以相对于相同时间间隔针对每个声道测量帧能量的平均值。

根据本示例性实施例,可以将阈值确定为比所测量到的帧能量的最大值低了预先确定的比例的值。

此外,特性信息可以包括相对应的子带滤波器系数的混响时间信息,并且滤波器阶数信息对于每个子带可以具有单个值。

有益效果

根据本发明的示例性实施例,当执行对于多声道或者多对象信号的双耳渲染时,能够显著地减少计算复杂性同时最小化音质的损耗。

根据本发明的示例性实施例,能够实现其实时处理在现有的低功率设备中不可行的多声道或者多对象音频信号的高音质的双耳渲染。

本发明提供一种以低计算复杂性有效地执行对于包括输入的音频信号的各种形式的多媒体信号的滤波的方法。

附图说明

图1是图示根据本发明的示例性实施例的音频信号解码器的框图。

图2是图示根据本发明的示例性实施例的双耳渲染器的每个组件的框图。

图3至图7是图示根据本发明的实施例的用于处理音频信号的设 备的各种示例性实施例的图。

图8至图10是图示根据本发明的示例性实施例的用于生成用于双耳渲染的FIR滤波器的方法的图。

图11是图示本发明的P部分渲染单元的各种示例性实施例的图。

图12和图13是图示本发明的QTDL处理的各种示例性实施例的图。

图14是图示本发明的实施例的BRIR参数化单元的相应的组件的框图。

图15是图示本发明的实施例的F部分参数化单元的相应的组件的框图。

图16是图示本发明的实施例的F部分参数生成单元的详细配置的框图。

图17和图18是图示用于生成用于块方式快速卷积的FFT滤波器系数的方法的示例性实施例的图。

图19是图示本发明的实施例的QTDL参数化单元的相应的组件的框图。

具体实施方式

作为在本说明书中使用的术语,通过考虑本发明中的功能,当前尽可能被广泛地使用的通用术语被选择,但是它们可以取决于本领域中的技术人员的意图、习惯或者新技术的出现而被改变。此外,在特定的情况下,申请人任意地选择的术语可以被使用,并且在此情况下,在本发明的相对应的描述部分中辨别其意义。因此,贯穿整个说明书,将会公开在本说明书中使用的术语应基于不是仅术语的名称而且术语的本质意义和内容分析。

图1是图示根据本发明的示例性实施例的音频信号解码器的框图。根据本发明的音频信号解码器包括核心解码器10、渲染单元20、混合器30以及后处理单元40。

首先,核心解码器10解码扬声器声道信号、离散对象信号、对象缩混信号、以及预渲染的信号。根据示例性实施例,在核心解码器10中,基于统一的语音和音频编译(USAC)的编解码器可以被使用。核心解码器10解码接收到的比特流并且将被解码的比特流传输到渲染单元20。

渲染单元20通过使用再现布局信息执行对通过核心解码器10解码的信号渲染。渲染单元20可以包括格式转换器22、对象渲染器24、OAM解码器25、SAOC解码器26、以及HOA解码器28。渲染单元20根据被解码的信号的类型通过使用上述组件中的任何一个执行渲染。

格式转换器22将发送的声道信号转换成输出扬声器声道信号。即,格式转换器22在发送的声道配置和要被再现的扬声器声道配置之间执行转换。当输出扬声器声道的数目(例如,5.1声道)小于发送的声道的数目(例如,22.2声道)或者发送的声道配置不同于要被再现的声道配置时,格式转换器22执行发送的声道信号的缩混。本发明的音频信号解码器可以通过使用输入声道信号和输出扬声器声道信号的组合生成最佳的缩混矩阵,并且通过使用该矩阵执行缩混。根据本发明的示例性实施例,通过格式转换器22处理的声道信号可以包括预渲染的对象信号。根据示例性实施例,在编码音频信号以与声道信号混合之前,预渲染至少一个对象信号。与声道信号一起,如上所述的被混合的对象信号可以被格式转换器22转换成输出扬声器声道信号。

对象渲染器24和SAOC解码器26执行对于基于对象的音频信号的渲染。基于对象的音频信号可以包括离散对象波形和参数对象波形。在离散对象波形的情况下,每个对象信号以单声波形被提供给编码器,并且编码器通过使用单个声道要素(SCE)发送对象信号中的每个。在参数对象波形的情况下,多个对象信号被缩混成至少一个声道信号,并且每个对象的特征和对象之间的关系被表达为空间音频对象编译 (SAOC)参数。对象信号被缩混以被编码到核心编解码器,并且此时生成的参数信息被一起发送到解码器。

同时,当离散对象波形或者参数对象波形被发送到音频信号解码器时,与其相对应的被压缩的对象元数据可以被一起发送。对象元数据以时间和空间为单位量化对象属性,以在3D空间中指定每个对象的位置和增益值。渲染单元20的OAM解码器25接收被压缩的对象元数据并且解码接收到的对象元数据,并且将被解码的对象元数据传输到对象渲染器24和/或SAOC解码器26。

对象渲染器24通过使用对象元数据根据给定的再现格式执行渲染每个对象信号。在这样的情况下,基于对象元数据,每个对象信号可以被渲染到特定的输出声道。SAOC解码器26从解码的SAOC传输声道和参数信息恢复对象/声道信号。SAOC解码器26可以基于再现布局信息和对象元数据生成输出音频信号。正因如此,对象渲染器24和SAOC解码器26可以将对象信号渲染到声道信号。

HOA解码器28接收高阶环境声(HOA)系数信号和HOA附加信息,并且解码接收到的HOA系数信号和HOA附加信息。HOA解码器28通过单独的等式建模声道信号或者对象信号,以生成声音场景。当选择在生成的声音场景中的扬声器的空间位置时,可以执行到扬声器声道信号的渲染。

同时,虽然在图1中未被图示,当音频信号被传输到渲染单元20的每个组件时,动态范围控制(DRC)可以作为预处理过程被执行。DRX将再现的音频信号的动态范围限于预先确定的水平,并且将小于预先确定的阈值的声音调节成较大并且将大于预先确定的阈值的声音调节成较小。

通过渲染单元20处理的基于声道的音频信号和基于对象的音频 信号可以被传输到混合器30。混合器30调节基于声道的波形和被渲染的对象波形的延迟,并且以采样为单位求和被调节的波形。通过混合器30求和的音频信号被传输到后处理单元40。

后处理单元40包括扬声器渲染器100和双耳渲染器200。扬声器渲染器100执行用于输出从混合器30传输的多声道和/或多对象音频信号的后处理。后处理可以包括动态范围控制(DRC)、响度标准化(LN)、峰值限制器(PL)等等。

双耳渲染器200生成多声道和/或多对象音频信号的双耳缩混信号。双耳缩混信号是允许通过以3D定位的虚拟声源表达每个输入声道/对象信号的2声道音频信号。双耳渲染器200可以接收被提供给扬声器渲染器100的音频信号作为输入信号。基于双耳室脉冲响应(BRIR)滤波器执行双耳渲染,并且在时域或者QMF域中执行。根据示例性实施例,作为双耳渲染的后处理过程,动态范围控制(DRC)、响度标准化(LN)、峰值限制器(PL)等等可以被另外执行。

图2是图示根据本发明的示例性实施例的双耳渲染器的每个组件的框图。如在图2中所图示,根据本发明的示例性实施例的双耳渲染器200可以包括BRIR参数化单元300、快速卷积单元230、后期混响生成单元240、QTDL处理单元250以及混合器和组合器260。

双耳渲染器200通过执行各种类型的输入信号的双耳渲染生成3D音频耳机信号(即,3D音频2声道信号)。在这样的情况下,输入信号可以是包括声道信号(即,扬声器声道信号)、对象信号、以及HOA系数信号中的至少一个的音频信号。根据本发明的另一示例性示例,当双耳渲染器200包括特殊的解码器时,输入信号可以是前述的音频信号的被编码的比特流。双耳渲染将解码的输入信号转换成双耳缩混信号以使其能够在通过耳机听相对应的双耳缩混信号时体验环绕的声音。

根据本发明的示例性实施例,双耳渲染器200可以在QMF域中执行输入信号的双耳渲染。这就是说,双耳渲染器200可以接收QMF域的多声道(N个声道)的信号,并且通过使用QMF域的BRIP子带滤波器执行用于多声道的信号的双耳渲染。当通过xk,i(l)表示经过QMF分析滤波器组的第i个声道的第k个子带信号并且通过1表示子带域中的时间索引时,可以通过下面给出的等式表达QMF域中的双耳渲染。

[等式2]

在此,m是L或R,并且通过将时域BRIR滤波器转换成QMF域的子带滤波器获得

也就是说,可以通过将QMF域的声道信号或者对象信号划分成多个子带信号并且利用与其相对应的BRIR子带滤波器卷积相应的子带信号,并且其后,求和通过BRIR子带滤波器卷积的相应的子带信号的方法,可以执行双耳渲染。

BRIR参数化单元300转换和编辑用于QMF域中的双耳渲染的BRIR滤波器系数并且生成各种参数。首先,BRIR参数化单元300接收用于多声道或者多对象的时域BRIR滤波器系数,并且将接收到的时域BRIR滤波器系数转换成QMF域BRIR滤波器系数。在这样的情况下,QMF域BRIR滤波器系数包括与多个频带分别相对应的多个子带滤波器系数。在本发明中,子带滤波器系数指示QMF转换的子带域的每个BRIR滤波器系数。在本说明书中,子带滤波器系数可以被指定为BRIR子带滤波器系数。BRIR参数化单元300可以编辑QMF域的多个BRIR子带滤波器系数中的每个,并且将被编辑的子带滤波器系数传输到快速卷积单元230等等。根据本发明的示例性实施例,BRIR参数化单元300可以被包括作为双耳渲染器200的组件,否则比提供作为单独的设备。根据示例性示例,包括除了BRIR参数化单元300之外的快 速卷积单元230、后期混响生成单元240、QTDL处理单元250、以及混合器和组合器260的组件可以被分类成双耳渲染单元220。

根据示例性实施例,BRIR参数化单元300可以接收与虚拟再现空间的至少一个位置相对应的BRIR滤波器系数作为输入。虚拟再现空间的每个位置可以对应于多声道系统的每个扬声器位置。根据示例性实施例,通过BRIR参数化单元300接收到的BRIR滤波器系数中的每个可以直接地匹配双耳渲染器200的输入信号的每个声道或者每个对象。相反地,根据本发明的另一示例性实施例,接收到的BRIR滤波器系数中的每个可以具有与双耳渲染器200的输入信号独立的配置。即,通过BRIR参数化单元300接收到的BRIR滤波器系数的至少一部分可以不直接匹配双耳渲染器200的输入信号,并且接收到的BRIR滤波器系数的数目可以小于或者大于输入信号的声道和/或对象的总数目。

BRIR参数化单元300可以附加地接收控制参数信息,并且基于所接收到的控制参数信息生成用于双耳渲染的参数。控制参数信息可以包括如在下面描述的示例性实施例中所描述的复杂性质量控制参数等,并且被用作用于BRIR参数化单元300的各种参数化处理的阈值。BRIR参数化单元300基于输入值生成双耳渲染参数,并且将所生成的双耳渲染参数传输到双耳渲染单元220。当所输入的BRIR滤波器系数或控制参数信息将被改变时,BRIR参数化单元300可以重新计算双耳渲染参数并且将重新计算的双耳渲染参数传输到双耳渲染单元。

根据本发明的示例性实施例,BRIR参数化单元300转换和编辑与双耳渲染器200的输入信号的每个声道或者每个对象相对应的BRIR滤波器系数,以将被转换和编辑的BRIR滤波器系数传输到双耳渲染单元220。相对应的BRIR滤波器系数可以是用于每个声道或者每个对象的匹配BRIR或者回退BRIR。BRIR匹配可以被确定在虚拟再现空间中是否存在针对每个声道或者每个对象的位置的BRIR滤波器系数。在这样的情况下,从用信号发送声道配置的输入参数可以获得每个声道(或 者对象)的位置信息。当针对输入信号的相应的声道或者相应的对象的位置中的至少一个的BRIR滤波器系数存在时,BRIR滤波器系数可以是输入信号的匹配BRIR。然而,当针对特定声道或者对象的位置的BRIR滤波器系数不存在时,BRIR参数化单元300可以提供针对与相对应的声道或者对象大部分相似的位置的BRIR滤波器系数,作为用于相对应的声道或者对象的回退BRIR。

首先,当存在具有在距所期待的位置(特定的声道或者对象)预先确定的范围内的高度和方位偏差的BRIR滤波器系数时,相对应的BRIR滤波器系数可以被选择。换言之,可以选择具有在距所期待的位置的+/-20内的相同的高度和方位偏差的BRIR滤波器系数。当不存在相对应的BRIR滤波器系数时,在BRIR滤波器系数集合中的具有距所期待的位置最小地理距离的BRIR滤波器系数可以被选择。即,可以选择使在相对应的BRIR的位置和所期待的位置之间的地理距离最小化的BRIR滤波器系数。在此,BRIR的位置表示与相关的BRIR滤波器系数相对应的扬声器的位置。此外,在两个位置之间的地理距离可以被定义为通过两个位置的高度偏差的绝对值和方位偏差的绝对值的求和获得的值。

同时,根据本发明的另一示例性实施例,BRIR参数化单元300转换和编辑接收到的BRIR滤波器系数的全部,以将转换和编辑的BRIR滤波器系数传输到双耳渲染单元220。在这样的情况下,通过双耳渲染单元220可以执行与输入信号的每个声道或者每个对象相对应的BRIR滤波器系数(可替选地,编辑的BRIR滤波器系数)的选择过程。

当BRIR参数化单元300由除双耳渲染单元220之外的装置构成时,由BRIR参数化单元300生成的双耳渲染参数可以作为比特流被发送到双耳渲染单元220。双耳渲染单元220可以通过对所接收到的比特流进行解码来获得双耳渲染参数。在这样的情况下,发送的双耳渲染参数包括在双耳渲染单元220的每个子单元中进行处理所需要的各种 参数,并且可以包括经转换和编辑的BRIR滤波器系数或原始BRIR滤波器系数。

双耳渲染单元220包括快速卷积单元230、后期混响生成单元240、以及QTDL处理单元250,并且接收包括多声道和/或多对象信号的多音频信号。在本说明书中,包括多声道和/或多对象信号的输入信号将会被称为多音频信号。图2图示双耳渲染单元220根据示例性实施例接收QMF域的多声道信号,但是双耳渲染单元220的输入信号可以进一步包括时域多声道信号和时域多对象信号。此外,当双耳渲染单元220另外包括特定的解码器时,输入信号可以是多音频信号的被编码的比特流。此外,在本说明书中,基于执行多音频信号的BRIR渲染的情况描述了本发明,但是本发明不限于此。因此,通过本发明提供的特征不仅可以被应用于BRIR而且可以被应用于其它类型的渲染滤波器,并且不仅被应用于多音频信号而且被应用于单声道或者单对象的音频信号。

快速卷积单元230执行在输入信号和BRIR滤波器之间的快速卷积以处理用于输入信号的直接声音和前期反射声音。为此,快速卷积单元230可以通过使用被截断的BRIR执行快速卷积。被截断的BRIR包括取决于每个子带频率截断的多个子带滤波器系数,并且通过BRIR参数化单元300生成。在这样的情况下,取决于相对应的子带的频率确定每个被截断的子带滤波器系数的长度。快速卷积单元230可以通过使用根据子带具有不同长度的被截断的子带滤波器系数在频域中执行可变阶滤波。即,在用于每个频带的QMF域子带音频信号和与其相对应的QMF域的被截断的子带滤波器之间可以执行快速卷积。在本说明书中,直接声音和前期反射(D&E)部分可以被称为前(F)部分。

后期混响生成单元240生成用于输入信号的后期混响信号。后期混响信号表示跟随由快速卷积单元230生成的直接声音和前期反射声音的输出信号。后期混响生成单元240可以基于通过从BRIR参数化单 元300传输的每个子带滤波器系数确定的混响时间信息处理输入信号。根据本发明的示例性实施例,后期混响生成单元240可以生成用于输入音频信号的单声或者立体声缩混信号,并且执行被生成的缩混信号的后期混响处理。在本说明书中,后期混响(LR)部分可以被称为参数(P)部分。

QMF域抽头延迟线(QTDL)处理单元250处理输入音频信号当中的高频带中的信号。QTDL处理单元250从BRIR参数化单元300接收对应于高频带中的每个子带信号的至少一个参数,并且通过使用接收到的参数在QMF域中执行抽头延迟时间滤波。根据本发明的示例性实施例,基于预先确定的常数或者预先确定的频带,双耳渲染器200将输入音频信号分离成低频带信号和高频带信号,并且分别可以通过快速卷积单元230和后期混响生成单元240处理低频带信号,并且可以通过QTDM处理单元处理高频带信号。

快速卷积单元230、后期混响生成单元240、以及QTDL处理单元250中的每个输出2声道QMF域子带信号。混合器和组合器260组合并混合快速卷积单元230的输出信号、后期混响生成单元240的输出信号,以及QTDL处理单元250的输出信号。在这样的情况下,为2个声道的左右输出信号中的每个单独地执行输出信号的组合。双耳渲染器200在时域中对被组合的输出信号执行QMF合成以生成最终的输出音频信号。

在下文中,参考每个附图将会详细地描述在图2中图示的快速卷积单元230、后期混响生成单元240、以及QTDM处理单元250及其组合的各种示例性实施例。

图3至图7图示根据本发明的用于处理音频信号的设备的各种示例性实施例。在本发明中,作为狭义,用于处理音频信号的设备可以指示如在图2中图示的双耳渲染器200或者双耳渲染单元220。然而, 在本发明中,作为广义,用于处理音频信号的设备可以指示包括双耳渲染器的图1的音频信号解码器。为了描述的方便起见在图3至图7中图示的每个双耳渲染器可以仅指示在图2中图示的双耳渲染器200的一些组件。此外,在下文中,在本说明书中,将会主要地描述多声道输入信号的示例性实施例,但是除非另外描述,否则声道、多声道、以及多声道输入信号可以分别被用作包括对象、多对象、以及多对象输入信号的概念。此外,多声道输入信号也可以被用作包括HOA解码和渲染的信号的概念。

图3图示根据本发明的示例性实施例的双耳渲染器200A。当使用BRIR的双耳渲染被一般化时,双耳渲染是用于获取用于具有M个声道的多声道输入信号的O输出信号的M至O处理。双耳滤波可以被视为在这样的过程期间使用与每个输入声道和每个输出声道相对应的滤波器系数的滤波。在图3中,初始滤波器集合H意指从每个声道信号的扬声器位置直到左耳和右耳的位置的传递函数。在传递函数当中的在一般收听室,即,混响空间中测量的传递函数被称为双耳室脉冲响应(BRIR)。相反地,在无回声室测量使得没有被再现空间影响的传递函数被称为头相关脉冲响应(HRIR),并且其传递函数被称为头相关传递函数。因此,不同于HRTF,BRIR包含再现空间的信息以及方向信息。根据示例性实施例,可以通过使用HRTF和人工混响器代替BRIR。在本说明书中,描述了使用BRIR的双耳渲染,但是本发明不限于此,并且通过使用类似的或者对应的方法,本发明甚至可以应用于使用包括HRIR和HRTF的各种类型的FIR滤波器的双耳渲染。此外,本发明能够被应用于用于输入信号的各种形式的滤波以及用于音频信号的双耳渲染。同时,BRIR可以具有如上所述的96K个采样的长度,并且因为通过使用不同的M*O个滤波器执行多声道双耳渲染,要求有具有高计算复杂性的处理过程。

根据本发明的示例性实施例,为了优化计算复杂性,BRIR参数化单元300可以生成从原始滤波器集合H变换的滤波器系数。BRIR参数 化单元300将原始滤波器系数分离成前(F)部分系数和参数(P)部分系数。在此,F部分表示直接声音和前期反射(D&E)部分,P部分表示后期混响(LR)部分。例如,具有96K个采样的长度的原始滤波器系数可以被分离成其中仅前面的4K个采样被截断的F部分和与剩余的92K个采样相对应的部分的P部分中的每个。

双耳渲染单元220从BRIR参数化单元300接收F部分系数和P部分系数中的每个,并且通过使用接收到的系数执行渲染多声道输入信号。根据本发明的示例性实施例,在图2中图示的快速卷积单元230通过使用从BRIR参数化单元300接收到的F部分系数渲染多音频信号,并且后期混响生成单元240可以通过使用从BRIR参数化单元300接收到的P部分系数渲染多音频信号。即,快速卷积单元230和后期混响生成单元240可以分别对应于本发明的F部分渲染单元和P部分渲染单元。根据示例性实施例,通过一般的有限脉冲响应(FIR)滤波器可以实现F部分渲染(使用F部分系数的双耳渲染),并且通过参数方法可以实现P部分渲染(使用P部分系数的双耳渲染)。同时,通过用户或者控制系统提供的复杂性质量控制输入可以被用于确定对F部分和/或P部分生成的信息。

图4图示根据本发明的另一示例性实施例的通过双耳渲染器200B实现F部分渲染的更加详细的方法。为了描述的方便起见,在图4中P部分渲染单元被省略。此外,图4图示在QMF域中实现的滤波器,但是本发明不限于此,并且可以被应用于其它域的子带处理。

参考图4,在QMF域中通过快速卷积单元230可以执行F部分渲染。对于在QMF域中的渲染,QMF分析单元222将时域输入信号x0、x1、…x_M-1转换成QMF域信号X0、X1、…X_M-1。在这样的情况下,输入信号x0、x1、…x_M-1可以是多声道音频信号,即,与22.2声道扬声器相对应的声道信号。在QMF域中,可以使用总共64个子带,但是本发明不限于此。同时,根据本发明的示例性实施例,从双 耳渲染器200B中可以省略QMF分析单元222。在使用谱带复制(SBR)的HE-AAC或者USAC的情况下,因为在QMF域中执行处理,所以双耳渲染器200B可以在没有QMF分析的情况下立即接收作为输入的QMF域信号X0、X1、…X_M-1。因此,当QMF域信号作为如上所述的输入被直接地接收时,在根据本发明的双耳渲染器中使用的QMF与在先前的处理单元(即,SBR)中使用的QMF相同。QMF合成单元244QMF合成2个声道的左和右信号Y_L和Y_R,其中执行双耳渲染,以生成时域的2声道输出音频信号yL和yR。

图5至图7分别图示执行F部分渲染和P部分渲染两者的双耳渲染器200C、200D以及200E的示例性实施例。在图5至图7的示例性实施例中,在QMF域中通过快速卷积单元230执行F部分渲染,并且在QMF域或者时域中通过后期混响生成单元240执行P部分渲染。在图5至图7的示例性实施例中,将会省略与先前的附图的示例性实施例重复的部分的详细描述。

参考图5,双耳渲染器200C可以在QMF域中执行F部分渲染和P部分渲染两者。即,双耳渲染器200C的QMF分析单元222将时域输入信号x0、x1、…x_M-1转换成QMF域信号X0、X1、…X_M-1以将被转换的QMF域信号X0、X1、…X_M-1中的每个传输到快速卷积单元230和后期混响生成单元240。快速卷积单元230和后期混响生成单元240分别渲染QMF域信号X0、X1、…X_M-1以生成2声道输出信号Y_L、Y_R和Y_Lp、Y_Rp。在这样的情况下,快速卷积单元230和后期混响生成单元240可以通过分别使用BRIR参数化单元300接收到的F部分滤波器系数和P部分滤波器系数执行渲染。F部分渲染的输出信号Y_L和Y_R与P部分渲染的输出信号Y_Lp和Y_Rp在混合器和组合器260中被组合用于左和右声道的每个,并且被传输到QMF合成单元224。QMF合成单元224QMF合成输入的2个声道的左右信号以生成时域的2声道输出音频信号yL和yR。

参考图6,双耳渲染器200D可以执行QMF域中的F部分渲染和时域中的P部分渲染。双耳渲染器200D的QMF分析单元222QMF转换时域输入信号,并且将被转换的时域输入信号传输到快速卷积单元230。快速卷积单元230执行F部分渲染QMF域信号以生成2声道输出信号Y_L和Y_R。QMF分析单元224将F部分渲染的输出信号转换成时域输出信号,并且将被转换的时域输出信号传输到混合器和组合器260。同时,后期混响生成单元240通过直接地接收时域输入信号执行P部分渲染。P部分渲染的输出信号yLp和yRp被传输到混合器和组合器260。混合器和组合器260在时域中组合F部分渲染输出信号和P部分渲染输出信号,以在时域中生成2声道输出音频信号yL和yR。

在图5和图6的示例性实施例中,并行地执行F部分渲染和P部分渲染,同时根据图7的示例性实施例,双耳渲染器200E可以顺序地执行F部分渲染和P部分渲染。即,快速卷积单元230可以执行F部分渲染QMF转换的输入信号,并且QMF合成单元224可以将F部分渲染的2声道信号Y_L和Y_R转换成时域信号,并且其后,将转换的时域信号传输到后期混响生成单元240。后期混响生成单元240执行P部分渲染输入2声道信号以生成时域的2声道输出音频信号yL和yR。

图5至图7分别图示执行F部分渲染和P部分渲染的示例性实施例,并且相应的附图的示例性实施例被组合和修改以执行双耳渲染。也就是说,在每个示例性实施例中,双耳渲染器可以将输入信号缩混成2声道左右信号或者单声信号,并且其后执行P部分渲染缩混信号以及分开地执行P部分渲染输入的多音频信号中的每个。

<频域中的可变阶滤波(VOFF)>

图8至图10图示根据本发明的示例性实施例的用于生成用于双耳渲染的FIR滤波器的方法。根据本发明的示例性实施例,被转换成QMF域的多个子带滤波器的FIR滤波器可以被用于QMF域中的双耳渲染。在这样的情况下,取决于每个子带截取的子带滤波器可以被用于F部 分渲染。即,双耳渲染器的快速卷积单元可以通过使用根据子带具有不同长度的被截断的子带滤波器在QMF域中执行可变阶滤波。在下文中,可以通过图2的BRIR参数化单元300执行将会在下面描述的图8至图10中的滤波器生成的示例性实施例。

图8图示根据被用于双耳渲染的QMF域滤波器的每个QMF带的长度的示例性实施例。在图8的示例性实施例中,FIR滤波器被转换成K个QMF子带滤波器,并且Fk表示QMF子带k的被截断的子带滤波器。在QMF域中,总共64个子带可以被使用,但是本发明不限于此。此外,N表示原始子带滤波器的长度(抽头的数目),并且分别通过N1、N2以及N3表示被截断的子带滤波器的长度。在这样的情况下,长度N、N1、N2以及N3表示在降采样的QMF域中的抽头的数目。

根据本发明的示例性实施例,根据每个子带具有不同的长度N1、N2以及N3的被截断的子带滤波器可以被用于F部分渲染。在这样的情况下,被截断的子带滤波器是在原始子带滤波器中截断的前滤波器,并且也可以被指定为前子带滤波器。此外,在截取原始子带滤波器之后的后部分可以被指定为后子带滤波器并且被用于P部分渲染。

在使用BRIR滤波器渲染的情况下,基于从初始BRIR滤波器提取的参数,即,用于每个子带滤波器的混响时间(RT)信息、能量衰减曲线(EDC)值、能量衰减时间信息等等,用于每个子带的滤波器阶数(即,滤波器长度)可以被确定。由于声学特性,其中取决于墙和天花板的材料的在空气中的衰减和声音吸收程度对于每个频率变化,因此混响时间取决于频率而变化。通常,具有更低的频率的信号具有更长的混响时间。因为混响时间长意指更多的信息保留在FIR滤波器的后部中,所以优选的是,在正常传输混响信息中长地截断相对应的滤波器。因此,至少基于从相对应的子带滤波器提取的特性信息(例如,混响时间信息),确定本发明的每个被截断的子带滤波器的长度。

根据各种示例性实施例可以确定被截断的子带滤波器的长度。首先,根据示例性实施例,每个子带可以被分类成多个组,并且每个被截断的子带滤波器的长度可以根据被分类的组而被确定。根据图8的示例,每个子带可以被分类成三个区段区段1、区段2、以及区段3,并且与低频率相对应的区段1的被截断的子带滤波器可以具有比与高频率相对应的区段2和区段3的被截断的子带滤波器更长的滤波器阶数(即,滤波器长度)。此外,相对应的区段的被截断的子带滤波器的滤波器阶数可以朝着具有高频率的区段逐渐地减少。

根据本发明的另一示例性实施例,根据原始子带滤波器的特性信息,可以为每个子带独立地或者可变地确定每个被截断的子带滤波器的长度。每个被截断的子带滤波器的长度基于在相对应的子带中确定的截断长度确定,并且不受相邻的或者其它的子带的被截断的字段滤波器的长度影响。也就是说,区段2的一些或者所有的被截断的子带滤波器的长度可能比区段1的至少一个被截断的子带滤波器的长度长。

根据本发明的另一示例性实施例,可以仅相对于被分类成多个组的一些子带执行在频域中的可变阶滤波。即,仅相对于属于至少两个被分类的组当中的一些组的子带,可以生成具有不同长度的被截断的子带滤波器。根据示例性实施例,其中生成被截断的子带滤波器的组可以是基于预先确定的常数或者预先确定的频带被分类成低频带的子带组(也就是说,区段1)。例如,当最初的BRIR滤波器的采样频率是48kHz时,最初的BRIR滤波器可以被变换成总共64个QMF子带滤波器(K=64)。在这样的情况下,相对于与所有0至24kHz带的一半的0至12个kHz带相对应的子带,即,以低频带的顺序具有索引0至31的总共32个子带,可以仅生成被截断的子带滤波器。在这样的情况下,根据本发明的示例性实施例,具有0索引的子带的被截断的子带滤波器的长度比具有31索引的子带的被截断的子带滤波器的大。

基于通过用于处理音频信号获得的附加信息,即,复杂性、复杂 程度(属性)、或者解码器的所要求的质量信息,可以确定被截断的滤波器的长度。根据用于处理音频信号的设备的硬件资源或者用户直接地输入的值可以确定复杂性。质量可以根据用户的请求被确定,或者参考通过比特流发送的值或者在比特流中包括的其它信息来确定。此外,也可以根据通过估计被发送的音频信号的质量获得值确定质量,也就是说,随着比特率跟高,质量可以被视为更高的质量。在这样的情况下,每个被截断的子带滤波器的长度可以根据复杂性和质量按比例地增加,并且可以以用于每个带的不同的比率变化。此外,为了通过诸如下面要描述的FFT的高速处理获取附加的增益等等,每个被截断的子带滤波器的长度可以被确定为与附加的增益相对应的大小单元,也就是说,2的幂的倍数。相反地,当被确定的被截断的滤波器的长度比实际子带滤波器的总长度长时,被截断的子带滤波器的长度可以被调节成实际子带滤波器的长度。

BRIR参数化单元生成与根据前述的示例性实施例确定的相应的被截断的子带滤波器相对应的被截断的子带滤波器系数(F部分系数),并且将生成的被截断的子带滤波器系数传输到快速卷积单元。快速卷积单元通过使用被截断的子带滤波器系数在多音频信号的每个子带信号的频域中执行可变阶滤波。即,相对于作为彼此不同的频带的第一子带和第二子带,快速卷积单元通过对第一子带信号应用第一被截断的子带滤波器系数来生成第一子带双耳信号,并且通过对第二子带信号应用第二被截断的子带滤波器系数来生成第二子带双耳信号。在这样的情况下,第一被截断的子带滤波器系数和第二被截断的子带滤波器系数可以具有不同的长度,并且是在时域中从相同的原型滤波器获得的。

图9图示被用于双耳渲染的QMF域滤波器的每个QMF带的长度的另一示例性实施例。在图9的示例性实施例中,与图8的示例性实施例相同或者对应于图8的示例性实施例的部分的重复描述将会被省略。

在图9的示例性实施例中,Fk表示被用于QMF子带k的F部分渲染的被截断的子带滤波器(前子带滤波器),并且Pk表示被用于QMF子带k的P部分渲染的后子带滤波器。N表示原始子带滤波器的长度(抽头的数目),并且NkF和NkP分别表示子带k的前子带滤波器和后子带滤波器的长度。如上所述,NkF和NkP表示在降采样的QMF域中的抽头的数目。

根据图9的示例性实施例,基于从原始子带滤波器以及前子带滤波器提取的参数确定后子带滤波器的长度。即,至少部分基于在相对应的子带滤波器中提取的特性信息确定每个子带的前子带滤波器和后子带滤波器的长度。例如,基于相对应的子带滤波器的第一混响时间信息可以确定前子带滤波器的长度,并且可以基于第二混响时间信息确定后子带滤波器的长度。即,前子带滤波器可以是在原始子带滤波器中基于第一混响时间信息在被截断的前部分的滤波器,并且后子带滤波器可以是在与作为跟随前子带滤波器的区段的在第一混响时间和第二混响时间之间的区段相对应的后部分的滤波器。根据示例性实施例,第一混响时间信息可以是RT20,并且第二混响时间信息可以是RT60,但是实施例不限于此。

其中前期反射声音部分被切换到后期混响声音部分的部分存在于第二混响时间内。即,点存在,其中具有确定性特性的区段被切换到具有随机特性的区段,并且在整个带的BRIR方面该点被称为混合时间。在混合时间之前的区段的情况下,主要存在提供用于每个位置的方向性的信息,并且这对于每个声道来说是唯一的。相反地,因为后期混响部分具有用于每个声道的公共特征,所以同时处理多个声道可能是有效率的。因此,用于每个子带的混合时间被估计以在混合时间之前通过F部分渲染执行快速卷积,并且在混合时间之后通过P部分渲染执行其中用于每个声道的公共特性被反映的处理。

然而,在估计混合时间时从知觉的角度来看可能通过偏见而出现错误。因此,与通过估计精确的混合时间基于相对应的边界单独处理F部分和P部分相比较,从质量的角度来看,通过最大化F部分的长度执行快速卷积是更加优异的。因此,F部分的长度,即,前子带滤波器的长度,可能比根据复杂性质量控制与混合时间相对应的长度更长或者更短。

此外,为了减少每个子带滤波器的长度,除了前述的截断方法之外,当特定子带的频率响应是单调的时,将相对应的子带的滤波器减少到低阶的建模是可用的。作为代表性的方法,存在使用频率采样的FIR滤波器建模,并且从最小平方的角度最小化的滤波器可以被设计。

根据本发明的示例性实施例,对于相对应的子带的每个声道,用于每个子带的前子带滤波器和/或后子带滤波器的长度可以具有相同的值。测量中的错误在BRIR中可能存在,并且即使在估计混响时间中诸如偏见的错误要素等等存在。因此,为了减少影响,基于在声道之间或者在子带之间的相互关系可以确定滤波器的长度。根据示例性实施例,BRIR参数化单元可以从与相同子带的每个声道相对应的子带滤波器提取第一特性信息(也就是说,第一混响时间信息),并且通过组合被提取的第一特性信息获取用于相对应的子带的单滤波器阶数信息(可替选地,第一截断点信息)。基于获得的滤波器阶数信息(可替选地,第一截断点信息),用于相对应的子带的每个声道的前子带滤波器可以被确定为具有相同的长度。类似地,BRIR参数化单元可以从与相同子带的每个声道相对应的子带滤波器提取特性信息(也就是说,第二混响时间信息),并且通过组合被提取的第二特性信息,获取要被共同地应用于与相对应的子带的每个声道相对应的后子带滤波器的第二截断点信息。在此,前子带滤波器可以是在原始子带滤波器中基于第一截断点信息在被截断的前部分的滤波器,并且后子带滤波器可以是在与作为跟随前子带滤波器的区段的在第一截断点和第二阶段点之间的区段相对应的后部分的滤波器。

同时,根据本发明的另一示例性实施例,仅相对于特定子带组的子带执行F部分处理。在这样的情况下,与通过使用整个子带滤波器执行处理的情况相比较,当通过仅使用直到第一截断点的滤波器相对于对应的子带执行处理时,用户感知水平的失真可能由于被处理的滤波器的能量差而出现。为了防止失真,对于没有被用于处理的区域,即,跟随第一截断点的区域的能量补偿可以在相对应的子带滤波器中被实现。通过将F部分系数(第一子带滤波器系数)除以直到相对应的子带滤波器的第一截断点的滤波器功率并且将相除的F部分系数(前子带滤波器系数)乘以所期待的区域的能量,即,相对应的子带滤波器的总功率,可以执行能量补偿。因此,F部分系数的能量可以被调节为与整个子带滤波器的能量相同。此外,虽然从BRIR参数化单元发送P部分系数,但是双耳渲染单元基于复杂性质量控制可以不执行P部分处理。在这样的情况下,双耳渲染单元可以通过使用P部分系数执行对于F部分系数的能量补偿。

在通过前述方法的F部分处理中,从单个时域滤波器(即,原型滤波器)获取具有用于每个子带的不同长度的被截断的子带滤波器的滤波器系数。即,因为单个时域滤波器被转换成多个QMF基带滤波器,并且与每个子带相对应的滤波器的长度变化,所以从单个原型滤波器中获得每个被截断的子带滤波器。

BRIR参数化单元生成与根据前述的示例性实施例确定的每个前子带滤波器相对应的前子带滤波器系数(F部分系数),并且将生成的前子带滤波器系数传输到快速卷积单元。快速卷积单元通过使用接收到的前子带滤波器系数在多音频信号的每个子带信号的频域中执行可变阶滤波。即,关于作为彼此不同的频带的第一子带和第二子带,快速卷积单元通过对第一子带信号应用第一前子带滤波器系数来生成第一子带双耳信号,并且通过对第二子带信号应用第二前子带滤波器系数来生成第二子带双耳信号。在这样的情况下,第一前子带滤波器系 数和第二前子带滤波器系数可以具有不同的长度,并且是在时域中从相同的原型滤波器获得的。此外,BRIR参数化单元可以生成与根据前述的示例性实施例确定的每个后子带相对应的后子带滤波器系数(P部分系数),并且将生成的后子带滤波器系数传输到后期混响生成单元。后期混响生成单元可以通过使用接收到的后子带滤波器系数执行每个子带信号的混响处理。根据本发明的示例性实施例,BRIR参数化单元可以组合用于每个声道的后子带滤波器系数以生成缩混子带滤波器系数(缩混P部分系数),并且将生成的缩混子带滤波器系数传输到后期混响生成单元。如下面所描述的,后期混响生成单元可以通过使用接收到的缩混子带滤波器系数生成2声道左右子带混响信号。

图10图示用于生成被用于双耳渲染的FIR滤波器的方法的又一示例性实施例。在图10的示例性实施例中,将会省略与图8和图9的示例性实施例相同或者对应于图8和图9的示例性实施例的部分的重复描述。

参考图10,被QMF转换的多个子带滤波器可以被分类成多个组,并且对于每个被分类的组可以应用不同的处理。例如,基于预先确定的频带(QMF带i),多个子带可以被分类成具有低频率的第一子带组区段1和具有高频率的第二子带组区段2。在这样的情况下,可以相对于第一子带组的输入子带信号执行F部分渲染,并且可以相对于第二子带组的输入子带信号执行下面要描述的QTDL处理。

因此,BRIR参数化单元生成用于第一子带组的每个子带的前子带滤波器系数,并且将被生成的前子带滤波器系数传输到快速卷积单元。快速卷积单元通过使用接收到的前子带滤波器系数执行第一子带组的子带信号的F部分渲染。根据示例性实施例,通过后期混响生成单元可以另外执行第一子带组的子带信号的P部分渲染。此外,BRIR参数化单元从第二子带组的子带滤波器系数中的每个获得至少一个参数,并且将获得的参数传输到QTDL处理单元。QTDL处理单元通过使用 获得的参数执行如下面描述的第二子带组的每个子带信号的抽头延迟时间滤波。根据本发明的示例性实施例,用于区分第一子带组和第二子带组的预先确定的频率(QMF带i)可以基于预先确定的常数值被确定,或者基于被发送的音频输入信号的比特流特性被确定。例如,在使用SBR的音频信号的情况下,第二子带组可以被设置以对应于SBR带。

根据本发明的示例性实施例,基于预先确定的第一频带(QMF带i)和预先确定的第二频带(QMF带j),多个子带可以被划分成三个子带组。即,多个子带可以被分类成等于或者低于第一频带的低频率区段的第一子带组区段1、高于第一频带并且等于或者低于第二频带的中频区段的第二子带组区段2、以及高于第二频带的高频区段的第三子带组区段3。例如,当总共64个QMF子带(子带索引0至63)被划分成3个子带组时,第一子带组可以包括具有索引0至31的总共32个子带,第二子带组可以包括具有索引32至47的总共16个子带,并且第三子带组可以包括具有剩余索引48至63的子带。在此,随着子带频率变得更低,子带索引具有更低的值。

根据本发明的示例性示例,可以仅相对于第一和第二子带组的子带信号执行双耳渲染。即,如上所述,可以相对于第一子带组的子带信号执行F部分渲染和P部分渲染,并且可以相对于第二子带组的子带信号执行QTDL处理。此外,可以不相对于第三子带组的子带信号执行双耳渲染。同时,要执行双耳渲染的最大频带的信息(Kproc=48)和要执行卷积的频带的信息(Kconv=32)可以是预先确定的值或者通过BRIR参数化单元确定以被传输到双耳渲染单元。在这样的情况下,第一频带(QMF带i)被设置为索引Kconv-1的子带,并且第二频带(QMF带j)被设置为索引Kproc-1的子带。同时,通过最初的BRIR输入的采样频率、输入音频信号的采样频率等等可以变化最大频带的信息(Kproc)和要执行卷积的频带的信息(Kconv)的值。

<后期混响渲染>

接下来,将会参考图11描述本发明的P部分渲染的各种示例性实施例。即,将会参考图11描述在QMF域中执行P部分渲染的图2的后期渲染生成单元240的各种示例性实施例。在图11的示例性实施例中,假定多声道输入信号作为QMF域的子带信号被接收。因此,可以为每个QMF子带执行图11的后期混响生成单元240的相应的组件的处理。在图11的示例性实施例中,将会省略与先前的附图的示例性实施例重复的部分的详细描述。

在图8至图10的示例性实施例中,与P部分相对应的Pk(P1,P2,P3,…)是通过频率可变截断去除的每个子带滤波器的后部分,并且通常包括关于后期混响的信息。P部分的长度可以被定义为根据复杂性质量控制在每个子带滤波器的截断点之后的整个滤波器,或者参考相对应的子带滤波器的第二混响时间信息被定义为较小的长度。

P部分渲染可以为每个声道独立地执行或者相对于被缩混的声道执行。此外,P部分渲染可以对于每个预先确定的子带组或者对于每个子带通过不同的处理被应用,或者作为相同的处理被应用于所有的子带。在本示例性实施例中,可应用于P部分的处理可以包括用于输入信号的能量衰减补偿、抽头延迟线滤波、使用无限脉冲响应(IIR)滤波器的处理、使用人工混响器的处理、频率无关的耳间一致(FIIC)补偿、频率依赖的耳间一致(FDIC)补偿等等。

同时,重要的是,通常保存两个特征,即,用于P部分的参数处理的能量衰减减轻(EDR)和频率依赖的耳间一致(FDIC)的特征。首先,当从能量的角度观察P部分时,能够看到对于每个声道来说EDR可以是相同或者相似的。因为相应的声道具有公共的EDR,所以将所有的声道缩混到一个或者两个声道,并且其后,从能量的角度执行被缩混的声道的P部分渲染是适当的。在这样的情况下,其中需要相对于M个声道执行M个卷积的P部分渲染的操作被减少到M到O缩混 和一个(可替选地,两个)卷积,从而提供显著的计算复杂性的增益。当如上所述相对于缩混信号执行能量衰减匹配和FDIC补偿时,可以更高效地实施对于多声道输入信号的后期混响。作为用于缩混多声道输入信号的方法,可以使用添加所有声道使得相应的声道具有相同的增益值的方法。根据本发明的另一示例性实施例,多声道输入信号的左声道可以在被分配给立体声左声道的同时被添加,并且右声道可以在被分配给立体声右声道的同时被添加。在这样的情况下,定位在前侧和后侧(0°和180°)处的声道用相同的功率从(例如,1/sqrt(2)的增益值)归一化,并且分发到立体声左声道和立体声右声道。

图11图示根据本发明的示例性实施例的后期混响生成单元240。根据图11的示例性实施例,后期混响生成单元240可以包括缩混单元241、能量衰减匹配单元242、解相关器243以及IC匹配单元244。此外,BRIR参数化单元的P部分参数化单元360生成缩混子带滤波器系数和IC值,并且将所生成的缩混子带滤波器系数和IC值传输到双耳渲染单元,以用于后期混响生成单元240的处理。

首先,缩混单元241针对每个子带缩混多声道输入信号X0、X1、…、X_M-1以生成单声缩混信号(即,单声子带信号)X_DMX。能量衰减匹配单元242反映所生成的单声缩混信号的能量衰减。在这样的情况下,用于每个子带的缩混子带滤波器系数可以被用于反映能量衰减。缩混子带滤波器系数可以从P部分参数化单元360获得,并且由对应子带的相应的声道的后子带滤波器系数的组合生成。例如,可以通过取关于对应子带的相应的声道的后子带滤波器系数的平方振幅响应的平均值的根来获得缩混子带滤波器系数。因此,缩混子带滤波器系数反映后期混响部分对于对应子带信号的能量减小特性。缩混子带滤波器系数可以包括根据本示例性实施例被缩混到单声或立体声的子带滤波器系数,并且从P部分参数化单元360直接接收到或者从在存储器225中预存储的值获得。

接下来,解相关器243生成有能量衰减被反映到的单声缩混信号的解相关信号D_DMX。作为一种用于调节两耳之间的相干性的预处理器的解相关器243可以采用相位随机数发生器,并且将输入信号的相位改变90°以得到计算复杂性的效率。

同时,双耳渲染单元可以将从P部分参数化单元360接收到的IC值存储在存储器255中,并且将所接收到的IC值传输到IC匹配单元244。IC匹配单元244可以从P部分参数化单元360直接接收IC值或者以其它方式获得预存储在存储器225中的IC值。IC匹配单元244通过参考IC值执行能量衰减被反映到的单声缩混信号和解相关信号的加权求和,并且通过加权求和生成2声道左右输出信号Y_Lp和Y_Rp。当原始声道信号由X表示时,解相关声道信号由D表示,并且对应子带的IC由φ表示,可以像在下面给出的等式一样表达经历IC匹配的左声道信号X_L和右声道信号X_R。

[等式3]

X_L=sqrt((1+φ)/2)X±sqrt((1-φ)/2)D

(以相同顺序的双重符号)

<高频带的QTDL处理>

接下来,将会参考图12和图13描述本发明的QTDL处理的各种示例性实施例。即,参考图12和图13将会描述在QMF域中执行QTDL处理的图2的QTDL处理单元250的各种示例性实施例。在图12和图13的示例性实施例中,假定多声道输入信号作为QMF域的子带信号被接收。因此,在图12和图13的示例性实施例中,抽头延迟线滤波器和单抽头延迟线滤波器可以执行用于每个QMF子带的处理。此外,仅关于基于预先确定的常数或者预先确定的频带分类的高频带的输入信号执行QTDL处理,如上所述。当谱带复制(SBR)被应用于输入音频信号时,高频带可以对应于SBR带。在图12和图13的示例性实施 例中,将会省略与先前的附图的示例性实施例重复的部分的详细描述。

被用于高频带的有效编码的谱带(SBR)是用于通过重新延伸由于在低比特率编码中扔掉高频带的信号而变窄的带宽来确保与原始信号一样多的带宽的工具。在这样的情况下,通过使用被编码和发送的低频带的信息和通过编码器发送的高频带信号的附加信息生成高频带。然而,由于不精确的谐波的生成,在通过使用SBR产生的高频分量中可能出现失真。此外,SBR带是高频带,并且如上所述,相对应的频带的混响时间非常短。即,SBR带的BRIR子带滤波器可以具有少的有效信息和高的衰减率。因此,在用于与SBR带相对应的高频带的BRIR渲染中,与执行卷积相比,在对音质的计算复杂性方面,通过使用少量的有效的抽头执行渲染可以仍然更加有效。

图12图示根据本发明的示例性实施例的QTDL处理单元250A。根据图12的示例性实施例,QTDL处理单元250A通过使用抽头延迟线滤波器执行用于多声道输入信号X0、X1、…、X_M-1的每个子带的滤波。抽头延迟线滤波器关于每个声道信号执行仅少量的预先确定的抽头的卷积。在这样的情况下,基于从与有关子带信号相对应的BRIR子带滤波器系数直接提取的系数可以确定此时使用的少量的抽头。参数包括用于要被用于抽头延迟线滤波器的每个抽头的延迟信息和与其相对应的增益信息。

通过复杂性质量控制可以确定被用于抽头延迟线滤波器的数目。基于被确定的抽头的数目,QTDL处理单元250A从BRIR参数化单元接收对应于用于每个声道和用于每个子带的抽头的有关数目的参数集(增益信息和延迟信息)。在这样的情况下,接收到的参数集可以从与有关子带信号相对应的BRIR子带滤波器系数提取,并且根据各种示例性实施例被确定。例如,按照绝对值的顺序、按照实数部分的值的顺序、或者按照虚数部分的值的顺序,在相对应的BRIR子带滤波器系数的多个峰值当中,与被确定的抽头的数目一样多的、用于每个被提 取的峰值的参数集,可以被接收。在这样的情况下,每个参数的延迟信息指示相对应的峰值的位置信息,并且在QMF域中具有基于采样的整数值。此外,可以基于相对应的BRIR子带滤波器系数的总功率、与延迟信息相对应的峰值的大小等确定增益信息。在这样的情况下,作为增益信息,在用于整个子带滤波器系数的能量补偿被执行之后的相对应的峰值的加权值,以及子带滤波器系数中的相对应的峰值本身,可以被使用。通过使用用于相对应的峰值的加权值的实数和加权值的虚数两者从而具有复值来获得增益信息。

通过抽头延迟线滤波器滤波的多个声道被共计到用于每个子带的2声道左右输出信号Y_L和Y_R。同时,在用于双耳渲染的初始化过程期间在QTDL处理单元250A的每个抽头延迟线滤波器中使用的参数可以被存储在存储器中,并且在没有用于提取参数的附加的操作的情况下可以执行QTDL处理。

图13图示根据本发明的另一示例性实施例的QTDL处理单元250B。根据图13的示例性实施例,QTDL处理单元250B通过使用单抽头延迟线滤波器执行用于多声道输入信号X0、X1、…、X_M-1的每个子带的滤波。将会理解的是,相对于每个声道信号,单抽头延迟线滤波器仅在一个抽头中执行卷积。在这样的情况下,可以基于从与有关子带信号相对应的BRIR子带滤波器系数中直接提取的参数确定被使用的抽头。参数包括从BRIR子带滤波器系数中提取的延迟信息和与其相对应的增益信息。

在图13中,L_0、L_1、…L_M-1分别表示用于与M个声道左耳有关的BRIR的延迟,并且R_0、R_1、…、R_M-1分别表示用于与M个声道右耳有关的BRIR的延迟。在这样的情况下,延迟信息表示在BRIR子带滤波器系数当中以绝对值、实数部的值、或者虚数部的值的顺序的最大峰值的位置信息。此外,在图13中,分别地,G_L_0、G_L_1、…、G_L_M-1表示与左声道的相应的延迟信息相对应的增益, 并且G_R_0、G_R_1、…、G_R_M-1表示与右声道的相应的延迟信息相对应的增益。如所描述的,可以基于相对应的BRIR子带滤波器系数的总功率、与延迟信息相对应的峰值的大小等确定每个增益信息。在这样的情况下,作为增益信息,在用于整个子带滤波器系数的能量补偿之后的相对应的峰值的加权值以及在子带滤波器系数中的相对应的峰值可以被使用。通过使用用于相对应的峰值的加权值的实数和加权值的虚数两者获得增益信息。

如上所述,通过单抽头延迟线滤波器滤波的多个声道信号与用于每个子带的2声道左右输出信号Y_L和Y_R被求和。此外,在用于双耳渲染的初始化过程期间,在QTDL处理单元250B的每个单抽头延迟线滤波器中使用的参数可以被存储在存储器中,并且在没有用于提取参数的附加的操作的情况下可以执行QTDL处理。

<详细的BRIR参数化>

图14是图示根据本发明的示例性实施例的BRIR参数化单元的相应的组件的框图。如图14中所图示,BRIR参数化单元300可以包括F部分参数化单元320、P部分参数化单元360以及QTDL参数化单元380。BRIR参数化单元300接收时域的BRIR滤波器集作为输入,并且BRIR参数化单元300的每个子单元通过使用所接收到的BRIR滤波器集生成用于双耳渲染的各种参数。根据本示例性实施例,BRIR参数化单元300可以附加地接收控制参数并且基于所接收到的控制参数生成参数。

首先,F部分参数化单元320生成频域中的可变阶数滤波(VOFF)所需要的被截断的子带滤波器系数,以及结果得到的辅助参数。例如,F部分参数化单元320计算被用于生成被截断的子带滤波器系数的频带特定混响时间信息、滤波器阶数信息等,并且确定用于对被截断的子带滤波器系数执行块方式快速傅里叶变换的块的大小。由F部分参数化单元320生成的一些参数可以被发送到P部分参数化单元360和 QTDL参数化单元380。在这样的情况下,传输的参数不限于F部分参数化单元320的最终输出值,并且可以包括根据F部分参数化单元320的处理同时生成的参数,即,时域的被截断的BRIR滤波器系数等。

P部分参数化单元360生成P部分渲染所需要的参数,即,后期混响生成。例如,P部分参数化单元360可以生成缩混子带滤波器系数、IC值等。此外,QTDL参数化单元380生成用于QTDL处理的参数。更加详细地,QTDL参数化单元380从F部分参数化单元320接收子带滤波器系数,并且通过使用所接收到的子带滤波器系数生成每个子带中的延迟信息和增益信息。在这样的情况下,QTDL参数化单元380可以接收用于执行双耳渲染的最大频带的信息Kproc以及用于执行卷积的频带的信息Kconv作为控制参数,并且为具有Kproc和Kconv作为边界的子带组的每个频带生成延迟信息和增益信息。根据本示例性实施例,QTDL参数化单元380可以被提供作为包括在F部分参数化单元320中的组件。

包括在F部分参数化单元320、P部分参数化单元360以及QTDL参数化单元380中的参数分别被发送到双耳渲染单元(未图示)。根据本示例性实施例,P部分参数化单元360和QTDL参数化单元380分别可以根据是否在双耳渲染单元中执行P部分渲染和QTDL处理来确定是否生成参数。当未在双耳渲染单元中执行P部分渲染和QTDL处理中的至少一个时,P部分参数化单元360以及与其相对应的QTDL参数化单元380可以不生成参数或者不将所生成的参数发送到双耳渲染单元。

图15是图示本发明的F部分参数化单元的相应的组件的框图。如图15中所图示,F部分参数化单元320可以包括传播时间计算单元322、QMF转换单元324以及F部分参数生成单元330。F部分参数化单元320通过使用接收到的时域BRIR滤波器系数来执行生成用于F部分渲染的被截断的子带滤波器系数的处理。

首先,传播时间计算单元322计算时域BRIR滤波器系数的传播时间信息,并且基于所计算出的传播时间信息来截断时域BRIF滤波器系数。在此,传播时间信息表示从初始采样到BRIR滤波器系数的直接声音的时间。传播时间计算单元322可以从时域BRIR滤波器系数截断与所计算的传播时间对应的一部分并且去除被截断的部分。

各种方法可以被用于估计BRIR滤波器系数的传播时间。根据本示例性实施例,可以基于第一点信息估计传播时间,在第一点信息中示出了大于与BRIR滤波器系数的最大峰值成比例的阈值的能量值。在这样的情况下,因为从多声道输入的相应的声音直到听众的所有距离彼此不同,所以传播时间可以因每个声道而变化。然而,所有声道的传播时间的截断长度需要彼此相同,以便通过在执行双耳渲染时使用传播时间被截断的BRIR滤波器系数来执行卷积并且补偿在延迟情况下执行双耳渲染的最终信号。此外,当通过对每个声道应用相同的传播时间信息执行截断时,可以减小各个声道中的错误发生概率。

为了计算根据本发明的示例性实施例的传播时间信息,可以首先定义用于分帧索引k的帧能量E(k)。当用于输入通道索引m的时域BRIR滤波器系数、输出左/右声道索引i以及时域的时隙索引v是时,可以通过在下面给出的等式计算第k个帧中的帧能量E(k)。

[等式4]

其中,NBRIR表示BRIR滤波器的总数目,Nhop表示预先确定的跳跃大小,并且Lfrm表示帧大小。即,可以将帧能量E(k)计算为每个声道的帧能量相对于相同时间间隔的平均值。

可以通过使用所定义的帧能量E(k)经由在下面给出的等式来计算 传播时间pt。

[等式5]

即,传播时间计算单元322通过移位预先确定的跳跃大小来测量帧能量,并且识别其中帧能量大于预先确定的阈值的第一帧。在这样的情况下,可以将传播时间确定为识别的第一帧的中间点。同时,在等式5中,描述了阈值被设置为比最大帧能量低了60dB的值,但是本发明不限于此,并且可以将阈值设置为与最大帧能量成比例的值或者与最大帧能量相差预先确定的值的值。

同时,跳跃大小Nhop和帧大小Lfrm可以基于输入的BRIR滤波器系数是否是头相关脉冲响应(HRIR)滤波器系数而变化。在这样的情况下,指示所输入的BRIR滤波器系数是否是HRIR滤波器系数的信息flag_HRIR可以从外部接收或者通过使用时域BRIR滤波器系数的长度来估计。一般而言,前期反射声部分和后期混响部分的边界已知为80ms。因此,当时域BRIR滤波器系数的长度是80ms或更小时,相对应的BRIR滤波器系数被确定为HRIR滤波器系数(flag_HRIR=1),并且当时域BRIR滤波器系数的长度超过80ms时,可以确定相对应的BRIR滤波器系数不是HRIR滤波器系数(flag_HRIR=0)。当确定所输入的BRIR滤波器系数是HRIR滤波器系数(flag_HRIR=1)时的跳跃大小Nhop和帧大小Lfrm可以被设置为比当确定相对应的BRIR滤波器系数不是HRIR滤波器系数(flag_HRIR=0)时的值更小的值。例如,在flag_HRIR=0的情况下,可以将跳跃大小Nhop和帧大小Lfrm分别设置为8个采样和32个采样,而在flag_HRIR=1的情况下,可以将跳跃大小Nhop和帧大小Lfrm分别设置为1个采样和8个采样。

根据本发明的示例性实施例,传播时间计算单元322可以基于所计算出的传播时间信息截断时域BRIR滤波器系数,并且将被截断的 BRIR滤波器系数传输到QMF转换单元324。在此,被截断的BRIR滤波器系数指示在从原始BRIR滤波器系数中截断并且去除与传播时间相对应的部分之后的剩余的滤波器系数。传播时间计算单元322截断用于每个输入声道和每个输出左/右声道的时域BRIR滤波器系数,并且将被截断的时域BRIR滤波器系数传输到QMF转换单元324。

QMF转换单元324在时域与QMF域之间执行所输入的BRIR滤波器系数的转换。即,QMF转换单元324接收时域的被截断的BRIR滤波器系数并且将所接收到的BRIR滤波器系数分别转换成与多个频带对应的多个子带滤波器系数。转换的子带滤波器系数被传输到F部分参数生成单元330,并且F部分参数生成单元330通过使用所接收到的子带滤波器系数生成被截断的子带滤波器系数。当QMF域BRIR滤波器系数而不是时域BRIR滤波器系数被接收为F部分参数化单元320的输入时,所接收到的QMF域BRIR滤波器系数可以旁路QMF转换单元324。此外,根据另一示例性实施例,当所输入的滤波器系数是QMF域BRIR滤波器系数时,可以在F部分参数化单元320中省略QMF转换单元324。

图16是图示图15的F部分参数生成单元的详细配置的框图。如图16中所图示,F部分参数生成单元330可以包括混响时间计算单元332、滤波器阶数确定单元334以及VOFF滤波器系数生成单元336。F部分参数生成单元330可以从图15的QMF转换单元324接收QMF域子带滤波器系数。此外,可以将包括执行双耳渲染的最大频带信息Kproc、执行卷积的频带信息Kconv、预先确定的最大FFT大小信息等的控制参数输入到F部分参数生成单元330中。

首先,混响时间计算单元332通过使用所接收到的子带滤波器系数获得混响时间信息。所获得的混响时间信息可以被传输到滤波器阶数确定单元334并且用于确定对应子带的滤波器阶数。同时,因为根据测量环境偏置或偏差可能存在于混响时间信息中,所以可以通过使 用与另一声道的相互关系来使用统一值。根据本示例性实施例,混响时间计算单元332生成每个子带的平均混响时间信息,并且将所生成的平均混响时间信息传输到滤波器阶数确定单元334。当用于输入声道索引m、输出左/右声道索引i以及子带索引k的子带滤波器系数的混响时间信息是RT(k,m,i)时,可以通过在下面给出的等式计算子带k的平均混响时间信息RTk

[等式6]

其中,NBRIR表示BRIR滤波器的总数目。

即,混响时间计算单元332从与多声道输入相对应的每个子带滤波器系数中提取混响时间信息RT(k,m,i),并且获得相对于相同子带提取的每个声道的混响时间信息RT(k,m,i)的平均值(即,平均混响时间信息RTk)。可以将所获得的平均混响时间信息RTk传输到滤波器阶数确定单元334,并且滤波器阶数确定单元334可以通过使用传输的平均时间信息RTk来确定应用于对应子带的单个滤波器阶数。在这样的情况下,所获得的平均混响时间信息可以包括RT20,并且根据本示例性实施例,也可以获得其它混响时间信息,即,RT30、RT60等。同时,根据本发明的另一示例性实施例,混响时间计算单元332可以将相对于相同子带提取的每个声道的混响时间信息的最大值和/或最小值传输到滤波器阶数确定单元334作为对应子带的代表性混响时间信息。

接下来,滤波器阶数确定单元334基于所获得的混响时间信息确定对应子带的滤波器阶数。如上所述,由滤波器阶数确定单元334获得的混响时间信息可以是对应子带的平均混响时间信息,并且根据本示例性实施例,可以替代地获得具有每个声道的混响时间信息的最大值和/或最小值的代表性混响时间信息。滤波器阶数可以被用于确定用于对应子带的双耳渲染的被截断的子带滤波器系数的长度。

当子带k中的平均混响时间信息是RTk时,可以通过在下面给出的等式获得对应子带的滤波器阶数信息NFilter[k]。

[等式7]

即,可以使用对应子带的平均混响时间信息的对数标度的近似整数值作为指数来将滤波器阶数信息确定为2的幂的值。换句话说,可以使用对数标度中的对应子带的平均混响时间信息的四舍五入值、上舍入值或下舍入值作为指数来将滤波器阶数信息确定为2的幂的值。当相对应的子带滤波器系数的原始长度(即,直到最后时隙nend的长度)比等式7中确定的值小时,滤波器阶数信息可以用子带滤波器系数的原始长度值nend取代。即,可以将滤波器阶数信息确定为通过等式7确定的参考截断长度以及子带滤波器系数的原始长度中的较小值。

同时,可以在对数标度中线性地近似取决于频率的能量的衰减。因此,当使用曲线拟合方法时,可以确定每个子带的优化的滤波器阶数信息。根据本发明的示例性实施例,滤波器阶数确定单元334可以通过使用多项式曲线拟合方法获得滤波器阶数信息。为此,滤波器阶数确定单元334可以获得用于平均混响时间信息的曲线拟合的至少一个系数。例如,滤波器阶数确定单元334通过对数标度中的线性等式执行每个子带的平均混响时间信息的曲线拟合并且获得相对应的线性等式的斜率值‘a’和分段值‘b’。

可以通过使用所获得的系数经由在下面给出的等式获得子带k中的经曲线拟合的滤波器阶数信息N’Filter[k]。

[等式8]

即,可以使用对应子带的平均混响时间信息的多项式曲线拟合值作为指数来将经曲线拟合的滤波器阶数信息确定为2的幂的值。换句话说,可以使用对应子带的平均混响时间信息的多项式曲线拟合值的四舍五入值、上舍入值或下舍入值作为指数来将经曲线拟合的滤波器阶数信息确定为2的幂的值。当相对应的子带滤波器系数的原始长度(即,直到最后时隙nend的长度)比等式8中确定的值小时,滤波器阶数信息可以用子带滤波器系数的原始长度值nend取代。即,可以将滤波器阶数信息确定为通过等式8确定的参考截断长度以及子带滤波器系数的原始长度中的较小值。

根据本发明的示例性实施例,基于原型BRIR滤波器系数(即,时域的BRIR滤波器系数)是否是HRIR滤波器系数(flag_HRIR),可以通过使用等式7和等式8中的任一个获得滤波器阶数信息。如上所述,可以基于原型BRIR滤波器系数的长度是否超过预先确定的值确定flag_HRIR的值。当原型BRIR滤波器系数的长度超过预先确定的值(即,flag_HRIR=0)时,可以根据上面给出的等式8将滤波器阶数信息确定为曲线拟合值。然而,当原型BRIR滤波器系数的长度不超过预先确定的值(即,flag_HRIR=1)时,可以根据上面给出的等式7将滤波器阶数信息确定为非曲线拟合值。即,可以在无需执行曲线拟合的情况下基于对应子带的平均混响时间信息确定滤波器阶数信息。原因是因为HRIR不受室(room)影响,所以能量衰减的趋势在HRIR中不明显。

同时,根据本发明的示例性实施例,当获得了第0个子带(即,子带索引0)的滤波器阶数信息时,可以使用未执行曲线拟合的平均混响时间信息。原因是由于室模式等的影响第0个子带的混响时间可以具有与另一子带的混响时间不同的曲线。因此,根据本发明的示例性实施例,可以仅在flag_HRIR=0的情况下并且在索引不为0的子带中使用根据等式8经曲线拟合的滤波器阶数信息。

根据上面给出的示例性实施例确定的每个子带的滤波器阶数信息被传输到VOFF滤波器系数生成单元336。VOFF滤波器系数生成单元336基于所获得的滤波器阶数信息生成被截断的子带滤波器系数。根据本发明的示例性实施例,被截断的子带滤波器系数可以由按预先确定的块方式对于块方式快速卷积执行快速傅里叶变换(FFT)的至少一个FFT滤波器系数。VOFF滤波器系数生成单元336可以如参考图17和图18在下面所描述的那样生成用于块方式快速卷积的FFT滤波器系数。

根据本发明的示例性实施例,在效率和性能方面,为了优化双耳渲染,可以执行预先确定的块方式快速卷积。基于FFT的快速卷积具有下述特性,其中,随着FFT的大小增加,计算量减少,但是整个处理延迟增加并且存储器使用增加。当具有1秒的长度的BRIR以具有相对应长度的两倍的长度的FFT大小经历快速卷积时,在计算量方面其是有效的,但是与1秒相对应的延迟出现并且要求与其相对应的缓冲器和处理存储器。具有长延迟时间的音频信号处理方法不适合于用于实时数据处理的应用。因为帧是通过音频信号处理设备能够执行解码的最小单元,所以甚至在双耳渲染中,优选地以与帧单元相对应的大小执行块方式快速卷积。

图17图示用于块方式快速卷积的FFT滤波器系数生成方法的示例性实施例。与前述的示例性实施例相似,在图17的示例性实施例中,原型FIR滤波器被转换成K个子带滤波器,并且Fk表示子带k的被截断的子带滤波器。相应的子带,带0至带K-1,可以表示频域中的子带,即,QMF子带。在QMF域中,可以使用总共64个子带,但是本发明不限于此。此外,N表示最初的子带滤波器的长度(抽头的数目),并且通过N1、N2以及N3分别表示被截断的子带滤波器的长度。即,区段1中包括的子带k的被截断的子带滤波器系数的长度具有N1值,在区段2中包括的子带k的被截断的子带滤波器系数的长度具有N2值,并且在区段3中包括的子带k的被截断的子带滤波器系数的长度 具有N3值。在这样的情况下,长度N、N1、N2、以及N3表示在降采样的QMF域中的抽头的数目。如上所述,可以为如在图17中所图示的子带组区段1、区段2以及区段3中的每一个独立地确定被截断的子带滤波器的长度,否则为每个子带独立地确定。

参考图17,本发明的VOFF滤波器系数生成单元336在相对应的子带(可替选地,子带组)中通过预先确定的块大小执行被截断的子带滤波器的快速傅里叶变换以生成FFT滤波器系数。在这样的情况下,基于预先确定的最大FFT大小L确定在每个子带k中的预先确定的块的长度NFFT(k)。更加详细地,在子带k中的预先确定的块的长度NFFT(k)可以通过下面的等式来表达。

[等式9]

NFFT(k)=min(L,2N_k)

其中,L表示预先确定的最大FFT大小,并且N_k表示被截断的子带滤波器系数的参考滤波器长度。

即,预先确定的块的长度NFFT(k)可以被确定为是在被截断的子带滤波器系数的参考滤波器长度N_k的两倍的值和预先确定的最大FFT大小L之间的较小的值。当被截断的子带滤波器系数的参考滤波器长度N_k的两倍的值等于或者大于(可替选地,大于)最大FFT大小L时,像图17的区段1和区段2那样,预先确定的块的长度NFFT(k)被确定为最大FFT大小L。然而,当被截断的子带滤波器系数的参考滤波器参考N_k的两倍的值小于(等于或者小于)最大FFT大小L时,像图17的区段3那样,预先确定的块的长度NFFT(k)被确定为是参考滤波器长度N_k的两倍的值。如下面所描述的,因为通过零填充被截断的子带滤波器系数被延伸到双倍长度并且其后经历快速傅里叶变换,所以可以基于在参考滤波器长度N_k的两倍的值和预先确定的最大FFL大小L之间的比较结果确定用于快速傅里叶变换的块的长度NFFT(k)。

在此,参考滤波器长度N_k以2的幂的形式表示在相对应的子带中的滤波器阶数(即,被截断的子带滤波器系数的长度)的真值和近似值中的任意一个。即,当子带k的滤波器阶数具有2的幂的形式时,相对应的滤波器阶数被用作子带k中的参考滤波器长度N_k,并且当子带k的滤波器阶数不具有2的幂的形式(例如,nend)时,以2的幂的形式的相对应的滤波器阶数的四舍五入值、上舍入值或下舍入值被用作参考滤波器长度N_k。作为示例,因为作为区段3的子带K-1的滤波器阶数的N3不是2的幂的值,所以以2的幂的形式的近似值的N3’可以被用作相对应的子带的参考滤波器长度N_K-1。在这样的情况下,因为参考滤波器长度N3’的两倍的值小于最大FFT大小L,所以子带K-1中的预先确定的块的长度NFFT(k-1)可以被设置为是N3’的两倍的值。同时,根据本发明的示例性示例,预先确定的块的长度NFFT(k)和参考滤波器长度N_k两者可以是2的幂的值。

如上所述,当每个子带中的块长度NFFT(k)被确定时,VOFF滤波器系数生成单元336通过被确定的块大小来执行被截断的子带滤波器系数的快速傅里叶变换。更加详细地,VOFF滤波器系数生成单元336通过预先确定的块大小的一半NFFT(k)/2来分割被截断的子带滤波器系数。在图17中图示的F部分的虚线边界的区域表示通过预先确定的块大小的一半分割的子带滤波器系数。接下来,BRIR参数化单元通过使用相应的被分割的滤波器系数生成预先确定的块大小NFFT(k)的临时滤波器系数。在这样的情况下,通过被分割的滤波器系数组成临时滤波器系数的前半部分,并且通过零填充的值组成后半部分。因此,通过使用预先确定的块的一半长度NFFT(k)/2的滤波器系数生成预先确定的块的长度NFFT(k)的临时滤波器系数。接下来,BRIR参数化单元执行被生成的临时滤波器系数的快速傅里叶变换以生成FFT滤波器系数。被生成的FFT滤波器系数可以被用于对于输入音频信号的预先确定的块方式快速卷积。

如上所述,根据本发明的示例性实施例,VOFF滤波器系数生成 单元336通过为每个子带(可替选地,为每个子带组)单独确定的块大小执行被截断的子带滤波器系数的快速傅里叶变换,以生成FFT滤波器系数。结果,可以执行对于每个子带(可替选地,用于每个子带组)使用不同数目的块的快速卷积。在这样的情况下,子带k中的块的数目Nblk(k)可以满足下述等式。

[等式10]

N_k=Nblk(k)*NFFT(k)

其中,Nblk(k)是自然数。

即,子带k中的块的数目Nblk(k)可以被确定为通过将相对应的子带中的参考滤波器长度N_k的两倍的值除以预先确定的块NFFT(k)的长度而获取的值。

图18图示用于块方式快速卷积的FFT滤波器系数生成方法的另一示例性实施例。在图18的示例性实施例中,与图10或者图17的示例性实施例相同或者对应于图10或者图17的示例性实施例的部分的重复描述将会被省略。

参考图18,基于预先确定的频带(QMF带i),频域的多个子带可以被划分成具有低频率的第一子带组区段1和具有高频率的第二子带组区段2。可替选地,基于预先确定的第一频带(QMF带i)和第二频带(QMF带j),多个子带可以被划分成三个子带组,即,第一子带组区段1、第二子带组区段2、以及第三子带组区段3。在这样的情况下,可以相对于第一子带组的输入子带信号执行使用块方式快速卷积的F部分渲染,并且可以相对于第二子带组的输入子带信号执行QTDL处理。另外,可以不相对于第三子带组的子带信号执行渲染。

因此,根据本发明的示例性实施例,可以相对于第一子带组的前子带滤波器Fk限制性地执行预先确定的块方式FFT滤波器系数的生成过程。同时,根据示例性实施例,可以通过如上所述的后期混响生成 单元执行针对第一子带组的子带信号的P部分渲染。根据本发明的示例性实施例,可以基于原型BRIR滤波器系数的长度是否超过预先确定的值来执行针对输入音频信号的P部分渲染(即,后期混响处理过程)。如上所述,原型BRIR滤波器系数的长度是否超过预先确定的值可以通过指示原型BRIR滤波器系数的长度超过预先确定的值的标志(即,flag_BRIR)来表示。当原型BRIR滤波器系数的长度超过预先确定的值(flag_HRIR=0)时,可以执行针对输入音频信号的P部分渲染。然而,当原型BRIR滤波器系数的长度不超过预先确定的值(flag_HRIR=1)时,可以不执行针对输入音频信号的P部分渲染。

当未执行P部分渲染时,可以执行仅针对第一子带组的每个子带信号的F部分渲染。然而,指定用于F部分渲染的每个子带的滤波器阶数(即,截断点)可以比相对应的子带滤波器系数的总长度小,并且结果,可能发生能量失配。因此,为了防止能量失配,根据本发明的示例性实施方式,可以基于flag_HRIR信息执行针对被截断的子带滤波器系数的能量补偿。即,当原型BRIR滤波器系数的长度不超过预先确定的值(flag_HRIR=1)时,可以将其能量补偿被执行的滤波器系数用作被截断的子带滤波器系数或构成所述被截断的子带滤波器系数的每个FFT滤波器系数。在这样的情况下,可以通过将基于滤波器阶数信息NFilter[k]直到截断点的子带滤波器系数除以直到截断点的滤波器功率、并且乘以相对应的子带滤波器系数的总滤波器功率来执行能量补偿。可以将总滤波器功率定义为从相对应的子带滤波器系数的初始采样直到最后采样nend的滤波器系数的功率的和。

同时,根据本发明的另一示例性实施例,可以针对每个声道将相应的子带滤波器系数的滤波器阶数设置为彼此不同。例如,可以将用于输入信号包括更多能量的前声道的滤波器阶数设置为高于用于输入信号包括相对较小的能量的后声道的滤波器阶数。因此,在双耳渲染之后反映的分辨率相对于前声道增加,并且可以相对于后声道以低计算复杂性执行渲染。在此,前声道和后声道的分类不限于分配给多声 道输入信号的每个声道的声道名称,并且可以基于预先确定的空间基准将相应的声道分类为前声道和后声道。此外,根据本发明的附加的示例性实施例,可以基于预先确定的空间基准将多声道的相应的声道分类为三个或更多个声道组,并且不同的滤波器阶数可以被用于每个声道组。可替选地,基于虚拟再现空间中的对应声道的位置信息对其应用不同加权值的值可以被用于与相应的声道相对应的子带滤波器系数的滤波器阶数。

图19是图示本发明的QTDL参数化单元的相应的组件的框图。如图19中所图示,QTDL参数化单元380可以包括峰值搜索单元382和增益生成单元384。QTDL参数化单元380可以从F部分参数化单元320接收QMF域子带滤波器系数。此外,QTDL参数化单元380可以接收用于执行双耳渲染的最大频带的信息Kproc以及用于执行卷积的频带的信息Kconv作为控制参数,并且生成具有Kproc和Kconv作为边界的子带组(即,第二子带组)的每个频带的延迟信息和增益信息。

根据更详细的示例性实施例,当用于输入声道索引m、输出左/右声道索引i、子带索引k以及QMF域时隙索引n的BRIR子带滤波器系数是时,可以如下面所描述的那样获得延迟信息和增益信息

[等式11]

[等式12]

其中,nend表示相对应的子带滤波器系数的最后时隙。

即,参照等式11,延迟信息可以表示相对应的BRIR子带滤波器系数具有最大大小的时隙的信息,并且这表示相对应的BRIR子带滤波器系数的最大峰值的位置信息。此外,参照等式12,可以将增益信息确定为通过将相对应的BRIR子带滤波器系数的总功率值乘以BRIR子带滤波器系数在最大峰值位置处的符号而获得的值。

峰值搜索单元382基于等式11获得最大峰值位置,即,第二子带组的每个子带滤波器系数中的延迟信息。此外,增益生成单元384基于等式12获得用于每个子带滤波器系数的增益信息。等式11和等式12示出获得延迟信息和增益信息的等式的示例,但是可以不同地修改用于计算每个信息的等式的详细形式。

在上文中,通过详细的示例性实施例已经描述了本发明,但是在没有脱离本发明的目的和范围的情况下本领域的技术人员能够进行本发明的修改和变化。即,在本发明中已经描述了用于多音频信号的双耳渲染的示例性实施例,但是本发明能够被相似地应用并且甚至延伸到包括视频信号以及音频信号的各种多媒体信号。因此,分析从详细描述中本领域的技术人员能够容易地类推的事件和本发明的示例性实施例被包括在本发明的权利要求中。

本发明的模式

如上面,以最佳模式已经描述了有关特征。

工业实用性

本发明能够被应用于处理多媒体信号的各种形式的设备,包括用于处理音频信号的设备和用于处理视频信号的设备等等。

此外,本发明能够被应用于用于生成被用于音频信号处理和视频信号处理的参数的参数化装置。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1