确定多信道音频信号的编码参数的方法及多信道音频编码器的制造方法

文档序号:2825597阅读:236来源:国知局
确定多信道音频信号的编码参数的方法及多信道音频编码器的制造方法
【专利摘要】本发明涉及一种用于确定多信道音频信号的多个音频信道信号(x1、x2)中音频信道信号(x1)的编码参数(ITD)的方法(100),每个音频信道信号(x1、x2)具有音频信道信号值(x1[n]、x2[n]),所述方法包括:根据所述音频信道信号(x1)的所述音频信道信号值(x1[n])以及参考音频信号(x2)的参考音频信号值(x2[n])来为所述音频信道信号(x1)确定(101)一组函数(c[b]),其中所述参考音频信号是所述多个音频信道信号中另一个音频信道信号(x2)或从所述多个多信道音频信号中至少两个音频信道信号(x1、x2)得到的下混音频信号;基于与所述多信道音频信号的帧序列(i)相关的所述一组函数(c[b])的平滑化来确定(103)第一组编码参数(ITD[b]),所述平滑化是基于第一平滑化系数(SMW1);基于与所述多信道音频信号的所述帧序列(i)相关的所述一组函数(c[b])的平滑化来确定(105)第二组编码参数(ITD_inst[b]),所述平滑化是基于第二平滑化系数(SMW2);以及基于与所述第一组编码参数(ITD[b])和/或所述第二组编码参数(ITD_inst[b])相关的质量标准来确定(107)所述编码参数(ITD、CLD)。
【专利说明】确定多信道音频信号的编码参数的方法及多信道音频编码器
【技术领域】
[0001]本发明涉及音频编码,确切地说,涉及又称作参数空间音频编码的参数多信道或立体声音频编码。
【背景技术】
[0002]例如在针对音频和声音信号处理应用的IEEE专题研讨会会议记录,2001年10月,第 199 页至第 202 页(Proc.1EEE Workshop on App1.0f Sig.Proc.to Audio andAcoust.,Oct.2001, pp.199-202)中法勒(C.Faller)和鲍姆加特(F.Baumgarte)的“使用感知参数化的空间音频的有效表不(Efficient representation of spatial audio usingperceptual parametrization) ”中描述的参数立体声或多信道音频编码,其使用空间提示以从下混音频信号,通常为单声道或立体声音频信号,合成多信道音频信号,所述多信道音频信号所具有的信道比下混音频信号多。通常,下混音频信号因多信道音频信号,例如,立体声音频信号,的多个音频信道信号的重叠而产生。对这些较少信道进行波形编码,并且将与原始信号信道关系相关的边信息,即,空间提示,作为编码参数添加到编码的音频信道。解码器基于解码的波形编码音频信道而使用此边信息来重新生成原始数量的音频信道。
[0003]基本参数立体声编码器可将信道间电平差(ILD或CLD)用作从单声道下混音频信号生成立体声信号所需的提示。更多尖端编码器还可使用信道间相干性(inter-channelcoherence, ICC),信道间相干性(ICC)可表示音频信道信号,即,音频信道,之间的类似程度。此外,当编码双耳立体声信号例如通过使用头相关传递函数(HRTF)过滤来实现基于3D音频或耳机的环绕呈现时,耳间时间差(ITD)可发挥作用以重现信道之间的时延差。
[0004]如图8中所示,耳间时间差(ITD)为声音801到达两耳803、805之间的时间差。耳间时间差(ITD)对声音的定位而言是很重要的,因为它提供辨别声源801的入射方向807或角度Θ (相对于头部809)的提示。如果信号从一侧到达耳803、805,那么该信号到达远耳803 (对侧的)的路径811较长,而到达近耳805 (同侧的)的路径813较短。此路径长度差使到达耳803、805的声音之间产生时间差815,该时间差815被检测到并且有助于声源801的方向807的辨别过程
[0005]图8给出了 ITD的一个实例(表示为Λ t或时间差815)。到达两耳803、805的时间差由声音波形的时延来指示。如果波形先到达左耳803,那么ITD815是正的,否则是负的。如果声源801位于收听者的正前方,那么波形同时到达两耳803、805,因此ITD815为零。
[0006]ITD提示对大多数立体声录制而言是很重要的。例如,可基于头相关传递函数(HRTF)处理通过使用例如仿真头部或双耳合成而从真实录制获得的双耳音频信号被用于音乐录制或音频会议。因此,双耳音频信号对于低比特率参数立体声编解码器而言尤其对于针对对话应用的编解码器而言是极其重要的参数。低复杂性且稳定的ITD估计算法是低比特率参数立体声编解码器所需要的。此外,除了如信道间电平差(CLD或ILD)和信道间相干性(ICC)等其他参数之外,ITD参数的使用,也可增加比特率的开销。在此具体的甚低比特率场景中,只可传输一个全频带ITD参数。当仅估计一个全频带ITD时,对稳定性的约束变得更加难以实现。
[0007]当通过使用交叉相关、交叉谱或能量来估计参数时,估计函数的快速变化可导致对参数的不稳定估计。估计的参数在帧之间可能过快过频繁地发生变化,我们通常不希望这样。在帧较小时可发生这种情况,这样会导致交叉相关的估计量不可靠。不稳定性问题会被感觉成声源似乎从左侧跳向右侧和/或相反,但是实际声源并未改变位置。不稳定性问题还可被收听者检测到,即使声源位置未从左侧跳向右侧。由于声源位置随时间的较小变化都很容易被听者感觉到,所以既然实际声源固定,就要避免声源位置的变化。
[0008]例如,耳间时间差(ITD)是参数立体声编解码器的重要参数。如果基于交叉相关函数的计算而在频域中估计ITD,那么即使声源位置固定且实际ITD稳定,在连续帧上估计的ITD通常也不稳定。稳定性问题可通过以下方式来解决:先对交叉相关运用平滑化函数,然后将该交叉相关用于ITD估计。然而,在对交叉相关平滑化时,不能跟随实际ITD的快速变化。此外,稳定的平滑化能在声源或听音位置相对于彼此移动时减少快速跟随ITD变化的跟踪行为。
[0009]另一个实例是信道电平差(CLD)估计。CLD是参数立体声编解码器的重要参数。如果基于对每个窗口(bin)或子频带的能量的计算而在频域中估计CLD,那么即使声源位置固定且实际电平差稳定,在连续帧上估计的CLD通常也不稳定。稳定性问题可通过以下方式来解决:先对能量运用平滑化函数,然后将该能量用于CLD估计。然而,在使能量平滑化时,不能跟随实际CLD的快速变化,因此能在声源或听音位置相对于彼此移动时减少快速跟随CLD变化的跟踪行为。
[0010]找到允许快速跟随ITD或CLD变化并且同时使ITD或CLD保持稳定的适当平滑化系数已证明是不可能的,尤其是在相关函数具有低分辨率时,例如,FFT的频率分辨率。

【发明内容】

[0011]本发明的目标是提供一种针对多信道音频编码器的概念,所述信道音频编码器能提供既稳定又快速的参数估计。
[0012]这一目标可通过独立权利要求中的特征实现。进一步的实施形式可从从属权利要求、说明书和附图中清楚地了解。
[0013]本发明是基于以下发现:针对ITD情况下的交叉相关或CLD情况下的能量运用强平滑化和弱平滑化,弱平滑化也称作低平滑化,会产生两种不同编码参数,其中一种编码参数快速地跟随ITD或CLD变化,而另一种编码参数则提供针对连续帧的稳定参数值。通过使用根据稳定性标准等质量标准的智能检测程序,所得到的编码参数既稳定又快速跟随ITD或CLD变化。
[0014]对相关的单一评估不足以获得稳定性和反应性二者,稳定性即,在实际声源不发生移动时在一段时间内对ITD参数保持一致的评估,而反应性即,在实际声源移动时或在具有不同位置的新声源出现在音频场景中时极快地改变评估函数。同一参数基于不同平滑化因数而具有带不同记忆效应的两个不同评估函数,从而能够使一种评估集中在稳定性而另一种评估集中在反应性。选择算法用于选择选择最佳评估,即,最可靠的评估。本发明的各方面是基于带不同平滑化因数的同一评估函数的两个版本。引入质量或可靠性标准以用于从长期评估切换到短期评估的决定。为了受益于短期评估和长期评估二者,用短期状况来更新长期状况,从而消除记忆效应。
[0015]为了详细描述本发明,将使用以下术语、缩写和符号:
[0016]BCC:双耳提示编码,使用下混以及双耳提示(或空间参数)来描述信道间关系的立体声或多信道信号编码。
[0017]双耳
[0018]提示:左耳入口信号与右耳入口信号之间的信道间提示(还可参见ITD、ILD和IC)。
[0019]CLD:信道电平差,与ILD相同。
[0020]FFT:DFT的快速实施,表示为快速傅里叶变换(Fast Fourier Transform)。
[0021]HRTF:头相关传递函数,在自由场中对声音从声源到左耳及右耳入口进行建模转换。
[0022]IC:耳间相干性,即左耳入口信号与右耳入口信号之间的类似程度。有时也将其称作IAC或耳间交叉相关(IACC)。
[0023]ICC:信道间相干性,信道间相关。与IC相同,但是更加广义地定义在任何信号对之间(例如,扬声器信号对,耳入口信号对等)。
[0024]ICPD:信道间相位差。信号对之间的平均相位差。
[0025]ICLD:信道间电平差。与ILD相同,但是更加广义地定义在任何信号对之间(例如,扬声器信号对,耳入口信号对等)。
[0026]ICTD:信道间时间差。与ITD相同,但是更加广义地定义在任何信号对之间(例如,扬声器信号对,耳入口信号对等)。
[0027]ILD:耳间电平差,S卩,左耳入口信号与右耳入口信号之间的电平差。有时也将其称为耳间强度差(IID)。
[0028]IPD:耳间相位差,即,左耳入口信号与右耳入口信号之间的相位差。
[0029]ITD:耳间时间差,即,左耳入口信号和右耳入口信号之间的时间差。有时也将其称为耳间时延。
[0030]I⑶:信道间差。用于表示两个信道之间的差的通用术语,例如,表示两个信道之间的时间差、相位差、电平差或相干性。
[0031]混合:给定一定数目的源信号(例如,分开录制的乐器、多轨录制),生成用于空间音频回放的立体声或多信道音频信号的过程被表示为混合。
[0032]OCPD:总信道相位差。两个或两个以上音频信道的公共相位修改。
[0033]空间
[0034]音频:在通过适当的回放系统进行回放时带来听觉空间图像的音频信号。
[0035]空间
[0036]提示:与空间感知相关的提示。此术语用于立体声或多信道音频信号的信道对之间的提示(还可参见ICTD、ICLD和ICC)。也表示为空间参数或双耳提示。
[0037]根据第一方面,本发明涉及用于确定多信道音频信号的多个音频信道信号中一个音频信道信号的编码参数的方法,每个音频信道信号具有音频信道信号值,所述方法包括:根据所述音频信道信号的所述音频信道信号值以及参考音频信号的参考音频信号值为所 述音频信道信号确定一组函数,其中所述参考音频信号是所述多个音频信道信号中另一个 音频信道信号;基于与所述多信道音频信号的帧序列相关的所述一组函数的平滑化来确定 第一组编码参数,所述平滑化是基于第一平滑化系数;基于与所述多信道音频信号的所述 帧序列相关的所述一组函数的平滑化来确定第二组编码参数,所述平滑化是基于第二平滑 化系数;基于与所述第一组编码参数和/或所述第二组编码参数相关的质量标准来确定所 述编码参数。
[0038]根据第二方面,本发明涉及用于确定多信道音频信号的多个音频信道信号中一个 音频信道信号的编码参数的方法,每个音频信道信号具有音频信道信号值,所述方法包括: 根据所述音频信道信号的所述音频信道信号值以及参考音频信号的参考音频信号值为所 述音频信道信号确定一组函数,其中所述参考音频信号是从所述多个多信道音频信号中至 少两个音频信道信号得到的下混音频信号;基于与所述多信道音频信号的帧序列相关的所 述一组函数的平滑化来确定第一组编码参数,所述平滑化是基于第一平滑化系数;基于与 所述多信道音频信号的所述帧序列相关的所述一组函数的平滑化来确定第二组编码参数, 所述平滑化是基于第二平滑化系数;基于与所述第一组编码参数和/或所述第二组编码参 数相关的质量标准来确定所述编码参数。
[0039]所述一组函数的强平滑化的版本,例如,基于第一平滑化参数的平滑化,使估计变 得稳定。所述一组函数的弱平滑化的版本,例如,基于同时确定的第二平滑化参数的平滑 化,使估计跟随估计参数,即ITD或CLD,的实际快速变化。用所述一组函数的弱平滑化的版 本来更新所述一组函数的强平滑化的版本的记忆,从而提供与跟踪速度和稳定性相关的最 优结果。平滑版本所采用的决定是基于第一组和/或第二组编码参数的质量度量。因此, 可提供稳定且快速的参数估计。
[0040]在根据第一方面或根据第二方面的方法的第一种可能的实施形式中,对所述一组 函数的确定包括:确定音频信道信号的音频信道信号值的频率变换;确定参考音频信号的 参考音频信号值的频率变换;至少针对子频带的子集中的每个子频带,将所述一组函数确 定为交叉谱或交叉相关,所述一组函数中的每个函数都在所述音频信道信号的频带受限信 号部分与所述参考音频信号的频带受限信号部分之间进行计算,这些频带受限信号部分在 与所述一组函数中的所述函数相关联的相应子频带上。
[0041]在基于交叉相关来估计频域中的编码参数时,编码参数估计的稳定性提升。可针 对子频带来处理所述一组函数,从而改进选择编码参数时的灵活性并提高抵御噪声的稳健 性,因为子频带对噪声的灵敏度低于全频带。
[0042]在根据第一方面的第一种实施形式或根据第二方面的第一种实施形式的方法的 第二种可能的实施形式中,子频带包括一个或多个频率窗口。
[0043]子频带的大小可灵活地进行调整,从而可在每个子频带中使用不同的编码参数。
[0044]在根据第一方面本身或根据第二方面本身或者根据第一方面的任一前述实施形 式或根据第二方面的任一前述实施形式的方法的第三种可能的实施形式中,第一和第二组 编码参数包括信道间差,其中所述信道间差包括信道间时间差和/或信道间电平差。
[0045]可使用信道间差作为空间参数以检测多信道音频信号的第一与第二音频信道之 间的差。所述差可以是,例如,到达时间的差,如耳间时间差或信道间时间差,或者两个音频信道的电平的差。两种差均适于用作编码参数。
[0046]在根据第一方面本身或根据第二方面本身或者根据第一方面的任一前述实施形 式或根据第二方面的任一前述实施形式的方法的第四种可能的实施形式中,基于质量标准 来确定编码参数包括确定稳定性参数,所述稳定性参数用于所述质量标准。
[0047]所述质量标准可,例如,基于稳定性参数,从而提升编码参数估计的稳定性。额外 地或可替代地,所述质量标准可基于用于提升用户体验质量(QoE)的体验质量(QoE)标准。 所述质量标准可基于用于在执行音频编码时有效地使用带宽的带宽标准。
[0048]在根据第一方面的第四种实施形式或根据第二方面的第四种实施形式的方法的 第五种可能的实施形式中,
[0049]对编码参数的确定包括:基于与所述帧序列相关的第二组编码参数的连续值之间 的比较,确定第二组编码参数的稳定性参数;以及根据所述稳定性参数来确定编码参数。
[0050]通过使用稳定性参数,估计的稳定性得到提高。此外,估计速度也得到了提升,因 为交叉相关或能量的平滑化可减弱直到所述稳定性参数指示出稳定性损失为止。
[0051]在根据第一方面的第四种实施形式或根据第二方面的第四种实施形式的方法的 第六种可能的实施形式中,
[0052]稳定性参数至少基于第二组编码参数的标准偏差。
[0053]所述标准偏差易于计算,并且提供稳定性的准确度量。当标准偏差较小时,估计是 较稳定或较可靠,当标准偏差较大时,估计是较不稳定或较不可靠。
[0054]在根据第一方面的第四种实施形式或根据第二方面的第四种实施形式或者根据 第一方面的第五种实施形式或根据第二方面的第五种实施形式的方法的第七种可能的实 施形式中,针对多信道音频信号中的一个帧或多个帧来确定稳定性参数。
[0055]针对多信道音频信号中的一个帧来确定稳定性参数是容易实施的,并且具有低计 算复杂度,而针对多个帧来确定稳定性参数能提供对稳定性的准确估计。
[0056]在根据第一方面的第四种到第七种实施形式中任一种实施形式或根据第二方面 的第四种到第七种实施形式中任一种实施形式的方法的第八种可能的实施形式中,对编码 参数的确定是基于稳定性参数的阈交来确定。
[0057]当稳定性参数低于阈值时,估计稳定或可靠,而稳定性参数高于阈值则指示不稳 定或不可靠的估计。
[0058]在根据第一方面的第八种实施形式或根据第二方面的第八种实施形式的方法的 第九种可能的实施形式中,所述方法进一步包括:如果稳定性参数跨越了阈值,则用第二组 编码参数来更新第一组编码参数。
[0059]通过更新,第一组编码参数的估计可得到改进。当稳定性参数高于指示稳定估计 的阈值时,长期平滑化可用短期平滑化来更新或替换,从而在维持稳定性的同时提升估计 速度。
[0060]在根据第一方面本身或根据第二方面本身或者根据第一方面的任一前述实施形 式或根据第二方面的任一前述实施形式的方法的第十种可能的实施形式中,基于第一和第 二平滑化系数的所述一组函数的平滑化的计算方式为,将乘以第一系数的所述一组函数与 乘以第二系数的所述一组函数的第一和第二平滑版本的记忆状态相加,其中所述第一系数
基于第一和第二平滑化系数,所述第二系数基于第一和第二平滑化系数。[0061]此类递归计算使用存储器来存储所述一组函数的第一和第二平滑版本的过去值。 递归平滑化的计算效率较高,因为加法和乘法的数目较少。递归平滑化的记忆效率较高, 因为仅需要一个记忆状态来存储过去平滑化的那组函数,该记忆状态在每个计算步骤中更新。
[0062]在根据第一方面的第十种实施形式或根据第二方面的第十种实施形式的方法的 第十一种可能的实施形式中,所述方法进一步包括:如果稳定性参数跨越了阈值,则用所述 一组函数的第二平滑版本的记忆状态来更新所述一组函数的第一平滑版本的记忆状态。
[0063]通过根据稳定性参数用所述一组函数的第二平滑版本的记忆状态来更新所述一 组函数的第一平滑版本的记忆状态,估计稳定性和速度得到了改进。当稳定性参数高于指 示稳定估计的阈值时,长期平滑化可用短期平滑化来更新或替换,长期平滑化即,所述一组 函数的第一平滑版本,而短期平滑化即,所述一组函数的第二平滑版本,从而在维持稳定性 的同时提升估计速度。
[0064]在根据第一方面本身或根据第二方面本身或者根据第一方面的任一前述实施形 式或根据第二方面的任一前述实施形式的方法的第十二种可能的实施形式中,第一平滑化 系数高于第二平滑化系数。
[0065]第一平滑化系数用于进行长期估计,而第二平滑化系数用于进行短期估计,因而 能够区分不同的平滑化结果。
[0066]在根据第一方面本身或根据第二方面本身或者根据第一方面的任一前述实施形 式或根据第二方面的任一前述实施形式的方法的第十三种可能的实施形式中,所述一组函 数的平滑化是关于多信道音频信号的至少两个连续帧。
[0067]如果使用多信道音频信号的两个或两个以上连续帧,那么所述平滑化将更为准确。
[0068]在根据第一方面本身或根据第二方面本身或者根据第一方面的任一前述实施形 式或根据第二方面的任一前述实施形式的方法的第十四种可能的实施形式中,所述一组函 数的平滑化能区分第二组编码参数的正值与第二组编码参数的负值。
[0069]通过区分第二组编码参数的正值与负值,所述估计会具有更高的精确度。
[0070]在根据第一方面的第十四种实施形式或根据第二方面的第十四种实施形式的方 法的第十五种可能的实施形式中,所述一组函数的平滑化包括:针对一定数目的频率窗口 或子频带,计算第二组编码参数的正值的第一数目以及第二组编码参数的负值的第二数 目。
[0071]对正值和负值进行计数能够实现根据第二组编码参数的正负号而对第二组编码 参数进行的区分。通过进行所述区分,估计速度得到提升。
[0072]根据第三方面,本发明涉及多信道音频编码器,所述多信道音频编码器用于确定 多信道音频信号的多个音频信道信号中一个音频信道信号的编码参数,每个音频信道信号 具有音频信道信号值,所述多信道音频编码器包括:第一确定器,其根据所述音频信道信号 的所述音频信道信号值以及参考音频信号的参考音频信号值为所述音频信道信号确定一 组函数,其中所述参考音频信号是所述多个音频信道信号中另一个音频信道信号;第二确 定器,其基于与所述多信道音频信号的帧序列相关的所述一组函数的平滑化来确定第一组 编码参数,所述平滑化是基于第一平滑化系数;第三确定器,其基于与所述多信道音频信号的所述帧序列相关的所述一组函数的平滑化来确定第二组编码参数,所述平滑化是基于第 二平滑化系数;以及编码参数确定器,其基于与第一组编码参数和/或第二组编码参数相 关的质量标准来确定所述编码参数。
[0073]根据第四方面,本发明涉及多信道音频编码器,所述多信道音频编码器用于确定 多信道音频信号的多个音频信道信号中一个音频信道信号的编码参数,每个音频信道信号 具有音频信道信号值,所述多信道音频编码器包括:第一确定器,其根据所述音频信道信号 的所述音频信道信号值以及参考音频信号的参考音频信号值为所述音频信道信号确定一 组函数,其中所述参考音频信号是从所述多个多信道音频信号中至少两个音频信道信号得 到的下混音频信号;第二确定器,其基于与所述多信道音频信号的帧序列相关的所述一组 函数的平滑化来确定第一组编码参数,所述平滑化是基于第一平滑化系数;第三确定器,其 基于与所述多信道音频信号的所述帧序列相关的所述一组函数的平滑化来确定第二组编 码参数,所述平滑化是基于第二平滑化系数;以及编码参数确定器,其,基于与第一组编码 参数和/或第二组编码参数相关的质量标准来确定所述编码参数。
[0074]此类多信道音频编码器提供关于速度和稳定性的最优编码。所述一组函数的强 平滑化的版本,例如,基于第一平滑化参数的平滑化,使估计变得稳定。所述一组函数的弱 平滑化的版本,例如,基于同时确定的第二平滑化参数的平滑化,使估计跟随估计参数,即, ITD或CLD,而产生真实的快速变化。用所述一组函数的弱平滑化的版本来更新所述一组函 数的强平滑化的版本的记忆,从而提供与跟踪速度和稳定性相关的最优结果。平滑版本所 采用的决定是基于第一组和/或第二组编码参数的质量度量。因此,提供了稳定且快速的 参数估计。
[0075]根据第五方面,本发明涉及一种带程序代码的计算机程序,所述计算机程序用于 在计算机上运行时执行根据第一方面本身或根据第二方面本身或者根据第一方面的任一 前述实施形式或根据第二方面的任一前述实施形式的方法。
[0076]根据第六方面,本发明涉及存储器等具有计算机程序的机器可读媒体,尤其是光 盘,所述计算机程序包含程序代码,用于在计算机上运行时执行根据第一方面本身或根据 第二方面本身或者根据第一方面的任一前述权利要求或根据第二方面的任一前述权利要 求的方法。
[0077]上文所述的本发明的各方面可用于参数空间音频编码器中的ITD估计。在参数空 间音频编码器或参数多信道音频编码器中,先对空间参数进行提取并量化,然后在比特流 中对其进行多路传输。所述参数(例如ITD)可在频域中基于交叉相关来进行估计。为了 使估计更加稳定,对频域交叉相关进行强平滑化以进行参数(ITD)估计。为了跟随参数的 实际快速变化,同时也计算频域交叉相关的弱平滑化的版本,所述计算是基于通过减弱记 忆效应而实现的对交叉相关进行的几乎瞬时的估计。
[0078]估计函数的弱平滑化的版本被用于估计参数(ITD)以及在参数状况发生改变的 情况下更新交叉相关的强平滑化的版本的交叉相关记忆。对弱平滑化的版本进行使用的决 定是基于所估计参数的质量度量。所述参数是基于估计函数的两个版本来估计的。最佳估 计被保留,并且如果选择了弱平滑化的函数,那么它还用于更新强平滑化的版本。
[0079]例如,在ITD估计的情况下,基于频域交叉相关的弱平滑化的版本来计算ITD_ inst(ITD的弱平滑化的版本)。如果ITDjnst针对若干频率窗口 /子频带的标准偏差低于预定阈值,那么将使用来自弱平滑化的版本的交叉相关来更新强平滑化的交叉相关,并且选择用弱平滑化的函数来估计的ITD。
[0080]简单的质量度量是基于弱平滑化版本ITD估计的标准偏差。当然,还可用类似方式使用其他质量度量。例如,位置改变的可能性可基于所有可用空间信息(CLD、ITD、ICC) 来计算。作为一个实例,ITD的快速改变与CLD的快速改变之间的相关将表示对空间图像进行修改的高可能性。
[0081]本文描述的方法可作为数字信号处理器(DSP)、微控制器或任何其他边处理器中的软件来实施或作为专用集成电路(ASIC)内的硬件电路来实施。
[0082]本发明的实施形式可为数字电子电路或计算机硬件、固件、软件或以上各者的组
口 o
【专利附图】

【附图说明】
[0083]本发明的进一步实施例将参考以下附图进行描述,其中:
[0084]图1a所示为根据一种实施形式的用于确定音频信道信号所用编码参数的方法的示意图;
[0085]图1b所示为根据一种实施形式的用于确定音频信道信号所用编码参数的方法的示意图;
[0086]图2所示为根据一种实施形式的ITD估计算法的示意图;
[0087]图3所示为根据一种实施形式的CLD估计算法的示意图;
[0088]图4所示为根据一种实施形式的参数音频编码器的方框图;
[0089]图5所示为根据一种实施形式的参数音频解码器的方框图;
[0090]图6所示为根据一种实施形式的参数立体声音频编码器和解码器的方框图;
[0091]图7所示为根据一种实施形式的ITD选择算法的方框图;以及
[0092]图8所示为说明了耳间时间差原理的示意图。
【具体实施方式】
[0093]图1a所示为根据一种实施形式的用于确定音频信道信号所用编码参数的方法 IOOa的示意图。
[0094]方法IOOa是用于确定多信道音频信号的多个音频信道信号x1,x2中音频信道信号 X1的编码参数ITD,例如,信道间时间差或耳间时间差。每个音频信道信号Xl、X2包括音频信道信号值X1 [n]、x2[n]。方法IOOa包括:
[0095]根据音频信道信号X1的音频信道信号值X1 [n]以及参考音频信号X2的参考音频信号值X2 [n]为音频信道信号X1确定101 —组函数c [b],其中所述参考音频信号是所述多个音频信道信号中另一个音频信道信号X2或从所述多个多信道音频信号中至少两个音频信道信号Xl、X2得到的下混音频信号;
[0096]基于与多信道音频信号的帧序列i相关的所述一组函数c[b]的平滑化来确定 103a第一组编码参数ITD [b],所述平滑化是基于第一平滑化系数SMW1 ;
[0097]基于与多信道音频信号的帧序列i相关的所述一组函数c[b]的平滑化来确定 105a第二组编码参数ITD_inst [b],所述平滑化是基于第二平滑化系数SMW2 ;以及[0098]基于与所述第一组编码参数ITD [b]和/或所述第二组编码参数ITD_inst [b]相 关的质量标准来确定107a编码参数ITD。
[0099]在一种实施形式中,确定107a编码参数ITD包括检查第二组编码参数ITD_ inst[b]的稳定性。如果对于所有频率窗口 b而言第二组编码参数ITD_inst[b]是稳定的, 则选择基于第二组编码参数ITD_inst [b]的编码参数ITD作为最终估计,并且用基于第二 平滑化系数SMW2的所述一组函数c [b]的平滑化来更新基于第一平滑化系数SMW1的所述一 组函数c[b]的平滑化记忆。如果对于所有频率窗口 b而言第二组编码参数ITD_inst[b] 是不稳定的,则选择基于第一组编码参数ITD[b]的编码参数ITD作为最终估计。
[0100]在一种实施形式中,方法IOOa包括以下步骤:
[0101]针对参数ITD的估计,根据基于第一平滑化系数的输入信号Xl[n]、x2[n]来计算 IOla第一函数c [b]并且计算103a相关联的平滑函数csm[b]。
[0102]针对参数ITD的估计,根据基于第二平滑化系数的输入信号Xl[n]、x2[n]来计算 105a 第二平滑函数 Csni inst [b]。
[0103]基于估计函数的两个平滑版本csm [b]和Csm inst [b]来计算107a参数ITD和ITDinst 的第一和第二估计。
[0104]检查107a参数ITDinst的第二估计的稳定性。如果参数的第二估计是稳定的,则 选择参数ITDinst的第二估计作为最终估计,并且用第二平滑函数来更新第一平滑函数的记 忆。如果参数的第二估计是不稳定的,则选择参数ITD的第一估计作为最终估计。
[0105]在一种实施形式中,方法IOOa包括以下步骤:
[0106]1.计算第一 Xl[n]和第二 X2[n]信道信号的FFT。
[0107]2.在频域中计算那两个信道的交叉相关c [n]。
[0108]2.1.对交叉相关c[n]进行强平滑化并且计算与第一平滑化系数,即,长期平滑化 系数,相关的每个频率窗口(或频带)的ITD(信道间时间差的长时间估计)。
[0109]2.2.对交叉相关c[n]进行弱平滑化并且计算与第二平滑化系数,即,短期平滑化 系数,相关的每个频率窗口(或频带)的ITD_inst(信道间时间差的短时间估计)。
[0110]3.计算ITD_inst的平均值和标准偏差。
[0111]4.如果ITDjnst的标准偏差低于阈值,则用弱平滑化版本的交叉相关来更新强 平滑化的交叉相关的记忆,并且输出ITDjnst的平均值作为最终ITD。如果ITDjnst的标 准偏差高于阈值,则输出ITD的平均值作为最终ITD。
[0112]图1b所示为根据一种实施形式的用于确定音频信道信号所用编码参数的方法 IOOb的示意图。
[0113]方法IOOb是用于确定多信道音频信号的多个音频信道信号Xl、X2中音频信道信 号X1的编码参数CLD,例如,信道间电平差。每个音频信道信号Xl、X2包括音频信道信号值 X1Ln] > x2 [n] o 方法 IOOb 包括:
[0114]根据音频信道信号X1的音频信道信号值X1 [n]以及参考音频信号X2的参考音频 信号值X2 [n]为音频信道信号X1确定101 —组函数c [b],其中所述参考音频信号是所述多 个音频信道信号中另一个音频信道信号X2或从所述多个多信道音频信号中至少两个音频 信道信号Xl、X2得到的下混音频信号;
[0115]基于与多信道音频信号的帧序列i相关的所述一组函数c[b]的平滑化来确定103b第一组编码参数CLD [b],所述平滑化是基于第一平滑化系数SMW1 ;
[0116]基于与多信道音频信号的帧序列i相关的所述一组函数c[b]的平滑化来确定 105b第二组编码参数CLD_inst [b],所述平滑化是基于第二平滑化系数SMW2 ;以及
[0117]基于与所述第一组编码参数CLD [b]和/或所述第二组编码参数CLD_inst[b]相 关的质量标准来确定107b编码参数CLD。
[0118]在一种实施形式中,确定107b编码参数CLD包括检查第二组编码参数CLD_ inst[b]的稳定性。如果对于所有频率窗口 b而言第二组编码参数CLD_inst[b]是稳定的, 则选择基于第二组编码参数CLD_inst[b]的编码参数CLD作为最终估计,并且用基于第二 平滑化系数SMW2的所述一组函数c [b]的平滑化来更新基于第一平滑化系数SMW1的所述一 组函数c[b]的平滑化记忆。如果对于所有频率窗口 b而言第二组编码参数CLD_inst[b] 是不稳定的,则选择基于第一组编码参数CLD[b]的编码参数CLD作为最终估计。
[0119]在一种实施形式中,方法IOOb包括以下步骤:
[0120]针对参数CLD的估计,根据基于第一平滑化系数的输入信号Xl[n]、x2[n]来计算 IOla第一函数c [b]并且计算103b相关联的平滑函数csm[b]。
[0121]针对参数CLD的估计,根据基于第二平滑化系数的输入信号Xl[n]、x2[n]来计算 105b 第二平滑函数 Csni inst [b]。
[0122]基于估计函数的两个平滑版本Csm [b]和、—[13]来计算107b参数CLD和CLDinst 的第一和第二估计。
[0123]检查107b参数CLDinst的第二估计的稳定性。如果参数的第二估计是稳定的,则 选择参数CLDinst的第二估计作为最终估计,并且用第二平滑函数来更新第一平滑函数的记 忆。如果参数的第二估计是不稳定的,则选择参数CLD的第一估计作为最终估计。
[0124]在一种实施形式中,方法IOOb包括以下步骤:
[0125]1.计算第一 X1Qi]和第二 X2[n]信道信号的FFT。
[0126]2.在频域中计算那两个信道的能量en[n]。
[0127]2.1.对能量en[n]进行强平滑化并且计算与第一平滑化系数,即,长期平滑化系 数,相关的每个频率窗口(或频带)的CLD(信道间电平差的长时间估计)。
[0128]2.2.对能量en[n]进行弱平滑化并且计算与第二平滑化系数,即,短期平滑化系 数,相关的每个频率窗口(或频带)的CLD_inst(信道间电平差的短时间估计)。
[0129]3.检查基于CLD_inst的立体声图像的稳定性。
[0130]4.如果立体声图像不稳定,则用弱平滑化版本的能量来更新强平滑化的能量的记 忆,并输出CLD_inst作为最终CLD。如果立体声图像是稳定的,则输出CLD作为最终CLD。
[0131]图2所示为根据一种实施形式的ITD估计算法200的示意图。
[0132]在第一步骤209中,对第一输入信道X1 [n]的样本运用时间频率变换,从而获得第 一输入信道X1的频率表示XJk]。在第二步骤211中,对第二输入信道x2[n]的样本运用时 间频率变换,从而获得第二输入信道X2的频率表示X2 [k]。在立体声输入信道的实施形式 中,第一输入信道X1可为左声道并且第二输入信道X2可为右声道。在一个优选实施例中,时 间频率变换为快速傅立叶变换(Fast Fourier Transform, FFT)或短时傅立叶变换(Short Term Fourier Transform, STFT)。在一个替代实施例中,时间频率变换是余弦调制滤波器 组或复数滤波器组。[0133]在第三步骤213中,每个子频带的交叉谱c [b]根据第一和第二输出信道Xl、X2的频率表示X1DO和X2 [k]来计算,计算公式为
[0134]
【权利要求】
1.一种用于确定多信道音频信号的多个音频信道信号(X1、X2)中音频信道信号(X1)的编码参数(ITD)的方法(100),每个音频信道信号(Xl、x2)具有音频信道信号值U1 [η]、X2 [η]),所述方法包括: 根据所述音频信道信号(X1)的所述音频信道信号值U1 [η])以及参考音频信号(X2)的参考音频信号值U2[η])为所述音频信道信号(X1)确定(101) —组函数(c[b]),其中所述参考音频信号是所述多个音频信道信号中另一个音频信道信号(?)或从所述多个多信道音频信号中至少两个音频信道信号(X1U2)得到的下混音频信号; 基于与所述多信道音频信号的帧序列(i)相关的所述一组函数(c[b])的平滑化来确定(103)第一组编码参数(ITD [b]),所述平滑化是基于第一平滑化系数(SMW1); 基于与所述多信道音频信号的所述帧序列(i)相关的所述一组函数(c[b])的平滑化来确定(105)第二组编码参数(ITD_inst[b]),所述平滑化是基于第二平滑化系数(SMW2);以及 基于与所述第一组编码参数(ITD[b])和/或所述第二组编码参数(ITD_inst[b])相关的质量标准来确定(107)所述编码参数(ITD)。
2.根据权利要求1所述的方法,其中所述确定(101)所述一组函数(c[b])包括: 确定所述音频信道信号(X1)的所述音频信道信号值U1 [η])的频率变换(X1DO); 确定(103)所述参考音频信号(X2)的所述参考音频信号值(Xl[n])的频率变换(X2[k]); 对子频带的子集中的至少每个子频带(b),将所述一组函数(c[b])确定(105)为交叉谱或交叉相关,所述一组函 数(c[b])中的每个函数都在所述音频信道信号的频带受限信号部分与所述参考音频信号的频带受限信号部分之间进行计算,这些频带受限信号部分在与所述一组函数(c[b])中的所述函数相关联的相应子频带(b)上。
3.根据权利要求2所述的方法(100),其中子频带包括一个或多个频率窗口(k)。
4.根据前述权利要求中任一权利要求所述的方法(100),其中所述第一组编码参数(ITD[b])和所述第二组编码参数(ITD_inst[b])包括信道间差(ICD[b]),其中所述信道间差(ICD[b])包括信道间时间差(ITD[b])和/或信道间电平差(CLD[b])。
5.根据前述权利要求中任一权利要求所述的方法(100),其中基于质量标准对所述编码参数(ITD)进行的所述确定(107)包括确定稳定性参数,所述稳定性参数用于所述质量标准。
6.根据权利要求5所述的方法(100),其中对所述编码参数(ITD、CLD)的所述确定(107)包括: 基于与所述帧序列Q)相关的所述第二组编码参数(ITD_inst[b]、CLD_inst[b])的连续值之间的比较,确定所述第二组编码参数(ITD_inst[b]、CLD_inst[b])的稳定性参数;以及 根据所述稳定性参数来确定所述编码参数(ITD、CLD)。
7.根据权利要求5所述的方法(100),其中所述稳定性参数至少基于所述第二组编码参数(ITD_inst[b], CLD_inst[b])的标准偏差(ITDjnststd)。
8.根据权利要求6或权利要求7所述的方法(100),其中所述稳定性参数是针对所述多信道音频信号的一个帧或多个帧来确定。
9.根据权利要求6、权利要求7或权利要求8所述的方法(100),其中对所述编码参数(ITD、CLD)的所述确定是基于所述稳定性参数的阈交来确定。
10.根据权利要求9所述的方法(100),其进一步包括: 如果所述稳定性参数跨越了所述阈值,则用所述第二组编码参数(ITD_inst[b]、CLD_inst[b])来更新所述第一组编码参数(ITD[b]、CLD[b])
11.根据前述权利要求中任一权利要求所述的方法(100),其中基于第一平滑化系数和第二平滑化系数(SMWpSMW2)的所述一组函数(c[b])的所述平滑化的计算方式为,将乘以第一系数的所述一组函数与乘以第二系数的所述一组函数的第一平滑版本和第二平滑版本的记忆状态相加,其中所述第一系数基于所述第一平滑化系数和所述第二平滑化系数(SMW1, SMW2),所述第二系数基于所述第一平滑化系数和所述第二平滑化系数(SMWp SMW2)。
12.根据权利要求11所述的方法(100),其进一步包括: 如果所述稳定性参数跨越了所述阈值,则用所述一组函数(c[b])的所述第二平滑版本的所述记忆状态来更新所述一组函数(c[b])的所述第一平滑版本的所述记忆状态。
13.根据前述权利要求中任一权利要求所述的方法(100),其中所述第一平滑化系数(SMW1)高于所述第二平滑化系数(SMW2)。
14.一种多信道音频编码器(400),用于为多信道音频信号的多个音频信道信号(Xl、X2)中音频信道信号(X1)确定编码参数(ITD),每个音频信道信号(X1、X2)具有音频信道信号值(X1 [η]、χ2 [η]),所述多信道音频编码器包括: 第一确定器,其根据所述音频信道信号(X1)的所述音频信道信号值U1 [η])以及参考音频信号(X2)的参考音频信号值U2[η])为所述音频信道信号(X1)确定一组函数(c[b]),其中所述参考音频信号是所述多个音频信道信号中另一个音频信道信号(X2)或从所述多个多信道音频信号中至少两个音频信道信号(Xl、X2)得到的下混音频信号; 第二确定器,其基于与所述多信道音频信号的帧序列(i)相关的所述一组函数(c[b])的平滑化来确定第一组编码参数(ITD [b]),所述平滑化是基于第一平滑化系数(SMW1); 第三确定器,其基于与所述多信道音频信号的所述帧序列(i)相关的所述一组函数(c[b])的平滑化来确定第二组编码参数(ITD_inst[b]),所述平滑化是基于第二平滑化系数(SMW2);以及 编码参数确定器,其基于与所述第一组编码参数(ITD [b])和/或所述第二组编码参数(ITD_inst[b])相关的质量标准来确定所述编码参数(ITD)。
15.一种具有程序代码的计算机程序,所述计算机程序用于在计算机上运行时执行根据权利要求1至13中任一项权利要求所述的方法(100)。
【文档编号】G10L19/008GK103460283SQ201280003252
【公开日】2013年12月18日 申请日期:2012年4月5日 优先权日:2012年4月5日
【发明者】大卫·维雷特, 郎玥, 许剑峰 申请人:华为技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1