语音编码装置以及频谱变形方法

文档序号:2830048阅读:338来源:国知局
专利名称:语音编码装置以及频谱变形方法
技术领域
本发明涉及语音编码装置以及频谱变形方法。
背景技术
对单声道语音信号进行编码的语音编码技术现在已经成为标准。在信号 来自例如人的话音等的单一音源的移动电话和电话会议机器等通信机器中, 通常使用像这样的单声道编码。
以往由于发送信号的带宽和DSP的处理速度等原因,局限于这样的单声 道信号。然而,随着技术的进步及带宽的改善,该限制的重要性逐渐消失。另 一方面,语音的质量变成更应考虑的重要因素。单声道语音的缺点之一为不 提供诸如立体的音感或说话人的位置等的空间信息。因此,今后为了实现更 好的话音,应考虑以尽可能低的比特速率达成音质良好的立体声语音。
对立体声语音信号进行编码的一种方法为利用信号的预测或其估计技
术。也就是说,对一方的声道,使用众所周知的音频编码技术进行编码,而
些辅助信息(side information),基于已经编码过的声道进行预测或估计。
这才羊的方法作为双耳标系统(binaural cue coding system,例如,参见非专 利文献l)的一部分,在专利文献1中记述了有关该方法的记载。在该记载中, 该方法适用于声道间电平差(ILD: interchannel level difference)的计算,计算 所述声道间电平差的目的是以参考声道为基准对一方的声道的电平进行调整。 与原音相比,所预测或所估计的信号往往不忠实。因此,需要对所预测 或所估计的信号进行增强(enhancement),以便尽可能地使其类似于原来的信
一般而言,在频域对音频信号和语音信号进行处理。 一般将该频域数据 称为"变换后的区域中的谱系数"。因此,能够在频域进行如上的预测及估计 方法。例如,对于L声道和R声道的谱数据,能通过提取其辅助信息中的某 些信息而将该信息适用于单声道的声道,来进行估计(参照专利文献1)。其它
变形例子中还包括正如能基于R声道估计L声道那样,基于一方的声道估计 另一方的声道的技术等。
作为适用音频处理和语音处理中的增强的一个区域,有频谱能量估计。
频谱能量估计也被称为"频谱能量预测"或"定标(scaling)"。在典型的频语能量 估计运算中,将时域信号变换为频域信号。通常,对该频域信号与临界频带 匹配地区分(partition)为多个频带。对参考声道和所估计的声道的双方进行该 处理。对双方的声道的各个频带计算能量,并使用两个声道的能量比例,计 算定标因子(scalefactor)。将该定标因子发送到接收装置,并且在该接收装置 中,使用该定标因子对参考信号进行定标,从而得到对各个频带的变换后的 区域中的估计信号。然后,进行频率逆变换处理,得到相当于估计变换区域 谱数据的时域信号。
专利文献1:国际公开第03/090208号小册子(pamphlet) 非专利文南大1: C. Faller and F. Baumgarte, "Binaural cue coding: A novel and efficient representation of spatial audio", Proc. ICASSP, Orlando, Florida, Oct. 2002.

发明内容
发明要解决的问题
图1表示驱动音源信号的频谙(驱动音源谱)的一例。该频率谱为表示周 期性的峰值的、具有周期性和恒定性的频谱。另外,图2是表示基于临界频 带的分区化的例子的图。
在以往的方法中,将图2所示的频域的语系数分割为多个临界频带,并 计算能量和定标因子。在对非驱动音源信号的处理中通常使用该方法,但是 由于驱动音源语中出现重复图案(repetitive pattern),所以该方法并不适合于驱 动音源信号。这里,非驱动音源信号意味着在用于生成驱动音源信号的LPC 分析等的信号处理中的信号。
如上所述,在图2所示的基于临界频带的分区化中,由于各个频带的带 宽不均等,所以通过将驱动音源谱单纯地分割为临界频带无法计算高精度地 表示驱动音源谱的各个峰值的上升和下降的定标因子。
因此,本发明的目的为,提供语音编码装置和频谱变形方法,能够提高 信号估计和预测的效率而有高效率地表现频谱。
解决问题的方案
为了解决上述问题,本发明对语音信号中的具有周期性的部分求音调周
期(pitch period)。该音调周期被用于求语音信号的基本音调频率或重复图案 (谐波结构harmonic structure)。通过利用频谱的规则性的间隔或周期性的图 案进行交织,并将振幅上类似的多个峰值(语系数)汇总为一个组来生成多个组 之后,计算定标因子。使用基本音调频率作为交织间隔而对频谱进行交织, 由此改变驱动音源谱的顺序。
由此,由于将振幅上类似的多个谱系数汇总为一个组,因此能够提高定 标因子的量化效率,所述定标因子用于将目标信号的频谱调整到正确的振幅 电平。
另外,为了解决上述问题,本发明选择是否需要进行交织。该判断基准 取决于所处理的信号的类型。语音信号中的具有周期性的部分在频谱中表示 重复图案。在这样的情况下,使用基本音调频率作为交织单位(交织间隔),对 频语进行交织。另一方面,语音信号中的不具有周期性的部分在频谱波形中 不具有重复图案。因此,此时实行不使用交织的频谱变形。
由此,在信号的类型不同的情况下,能够构建选择对应于该差异的适当 的频语变形方法的灵活的系统,从而提高整体的编码效率。
发明效果
根据本发明,能够提高信号估计和预测的效率而更高效率地表现频谱。


图l是表示驱动音源谱的一例的图2是表示基于临界频带的分区化的例子的图3是表示进行本发明的等间隔的频带区分后的频谱的一例的图4是表示本发明的交织处理的概要的图5是表示实施方式1的语音编码装置和语音解码装置的基本结构的方
框图6是表示实施方式1的频率变换单元和频谱差运算单元的内部的主要 结构的方^f匡图7是表示频带分割的例子的图8是表示实施方式1的频谱变形单元的内部的图9是表示实施方式2的语音编码系统(编码端)的图10是表示实施方式2的语音编码系统(解码端)的图;以及
图11是表示实施方式2的立体声方式的语音编码系统的图。
具体实施例方式
本发明的语音编码装置对所输入的频谱进行变形处理,并对变形后的频 谱进行编码。首先,在编码装置中,将作为变形对象的目标信号变换为频域 的频谱分量。该目标信号通常为与原信号不相似的信号。另外,目标信号也 可以是对原信号进行预测或估计而得到的信号。
在频i普变形处理中,使用原信号作为参考信号。判断参考信号是否包含 周期性。在判断了参考信号具有周期性时,计算音调周期T。基于该音调周 期T,计算参考信号的基本音调频率fo。
对被判断为具有周期性的帧进行频谱交织处理。为了表示作为频谱交织 处理的对象,采用标识(以下称为"交织标识(interleave flag)")。首先,将目标 信号的频谱和参考信号的频语分割为多个分区。各个分区的宽度相当于基本 音调频率fo的间隔的宽度。图3是表示进行本发明的等间隔的频带区分后的 频傳的一个例子的图。然后,以基本音调频率fo为交织间隔,对各个频带的 频谱进行交织。图4是表示上述的交织处理的概要的图。
将交织后的频语进一步分割为几个频带。然后,计算各个频带的能量。 而且,对于各个频带,对目标声道的能量和参考声道的能量进行比较。计算 这两个声道之间的能量的差或比,并采用定标因子的表现形式对其进行量化。 为了频谱变形处理,将该定标因子与音调周期和交织标识发送到解码装置。
另一方面,在解码装置中,使用从编码装置发送的编码参数,对由主解 码器合成的目标信号进行变形。首先,将目标信号变换为频域。然后,在交 织标识被设定为有效(active)的情况下,使用基本音调频率作为交织间隔,对 谱系数进行交织。基于从编码装置发送的音调周期计算该基本音调频率。将 进行交织后的谱系数分割为与编码装置中的频带相同数目的频带,并且使用 定标因子对各个频带调整上述的谱系数的振幅,以使各个频带的频谱接近参 考信号的频语。然后,对调整后的谱系数进行解交织,从而将处于交织后的 状态的谱系数重新排列为原来的排序。对上述的调整和解交织后的频语进行 频率逆变换,从而得到时域的驱动音源信号。在上述的处理中,在判断了信
号不具有周期性时,省略交织处理而继续进行其它处理。
以下,参照附图详细说明本发明的实施方式。另外,对具有相同的功能 的结构基本上赋予相同的标号,在存在多个时,为了区别而在标号的后边附
力口 a和b。
(实施方式1 )
图5是表示本实施方式的编码装置100和解码装置150的基本结构的方框图。
在编码装置100中,频率变换单元101将参考信号^和目标信号et变换 为频域信号。目标信号et是进行变形以与参考信号ej目似的对象。另外,通 过使用LPC系数对输入信号s进行逆滤波处理而得到参考信号er,而且作为 驱动音源编码处理的结果而得到目标信号et。
频语差运算单元102对频率变换后所得的谱系数,进行计算在频域中的 参考信号与目标信号之间的频谱差的处理。该计算中包括对谱系数的交织处 理、将该系数区分到多个频带的处理、对各个频带计算参考声道和目标声道 之间的差的处理、以及将这些差量化为发送到解码装置的G,b的处理等的一 系列的处理。虽然交织处理为该频语差运算的重要的部分,但是并不需要对 所有的信号帧都进行交织。由交织标识I—flag表示是否需要进行交织,而且 标识的有效与否取决于在当前帧所处理的信号的类型。在需要对某个特定的 帧进行交织时,使用从当前的语音帧的音调周期T计算的交织间隔。在语音 编解码器(codec)的编码装置进行这些处理。
在解码装置150中,频谱变形单元103得到目标信号et之后,得到量化 信息G,b以及交织标识I一flag和音调周期T等的其它信息。然后,频谱变形 单元103将目标信号的频镨变形,以使通过这些参数得到的频谱接近参考信 号的频谱。
图6是表示上述的频率变换单元101和频谱差运算单元102的内部的主 要结构的方框图。
FFT单元201使用FFT等的变换方法,将作为变形对象的目标信号et和 参考信号^变换为频域的信号。FFT单元201作为标识使用I—flag,判断信号 的特定帧是否适合于进行交织。在进行交织单元202中的交织处理之前进行 音调检测,所述音调检测用于判定当前的语音帧是否为具有周期性和恒定性 的信号。在所处理的帧为具有周期性和恒定性的信号的情况下,交织标识被
设定为有效。在为具有周期性和恒定性的信号的情况下,通过驱动音源处理, 通常在频谱波形中产生周期性图案,所述周期性图案具有在某一间隔的特征 性的峰值(参见图1)。基于信号的音调周期T或在频域的基本音调频率f。来确 定该间隔。
在交织标识被设定为有效的情况下,交织单元202对参考信号和目标信 号的双方进行变换后的语系数的采样交织处理(sample interleaving)。在该采样 交织中,预先选择整个频带中的某个特定的区域。通常,在频谱波形中,在 到3kHz或4kHz为止的低频区域产生较明显的峰值。因此,作为交织区域选 择低频区域的情况较多。例如,再次参照图4,选择N个样本的频谱作为进 行交织的低频区域。然后,使用当前帧的基本音调频率fo作为交织间隔,以 便在交织之后大小近似的能量系数能汇总为组。然后,将N个样本分割为K 个分区,并进行交织。通过基于以下的等式(l)计算各个频带的谱系数,来进 行该交织处理。这里,J表示各个频带的样本数,即各个分区的大小。
本实施方式的交织处理并不对所有的输入语音帧都使用固定的交织间隔 值。也就是说,通过计算参考信号的基本音调频率f。,自适应地调整交织间 隔。从参考信号的音调周期T直接计算该基本音调频率f0。
分区单元203在对谱系数进行交织之后,如图7所示地将N个样本的区 域的频谱分割为B个频带(band),以使各个频带具有相同数目的谱系数。该 频带的数目可以设定为8、 IO和12等的任意的数目。优选的是,将频带的数 目设定为使从各个音调高谐波的相同位置提取的各个频带的谱系数对振幅而 言为类似的数目。也就是说,频带的数目被设定为与在交织处理中的分区的 数目相同的数目或者为其倍数,即被设定为B=K的频带或者B=LK(L为整数) 的频带。在各个音调周期中的j=0的样本相当于交织后的各个频带的最初的 样本,而在各个音调周期中的j=J-l的样本相当于交织后的各个频带的最后的 样本。
在频带的数目不是K的倍数时,谱系数的个数有可能分配得不均等。在 这样的情况下,分区单元203基于以下的等式(2a)分配可均等分配的样本,而 基于以下的等式(2b)将剩余的样本分配到最后的频带(b^B-l)。
<formula>formula see original document page 8</formula> <formula>formula see original document page 9</formula>.. .(2b)
在不对特定的某个帧进行交织时,通过与上述的对剩余的样本的频带分 配相同的方法,对未经交织的系数分配频带,并进行分区化。 能量计算单元204基于以下的等式(3),计算频带b的能量。
<formula>formula see original document page 9</formula>…(3)
对参考信号和目标信号双方的各个频带进行上述的能量运算,从而生成
参考4言号能量energy—refb牙口目才示1言号能量energy—tgtb。
对不包含在N个样本中的区域,不进行交织处理。对不进行交织的区域 的样本也使用等式(2a)和(2b),从而分为从2到8为止等的由多个频带构成的 分区,并且,还使用等式(3),计算这些未经交织的频带的能量。
增益计算单元205使用进行交织后的区域和未经交织的区域的双方的参 考信号和目标信号的能量数据,计算频带b的增益Gb。该增益Gb为在解码 装置中用于对目标信号的频谱进行定标和变形的增益。基于以下的等式(4)计 算增益Gb。
<formula>formula see original document page 9</formula> …(4)
匿rgy一机
这里,B,,是在交织后的区域和未经交织的区域的双方的区域中的频带的 总数。
增益量化单元206使用在量化的区域众所周知的标量量化(scalar quantization)或矢量量化对增益Gb进行量化,得到量化增益G,b。量化增益G,b 与音调周期T和交织标识I—flag —并被发送到解码装置150,以便在解码装 置中对信号的频谱进行变形。
在解码装置150中的处理为与编码装置中的处理相反的处理,所述编码 装置中的处理为计算与参考信号比较后的目标信号的差。也就是说,在解码 装置中,将该差适用于目标信号,以使通过频谱变形的结果尽可能地接近参 考信号。
图8是表示上述的解码装置150所具有的频谱变形单元103的内部的图。 假设在解码装置150中,需要进行变形的、与编码装置IOO的目标信号 相同的目标信号et在该阶段已经进行了合成,而且处于可进行频谱变形的状 态。另夕卜,也从比特流中解码出量化增益GV音调周期T以及交织标识I—flag,
以便能够执行频谱变形单元103中的处理。
FFT单元301使用与编码装置100中所使用的处理相同的变换处理,将 目标信号et变换为频域。
在交织标识I_flag被设定为有效的情况下,交织单元302使用从音调周 期T计算的基本音调频率fo作为交织间隔,基于等式(l)对谱系数进行交织。
该交织标识I—flag为表示是否需要对当前帧进行交织处理的标识。
分区单元303将这些系数分割为与编码装置100中所使用的频带相同数 目的频带。在进行交织时将交织后的系数分割为分区,否则,将未经交织的 系数分割为分区。
定标单元304使用量化增益G,b且基于以下的等式(5),计算定标后的各 个频带的谱系数。
这里,band(b)为由b表示的频带内的谱系数的数目。上述的等式(5)表示 通过调整语系数值来使各个频带的能量类似于参考信号,基于该等式(5)将信 号的频镨变形。
在由交织单元302对语系数进行交织的情况下,解交织单元305对谱系 数进行解交织,以将这些交织后的系数重新排列为原来的进行交织前的顺序。 另一方面,在未由交织单元302进行交织的情况下,解交织单元305不进行 解交织处理。然后,调整后的语系数通过IFFT单元306中的逆FFT(IFFT)等 的频率逆变换处理,从而被恢复为时域信号。该时域信号为预测或估计出的 驱动音源信号e,t,其频谱被变形为类似于参考信号e「的频谙。
如上所述,根据本实施方式,利用频率谱中的周期性图案(重复图案), 使用交织处理对信号频谱进行变形,并对在谱系数中的类似的系数进行分组, 从而能够提高语音编码装置的编码效率。
另外,本实施方式有助于提高定标因子的量化效率,所述定标因子用于 将目标信号的频语调整到正确的振幅电平。另外,通过交织标识提供较为智 能型的系统,所述系统只对适当的语音帧适用频谱变形方法。 (实施方式2)
图9是表示将实施方式1的编码装置IOO适用于典型的语音编码系统(编 码端)IOOO的例子的图。 LPC分析单元401用于对输入语音信号s进行滤波以得到LPC系数和驱 动音源信号。在LPC量化单元402中对该LPC系数进行量化和编码,另 一方 面,在驱动音源编码单元403对驱动音源信号进行编码,从而得到驱动音源 参数。这些结构部件构成典型的语音编码器的主编码器400。
为了提高编码质量,对该主编码器400追加配置编码装置100。由驱动 音源编码单元403,从编码后的驱动音源信号得到目标信号et。通过在LPC 逆滤波器404使用LPC系数对输入语音信号s进行逆滤波处理而得到参考信 号er。在音调周期提取及有声/无声判定单元405使用输入语音信号s计算 音调周期T和交织标识I一flag。编码装置IOO接收到这些输入,进行如上所 述的处理,得到在解码装置中用于频i普变形处理的定标因子G,b。
图10是表示将实施方式1的解码装置150适用于典型的语音编码系统 (解码端)1500的例子的图。
在语音编码系统1500中,由驱动音源生成单元501 、 LPC解码单元502 以及LPC合成滤波器503构成典型的语音解码器的主解码器500。在驱动音 源生成单元501生成驱动音源信号,在LPC解码单元502使用所发送的驱动 音源参数对量化后的LPC系数进行解码。该驱动音源信号和解码后的LPC系 数不直接使用于输出语音的合成。在此之前,基于上述的处理,在解码装置 150中使用音调周期T、交织标识I一flag以及定标因子G,b等所发送的参数将 频镨变形,从而对所生成的驱动音源信号进行增强。由驱动音源生成单元501 生成的驱动音源信号发挥作为要变形的目标信号et的作用。从解码装置150 的频谱变形单元103的输出为驱动音源信号e,t,该驱动音源信号e,t的频谱被 变形,以使其接近参考信号er的频谱。在LPC合成滤波器503中,为了合成 输出语音s,使用变形后的驱动音源信号e,t和解码后的LPC系数。
另外,根据以上的记载可知,实施方式1的编码装置100和解码装置150 也可以适用于如图11所示的立体声方式的语音编码系统。在该立体声语音编 码系统中,目标声道可以是单声道的声道。对该单声道信号M而言,通过取 立体声声道的L声道和R声道的平均而合成单声道信号。参考声道可以是L 声道和R声道中的任一声道。另外,在图11中,使用L声道信号L作为参 考声道。
在编码装置中,在分析单元400a和400b分别对L声道信号L和单声道 信号M进行处理。该处理的目的为对各个声道得到LPC参数、驱动音源参
数以及驱动音源信号。L声道的驱动音源信号作为参考信号er,另一方面, 单声道的驱动音源信号作为目标信号et发挥作用。在编码装置中的剩余的处 理如上所述。在该适用例子中的唯一的差异为,用于合成参考声道语音信号 的参考声道本身的LPC系数的集被发送到解码装置。
在解码装置中,在驱动音源生成单元501生成单声道的驱动音源信号, 在LPC解码单元502b对LPC系数进行解码。在LPC合成滤波器503b,使 用单声道的驱动音源信号和单声道的声道的LPC系数合成输出单声道语音 M,。另外,单声道的驱动音源信号eM也作为目标信号et发挥作用。在解码装 置150中对目标信号et进行变形,从而得到估计或预测出的L声道的驱动音 源信号e\。在LPC合成滤波器503a,使用变形后的驱动音源信号e,L和在 LPC解码单元502a解码后的L声道的LPC系数,合成L声道信号L,。生成 L信号L,和单声道信号M,之后,就能在R声道计算单元601使用以下的等式 (6)计算R声道信号R,。
= 2M'-丄, ...(6)
另外,在为单声道信号的情况下,在编码端通过MKL+R)/2计算M。
如上所述,4艮据本实施方式,通过将实施方式1的编码装置100和解码 装置150适用于立体声语音编码系统,从而提高驱动音源信号的精确度。因 此,虽然通过引入定标因子,比特速率会稍微地提高,但是由于能够对预测 或估计出的信号进行增强以使其尽可能地类似于原信号,因此从"比特速率" 对"语音质量"的观点而言能够提高编码效率。
以上说明了本发明的各个实施方式。
本发明的语音编码装置以及频谱变形方法并不限于上述各个实施方式, 而可以进行各种各样的改变来实施。例如,各个实施方式可以适当地组合而实施。
本发明的语音编码装置可以配备在移动通信系统中的通信终端装置和基 站装置上,由此能够提供具有与上述同样的作用效果的通信终端装置、基站 装置以及移动通信系统。
另外,虽然这里以通过硬件来构成本发明的情形为例进行了说明,但是 本发明还可以通过软件来实现。例如,通过编程语言对本发明的频语变形方 法的算法进行记述,并且在内存中保存该程序并通过信息处理单元来实行, 从而能够实现与本发明的语音编码装置相同的功能。
另外,在上述各实施方式的说明中所使用的各功能块典型地通过集成电 路的LSI来实现。这些既可以单独地实行单芯片化,也可以包含其中一部分 或者是全部而实行单芯片化。
另外,每个功能块在此虽然称作LSI,但是根据集成度的不同,有时也 称为IC、系统LSI、超级LSI(SuperLSI)、或超大LSI(Ultra LSI)等。
另外,集成电路化的方法不只限于LSI,也可以使用专用电路或通用处 理器来实现。也可以利用能够在LSI制造后编程的FPGA( Field Programmable Gate Array),或可以利用可对LSI内部的电路单元的连接或设定进行重新配 置的可重酉己置处j里器(ReconfigurableProcessor)。
再者,如果由半导体技术的进步或者派生的其他技术,出现取代LSI的 集成电路化的技术,当然也可以利用该技术来实现功能块的集成化。也有适 用生物技术等的可能性。
本说明书基于2005年5月13日提交的日本专利申请特愿2005-141343
其内容全部包含于此。 工业实用性
本发明的语音编码装置和频谱变形方法可以适用于移动通信系统中的通 信终端装置和基站装置等的用途。
权利要求
1、一种语音编码装置,包括取得单元,取得语音信号的频率谱的音调频率或重复图案;交织单元,基于所述音调频率或重复图案,对所述频率谱的多个谱系数进行交织,以使所述多个谱系数中的相似的谱系数彼此集中在一起;以及编码单元,对交织后的所述谱系数进行编码。
2、 如权利要求1所述的语音编码装置,其中,还包括 分割单元,将交织后的所述语系数分割为多个频带;计算单元,计算所述多个频带的能量与参考信号的能量的比;以及增益编码单元,对所述能量的比进行编码。
3、 如权利要求1所述的语音编码装置,其中,还包括检测单元,检测在所述语音信号中存在所述音调频率或重复图案的区间, 其中,所述交织单元对所检测出的所述区间进行交织处理。
4、 一种通信终端装置,具有权利要求1所述的语音编码装置。
5、 一种基站装置,具有权利要求1所述的语音编码装置。
6、 一种频谱变形方法,包括以下步骤 取得语音信号的频率语的音调频率或重复图案;基于所述音调频率或重复图案,在所述频率谱的多个谱系数中,将类似的谱系数分为一组而形成多个组;以及对所述多个谱系数进行交织,以使在所述各个组中所述多个谱系数彼此集中在一起。
全文摘要
公开了能够提高信号估计和预测的效率,并且更高效率地对频谱进行编码的频谱变形方法等。在该方法中,基于作为参考信号的原信号计算音调周期,计算基本音调频率f<sub>0</sub>。然后,将作为频谱变形的对象的目标信号的频谱分割为多个分区。这里,假设各个分区的宽度为基本音调频率。然后,对各个频带的频谱进行交织,以使振幅上类似的多个峰值汇总为一个组。作为交织间隔使用基本音调频率。
文档编号G10L19/00GK101176147SQ20068001643
公开日2008年5月7日 申请日期2006年5月11日 优先权日2005年5月13日
发明者吉田幸司, 后藤道代, 张峻伟, 梁世丰 申请人:松下电器产业株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1