语音编码装置以及语音编码方法

文档序号:2836916阅读:241来源:国知局
专利名称:语音编码装置以及语音编码方法
技术领域
本发明涉及语音编码装置以及语音编码方法。
技术背景为了有效地利用移动通信系统中的电波资源等,需要以低比特率压缩语 音信号。另一方面,又希望提高通话语音的质量以及实现较高临场感的通话服务。 为了实现该目的,不仅需要语音信号的高质量,而且需要能够对语音信号以 外的频带更宽的音频信号等信号高质量地进行编码。对于这样相互矛盾的需求,将多个编码技术分层次地结合起来的研究将 很有前途。具体而言,为将第一层和第二层分层次地组合的研究,所述第一 层,以适合语音信号的模式用低比特率对输入信号进行编码,所述第二层, 以也适合语音以外的信号的模式对输入信号与第一层解码信号的差分信号进 行编码。这种分层结构的编码方式具有,即使废弃已编码的比特流的一部分 也能够从剩余的信息获得解码信号的特征(可扩展性),因此被称为可扩展编 码。由可扩展编码的这种特性,还可以灵活地应对比特率彼此不同的网络之 间的通信。此外,可以说这种特征适合于通过IP协议将多种网络合并的将来 的网络环境。作为以往的可扩展编码,有使用由MPEG-4(Moving Picture Experts Group phase-4运动图像专家组格式-4)标准化了的技术的编码(例如参照非专利文献 1)。在非专利文献1记载的可扩展编码中,在第一层使用适合语音信号的 CELP(Code Excited Linear Prediction:码激励线性预测),在第二层使用作为 对从原有信号中减去第一层解码信号所获得的残差信号进行编码的 AAC(Advanced Audio Coder:高级音频编码)或TwinVQ(Transform Domain \Veighted Interleave Vector Quantization:传输i或加4又交织矢量量孑匕)这才羊的变换 编码。另一方面,在变换编码中,存在对频语高效率地进行编码的技术(例如参照专利文献l)。在专利文献1记载的技术中,将语音信号的频带划分为低频 域和高频域两个子带,将低频域的频谱复制到高频域,并将复制后的频镨进 行变形而使其成为高频域的频谱。此时,对变形信息以较少的比特数进行编 码,从而能够实现低比特率。非专利文献1:三木弼一编著,MPEG-4 ^全"C ,初版,(株)工業調查会, 1998年9月30日,pp.126-127专利文献1:日本专利申请特表2001-521648号公报发明内容发明需要解决的问题一般地,语音信号或音频信号的频谱用随同频率緩慢地变化的分量(频谱 包络)与细微地变化的分量(频谱细微结构)的乘积来表示。作为一个例子,图 1表示语音信号的频谱,图2表示频谱包络,图3表示频谱细微结构。该频 谱包络(图2)是使用10阶的LPC(Linear Prediction Coding:线性预测编码)系 数计算出的频谱包络。从这些图可知,频谱包络(图2)与频谱细微结构(图3) 的乘积成为语音信号的频谱(图1)。这里,在对低频域的频谱进行复制而使其成为高频域的频谱的情况下, 在复制目的地的高频域的带宽宽于复制源的低频域的带宽时,将低频域的频 谱复制到高频域两次以上。例如,在从图1的低频域(O-FL)将频谱复制到高频 域(FL-FH)的情况下,由于在该例中存在FH=2*FL的关系,所以需要将低频 域的频谱复制到高频域两次。如图4所示,这样将低频域的频谱复制到高频 域多次后,在复制目的地的频谱的连接部分产生频谱的能量的不连续。发生 这样的不连续的原因在于频谱包络。如图2所示,在频谱包络中,频率上升 的同时,能量衰减,所以在频谱产生斜率。由于存在这样的频谱的斜率,在 将低频域的频谱复制到高频域多次后,发生频谱的能量的不连续,语音质量 恶化。可通过增益调整对该不连续进行校正,但是为了通过增益调整而获得 充分的效果,需要较多的比特数。本发明的目的在于提供,即使在将低频域的频谱复制到高频域多次的情 况下,也能够保持频谱的能量的连续性,并且防止语音质量的恶化的语音编 码装置以及语音编码方法。解决问题的方案本发明的语音编码装置采用的结构包括第一编码单元,对语音信号的 低频域的频谱进行编码;平整单元,使用所述语音信号的LPC系数,对所述 低频域的频镨进行平整;以及第二编码单元,使用平整后的低频域的频谱, 对所述语音信号的高频域的频谱进行编码。发明的有益效果根据本发明能够保持频镨的能量的连续性,并且防止语音质量的恶化。


图1是表示语音信号的频语(以往)的图;图2是表示频谱包络(以往)的图;图3是表示频谱细微结构(以往)的图;图4是表示将低频域的频谱复制到高频域多次时的频谱(以往)的图;图5A是本发明的动作原理的说明图(低频域的解码频谱);图5B是本发明的动作原理的说明图(通过逆滤波器后的频谱);图5C是本发明的动作原理的说明图(高频域的编码);图5D是本发明的动作原理的说明图(解码信号的频谱);图6是本发明实施方式1的语音编码装置的结构的方框图;图7是上述语音编码装置的第二层编码单元的结构的方框图;图8是本发明实施方式1的滤波单元的动作说明图;图9是本发明实施方式1的语音解码装置的结构的方框图;图io是上述语音解码装置的第二层解码单元的结构的方框图;图11是本发明实施方式2的语音编码装置的结构的方框图;图12是本发明实施方式2的语音解码装置的结构的方框图;图13是本发明实施方式3的语音编码装置的结构的方框图;图14是本发明实施方式3的语音解码装置的结构的方框图;图15是本发明实施方式4的语音编码装置的结构的方框图;图16是本发明实施方式4的语音解码装置的结构的方框图;图17是本发明实施方式5的语音编码装置的结构的方框图;图18是本发明实施方式5的语音解码装置的结构的方框图;图19是本发明实施方式5的语音编码装置的结构的方框图(变形例1);图20是本发明实施方式5的语音编码装置的结构的方框图(变形例2);图21是本发明实施方式5的语音解码装置的结构的方框图(变形例1);图22是本发明实施方式6的第二层编码单元的结构的方框图;图23是本发明实施方式6的频谱变形单元的结构的方框图;图24是本发明实施方式6的第二层解码单元的结构的方框图;图25是本发明实施方式7的频语变形单元的结构的方框图;图26是本发明实施方式8的频谱变形单元的结构的方框图;图27是本发明实施方式9的频谱变形单元的结构的方框图;图28是本发明实施方式10的第二层编码单元的结构的方框图;图29是本发明实施方式10的第二层解码单元的结构的方框图;图30是本发明实施方式11的第二层编码单元的结构的方框图;图31是本发明实施方式11的第二层解码单元的结构的方框图;图32是本发明实施方式12的第二层编码单元的结构的方框图;以及图33是本发明实施方式12的第二层解码单元的结构的方框图。
具体实施方式
在本发明中,在利用低频域的频谱,对高频域进行编码时,从低频域的 频谱中除去频谱包络的影响而使频谱平整,并使用平整后的频谱,对高频域 的频谱进行编码。首先,使用图5A-图5D说明本发明的动作原理。在图5A ~图5D中,将FL作为阈值频率,O-FL为低频域,FL-FH为高 频域。图5A表示通过以往的编码/解码处理所获得的低频域的解码频谱,图5B获得的频谱。这样,使低频域的解码频谱通过具有与频谱包络相反的特性的 逆滤波器,从而使低频域的频谱平整。然后,如图5C所示,将平整后的低频 域的频谱复制到高频域多次(这里为两次),对高频域进行编码。如图5B所示, 低频域的频谱已经被平整,所以在高频域的编码中,不会发生上述那样的由 频谱包络所引起的频谱的能量的不连续。然后,通过对信号频带被扩展到 O-FH的频谱赋予频语包络,从而获得如图5D所示的解码信号的频谱。另外,作为高频域的编码方法,能够使用下述方法,将低频域的频谱用 于音调滤波器的内部状态,并在频率轴上按从低频至高频进行音调滤波处理来估计频谱的高频域。根据该编码方法,在高频域的编码中,对音调滤波器 的滤波信息进行编码即可,从而能够实现低比特率。下面,参照附图详细地说明本发明的实施方式。(实施方式1)在本实施方式中,说明在第一层以及第二层中都进行频域中的编码的情 况。此外,在本实施方式中,在进行了低频域的频谱的平整后,反复利用平 整后的频谱,对高频域的频谱进行编码。图6表示本发明实施方式1的语音编码装置的结构。在图6所示的语音编码装置100中,LPC分析单元101进行输入语音信 号的LPC分析,并计算LPC系数a(i)(B匕NP)。这里,NP表示LPC系数的 阶数,例如选择10至18。计算出的LPC系数被输入到LPC量化单元102。LPC量化单元102进行LPC系数的量化。LPC量化单元102从量化效率 和稳定性判定的观点,将LPC系数变换为LSP(Line Spectral Pair:线谱对)参 数后进行量化。量化后的LPC系数作为编码数据被输入到LPC解码单元103 以及复用单元109。LPC解码单元103对量化后的LPC系数进行解码而生成解码LPC系数 aq(i)(lS^NP),并将其输出到逆滤波单元104。逆滤波单元104使用解码LPC系数而构成逆滤波器,并使输入语音信号 通过该逆滤波器,从而使输入语音信号的频谱平整。逆滤波器如式(1)或式(2)所示。式(2)为,利用了用于控制平整的程度的共 振抑制系数丫(0<^<1)时的逆滤波器。…(1) …(2)于是,在将语音信号s(n)输入到以式(l)表示的逆滤波器时所获得的输出 信号e(n),如式(3)所示。<formula>formula see original document page 8</formula> …(3)同样,在将语音信号s(n)输入到以式(2)表示的逆滤波器时所获得的输出 信号e(n),如式(4)所示。<formula>formula see original document page 9</formula> …(4)因此,通过该逆滤波处理,输入语音信号的频谱被平整。另外,在以下 的说明中,将逆滤波单元104的输出信号(频谱被平整过的语音信号)称为预测 残差信号。频域变换单元105对从逆滤波单元104输出的预测残差信号进行频率分 析,并求残差频语作为变换系数。频域变换单元105例如使用MDCT(Modified Discrete Cosine TransfoniK变形离散余弦变换)来将时域的信号变换为频域的 信号。残差频谱被输入到第一层编码单元106以及第二层编码单元108。第一层编码单元106使用TwinVQ等进行残差频谱的低频域的编码,并 将通过该编码所获得的第一层编码数据输出到第一层解码单元107以及复用 单元109。第一层解码单元107对第一层编码数据进行解码而生成第一层解码频 谱,并将其输出到第二层编码单元108。另外,第一层解码单元107将变换 为时域前的第 一层解码频谱输出。第二层编码单元108使用由第一层解码单元107获得的第一层解码频谱, 对残差频谱的高频域进行编码,并将由该编码所获得的第二层编码数据输出 到复用单元109。第二层编码单元108将第一层解码频谱用于音调滤波器的 内部状态,并通过音调滤波处理而对残差频谱的高频域进行估计。此时,第 二层编码单元108对残差频语的高频域进行估计,以便不破坏频谱的谐波结 构。此外,第二层编码单元108对音调滤波器的滤波信息进行编码。进而, 在第二层编码单元108中,使用其频谱被平整过的残差频谱来对残差频谱的 高频域进行估计。因此,即使通过滤波处理而使频谱被递归地反复使用,从 而高频域被估计,也能够防止频谱的能量的不连续的发生。因此,根据本实 施方式,能够以低比特率而获得高音质。另外,在后面叙述第二层编码单元 108的细节。复用单元109将第一层编码数据、第二层编码数据以及LPC系数编码数 据进行复用,生成并输出比特流。接着,说明第二层编码单元108的细节。图7表示第二层编码单元108 的结构。内部状态设定单元1081从第一层解码单元107输入第一层解码频谱Sl(k)(0Sk<FL)。内部状态设定单元1081使用该第一层解码频谱来设定由滤波 单元1082使用的滤波器的内部状态。音调系数设定单元1084,根据搜索单元1083的控制,使音调系数T在 预先设定的搜索范围Tmin~Tmax中一点一点地改变,同时将其依次地输出到 滤波单元1082。滤波单元1082基于由内部状态设定单元1081设定的滤波器的内部状态 和由音调系数设定单元1084输出的音调系数T,进行第 一层解码频语的滤波, 并计算残差频谱的估计值S2'(k)。在后面叙述该滤波处理的细节。搜索单元1083计算表示了从频域变换单元105输入的残差频谱S2(k)(0 KFH)与从滤波单元1082输入的残差频谱的估计值S2'(k)之间的相似性的 参数、即相似程度。每次由音调系数设定单元1084提供音调系数T时进行该 相似程度的计算处理,而且使计算出的相似程度为最大的音调系数(最合适的 音调系数)T,(Tmin-T隨的范围)被输出到复用单元1086。此外,搜索单元1083 将使用该音调系数T,而生成的残差频谱的估计值S2'(k)输出到增益编码单元 1085。增益编码单元1085基于从频域变换单元105输入的残差频谱S2(k)((Kk<FH),计算残差频谱S2(k)的增益信息。另外,这里,以下述情况为例进行说明,用每个子带的频谱能量表示该增益信息,并将频带FL众〈FH划分为J个子带。此时、第j个子带的频谱能量B(j)用式(5)来表示。在式(5)中,BL(j)表示第j个子带的最小频率,BH(j)表示第j个子带的最大频率。将这样求出的残差频谱的子带信息视为残差频谱的增益信息。<formula>formula see original document page 10</formula>5)此外,增益编码单元1085同样地根据式(6)计算残差频谱的估计值S2'(k)的子带信息B,(j),并根据式(7)计算每个子带的变动量V(j)。<formula>formula see original document page 10</formula>接着,增益编码单元1085对变动量V(j)进行编码而求编码后的变动量 Vq(j),并将该索引输出到复用单元1086。复用单元1086将从搜索单元1083输入的最合适的音调系数T,和从增益 编码单元1085输入的变动量V(j)的索引进行复用,将其作为第二层编码数据 输出到复用单元109。接着,说明在滤波单元1082中的滤波处理的细节。图8表示滤波单元 1082使用从音调系数设定单元1084输入的音调系数T,生成频带FL^c〈FH 的频镨的情形。这里,为了方便而将全频带((Kk〈FH)的频i普称为S(k),并使 用以式(8)表示的滤波函数。在该式中,T表示由音调系数设定单元1084提供 的音调系数,而且假设M-1。第一层解码频谱Sl(k)作为滤波器的内部状态被存储在S(k)的OSk<FL的 频带中。另一方面,通过以下的步骤所求出的残差频谱的估计值S2'(k)被存储 在S(k)FI^k<FH的频带中。通过滤波处理,将S2'(k)置换为以式(9)表示的频谱,该频谱为将以比k 低T的频率的频谱S(k-T)为中心、离开了相当于i的附近的频谱S(k-T-i)与预 定的加权系数Pi相乘所得的频谱Pi S(k-T-i)全部相加后所得的频谱。然后, 从较低的频率(k-FL)开始,在FL^k<FH的范围中依次改变k而进行该运算, 从而计算出FI^k<FH中的残差频谱的估计值S2'(k)。每次由音调系数设定单元1084提供音调系数T时,在FI^k<FH的范围 中,对S(k)进行清零后进行以上的滤波处理。也就是说,每次音调系数T发 生变化时,计算S(k),并将其输出到搜索单元1083。这里,在图8所示的例子中,由于音调系数T的大小比频带FL-FH小, 所以递归地使用低频域((Kk〈FL)的频镨而生成高频域(FLSk〈FH)的频谱。由于 低频域的频谱如上述那样被平整,所以即使在通过滤波处理递归地使用低频 域的频谱而生成高频域的频谱的情况下,也不在高频域的频谱中产生能量的 不连续。这样,根据本实施方式,能够防止由于频谱包络的影响而在高频域产生 频谱的能量的不连续,并能够改善语音质量。接着,说明本实施方式的语音解码装置。图9表示本发明实施方式1的 语音解码装置的结构。该语音解码装置200接收从图6所示的语音编码装置 IOO发送的比特流。在图9所示的语音解码装置200中,分离单元201将从图6所示的语音 编码装置100接收的比特流分离为第 一层编码数据、第二层编码数据以及LPC 系数,并将第一层编码数据输出到第一层解码单元202,将第二层编码数据 输出到第二层解码单元203,将LPC系数输出到LPC解码单元204。而且, 分离单元201将层信息(表示比特流中包含哪层的编码数据的信息)输出到判 定单元205。第一层解码单元202使用第一层编码数据来进行解码处理而生成第一层 解码频谙,并将其输出到第二层解码单元203以及判定单元205。第二层解码单元203使用第二层编码数据和第一层解码频谱,生成第二 层解码频谱并输出到判定单元205。另外,在后面叙述第二层解码单元203 的细节。LPC解码单元204将对LPC系数编码数据进行解码所获得的解码LPC 系数输出到合成滤波单元207。这里,语音编码装置100发送包含第一层编码数据和第二层编码数据双 方的比特流,但是有时在通信路径的途中第二层编码数据被丢弃。因此,判 定单元205基于层信息,判定比特流中是否包含第二层编码数据。然后,在 比特流中不包含第二层编码数据时,由于第二层解码单元203不生成第二层 解码频谱,所以判定单元205将第一层解码频谱输出到时域变换单元206。 但是,在该情况下,为了使次数与包含了第二层编码数据时的解码频谱相一 致,判定单元205将第一层解码频谱的次数扩展至FH为止,并使FL-FH的 频谱为"O"而输出。另一方面,在比特流中包含第一层编码数据和第二层编码 数据双方时,判定单元205将第二层解码频谱输出到时域变换单元206。时域变换单元206,将从判定单元205输入的解码频谱变换为时域的信 号而生成解码残差信号,并输出到合成滤波单元207。合成滤波单元207使用从LPC解码单元204输入的解码LPC系数 aq(i)( 1 〈<NP)而构成合成滤波器。合成滤波器H(z)如式(10)或式(ll)所示。另外,在式(ll)中>7(0<丫<1)表示 共振抑制系数。<formula>formula see original document page 13</formula>然后,若将由时域变换单元206提供的解码残差信号作为eq(n)输入到合 成滤波单元207,则在使用以式(10)表示的合成滤波器时,所输出的解码信号 Sq(n)如式(12)所示。<formula>formula see original document page 13</formula>'=' …(12) 同样地,在使用以式(ll)表示的合成滤波器时,解码信号Sq(n)如式(13)所示,<formula>formula see original document page 13</formula>(13)接着,说明第二层解码单元203的细节。图10表示第二层解码单元203 的结构。内部状态设定单元2031从第一层解码单元202输入第一层解码频谱。内 部状态设定单元2031使用第一层解码频谱Sl(k),设定由滤波单元2033使用 的滤波器的内部状态。另一方面,分离单元2032从分离单元201输入第二层编码数据。分离单 元2032将第二层编码数据分离为有关滤波系数的信息(最合适的音调系数T') 和有关增益的信息(变动量V(j)的索引),并将有关滤波系数的信息输出到滤波 单元2033,同时将有关增益的信息输出到增益解码单元2034。滤波单元2033基于由内部状态设定单元2031设定的滤波器的内部状态 和从分离单元2032输入的音调系数T,,进行第一层解码频谱Sl(k)的滤波, 并计算残差频谱的估计值S2'(k)。在滤波单元2033中,使用式(8)所示的滤波 函数。增益解码单元2034对从分离单元2032输入的增益信息进行解码,并求 对变动量V(j)进行编码所获得的变动量Vq(j)。频谱调整单元2035根据式(14)将从滤波单元2033输入的解码频谱S'(k)与从增益解码单元2034输入的已解码的每个子带的变动量Vq(j)相乘,从而 对解码频语S'(k)的频带FI^k<FH中的频谱形状进行调整,并生成调整后的解 码频谱S3(k)。该调整后的解码频谱S3(k)作为第二层解码频谱被输出到判定 单元205。s単"yW《,(y) (5z(y)""/^),/c^//_/) ...(14)这样,语音解码装置200能够对从图6所示的语音编码装置100发送的比特流进行解码。(实施方式2)在本实施方式中,说明在第一层中进行时域中的编码(例如,CELP编码) 的情况。而且,在本实施方式中,使用在第一层的编码处理中求得的解码LPC 系数进行第 一层解码信号的频谱的平整。图11表示本发明实施方式2的语音编码装置的结构。在图11中,对与 实施方式l(图6)相同的结构部分赋予相同的标号,并省略其说明。在图11所示的语音编码装置300中,下采样单元301对输入语音信号的 采样率进行下采样,并将所期望的采样率的语音信号输出到第一层编码单元 302。第一层编码单元302对已下采样为所期望的采样率的语音信号进行编码 处理而生成第一层编码数据,并将其输出到第一层解码单元303以及复用单 元109。第一层编码单元302例如使用CELP编码。在如CELP编码那样进行 LPC系数的编码处理时,第一层编码单元302能够在该编码处理中生成解码 LPC系数。因此,第一层编码单元302将在编码处理中生成的第一层解码LPC 系数输出到逆滤波单元304。第一层解码单元303使用第一层编码数据进行解码处理而生成第一层解 码信号,并将其输出到逆滤波单元304。逆滤波单元304使用从第 一层编码单元302输入的第一层解码LPC系数 而构成逆滤波器,并使第一层解码信号通过该逆滤波器,从而使第一层解码 信号的频谱平整。另外,逆滤波器的细节与实施方式1相同,所以省略其说 明。而且,在以下的说明中,将逆滤波单元304的输出信号(频镨被平整过的 第 一层解码信号)称为第 一层解码残差信号。频域变换单元305对从逆滤波单元304输出的第一层解码残差信号进行 频率分析而生成第一层解码频谱,并将其输出到第二层编码单元108。另外,延迟单元306将预定长度的延迟赋予输入语音信号。使该延迟的 大小与输入语音信号通过下采样单元301、第一层编码单元302、第一层解码 单元303、逆滤波单元304以及频域变换单元305时所产生的时间延迟为相 同值。这样,根据本实施方式,由于使用在第 一层的编码处理中求得的解码LPC 系数(第一层解码LPC系数)进行第一层解码信号的频语的平整,所以能够使 用第一层编码数据的信息,使第一层解码信号的频谱平整。因此,根据本实 施方式,由于不需要LPC系数所需的编码比特,所以能够进行频谱的平整而 不增加信息量,该LPC系数为用于使第一层解码信号的频谱平整的系数。接着,说明本实施方式的语音解码装置。图12表示本发明实施方式2的 语音解码装置的结构。该语音解码装置400接收从图11所示的语音编码装置 300发送的比特流。在图12所示的语音解码装置400中,分离单元401将从图11所示的语 音编码装置300接收的比特流分离为第一层编码数据、第二层编码数据以及 LPC系数编码数据,并将第一层编码数据输出到第一层解码单元402,将第 二层编码数据输出到第二层解码单元405 ,将LPC系数编码数据输出到LPC 解码单元407。而且,分离单元401将层信息(表示比特流中包含哪层的编码 数据的信息)输出到判定单元413。第一层解码单元402使用第一层编码数据进行解码处理而生成第一层解 码信号,并将其输出到逆滤波单元403以及上采样单元410。而且,第一层 解码单元402将在解码处理中生成的第一层解码LPC系数输出到逆滤波单元 403。上采样单元410对第一层解码信号的采样率进行上采样,使其与图11的 输入语音信号的采样率相同并输出到^(氐通滤波单元411以及判定单元413。低通滤波单元411将通过频带设定为O-FL,仅使上采样后的频带O-FL 的第一层解码信号通过而生成低频信号,并将其输出到加法单元412。逆滤波单元403使用从第一层解码单元402输入的第一层解码LPC系数 而构成逆滤波器,利用第一层解码信号通过该逆滤波器而生成第一层解码残 差信号,并将其输出到频域变换单元404。频域变换单元404对从逆滤波单元403输出的第一层解码残差信号进行 频率分析而生成第一层解码频谱,并将其输出到第二层解码单元405。第二层解码单元405使用第二层编码数据和第一层解码频谱,生成第二 层解码频谱并输出到时域变换单元406。另外,第二层解码单元405的细节 与实施方式1的第二层解码单元203(图9)相同,所以省略其说明。时域变换单元406,将第二层解码频语变换为时域的信号而生成第二层 解码残差信号,并将其输出到合成滤波单元408。LPC解码单元407将对LPC系数进行解码所获得的解码LPC系数输出 到合成滤波单元408。合成滤波器。另外,合成滤波单元408的细节与实施方式1的合成滤波单元 207(图9)相同,所以省略其说明。合成滤波单元408与实施方式1相同地生 成第二层合成信号Sq(n),并将其输出到高通滤波单元409。高通滤波单元409将通过频带设定为FL-FH,仅使频带FL-FH的第二层 合成信号通过而生成高频信号,并将其输出到加法单元412。加法单元412将低频信号与高频信号相加而生成第二层解码信号,并将其 输出到判定单元413。判定单元413基于从分离单元401输入的层信息,判定在比特流中是否 包含第二层编码数据,并选择第一层解码信号或第二层解码信号中的任一个 作为解码信号而输出。在比特流中不包含第二层编码数据时,判定单元413 输出第一层解码信号,在比特流中包含第一层编码数据和第二层编码数据双 方时,判定单元413输出第二层解码信号。另外,低通滤波单元411以及高通滤波单元409被用于减少低频信号与 高频信号之间相互造成的影响。因此,在低频信号与高频信号之间相互造成 的影响较小时,也可以采用语音解码装置400不使用这些滤波器的结构。在 不使用这些滤波器时,由于不需要滤波的运算,所以能够削减运算量。这样,语音解码装置400能够对从图11所示的语音编码装置300发送的 比特流进行解码。(实施方式3)第 一层音源信号的频谱,与从输入语音信号中去除了频谱包络的影响的 预测残差信号的频谱同样地被平整。因此,在本实施方式中,将在第一层的 编码处理中求得的第一层激励信号视为频谱被平整过的信号(即,实施方式2 中的第 一层解码残差信号)来进行处理。图13表示本发明实施方式3的语音编码装置的结构。在图13中,对与 实施方式2(图ll)相同的结构部分赋予相同的标号,并省略其说明。第一层编码单元501对已下采样为所期望的采样率的语音信号进行编码 处理而生成第一层编码数据,并将其输出到复用单元109。第一层编码单元 501例如使用CELP编码。而且,第一层编码单元501将在编码处理中生成的 第一层激励信号输出到频域变换单元502。另外,这里所述的激励信号是指 输入到进行CELP编码的第一层编码单元501的内部的合成滤波器(或听觉加 权合成滤波器)的信号,也被称为驱动信号。频域变换单元502对第一层激励信号进行频率分析而生成第一层解码频 谱,并将其输出到第二层编码单元108。另外,使延迟单元503的延迟的大小与输'入语音信号通过下采样单元这样,根据本实施方式,与实施方式2(图ll)相比,不需要第一层解码单 元303以及逆滤波单元304,所以能够削减运算量。接着,说明本实施方式的语音解码装置。图14表示本发明实施方式3的 语音解码装置的结构。该语音解码装置600接收从图13所示的语音编码装置 500发送的比特流。在图14中,对与实施方式2(图12)相同的结构部分赋予 相同的标号,并省略其说明。第一层解码单元601使用第一层编码数据来进^f亍解码处理而生成第一层 解码信号,并将其输出到上采样单元410。而且,第一层解码单元601将在 解码处理中生成的第一层激励信号输出到频域变换单元602。频域变换单元602对第一层激励信号进行频率分析而生成第一层解码频 谱,并将其输出到第二层解码单元405。这样,语音解码装置600能够对从图13所示的语音编码装置500发送的 比特流进行解码。(实施方式4)在本实施方式中,使用在第二层求出的第二层解码LPC系数,使第一层 解码信号以及输入语音信号的各个信号的频谱平整。图15表示本发明实施方式4的语音编码装置700的结构。在图15中, 对与实施方式2(图ll)相同的结构部分赋予相同的标号,并省略其说明。第一层编码单元701对已下采样为所期望的采样率的语音信号进行编码处理而生成第一层编码数据,并将其输出到第一层解码单元702以及复用单 元109。第一层编码单元701例如使用CELP编码。第一层解码单元702使用第一层编码数据进行解码处理而生成第一层解 码信号,并将其输出到上采样单元703。上采样单元703对第一层解码信号的采样率进行上采样,使其与输入语 音信号的采样率相同,并将其输出到逆滤波单元704。与逆滤波单元104相同,逆滤波单元704从LPC解码单元103输入解码 LPC系数。逆滤波单元704使用解码LPC系数而构成逆滤波器,使上采样后 的第一层解码信号通过该逆滤波器,从而使第一层解码信号的频谱平整。另 外,在以下的说明中,将逆滤波单元704的输出信号(频谱被平整了的第一层 解码信号)称为第 一层解码残差信号。频域变换单元705对从逆滤波单元704输出的第一层解码残差信号进行 频率分析而生成第一层解码频谱,并将其输出到第二层编码单元108。另外,使延迟单元706的延迟的大小与输入语音信号通过下采样单元 301、第一层编码单元701、第一层解码单元702、上采样单元703、逆滤波 单元704以及频域变换单元705时产生的时间延迟为相同值。接着,说明本实施方式的语音解码装置。图16表示本发明实施方式4的 语音解码装置的结构。该语音解码装置800接收从图15所示的语音编码装置 700发送的比特流。在图16中,对与实施方式2(图12)相同的结构部分赋予 相同的标号,并省略其说明。第一层解码单元801使用第一层编码数据进行解码处理而生成第一层解 码信号,并将其输出到上采样单元802。上采样单元802对第一层解码信号的采样率进行上采样,使其与图15的 输入语音信号的采样率相同,并将其输出到逆滤波单元803以及判定单元 413。与合成滤波单元408相同,逆滤波单元803从LPC解码单元407输入解 码LPC系数。逆滤波单元803使用解码LPC系数而构成逆滤波器,使上釆样 后的第一层解码信号通过该逆滤波器,从而使第一层解码信号的频谱平整, 并将第一层解码残差信号输出到频域变换单元804。频域变换单元804对从逆滤波单元803输出的第一层解码残差信号进行 频率分析而生成第一层解码频谱,并将其输出到第二层解码单元405。这样,语音解码装置800能够对从图15所示的语音编码装置700发送的 比特流进行解码。这样,根据本实施方式,在语音编码装置中,使用在第二层求出的第二 层解码lpc系数,使第一层解码信号以及输入语音信号的各个信号的频谱平 整,所以在语音解码装置中,能够使用与语音编码装置共同的lpc系数来求 第一层解码频谱。因此,根据本实施方式,在语音解码装置中,在生成解码 信号时,不需要进行如实施方式2和3那样的分离为低频域和高频域的处理, 所以不需要低通滤波器以及高通滤波器而使装置结构简单,同时能够削减滤 波处理的运算量。(实施方式5)本实施方式使进行频谱的平整的逆滤波器的共振抑制系数根据输入语音 信号的特性自适应地改变,从而控制平整的程度。图17表示本发明实施方式5的语音编码装置卯0的结构。在图17中, 对与实施方式4(图15)相同的结构部分赋予相同的标号,并省略其说明。在语音编码装置900中,逆滤波单元904和905用式(2)表示。特征量分析单元901对输入语音信号进行分析而计算特征量,并将其输 出到特征量编码单元902。使用表示共振所产生的语音频谱的强度的参数作 为特征量。具体而言,例如,使用相邻的lsp参数之间的距离。 一般地,该 距离越小,共振的程度越强,与共振频率对应的频谱的能量越大。在出现共 振较强的语音区间,由于平整处理,在共振频率附近的频谱过度地被衰减而 成为音质恶化的原因。为了防止这种恶化,在出现共振较强的语音区间将上 述的共振抑制系数丫(0<丫<1)设定得较小来降低平整的程度。由此,能够防止 由平整处理所产生的在共振频率附近的频谱的过度衰减,能够抑制语音质量 的恶化。特征量编码单元902将乂人特征量分析单元901输入的特征量进行编码而 生成特征量编码数据,并将其输出到特征量解码单元903以及复用单元卯6。特征量解码单元903使用特征量编码数据对特征量进行解码,根据解码 特征量决定在逆滤波单元904和905使用的共振抑制系数y,并将其输出到逆 滤波单元904和905。在使用表示周期性的强度的参数作为特征量时,输入 语音信号的周期性越强,越增大共振抑制系数y,输入语音信号的周期性越弱, 越减小共振抑制系数y。这样,通过控制共振抑制系数y,在有声部分更强地进行频谱的平整,而在无声部分频谱的平整的程度减弱。因此,能够防止在 无声部分的过度的频谱的平整,能够抑制语音质量的恶化。逆滤波单元904和905根据由特征量解码单元903控制的共振抑制系数 y, #4居式(2)进行逆滤波处理。复用单元906将第一层编码数据、第二层编码数据、lpc系数以及特征 量编码数据进行复用,生成并输出比特流。另外,使延迟单元907的延迟的大小与输入语音信号通过下采样单元 301、第一层编码单元701、第一层解码单元702、上采样单元703、逆滤波 单元905以及频域变换单元705时产生的时间延迟为相同值。接着,说明本实施方式的语音解码装置。图18表示本发明实施方式5的 语音解码装置的结构。该语音解码装置1000接收从图17所示的语音编码装 置900发送的比特流。在图18中,对与实施方式4(图16)相同的结构部分赋 予相同的标号,并省略其说明。在语音解码装置1000中,逆滤波单元1003用式(2)表示。分离单元1001将从图17所示的语音编码装置900接收的比特流分离为 第一层编码数据、第二层编码数据、lpc系数编码数据以及特征量编码数据, 并将第一层编码数据输出到第一层解码单元801,将第二层编码数据输出到 第二层解码单元405,将lpc系数输出到lpc解码单元407,将特征量编码 数据输出到特征量解码单元1002。而且,分离单元1001将层信息(表示比特 流中包含哪层的编码数据的信息)输出到判定单元413。与特征量解码单元903(图17)相同,特征量解码单元1002使用特征量编 码数据对特征量进行解码,根据解码特征量决定在逆滤波单元1003使用的共 振抑制系数y,并将其输出到逆滤波单元1003。逆滤波单元1003根据由特征量解码单元1002控制的共振抑制系数y,根 据式(2)进行逆滤波处理。这样,语音解码装置1000能够对从图17所示的语音编码装置900发送 的比特流进行解码。另外,如上所述,lpc量化单元102(图17)将lpc系数变换为lsp参数 后对其进行量化。因此,在本实施方式中,语音编码装置的结构也可以如图 19所示。也就是说,在图19所示的语音编码装置1100中,不设置特征量分 析单元901, lpc量化单元102计算lsp参数之间的距离并将其输出到特征量编码单元902。进而,在LPC量化单元102生成解码LSP参数时,语音编码装置的结构 也可以如图20所示。也就是说,在图20所示的语音编码装置1300中,不设 置特征量分析单元901、特征量编码单元902以及特征量解码单元903, LPC 量化单元102生成解码LSP参数,计算解码LSP参数之间的距离并将其输出 到逆滤波单元904和905。另外,对从图20所示的语音编码装置1300发送的比特流进行解码的语 音解码装置1400的结构如图21所示。在图21中,LPC解码单元407还从解 码LPC系数生成解码LSP参数,计算解码LSP参数之间的距离并将其输出 到逆滤波单元1003。(实施方式6)在语音信号或音频信号中,经常发生复制源的低频域的频谱的动态范围 (频语的振幅的最大值与最小值之比)大于复制目的地的高频域的频谱的动态 范围的情况。在这样的情况下,复制低频域的频谱而使其为高频域的频谱时, 在高频域发生频谱的过大的峰值。然后,在将这样具有过大的峰值的频谱变 换为时域所获得的解码信号中,发生铃响似的可听见的噪声,其结果,主观 质量降低。对此,为了实现主观质量的改善,提出了将低频域的频谱进行变形而使 低频域的频谱的动态范围接近高频域的频谱的动态范围的技术(例如参照,押切,江原,吉田,"匕。f" 7 < A夕tl >夕'(二基d 〈》《夕卜少符号化汔用L、 t超広帯域;^r—"、音声符号化o改善",2004年秋季音講論集2-4-13, pp.297-298, 2004年9月)。在该技术中,需要将表示如何变形了低频域的频 谱的变形信息从语音编码装置发送到语音解码装置。这里,在语音编码装置中对该变形信息进行编码时,在编码候补的数量 不够的情况下,即,在低比特率的情况下,发生较大的量化误差。于是,若 发生这样的较大的量化误差,则由该量化误差引起而不能充分进行低频域的 频谱的动态范围的调整,其结果,有时会导致质量恶化。特别是,在选择了 所表示的动态范围大于高频域的频谱的动态范围的编码候补时,在高频域的 频谱中容易发生过大的峰值,有时会明显地出现质量恶化。因此,在本实施方式中,在将使低频域的频谱的动态范围接近高频域的 频谱的动态范围的技术适用于上述各个实施方式的情况下,在第二层编码单元108对变形信息进行编码时,与使动态范围变大的编码候补相比,更容易 选择使动态范围变小的编码候补。图22表示本发明实施方式6的第二层编码单元108的结构。在图22中, 对与实施方式l(图7)相同的结构部分赋予相同的标号,并省略其说明。在图22所示的第二层编码单元108中,频谱变形单元1087从第一层解 码单元107输入第一层解码频谱Sl(k)(OSk<FL),并从频域变换单元105输入 残差频谱S2(k)(0^c<FH)。频语变形单元1087为了使解码频谱Sl(k)的动态范 围为适当的动态范围,将解码频谱Sl(k)进行变形来改变解码频谱Sl(k)的动 态范围。然后,频谱变形单元1087将表示如何变形了解码频谱Sl(k)的变形 信息进行编码后输出到复用单元1086。而且,频谱变形单元1087将变形后 的解码频谱(变形解码频谱)Sl'(j, k)输出到内部状态设定单元1081。图23表示频谱变形单元1087的结构。频谱变形单元1087将解码频谱 Sl(k)进行变形而使解码频谱Sl(k)的动态范围接近残差频谱S2(k)的高频域 (FI^k〈FH)的动态范围。而且,频谱变形单元1087对变形信息进行编码,而 后将其输出。在图23所示的频谱变形单元1087中,变形频谱生成单元1101将解码频 镨Sl(k)进行变形而生成变形解码频谱Sl'(j, k),并将其输出到子带能量计算 单元1102。这里,j为用于识别码本1111的各个编码候补(各个变形信息)的 索引,变形频谱生成单元1101使用码本1111所包含的各个编码候补(各个变 形信息)进行解码频谱Sl(k)的变形。这里,列举一例使用指数函数进行频谱 的变形的情况。例如,将码本1111所包含的编码候补表示为a(j)时,假设各 个编码候补a(j)在(Ka(j^1的范围中。因此,变形解码频谱Sl'(j, k)如式(15) 所示。其中,sign()表示返回正或负的符号的函数。因此,编码候补a(j)取越接 近于"O,,的值,变形解码频谱Sl'(j, k)的动态范围越小。子带能量计算单元1102将变形解码频谱Sl'(j,k)的频域划分为多个子带, 求各个子带的平均能量(子带能量)Pl(j, n),并将其输出到方差计算单元1103。 这里,n表示子带序号。方差计算单元1103为了表示子带能量Pl(j, n)的偏差的程度,求子带能 量Pl(j, n)的方差cjl(j)2。然后,方差计算单元1103将编码候补(变形信息)j的方差al(jf输出到减法单元1106。另一方面,子带能量计算单元1104将残差频语S2(k)的高频域划分为多 个子带,求各个子带的平均能量(子带能量)P2(n),并将其输出到方差计算单 元1105。方差计算单元1105为了表示子带能量P2(n)的偏差的程度,求子带能量 P2(n)的方差cj22,并将其输出到减法单元1106。减法单元1106从方差022中减去方差(11(])2 ,并将通过该相减所获得的 误差信号输出到判定单元1107以及加权误差计算单元1108。判定单元1107判定误差信号的符号(正或负),并基于判定结果,决定提 供给加权误差计算单元1108的权重(weight)。判定单元1107在误差信号的符号为正时,选择Wp。s作为权重,在误差信号的符号为负时,选择Wneg作为权重,并将其输出到加权误差计算单元1108。
Wp。s和Wneg之间存在式(16)所示的大小关系。<formula>formula see original document page 23</formula>16)加权误差计算单元1108,首先计算从減法单元1106输入的误差信号的平方值,接着将从判定单元1107输入的权重W(Wp。s或Wneg)乘以误差信号的平方值而计算加权平方误差E,并将其输出到搜索单元1109。加权平方误差E 如式(17)所示。<formula>formula see original document page 23</formula>
依次输出到变形频谱生成单元1101,并搜索使加权平方误差E为最小的编码 候补(变形信息)。然后,搜索单元1109将使加权平方误差E为最小的编码候 补的索引j。pt作为最佳变形信息输出到变形频谱生成单元1110以及复用单元 1086。变形频谱生成单元1110将解码频谱Sl(k)进行变形而生成与最佳变形信 息j。pt对应的变形解码频谱Sl'(j。pt, k),并将其输出到内部状态设定单元1081。接着,说明本实施方式的语音解码装置的第二层解码单元203。图24表 示本发明实施方式6的第二层解码单元203的结构。在图24中,对与实施方 式l(图IO)相同的结构部分赋予相同的标号,并省略其说明。在第二层解码单元203中,变形频谱生成单元2036基于从分离单元2032输入的最佳变形信息j。pt,将从第一层解码单元202输入的第一层解码频谱 Sl(k)进行变形而生成变形解码频谱Sl'(j。pt, k),并将其输出到内部状态设定 单元2031。也就是说,变形频谱生成单元2036被配置为与语音编码装置端 的变形频语生成单元1110对应,并进行与变形频谱生成单元1110相同的处 理。如上所述,根据误差信号的符号决定在计算加权平方误差时的权重,并 且,该权重存在如式(16)所示的关系时,可以进行如下叙述。也就是说,误差信号为正的情况是指变形解码频谱Sl'的偏差的程度小于 作为目标值的残差频谱S2的偏差的程度的情况。也就是iJt,这相当于在语 音解码装置端生成的变形解码频谱Sl'的动态范围小于残差频谱S2的动态范 围。另一方面,误差信号为负的情况是指变形解码频谱sr的偏差的程度大于作为目标值的残差频谱S2的偏差的程度的情况。也就是说,这相当于在语音解码装置端生成的变形解码频谱sr的动态范围大于残差频谱S2的动态范围。因此,如式(16)所示,通过将误差信号为正时的权重Wp。s设定得小于误差 信号为负时的权重wneg,从而在平方误差为相同程度的值的情况下,生成动态范围比残差频语S2的动态范围小的变形解码频谱sr的编码候补容易被选 择。也就是说,抑制动态范围的编码候补被优先地选择。因此,减少了在语 音解码装置生成的估计频谱的动态范围大于残差频谱的高频域的动态范围的 频度。这里,在变形解码频谱sr的动态范围大于作为目标的频谱的动态范围 时,在语音解码装置中估计频谱上出现过大的峰值并容易使人的耳朵感觉到 质量恶化,与此情况相对,在变形解码频谱sr的动态范围小于作为目标的频 谱的动态范围时,在语音解码装置中估计频谱上不容易出现上述那样的过大 的峰值。因此,根据本实施方式,在将使低频域的频谱的动态范围与高频域 的频谱的动态范围匹配的技术适用于实施方式i的情况下,能够防止听觉性 的音质恶化。另外,在上述说明中,以一例列举了使用指数函数作为频谱变形方法, 但并不限于此,也可以利用其他的频谱变形方法,例如使用了对数函数的频 谱变形等。另外,在上述说明中,说明了使用子带的平均能量的方差的情况,但只 要是表示频谱的动态范围的大小的指标,并不限定于子带的平均能量的方差。(实施方式7)图25表示本发明实施方式7的频谱变形单元1087的结构。在图25中, 对与实施方式6(图23)相同的结构部分赋予相同的标号,并省略其说明。在图25所示的频谱变形单元1087中,偏差程度计算单元1112-1根据解 码频谱Sl(k)的低频域的值的分布来计算解码频语Sl(k)的偏差程度,并将其 输出到阈值设定单元1113-1和1113-2。具体而言,偏差程度是指解码频谱Sl(k) 的标准偏差cj1。阈值设定单元1113-1使用标准偏差cj1求第一阈值TH1,并将其输出到 平均频谱计算单元1114-1以及变形频谱生成卓元1110。这里,第一阈值TH1 是指用于来确定解码频谱Sl(k)中振幅比较大的频谱的阈值,使用将标准偏差 cj1与预定的常数a相乘所得的值。阈值设定单元1113-2使用标准偏差al求第二阔值TH2,并将其输出到 平均频谱计算单元1114-2以及变形频谱生成单元1110。这里,第二阈值TH2 是指用于来确定解码频谱S1 (k)的低频域中振幅比较d、的频谱的阈值,使用将 标准偏差cj1与预定的常数b(〈a)相乘所得的值。平均频谱计算单元1114-1求其振幅比第 一 阈值TH1大的频谱的平均振幅 值(以下,称为第一平均值),并将其输出到变形矢量计算单元lll5。具体而 言,平均频谱计算单元1114-1将解码频谱Sl(k)的低频域的频谱的值与解码 频谱Sl(k)的平均值ml加上第一阈值TH1所得的值(ml+THl)进行比较,确定 具有大于该值的值的频谱(步骤1)。接着,平均频谱计算单元1114-1将解码频 谱Sl(k)的低频域的频谱的值与从解码频谱Sl(k)的平均值ml中减去第一阈 值TH1所得的值(ml-THl)进行比较,确定具有小于该值的值的频谱(步骤2)。 然后,平均频谱计算单元1114-1求在步骤1和步骤2双方所求得的频谱的振 幅的平均值,并将其输出到变形矢量计算单元1115。平均频谱计算单元1114-2求其振幅比第二阈值TH2小的频谱的平均振幅 值(以下,称为第二平均值),并将其输出到变形矢量计算单元1115。具体而 言,平均频谱计算单元1114-2将解码频谱Sl(k)的低频域的频谱的值与解码 频谱Sl(k)的平均值ml加上第二阚值TH2所得的值(ml+TH2)进行比较,确定 具有小于该值的值的频谱(步骤1)。接着,平均频谱计算单元1114-2将解码频谱Sl(k)的低频域的频谱的值与从解码频镨Sl(k)的平均值ml中减去第二阈 值TH2所得的值(ml-TH2)进行比较,确定具有大于该值的值的频语(步骤2)。 然后,平均频谱计算单元1114-2求在步骤1和步骤2双方所求得的频谱的振 幅的平均值,并将其输出到变形矢量计算单元1115。另一方面,偏差程度计算单元1112-2根据残差频谱S2(k)的高频域的数 值的分布来计算残差频语S2(k)的偏差程度,并将其输出到阈值设定单元 1113-3和1113-4。具体而言,偏差程度是指残差频谱S2(k)的标准偏差cj2。阈值设定单元1113-3使用标准偏差cj2求第三阈值TH3,并将其输出到 平均频谱计算单元1114-3。这里,第三阈值TH3是指用于确定残差频语S2(k) 的高频域中振幅比较大的频谱的阔值,使用将标准偏差cj2与预定的常数c相 乘所得的值。阈值设定单元1113-4使用标准偏差a2求第四阈值TH4,并将其输出到 平均频谱计算单元1114-4。这里,第四阈值TH4是指用于确定残差频谱S2(k) 的高频域中振幅比较小的频谱的阔值,使用将标准偏差cj2与预定的常数d(<c) 相乘所得的值。平均频谱计算单元1114-3求其振幅比第三阈值TH3大的频谱的平均振幅 值(以下,称为第三平均值),并将其输出到变形矢量计算单元1115。具体而 言,平均频谱计算单元1114-3将残差频谱S2(k)的高频域的频谱的值与残差 频谘S2(k)的平均值m3加上第三阈值TH3所得的值(m3+TH3)进行比较,确 定具有大于该值的值的频谙(步骤1)。接着,平均频谱计算单元11M-3将残差 频谱S2(k)的高频域的频谱的值与从残差频谱S2 (k)的平均值m3中减去第三 阈值TH3所得的值(m3-TH3)进行比较,确定具有小于该值的值的频谱(步骤 2)。然后,平均频谱计算单元1114-3求在步骤1和步骤2双方所求得的频谱 的振幅的平均值,并将其输出到变形矢量计算单元1115。平均频谱计算单元1114-4求其振幅比第四阈值TH4小的频谱的平均振幅 值(以下,称为第四平均值),并将其输出到变形矢量计算单元1115。具体而 言,平均频谱计算单元1114-4将残差频谱S2(k)的高频域的频谱的值与残差 频谱S2(k)的平均值m3加上第四阈值TH4所得的值(m3+TH4)进行比较,确 定具有小于该值的值的频谱(步骤1)。接着,平均频谱计算单元1114-4将残差 频i普S2(k)的高频域的频谱的值与从残差频谱S2(k)的平均值m3中减去第四 阈值TH4所得的值(m3-TH4)进行比较,确定具有大于该值的值的频谱(步骤2)。然后,平均频谱计算单元1114-4求在步骤1和步骤2双方所求得的频谱 的振幅的平均值,并将其输出到变形矢量计算单元1115。变形矢量计算单元1115使用第一平均值、第二平均值、第三平均值以及 第四平均值,由以下方式计算变形矢量。也就是说,变形矢量计算单元1115计算第三平均值与第一平均值之比(以 下,称为第一增益)以及第四平均值与第二平均值之比(以下,称为第二增益), 并将第一增益以及第二增益作为变形矢量输出到减法单元1106。以下,将变 形矢量表示为g(i)(i=l, 2)。也就是说,g(l)表示第一增益,g(2)表示第二增益。减法单元1106 ,人变形矢量g(i)中减去属于变形矢量码本1116的编码候 补,并将通过该相减所获得的误差信号输出到判定单元1107以及加权误差计 算单元1108。以下,将编码候补表示为v(j, i)。其中,j为用于识别变形矢 量码本1116的各个编码候补(各个变形信息)的索引。判定单元1107判定误差信号的符号(正或负),并基于判定结果,对每个 第一增益g(l)和第二增益g(2)决定提供给加权误差计算单元1108的权重 (weight)。对于第一增益g(l),判定单元1107在误差信号的符号为正时,选择WHght作为权重,在误差信号的符号为负时,选择Wheavy作为权重,并将其输出到加权误差计算单元1108。另一方面,对于第二增益g(2),判定单元1107在误差信号的符号为正时,选择Wheavy作为权重,在误差信号的符号为负时, 选择W,ight作为权重,并将其输出到加权误差计算单元1108。
W"ght和Wheavy之间存在式(18)所示的大小关系。 <formula>formula see original document page 27</formula>加权误差计算单元1108,首先计算从减法单元1106输入的误差信号的平 方值,接着求误差信号的平方值与每个第一增益g(l)和第二增益g(2)的从判定单元1107输入的4又重W(W,jght或Wheavy)的积和,乂人而求加权平方误差E,并将其输出到搜索单元1109。加权平方误差E如式(19)所示。<formula>formula see original document page 27</formula>搜索单元1109控制变形矢量码本1116而使存储在变形矢量码本1116中 的编码候补(变形信息)被依次输出到减法单元1106,并搜索使加权平方误差E为最小的编码候补(变形信息)。然后,搜索单元1109将使加权平方误差E为 最小的编码候补的索引j。pt作为最佳变形信息输出到变形频语生成单元1110 以及复用单元1086。变形频镨生成单元1110使用第一阈值TH1、第二阈值TH2以及最佳变 形信息J。pp将解码频谱Sl(k)进行变形,从而生成与最佳变形信息j率对应的 变形解码频语Sl'(j。pt, k),并将其输出到内部状态设定单元1081。变形频镨生成单元1110首先利用最佳变形信息j一而生成第三平均值与 第一平均值之比的解码值(以下,称为解码第一增益),以及第四平均值与第二 平均值之比的解码值(以下,称为解码第二增益)。接着,变形频傳生成单元1110比较解码频谱Sl(k)的振幅值和第一阈值 TH1,确定与第一阈值TH1相比振幅较大的频谱,并将这些频谱与解码第一 增益相乘而生成变形解码频谱Sl'(j。pt, k)。同样地,变形频谱生成单元1110 比较解码频谱Sl(k)的振幅值和第二阈值TH2,确定与第二阈值TH2相比振 幅较小的频谦,并将这些频语与解码第二增益相乘而生成变形解码频谱 Sl'(j。pt, k)。另外,在解码频谱Sl(k)中,对于属于第一阈值TH1和第二阈值TH2之 间的区域内的频谱,不存在编码信息。因此,变形频谱生成单元1110使用具 有解码第一增益与解码第二增益的中间值的增益。例如,变形频谱生成单元1U0从基于解码第一增益、解码第二增益、第一阈值TH1以及第二阈值TH2 的特性曲线,求对应某一振幅x的解码增益y,并将该增益乘以解码频谱Sl(k) 的振幅。也就是,解码增益y为解码第一增益以及解码第二增益的线性插值。这样,根据本实施方式,能够获得与实施方式6相同的作用和效果。(实施方式8)图26表示本发明实施方式8的频语变形单元1087的结构。在图26中, 对与实施方式6(图23)相同的结构部分赋予相同的标号,并省略其说明。在图26所示的频谱变形单元1087中,校正单元1117从方差计算单元 n05^入方差(j22。校正单元1117进行减小方差022的值的校正处理,并将其输出到减法单 元1106。
具体而言,;欧正单元1117将"0,,以上、小于"l"的值乘以方差a22。减法单元1106从校正处理后的方差中减去ol(j)2,并将通过该相减所获 得的误差信号输出到误差计算单元1118。误差计算单元1118计算从减法单元1106输入的误差信号的平方值(平方 误差),并将其输出到搜索单元1109。搜索单元1109对码本1111进行控制而使存储在码本1111的编码候补(变 形信息)依次输出到变形频谱生成单元1101,并搜索使平方误差为最小的编码 候补(变形信息)。然后,搜索单元1109将使平方误差为最小的编码候补的索 引j。pt作为最佳变形信息输出到变形频语生成单元1110以及复用单元1086。这样,根据本实施方式,通过在校正单元1117的校正处理,在搜索单元 1109,进行将校正处理后的方差、即、将值变小的方差作为目标值的编码候 补的搜索。因此,在语音解码装置中,由于能够抑制估计频谱的动态范围, 从而能够进一步减少上述那样的过大的峰值的发生频度。另外,在校正单元1117中,也可以根据输入语音信号的特性,改变与方 差(722相乘的值。使用输入语音信号的音调周期性的强度作为该特性是合适 的。也就是说,校正单元1117也可以在输入语音信号的音调周期性较弱时(例 如,音调增益较小时),使与方差022相乘的值为较大的值,在输入语音信号 的音调周期性较强时(例如,音调增益较大时),使与方差022相乘的值为较小 的值。通过这样的自适应,仅对音调周期性较强的信号(例如母音部分),不容 易产生过大的频谱峰值,其结果,能够改善听觉性的音质。(实施方式9)图27表示本发明实施方式9的频谱变形单元1087的结构。在图27中, 对与实施方式7(图25)相同的结构部分赋予相同的标号,并省略其说明。在图27所示的频i普变形单元1087中,校正单元1117从变形矢量计算单 元1115输入变形矢量g(i)。校正单元1117至少进行以下一个校正处理,即减少第一增益g(l)的值的 校正处理以及增大第二增益g(2)的值的校正处理,并将其输出到减法单元 1106。具体而言,校正单元1117将"0,,以上、小于"l,,的值乘以第一增益g(l), 将比"l"大的值乘以第二增益g(2)。减法单元1106从校正处理后的变形矢量中减去属于变形矢量码本1116 的编码候补,并将通过该相减所获得的误差信号输出到误差计算单元1118。误差计算单元1118计算从减法单元1106输入的误差信号的平方值(平方 误差),并将其输出到搜索单元1109。搜索单元1109对变形矢量码本1116进行控制而使存储在变形矢量码本1116的编码候补(变形信息)依次输出到减法单元1106,并搜索使平方误差为 最小的编码候补(变形信息)。然后,搜索单元1109将使平方误差为最小的编 码候补的索引j。pt作为最佳变形信息输出到变形频谱生成单元1110以及复用 单元1086。这样,根据本实施方式,通过在校正单元1117的校正处理,在搜索单元 1109中,进行将使校正处理后的变形矢量、即、使动态范围变小的变形矢量 为目标值的编码候补的搜索。因此,在语音解码装置中,由于能够抑制估计 频谱的动态范围,从而能够进一步减少上述那样的过大的峰值的发生频度。另外,在本实施方式中也与实施方式8相同,也可以在冲交正单元1117中, 根据输入语音信号的特性,改变与变形矢量g(i)相乘的值。与实施方式8相同, 通过这样的自适应化,仅对音调周期性较强的信号(例如母音部分),不容易产 生过大的频谱峰值,其结果,能够改善听觉性的音质。(实施方式10)图28表示本发明实施方式10的第二层编码单元108的结构。在图28 中,对与实施方式6(图22)相同的结构部分赋予相同的标号,并省略其说明。在图28所示的第二层编码单元108中,频谱变形单元1088从频域变换 单元105输入残差频谱S2(k),并从搜索单元1083输入残差频谱的估计值(估 计残差频谱)S2'(k)。频谱变形单元1088参照残差频谱S2(k)的高频域的动态范围,使估计残 差频谱S2'(k)变形,从而使估计残差频谱S2'(k)的动态范围改变。然后,频谱 变形单元1088对表示如何地变形了估计残差频-潜S2'(k)的变形信息进行编码 后输出到复用单元1086。而且,频二潜变形单元1088将变形后的估计残差频 谱(变形残差频谱)输出到增益编码单元1085。另外,由于频谱变形单元1088 的内部结构与频谱变形单元1087相同,所以省略其详细说明。由于在增益编码单元1085的处理为将实施方式1中的"残差频谱的估计 值S2'(k)"读为"变形残差频谱,,的处理,所以省略其详细说明。接着,说明本实施方式的语音解码装置的第二层解码单元203。图29表 示本发明实施方式10的第二层解码单元203的结构。在图29中,对与实施 方式6(图24)相同的结构部分赋予相同的标号,并省略其说明。在第二层解码单元203中,变形频谱生成单元2037基于从分离单元2032 输入的最佳变形信息j。pt,即,关于变形残差频谱的最佳变形信息j。pt,将从滤波单元2033输入的解码频谱S'(k)进行变形,并将其输出到频语调整单元 2035。也就是说,变形频语生成单元2037被配置为与语音编码装置端的频谱 变形单元1088对应,并进行与频谱变形单元1088相同的处理。这样,根据本实施方式,由于不仅使解码频谱Sl(k)变形而且使估计残差 频谱S2'(k)变形,所以能够生成具有更合适的动态范围的估计残差频谱。(实施方式11)图30表示本发明实施方式11的第二层编码单元108的结构。在图30 中,对与实施方式6(图22)相同的结构部分赋予相同的标号,并省略其说明。在图30所示的第二层编码单元108中,频-潜变形单元1087^4居与语音 解码装置共享的预定的变形信息,使解码频谱Sl(k)变形,从而^f吏解码频谱 Sl(k)的动态范围改变。然后,频谱变形单元1087将变形解码频谱Sl'(j, k) 输出到内部状态设定单元1081。接着,说明本实施方式的语音解码装置的第二层解码单元203。图31表 示本发明实施方式11的第二层解码单元203的结构。在图31中,对与实施 方式6(图24)相同的结构部分赋予相同的标号,并省略其说明。在第二层解码单元203中,变形频谱生成单元2036根据与语音编码装置 共享的预定的变形信息,即与图30的频谱变形单元1087使用过的预定的变 形信息相同的变形信息,使从第一层解码单元202输入的第一层解码频谱 Sl(k)变形,并将其输出到内部状态设定单元2031。这样,根据本实施方式,语音编码装置的频谱变形单元1087和语音解码 装置的变形频谱生成单元2036根据预先设定的相同的变形信息进行变形处 理,所以不需要从语音编码装置将变形信息发送到语音解码装置。这样,与 实施方式6相比,根据本实施方式,能够降低比特率。另外,也可以图28所示的频谱变形单元1088和图29所示的变形频谱生 成单元2037根据预先设定的相同的变形信息进行变形处理。由此,能够进一 步降低比特率。(实施方式12)实施方式10中的第二层编码单元108也可以采用不具有频谱变形单元 1087的结构。因此,作为实施方式12,图32表示这种情况下的第二层编码 单元108的结构。而且,在第二层编码单元108不具有频谱变形单元1087的情况下,在语音解码装置中也不需要与频语变形单元1087对应的变形频镨生成单元2036。 因此,作为实施方式12,图33表示这种情况下的第二层解码单元203的结 构。以上说明了本发明实施方式。另外,实施方式6至12的第二层编码单元108也可以用于实施方式2(图 11)、实施方式3(图12)、实施方式4(图15)以及实施方式5(图17)。但是,在 实施方式4和5(图15,图17)中,由于在对第一层解码信号进行上采样后进 行频域变换,所以第一层解码频谱Sl(k)的频域为(Kk<FH。但是,由于只在 进行上采样之后变换到频域,所以在频带FI^k<FH中不包含有效的信号分 量。因此,在这些实施方式中,也可以将第一层解码频谱Sl(k)的频带作为 0^k<FL来处理。另外,实施方式6至12的第二层编码单元108也可以用于在实施方式2 至5中记载的语音编码装置以外的语音编码装置的第二层中的编码。另外,在上述实施方式中,在第二层编码单元108内,在复用单元1086 将音调系数和索引等进行复用而将其作为第二层编码数据输出后,在复用单 元109将第一层编码数据、第二层编码数据以及LPC系数编码数据进行复用 而生成比特流,但并不限于此,也可以在第二层编码单元108内不设置复用 单元1086,而将音调系数和索引等直接输入到复用单元109并进行与第一层 编码数据等的复用。另外,对于第二层解码单元203,将在分离单元201从 比特流中分离而生成的第二层编码数据输入到第二层解码单元203内的分离 单元2032,在分离单元2032还分离为音调系数和索引等,但不限于此,也 可以在第二层解码单元203内不设置分离单元2032,而在分离单元201将比 特流直接分离为音调系数和索引等,从而将其输入到第二层解码单元203 。另外,在上述实施方式中,以可扩展编码的层数是2的情况为例进行了 说明,但不限于此,本发明也可以适用于具有三层以上的层的可扩展编码。另夕卜,在上述实施方式中以使用MDCT作为第二层中的变换编码的方式 为例进行了说明,但并不限于此,在本发明中也可以使用FFT(快速傅立叶变 换)、DFT(离散付立叶变换)、DCT(离散余弦变换)、滤波器组(filterbank)以及 小波变换(Wavelet transform)等其他的变换编码方式。另外,在上述实施方式中以输入信号是语音信号的情况为例进行了说明, 但不限于此,本发明也能够适用于音频信号。另外,将上述实施方式的语音编码装置和语音解码装置配置在移动通信 系统所使用的无线通信移动台装置和无线通信基站装置上,能够防止移动通 信中的语音质量的恶化。另外,有时无线通信移动台装置被表示为UE,无线通信基站装置被表示为NodeB。另外,在上述实施方式中,以本发明通过硬件构成的情况为例进行了说 明,但本发明也可以通过软件来实现。另外,用于上述实施方式的说明中的各功能块通常被作为集成电路的 LSI来实现。这些块既可以被单独地集成为一个芯片,也可以包含一部分或 全部地被集成为一个芯片。虽然此处称为LSI,但根据集成程度,可以被称 为IC、系统LSI、超大LSI(SuperLSI)、或特大LSI(Ultra LSI)。另外,实现集成电路化的方法不仅限于LSI,也可使用专用电路或通用 处理器来实现。也可以-使用可在LSI制造后编程的FPGA(Field Programmable Gate Array:现场可编程门阵列),或者可重构LSI内部的电路单元的连接和 设定的可重构处理器。再者,随着半导体的技术进步或随之派生的其它技术的出现,如果出现 能够替代LSI的集成电路化的新技术,当然可利用该新技术进行功能块的集 成化。还存在着适用生物技术等的可能性。本说明书基于2005年9月30日申请的日本专利申请2005-286533及2006 年7月21日申请的日本专利申请2006-199616。其内容全部包含于此。工业实用性本发明能够适用于在移动通信系统中使用的无线通信移动台装置和无线 通信基站装置等用途。
权利要求
1、一种语音编码装置,包括第一编码单元,对比语音信号的阈值频率低的频带的低频域的频谱进行编码;平整单元,使用具有与所述语音信号的频谱包络相反的特性的逆滤波器,对所述低频域的频谱进行平整;以及第二编码单元,使用平整后的低频域的频谱,对比所述语音信号的所述阈值频率高的频带的高频域的频谱进行编码。
2、 如权利要求1所述的语音编码装置,其中,所述平整单元使用所述语 音信号的LPC系数而构成所述逆滤波器。
3、 如权利要求1所述的语音编码装置,其中,所述平整单元根据所述语 音信号的共振的程度,改变平整的程度。
4、 如权利要求3所述的语音编码装置,其中,所述共振越强,所述平整 单元越降低所述平整的程度。
5、 如权利要求1所述的语音编码装置,其中,所述第二编码单元使所述 平整后的低频域的频谱变形,并使用变形后的低频域的频谱对所述高频域的 频谱进行编码。
6、 如权利要求5所述的语音编码装置,其中,所述第二编码单元对所述 平整后的低频域的频谱进行使所述平整后的低频域的频谱的动态范围接近所 述高频域的频谱的动态范围的变形。
7、 如权利要求6所述的语音编码装置,其中,所述第二编码单元在多个 编码候补中,与增大动态范围的编码候补相比,优先地使用减小动态范围的 编码候补,使所述平整后的低频域的频谱变形。
8、 如权利要求7所述的语音编码装置,其中,所述第二编码单元进行减 小编码候补搜索用的目标值的校正,基于该校正后的目标值,对所述多个编 码候补搜索用于对所述平整后的低频域的频谱进行变形的编码候补。
9、 如权利要求5所述的语音编码装置,其中,所述第二编码单元从所述 变形后的低频域的频谱估计所述高频域的频谱,使估计出的高频域的频谱变 形,并使用变形后的高频域的频谱,对所述语音信号的高频域的频谱进行编 码。
10、 如权利要求1所述的语音编码装置,其中,所述第二编码单元从所 述平整后的低频域的频傳估计所述高频域的频谌,使估计出的高频域的频谱 变形,并使用变形后的高频域的频谱,对所述语音信号的高频域的频谱进行 编码。
11、 一种无线通信移动台装置,具有权利要求1所述的语音编码装置。
12、 一种无线通信基站装置,具有权利要求1所述的语音编码装置。
13、 一种语音编码方法,包括第一编码步骤,对比语音信号的阈值频率低的频带的低频域的频谱进行 编码;平整步骤,使用具有与所述语音信号的频谱包络相反的特性的逆滤波 器,对所述低频域的频谱进行平整;以及第二编码步骤,使用平整后的低频域的频谱,对比所述语音信号的所述阈值频率高的频带的高频域的频谱进行编码。
全文摘要
公开了语音编码装置,即使在将语音信号的低频域的频谱多次复制到高频域的情况下,也保持频谱的能量的连续性,并防止语音质量的恶化。在该语音编码装置(100)中,LPC量化单元(102)进行LPC系数的量化,LPC解码单元(103)对量化后的LPC系数进行解码,逆滤波单元(104)通过使用解码LPC系数所构成的逆滤波器,对输入语音信号的频谱进行平整,频域变换单元(105)对平整后的频谱进行频率分析,第一层编码单元(106)对平整后的频谱的低频域进行编码而生成第一层编码数据,第一层解码单元(107)对第一层编码数据进行解码而生成第一层解码频谱,第二层编码单元(108)使用第一层解码频谱,对平整后的频谱的高频域进行编码。
文档编号G10L19/04GK101273404SQ20068003535
公开日2008年9月24日 申请日期2006年9月29日 优先权日2005年9月30日
发明者押切正浩 申请人:松下电器产业株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1