语音编码装置、语音解码装置、语音编码方法、语音解码方法、语音编码程序以及语音解码程序的制作方法

文档序号:2824758阅读:145来源:国知局
专利名称:语音编码装置、语音解码装置、语音编码方法、语音解码方法、语音编码程序以及语音解码程序的制作方法
技术领域
本发明涉及语音编码装置、语音解码装置、语音编码方法、语音解码方法、语音编码程序以及语音解码程序。
背景技术
利用听觉心理去除人类知觉不需要的信息而将信号的数据量压缩为几十分之一的语音音频编码技术在信号的传送/积蓄中是极为重要的技术。作为广泛使用的知觉音频编码技术的例子,可列举以“IS0/IEC MPEG”标准化的“MPEG4AAC”等。作为进一步提高语音编码的性能利用低比特率获得高语音质量的方法,近年来广泛采用了利用语音的低频成分来生成高频成分的频带扩展技术。频带扩展技术的代表例是 "MPEG4 AAC”中利用的SBR(Spectral Band R印lication 频带复制)技术。在SBR中,针对通过QMF(Quadrature Mirror Filter 正交镜像滤波器)滤波器组变换到频域的信号, 进行从低频频带到高频频带的频谱系数的复写,由此生成高频成分,然后,通过调整复写的系数的频谱包络和调性(tonality)来进行高频成分的调整。利用了频带扩展技术的语音编码方式能够仅使用少量的辅助信息来再现信号的高频成分,因此对于语音编码的低比特率化是有效的。以SBR为代表的频域中的频带扩展技术,通过调整相对于频谱系数的增益、时间方向的线形预测逆滤波处理、噪声重叠来对频域中表现的频谱系数进行频谱包络和调性的调整。通过该调整处理,在对语音信号、拍手及响板这样的时间包络变化大的信号进行编码时,有时在解码信号中会感知到被称为前回声(pre echo)或后回声(postecho)的残音状的噪声。这个问题是由于在调整处理的过程中高频成分的时间包络变形并且多数情况下成为比调整前更平坦的形状而导致的。经由调整处理而变平坦的高频成分的时间包络与编码前的原始信号中的高频成分的时间包络不一致,构成了产生前回声/后回声的原因。在以“MPEG Surround (环绕MPEG),,以及参数立体声为代表的采用参数处理的多信道音频编码中也会产生同样的前回声/后回声的问题。多信道音频编码中的译码器包括对解码信号进行基于残音滤波器的非相关化处理的单元,而且在非相关化处理的过程中, 信号的时间包络发生变形,产生与前回声/后回声同样的再现信号的劣化。作为针对此课题的解决方法有TES(Temporal Envelope Shaping 时间包络成形)技术(专利文献1)。 在TES技术中,对QMF区域中表述的非相关化处理前的信号,在频率方向进行线形预测分析,获得线形预测系数,然后,利用所获得的线形预测系数对非相关化处理后的信号在频率方向进行线形预测合成滤波处理。通过该处理,TES技术提取出非相关化处理前的信号所具有的时间包络,并与其对应地调整非相关化处理后的信号的时间包络。由于非相关化处理前的信号具有变形小的时间包络,因此通过上述处理能够将非相关化处理后的信号的时间包络调整为变形小的形状,并且能够获得改善了前回声/后回声的再现信号。现有技术文献
专利文献专利文献1 美国专利申请公开第2006/0239473号说明书

发明内容
发明所要解决的问题以上所示的TES技术利用了非相关化处理前的信号具有变形小的时间包络。但是,在SBR译码器中,通过对低频成分进行信号复写来复制出信号的高频成分,因此无法获得与高频成分有关的变形小的时间包络。作为对此问题的解决方法之一,考虑如下的方法 在SBR符号器中,对输入信号的高频成分进行分析,对分析结果获得的线形预测系数进行量化并在比特流中进行复用而传送。由此,在SBR译码器中,可获得包含与高频成分的时间包络有关的变形小的信息的线形预测系数。但是,此时,伴随有如下的问题量化后的线形预测系数的传送需要较多的信息量,编码比特流整体的比特率明显增大。因此,本发明的目的是在以SBR为代表的频域内的频带扩展技术中,能够减轻产生的前回声/后回声并提高解码信号的主观性质量,而不使比特率显著增大。解决问题的手段本发明的语音编码装置是语音信号进行编码的语音编码装置,该语音编码装置的特征在于,具备核心编码单元,其对所述语音信号的低频成分进行编码;时间包络辅助信息计算单元,其利用所述语音信号的低频成分的时间包络来计算时间包络辅助信息,该时间包络辅助信息用于获得所述语音信号的高频成分的时间包络的近似;以及比特流复用单元,其生成至少复用了由所述核心编码单元编码后的所述低频成分、和由所述时间包络辅助信息计算单元计算出的所述时间包络辅助信息的比特流。在本发明的语音编码装置中,优选为,所述时间包络辅助信息表示如下参数,该参数表示在规定的分析区间内所述语音信号的高频成分中的时间包络的变化的急剧程度。在本发明的语音编码装置中,优选为,所述语音编码装置还具备将所述语音信号变换到频域的频率变换单元,所述时间包络辅助信息计算单元根据高频线形预测系数来计算所述时间包络辅助信息,该高频线形预测系数是通过在频率方向上对由所述频率变换单元变换到频域的所述语音信号的高频侧系数进行线形预测分析而取得的。在本发明的语音编码装置中,优选为,所述时间包络辅助信息计算单元对由所述频率变换单元变换到频域的所述语音信号的低频侧系数在频率方向上进行线形预测分析, 取得低频线形预测系数,根据该低频线形预测系数和所述高频线形预测系数来计算所述时间包络辅助信息。在本发明的语音编码装置中,优选为,所述时间包络辅助信息计算单元分别根据所述低频线形预测系数以及所述高频线形预测系数取得预测增益,并根据这两个预测增益的大小来计算所述时间包络辅助信息。在本发明的语音编码装置中,优选为,所述时间包络辅助信息计算单元从所述语音信号中分离出高频成分,从该高频成分中取得以时域表现的时间包络信息,并根据该时间包络信息的时间的变化的大小来计算所述时间包络辅助信息。在本发明的语音编码装置中,优选为,所述时间包络辅助信息包含差分信息,该差分信息用于利用对所述语音信号的低频成分进行频率方向的线形预测分析而获得的低频线形预测系数来取得高频线形预测系数。在本发明的语音编码装置中,优选为,该语音编码装置还具备将所述语音信号变换到频域的频率变换单元,所述时间包络辅助信息计算单元分别对由所述频率变换单元变换到频域的所述语音信号的低频成分以及高频侧系数在频率方向上进行线形预测分析,取得低频线形预测系数和高频线形预测系数,并取得该低频线形预测系数和高频线形预测系数的差分,由此来取得所述差分信息。在本发明的语音编码装置中,优选为,所述差分信息表示LSP (线谱对)、ISP (导抗谱对)、LSF (线谱频率)、ISF(导抗谱频率)、PARCOR系数的任意一个区域中的线形预测系数的差分。本发明的语音编码装置是对语音信号进行编码的语音编码装置,该语音编码装置的特征在于,具备核心编码单元,其对所述语音信号的低频成分进行编码;频率变换单元,其将所述语音信号变换到频域;线形预测分析单元,其在频率方向上对由所述频率变换单元变换到频域的所述语音信号的高频侧系数进行线形预测分析,取得高频线形预测系数;预测系数抽样单元,其对由所述线形预测分析单元取得的所述高频线形预测系数在时间方向上进行抽样;预测系数量化单元,其对由所述预测系数抽样单元抽样后的所述高频线形预测系数进行量化;以及比特流复用单元,其生成至少复用了由所述核心编码单元编码后的所述低频成分、和由所述预测系数量化单元量化后的所述高频线形预测系数的比特流。本发明的语音解码装置是对编码后的语音信号进行解码的语音解码装置,该语音解码装置的特征在于,具备比特流分离单元,其将包含所述编码后的语音信号的来自外部的比特流分离为编码比特流和时间包络辅助信息;核心解码单元,其对所述比特流分离单元分离出的所述编码比特流进行解码,获得低频成分;频率变换单元,其将由所述核心解码单元获得的所述低频成分变换到频域;高频生成单元,其通过将由所述频率变换单元变换到频域的所述低频成分从低频频带复写到高频频带来生成高频成分;低频时间包络分析单元,其对由所述频率变换单元变换到频域的所述低频成分进行分析,取得时间包络信息;时间包络调整单元,其利用所述时间包络辅助信息调整由所述低频时间包络分析单元取得的所述时间包络信息;以及时间包络变形单元,其利用由所述时间包络调整单元调整后的所述时间包络信息,使由所述高频生成单元生成的所述高频成分的时间包络变形。在本发明的语音解码装置中,优选为,该语音解码装置还具备调整所述高频成分的高频调整单元,所述频率变换单元是具有实数或复数系数的64通道QMF滤波器组,所述频率变换单元、所述高频生成单元、所述高频调整单元进行以“IS0/IEC14496-3”规定的 "MPEG4 AAC”中的SBR译码器(SBR =Spectral Band R印lication,频带复制)为依据的动作。在本发明的语音解码装置中,优选为,所述低频时间包络分析单元对由所述频率变换单元变换到频域的所述低频成分进行频率方向的线形预测分析,取得低频线形预测系数,所述时间包络调整单元利用所述时间包络辅助信息来调整所述低频线形预测系数,所述时间包络变形单元针对由所述高频生成单元生成的频域的所述高频成分,利用由所述时间包络调整单元调整后的线形预测系数,进行频率方向的线形预测滤波处理,使语音信号的时间包络变形。
在本发明的语音解码装置中,优选为,所述低频时间包络分析单元取得由所述频率变换单元变换到频域的所述低频成分的每个时隙的功率,由此来取得语音信号的时间包络信息,所述时间包络调整单元利用所述时间包络辅助信息调整所述时间包络信息,所述时间包络变形单元通过将由所述高频生成单元生成的频域的高频成分与所述调整后的时间包络信息重叠来使高频成分的时间包络变形。在本发明的语音解码装置中,优选为,所述低频时间包络分析单元取得由所述频率变换单元变换到频域的所述低频成分的每个QMF子带采样的功率,由此取得语音信号的时间包络信息,所述时间包络调整单元利用所述时间包络辅助信息来调整所述时间包络信息,所述时间包络变形单元通过将所述高频生成单元所生成的频域的高频成分与所述调整后的时间包络信息相乘来使高频成分的时间包络变形。在本发明的语音解码装置中,优选为,所述时间包络辅助信息表示用于调整线形预测系数的强度的滤波强度参数。在本发明的语音解码装置中,优选为,所述时间包络辅助信息表示如下参数,该参数表示所述时间包络信息的时间变化的大小。在本发明的语音解码装置中,优选为,所述时间包络辅助信息包含相对于所述低频线形预测系数的线形预测系数的差分信息。在本发明的语音解码装置中,优选为,所述差分信息表示LSP (线谱对)、ISP (导抗谱对)、LSF (线谱频率)、ISF(导抗谱频率)、PARCOR系数的任意一个区域中的线形预测系数的差分。在本发明的语音解码装置中,优选为,所述低频时间包络分析单元对由所述频率变换单元变换到频域的所述低频成分进行频率方向的线形预测分析,取得所述低频线形预测系数,并且取得该频域的所述低频成分的每个时隙的功率,由此来取得语音信号的时间包络信息,所述时间包络调整单元利用所述时间包络辅助信息来调整所述低频线形预测系数,并且利用所述时间包络辅助信息来调整所述时间包络信息,所述时间包络变形单元对由所述高频生成单元生成的频域的高频成分,利用由所述时间包络调整单元调整后的线形预测系数进行频率方向的线形预测滤波处理,使语音信号的时间包络变形,并且使该频域的所述高频成分与由所述时间包络调整单元调整后的所述时间包络信息重叠,由此使所述高频成分的时间包络变形。在本发明的语音解码装置中,优选为,所述低频时间包络分析单元对由所述频率变换单元变换到频域的所述低频成分进行频率方向的线形预测分析,取得所述低频线形预测系数,并且取得该频域的所述低频成分的每个QMF子带采样的功率,由此取得语音信号的时间包络信息,所述时间包络调整单元利用所述时间包络辅助信息来调整所述低频线形预测系数,并且利用所述时间包络辅助信息来调整所述时间包络信息,所述时间包络变形单元对由所述高频生成单元生成的频域的高频成分,利用所述时间包络调整单元调整后的线形预测系数进行频率方向的线形预测滤波处理,使语音信号的时间包络变形,并且通过将该频域的所述高频成分与由所述时间包络调整单元调整后的所述时间包络信息相乘来使所述高频成分的时间包络变形。在本发明的语音解码装置中,优选为,所述时间包络辅助信息表示如下参数,该参数表示线形预测系数的滤波强度和所述时间包络信息的时间变化的大小两者。
本发明的语音解码装置是对编码后的语音信号进行解码的语音解码装置,该语音解码装置的特征在于,具备比特流分离单元,其将包含所述编码后的语音信号的来自外部的比特流分离为编码比特流和线形预测系数;线形预测系数内插/外插单元,其在时间方向上对所述线形预测系数进行内插或外插;以及时间包络变形单元,其利用由所述线形预测系数内插/外插单元进行了内插或外插的线形预测系数,对在频域中表现的高频成分进行频率方向的线形预测滤波处理,使语音信号的时间包络变形。本发明的语音编码方法是使用了语音编码装置的语音编码方法,该语音编码装置对语音信号进行编码,所述语音编码方法的特征在于,具有以下步骤核心编码步骤,所述语音编码装置对所述语音信号的低频成分进行编码;时间包络辅助信息计算步骤,所述语音编码装置利用所述语音信号的低频成分的时间包络来计算时间包络辅助信息,该时间包络辅助信息用于获得所述语音信号的高频成分的时间包络的近似;以及比特流复用步骤, 所述语音编码装置生成至少复用了在所述核心编码步骤中进行编码了的所述低频成分、和在所述时间包络辅助信息计算步骤中计算出的所述时间包络辅助信息的比特流。本发明的语音编码方法是使用了语音编码装置的语音编码方法,该语音编码装置对语音信号进行编码,所述该语音编码方法的特征在于,具有以下步骤核心编码步骤,所述语音编码装置对所述语音信号的低频成分进行编码;频率变换步骤,所述语音编码装置将所述语音信号变换到频域;线形预测分析步骤,所述语音编码装置在频率方向上对在所述频率变换步骤中变换到频域的所述语音信号的高频侧系数进行线形预测分析,取得高频线形预测系数;预测系数抽样步骤,所述语音编码装置在时间方向上对在所述线形预测分析单元步骤中取得的所述高频线形预测系数进行抽样;预测系数量化步骤,所述语音编码装置将在所述预测系数抽样单元步骤中进行了抽样后的所述高频线形预测系数进行量化; 以及比特流复用步骤,所述语音编码装置生成至少复用了在所述核心编码步骤中编码后的所述低频成分、和在所述预测系数量化步骤中量化后的所述高频线形预测系数的比特流。本发明的语音解码方法是使用了语音解码装置的语音解码方法,该语音解码装置对编码后的语音信号进行解码,所述语音解码方法的特征在于,具有以下的步骤比特流分离步骤,所述语音解码装置将包含所述编码后的语音信号的来自外部的比特流分离为编码比特流和时间包络辅助信息;核心解码步骤,所述语音解码装置对在所述比特流分离步骤中分离出的所述编码比特流进行解码而获得低频成分;频率变换步骤,所述语音解码装置将在所述核心解码步骤中获得的所述低频成分变换到频域;高频生成步骤,所述语音解码装置通过将在所述频率变换步骤中变换到频域的所述低频成分从低频频带复写到高频频带来生成高频成分;低频时间包络分析步骤,所述语音解码装置对在所述频率变换步骤中变换到频域的所述低频成分进行分析,取得时间包络信息;时间包络调整步骤,所述语音解码装置利用所述时间包络辅助信息来调整在所述低频时间包络分析步骤中取得的所述时间包络信息;以及时间包络变形步骤,所述语音解码装置利用在所述时间包络调整步骤中调整后的所述时间包络信息,使在所述高频生成步骤中生成的所述高频成分的时间包络变形。本发明的语音解码方法是使用了语音解码装置的语音解码方法,该语音解码装置对编码后的语音信号进行解码,所述语音解码方法的特征在于,具有以下的步骤比特流分离步骤,所述语音解码装置将包含所述编码后的语音信号的来自外部的比特流分离为编码比特流和线形预测系数;线形预测系数内插/外插步骤,所述语音解码装置在时间方向上对所述线形预测系数进行内插或外插;以及时间包络变形步骤,所述语音解码装置利用在所述线形预测系数内插/外插步骤中进行了内插或外插的所述线形预测系数,对在频域中表现的高频成分进行频率方向的线形预测滤波处理,使语音信号的时间包络变形。本发明的语音编码程序,其特征在于,为了对语音信号进行编码,而使计算机装置作为以下单元发挥功能核心编码单元,其对所述语音信号的低频成分进行编码;时间包络辅助信息计算单元,其利用所述语音信号的低频成分的时间包络来计算时间包络辅助信息,该时间包络辅助信息用于获得所述语音信号的高频成分的时间包络的近似;以及比特流复用单元,其生成至少复用了由所述核心编码单元编码后的所述低频成分、和由所述时间包络辅助信息计算单元计算出的所述时间包络辅助信息的比特流。本发明的语音编码程序,其特征在于,为了对语音信号进行编码,而使计算机装置作为以下单元发挥功能核心编码单元,其对所述语音信号的低频成分进行编码;频率变换单元,其将所述语音信号变换到频域;线形预测分析单元,其在频率方向上对由所述频率变换单元变换到频域的所述语音信号的高频侧系数进行线形预测分析,取得高频线形预测系数;预测系数抽样单元,其对由所述线形预测分析单元取得的所述高频线形预测系数在时间方向上进行抽样;预测系数量化单元,其对由所述预测系数抽样单元抽样后的所述高频线形预测系数进行量化;以及比特流复用单元,其生成至少复用了由所述核心编码单元编码后的所述低频成分、和由所述预测系数量化单元量化后的所述高频线形预测系数的比特流。本发明的语音解码程序,其特征在于,为了对编码后的语音信号进行解码,而使计算机装置作为以下单元发挥功能比特流分离单元,其将包含所述编码后的语音信号的来自外部的比特流分离为编码比特流和时间包络辅助信息;核心解码单元,其对所述比特流分离单元分离出的所述编码比特流进行解码,获得低频成分;频率变换单元,其将由所述核心解码单元获得的所述低频成分变换到频域;高频生成单元,其通过将由所述频率变换单元变换到频域的所述低频成分从低频频带复写到高频频带来生成高频成分;低频时间包络分析单元,其对由所述频率变换单元变换到频域的所述低频成分进行分析,取得时间包络信息;时间包络调整单元,其利用所述时间包络辅助信息调整由所述低频时间包络分析单元取得的所述时间包络信息;以及时间包络变形单元,其利用由所述时间包络调整单元调整后的所述时间包络信息,使由所述高频生成单元生成的所述高频成分的时间包络变形。本发明的语音解码程序,其特征在于,为了对编码后的语音信号进行解码,而使计算机装置作为以下单元发挥功能比特流分离单元,其将包含所述编码后的语音信号的来自外部的比特流分离为编码比特流和线形预测系数;线形预测系数内插/外插单元,其在时间方向上对所述线形预测系数进行内插或外插;以及时间包络变形单元,其利用由所述线形预测系数内插/外插单元进行了内插或外插的线形预测系数,对在频域中表现的高频成分进行频率方向的线形预测滤波处理,使语音信号的时间包络变形。在本发明的语音解码装置中,优选为,所述时间包络变形单元在对由所述高频生成单元生成的频域的所述高频成分进行频率方向的线形预测滤波处理之后,将根据所述线形预测滤波处理的结果获得的高频成分的功率调整为与所述线形预测滤波处理前相等的值。
在本发明的语音解码装置中,优选为,所述时间包络变形单元在对由所述高频生成单元生成的频域的所述高频成分进行频率方向的线形预测滤波处理之后,将根据所述线形预测滤波处理的结果获得的高频成分的任意频率范围内的功率调整为与所述线形预测滤波处理前相等的值。在本发明的语音解码装置中,优选为,所述时间包络辅助信息是所述调整后的所述时间包络信息中的最小值与平均值的比率。在本发明的语音解码装置中,优选为,所述时间包络变形单元控制所述调整后的时间包络的增益,使得所述频域的高频成分的SBR包络时间分段内的功率在时间包络变形之前与之后相等,然后通过将所述频域的高频成分与所述增益控制后的时间包络相乘来使高频成分的时间包络变形。在本发明的语音解码装置中,优选为,所述低频时间包络分析单元取得由所述频率变换单元变换到频域的所述低频成分的每个QMF子带采样的功率,还利用在SBR包络时间分段内的平均功率对每个所述QMF子带采样的功率进行归一化,由此取得表现为乘上了各QMF子带采样的增益系数的时间包络信息。本发明的语音解码装置是对编码后的语音信号进行解码的语音解码装置,该语音解码装置的特征在于,具备核心解码单元,其对包含所述编码后的语音信号的来自外部的比特流进行解码而获得低频成分;频率变换单元,其将由所述核心解码单元获得的所述低频成分变换到频域;高频生成单元,其通过将由所述频率变换单元变换到频域的所述低频成分从低频频带复写到高频频带来生成高频成分;低频时间包络分析单元,其对由所述频率变换单元变换到频域的所述低频成分进行分析,取得时间包络信息;时间包络辅助信息生成部,其分析所述比特流而生成时间包络辅助信息;时间包络调整单元,其利用所述时间包络辅助信息来调整由所述低频时间包络分析单元取得的所述时间包络信息;以及时间包络变形单元,其利用由所述时间包络调整单元调整后的所述时间包络信息,使由所述高频生成单元生成的所述高频成分的时间包络变形。在本发明的语音解码装置中,优选为,该语音解码装置具备相当于所述高频调整单元的一次高频调整单元和二次高频调整单元,所述一次高频调整单元执行包含相当于所述高频调整单元的处理的一部分的处理,所述时间包络变形单元对所述一次高频调整单元的输出信号进行时间包络的变形,所述二次高频调整单元对所述时间包络变形单元的输出信号,执行相当于所述高频调整单元的处理中的、所述一次高频调整单元未执行的处理。所述二次高频调整单元优选为SBR解码过程中的正弦波的附加处理。发明效果根据本发明,在以SBR为代表的频域内的频带扩展技术中,能够减轻产生的前回声/后回声并提高解码信号的主观质量,而不用使比特率明显增大。


图1是示出第1实施方式的语音编码装置的结构的图。图2是用于说明第1实施方式的语音编码装置的动作的流程图。图3是示出第1实施方式的语音解码装置的结构的图。图4是用于说明第1实施方式的语音解码装置的动作的流程图。
图5是示出第1实施方式的变形例1的语音编码装置的结构的图。
图6是示出第2实施方式的语音编码装置的结构的图。
图7是用于说明第2实施方式的语音编码装置的动作的流程图。
图8是示出第2实施方式的语音解码装置的结构的图。
图9是用于说明第2实施方式的语音解码装置的动作的流程图。
图10是示出第3实施方式的语音编码装置的结构的图。
图11是用于说明第3实施方式的语音编码装置的动作的流程图。
图12是示出第3实施方式的语音解码装置的结构的图。
图13是用于说明第3实施方式的语音解码装置的动作的流程图。
图14是示出第4实施方式的语音解码装置的结构的图。
图15是示出第4实施方式的变形例的语音解码装置的结构的图。
图16是示出第4实施方式的其它变形例的语音解码装置的结构的图。
图17是用于说明第4实施方式的其它变形例的语音解码装置的动作的流程图。
图18是示出第1实施方式的其它变形例的语音解码装置的结构的图。
图19是用于说明第1实施方式的其它变形例的语音解码装置的动作的流程图。
图20是示出第1实施方式的其它变形例的语音解码装置的结构的图。
图21是用于说明第1实施方式的其它变形例的语音解码装置的动作的流程图。
图22是示出第2实施方式的变形例的语音解码装置的结构的图。
图23是用于说明第2实施方式的变形例的语音解码装置的动作的流程图。
图24是示出第2实施方式的其它变形例的语音解码装置的结构的图。
图25是用于说明第2实施方式的其它变形例的语音解码装置的动作的流程图。
图26是示出第4实施方式的其它变形例的语音解码装置的结构的图。
图27是用于说明第4实施方式的其它变形例的语音解码装置的动作的流程图。
图28是示出第4实施方式的其它变形例的语音解码装置的结构的图。
图29是用于说明第4实施方式的其它变形例的语音解码装置的动作的流程图。
图30是示出第4实施方式的其它变形例的语音解码装置的结构的图。
图31是示出第4实施方式的其它变形例的语音解码装置的结构的图。
图32是用于说明第4实施方式的其它变形例的语音解码装置的动作的流程图。
图33是示出第4实施方式的其它变形例的语音解码装置的结构的图。
图34是用于说明第4实施方式的其它变形例的语音解码装置的动作的流程图。
图35是示出第4实施方式的其它变形例的语音解码装置的结构的图。
图36是用于说明第4实施方式的其它变形例的语音解码装置的动作的流程图。
图37是示出第4实施方式的其它变形例的语音解码装置的结构的图。
图38是示出第4实施方式的其它变形例的语音解码装置的结构的图。
图39是用于说明第4实施方式的其它变形例的语音解码装置的动作的流程图。
图40是示出第4实施方式的其它变形例的语音解码装置的结构的图。
图41是说明第4实施方式的其它变形例的语音解码装置的动作的流程图。
图42是示出第4实施方式的其它变形例的语音解码装置的结构的图。
图43是用于说明第4实施方式的其它变形例的语音解码装置的动作的流程图。
图44是示出第1实施方式的其它变形例的语音编码装置的结构的图。图45是示出第1实施方式的其它变形例的语音编码装置的结构的图。图46是示出第2实施方式的变形例的语音编码装置的结构的图。图47是示出第2实施方式的其它变形例的语音编码装置的结构的图。图48是示出第4实施方式的语音编码装置的结构的图。图49是示出第4实施方式的其它变形例的语音编码装置的结构的图。图50是示出第4实施方式的其它变形例的语音编码装置的结构的图。
具体实施例方式以下,参照附图来详细说明本发明的优选实施方式。此外,在

中,在可能的情况下,对同一要素标注同一标号,并省略重复说明。(第1实施方式)图1是示出第1实施方式的语音编码装置11的结构的图。语音编码装置11物理上具有未图示的CPU、R0M、RAM以及通信装置等,该CPU通过将ROM等语音编码装置11的内置存储器中存储的预定的计算机程序(例如,用于进行图2的流程图所示的处理的计算机程序)加载到RAM中并运行来统一地控制语音编码装置11。语音编码装置11的通信装置从外部接收作为编码对象的语音信号,而且,将编码后的复用比特流向外部输出。语音编码装置11在功能上具备频率变换部la(频率变换单元)、频率逆变换部 lb、核心编解码器(core codec)编码部Ic (核心编码单元)、SBR编码部Id、线形预测分析部Ie (时间包络辅助信息计算单元)、滤波强度参数计算部lf(时间包络辅助信息计算单元)以及比特流复用部Ig (比特流复用单元)。图1所示的语音编码装置11的频率变换部 Ia 比特流复用部Ig是通过语音编码装置11的CPU运行存储在语音编码装置11的内置存储器中的计算机程序而实现的功能。语音编码装置11的CPU通过运行该计算机程序(利用图1所示的频率变换部Ia 比特流复用部Ig)来依次执行图2的流程图所示处理(步骤Sal 步骤Sa7的处理)。该计算机程序运行所需的各种数据以及通过运行该计算机程序生成的各种数据全部都存储在语音编码装置11的ROM或RAM等内置存储器中。频率变换部Ia通过多通道QMF滤波器组分析经由语音编码装置11的通信装置接收到的来自外部的输入信号,并获得QMF区域的信号q(k,r)(步骤Sal的处理)。其中, k(0^k^63)是频率方向的索引,r是表示时隙的索引。频率逆变换部Ib利用QMF滤波器组来合成从频率变换部Ia获得的、QMF区域的信号中的低频侧的一半系数,并获得仅包含输入信号的低频成分的下采样后的时域信号(步骤的处理)。核心编解码器编码部 Ic对下采样后的时域信号进行编码并获得编码比特流(步骤Sa3的处理)。核心编解码器编码部Ic中的编码可基于以CELP方式为代表的语音编码方式,另外还可基于以AAC为代表的转换编码或TCXCTransform CodedExcitation,转换编码激励)方式等的音频编码。SBR编码部Id从频率变换部Ia接收QMF区域的信号,并根据高频成分的功率/信号变化/调性等的分析进行SBR编码,获得SBR辅助信息(步骤Sa4的处理)。关于频率变换部Ia中的QMF分析的方法以及SBR编码部Id中的SBR编码的方法,例如,在文献“3GPP TS 26. 404 ;Enhanced aacPlus encoder SBR part,,中进行详细叙述。线形预测分析部Ie从频率变换部Ia接收QMF区域的信号,并针对该信号的高频成分在频率方向上进行线形预测分析,取得高频线形预测系数%(n,r) (1 ^ η ^ N)(步骤 Sa5的处理)。其中,N是线形预测次数。另外,索引r是与QMF区域的信号的子采样有关的时间方向的索引。关于信号线形预测分析,可以采用协方差法或自相关法。针对q(k,r) 中满足kx < k < 63的高频成分进行取得&(η,r)时的线形预测分析。其中,kx是与利用核心编解码器编码部Ic进行编码的频谱区域的上限频率对应的频率索引。另外,线形预测分析部Ie也可以针对与在取得iiH(n,r)时分析的频率不同的低频成分进行线形预测分析, 取得与&(n,r)不同的低频线形预测系数\(n,r)(这种与低频成分有关的线形预测系数与时间包络信息对应,以下,在第1实施方式中是同样的)。在取得\(n,r)时的线形预测分析是针对满足0 < k < kx的低频成分进行分析。另外,该线形预测分析可以是针对0 < k < kx区间所包含的一部分频率区域进行分析。滤波强度参数计算部If例如采用线形预测分析部Ie所取得的线形预测系数来计算滤波强度参数(滤波强度参数与时间包络辅助信息对应,以下,在第1实施方式中是同样的)(步骤Sa6的处理)。首先,由iiH(n,r)计算预测增益(iH(r)。预测增益的计算方法例如在 “声音符号化、守谷健弘著電子情報通信学会編(语音编码、守谷健弘著、电子信息通信学会编)”中进行详细叙述。此外,在计算\(n,r)的情况下,同样计算预测增益Gjr)。滤波强度参数K(r)是随着(iH(r)变大而变大的参数,例如可根据下式(1)获得。其中,max (a, b)表示a和b的最大值,min (a, b)表示a和b的最小值。[式1]K(r) = max(0, min(l, GH(r)-1))另外,在计算Gl(r)的情况下,K(r)可作为随着(iH(r)变大而变大、随着Gjr)变大而变小的参数取得。此时的K例如可根据下式( 来取得。[式2]K(r) = max(0, min(l, GH(r)/GL(r)-1))K(r)是表示在SBR解码时调整高频成分的时间包络的强度的参数。与频率方向的线形预测系数相对的预测增益随着分析区间的信号的时间包络表现出急剧的变化而成为较大的值。K(r)是如下这样的参数其值越大,越对译码器指示增强使SBR所生成的高频成分的时间包络急剧变化的处理。此外,K(r)也可以是如下这样的参数,其值越小,则越对译码器(例如,语音解码装置21等)指示减弱使SBR所生成的高频成分的时间包络急剧变化的处理,该参数还可包含表示不执行使时间包络急剧变化的处理的值。另外,还可以不传送各时隙的K(r),而传送代表多个时隙的K(r)。为了决定共用同一 K(r)值的时隙的区间, 优选采用包含在SBR辅助信息中的SBR包络的时间边界(SBR envelope time border)信肩、οK(r)被量化之后被发送至比特流复用部lg。优选在量化前针对多个时隙r取得例如K(r)的平均,由此来计算代表多个时隙的K(r)。而且,在传送代表多个时隙的K(r)的情况下,也可以根据由多个时隙构成的整个区间的分析结果来取得代表的K(r),而不是像式(2)那样根据分析各个时隙得到的结果来独立地进行K(r)的计算。例如可根据下式(3) 来计算这种情况下的K(r)。其中,mean( ·)表示K(r)所代表的时隙区间内的平均值。[式3]K(r) = max(0, min(l, mean (Gh(r)/mean (Gl(r))-1)))
此外,在传送K(r)时,可与在“IS0/IEC 14496-3 subpart 4 General Audio Coding”中记载的SBR辅助信息中包含的逆滤波模式信息相互排斥地传送。S卩,对于传送 SBR辅助信息的逆滤波模式信息的时隙,不传送K (r),而对于传送K (r)的时隙,不传送SBR 辅助信息的逆滤波模式信息("IS0/IEC 14496-3 subpart 4 General AudioCoding”中的 bs#invf#mode) 0此外,也可以附加表示已传送K(r)或SBR辅助信息中包含的逆滤波模式信息的哪一个的信息。另外,还可以将K(r)与SBR辅助信息中包含的逆滤波模式信息组合作为一个矢量信息使用,并对该矢量进行熵编码。此时,可以对K(r)与SBR辅助信息中包含的逆滤波模式信息之间的值的组合进行制约。比特流复用部Ig对由核心编解码器编码部Ic计算出的编码比特流、由SBR编码部Id计算出的SBR辅助信息和由滤波强度参数计算部If计算出的K (r)进行复用,并经由语音编码装置11的通信装置输出复用比特流(编码后的复用比特流)(步骤Sa7的处理)。图3是示出第1实施方式的语音解码装置21的结构的图。语音解码装置21物理上具有未图示的CPU、R0M、RAM以及通信装置等,该CPU通过将ROM等语音解码装置21的内置存储器中存储的预定的计算机程序(例如,用于进行图4的流程图所示的处理的计算机程序)加载到RAM中并运行来统一地控制语音解码装置21。语音解码装置21的通信装置接收从语音编码装置11、后述变形例1的语音编码装置Ila或后述变形例2的语音编码装置输出的编码后的复用比特流,而且,向外部输出已解码的语音信号。如图3所示,语音解码装置21在功能上具备比特流分离部加(比特流分离单元)、核心编解码器解码部2b (核心解码单元)、频率变换部2c(频率变换单元)、低频线形预测分析部2d(低频时间包络分析单元)、信号变化检测部加、滤波强度调整部2f (时间包络调整单元)、高频生成部2g (高频生成单元)、高频线形预测分析部2h、线形预测逆滤波部2i、高频调整部2j (高频调整单元)、线形预测滤波部2k(时间包络变形单元)、系数相加部an以及频率逆变换部2η。图3 所示的语音解码装置21的比特流分离部加 包络形状参数计算部In是通过语音解码装置21的CPU执行语音解码装置21的内置存储器中存储的计算机程序来实现的功能。语音解码装置21的CPU通过执行该计算机程序(利用图3所示的比特流分离部加 包络形状参数计算部In),依次执行图4的流程图所示的处理(步骤Sbl 步骤Sbll的处理)。运行该计算机程序所需的各种数据以及运行该计算机程序所生成的各种数据全部存储在语音解码装置21的ROM或RAM等内置存储器中。比特流分离部加经由语音解码装置21的通信装置将输入的复用比特流分离为滤波强度参数、SBR辅助信息和编码比特流。核心编解码器解码部2b对从比特流分离部加输出的编码比特流进行解码,获得仅包含低频成分的解码信号(步骤Sbl的处理)。此时,解码的方式可以基于以CELP方式为代表的语音编码方式,也可以基于AAC或TCX (Transform Coded Excitation)方式等的音频编码。频率变换部2c通过多通道QMF滤波器组分析从核心编解码器解码部2b输出的解码信号,获得QMF区域的信号qde。(k,r)(步骤釙2的处理)。其中,k(0彡k彡63)是频率方向的索引,r是表示与QMF区域信号的子采样有关的时间方向索引的索引。低频线形预测分析部2d针对各个时隙r在频率方向对从频率变换部2c获得的 Qdec (k, r)进行线形预测分析,取得低频线形预测系数iide。(n,r)(步骤釙3的处理)。在与从核心编解码器解码部2b获得的解码信号的信号频带对应的0 < k < kx的范围中进行线形预测分析。此外,该线形预测分析可以是针对0 < k < kx区间中包含的一部分频域进行分析。信号变化检测部Ie检测从频率变换部2c获得的QMF区域的信号的时间变化,并作为检测结果T(r)输出。例如可利用以下所示的方法进行信号变化的检测。1.利用下式(4)取得时隙r中的信号的短时功率p(r)。[式4]
63p(r) = Yg \qdec(k^f
k = 02.利用下式(5)取得平滑了 ρ (r)的包络p_(r)。其中,α是满足0 < α < 1的常数。[式5]penv (r) = α · penv (r_l) + (1_ α ) · ρ (r)3.利用p(r)和penv(r)根据下式(6)取得T(r)。其中,β是常数。[式6]T(r) = max(l,p(r)/(^ · Penv(r)))以上所示的方法是基于功率变化的信号变化检测的简单例,也可以利用其它更加简练的方法来进行信号变化检测。另外,还可以省略信号变化检测部2e。滤波强度调整部2f针对从低频线形预测分析部2d获得的&e。(n,r)进行滤波强度的调整,获得调整后的线形预测系数aa(U(n,r)(步骤Sb4的处理)。滤波强度的调整可利用经由比特流分离部加接收到的滤波强度参数K,例如根据下式(7)来进行。[式7]aadJ (n,r) = adec (η, r) · K(r)n (1 彡 η 彡 N)此外,在获得信号变化检测部加的输出T(r)的情况下,也可以根据下式(8)来进行强度的调整。[式8]aadJ(n, r) = adec(n, r) · (K(r) · T(r))n (1 ^ η ^ N)高频生成部2g将由频率变换部2c获得的QMF区域信号从低频频带复写到高频频带,生成高频成分的QMF区域信号qexp(k,r)(步骤处5的处理)。高频的生成可根据“MPEG4 AAC” 的 SBR 中的高频生成(HF generation)方法来进行(“IS0/IEC14496-3 subpart 4 General Audio Coding,,)。高频线形预测分析部池针对各个时隙r在频率方向对高频生成部2g所生成的 Qexp (k, r)进行线形预测分析,取得高频线形预测系数aexp(n,r)(步骤Sb6的处理)。针对与高频生成部2g所生成的高频成分对应的kx < k < 63范围进行线形预测分析。线形预测逆滤 波部2i将高频生成部2g所生成的高频频带的QMF区域的信号作为对象,在频率方向进行以aexp(n,r)为系数的线形预测逆滤波处理(步骤Sb7的处理)。线形预测逆滤波器的传递函数如下式(9)所示。[式9]
该线形预测逆滤波处理可以从低频侧的系数向高频侧的系数进行,也可以反向进行。线形预测逆滤波处理是用于在后段中进行时间包络变形之前使高频成分的时间包络暂时平坦化的处理,也可以省略线形预测逆滤波部2i。另外,取代对来自高频生成部2g的输出进行针对高频成分的线形预测分析和逆滤波处理,可以针对来自后述高频调整部2j的输出进行基于高频线形预测分析部池的线形预测分析和基于线形预测逆滤波部2i的逆滤波处理。此外,用于线形预测逆滤波处理的线形预测系数可以不是aexp(n,r),而是ade。(n, r)或aa(U(n,r)。另外,用于线形预测逆滤波处理的线形预测系数可以是对aexp(n,r)进行滤波强度调整而取得的线形预测系数 xp,a(U(n,r)。强度调整与取得iia(U(n,r)时同样例如可根据下式(10)来进行。[式10]aexp,adJ(n,r) = aexp(η, r) ‘ K(r)n (1 ^ η ^ N)高频调整部2j对来自线形预测逆滤波部2i的输出进行高频成分的频率特性以及调性的调整(步骤SbS的处理)。根据从比特流分离部加输出的SBR辅助信息来进行该调整。基于高频调整部2j的处理是根据“MPEG4 AAC”的SBR中的“高频调整(HFadjustment),, 步骤来进行的,是针对高频频带的QMF区域信号进行时间方向的线形预测逆滤波处理、 增益的调整以及噪声的重叠的调整。在“IS0/IEC 14496-3 subpart 4General Audio Coding”中详细叙述了以上步骤的详细处理。此外,如上所述,频率变换部2c、高频生成部 2g以及高频调整部2j均进行以“IS0/IEC 14496-3”规定的“MPEG4AAC”中的SBR译码器为依据的动作。线形预测滤波部业针对从高频调整部2j输出的QMF区域的信号的高频成分 qadJ(n, r),利用从滤波强度调整部2f获得的aa(U(n,r)在频率方向进行线形预测合成滤波处理(步骤Sb9的处理)。线形预测合成滤波处理中的传递函数如下式(11)所述。[式11]
权利要求
1.一种对语音信号进行编码的语音编码装置,该语音编码装置的特征在于,具备核心编码单元,其对所述语音信号的低频成分进行编码;时间包络辅助信息计算单元,其利用所述语音信号的低频成分的时间包络来计算时间包络辅助信息,该时间包络辅助信息用于获得所述语音信号的高频成分的时间包络的近似;以及比特流复用单元,其生成至少复用了由所述核心编码单元编码后的所述低频成分、和由所述时间包络辅助信息计算单元计算出的所述时间包络辅助信息的比特流。
2.根据权利要求1所述的语音编码装置,其特征在于,所述时间包络辅助信息表示如下参数,该参数表示在规定的分析区间内所述语音信号的高频成分中的时间包络的变化的急剧程度。
3.根据权利要求2所述的语音编码装置,其特征在于,所述语音编码装置还具备将所述语音信号变换到频域的频率变换单元,所述时间包络辅助信息计算单元根据高频线形预测系数来计算所述时间包络辅助信息,该高频线形预测系数是通过在频率方向上对由所述频率变换单元变换到频域的所述语音信号的高频侧系数进行线形预测分析而取得的。
4.根据权利要求3所述的语音编码装置,其特征在于,所述时间包络辅助信息计算单元对由所述频率变换单元变换到频域的所述语音信号的低频侧系数在频率方向上进行线形预测分析,取得低频线形预测系数,根据该低频线形预测系数和所述高频线形预测系数来计算所述时间包络辅助信息。
5.根据权利要求4所述的语音编码装置,其特征在于,所述时间包络辅助信息计算单元分别根据所述低频线形预测系数以及所述高频线形预测系数取得预测增益,并根据这两个预测增益的大小来计算所述时间包络辅助信息。
6.根据权利要求2所述的语音编码装置,其特征在于,所述时间包络辅助信息计算单元从所述语音信号中分离出高频成分,从该高频成分中取得以时域表现的时间包络信息,并根据该时间包络信息的时间的变化的大小来计算所述时间包络辅助信息。
7.根据权利要求1所述的语音编码装置,其特征在于,所述时间包络辅助信息包含差分信息,该差分信息用于利用对所述语音信号的低频成分进行频率方向的线形预测分析而获得的低频线形预测系数来取得高频线形预测系数。
8.根据权利要求7所述的语音编码装置,其特征在于,该语音编码装置还具备将所述语音信号变换到频域的频率变换单元,所述时间包络辅助信息计算单元分别对由所述频率变换单元变换到频域的所述语音信号的低频成分以及高频侧系数在频率方向上进行线形预测分析,取得低频线形预测系数和高频线形预测系数,并取得该低频线形预测系数和高频线形预测系数的差分,由此来取得所述差分信息。
9.根据权利要求8所述的语音编码装置,其特征在于,所述差分信息表示LSP (线谱对)、ISP (导抗谱对)、LSF (线谱频率)、ISF (导抗谱频率)、PARCOR系数的任意一个的区域中的线形预测系数的差分。
10.一种对语音信号进行编码的语音编码装置,该语音编码装置的特征在于,具备核心编码单元,其对所述语音信号的低频成分进行编码; 频率变换单元,其将所述语音信号变换到频域;线形预测分析单元,其在频率方向上对由所述频率变换单元变换到频域的所述语音信号的高频侧系数进行线形预测分析,取得高频线形预测系数;预测系数抽样单元,其对由所述线形预测分析单元取得的所述高频线形预测系数在时间方向上进行抽样; 预测系数量化单元,其对由所述预测系数抽样单元抽样后的所述高频线形预测系数进行量化;以及比特流复用单元,其生成至少复用了由所述核心编码单元编码后的所述低频成分、和由所述预测系数量化单元量化后的所述高频线形预测系数的比特流。
11.一种对编码后的语音信号进行解码的语音解码装置,该语音解码装置的特征在于, 具备比特流分离单元,其将包含所述编码后的语音信号的来自外部的比特流分离为编码比特流和时间包络辅助信息;核心解码单元,其对所述比特流分离单元分离出的所述编码比特流进行解码,获得低频成分;频率变换单元,其将由所述核心解码单元获得的所述低频成分变换到频域; 高频生成单元,其通过将由所述频率变换单元变换到频域的所述低频成分从低频频带复写到高频频带来生成高频成分;低频时间包络分析单元,其对由所述频率变换单元变换到频域的所述低频成分进行分析,取得时间包络信息;时间包络调整单元,其利用所述时间包络辅助信息调整由所述低频时间包络分析单元取得的所述时间包络信息;以及时间包络变形单元,其利用由所述时间包络调整单元调整后的所述时间包络信息,使由所述高频生成单元生成的所述高频成分的时间包络变形。
12.根据权利要求11的语音解码装置,其特征在于,该语音解码装置还具备调整所述高频成分的高频调整单元, 所述频率变换单元是具有实数或复数系数的64通道QMF滤波器组, 所述频率变换单元、所述高频生成单元、所述高频调整单元进行以“IS0/IEC14496-3” 规定的“MPEG4 AAC”中的SBR译码器(SBR =Spectral Band R印lication,频带复制)为依据的动作。
13.根据权利要求11或12所述的语音解码装置,其特征在于,所述低频时间包络分析单元对由所述频率变换单元变换到频域的所述低频成分进行频率方向的线形预测分析,取得低频线形预测系数,所述时间包络调整单元利用所述时间包络辅助信息来调整所述低频线形预测系数, 所述时间包络变形单元针对由所述高频生成单元生成的频域的所述高频成分,利用由所述时间包络调整单元调整后的线形预测系数,进行频率方向的线形预测滤波处理,使语音信号的时间包络变形。
14.根据权利要求11或12所述的语音解码装置,其特征在于,所述低频时间包络分析单元取得由所述频率变换单元变换到频域的所述低频成分的每个时隙的功率,由此来取得语音信号的时间包络信息,所述时间包络调整单元利用所述时间包络辅助信息调整所述时间包络信息, 所述时间包络变形单元通过将由所述高频生成单元生成的频域的高频成分与所述调整后的时间包络信息重叠来使高频成分的时间包络变形。
15.根据权利要求11或12所述的语音解码装置,其特征在于,所述低频时间包络分析单元取得由所述频率变换单元变换到频域的所述低频成分的每个QMF子带采样的功率,由此取得语音信号的时间包络信息,所述时间包络调整单元利用所述时间包络辅助信息来调整所述时间包络信息, 所述时间包络变形单元通过将所述高频生成单元所生成的频域的高频成分与所述调整后的时间包络信息相乘来使高频成分的时间包络变形。
16.根据权利要求13所述的语音解码装置,其特征在于,所述时间包络辅助信息表示用于调整线形预测系数的强度的滤波强度参数。
17.根据权利要求14或15所述的语音解码装置,其特征在于,所述时间包络辅助信息表示如下参数,该参数表示所述时间包络信息的时间变化的大
18.根据权利要求13所述的语音解码装置,其特征在于,所述时间包络辅助信息包含相对于所述低频线形预测系数的线形预测系数的差分信息。
19.根据权利要求18所述的语音解码装置,其特征在于,所述差分信息表示LSP (线谱对)、ISP (导抗谱对)、LSF (线谱频率)、ISF (导抗谱频率)、PARCOR系数的任意一个的区域中的线形预测系数的差分。
20.根据权利要求11或12所述的语音解码装置,其特征在于,所述低频时间包络分析单元对由所述频率变换单元变换到频域的所述低频成分进行频率方向的线形预测分析,取得所述低频线形预测系数,并且取得该频域的所述低频成分的每个时隙的功率,由此来取得语音信号的时间包络信息,所述时间包络调整单元利用所述时间包络辅助信息来调整所述低频线形预测系数,并且利用所述时间包络辅助信息来调整所述时间包络信息,所述时间包络变形单元对由所述高频生成单元生成的频域的高频成分,利用由所述时间包络调整单元调整后的线形预测系数进行频率方向的线形预测滤波处理,使语音信号的时间包络变形,并且使该频域的所述高频成分与由所述时间包络调整单元调整后的所述时间包络信息重叠,由此使所述高频成分的时间包络变形。
21.根据权利要求11或12所述的语音解码装置,其特征在于,所述低频时间包络分析单元对由所述频率变换单元变换到频域的所述低频成分进行频率方向的线形预测分析,取得所述低频线形预测系数,并且取得该频域的所述低频成分的每个QMF子带采样的功率,由此取得语音信号的时间包络信息,所述时间包络调整单元利用所述时间包络辅助信息来调整所述低频线形预测系数,并且利用所述时间包络辅助信息来调整所述时间包络信息,所述时间包络变形单元对由所述高频生成单元生成的频域的高频成分,利用所述时间包络调整单元调整后的线形预测系数进行频率方向的线形预测滤波处理,使语音信号的时间包络变形,并且通过将该频域的所述高频成分与由所述时间包络调整单元调整后的所述时间包络信息相乘来使所述高频成分的时间包络变形。
22.根据权利要求20或21所述的语音解码装置,其特征在于,所述时间包络辅助信息表示如下参数,该参数表示线形预测系数的滤波强度和所述时间包络信息的时间变化的大小两者。
23.一种对编码后的语音信号进行解码的语音解码装置,该语音解码装置的特征在于, 具备比特流分离单元,其将包含所述编码后的语音信号的来自外部的比特流分离为编码比特流和线形预测系数;线形预测系数内插/外插单元,其在时间方向上对所述线形预测系数进行内插或外插;以及时间包络变形单元,其利用由所述线形预测系数内插/外插单元进行了内插或外插的线形预测系数,对在频域中表现的高频成分进行频率方向的线形预测滤波处理,使语音信号的时间包络变形。
24.一种使用了语音编码装置的语音编码方法,该语音编码装置对语音信号进行编码, 所述语音编码方法的特征在于,具有以下步骤核心编码步骤,所述语音编码装置对所述语音信号的低频成分进行编码; 时间包络辅助信息计算步骤,所述语音编码装置利用所述语音信号的低频成分的时间包络来计算时间包络辅助信息,该时间包络辅助信息用于获得所述语音信号的高频成分的时间包络的近似;以及比特流复用步骤,所述语音编码装置生成至少复用了在所述核心编码步骤中进行编码了的所述低频成分、和在所述时间包络辅助信息计算步骤中计算出的所述时间包络辅助信息的比特流。
25.一种使用了语音编码装置的语音编码方法,该语音编码装置对语音信号进行编码, 所述语音编码方法的特征在于,具有以下步骤核心编码步骤,所述语音编码装置对所述语音信号的低频成分进行编码; 频率变换步骤,所述语音编码装置将所述语音信号变换到频域; 线形预测分析步骤,所述语音编码装置在频率方向上对在所述频率变换步骤中变换到频域的所述语音信号的高频侧系数进行线形预测分析,取得高频线形预测系数;预测系数抽样步骤,所述语音编码装置在时间方向上对在所述线形预测分析单元步骤中取得的所述高频线形预测系数进行抽样;预测系数量化步骤,所述语音编码装置将在所述预测系数抽样单元步骤中进行了抽样后的所述高频线形预测系数进行量化;以及比特流复用步骤,所述语音编码装置生成至少复用了在所述核心编码步骤中编码后的所述低频成分、和在所述预测系数量化步骤中量化后的所述高频线形预测系数的比特流。
26.一种使用了语音解码装置的语音解码方法,该语音解码装置对编码后的语音信号进行解码,所述语音解码方法的特征在于,具有以下的步骤比特流分离步骤,所述语音解码装置将包含所述编码后的语音信号的来自外部的比特流分离为编码比特流和时间包络辅助信息;核心解码步骤,所述语音解码装置对在所述比特流分离步骤中分离出的所述编码比特流进行解码而获得低频成分;频率变换步骤,所述语音解码装置将在所述核心解码步骤中获得的所述低频成分变换到频域;高频生成步骤,所述语音解码装置通过将在所述频率变换步骤中变换到频域的所述低频成分从低频频带复写到高频频带来生成高频成分;低频时间包络分析步骤,所述语音解码装置对在所述频率变换步骤中变换到频域的所述低频成分进行分析,取得时间包络信息;时间包络调整步骤,所述语音解码装置利用所述时间包络辅助信息来调整在所述低频时间包络分析步骤中取得的所述时间包络信息;以及时间包络变形步骤,所述语音解码装置利用在所述时间包络调整步骤中调整后的所述时间包络信息,使在所述高频生成步骤中生成的所述高频成分的时间包络变形。
27.一种使用了语音解码装置的语音解码方法,该语音解码装置对编码后的语音信号进行解码,所述语音解码方法的特征在于,具有以下的步骤比特流分离步骤,所述语音解码装置将包含所述编码后的语音信号的来自外部的比特流分离为编码比特流和线形预测系数;线形预测系数内插/外插步骤,所述语音解码装置在时间方向上对所述线形预测系数进行内插或外插;以及时间包络变形步骤,所述语音解码装置利用在所述线形预测系数内插/外插步骤中进行了内插或外插的所述线形预测系数,对在频域中表现的高频成分进行频率方向的线形预测滤波处理,使语音信号的时间包络变形。
28.一种语音编码程序,其特征在于,为了对语音信号进行编码,而使计算机装置作为以下单元发挥功能核心编码单元,其对所述语音信号的低频成分进行编码;时间包络辅助信息计算单元,其利用所述语音信号的低频成分的时间包络来计算时间包络辅助信息,该时间包络辅助信息用于获得所述语音信号的高频成分的时间包络的近似;以及比特流复用单元,其生成至少复用了由所述核心编码单元编码后的所述低频成分、和由所述时间包络辅助信息计算单元计算出的所述时间包络辅助信息的比特流。
29.一种语音编码程序,其特征在于,为了对语音信号进行编码,而使计算机装置作为以下单元发挥功能核心编码单元,其对所述语音信号的低频成分进行编码; 频率变换单元,其将所述语音信号变换到频域;线形预测分析单元,其在频率方向上对由所述频率变换单元变换到频域的所述语音信号的高频侧系数进行线形预测分析,取得高频线形预测系数;预测系数抽样单元,其对由所述线形预测分析单元取得的所述高频线形预测系数在时间方向上进行抽样;预测系数量化单元,其对由所述预测系数抽样单元抽样后的所述高频线形预测系数进行量化;以及比特流复用单元,其生成至少复用了由所述核心编码单元编码后的所述低频成分、和由所述预测系数量化单元量化后的所述高频线形预测系数的比特流。
30.一种语音解码程序,其特征在于,为了对编码后的语音信号进行解码,而使计算机装置作为以下单元发挥功能比特流分离单元,其将包含所述编码后的语音信号的来自外部的比特流分离为编码比特流和时间包络辅助信息;核心解码单元,其对所述比特流分离单元分离出的所述编码比特流进行解码,获得低频成分;频率变换单元,其将由所述核心解码单元获得的所述低频成分变换到频域; 高频生成单元,其通过将由所述频率变换单元变换到频域的所述低频成分从低频频带复写到高频频带来生成高频成分;低频时间包络分析单元,其对由所述频率变换单元变换到频域的所述低频成分进行分析,取得时间包络信息;时间包络调整单元,其利用所述时间包络辅助信息调整由所述低频时间包络分析单元取得的所述时间包络信息;以及时间包络变形单元,其利用由所述时间包络调整单元调整后的所述时间包络信息,使由所述高频生成单元生成的所述高频成分的时间包络变形。
31.一种语音解码程序,其特征在于,为了对编码后的语音信号进行解码,而使计算机装置作为以下单元发挥功能比特流分离单元,其将包含所述编码后的语音信号的来自外部的比特流分离为编码比特流和线形预测系数;线形预测系数内插/外插单元,其在时间方向上对所述线形预测系数进行内插或外插;以及时间包络变形单元,其利用由所述线形预测系数内插/外插单元进行了内插或外插的线形预测系数,对在频域中表现的高频成分进行频率方向的线形预测滤波处理,使语音信号的时间包络变形。
32.根据权利要求13、20、21中任一项所述的语音解码装置,其特征在于,所述时间包络变形单元在对由所述高频生成单元生成的频域的所述高频成分进行频率方向的线形预测滤波处理之后,将根据所述线形预测滤波处理的结果获得的高频成分的功率调整为与所述线形预测滤波处理前相等的值。
33.根据权利要求13、20、21中任一项所述的语音解码装置,其特征在于,所述时间包络变形单元在对由所述高频生成单元生成的频域的所述高频成分进行频率方向的线形预测滤波处理之后,将根据所述线形预测滤波处理的结果获得的高频成分的任意频率范围内的功率调整为与所述线形预测滤波处理前相等的值。
34.根据权利要求14、15、20、21、32、33中任一项所述的语音解码装置,其特征在于, 所述时间包络辅助信息是所述调整后的所述时间包络信息中的最小值与平均值的比率。
35.根据权利要求14、15、20、21、32 34中任一项所述的语音解码装置,其特征在于,所述时间包络变形单元控制所述调整后的时间包络的增益,使得所述频域的高频成分的SBR包络时间分段内的功率在时间包络变形之前与之后相等,然后通过将所述频域的高频成分与所述增益控制后的时间包络相乘来使高频成分的时间包络变形。
36.根据权利要求12、14、15、17、20、21、32 35中任一项所述的语音解码装置,其特征在于,所述低频时间包络分析单元取得由所述频率变换单元变换到频域的所述低频成分的每个QMF子带采样的功率,还利用在SBR包络时间分段内的平均功率对每个所述QMF子带采样的功率进行归一化,由此取得表现为乘上了各QMF子带采样的增益系数的时间包络信肩、ο
37.一种对编码后的语音信号进行解码的语音解码装置,该语音解码装置的特征在于, 具备核心解码单元,其对包含所述编码后的语音信号的来自外部的比特流进行解码而获得低频成分;频率变换单元,其将由所述核心解码单元获得的所述低频成分变换到频域; 高频生成单元,其通过将由所述频率变换单元变换到频域的所述低频成分从低频频带复写到高频频带来生成高频成分;低频时间包络分析单元,其对由所述频率变换单元变换到频域的所述低频成分进行分析,取得时间包络信息;时间包络辅助信息生成部,其分析所述比特流而生成时间包络辅助信息; 时间包络调整单元,其利用所述时间包络辅助信息来调整由所述低频时间包络分析单元取得的所述时间包络信息;以及时间包络变形单元,其利用由所述时间包络调整单元调整后的所述时间包络信息,使由所述高频生成单元生成的所述高频成分的时间包络变形。
38.根据权利要求11 22、32 37中任一项所述的语音解码装置,其特征在于, 该语音解码装置具备相当于所述高频调整单元的一次高频调整单元和二次高频调整单元,所述一次高频调整单元执行包含相当于所述高频调整单元的处理的一部分的处理, 所述时间包络变形单元对所述一次高频调整单元的输出信号进行时间包络的变形, 所述二次高频调整单元对所述时间包络变形单元的输出信号,执行相当于所述高频调整单元的处理中的、所述一次高频调整单元未执行的处理。
39.根据权利要求38所述的语音解码装置,其特征在于,所述二次高频调整单元是SBR解码过程中的正弦波的附加处理。
全文摘要
针对频域中表现的信号,利用协方差法或自相关法在频率方向上进行线形预测分析,求出线形预测系数,进而对求出的线形预测系数进行滤波强度的调整,然后利用调整后的系数在频率方向上进行滤波处理,由此使信号的时间包络变形。从而在以SBR为代表的频域中的频带扩展技术中,能够减轻所产生的前回声/后回声,提高解码信号的主观性质量而不使比特率显著增大。
文档编号G10L19/02GK102379004SQ20108001459
公开日2012年3月14日 申请日期2010年4月2日 优先权日2009年4月3日
发明者仲信彦, 菊入圭, 辻野孝辅 申请人:株式会社Ntt都科摩
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1