语音解码装置及语音解码方法

文档序号:2833261阅读:104来源:国知局
专利名称:语音解码装置及语音解码方法
技术领域
本发明涉及语音编码装置、语音解码装置、语音编码方法、语音解码方法、语音编码程序以及语音解码程序。
背景技术
利用听觉心理去除人类知觉不需要的信息而将信号的数据量压缩为几十分之一的语音音频编码技术在信号的传送/积蓄中是极为重要的技术。作为广泛使用的知觉音频编码技术的例子,可列举以“IS0/IEC MPEG”标准化的“MPEG4 AAC”等。 作为进一步提高语音编码的性能利用低比特率获得高语音质量的方法,近年来广泛采用了利用语音的低频成分来生成高频成分的频带扩展技术。频带扩展技术的代表例是“MPEG4AAC” 中利用的 SBR (Spectral Band Replication :频带复制)技术。在 SBR 中,针对通过QMF (Quadrature Mirror Filter :正交镜像滤波器)滤波器组变换到频域的信号,进行从低频频带到高频频带的频谱系数的复写,由此生成高频成分,然后,通过调整复写的系数的频谱包络和调性(tonality)来进行高频成分的调整。利用了频带扩展技术的语音编码方式能够仅使用少量的辅助信息来再现信号的高频成分,因此对于语音编码的低比特率化是有效的。以SBR为代表的频域中的频带扩展技术,通过调整相对于频谱系数的增益、时间方向的线形预测逆滤波处理、噪声重叠来对频域中表现的频谱系数进行频谱包络和调性的调整。通过该调整处理,在对语音信号、拍手及响板这样的时间包络变化大的信号进行编码时,有时在解码信号中会感知到被称为前回声(pre echo)或后回声(postecho)的残音状的噪声。这个问题是由于在调整处理的过程中高频成分的时间包络变形并且多数情况下成为比调整前更平坦的形状而导致的。经由调整处理而变平坦的高频成分的时间包络与编码前的原始信号中的高频成分的时间包络不一致,构成了产生前回声/后回声的原因。在以“MPEG Surround (环绕MPEG)”以及参数立体声为代表的采用参数处理的多信道音频编码中也会产生同样的前回声/后回声的问题。多信道音频编码中的译码器包括对解码信号进行基于残音滤波器的非相关化处理的单元,而且在非相关化处理的过程中,信号的时间包络发生变形,产生与前回声/后回声同样的再现信号的劣化。作为针对此课题的解决方法有TES (Temporal Envelope Shaping :时间包络成形)技术(专利文献I)。在TES技术中,对QMF区域中表述的非相关化处理前的信号,在频率方向进行线形预测分析,获得线形预测系数,然后,利用所获得的线形预测系数对非相关化处理后的信号在频率方向进行线形预测合成滤波处理。通过该处理,TES技术提取出非相关化处理前的信号所具有的时间包络,并与其对应地调整非相关化处理后的信号的时间包络。由于非相关化处理前的信号具有变形小的时间包络,因此通过上述处理能够将非相关化处理后的信号的时间包络调整为变形小的形状,并且能够获得改善了前回声/后回声的再现信号。现有技术文献专利文献专利文献I :美国专利申请公开第2006/0239473号说明书

发明内容
发明所要解决的问题
以上所示的TES技术利用了非相关化处理前的信号具有变形小的时间包络。但是,在SBR译码器中,通过对低频成分进行信号复写来复制出信号的高频成分,因此无法获得与高频成分有关的变形小的时间包络。作为对此问题的解决方法之一,考虑如下的方法在SBR符号器中,对输入信号的高频成分进行分析,对分析结果获得的线形预测系数进行量化并在比特流中进行复用而传送。由此,在SBR译码器中,可获得包含与高频成分的时间包络有关的变形小的信息的线形预测系数。但是,此时,伴随有如下的问题量化后的线形预测系数的传送需要较多的信息量,编码比特流整体的比特率明显增大。因此,本发明的目的是在以SBR为代表的频域内的频带扩展技术中,能够减轻产生的前回声/后回声并提高解码信号的主观性质量,而不使比特率显著增大。解决问题的手段本发明的语音编码装置是语音信号进行编码的语音编码装置,该语音编码装置的特征在于,具备核心编码单元,其对所述语音信号的低频成分进行编码;时间包络辅助信息计算单元,其利用所述语音信号的低频成分的时间包络来计算时间包络辅助信息,该时间包络辅助信息用于获得所述语音信号的高频成分的时间包络的近似;以及比特流复用单元,其生成至少复用了由所述核心编码单元编码后的所述低频成分、和由所述时间包络辅助信息计算单元计算出的所述时间包络辅助信息的比特流。在本发明的语音编码装置中,优选为,所述时间包络辅助信息表示如下参数,该参数表示在规定的分析区间内所述语音信号的高频成分中的时间包络的变化的急剧程度。在本发明的语音编码装置中,优选为,所述语音编码装置还具备将所述语音信号变换到频域的频率变换单元,所述时间包络辅助信息计算单元根据高频线形预测系数来计算所述时间包络辅助信息,该高频线形预测系数是通过在频率方向上对由所述频率变换单元变换到频域的所述语音信号的高频侧系数进行线形预测分析而取得的。在本发明的语音编码装置中,优选为,所述时间包络辅助信息计算单元对由所述频率变换单元变换到频域的所述语音信号的低频侧系数在频率方向上进行线形预测分析,取得低频线形预测系数,根据该低频线形预测系数和所述高频线形预测系数来计算所述时间包络辅助信息。在本发明的语音编码装置中,优选为,所述时间包络辅助信息计算单元分别根据所述低频线形预测系数以及所述高频线形预测系数取得预测增益,并根据这两个预测增益的大小来计算所述时间包络辅助信息。在本发明的语音编码装置中,优选为,所述时间包络辅助信息计算单元从所述语音信号中分离出高频成分,从该高频成分中取得以时域表现的时间包络信息,并根据该时间包络信息的时间的变化的大小来计算所述时间包络辅助信息。在本发明的语音编码装置中,优选为,所述时间包络辅助信息包含差分信息,该差分信息用于利用对所述语音信号的低频成分进行频率方向的线形预测分析而获得的低频线形预测系数来取得高频线形预测系数。在本发明的语音编码装置中,优选为,该语音编码装置还具备将所述语音信号变换到频域的频率变换单元,所述时间包络辅助信息计算单元分别对由所述频率变换单元变换到频域的所述语音信号的低频成分以及高频侧系数在频率方向上进行线形预测分析,取得低频线形预测系数和高频线形预测系数,并取得该低频线形预测系数和高频线形预测系数的差分,由此来取得所述差分信息。在本发明的语音编码装置中,优选为,所述差分信息表示LSP (线谱对)、ISP (导抗谱对)、LSF (线谱频率)、ISF (导抗谱频率)、PARC0R系数的任意一个区域中的线形预测系数的差分。
本发明的语音编码装置是对语音信号进行编码的语音编码装置,该语音编码装置的特征在于,具备核心编码单元,其对所述语音信号的低频成分进行编码;频率变换单元,其将所述语音信号变换到频域;线形预测分析单元,其在频率方向上对由所述频率变换单元变换到频域的所述语音信号的高频侧系数进行线形预测分析,取得高频线形预测系数;预测系数抽样单元,其对由所述线形预测分析单元取得的所述高频线形预测系数在时间方向上进行抽样;预测系数量化单元,其对由所述预测系数抽样单元抽样后的所述高频线形预测系数进行量化;以及比特流复用单元,其生成至少复用了由所述核心编码单元编码后的所述低频成分、和由所述预测系数量化单元量化后的所述高频线形预测系数的比特流。本发明的语音解码装置是对编码后的语音信号进行解码的语音解码装置,该语音解码装置的特征在于,具备比特流分离单元,其将包含所述编码后的语音信号的来自外部的比特流分离为编码比特流和时间包络辅助信息;核心解码单元,其对所述比特流分离单元分离出的所述编码比特流进行解码,获得低频成分;频率变换单元,其将由所述核心解码单元获得的所述低频成分变换到频域;高频生成单元,其通过将由所述频率变换单元变换到频域的所述低频成分从低频频带复写到高频频带来生成高频成分;低频时间包络分析单元,其对由所述频率变换单元变换到频域的所述低频成分进行分析,取得时间包络信息;时间包络调整单元,其利用所述时间包络辅助信息调整由所述低频时间包络分析单元取得的所述时间包络信息;以及时间包络变形单元,其利用由所述时间包络调整单元调整后的所述时间包络信息,使由所述高频生成单元生成的所述高频成分的时间包络变形。在本发明的语音解码装置中,优选为,该语音解码装置还具备调整所述高频成分的高频调整单元,所述频率变换单元是具有实数或复数系数的64通道QMF滤波器组,所述频率变换单元、所述高频生成单元、所述高频调整单元进行以“IS0/IEC14496-3”规定的“MPEG4AAC”中的SBR译码器(SBR Spectral Band Replication,频带复制)为依据的动作。在本发明的语音解码装置中,优选为,所述低频时间包络分析单元对由所述频率变换单元变换到频域的所述低频成分进行频率方向的线形预测分析,取得低频线形预测系数,所述时间包络调整单元利用所述时间包络辅助信息来调整所述低频线形预测系数,所述时间包络变形单元针对由所述高频生成单元生成的频域的所述高频成分,利用由所述时间包络调整单元调整后的线形预测系数,进行频率方向的线形预测滤波处理,使语音信号的时间包络变形。在本发明的语音解码装置中,优选为,所述低频时间包络分析单元取得由所述频率变换单元变换到频域的所述低频成分的每个时隙的功率,由此来取得语音信号的时间包络信息,所述时间包络调整单元利用所述时间包络辅助信息调整所述时间包络信息,所述时间包络变形单元通过将由所述高频生成单元生成的频域的高频成分与所述调整后的时间包络信息重叠来使高频成分的时间包络变形。在本发明的语音解码装置中,优选为,所述低频时间包络分析单元取得由所述频率变换单元变换到频域的所述低频成分的每个QMF子带采样的功率,由此取得语音信号的时间包络信息,所述时间包络调整单元利用所述时间包络辅助信息来调整所述时间包络信息,所述时间包络变形单元通过将所述高频生成单元所生成的频域的高频成分与所述调整后的时间包络信息相乘来使高频成分的时间包络变形。在本发明的语音解码装置中,优选为,所述时间包络辅助信息表示用于调整线形 预测系数的强度的滤波强度参数。在本发明的语音解码装置中,优选为,所述时间包络辅助信息表示如下参数,该参数表示所述时间包络信息的时间变化的大小。在本发明的语音解码装置中,优选为,所述时间包络辅助信息包含相对于所述低频线形预测系数的线形预测系数的差分信息。在本发明的语音解码装置中,优选为,所述差分信息表示LSP (线谱对)、ISP (导抗谱对)、LSF (线谱频率)、ISF (导抗谱频率)、PARC0R系数的任意一个区域中的线形预测系数的差分。在本发明的语音解码装置中,优选为,所述低频时间包络分析单元对由所述频率变换单元变换到频域的所述低频成分进行频率方向的线形预测分析,取得所述低频线形预测系数,并且取得该频域的所述低频成分的每个时隙的功率,由此来取得语音信号的时间包络信息,所述时间包络调整单元利用所述时间包络辅助信息来调整所述低频线形预测系数,并且利用所述时间包络辅助信息来调整所述时间包络信息,所述时间包络变形单元对由所述高频生成单元生成的频域的高频成分,利用由所述时间包络调整单元调整后的线形预测系数进行频率方向的线形预测滤波处理,使语音信号的时间包络变形,并且使该频域的所述高频成分与由所述时间包络调整单元调整后的所述时间包络信息重叠,由此使所述高频成分的时间包络变形。在本发明的语音解码装置中,优选为,所述低频时间包络分析单元对由所述频率变换单元变换到频域的所述低频成分进行频率方向的线形预测分析,取得所述低频线形预测系数,并且取得该频域的所述低频成分的每个QMF子带采样的功率,由此取得语音信号的时间包络信息,所述时间包络调整单元利用所述时间包络辅助信息来调整所述低频线形预测系数,并且利用所述时间包络辅助信息来调整所述时间包络信息,所述时间包络变形单元对由所述高频生成单元生成的频域的高频成分,利用所述时间包络调整单元调整后的线形预测系数进行频率方向的线形预测滤波处理,使语音信号的时间包络变形,并且通过将该频域的所述高频成分与由所述时间包络调整单元调整后的所述时间包络信息相乘来使所述高频成分的时间包络变形。
在本发明的语音解码装置中,优选为,所述时间包络辅助信息表示如下参数,该参数表示线形预测系数的滤波强度和所述时间包络信息的时间变化的大小两者。本发明的语音解码装置是对编码后的语音信号进行解码的语音解码装置,该语音解码装置的特征在于,具备比特流分离单元,其将包含所述编码后的语音信号的来自外部的比特流分离为编码比特流和线形预测系数;线形预测系数内插/外插单元,其在时间方向上对所述线形预测系数进行内插或外插;以及时间包络变形单元,其利用由所述线形预测系数内插/外插单元进行了内插或外插的线形预测系数,对在频域中表现的高频成分进行频率方向的线形预测滤波处理,使语音信号的时间包络变形。本发明的语音编码方法是使用了语音编码装置的语音编码方法,该语音编码装置对语音信号进行编码,所述语音编码方法的特征在于,具有以下步骤核心编码步骤,所述语音编码装置对所述语音信号的低频成分进行编码;时间包络辅助信息计算步骤,所述语音编码装置利用所述语音信号的低频成分的时间包络来计算时间包络辅助信息,该时间包络辅助信息用于获得所述语音信号的高频成分的时间包络的近似;以及比特流复用步骤,所述语音编码装置生成至少复用了在所述核心编码步骤中进行编码了的所述低频成分、和 在所述时间包络辅助信息计算步骤中计算出的所述时间包络辅助信息的比特流。本发明的语音编码方法是使用了语音编码装置的语音编码方法,该语音编码装置对语音信号进行编码,所述该语音编码方法的特征在于,具有以下步骤核心编码步骤,所述语音编码装置对所述语音信号的低频成分进行编码;频率变换步骤,所述语音编码装置将所述语音信号变换到频域;线形预测分析步骤,所述语音编码装置在频率方向上对在所述频率变换步骤中变换到频域的所述语音信号的高频侧系数进行线形预测分析,取得高频线形预测系数;预测系数抽样步骤,所述语音编码装置在时间方向上对在所述线形预测分析步骤中取得的所述高频线形预测系数进行抽样;预测系数量化步骤,所述语音编码装置将在所述预测系数抽样步骤中进行了抽样后的所述高频线形预测系数进行量化;以及比特流复用步骤,所述语音编码装置生成至少复用了在所述核心编码步骤中编码后的所述低频成分、和在所述预测系数量化步骤中量化后的所述高频线形预测系数的比特流。本发明的语音解码方法是使用了语音解码装置的语音解码方法,该语音解码装置对编码后的语音信号进行解码,所述语音解码方法的特征在于,具有以下的步骤比特流分离步骤,所述语音解码装置将包含所述编码后的语音信号的来自外部的比特流分离为编码比特流和时间包络辅助信息;核心解码步骤,所述语音解码装置对在所述比特流分离步骤中分离出的所述编码比特流进行解码而获得低频成分;频率变换步骤,所述语音解码装置将在所述核心解码步骤中获得的所述低频成分变换到频域;高频生成步骤,所述语音解码装置通过将在所述频率变换步骤中变换到频域的所述低频成分从低频频带复写到高频频带来生成高频成分;低频时间包络分析步骤,所述语音解码装置对在所述频率变换步骤中变换到频域的所述低频成分进行分析,取得时间包络信息;时间包络调整步骤,所述语音解码装置利用所述时间包络辅助信息来调整在所述低频时间包络分析步骤中取得的所述时间包络信息;以及时间包络变形步骤,所述语音解码装置利用在所述时间包络调整步骤中调整后的所述时间包络信息,使在所述高频生成步骤中生成的所述高频成分的时间包络变形。本发明的语音解码方法是使用了语音解码装置的语音解码方法,该语音解码装置对编码后的语音信号进行解码,所述语音解码方法的特征在于,具有以下的步骤比特流分离步骤,所述语音解码装置将包含所述编码后的语音信号的来自外部的比特流分离为编码比特流和线形预测系数;线形预测系数内插/外插步骤,所述语音解码装置在时间方向上对所述线形预测系数进行内插或外插;以及时间包络变形步骤,所述语音解码装置利用在所述线形预测系数内插/外插步骤中进行了内插或外插的所述线形预测系数,对在频域中表现的高频成分进行频率方向的线形预测滤波处理,使语音信号的时间包络变形。本发明的语音编码程序,其特征在于,为了对语音信号进行编码,而使计算机装置作为以下单元发挥功能核心编码单元,其对所述语音信号的低频成分进行编码;时间包络辅助信息计算单元,其利用所述语音信号的低频成分的时间包络来计算时间包络辅助信息,该时间包络辅助信息用于获得所述语音信号的高频成分的时间包络的近似;以及比特流复用单元,其生成至少复用了由所述核心编码单元编码后的所述低频成分、和由所述时间包络辅助信息计算单元计算出的所述时间包络辅助信息的比特流。本发明的语音编码程序,其特征在于,为了对语音信号进行编码,而使计算机装置作为以下单元发挥功能核心编码单元,其对所述语音信号的低频成分进行编码;频率变换单元,其将所述语音信号变换到频域;线形预测分析单元,其在频率方向上对由所述频率变换单元变换到频域的所述语音信号的高频侧系数进行线形预测分析,取得高频线形预测 系数;预测系数抽样单元,其对由所述线形预测分析单元取得的所述高频线形预测系数在时间方向上进行抽样;预测系数量化单元,其对由所述预测系数抽样单元抽样后的所述高频线形预测系数进行量化;以及比特流复用单元,其生成至少复用了由所述核心编码单元编码后的所述低频成分、和由所述预测系数量化单元量化后的所述高频线形预测系数的比特流。本发明的语音解码程序,其特征在于,为了对编码后的语音信号进行解码,而使计算机装置作为以下单元发挥功能比特流分离单元,其将包含所述编码后的语音信号的来自外部的比特流分离为编码比特流和时间包络辅助信息;核心解码单元,其对所述比特流分离单元分离出的所述编码比特流进行解码,获得低频成分;频率变换单元,其将由所述核心解码单元获得的所述低频成分变换到频域;高频生成单元,其通过将由所述频率变换单元变换到频域的所述低频成分从低频频带复写到高频频带来生成高频成分;低频时间包络分析单元,其对由所述频率变换单元变换到频域的所述低频成分进行分析,取得时间包络信息;时间包络调整单元,其利用所述时间包络辅助信息调整由所述低频时间包络分析单元取得的所述时间包络信息;以及时间包络变形单元,其利用由所述时间包络调整单元调整后的所述时间包络信息,使由所述高频生成单元生成的所述高频成分的时间包络变形。本发明的语音解码程序,其特征在于,为了对编码后的语音信号进行解码,而使计算机装置作为以下单元发挥功能比特流分离单元,其将包含所述编码后的语音信号的来自外部的比特流分离为编码比特流和线形预测系数;线形预测系数内插/外插单元,其在时间方向上对所述线形预测系数进行内插或外插;以及时间包络变形单元,其利用由所述线形预测系数内插/外插单元进行了内插或外插的线形预测系数,对在频域中表现的高频成分进行频率方向的线形预测滤波处理,使语音信号的时间包络变形。在本发明的语音解码装置中,优选为,所述时间包络变形单元在对由所述高频生成单元生成的频域的所述高频成分进行频率方向的线形预测滤波处理之后,将根据所述线形预测滤波处理的结果获得的高频成分的功率调整为与所述线形预测滤波处理前相等的值。在本发明的语音解码装置中,优选为,所述时间包络变形单元在对由所述高频生成单元生成的频域的所述高频成分进行频率方向的线形预测滤波处理之后,将根据所述线形预测滤波处理的结果获得的高频成分的任意频率范围内的功率调整为与所述线形预测滤波处理前相等的值。
在本发明的语音解码装置中,优选为,所述时间包络辅助信息是所述调整后的所述时间包络信息中的最小值与平均值的比率。在本发明的语音解码装置中,优选为,所述时间包络变形单元控制所述调整后的时间包络的增益,使得所述频域的高频成分的SBR包络时间分段内的功率在时间包络变形之前与之后相等,然后通过将所述频域的高频成分与所述增益控制后的时间包络相乘来使高频成分的时间包络变形。在本发明的语音解码装置中,优选为,所述低频时间包络分析单元取得由所述频率变换单元变换到频域的所述低频成分的每个QMF子带采样的功率,还利用在SBR包络时间分段内的平均功率对每个所述QMF子带采样的功率进行归一化,由此取得表现为乘上了各QMF子带采样的增益系数的时间包络信息。本发明的语音解码装置是对编码后的语音信号进行解码的语音解码装置,该语音解码装置的特征在于,具备核心解码单元,其对包含所述编码后的语音信号的来自外部的比特流进行解码而获得低频成分;频率变换单元,其将由所述核心解码单元获得的所述低频成分变换到频域;高频生成单元,其通过将由所述频率变换单元变换到频域的所述低频成分从低频频带复写到高频频带来生成高频成分;低频时间包络分析单元,其对由所述频率变换单元变换到频域的所述低频成分进行分析,取得时间包络信息;时间包络辅助信息生成部,其分析所述比特流而生成时间包络辅助信息;时间包络调整单元,其利用所述时间包络辅助信息来调整由所述低频时间包络分析单元取得的所述时间包络信息;以及时间包络变形单元,其利用由所述时间包络调整单元调整后的所述时间包络信息,使由所述高频生成单元生成的所述高频成分的时间包络变形。在本发明的语音解码装置中,优选为,该语音解码装置具备相当于所述高频调整单元的一次高频调整单元和二次高频调整单元,所述一次高频调整单元执行包含相当于所述高频调整单元的处理的一部分的处理,所述时间包络变形单元对所述一次高频调整单元的输出信号进行时间包络的变形,所述二次高频调整单元对所述时间包络变形单元的输出信号,执行相当于所述高频调整单元的处理中的、所述一次高频调整单元未执行的处理。所述二次高频调整单元优选为SBR解码过程中的正弦波的附加处理。本发明提供一种对编码后的语音信号进行解码的语音解码装置,该语音解码装置的特征在于,具备比特流分离单元,其将包含所述编码后的语音信号的来自外部的比特流分离为编码比特流和时间包络辅助信息;核心解码单元,其对所述比特流分离单元分离出的所述编码比特流进行解码,获得低频成分;频率变换单元,其将由所述核心解码单元获得的所述低频成分变换到频域;高频生成单元,其通过将由所述频率变换单元变换到频域的所述低频成分从低频频带复写到高频频带来生成高频成分;高频调整单元,其调整由所述高频生成单元生成的所述高频成分,生成调整后的高频成分;低频时间包络分析单元,其对由所述频率变换单元变换到频域的所述低频成分进行分析,取得时间包络信息;辅助信息变换单元,其将所述时间包络辅助信息变换为用于调整所述时间包络信息的参数;时间包络调整单元,其利用所述参数调整由所述低频时间包络分析单元取得的所述时间包络信息,生成调整后的时间包络信息,控制该调整后的时间包络信息的增益,使得所述频域的高频成分的SBR包络时间分段内的功率在时间包络变形之前与之后相等,生成进一步调整后的时间包络信息;以及时间包络变形单元,其将所述调整后的高频成分乘以所述进一步调整后的时间包络信息,使所述调整后的高频成分的时间包络变形。本发明提供一种对编码后的语音信号进行解码的语音解码装置,该语音解码装置的特征在于,具备核心解码单元,其对包含所述编码后的语音信号的来自外部的比特流进行解码而获得低频成分;频率变换单元,其将由所述核心解码单 元获得的所述低频成分变换到频域;高频生成单元,其通过将由所述频率变换单元变换到频域的所述低频成分从低频频带复写到高频频带来生成高频成分;高频调整单元,其调整由所述高频生成单元生成的所述高频成分,生成调整后的高频成分;低频时间包络分析单元,其对由所述频率变换单元变换到频域的所述低频成分进行分析,取得时间包络信息;时间包络辅助信息生成部,其分析所述比特流而生成用于调整所述时间包络信息的参数;时间包络调整单元,其利用所述参数调整由所述低频时间包络分析单元取得的所述时间包络信息,生成调整后的时间包络信息,控制该调整后的时间包络信息的增益,使得所述频域的高频成分的SBR包络时间分段内的功率在时间包络变形之前与之后相等,生成进一步调整后的时间包络信息;以及时间包络变形单元,其将所述调整后的高频成分乘以所述进一步调整后的时间包络信息,使所述调整后的高频成分的时间包络变形。本发明提供一种使用了语音解码装置的语音解码方法,该语音解码装置对编码后的语音信号进行解码,所述语音解码方法的特征在于,具有以下的步骤比特流分离步骤,所述语音解码装置将包含所述编码后的语音信号的来自外部的比特流分离为编码比特流和时间包络辅助信息;核心解码步骤,所述语音解码装置对在所述比特流分离步骤中分离出的所述编码比特流进行解码而获得低频成分;频率变换步骤,所述语音解码装置将在所述核心解码步骤中获得的所述低频成分变换到频域;高频生成步骤,所述语音解码装置通过将在所述频率变换步骤中变换到频域的所述低频成分从低频频带复写到高频频带来生成高频成分;高频调整步骤,所述语音解码装置调整在所述高频生成步骤中生成的所述高频成分,生成调整后的高频成分;低频时间包络分析步骤,所述语音解码装置对在所述频率变换步骤中变换到频域的所述低频成分进行分析,取得时间包络信息;辅助信息变换步骤,所述语音解码装置将所述时间包络辅助信息变换为用于调整所述时间包络信息的参数;时间包络调整步骤,所述语音解码装置利用所述参数调整在所述低频时间包络分析步骤中取得的所述时间包络信息,生成调整后的时间包络信息,控制该调整后的时间包络信息的增益,使得所述频域的高频成分的SBR包络时间分段内的功率在时间包络变形之前与之后相等,生成进一步调整后的时间包络信息;以及时间包络变形步骤,所述语音解码装置将所述调整后的高频成分乘以所述进一步调整后的时间包络信息,使所述调整后的高频成分的时间包络变形。本发明提供一种使用了语音解码装置的语音解码方法,该语音解码装置对编码后的语音信号进行解码,所述语音解码方法的特征在于,具有以下的步骤核心解码步骤,所述语音解码装置对包含所述编码后的语音信号的来自外部的比特流进行解码而获得低频成分;频率变换步骤,所述语音解码装置将在所述核心解码步骤中获得的所述低频成分变换到频域;高频生成步骤,所述语音解码装置通过将在所述频率变换步骤中变换到频域的所述低频成分从低频频带复写到高频频带来生成高频成分;高频调整步骤,所述语音解码装置调整在所述高频生成步骤中生成的所述高频成分,生成调整后的高频成分;低频时间包络分析步骤,所述语音解码装置对在所述频率变换步骤中变换到频域的所述低频成分进行分析,取得时间包络信息;时间包络辅助信息生成步骤,所述语音解码装置分析所述比特流而生成用于调整所述时间包络信息的参数;时间包络调整步骤,所述语音解码装置利用所述参数调整在所述低频时间包络分析步骤中取得的所述时间包络信息,生成调整后的时间包络信息,控制该调整后的时间包络信息的增益,使得所述频域的高频成分的SBR包络时间分段内的功率在时间包络变形之前与之后相等,生成进一步调整后的时间包络信息;以及时间包络变形步骤,所述语音解码装置将所述调整后的高频成分乘以所述进一步调整后的时间包络信息,使所述调整后的高频成分的时间包络变形。发明效果 根据本发明,在以SBR为代表的频域内的频带扩展技术中,能够减轻产生的前回声/后回声并提高解码信号的主观质量,而不用使比特率明显增大。


图I是示出第I实施方式的语音编码装置的结构的图。图2是用于说明第I实施方式的语音编码装置的动作的流程图。图3是示出第I实施方式的语音解码装置的结构的图。图4是用于说明第I实施方式的语音解码装置的动作的流程图。图5是示出第I实施方式的变形例I的语音编码装置的结构的图。图6是示出第2实施方式的语音编码装置的结构的图。图7是用于说明第2实施方式的语音编码装置的动作的流程图。图8是示出第2实施方式的语音解码装置的结构的图。图9是用于说明第2实施方式的语音解码装置的动作的流程图。图10是示出第3实施方式的语音编码装置的结构的图。图11是用于说明第3实施方式的语音编码装置的动作的流程图。图12是示出第3实施方式的语音解码装置的结构的图。图13是用于说明第3实施方式的语音解码装置的动作的流程图。图14是示出第4实施方式的语音解码装置的结构的图。图15是示出第4实施方式的变形例的语音解码装置的结构的图。图16是示出第4实施方式的其它变形例的语音解码装置的结构的图。图17是用于说明第4实施方式的其它变形例的语音解码装置的动作的流程图。图18是示出第I实施方式的其它变形例的语音解码装置的结构的图。图19是用于说明第I实施方式的其它变形例的语音解码装置的动作的流程图。图20是示出第I实施方式的其它变形例的语音解码装置的结构的图。图21是用于说明第I实施方式的其它变形例的语音解码装置的动作的流程图。
图22是示出第2实施方式的变形例的语音解码装置的结构的图。图23是用于说明第2实施方式的变形例的语音解码装置的动作的流程图。图24是示出第2实施方式的其它变形例的语音解码装置的结构的图。图25是用于说明第2实施方式的其它变形例的语音解码装置的动作的流程图。图26是示出第4实施方式的其它变形例的语音解码装置的结构的图。图27是用于说明第4实施方式的其它变形例的语音解码装置的动作的流程图。图28是示出第4实施方式的其它变形例的语音解码装置的结构的图。图29是用于说明第4实施方式的其它变形例的语音解码装置的动作的流程图。·图30是示出第4实施方式的其它变形例的语音解码装置的结构的图。图31是示出第4实施方式的其它变形例的语音解码装置的结构的图。图32是用于说明第4实施方式的其它变形例的语音解码装置的动作的流程图。图33是示出第4实施方式的其它变形例的语音解码装置的结构的图。图34是用于说明第4实施方式的其它变形例的语音解码装置的动作的流程图。图35是示出第4实施方式的其它变形例的语音解码装置的结构的图。图36是用于说明第4实施方式的其它变形例的语音解码装置的动作的流程图。图37是示出第4实施方式的其它变形例的语音解码装置的结构的图。图38是示出第4实施方式的其它变形例的语音解码装置的结构的图。图39是用于说明第4实施方式的其它变形例的语音解码装置的动作的流程图。图40是示出第4实施方式的其它变形例的语音解码装置的结构的图。图41是说明第4实施方式的其它变形例的语音解码装置的动作的流程图。图42是示出第4实施方式的其它变形例的语音解码装置的结构的图。图43是用于说明第4实施方式的其它变形例的语音解码装置的动作的流程图。图44是示出第I实施方式的其它变形例的语音编码装置的结构的图。图45是示出第I实施方式的其它变形例的语音编码装置的结构的图。图46是示出第2实施方式的变形例的语音编码装置的结构的图。图47是示出第2实施方式的其它变形例的语音编码装置的结构的图。图48是示出第4实施方式的语音编码装置的结构的图。图49是示出第4实施方式的变形例的语音编码装置的结构的图。图50是示出第4实施方式的其它变形例的语音编码装置的结构的图。
具体实施例方式以下,参照附图来详细说明本发明的优选实施方式。此外,在

中,在可能的情况下,对同一要素标注同一标号,并省略重复说明。(第I实施方式)图I是示出第I实施方式的语音编码装置11的结构的图。语音编码装置11物理上具有未图示的CPU、ROM、RAM以及通信装置等,该CPU通过将ROM等语音编码装置11的内置存储器中存储的预定的计算机程序(例如,用于进行图2的流程图所示的处理的计算机程序)加载到RAM中并运行来统一地控制语音编码装置11。语音编码装置11的通信装置从外部接收作为编码对象的语音信号,而且,将编码后的复用比特流向外部输出。
语音编码装置11在功能上具备频率变换部Ia (频率变换单元)、频率逆变换部lb、核心编解码器(core codec)编码部Ic (核心编码单元)、SBR编码部Id、线形预测分析部Ie (时间包络辅助信息计算单元)、滤波强度参数计算部If (时间包络辅助信息计算单元)以及比特流复用部Ig (比特流复用单元)。图I所示的语音编码装置11的频率变换部Ia^比特流复用部Ig是通过语音编码装置11的CPU运行存储在语音编码装置11的内置存储器中的计算机程序而实现的功能。语音编码装置11的CPU通过运行该计算机程序(利用图I所示的频率变换部Ia 比特流复用部Ig)来依次执行图2的流程图所示处理(步骤Sar步骤Sa7的处理)。该计算机程序运行所需的各种数据以及通过运行该计算机程序生成的各种数据全部都存储在语音编码装置11的ROM或RAM等内置存储器中。频率变换部Ia通过多通道QMF滤波器组分析经由语音编码装置11的通信装置接收到的来自外部的输入信号,并获得QMF区域的信号q (k,r)(步骤Sal的处理)。其中,k(O < 63)是频率方向的索引,r是表示时隙的索引。频率逆变换部Ib利用QMF滤波器组来合成从频率变换部Ia获得的、QMF区域的信号中的低频侧的一半系数,并获得仅包含 输入信号的低频成分的下采样后的时域信号(步骤Sa2的处理)。核心编解码器编码部Ic对下采样后的时域信号进行编码并获得编码比特流(步骤Sa3的处理)。核心编解码器编码部Ic中的编码可基于以CELP方式为代表的语音编码方式,另外还可基于以AAC为代表的转换编码或TCX (Transform Coded Excitation,转换编码激励)方式等的音频编码。SBR编码部Id从频率变换部Ia接收QMF区域的信号,并根据高频成分的功率/信号变化/调性等的分析进行SBR编码,获得SBR辅助信息(步骤Sa4的处理)。关于频率变换部Ia中的QMF分析的方法以及SBR编码部Id中的SBR编码的方法,例如,在文献“3GPPTS26. 404 ;Enhanced aacPlus encoder SBR part” 中进行详细叙述。线形预测分析部Ie从频率变换部Ia接收QMF区域的信号,并针对该信号的高频成分在频率方向上进行线形预测分析,取得高频线形预测系数aH (n,r) (KnSN)(步骤Sa5的处理)。其中,N是线形预测次数。另外,索引r是与QMF区域的信号的子采样有关的时间方向的索引。关于信号线形预测分析,可以采用协方差法或自相关法。针对q(k,r)中满足kx〈k<63的高频成分进行取得aH (n,r)时的线形预测分析。其中,kx是与利用核心编解码器编码部Ic进行编码的频谱区域的上限频率对应的频率索引。另外,线形预测分析部Ie也可以针对与在取得aH(n,r)时分析的频率不同的低频成分进行线形预测分析,取得与aH (n,r)不同的低频线形预测系数a (n,r)(这种与低频成分有关的线形预测系数与时间包络信息对应,以下,在第I实施方式中是同样的)。在取得\ (n,r)时的线形预测分析是针对满足O ( Kkx的低频成分进行分析。另外,该线形预测分析可以是针对O ( Kkx区间所包含的一部分频率区域进行分析。滤波强度参数计算部If例如采用线形预测分析部Ie所取得的线形预测系数来计算滤波强度参数(滤波强度参数与时间包络辅助信息对应,以下,在第I实施方式中是同样的)(步骤Sa6的处理)。首先,由aH (n,r)计算预测增益Gh (r)。预测增益的计算方法例如在“声音符号化、守谷健弘著電子情報通信学会編(语音编码、守谷健弘著、电子信息通信学会编)”中进行详细叙述。此外,在计算\ (n,r)的情况下,同样计算预测增益(r)。滤波强度参数K (r)是随着Gh (r)变大而变大的参数,例如可根据下式(I)获得。其中,max (a, b)表不a和b的最大值,min (a, b)表不a和b的最小值。
[式I]K (r) = max (O, min (I, GH(r) -I))另外,在计算Gl (r)的情况下,K (r)可作为随着Gh (r)变大而变大、随着Gl Cr)变大而变小的参数取得。此时的K例如可根据下式(2)来取得。[式2]K (r) = max (O, min (I, GH(r)/GL(r)-l))K (r)是表示在SBR解码时调整高频成分的时间包络的强度的参数。与频率方向的线形预测系数相对的预测增益随着分析区间的信号的时间包络表现出急剧的变化而成为较大的值。K (r)是如下这样的参数其值越大,越对译码器指示增强使SBR所生成的高 频成分的时间包络急剧变化的处理。此外,K (r)也可以是如下这样的参数,其值越小,则越对译码器(例如,语音解码装置21等)指示减弱使SBR所生成的高频成分的时间包络急剧变化的处理,该参数还可包含表示不执行使时间包络急剧变化的处理的值。另外,还可以不传送各时隙的K (r),而传送代表多个时隙的K (r)。为了决定共用同一 K (r)值的时隙的区间,优选采用包含在SBR辅助信息中的SBR包络的时间边界(SBR envelope time border)信息。K (r)被量化之后被发送至比特流复用部lg。优选在量化前针对多个时隙r取得例如K (r)的平均,由此来计算代表多个时隙的K (r)。而且,在传送代表多个时隙的K Cr)的情况下,也可以根据由多个时隙构成的整个区间的分析结果来取得代表的K (r),而不是像式(2)那样根据分析各个时隙得到的结果来独立地进行K (r)的计算。例如可根据下式
(3)来计算这种情况下的K (r)。其中,mean ( ·)表示K (r)所代表的时隙区间内的平均值。[式3]K (r) = max (0,min (I,mean (Gh (r)/mean (Gl (r))-I)))此外,在传送K (r)时,可与在 “IS0/IEC14496-3 subpart 4 General AudioCoding”中记载的SBR辅助信息中包含的逆滤波模式信息相互排斥地传送。即,对于传送SBR辅助信息的逆滤波模式信息的时隙,不传送K (r),而对于传送K (r)的时隙,不传送SBR 辅助信息的逆滤波模式信息(“IS0/IEC14496_3subpart4General Audio Coding” 中的bs#invf#mode)0此外,也可以附加表示已传送K (r)或SBR辅助信息中包含的逆滤波模式信息的哪一个的信息。另外,还可以将K (r)与SBR辅助信息中包含的逆滤波模式信息组合作为一个矢量信息使用,并对该矢量进行熵编码。此时,可以对K (r)与SBR辅助信息中包含的逆滤波模式信息之间的值的组合进行制约。比特流复用部Ig对由核心编解码器编码部Ic计算出的编码比特流、由SBR编码部Id计算出的SBR辅助信息和由滤波强度参数计算部If计算出的K Cr)进行复用,并经由语音编码装置11的通信装置输出复用比特流(编码后的复用比特流)(步骤Sa7的处理)。图3是示出第I实施方式的语音解码装置21的结构的图。语音解码装置21物理上具有未图示的CPU、ROM、RAM以及通信装置等,该CPU通过将ROM等语音解码装置21的内置存储器中存储的预定的计算机程序(例如,用于进行图4的流程图所示的处理的计算机程序)加载到RAM中并运行来统一地控制语音解码装置21。语音解码装置21的通信装置接收从语音编码装置11、后述变形例I的语音编码装置Ila或后述变形例2的语音编码装置输出的编码后的复用比特流,而且,向外部输出已解码的语音信号。如图3所示,语音解码装置21在功能上具备比特流分离部2a (比特流分离单元)、核心编解码器解码部2b(核心解码单元)、频率变换部2c(频率变换单元)、低频线形预测分析部2d(低频时间包络分析单元)、信号变化检测部2e、滤波强度调整部2f (时间包络调整单元)、高频生成部2g (高频生成单元)、高频线形预测分析部2h、线形预测逆滤波部2i、高频调整部2j (高频调整单元)、线形预测滤波部2k (时间包络变形单元)、系数相加部2m以及频率逆变换部2n。图3所示的语音解码装置21的比特流分离部2a 频率逆变换部2n是通过语音解码装置21的(PU执行语音解码装置21的内置存储器中存储的计算机程序来实现的功能。语音解码装置21的CPU通过执行该计算机程序(利用图3所示的比特流分离部2a 频率逆变换部2n),依次执行图4的流程图所示的处理(步骤Sbf步骤Sbll的处理)。运行该计算机程序所需的各种数据以及运行该计算机程序所生成的各种数据全部存储在语音解码装置21的ROM或RAM等内置存储器中。比特流分离部2a经由语音解码装置21的通信装置将输入的复用比特流分离为滤 波强度参数、SBR辅助信息和编码比特流。核心编解码器解码部2b对从比特流分离部2a输出的编码比特流进行解码,获得仅包含低频成分的解码信号(步骤Sbl的处理)。此时,解码的方式可以基于以CELP方式为代表的语音编码方式,也可以基于AAC或TCX (TransformCoded Excitation)方式等的音频编码。频率变换部2c通过多通道QMF滤波器组分析从核心编解码器解码部2b输出的解码信号,获得QMF区域的信号qde。(k,r)(步骤Sb2的处理)。其中,k (O彡k彡63)是频率方向的索引,r是表不与QMF区域信号的子米样有关的时间方向索引的索引。低频线形预测分析部2d针对各个时隙r在频率方向对从频率变换部2c获得的Qdec (k,r)进行线形预测分析,取得低频线形预测系数ade。(n,r)(步骤Sb3的处理)。在与从核心编解码器解码部2b获得的解码信号的信号频带对应的O ( Kkx的范围中进行线形 预测分析。此外,该线形预测分析可以是针对O < Kkx区间中包含的一部分频域进行分析。信号变化检测部2e检测从频率变换部2c获得的QMF区域的信号的时间变化,并作为检测结果T (r)输出。例如可利用以下所示的方法进行信号变化的检测。I.利用下式(4)取得时隙r中的信号的短时功率P (r)。[式4]
权利要求
1.一种对编码后的语音信号进行解码的语音解码装置,该语音解码装置的特征在于,具备 比特流分离单元,其将包含所述编码后的语音信号的来自外部的比特流分离为编码比特流和时间包络辅助信息; 核心解码单元,其对所述比特流分离单元分离出的所述编码比特流进行解码,获得低频成分; 频率变换单元,其将由所述核心解码单元获得的所述低频成分变换到频域; 高频生成单元,其通过将由所述频率变换单元变换到频域的所述低频成分从低频频带复写到高频频带来生成高频成分; 高频调整单元,其调整由所述高频生成单元生成的所述高频成分,生成调整后的高频成分; 低频时间包络分析单元,其对由所述频率变换单元变换到频域的所述低频成分进行分析,取得时间包络 目息; 辅助信息变换单元,其将所述时间包络辅助信息变换为用于调整所述时间包络信息的参数; 时间包络调整单元,其利用所述参数调整由所述低频时间包络分析单元取得的所述时间包络信息,生成调整后的时间包络信息,控制该调整后的时间包络信息的增益,使得所述频域的高频成分的SBR包络时间分段内的功率在时间包络变形之前与之后相等,生成进一步调整后的时间包络信息;以及 时间包络变形单元,其对所述调整后的高频成分乘以所述进一步调整后的时间包络信息,使所述调整后的高频成分的时间包络变形。
2.一种对编码后的语音信号进行解码的语音解码装置,该语音解码装置的特征在于,具备 核心解码单元,其对包含所述编码后的语音信号的来自外部的比特流进行解码而获得低频成分; 频率变换单元,其将由所述核心解码单元获得的所述低频成分变换到频域; 高频生成单元,其通过将由所述频率变换单元变换到频域的所述低频成分从低频频带复写到高频频带来生成高频成分; 高频调整单元,其调整由所述高频生成单元生成的所述高频成分,生成调整后的高频成分; 低频时间包络分析单元,其对由所述频率变换单元变换到频域的所述低频成分进行分析,取得时间包络 目息; 时间包络辅助信息生成部,其分析所述比特流而生成用于调整所述时间包络信息的参数; 时间包络调整单元,其利用所述参数调整由所述低频时间包络分析单元取得的所述时间包络信息,生成调整后的时间包络信息,控制该调整后的时间包络信息的增益,使得所述 频域的高频成分的SBR包络时间分段内的功率在时间包络变形之前与之后相等,生成进一步调整后的时间包络信息;以及 时间包络变形单元,其对所述调整后的高频成分乘以所述进一步调整后的时间包络信息,使所述调整后的高频成分的时间包络变形。
3.一种使用了语音解码装置的语音解码方法,该语音解码装置对编码后的语音信号进行解码,所述语音解码方法的特征在于,具有以下的步骤 比特流分离步骤,所述语音解码装置将包含所述编码后的语音信号的来自外部的比特流分离为编码比特流和时间包络辅助信息; 核心解码步骤,所述语音解码装置对在所述比特流分离步骤中分离出的所述编码比特流进行解码而获得低频成分; 频率变换步骤,所述语音解码装置将在所述核心解码步骤中获得的所述低频成分变换到频域; 高频生成步骤,所述语音解码装置通过将在所述频率变换步骤中变换到频域的所述低频成分从低频频带复写到高频频带来生成高频成分; 高频调整步骤,所述语音解码装置调整在所述高频生成步骤中生成的所述高频成分,生成调整后的高频成分; 低频时间包络分析步骤,所述语音解码装置对在所述频率变换步骤中变换到频域的所述低频成分进行分析,取得时间包络信息; 辅助信息变换步骤,所述语音解码装置将所述时间包络辅助信息变换为用于调整所述时间包络信息的参数; 时间包络调整步骤,所述语音解码装置利用所述参数调整在所述低频时间包络分析步骤中取得的所述时间包络信息,生成调整后的时间包络信息,控制该调整后的时间包络信息的增益,使得所述频域的高频成分的SBR包络时间分段内的功率在时间包络变形之前与之后相等,生成进一步调整后的时间包络信息;以及 时间包络变形步骤,所述语音解码装置对所述调整后的高频成分乘以所述进一步调整后的时间包络信息,使所述调整后的高频成分的时间包络变形。
4.一种使用了语音解码装置的语音解码方法,该语音解码装置对编码后的语音信号进行解码,所述语音解码方法的特征在于,具有以下的步骤 核心解码步骤,所述语音解码装置对包含所述编码后的语音信号的来自外部的比特流进行解码而获得低频成分; 频率变换步骤,所述语音解码装置将在所述核心解码步骤中获得的所述低频成分变换到频域; 高频生成步骤,所述语音解码装置通过将在所述频率变换步骤中变换到频域的所述低频成分从低频频带复写到高频频带来生成高频成分; 高频调整步骤,所述语音解码装置调整在所述高频生成步骤中生成的所述高频成分,生成调整后的高频成分; 低频时间包络分析步骤,所述语音解码装置对在所述频率变换步骤中变换到频域的所述低频成分进行分析,取得时间包络信息; 时间包络辅助信息生成步骤,所述语音解码装置分析所述比特流而生成用于调整所述时间包络信息的参数; 时间包络调整步骤,所述语音解码装置利用所述参数调整在所述低频时间包络分析步骤中取得的所述时间包络信息,生成调整后的时间包络信息,控制该调整后的时间包络信息的增益,使得所述频域的高频成分的SBR包络时间分段内的功率在时间包络变形之前与之后相等,生成进一步调整后的时间包络信息;以及 时间包络变形步骤,所述语音解码装置对所述调整后的高频成分乘以所述进一步调整后的时间包络信息,使所述调整后的高频成分的时间包络变形。
全文摘要
本发明涉及语音解码装置及语音解码方法。针对频域中表现的信号,利用协方差法或自相关法在频率方向上进行线形预测分析,求出线形预测系数,进而对求出的线形预测系数进行滤波强度的调整,然后利用调整后的系数在频率方向上进行滤波处理,由此使信号的时间包络变形。从而在以SBR为代表的频域中的频带扩展技术中,能够减轻所产生的前回声/后回声,提高解码信号的主观性质量而不使比特率显著增大。
文档编号G10L21/02GK102779521SQ201210240328
公开日2012年11月14日 申请日期2010年4月2日 优先权日2009年4月3日
发明者仲信彦, 菊入圭, 辻野孝辅 申请人:株式会社Ntt都科摩
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1