编码装置、解码装置、频谱变动量计算方法和频谱振幅调整方法

文档序号:2832693阅读:290来源:国知局
专利名称:编码装置、解码装置、频谱变动量计算方法和频谱振幅调整方法
技术领域
本发明涉及编码装置、解码装置、频谱变动量计算方法和频谱振幅调整方法。
背景技术
在移动通信系统中,为了有效利用电波资源等,期望将语音信号压缩至低比特率进行传输的技木。另ー方面,不仅语音信号,而且对于音乐信号等语音信号以外的信号也寻求能够以低比特率高质量地进行编码的语音编解码。这种技术是,例如,为高质量地实现作为回铃音(Ring Back Tone)放音乐的业务(melody call (乐曲传呼)等)必需的技术。对语音信号以低比特率高效率地进行编码的有效方式有CELP(Code Excited Linear Prediction :码激励线性预测)编码(例如,參照非专利文献I)。CELP编码是如下的方式基于工程学模仿人的语音生成模式所得的模型,使记录在码本(Code Book)中的激励信号通过对应于周期性的強度的基音滤波器(Pitch filter)和对应于声道特性的合成滤波器,并决定编码參数以使该输出信号和输入信号之间的方差在听觉特性的加权下为最小。通过采用上述模式,在CELP编码中能够将语音信号以低比特率高质量地进行编码。当前的很多标准语音编码方式基于CELP编码,例如,ITU(国际电信联盟)的G729、G718,或3GPP (第3代合作伙伴计划)的AMR (自适应多速率)、AMR-WB (自适应多速率宽带)等技术为代表性的例子。现有技术文献非专利文献[非专利文献 I] M. R. Schoder and B. S. Atal, “Code-excited linearprediction(CELP) ;high-quality speech at very low bit rates,,,Proc. ICASSP 85,pp.937-940,1985.

发明内容
发明要解决的问题然而,虽然CELP编码是能够对于语音信号以低比特率且高音质地进行编码的语音编解码方法,但它基于不适合音乐信号的模式,所以对音乐信号适用CELP编码时,音质极大地劣化。具体而言,在CELP编码中,如上所述,使记录在码本(code book)中的激励信号通过对应于周期性的強度的基音滤波器和对应于声道特性的合成滤波器而生成合成信号。该模式适合于表现语音信号的与共振峰对应的共振频率中的高能量分量(谱包络)、以及出现于基本频率的整数倍处的峰部(peak)性较强的分量(谐波结构或谐音)。但是,在一般的音乐信号中,并不一定如语音信号那样存在共振峰或谐波结构。而且,对于音乐信号中出现的与语音信号的谐波结构相比峰部性非常强的分量,CELP编码无法准确地表示该分量。例如,图IA和图IB表示对以16kHz的采样率录音语音信号的母音部分所得的信号进行频率分析时的频谱(图IA所示的原信号频谱(语音))、以及通过ITU-T G718的8kbit/s模式处理该信号时的解码音的频谱(图IB所示的解码信号频谱(语音))。G718的8kbit/s模式是基于CELP编码的编码方式。对图IA所示的原信号频谱和图IB所示的解码信号频谱进行比较可知,虽然在高频段存在若干差异但整体上是非常相似的频谱。另ー方面,图IC和图ID表示对以16kHz的采样率录音钢琴音(音乐信号)所得的信号进行频率分析时的频谱(图IC所示的原信号频谱(钢琴))、以及通过ITU-T G718的8kbit/s模式处理该信号时的解码音的频谱(图ID所示的解码信号频谱(钢琴))。对图IC所示的原信号频谱和图ID所示的解码信号频谱进行比较可知,原信号频谱中,整个频谱上明显出现了频谱的峰部(tone:単音)形状。相对于此,在解码信号频谱中,频谱的峰部形状从I. 5kHz附近开始失去原形,在3. 5kHz以上,频谱的形状与原信号频谱差异很大。这样,由于解码信号频谱的峰部形状失去原形,频谱峰部的山和谷之间的大小被抑制,从而在试听解码信号时感觉到噪声感,音质极大地劣化。 因此,作为在CELP编码中改善解码信号的质量的技术,提出了如下的技木通过对CELP编码的解码信号进行频率分析,以子带为单位抑制单音间的分量,实现音乐信号的首质改善(例如麥照 Tommy Vaillancourt, et. al. ,inter—tone noise reduction in alow bit rate CELP decoder”,Proc. ICASSP2009,pp.4113-4116,2009)。然而,该技术中存在如下的问题,因为以子带为单位决定单音间的分量的抑制量,所以频率分辨率降低。而且,该技术中还存在如下的问题因为通过对解码信号(即,质量劣化的信号)进行频率分析而计算单音间的分量的抑制量,所以难以计算改善音质所需的正确的抑制量。由此,无法得到充分的音质改善效果。本发明的目的是提供即使对音乐信号进行编码的情况下也能够提高解码信号的质量的编码装置、解码装置、频谱变动量计算方法和频谱振幅调整方法。解决问题的方案本发明的编码装置采用的结构包括 第I编码单元,对输入信号进行编码而生成第I编码数据;解码单元,对所述第I编码数据进行解码而生成解码信号;以及计算单元,计算用于表示所述解码信号和所述输入信号之间的、频谱的峰部分量与底部(floor)分量之比的变动量的參数。本发明的解码装置采用的结构包括 第I解码单元,对在编码装置中将输入信号进行编码所得的第I编码数据进行解码而生成解码信号;以及调整单元,使用表示所述解码信号和所述输入信号之间的、频谱的峰部分量与底部分量之比的变动量的參数,进行所述解码信号的频谱的峰部分量的振幅调整。本发明的频谱变动量计算方法采用的结构包括编码步骤,对输入信号进行编码而生成第I编码数据;解码步骤,对所述第I编码数据进行解码而生成解码信号;以及计算步骤,计算用于表示所述解码信号和所述输入信号之间的、频谱的峰部分量与底部分量之比的变动量的參数。本发明的频谱振幅调整方法采用的结构包括解码步骤,对在编码装置中将输入信号进行编码所得的第I编码数据进行解码而生成解码信号;以及调整步骤,使用表示所述解码信号和所述输入信号之间的、频谱的峰部分量与底部分量之比的变动量的參数,进行所述解码信号的频谱的峰部分量的振幅调整。
发明的效果根据本发明,即使在对音乐信号进行编码的情况下,也能够提高解码信号的质量。


图IA 图ID是表示语音信号和音乐信号的原信号频谱和解码信号频谱的形状的图。图2是表示本发明实施方式I的编码装置的结构的方框图。图3是表示本发明实施方式I的特征參数编码单元的内部结构的方框图。图4是表示本发明实施方式I的解码装置的结构的方框图。图5是表示本发明实施方式I的变换系数增强单元的内部结构的方框图。
图6A 图6D是表示本发明实施方式I的变换系数增强单元的处理流程的图。图7是表示本发明实施方式2的编码装置的结构的方框图。图8是表示本发明实施方式2的特征參数编码单元的内部结构的方框图。图9是表示本发明实施方式2的解码装置的结构的方框图。图10是表示本发明实施方式2的变换系数增强单元的内部结构的方框图。图11是表示本发明实施方式3的特征參数编码单元的内部结构的方框图。图12是表示本发明实施方式3的变换系数增强单元的内部结构的方框图。图13是表示本发明实施方式4的编码装置的结构的方框图。图14是表示本发明实施方式4的解码装置的结构的方框图。图15是表示本发明实施方式4的变换系数增强单元的内部结构的方框图。图16A 图16E是表示本发明实施方式4的变换系数增强单元的处理流程的图。标号说明100、300、500 编码装置200、400、600 解码装置101CELP 编码单元102、202、301、401CELP 解码单元103、105、203、502T/F 变换单元104延迟单元106、106a、302特征參数编码单元107、504 复用单元201、601 分离单元204特征參数解码单元205,205a,402,603变换系数增强单元206F/T变换单元111、114、211、612包络分量去除单元112、112a、115、115a、212、212a、311、312、411、613 阈值计算单元113、113a、116、116a、213、213a、614 变换系数分类单元117特征參数计算单元118特征參数编码单元
214、615 增强单元215包络分量附加单元216能量调整单元501减法单元503变换编码单元602变换解码单元611加法单元 616增强变换系数生成单元
具体实施例方式下面,參照附图详细地说明本发明的实施方式。另外,在以下的说明中,使用了 η的变量(例如,s(n))表示时域的信号,使用了 k的变量(例如,S (k))表示频域的信号。还有,本发明的编码装置可输入语音信号或音乐信号作为输入信号。(实施方式I)图2是表示本实施方式的编码装置的主要结构的方框图。图2的编码装置100通过以预先设定的时间间隔(帧)为单位对于输入信号进行编码处理,从而生成比特流,并将生成的比特流传输到后述的解码装置。在图2所示的编码装置100中,CELP编码单元101使用CELP编码进行输入信号的编码处理,从而生成CELP编码数据(第I编码数据)。CELP编码单元101将CELP编码数据输出到CELP解码单元102和复用单元107。CELP解码单元102对于从CELP编码单元101输入的CELP编码数据进行CELP解码处理,从而生成CELP解码信号。CELP解码单元102将CELP解码信号输出到T/F(时域/频域)变换单元103。T/F变换单元103将从CELP解码单元102输入的CELP解码信号变换为频域而计算CELP解码变换系数,并将CELP解码变换系数输出到特征參数编码单元106。这里,变换为频域时使用MDCT (Modified Discrete Cosine Transform :改进离散余弦变换)。延迟单元104使输入信号延迟相当于在CELP编码单元101和CELP解码单元102中产生的延迟的时间,并将延迟调整后的输入信号输出到T/F变换单元105。T/F变换单元105将由延迟单元104进行了延迟调整的输入信号变换为频域而计算输入变换系数,并将输入变换系数输出到特征參数编码单元106。另外,与T/F变换单元103同样,变换为频域时使用MDCT。特征參数编码单元106使用从T/F变换单元103输入的CELP解码变换系数以及从T/F变换单元105输入的输入变换系数,计算特征參数并对其编码,从而生成特征參数编码数据(第2编码数据)。这里,特征參数表示在CELP解码信号和输入信号之间的、频谱的峰部分量与底部分量之比的变动量。特征參数编码单元106将特征參数编码数据输出到复用単元107。另外,后面论述特征參数编码单元106中的处理的细节。复用单元107将从CELP编码单元101输入的CELP编码数据(第I编码数据)和从特征參数编码单元106输入的特征參数编码数据(第2编码数据)进行复用而生成比特流,将比特流输出到未图示的通信路径(transmission channel,传输通道)。
接下来,说明图2所示的编码装置100的特征參数编码单元106中的处理细节。图3是表示特征參数编码单元106的内部结构的方框图。在图3所示的特征參数编码单元106中,包络分量去除单元111去除输入变换系数的包络分量(频谱的轮廓分量)。例如,包络分量去除単元111在将输入变换系数从线性区域变换为对数域后,对于变换后的输入变换系数进行移动平均等平滑处理。然后,包络分量去除単元111将平滑处理后的输入变换系数再次从对数域变换为线性区域。这样,通过进行对数域中的平滑处理,包络分量去除単元111能够求输入变换系数的包络分量。然后,包络分量去除単元111从输入变换系数中去除所求出的包络分量, 并将去除包络分量后的输入变换系数输出到阈值计算单元112和变换系数分类单元113。阈值计算单元112使用从包络分量去除単元111输入的去除包络分量后的输入变 换系数,计算用于将输入变换系数分类为峰部分量和底部分量的阈值,并将计算出的阈值输出到变换系数分类单元113。具体而言,阈值计算单元112通过进行去除包络分量后的输入变换系数的统计处理,计算阈值。这里,如下式(I)所示,将使用去除了包络分量的输入变换系数的绝对值的标准偏差σ计算阈值Th的情况作为一例进行说明。Th = c · ο…(I)其中,c表示用于求阈值Th的系数。另外,根据下式(2)计算输入变换系数的绝对值的标准偏差σ。O" = I—IsR(々)| - {M)...(2)
I N k这里,Se (k)表示去除包络分量后的输入变换系数,N表示输入变换系数的个数,Ms表示去除包络分量后的输入变换系数的绝对值的平均值。阈值计算单元112使用上式(I)和(2)计算阈值Th,将计算出的阈值Th输出到变换系数分类单元113。变换系数分类单元113使用从阈值计算单元112输入的阈值Th,将从包络分量去除単元111输入的去除包络分量后的输入变换系数分类为峰部分量和底部分量。然后,变换系数分类单元113将分类为峰部分量的输入变换系数作为第I变换系数,将分类为底部分量的输入变换系数作为第2变换系数,并将其分别输出到特征參数计算单元117。具体而言,在去除包络分量后的输入变换系数Sk(k)的绝对值为阈值Th以上时(|sK(k) I彡Th吋),变换系数分类单元113将该输入变换系数Sk(k)分类为峰部分量。另ー方面,在去除包络分量后的输入变换系数Sk (k)的绝对值小于阈值Th时(除|SK(k) I彡Th以外的情況,即|sK (k)l < Th吋),变换系数分类单元113将该输入变换系数sK (k)分类为底部分量。另外,式(I)所示的系数c的大小对峰部分量和底部分量的分类造成影响。该系数C可以是预先设定的固定值,也可以是变量。在将系数C设为变量时,例如,可以使其为与CELP编码的基音增益对应地变化的变量(后述)。另ー方面,包络分量去除単元114、阈值计算单元115和变换系数分类单元116对于CELP解码变换系数进行与包络分量去除単元111、阈值计算单元112和变换系数分类单元113同样的处理。也就是说,包络分量去除単元114去除CELP解码变换系数的包络分量,阈值计算单元115计算用于将去除包络分量后的CELP解码变换系数分类为峰部分量和底部分量的阈值,变换系数分量単元116将去除包络分量后的CELP解码变换系数分类为峰部分量和底部分量。然后,变换系数分类单元116将分类为峰部分量的CELP解码变换系数作为第3变换系数,将分类为底部分量的CELP解码变换系数作为第4变换系数,并输出到特征參数计算单元117。特征參数计算单元117使用从变换系数分类单元113输入的第I变换系数和第2变换系数、以及从变换系数分类单元116输入的第3变换系数和第4变换系数,计算特征參数。具体而言,特征參数计算单元117分别计算去除包络分量后的输入变换系数的峰部分量(第I变换系数)与底部分量(第2变换系数)之比,以及,去除包络分量后的CELP解码变换系数的峰部分量(第3变换系数)与底部分量(第4变换系数)之比。然后,特征參数计算单元Π7计算双方的比的变动量作为特征參数。具体而言,特征參数计算单元117对于去除包络分量后的输入变换系数,求峰部分量的平均能量与底部分量的平均能量之比。例如,假设第I变换系数(输入变换系数的峰部分量)为S1GO,第2变换系数(输入变换系数的底部分量)为も00。此时,特征參数计算单元117根据下式(3)而计算第I变换系数S1GO与第2变换系数S2GO之比R12 (也就是说,输入信号的频谱中的峰部分量与底部分量之比)。
[0086」
权利要求
1.编码装置,包括 第I编码单元,对输入信号进行编码而生成第I编码数据; 解码单元,对所述第I编码数据进行解码而生成解码信号;以及计算单元,计算用于表示所述解码信号和所述输入信号之间的、频谱的峰部分量与底部分量之比的变动量的参数。
2.如权利要求I所述的编码装置, 还包括第2编码单元,对所述参数进行编码而生成第2编码数据。
3.如权利要求2所述的编码装置, 所述第I编码单元对所述输入信号进行码激励线性预测编码, 所述第2编码单元使用所述输入信号、所述解码信号以及所述码激励线性预测编码中的基音增益计算所述参数。
4.解码装置,包括 第I解码单元,对在编码装置中将输入信号进行编码所得的第I编码数据进行解码而生成解码信号;以及 调整单元,使用表示所述解码信号和所述输入信号之间的、频谱的峰部分量与底部分量之比的变动量的参数,对所述解码信号的频谱的峰部分量进行振幅调整。
5.如权利要求4所述的解码装置, 所述编码单元对输入信号进行编码而生成第I编码数据,对所述第I编码数据进行解码而生成解码信号,使用所述输入信号和所述解码信号计算所述参数,并且对所述参数进行编码而生成第2编码数据, 所述解码装置还包括对所述第2编码数据进行解码而获得所述参数的第2解码单元; 所述调整单元使用所述参数进行所述振幅调整。
6.如权利要求5所述的解码装置, 所述编码装置是对所述输入信号进行码激励线性预测编码的编码装置,使用所述输入信号、所述解码信号以及所述码激励线性预测编码中的基音增益计算所述参数。
7.如权利要求4所述的解码装置, 所述编码装置是进行至少具有低层和高层的可扩展编码的编码装置,在低层生成所述第I编码数据,在高层对所述输入信号的部分频带中的所述解码信号与所述输入信号之间的差即误差信号进行编码而生成第2编码数据; 所述解码装置还包括对所述第2编码数据进行解码而获得所述误差信号的第2解码单元; 所述调整单元使用所述参数,对除所述部分频带以外的频带中的所述解码信号的频谱的峰部分量进行所述振幅调整,所述参数表示使用所述解码信号和所述误差信号获得的解码输入信号与所述解码信号之间的、所述部分频带中的频谱的峰部分量与底部分量之比的变动量。
8.频谱变动量计算方法,包括 编码步骤,对输入信号进行编码而生成第I编码数据; 解码步骤,对所述第I编码数据进行解码而生成解码信号;以及 计算步骤,计算用于表示所述解码信号和所述输入信号之间的、频谱的峰部分量与底部分量之比的变动量的参数。
9.频谱振幅调整方法,包括 解码步骤,对在编码装置中将输入信号进行编码所得的第I编码数据进行解码而生成解码信号;以及 调整步骤,使用表示所述解码信号和所述输入信号之间的、频谱的峰部分量与底部分量之比的变动量的参数,对所述解码信号的频谱的峰部分量进行振幅 调整。
全文摘要
公开了即使对音乐信号进行编码时,也能够提高解码信号的质量的编码装置。该装置中,CELP编码单元(101)对输入信号进行编码而生成第1编码数据,CELP解码单元(102)对从CELP编码单元(101)输入的第1编码数据进行解码而生成解码信号,特征参数编码单元(106)计算用于表示解码信号和输入信号之间的、频谱的峰部分量与底部分量之比的变动量的参数。
文档编号G10L19/02GK102714040SQ20118000549
公开日2012年10月3日 申请日期2011年1月13日 优先权日2010年1月14日
发明者押切正浩 申请人:松下电器产业株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1