编码装置和编码方法

文档序号:2831731阅读:159来源:国知局
专利名称:编码装置和编码方法
技术领域
本发明涉及对语音信号等的输入信号进行编码并传输的通信系统所使用 的编码装置和编码方法。
背景技术
在移动通信系统中,为了有效利用电波资源等,要求将语音信号压缩到 低比特率后传输。另一方面,还期望提高通话语音的质量及实现较高的现场 感的通话服务,为了实现该需求,既期望提高语音信号的质量,又期望高质 量地对频带更宽的音频信号等语音信号以外的信号进行编码。
对于这样相反的两种要求,分层地合并多个编码技术的技术备受关注。 该技术分层组合基本层和扩展层,所述基本层通过适合于语音信号的模型
(model)以低比特率对输入信号进行编码,所述扩展层通过也适合于语音以外 的信号的模型对输入信号与基本层的解码信号之间的差分信号进行编码。这 样分层地进行编码的技术,由于从编码装置得到的比特流具有扩展性 (scalability),即具有即使通过比特流的一部分信息也能够得到解码信号的性 质,因此一般被称为可扩展编码(分层编码)。
根据该性质,可扩展编码方式能够灵活地应对比特率不同的网络间的通 信,因此可以说该方式适合于以IP(InternetProtocol,因特网协议)合并各种各 样的网络的、今后的网络环境。
作为利用以MPEG-4(Moving Picture Experts Group phase(运动图4象专家 组)-4)进行标准化的技术来实现可扩展编码的例子,例如有非专利文献1所公 开的技术。该技术在基本层中,利用适合于语音信号的CELP(Code Excited Linear Prediction,码激励线性预测)编码,在扩展层中,对残差信号利用诸如 AAC(Advanced Audio Coder,高级音频编码器)或者TwinVQ(Transform Domain Weighted Interleave Vector Quantization,传丰叙;或力口4又交织向量量4t)等 的变换编码,所述残差信号是从原信号减去第一层解码信号而得到的信号。
另夕卜,为了灵活地应对通信速度因异构网络(heterogeneous network)间切换(handover)或拥塞的发生等动态地变动的网络环境,需要实现比特率间隔较 小的可扩展编码,因此需要对降低了比特率的层进行多层化处理而构成可扩 展编码。
另一方面,在专利文献1和专利文献2中公开了以下技术将作为编码 对象的信号变换到频域,在由此得到的频域信号中进行编码的变换编码。在 这样的变换编码中,首先对每个子带计算并量化频域信号的能量分量即增益 (缩放因子,scale factor),接着计算并量化上述频域信号的微细分量即形状向量。
非专利文献l:三木弼一编著,《MPEG-4 0t^^》第一版、株式会社 工业调查会、1998年9月30日、p.126-127
专利文献1:日本专利申请特表第2006-513457号公报 专利文献2:日本专利申请特开平7-261800号公报

发明内容
发明需要解决的问题
然而,在对两个参数依前后的顺序进行量化时,因为在后量化的参数受 到在前量化的参数的量化失真的影响,所以存在量化失真变大的倾向。因此, 在专利文献1和专利文献2所记载的依增益、形状向量的顺序进行量化的变 换编码中,存在形状向量的量化失真变大,从而无法正确地表示频谱的形状 的倾向。该问题对如元音(vowel sound)那样的调性(tonality)较强的信号即可观 察到多个波峰(peak)形状的频谱特性的信号,产生较大的质量劣化。该问题在 实现低比特率时变得显著。
本发明的目的在于,提供能够正确地对如元音那样的调性较强的信号即 可观察到多个波峰形状的频镨特性的信号的频语的形状进行编码,从而能够 提高解码语音的音质等解码信号的质量的编码装置和编码方法。
解决问题的方案
本发明的编码装置所采用的结构包括基本层编码单元,对输入信号进 行编码而获得基本层编码数据;基本层解码单元,对所述基本层编码数据进 行解码而获得基本层解码信号;以及扩展层编码单元,对作为所述输入信号 与所述基本层解码信号之间的差的残差信号进行编码而获得扩展层编码数 据,所述扩展层编码单元包括分割单元,将所述残差信号分割为多个子带;第一形状向量编码单元,对所述多个子带的各个子带进行编码而获得第一形
状编码信息,并且计算所述多个子带的各个子带的目标增益;增益向量构成 单元,利用所述多个目标增益构成一个增益向量;以及增益向量编码单元, 对所述增益向量进行编码而获得第一增益编码信息。
本发明的编码方法包括以下的步骤将变换系数分割为多个子带,所述 变换系数是将输入信号变换到频域而获得的变换系数;对所述多个子带的变 换系数的各个变换系数进行编码而获得第一形状编码信息,并且计算所述多 个子带的各个变换系数的目标增益;利用所述多个目标增益构成一个增益向 量;以及对所述增益向量进行编码而获得第一增益编码信息。
发明的效果
根据本发明,能够进一步正确地对如元音那样的调性较强的信号即可观 察到多个波峰形状的频语特性的信号的频镨的形状进行编码,从而能够4是高 解码语音的音质等解码信号的质量。


图1是表示本发明实施方式1的语音编码装置的主要结构的方框图。 图2是表示本发明实施方式1的第二层编码单元内部的结构的方框图。 图3是表示本发明实施方式1的第二层编码单元中的第二层编码处理的 步骤的流程图。
图4是表示本发明实施方式1的形状向量编码单元内部的结构的方框图。 图5是表示本发明实施方式1的增益向量构成单元内部的结构的方框图。 西6是用于详细地说明本发明实施方式1的目标增益配置单元的动作的图。
图7是表示本发明实施方式1的增益向量编码单元内部的结构的方框图。 图8是表示本发明实施方式1的语音解码装置的主要结构的方框图。 图9是表示本发明实施方式1的第二层解码单元内部的结构的方框图。 图10是用于说明本发明实施方式2的形状向量码本的图。 图11是举例说明本发明实施方式2的形状向量码本所包含的多个形状向 量候补的图。
图12是表示本发明实施方式3的第二层编码单元内部的结构的方框图。 图13是用于说明本发明实施方式3的范围选择单元中的范围选择处理的图。
图14是表示本发明实施方式3的第二层解码单元内部的结构的方框图。 图15是表示本发明实施方式3的范围选择单元的变化(variation)的图。 图16是表示本发明实施方式3的范围选择单元中的范围选择方法的变化 的图。
图17是表示本发明实施方式3的范围选择单元的结构的变化的方框图。 图18是举例说明本发明实施方式3的、在范围信息构成单元中构成范围 信息的情形的图。
图19是用于说明本发明实施方式3的第一层误差变换系数生成单元的变 化的动作的图。
图20是表示本发明实施方式3的范围选择单元中的范围选择方法的变化 的图。
图21是表示本发明实施方式3的范围选择单元中的范围选择方法的变化
的图'。
图22是表示本发明实施方式4的第二层编码单元内部的结构的方框图。 图23是表示本发明实施方式5的语音编码装置的主要结构的方框图。 图24是表示本发明实施方式5的第一层编码单元内部的主要结构的方框图。
图25是表示本发明实施方式5的第一层解码单元内部的主要结构的方框图。
图26是表示本发明实施方式5的语音解码装置的主要结构的方框图。 图27是表示本发明实施方式6的语音编码装置的主要结构的方框图。 图28是表示本发明实施方式6的语音解码装置的主要结构的方框图。 图29是表示本发明实施方式7的语音编码装置的主要结构的方框图。 图30A 图30C是用于说明在本发明实施方式7的语音编码装置的编码
处理中、作为编码对象的范围的选择处理的图。
图31是表示本发明实施方式7的语音解码装置的主要结构的方框图。 图32A、图32B是用于说明在本发明实施方式7的语音编码装置的编码
处理中、从等间隔地配置的范围的候补中选择编码对象的情况的图
图33是用于说明在本发明实施方式7的语音编码装置的编码处理中、从
等间隔地配置的范围的候补中选择编码对象的情况的图。
具体实施例方式
下面,参照附图详细地说明本发明的实施方式。下面,使用语音编码装 置/语音解码装置作为本发明的编码装置/解码装置的例子进行说明。 (实施方式1 )
图1是表示本发明实施方式1的语音编码装置100的主要结构的方框图。
作为本实施方式的语音编码装置和语音解码装置的结构,以采用两层的可扩 展结构为例进行说明。另外,第一层构成基本层,第二层构成扩展层。
在图1中,语音编码装置100包括频域变换单元101、第一层编码单 元102、第一层解码单元103、减法器104、第二层编码单元105、以及复用 单元106。
频域变换单元101将时域的输入信号变换到频域的信号,并将所获得的 输入变换系数输出到第一层编码单元102和减法器104。
第一层编码单元102对由频域变换单元101输入的输入变换系数进行编 码处理,并将所获得的第一层编码数据输出到第一层解码单元103和复用单 元106。
第一层解码单元103利用由第一层编码单元102输入的第一层编码数据 进行解码处理,并将所获得的第一层解码变换系数输出到减法器104。
减法器104从由频域变换单元101输入的输入变换系数减去由第一层解 码单元103输入的第一层解码变换系数,并将所获得的第一层误差变换泉数 输出到第二层编码单元105。
第二层编码单元105对由减法器104输入的第一层误差变换系数进行编 码处理,并将所获得的第二层编码数据输出到复用单元106。另外,将在后 面叙述第二层编码单元105的细节。
复用单元106将由第一层编码单元102输入的第一层编码数据与由第二 层编码单元105输入的第二层编码数据复用,并将所获得的比特流输出到通 信路径。
图2是表示第二层编码单元105内部的结构的方框图。
在图2中,第二层编码单元105包括子带构成单元151、形状向量编
码单元152、增益向量构成单元153、增益向量编码单元154、以及复用单元
155。子带构成单元151将由减法器104输入的第一层误差变换系数分割为M
个子带,并将所获得的M个子带变换系数输出到形状向量编码单元152。这
里,在将第一层误差变换系数表示为e,(k)时,第m(0《m《M-l)子带变换系
数e(m, k)由下式(l)表示。 eO,A:)-e!(A: + F(m))
(0《A:〈F(m + l) — F(m)) …
在式(l)中,F(m)表示各个子带边界的频率,满足(KF(0)〈F(1)〈…〈F(M) 《FH的关系。这里,FH表示第一层误差变换系数的最大频率,m取0《m <M-1的整数。
形状向量编码单元152对由子带构成单元151依序输入的M个子带变换 系数的各个系数进行形状向量量化,以生成M个子带的各个形状编码信息, 并且计算M个子带变换系数各自的目标增益。形状向量编码单元152将所生 成的形状编码信息输出到复用单元155,并将目标增益输出到增益向量构成 单元153。另外,将在后面叙述形状向量编码单元152的细节。
增益向量构成单元153以由形状向量编码单元152输入的M个目标增益 构成一个增益向量,并将其输出到增益向量编码单元154。另外,将在后面 叙述增益向量构成单元153的细节。
增益向量编码单元154将由增益向量构成单元153输入的增益向量作为 目标值而进行向量量化,并将所获得的增益编码信息输出到复用单元155。 另外,将在后面叙述增益向量编码单元154的细节。
复用单元155将由形状向量编码单元152输入的形状编码信息与由增益 向量编码单元154输入的增益编码信息复用,并将所获得的比特流作为第二 层编码数据输出到复用单元106。
图3是表示第二层编码单元105中的第二层编码处理的步骤的流程图。
首先,在步骤(以下,略称为"ST" )1010中,子带构成单元151将第一 层误差变换系数分割为M个子带,构成M个子带变换系数。
接着,在ST1020中,第二层编码单元105将作为用于计数子带的数目 的值的、子带计数值m初始化为"0"。
接着,在ST1030中,形状向量编码单元152对第m子带变换系数进行 形状向量编码,生成第m子带的形状编码信息,并且生成第m子带变换系数 的目标增益。接着,在ST1040中,第二层编码单元105将子带计数值m增值1。 接着,在ST1050中,第二层编码单元105判定是否为m<M。 在ST1050中,在判定为m<M时(ST1050:"是"),第二层编码单元105 使处理步骤返回到ST1030。
另 一方面,在ST1050中,在判定不为m<M时(ST1050:"否,,),在ST1060 中,增益向量构成单元153利用M个目标增益构成一个增益向量。
接着,在ST1070中,增益向量编码单元154将由增益向量构成单元153 构成的增益向量作为目标值进行量化,生成增益编码信息。
接着,在ST1080中,复用单元155将由形状向量编码单元152生成的 形状编码信息与由增益向量编码单元154生成的增益编码信息复用。 图4是表示形状向量编码单元152内部的结构的方框图。 在图4中,形状向量编码单元152包:l舌形状向量码本521、互相关计 算单元522、自相关计算单元523、搜索单元524、以及目标增益计算单元525。 形状向量码本521存储了多个表示第一层误差变换系数的形状的形状向 量候补,基于由搜索单元524输入的控制信号,将形状向量候补依序输出到 互相关计算单元522和自相关计算单元523。另外, 一般而言,形状向量码 本既有采用实际地确保存储区域来存储形状向量候补的形态的情况,也有根 据预先规定的处理步骤构成形状向量候补的情况。在后者的情况下,无需实 际地确保存储区域。在本实施方式中采用哪种形状向量码本都可以,但下面 以具有如图4所示的、存储有形状向量候补的形状向量码本521为前提进行 说明。以下,将形状向量码本521所存储的多个形状向量候补中的第i候补 表示为c(i,k)。这里,k表示用于构成形状向量候补的多个元素中的第k个。
带变换系数与由形状向量码本5;1输:的第i形状向量候补之间的:相关 ccor(i),并将其输出到搜索单元524和目标增益计算单元525。<formula>formula see original document page 11</formula> …(2)
自相关计算单元523根据下式(3),计算由形状向量码本521输入的形状 向量候补c(i,k)之间的自相关acor(i),并将其输出到搜索单元524和目标增益 计算单元525。<formula>formula see original document page 12</formula>
搜索单元524利用由互相关计算单元522输入的互相关ccor(i)以及由自 相关计算单元523输入的自相关acor(i),计算由下式(4)表示的贡献度A,并 直至搜索到贡献度A的最大值为止,都将控制信号输出到形状向量码本521。 搜索单元524将贡献度A是最大时的形状向量候补的索引i丰作为最优索引 输出到目标增益计算单元525,并且将其作为形状编码信息输出到复用单元 155。
^f^ffi!…(4)
目标增益计算单元525利用由互相关计算单元522输入的互相关ccor(i)、 由自相关计算单元523输入的自相关acor(i)以及由搜索单元524输入的最优 索引i。pt,根据下式(5)计算目标增益,并将其输出到增益向量构成单元153。
—=-…(5)
图5是表示增益向量构成单元153的内部结构的方框图。
在图5中,增益向量构成单元153包括配置位置决定单元531和目标
增益配置单元532。
配置位置决定单元531具备初始值是"0"的计数器,在每次从形状向量
编码单元152输入目标增益时,将计数器的值增值1,在计数器的值成为子
带的总数M时,将计数器的值重新设定为零。这里,M也是由增益向量构成
单元153构成的增益向量的向量长度,配置位置决定单元531所具备的计数
器的处理相当于将计数器的值除以增益向量的向量长度而求余数。也就是说,
计数器的值是"0" ~M-1的整数。配置位置决定单元531在计軟器的值每次
被更新时,将更新后的计数器的值输出到目标增益配置单元532作为配置信 自
目标增益配置单元532包括初始值分别是"0"的M个緩沖器,以及 将由形状向量编码单元152输入的目标增益配置在各个緩沖器中的开关,该 开关将由形状向量编码单元152输入的目标增益配置在以由配置位置决定单 元531输入的配置信息所示的值作为序号的緩冲器中。图6是用于详细地说明目标增益配置单元532的动作的图。 在图6中,在输入开关的配置信息是"0"时,目标增益配置在第0緩冲 器中,而在配置信息是M-1时,目标增益配置在第M-l緩冲器中。在目标 增益配置在所有的緩沖器中时,目标增益配置单元532将由配置在M个緩沖 器中的目标增益构成的增益向量输出到增益向量编码单元154。 图7是表示增益向量编码单元154内部的结构的方框图。 在图7中,增益向量编码单元154包括增益向量码本541、误差计算 单元542、以及搜索单元543。
增益向量码本541存储了多个表示增益向量的增益向量候补,并基于由 搜索单元543输入的控制信号,将增益向量候补依序输出到误差计算单元 542。 一般而言,增益向量码本既有采用实际地确保存储区域来存储增益向量 候补的形态的情况,也有根据预先规定的处理步骤构成增益向量候补的情况。 在后者的情况下,无需实际地确保存储区域。在本实施方式中采用哪种增益 向量码本都可以,但下面以具有如图7所示的、存储有增益向量候补的增益 向量码本541为前提进行说明。以下,将增益向量码本541所存储的多个增 益向量候补中的第j候补表示为g(j,m)。这里,m表示用于构成增益向量候补 的M个元素中的第m个。
误差计算单元542利用由增益向量构成单元153输入的增益向量、以及 由增益向量码本541输入的增益向量候补,根据下式(6)计算误差E(j),并将 其输出到搜索单元543。
約.)=S (—) - w))2…(6)
在式(6)中,m表示子带的序号,gv(m)表示由增益向量构成单元153输 入的增益向量。
直至搜索到由误差计算单元542输入的误差E(j)的最小值为止,搜索单 元543都将控制信号输出到增益向量码本541,搜索误差E(j)最小时的增益向 量候补的索引j。pt,并将其作为增益编码信息输出到复用单元155。
图8是表示本实施方式的语音解码装置200的主要结构的方框图。 在图8中,语音解码装置200包括分离单元201、第一层解码单元202、 第二层解码单元203、加法器204、切换单元205、时域变换单元206、以及 后置滤波器207。分离单元201将由语音编码装置100经由通信路径传输的比特流分离为 第一层编码数据和第二层编码数据,并将第一层编码数据输出到第一层解码 单元202,将第二层编码数据输出到第二层解码单元203。但是,根据通信路 径的状况(发生拥塞等),存在以下的情况,即编码lt据的一部分丟失,例如第 二层编码数据丟失,或者包含第一层编码数据和第二层编码数据的编码数据 全部丟失。因此,分离单元201判定在接收到的编码数据中仅包含第一层编 码数据还是包含第 一层编码数据和第二层编码数据的两种数据,在前者的情 况下,将"1"作为层信息输出到切换单元205,而在后者的情况下,将"2" 作为层信息输出到切换单元205。另外,在分离单元201判定为包含第一层 编码数据和第二层编码数据的编码数据全部丢失时,进行规定的补偿处理而 生成第 一层编码数据和第二层编码数据,将其分别输出到第 一层解码单元202 和第二层解码单元203,并将"2"作为层信息输出到切换单元205。
第一层解码单元202利用由分离单元201输入的第一层编码数据进行解 码处理,并将所获得的第一层解码变换系数输出到加法器204和切换单元
205。
第二层解码单元203利用由分离单元201输入的第二层编码数据进行解 码处理,并将所获得的第一层误差变换系数输出到加法器204。
加法器204将由第一层解码单元202输入的第一层解码变换系数和由第 二层解码单元203输入的第一层误差变换系数相加,并将所获得的第二层解 码变换系数输出到切换单元205 。
在由分离单元201输入的层信息是"1"时,切换单元205将第一层解码 变换系数作为解码变换系数输出到时域变换单元206,而在层信息是"2"时, 切换单元205将第二层解码变换系数作为解码变换系数输出到时域变换单元
206。
时域变换单元206将由切换单元205输入的解码变换系数变换到时域的 信号,并将所获得的解码信号输出到后置滤波器207。
后置滤波器207对由时域变换单元206输入的解码信号,进行共振峰增 强、基音增强以及频谱斜率调整等的后置滤波处理后,将其输出作为解码语 音。
图9是表示第二层解码单元203内部的结构的方框图。
在图9中,第二层解码单元203包括分离单元231、形状向量码本232、增益向量码本233、以及第一层误差变换系数生成单元234。
分离单元231将由分离单元201输入的第二层编码数据进一步分离为形 状编码信息和增益编码信息,并将形状编码信息输出到形状向量码本232, 将增益编码信息输出到增益向量码本233。
形状向量码本232具有与图4的形状向量码本521所具有的多个形状向 量候补同样的形状向量候补,并将由分离单元231输入的形状编码信息所示 的形状向量候补输出到第 一层误差变换系数生成单元234。
增益向量码本233具有与图7的增益向量码本541所具有的多个增益向 量候补同样的增益向量候补,并将由分离单元231输入的增益编码信息所示 的增益向量候补输出到第一层误差变换系数生成单元234。
第一层误差变换系数生成单元234将由形状向量码本232输入的形状向 量候补乘以由增益向量码本233输入的增益向量候补而生成第一层误差变换 系数,并将其输出到加法器204。具体而言,将由形状向量码本232依序输 入的第m形状向量候补乘以由增益向量码本233输入的、用于构成增益向量 候补的M个元素中的第m元素即第m子带变换系数的目标增益。这里,如 上所述,M表示子带的总数。
这样,根据本实施方式,采用以下的结构,即对每个子带的目标信号(在 本实施方式中,是第一层误差变换系数)的频谱的形状进行编码(形状向量的编 码),接着计算^f吏目标信号与编码后的形状向量之间的失真最小的目标增益(理 想增益),并对其进行编码(目标增益的编码)。由此,与如现有技术那样的、 对每个子带的目标信号的能量分量进行编码(增益或缩放因子的编码),利用其 对目标信号进行归一化后,对频谱的形状进行编码(形状向量的编码)的方式相 比,对使与目标信号之间的失真最小化的目标增益进行编码的本实施方式在 原理上能够减小编码失真。另外,如式(5)所示,目标增益是对形状向量进行 编码才能够计算的参数,所以通过如现有技术那样的、在时间上形状向量的 编码位于增益信息的编码的后面的编码方式,无法将目标增益作为增益信息 的编码对象,相对于此,通过本实施方式即可将目标增益作为增益信息的编 码对象,A^而能够进一步减小编码失真。
另外,在本实施方式中,采用以下的结构,即利用多个相邻的子带的目 标增益构成一个增益向量,并对其进行编码。因为目标信号的相邻的子带间 的能量信息相似,所以相邻子带间的目标增益的相似程度也同样较高。因此,在向量空间上的增益向量的分布产生偏差。通过配置增益码本所包含的增益 向量候补,以使其适应于该偏差,能够降低目标增益的编码失真。
这样,根据本实施方式,能够降低目标信号的编码失真,由此能够提高
解码语音的音质。而且,根据本实施方式,即使对如语音的元音(vowel sound) 或音乐信号那样的、调性较强的信号的频谱,也能够正确地编码频谱的形状, 所以能够提高音质。
另外,在现有技术中,利用所谓子带增益和形状向量的两个参数,控制 频谱的大小。它可以理解为分别由子带增益和形状向量的两个参数来表示频 谱的大小。相对于此,在本实施方式中,仅利用所谓目标增益的一个参数, 控制频谱的大小。而且,该目标增益是使编码后的形状向量的编码失真最小 的、理想的增益(理想增益)。由此,与现有技术相比,能够进行高效率的编码, 从而即使在低比特率时也能够实现高音质化。
另外,在本实施方式中,举例说明了通过子带构成单元151将频域分割 为多个子带并对每个子带进行编码的情况,但本发明并不限定于此,只要在 时间上比进行增益向量编码先进行形状向量编码,则也可以对多个子带汇总 进行编码,能够与本实施方式同样地获得能对如元音那样的、调性较强的信 号频谱的形状更正确地进行编码的效果。例如,也可以采用以下的结构,即 首先进行形状向量编码,其后将形状向量分割为子带而计算每个子带的目标 增益来构成增益向量,进行增益向量的编码。
另外,在本实施方式中,举例说明了在第二层编码单元105中具备复用 单元155(参照图2)的情况,但本发明并不限定于此,也可以采用以下结构 形状向量编码单元152和增益向量编码单元154的各个单元分别将形状编码 信息和增益编码信息的各个信息直接输出到语音编码装置100的复用单元 106(参照图1)。相应地,也可以采用以下结构第二层解码单元203不具备 分离单元231(参照图9),语音解码装置200的分离单元201(参照图8)利用比 特流,直接分离出形状编码信息和增益编码信息,并将各个信息直接输出到 形状向量码本232和增益向量码本233。
另外,在本实施方式中,举例说明了互相关计算单元522根据式(2)计算 互相关ccor(i)的情况,但本发明并不限定于此,为了达到对听觉上重要的频 语赋予较大的权重而增大听觉上重要的频语的贡献的目的,互相关计算单元 522也可以根据下式(7)计算互相关ccor(i)。<formula>formula see original document page 17</formula>
在式(7)中,w(k)表示与人的听觉特性相关的权重,对于在听觉特性上重 要度越高的频率,w(k)越大。
另外,同样地,为了通过对听觉上重要的频语赋予较大的权重来增大听 觉上重要的频谱的贡献,自相关计算单元523也可以根据下式(8)计算自相关 acor(i)。
<formula>formula see original document page 17</formula>
另外,同样地,为了通过对听觉上重要的频谱赋予较大的权重来增大听
觉上重要的频i普的贡献,误差计算单元542也可以根据下式(9)计算误差E(j)。
<formula>formula see original document page 17</formula>
作为式(7)、式(8)和式(9)中的权重,也可以利用例如听觉掩蔽阈值或人的 听觉的响度(loudness)特性来求得的权重,所述听觉掩蔽阈值是基于输入信号 或低层的解码信号(第一层解码信号)计算出的阈值。
另外,在本实施方式中,举例说明了形状向量编码单元152具备自相关 计算单元523的情况,但本发明并不限定于此,在才艮据式(3)计算出的自相关 系数acor(i)或者根据式(8)计算出的自相关系数acor(i)是常数时,也可以预先 计算自相关acor(i),并利用预先计算出的自相关acor(i)而不设置自相关计算 单元523。
(实施方式2)
本发明的实施方式2的语音编码装置和语音解码装置具有与实施方式1 所示的语音编码装置100和语音解码装置200同样的结构并进行同样的动作, 不同之处仅为所使用的形状向量码本。
图IO是用于说明本实施方式的形状向量码本的图,并作为元音的一例, 表示日文的元音"才"(相当于英文的元音"o")的频谱。
在图10中,横轴表示频率,纵轴表示频i脊的对数能量。如图IO所示, 在元音的频语中观察到多个波峰形状,表示较强的调性。另外,Fx表示多个 波峰形状中的 一个波峰所在的频率。
图11是举例说明本实施方式的形状向量码本所包含的多个形状向量候补的图。
在图ii中,(a)举例说明作为在形状向量候补中振幅值是"+r,或"-r 的样本(即脉冲),(b)举例说明作为振幅值是"o"的样本。图11所示的多个 形状向量候补包含位于任意的频率的多个脉冲。因此,通过搜索如图ii所示 的形状向量候补,能够对如图io所示的调性较强的频镨进一步正确地进行编 码。具体而言,对如图io所示的调性较强的信号,通过搜索决定形状向量候
补,以使与波峰形状所在的频率对应的振幅值,例如图10所示的Fx的位置 的振幅值是"+r或"-1"的脉沖(图ll所示的样本(a)),波峰形状以外的频 率的振幅值是"0"(图ll所示的样本(b))。
在时间上先于形状向量编码进行增益编码的现有技术中,在进行子带增 益的量化以及进行利用了子带增益的频镨的归一化后,进行频语的微细分量 (形状向量)的编码。若子带增益的量化失真因低比特率化而变大,则归一化的 效果变小,无法使归一化后的频谱的动态范围足够小。由此,需要使下一个 形状向量编码单元的量化步骤粗略,其结果,量化失真增大。由于该量化失 真的影响,频语的波峰形状衰减(丟失真正的波峰形状),或放大不是波峰形状 的频语而如波峰形状那样地出现(出现虚假的波峰形状)。由此,波峰形状的频 率位置改变,引起波峰性铰强的语音信号的元音部分或音乐信号的音质劣化。
相对于此,在本实施方式中,采用以下的结构,即先决定形状向量,接 着计算目标增益,并对其进行量化。如本实施方式那样在向量的元素的几个 元素具有由+1或-1的脉沖表示的形状向量时,先决定形状向量意味着先决定 相应脉冲所树立的频率位置。能够不受到增益的量化的影响而决定脉沖所树 立的频率位置,所以不会引起丢失真正的波峰形状或出现虛假的波峰形状的 现象,从而能够避免上述的现有技术的问题。
这样,根据本实施方式,采用先决定形状向量的结构,并且利用由包含 脉冲的形状向量构成的形状向量码本进行形状向量编码,所以能够确定波峰 性较强的频语的频率,并在那个频率位置树立脉冲。由此,对具有如语音信 号的元音或音乐信号那样的调性较强的频谱的信号高质量地进行编码。
(实施方式3)
在本发明的实施方式3中,与实施方式1的不同之处在于,选择语音信
号的频语中调性较强的范围(区域),并限定在所选择的范围内进行编码。
本发明的实施方式3的语音编码装置具有与实施方式1的语音编码装置语音编码装置IOO的不同之处仅在于,具有第 二层编码单元305以代替第二层编码单元105。因此,未图示本实施方式的 语音编码装置的整体结构,并省略其详细的说明。
图12是表示本实施方式的第二层编码单元305内部的结构的方框图。另 外,第二层编码单元305具有与实施方式1所示的第二层编码单元105(参照 图l)同样的基本结构,对相同的结构要素附加相同的标号,并省略其说明。
第二层编码单元305与实施方式1的第二层编码单元105的不同之处在 于,还包括范围选择单元351。另外,第二层编码单元305的形状向量编码 单元352与第二层编码单元105的形状向量编码单元152在一部分处理上存 在不同,为了表示该不同而对其附加不同的标号。
范围选择单元351在由子带构成单元151输入的M个子带变换系数中, 利用任意数的相邻的多个子带来构成多个范围,并计算各个范围的调性。范 围选择单元351选择调性最高的范围,并将表示所选择的范围的范围信息输 出到复用单元155和形状向量编码单元352。另外,将在后面叙述范围选择 单元351中的范围选择处理的细节。
形状向量编码单元352与实施方式1的形状向量编码单元152的不同之 处仅在于,基于由范围选择单元351输入的范围信息,从由子带构成单元151 输入的子带变换系数中选择被包含在范围中的子带变换系数,对所选择的子 带变换系数进行形状向量量化,这里省略其详细的说明。
图13是用于说明范围选择单元351中的范围选择处理的图。
在图13中,横轴表示频率,纵轴表示频镨的对数能量。另外,在图13 中举例说明以下的情况,即子带的总数M是"8",利用第O子带至第三子带 构成范围O,利用第二子带至第五子带构成范围1,利用第四子带至第七子带 构成范围2。在范围选择单元351中,作为评价规定的范围的调性的指标, 计算频谱平坦度测量值(SFM: Spectral Flatness Measure),所述频谱平坦度测 量值利用包含在规定的范围中的多个子带变换系数的几何平均和算数平均之 比来表示。SFM取"0"至"1"的值,越接近"0"的值表示越强的调性。 因此,在各个范围计算SFM, SFM最接近"0"的范围被选择。
本实施方式的语音解码装置具有与实施方式1的语音解码装置200(参照 图8)同样的结构,与语音解码装置200的不同之处仅在于,具有第二层解码 单元403以代替第二层解码单元203。因此,未图示本实施方式的语音解码装置的整体结构,并省略其详细的说明。
图14是表示本实施方式的第二层解码单元403内部的结构的方框图。另 外,第二层解码单元403具有与实施方式1所示的第二层解码单元203同样 的基本结构,对相同的结构要素附加相同的标号,并省略其说明。
第二层解码单元403的分离单元431和第一层误差变换系数生成单元 434与第二层解码单元203的分离单元231和第一层误差变换系数生成单元 234在一部分处理上存在不同,为了表示该不同而对其附加不同的标号。
分离单元431与实施方式1所示的分离单元231的不同之处仅在于,除 了形状编码信息和增益编码信息之外,还将范围信息分离从而将其输出到第 一层误差变换系数生成单元434,这里省略其详细的说明。
第一层误差变换系数生成单元434将由形状向量码本232输入的形状向 量候补乘以由增益向量码本233输入的增益向量候补而生成第一层误差变换 系数,并将其配置在范围信息表示的范围所包含的子带中而输出到加法器 204。
这样,根据本实施方式,语音编码装置选择调性最高的范围,在所选择 的范围中,在时间上先于各个子带的增益地对形状向量进行编码。由此,对 如语音的元音或音乐信号那样的调性较强的信号的频谱的形状进一步正确地 进行编码,同时仅在所选择的范围中进行编码,从而能够减低编码比特率。
另夕卜,在本实施方式中,举例说明了计算SFM作为评价规定的各个范围 的调性的指标的情况,但本发明并不限定于此,例如,因为规定的范围的平 均能量与调性的大小之间的相关较强,所以也可以计算规定的范围中包含的 变换系数的平均能量作为调性评价的指标。由此,与求SFM相比,更能够减 低运算量。
具体而言,范围选择单元351根据下式(10)计算范围j中包含的第一层误
差变换系数e,(k)的能量ER(j)。
<formula>formula see original document page 20</formula>…(10)
在该式中,j表示用于确定范围的识别符,FRL(j)表示范围j的最低频率, FRH(j)表示范围j的最高频率。这样,范围选择单元351求范围的能量ER(j), 接着确定第 一层误差变换系数的能量最大的范围,并对该范围中包含的第一 层误差变换系数进行编码。另外,也可以根据下式(ll),进行反映了人的听觉特性的加权来求第一
层误差变换系数的能量。
層(力
柳=S …(11)
在上述的情况下,对于听觉特性上的重要度越高的频率,使权重w(k)越 大,以使易于选择包含该频率的范围,而对于重要度越低的频率,使权重w(k)
越小,以使难以选择包含该频率的范围。由此,听觉上越重要的频带越优先
地被选择,从而能够提高解码语音的音质。作为该权重w(k),也可以利用例 如听觉掩蔽阈值或人的听觉的响度特性而求得的权重,所述听觉掩蔽阈值是 基于输入信号或低层的解码信号(第一层解码信号)计算出的阈值。
另外,范围选择单元351也可以采用以下的结构,即从配置在比规定的 频率(基准频率)低的频率的范围中进行选择。
图15是用于说明在范围选择单元351中,从配置在比规定的频率(基准 频率M氐的频率的范围中进行选择的方法的图。
在图15中,以八个选择范围的候补配置在比规定的基准频率Fy低的频
带的情况为例进行说明。这些八个范围分别以F1、 F2.....F8作为起点,并
由规定长度的频带而构成,范围选择单元351基于上述的选择方法,从这些 八个候补中选择一个范围。由此,选择出位于比规定的基准频率Fy低的频率 的范围。这样,重视低频(或低中频)而进行编码的优点如下。
作为语音信号的特征之一的谐波结构(或称为Harmonics结构)、即频镨在 某个频率间隔出现波峰状的结构,与在高频部分相比,在低频部分出现较大
的波峰。在通过编码处理产生的量化误差(误差频镨或误差变换系数)中也同样 地残留波峰性,与高频部分相比,低频部分的波峰性较强。因此,即使在与 高频部分相比,低频部分的误差频谱的能量较小时,误差频谱的波峰性也较 强,所以误差频语容易超过听觉掩蔽阔值(人能够听到声音的阈值),引起听觉 上的音质劣化。也就是说,即使误差频谱的能量较小,与高频部分相比,低 频部分的听觉上的灵敏度也较高。因此,范围选择单元351通过釆用从配置 在比规定的频率低的频率的候补中选择范围的结构,能够从误差频语的波峰 性较强的低频部分中确定作为编码的对象的范围,提高解码语音的音质。
另外,作为编码对象的范围的选择方法,也可以与在先前帧所选择的范 围相关联来选择当前帧的范围。例如,可列举以下的方法,即(l)从位于在先前帧所选择的范围的附近的范围中决定当前帧的范围,(2)将当前帧的范围的
候补重新配置到在先前帧所选择的范围的附近,并>^人该重新配置后的范围的
候补中决定当前帧的范围,以及(3)以每几个帧一次的程度传输范围信息,并
在不传输范围信息的帧中利用先前传输的范围信息所表示的范围(范围信息 的间歇传输)等。 -
另外,如图16所示,范围选择单元351也可以将所有频带预先分割为多 个部分频带,从各个部分频带中分别选择一个范围,结合各个部分频带中选 择出的范围,并将该结合范围作为编码对象。在图16中,举例说明了部分频 带的数目为2,并且设定了部分频带1以使其覆盖低频部分,设定了部分频 带2以使其覆盖高频部分的情况。另外,部分频带1和部分频带2分别由多 个范围构成。范围选择单元351从部分频带1和部分频带2中分别选择一个 范围。例如,如图16所示,在部分频带1中选择了范围2,而在部分频带2 中选择了范围4。以下,将表示从部分频带1中选择出的范围的信息称为第 一部分频带范围信息,而将表示从部分频带2中选择出的范围的信息称为第 二部分频带范围信息。接着,范围选择单元351结合从部分频带1中选择出 的范围和从部分频带2中选择出的范围而构成结合范围。该结合范围是在范 围选择单元351中选择出的范围,形状向量编码单元352对该结合范围进行 形状向量编码。
图17是表示与部分频带的数目为N时对应的范围选择单元351的结构 的方框图。在图17中,由子带构成单元151输入的子带变换系数分别提供给 部分频带1选择单元511-1至部分频带N选择单元511-N。各自的部分频带n 选择单元511-n(n-l至N)从各个部分频带n中选择一个范围,并将表示了选 择出的范围的信息即第n部分频带范围信息输出到范围信息构成单元512。 范围信息构成单元512将由部分频带l选择单元511-1至部分频带N选择单 元511-N输入的各个第11部分频带范围信息(11=1至N)所示的各个范围进行结 合而获得结合范围。然后,范围信息构成单元512将表示结合范围的信息输 出到形状向量编码单元352和复用单元155作为范围信息。
图18是举例说明在范围信息构成单元512中构成范围信息的情形的图。 如图18所示,范围信息构成单元512依序排列第一部分频带范围信息(A1比 特)至第N部分频带范围信息(AN比特)来构成范围信息。这里,各个第n部 分频带范围信息的比特长度An由各个部分频带n中包含的候补范围的数目来决定,其也可以分别具有不同的值。
图19是用于说明与图17所示的范围选择单元351对应的第一层误差变 换系数生成单元434(参照图14)的动作的图。这里,以部分频带的数目是2 的情况为例。第一层误差变换系数生成单元434将由形状向量码本232输入 的形状向量候补乘以由增益向量码本233输入的增益向量候补。然后,第一 层误差变换系数生成单元434将进行上述的增益候补乘法运算后的形状向量 候补,配置在部分频带1和部分频带2的各个范围信息所示的各个范围中。 这样求得的信号作为第一层误差变换系数被输出。
根据如图16所示的范围选择方法,从各个部分频带中决定一个范围,所 以能够将至少一个解码频谱配置在部分频带中。因此,通过预先设定希望改 善音质的多个频带,与从所有频带中仅选择一个范围的范围选择方法相比, 能够提高解码语音的质量。例如,如图16所示的范围选择方法对于要同时实 现低频部分和高频部分的两者的质量改善的情况等是有效的。
另夕卜,作为图16所示的范围选择方法的变化,如图20举例说明的那样, 也可以在特定的部分频带中总是选择固定的范围。在图20举例说明的例子 中,在部分频带2中总是选择范围4,其是结合范围的一部分。根据图20所 示的范围选择方法,与图16所示的范围选择方法的效果同样地,能够预先设 定希望改善音质的频带,并且由于例如不需要部分频带2的部分频带范围信 息,能够使用于表示范围信息的比特数更少。
另外,图20以在高频部分(部分频带2)中总是选择固定的范围的情况为 例进行表示,但并不限定于此,既可以在低频部分(部分频带l)中总是选择固 定的范围,还可以在图.20中未图示的中频部分的部分频带中总是选择固定的 范围。
另外,作为图16和图20所示的范围选择方法的变化,如图21所示,也 可以在各个部分频带中包含的候补范围的带宽不同。在图21中,举例说明与 在部分频带1中包含的候补范围相比,在部分频带2中包含的候补范围的带 宽更短的情况。
(实施方式4)
在本发明的实施方式4中,对每个帧判断调性的程度,并根据其结果决 定形状向量编码和增益编码的顺序。
本发明的实施方式4的语音编码装置具有与实施方式1的语音编码装置IOO(参照图l)同样的结构,与语音编码装置IOO的不同之处仅在于,具有第 二层编码单元505以代替第二层编码单元105。因此,未图示本实施方式的 语音编码装置的整体结构,并省略其详细的说明。
图22是表示第二层编码单元505内部的结构的方框图。另外,第二层编 码单元505具有与图1所示的第二层编码单元105同样的基本结构,对相同 的结构要素附加相同的标号,并省略其说明。
第二层编码单元505与实施方式1的第二层编码单元105的不同之处在 于,还包括调性判定单元551、切换单元552、增益编码单元553、归一化 单元554、形状向量编码单元555、以及切换单元556。另外,在图22中, 形状向量编码单元152、增益向量构成单元153和增益向量编码单元154构 成编码系统(a),增益编码单元553、归一化单元554和形状向量编码单元555 构成编码系统(b)。
调性判定单元551求SFM作为评价由减法器104输入的第一层误差变换 系数的调性的指标,在求得的SFM小于规定的阈值时,将"高"输出到切换 单元552和切换单元556作为调性判定信息,而在求得的SFM为规定的阈值 以上时,将"低"输出到切换单元552和切换单元556作为调性判定信息。
另外,这里利用SFM作为评价调性的指标而进行说明,但并不限定于此, 也可以利用例如第 一层误差变换系数的分散等其他的指标而进行判定。另外, 对调性的判定,也可以利用输入信号等其他的信号而进行判定。例如,也可 以利用输入信号的基音分析结果或在低层(在本实施方式中为第一层编码单 元)对输入信号进行了编码的结果。
在由调性判定单元551输入的调性判定信息为"高"时,切换单元552 将由子带构成单元151输入的M个子带变换系数依序输出到形状向量编码单 元152,而在由调性判定单元551输入的调性判定信息为"低"时,切换单 元552将由子带构成单元151输入的M个子带变换系数依序输出到增益编码 单元553和归一化单元554。
增益编码单元553计算由切换单元552输入的M个子带变换系数的平均 能量,对计算出的平均能量进行量化,并将量化索引输出到切换单元556作 为增益编码信息。另外,增益编码单元553利用增益编码信息进行增益解码 处理,并将所获得的解码增益输出到归一化单元554。
归一化单元554利用由增益编码单元553输入的解码增益,对由切换单元552输入的M个子带变换系数进行归一化,并将所获得的归一化形状向量 输出到形状向量编码单元555。
形状向量编码单元555对由归一化单元554输入的归一化形状向量进行 编码处理,并将获得的形状编码信息输出到切换单元556。
在由调性判定单元551输入的调性判定信息为"高,,时,切换单元556 将分别由形状向量编码单元152和增益向量编码单元154输入的形状编码信 息和增益编码信息输出到复用单元155,而在由调性判定单元551输入的调 性判定信息为"低"时,切换单元556将分别由增益编码单元553和形状向 量编码单元555输入的增益编码信息和形状编码信息输出到复用单元155。
如上所述,在本实施方式的语音编码装置中,根据第一层误差变换系.数 的调性为"高"的情况,利用系统(a)先于增益编码进行形状向量编码,而根 据第一层误差变换系数的调性为"低"的情况,利用系统(b)先于形状向量编 码进行增益编码。
这样,根据本实施方式,按照第一层误差变换系数的调性,自适应地改 变增益编码和形状向量编码的顺序,所以能够根据作为编码对象的输入信号 抑制增益编码失真和形状向量编码失真的双方,从而能够进一步提高解码语
音的音质。
(实施方式5 )
图23是表示本发明实施方式5的语音编码装置600的主要结构的方框图。
在图23中,语音编码装置600包括第一层编码单元601、第一层解码 单元602、延迟单元603、减法器604、频域变换单元605、第二层编码单元 606、以及复用单元106。其中,复用单元106与图1所示的复用单元106同 样,所以省略其详细的说明。另外,在第二层编码单元606与图12所示的第 二层编码单元305在一部分处理上存在不同,为了表示该不同而对其附加不 同的标号。
第一层编码单元601对输入信号进行编码,并将所生成的第一层编码数 据输出到第一层解码单元602和复用单元106。将在后面杀又述第一层编码单 元601的细节。
第一层解码单元602利用由第一层编码单元601输入的第一层编码数据 进行解码处理,并将所生成的第一层解码信号输出到减法器604。将在后面叙述第一层解码单元602的细节。
延迟单元603对输入信号赋予规定的延迟后将其输出到减法器604。延 迟的长度与在第一层编码单元601和第一层解码单元602的处理中产生的延 迟的长度相同。
减法器604计算由延迟单元603输入的延迟后的输入信号与由第一层解 码单元602输入的第一层解码信号之间的差,并将所获得的误差信号输出到 频域变换单元605。
频域变换单元605将由减法器604输入的误差信号变换到频域的信号, 并将所获得的误差变换系数输出到第二层编码单元606。
图24是表示第一层编码单元601内部的主要结构的方框图。
在图24中,第一层编码单元601包括下采样单元611和核心编码单元
612。
下采样单元611对时域的输入信号进行下采样而变换为期望的采样率, 并将下采样后的时域信号输出到核心编码单元612。
核心编码单元612对变换为期望的采样率后的输入信号进行编码处理, 并将所生成的第一层编码数据输出到第一层解码单元602和复用单元106。
图25是表示第一层解码单元602内部的主要结构的方框图。
在图25中,第一层解码单元602包括核心解码单元621、上采样单元 622和高频分量赋予单元623,并且以由噪声等构成的类似信号代用高频部 分。其基于以下技术,即通过以类似信号表示听觉上重要度较低的高频部分, 相应地增大听觉上较重要的低频部分(或低中频部分)的比特分配而提高对于 该频带的原始信号的保真度,从而实现整体地提高解码语音的音质。
核心解码单元621利用由第一层编码单元601输入的第一层编码数据进 行解码处理,并将所获得的核心解码信号输出到上采样单元622。另外,核 心解码单元621将通过解码处理所求得的解码LPC系数输出到高频分量赋予 单元623。
上采样单元622对由核心解码单元621输入的解码信号进行上采样而变 换为与输入信号相同的采样率,并将上采样后的核心解码信号输出到高频分 量赋予单元623。
高频分量赋予单元623对下采样单元611中的下釆样处理所产生的缺损 了的高频分量利用类似信号进行补偿。作为类似信号的生成方法,由在核心解码单元621的解码处理中求得的解码LPC系数构成合成滤波器,并通过该 合成滤波器和带通滤波器对能量调整后的噪声信号依序进行滤波的方法为人 所知。虽然由此方法求得的高频分量对听觉上的频带感的扩散作出贡献,但 由于其具有与原始信号的高频分量截然不同的波形,所以由减法器求得的误 差信号的高频部分的能量增大。
在第一层编码处理具有这样的特征时,误差信号的高频部分的能量增大, 从而难以选择出原本听觉上的灵敏度较高的低频部分。因此,本实施方式的 第二层编码单元606从配置在比规定的频率(基准频率)低的频率的候补中选 择范围,从而避免上述高频部分的误差信号的能量增加所造成的弊端。也就 是说,第二层编码单元606进行如图15所示的选择处理。
图26是表示本发明实施方式5的语音解码装置700的主要结构的方框 图。另外,语音解码装置700具有与图8所示的语音解码装置200同样的基 本结构,对相同的结构要素附加相同的标号,并省略其说明。
在语音解码装置700的第一层解码单元702与语音解码装置200的第一 层解码单元202在一部分处理上存在不同,所以附加不同的标号。另外,第 一层解码单元702的结构和动作与语音编码装置600的第一层解码单元602 同样,所以省略其详细的说明。
语音解码装置700的时域变换单元706与语音解码装置200的时域变换 单元206的不同之处仅在于配置位置,而进行同样的处理,所以附加不同的 标号,并省略其详细的iJL明。
这样,才艮据本实施方式,在第一层的编码处理中以由噪声等构成的类似 信号代用高频部分,相应地增大听觉上重要的低频部分(或低中频部分)的比特 分配而提高对于该频带的原始信号的保真度,并且在第二层的编码处理中将 比规定的频率低的范围作为编码对象而避免高频部分的误差信号的能量增大 所造成的弊端,在时间上先于增益的编码进行形状向量的编码,因此对如元 音那样的调性较强的信号的频语的形状进一步正确地进行编码,同时能够不 增加比特率而进一步减低增益向量编码失真,从而能够进一步提高解码语音 的音质。
另外,在本实施方式中,举例说明了减法器604取时域的信号的差的情 况,但本发明并不限定于此,减法器604也可以取频域的变换系数的差。在 上述的情况下,将频域变换单元605配置在延迟单元603与减法器604之间而求输入变换系数,并且将另一个频域变换单元配置在第一层解码单元602 与减法器604之间而求第一层解码变换系数。然后,减法器604取输入变换 系数与第 一层解码变换系数之间的差,并将该误差变换系数直接提供给第二 层编码单元606。根据该结构,能够进行在某个频带取差而在其他的频带不 取差那样的自适应的减法处理,从而能够进一步提高解码语音的音质。
另外,在本实施方式中,举例说明了不将关于高频部分的信息发送到语 音解码装置的结构,但本发明并不限定于此,也可以采用对利用比低频部分 低的比特率对高频部分的信号进行编码而发送到语音解码装置的结构。 (实施方式6)
图27是表示本发明实施方式6的语音编码装置800的主要结构的方框 图。另外,语音编码装置800具有与图23所示的语音编码装置600同样的基 本结构,对相同的结构要素附加相同的标号,并省略其说明。
语音编码装置800与语音编码装置600的不同之处在于,还包括权重滤 波器801。
权重滤波器801通过对误差信号进行滤波来进行听觉上的加权,并将加 权后的误差信号输出到频域变换单元605。权重滤波器801使输入信号的频 语平坦化(白化)或变化为与其接近的频谱特性。例如,利用由第一层解码单元 602获得的解码LPC系数,并利用下式(12)来表示权重滤波器的传递函数 w(z)。
『。=1 —1>(/)./i'…(12)
在式(12)中,a(i)是LPC系数,NP是LPC系数的阶数,而且Y是控制频 谱平坦化(白化)的程度的参数,取0《y《l的范围的值。y越大,平坦化的程 度越大,这里例如对Y使用0.92。
图28是表示本发明实施方式6的语音解码装置900的主要结构的方框 图。另外,语音解码装置900具有与图26所示的语音解码装置700同样的基 本结构,对相同的结构要素附加相同的标号,并省略其说明。
语音解码装置900与语音解码装置700的不同之处在于,还包括合成滤 波器901。
合成滤波器901由具有与语音编码装置800的权重滤波器801相反的频 谱特性的滤波器构成,对由时域变换单元706输入的信号进行滤波处理后输出到加法单元204。利用下式(13)表示合成滤波器901的传递函数B(z)。
<formula>formula see original document page 29</formula>
在式(13)中,a(i)是LPC系数,NP是LPC系数的阶数,而且y是控制频 谱平坦化(白化)的程度的参数,取(Ky《l的范围的值。y越大,平坦化的程 度越大,这里例如对y使用0.92。
如上所述,语音编码装置800的权重滤波器801由具有与输入信号的频 谱包络相反的频语特性的滤波器构成,而语音解码装置900的合成滤波器901 由具有与权重滤波器相反的频谱特性的滤波器构成。因此,合成滤波器具有 与输入信号的频语包络同样的特性。 一般而言,对于语音信号的频语包络而 言,低频部分的能量比高频部分的能量呈现得大,所以虽然通过合成滤波器 前的信号的编码失真在低频部分与高频部分同等,但在通过合成滤波器后, 低频部分的编码失真变大。原本,语音编码装置800的权重滤波器801以及 语音解码装置900的合成滤波器901是为了通过听觉掩蔽效果来使编码失真 难以听见而导入的,但在因低比特率而无法缩小编码失真时,听觉掩蔽效果 无法充分地发挥效果,而编码失真变得容易被察觉。在这样的情况下,由于 语音解码装置900的合成滤波器901增大编码失真的低频部分的能量,所以 容易出现低频部分的质量劣化。在本实施方式中,如实施方式5所示,通过 第二层编码单元606从配置在比规定的频率(基准频率)低的频率的候补中选 捧作为编码对象的范围,减轻上述低频部分的编码失真被增强的弊端,从而
实现解码语音的音质的提高。
这样,根据本实施方式,语音编码装置具有权重滤波器,语音解码装置 具有合成滤波器,利用听觉掩蔽效果来实现质量改善,而且在第二层的编码 处理中,通过将比规定的频率低的范围作为编码对象,减轻使编码失真的低 频部分的能量增大的弊端,并且由于在时间上先于增益的编码进行形状向量 的编码,对如元音那样的调性较强的信号的频语的形状进一步正确地进行编 码,同时能够不增加比特率而降低增益向量编码失真,从而能够进一步提高 解码语音的音质。 (实施方式7)在本发明的实施方式7中,说明在语音编码装置和语音解码装置采用由 一个基本层和多个扩展层构成的三层以上的结构时,在各个扩展层中选择作 为编码对象的范围。
图29是表示本发明实施方式7的语音编码装置1000的主要结构的方框图。
语音编码装置1000具有四层,并包括频域变换单元101、第一层编码 单元102、第一层解码单元603、减法器604、第二层编码单元606、第二层 解码单元IOOI、加法器1002、减法器1003、第三层编码单元1004、第三层 解码单元1005、加法器1006、减法器1007、第四层编码单元1008、以及复 用单元1009。其中,频域变换单元101和第一层编码单元102的结构和动作 如图1所示,第一层解码单元603、减法器604和第二层编码单元606的结 构和动作如图23所示,具有从1001至1009的序号的各个块的结构和动作与 101、 102、 603、 604和606的各个块的结构和动作类似而可以类推,所以这 里省略其详细的说明。
图30是用于说明语音编码装置1000的编码处理中、作为编码对象的范 围的选择处理的图。其中,图30A至图30C分别是用于说明第二层编码单元 606的第二层编码、第三层编码单元1004的第三层编码、以及第四层编码单 元1008的第四层编码中的范围选择的处理的图。
如图30A所示,在第二层编码中,选择范围的候补被配置在比第二层用 基准频率Fy(L2)低的频带中,在第三层编码中,选择范围的候补被配置在比 第三层用基准频率Fy(L3)低的频带中,在第四层编码中,选择范围的候补被 配置在比第四层用基准频率Fy(L4)低的频带中。另外,在各个扩展层的基准 频率之间存在Fy(L2;KFy(L3)〈Fy(L4)的关系。各个扩展层的选择范围的候补 的数目是相同的,这里以四个的情况为例。也就是说,越是比特率较低的低 层(例如第二层),越从听觉上的灵敏度较高的低频的频带中选择作为编码的对 象的范围,在比特率较高的高层(例如第四层)从包含到高频部分为止的更宽的 频带中选择作为编码的对象的范围。通过采用这样的结构,在低层中重视低 频部分,在高层中覆盖更宽的频带,从而能够实现语音信号的高音质化。
图31是表示本实施方式的语音解码装置1100的主要结构的方框图。
在图31中,语音解码装置IIOO是由四层构成的可扩展语音解码装置, 包括分离单元1101、第一层解码单元1102、第二层解码单元1103、加法单元1104、第三层解码单元1105、加法单元1106、第四层解码单元1107、加 法单元1108、切换单元1109、时域变换单元1110、以及后置滤波器1111。 另外,这些各个功能块的结构和动作与图8所示的语音解码装置200的各个 功能块的结构和动作类似而可以类推,所以这里省略其详细的说明。
这样,根据本实施方式,在可扩展语音编码装置中,通过越是比特率较 低的低层,越从听觉上的灵敏度较高的低频的频带中选择作为编码的对象的 范围,在比特率越高的高层越从包含到高频部分的宽的频带中选择作为编码 的对象的范围,可在低层中重视低频部分,而在高层中覆盖更宽的频带,并 且在时间上先于增益的编码进行形状向量的编码,因此对如元音那样的调性 较强的信号的频语的形状进一步正确地进行编码,同时能够不增加比特率而 进一步降低增益向量编码失真,从而能够进一步提高解码语音的音质。
另外,在本实施方式中,举例说明了在各个扩展层的编码处理中,从如 图30所示的范围选择的候补中选择编码对象的情况,但本发明并不限定于 此,也可以从如图32和图33所示的等间隔地配置的范围的候补中选择编码 对象。
图32A、图32B和图33分别是用于说明第二层编码、第三层编码和第 四层编码中的范围选择的处理的图。如图32和图33所示,各个扩展层中的 选择范围的候补的数目不同,这里分别举例说明四个、六个和八个的情况。 在这样的结构中,在低层从低频的频带中决定作为编码的对象的范围,并且 选择范围的候补的数目少于高层,所以也能够削减运算量和比特率。
另外,作为各个扩展层中的编码对象的范围的选择方法,也可以与在低 层所选择的范围关联地选择当前层的范围。例如,可列举以下的方法,即(l) 从位于在低层所选择的范围的附近的范围中决定当前层的范围,(2)将当前层 的范围的候补重新配置到在低层所选择的范围的附近,并从该重新配置后的 范围的候补中决定当前层的范围,以及(3)以每几个帧一次的程度传输范围信 息,并在不传输范围信息的帧中利用先前传输的范围信息表示的范围(范围信 息的间歇传输)等。
以上,说明了本发明的各个实施方式。
另外,在上述各个实施方式中,作为语音编码装置和语音解码装置的结 构,举例说明了两层的可扩展结构,但本发明并不限定于此,也可以采用三 层以上的可扩展结构。另外,本发明也能够适用于不是可扩展结构的语音编码装置。
另外,在上述各个实施方式中,能够利用CELP的方法作为第一层的编 码方法。
另外,在上述各个实施方式中的频域变换单元由FFT、 DFT (Discrete Fourier Transform ,离散傅立叶变换)、DCT ( Discrete Cosine Transform,离散 余弦变换)、MDCT(Modified Discrete Cosine Transform ,改进离散余弦变换)、 子带滤波器等来实现。
而且,虽然在上述各个实施方式中,假定了语音信号作为解码信号,但 本发明并不限于此,例如也可以是音频信号等。
另外,在上述各个实施方式中,举例说明了以硬件构成本发明的情况, 但本发明也可通过软件来实现。
另外,在上述各个实施方式的说明中使用的各个功能块,典型地作为集 成电路的LSI来实现。这些块既可是每个块单独地集成到一个芯片,或者可 以是部分或所有块集成到一个芯片。在此虽然称为LSI,但根据集成度的不 同也可以称为IC、系统LSI、超大LSI(SuperLSI)或特大LSI(UltraLSI)。
另外,集成电路化的技术不只限于LSI,也可以使用专用电路或通用处 理器来实现。也可以利用能够在LSI制造后编程的FPGA( Field Programmable Gate Array,现场可编程门阵列),或利用可重构LSI内部的电路单元的连接 和i殳定的可重构处理器(Reconfigurable Processor )。
进而,随着半导体技术的进步或随之派生的其他技术出现,如果出现可 取代LSI集成电路的新技术,当然也可以利用该新技术进行功能块的集成化。 还存在着适用生物技术等的可能性。
在2007年3月2日提交的特愿第2007-053502号的日本专利申请、在 2007年5月18日提交的特愿第2007-133545号的日本专利申请、在2007年 7月13日提交的特愿第2007-185077号的日本专利申请以及在2008年2月 26曰提交的特愿第2008-045259号的日本专利申请中所包含的说明书、说明 书附图和说明书摘要的公开内容,全部都引用于本申请。
工业实用性
本发明的语音编码装置和语音编码方法能够适用于移动通信系统中的无 线通信终端装置和基站装置等。
权利要求
1.编码装置,包括基本层编码单元,对输入信号进行编码而获得基本层编码数据;基本层解码单元,对所述基本层编码数据进行解码而获得基本层解码信号;以及扩展层编码单元,对作为所述输入信号与所述基本层解码信号之间的差的残差信号进行编码而获得扩展层编码数据,所述扩展层编码单元包括分割单元,将所述残差信号分割为多个子带;第一形状向量编码单元,对所述多个子带的各个子带进行编码而获得第一形状编码信息,并且计算所述多个子带的各个子带的目标增益;增益向量构成单元,利用所述多个目标增益构成一个增益向量;以及增益向量编码单元,对所述增益向量进行编码而获得第一增益编码信息。
2. 如权利要求1所述的编码装置,所述第一形状向量编码单元利用包含一个以上位于任意的频率的脉冲 的、由多个形状向量候补构成的形状向量码本,对所述多个子带的各个子带 进行编码。
3. 如权利要求2所述的编码装置,所述第一形状向量编码单元利用与从所迷形状向量码本中选择出的所述 形状向量候补有关的相关信息,对所述多个子带的各个子带进行编码。
4. 如权利要求1所述的编码装置, 所述扩展层编码单元还包括范围选择单元,计算利用任意数的相邻的所述子带构成的多个范围的调 性,并从所述多个范围中选择所述调性最高的一个范围,所述第一形状向量编码单元、所述增益向量构成单元以及所述增益向量 编码单元对构成所述选择所得的范围的多个子带进行处理。
5. 如权利要求1所述的编码装置, 所述扩展层编码单元还包括范围选择单元,计算利用任意数的相邻的所述子带构成的多个范围的平 均能量,并从所述多个范围中选择所述平均能量最高的一个范围,所述第一形状向量编码单元、所述增益向量构成单元以及所述增益向量 编码单元对构成所述选择所得的范围的多个子带进行处理。
6. 如权利要求1所述的编码装置, 所述扩展层编码单元还包括范围选择单元,计算利用任意数的相邻的所述子带构成的多个范围的听 觉加权能量,并从所述多个范围中选择所述听觉加权能量最高的一个范围,所述第一形状向量编码单元、所述增益向量构成单元以及所述增益向量 编码单元对构成所述选择所得的范围的多个子带进行处理。
7. 如权利要求4至权利要求6的任一项所述的编码装置, 所述范围选择单元从频带频率比规定的频率低的频带的多个范围中选择一个范围。
8. 如权利要求4至权利要求6的任一项所述的编码装置, 具有多个所述扩展层,越高的层,所述规定的频率越高。
9. 如权利要求1所述的编码装置, 所述扩展层编码单元还包括范围选择单元,利用任意数的相邻的所述子带构成多个范围,利用任意 数的所述范围构成多个部分频带,在所述多个部分频带的各个部分频带中选 择平均能量最高的一个范围,并将选择所得的多个范围进行结合而构成结合 范围,所述第一形状向量编码单元、所述增益向量构成单元以及所述增益向量 编码单元对构成所述选择所得的结合范围的多个子带进行处理。
10. 如权利要求9所述的编码装置,所述范围选择单元在所述多个部分频带的至少一个部分频带中,总是选 择预先确定的固定的范围。
11. 如权利要求1所述的编码装置, 所述扩展层编码单元还包括调性判定单元,判定所述输入信号的调性的强度,在判定为所述输入信号的调性的强度是规定等级以上时,所述扩展层编 码单元将所述残差信号分割为多个子带,对所述多个子带的各个子带进行编 码而获得第一形状编码信息,并且计算所述多个子带的各个子带的目标增益, 利用所述多个目标增益构成一个增益向量,对所述增益向量进行编码而获得第一增益编码信息。
12. 如权利要求1至权利要求11的任一项所述的编码装置, 所述基本层编码单元还包括下采样单元,对所述输入信号进行下采样而获得下采样信号;以及 核心编码单元,对所述下采样信号进行编码而获得作为编码数据的核心 编码数据,所述基本层解码单元包括核心解码单元,对所述核心编码数据进行解码而获得核心解码信号; 上采样单元,对所述核心解码信号进行上采样而获得上采样信号;以及 代用单元,以噪声代用所述上采样信号的高频分量。
13. 如权利要求1所述的编码装置, 还包括增益编码单元,对所述多个子带的各个变换系数的增益进行编码而获得第二增益编码信息;归一化单元,利用对所述增益编码信息进行解码所得的解码增益,对所述多个子带的变换系数的各个变换系数进行归一化而获得归一化形状向量; 第二形状向量编码单元,对所述多个归 一化形状向量的各个归 一化形状向量进行编码而获得第二形状编码信息;以及判定单元,对每个帧计算所述输入信号的调性,在判定为所述调性为所 述阈值以上时,将所述多个子带的变换系数输出到所述第一形状向量编码单 元,而在判定为所述调性小于所述阈值时,将所述多个子带的变换系数输出 到所述增益编码单元。
14. 编码方法,包括以下的步骤将变换系数分割为多个子带,所述变换系数是将输入信号变换到频域而 获得的变换系数;对所述多个子带的变换系数的各个变换系数进行编码而获得第 一形状编 码信息,并且计算所述多个子带的各个变换系数的目标增益; 利用所述多个目标增益构成一个增益向量;以及 对所述增益向量进行编码而获得第一增益编码信息。
全文摘要
提供了能够对如元音那样的调性较强的信号的频谱的形状进一步正确地进行编码的语音编码装置等。在该装置中,子带构成单元(151)将作为编码对象的第一层误差变换系数分割为M个子带并生成M个子带变换系数,形状向量编码单元(152)对M个子带变换系数的各个子带变换系数进行编码而获得M个形状编码信息,并且计算M个子带变换系数的各个子带变换系数的目标增益,增益向量构成单元(153)利用M个目标增益构成一个增益向量,增益向量编码单元(154)对增益向量进行编码而获得增益编码信息,复用单元(155)将形状编码信息与增益编码信息复用。
文档编号G10L19/02GK101622662SQ20088000678
公开日2010年1月6日 申请日期2008年2月29日 优先权日2007年3月2日
发明者山梨智史, 押切正浩, 森井利幸 申请人:松下电器产业株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1