编码装置、解码装置及它们的方法

文档序号:7946950阅读:133来源:国知局
专利名称:编码装置、解码装置及它们的方法
技术领域
本发明涉及对宽带的语音信号和音频信号等的频谱进行编码的编码装置、解码装置、它们的方法。
背景技术
在语音编码的领域中,作为将50Hz~7kHz的宽带信号编码的具代表性的方法,有ITU-T的标准G722、G722.1,或者3GPP(The 3rd GenerationPartnership Project)提倡的AMR-WB等。根据这些编码方式,能够对比特率为6.6kbit/s~64kbit/s的宽带的语音信号进行编码。可是,该宽带信号的音质虽然比窄带信号好,但在以音频信号为对象时以及对语音信号进一步要求如亲临现场般的高质量时,并不充分。
一般而言,如果能够将信号的最大频率宽带化到10~15kHz的程度,能够获得相当于FM收音机的亲临现场感,如果能够宽带化到20kHz的程度的话,能够获得相当于CD的质量。对于这样的宽带信号的编码,以MPEG(Moving Picture Expert Group)标准化的第3层(Layer 3)方式和AAC(Advanced audio coding)方式等为代表的对音频信号的编码方式较适合。可是,这些音频编码方式,由于编码对象的频带较宽,所以编码参数的比特率变大。
在专利文献1中,公开了以下技术作为以低比特率高质量地对宽带信号的频谱进行编码的技术在宽带频谱中,以低频率域的频谱的复制置换高频部分的频谱后,进行包络线调整,由此在抑制质量恶化的同时降低整体的比特率。
而在专利文献2中公开了以下技术将频谱分隔为多个子带,对每个子带计算增益并生成增益向量,对该增益向量进行向量量化,由此降低比特率。
特表2001-521648号公报(第15页、图1、图2)[专利文献2]特开平5-265487号公报

发明内容
本发明需要解决的问题图1A~图1D是表示将专利文献1公开的技术适用于频带0≤k<FH的原有信号时的各个频谱的图。
图1A表示原有信号的频谱,图1B表示将原有信号的频谱的高频部分(FL≤k<FH)删除后的低频频谱,图1C表示通过将图1B的低频频谱的复制插入高频部分而获得的全频带的频谱,图1D表示进行高频部分的包络线调整之后的频谱。
这样,以低频频谱的复制置换高频频谱后进行包络线调整的理由是,因为知道新生成的高频频谱(复制频谱)的轮廓与原有信号的高频频谱的轮廓差异大时,会产生较大的质量恶化。因此,通过调整新生成的高频频谱的轮廓,来提高原有信号的高频频谱和新生成的频谱的相似程度是非常重要的。
作为调整高频频谱的轮廓的方法,例如可以考虑对复制频谱乘以调整系数(增益),以使复制频谱的功率与原有信号的高频频谱的功率相一致。图2A、B是表示通过对该复制频谱乘以增益的处理而获得的频谱的轮廓的一个例子的图。
图2A是表示原有信号的频谱的轮廓的图,图2B是表示轮廓调整后的频谱的轮廓的图。
从图可得知,进行上述的频谱轮廓调整的话,所获得的频谱有下述的不适状况。即,在低频频谱和高频频谱的连接部分发生不连续的现象,成为产生奇怪的噪声的原因。这是因为对高频频谱全体一律乘以相同增益,虽然高频频谱的功率与原有信号的相一致,但不见得能保持低频频谱和高频频谱之间的连续性。并且,在低频频谱的轮廓具有某种特征性的形状时,如果仅一律地乘以相同增益,该具特征性的形状仍会不适宜地留在高频部分,而这也将成为音质恶化的原因之一。
例如,也可以考虑通过将专利文献2的技术应用在上述的频谱的轮廓调整,即,通过在子带分割后对每个子带调整增益来进行轮廓调整。图3A、B是表示通过该处理而获得的频谱的轮廓的一个例子的图。
图3A是表示原有信号的频谱的轮廓的图,图3B是表示在子带分割后调整各个子带的增益时的频谱的轮廓的图。
从该图可知,在应用专利文献2的技术时,有可能发生高频频谱形状的不正确(不能高精度地再现原本的原有信号的形状)。这是由于下述原因而产生在对每个子带调整增益的方法,为了高精度地进行编码而增加子带的数量,在原本需要较多的比特数时却不能分配到充分的比特数。由于在一开始以低频频谱的复制置换高频频谱就是以低比特率化为目的,所以理所当然会产生这个状况。
如上述说明,在现有的方法中,将宽带信号的频谱编码时,难以在实现低比特率化的同时提高原有信号的高频频谱与新生成的频谱之间的相似程度。
因此,本发明的目的在于提供一种能够在将宽带信号的频谱编码时,在实现低比特率化的同时,提高原有信号的高频频谱与新生成的频谱之间的相似性的编码装置和编码方法。
用于解决所述问题的手段本发明的编码装置所采取的结构包括获得单元,获得至少被分成低频和高频的频谱;第一编码单元,将所述低频的频谱编码;第二编码单元,将所述高频的频谱的形状编码;第三编码单元,仅将所述高频的频谱的特定位置的增益编码;以及输出单元,输出由所述第一、第二、以及第三编码单元获得的编码信息。
本发明的有益效果根据本发明,在将宽带信号的频谱编码时,能够在实现低比特率化的同时提高原有信号的高频频谱与新生成的频谱之间的相似程度。


图1A是表示原有信号的频谱的图。
图1B是表示将原有信号的频谱的高频部分删除之后的低频频谱的图。
图1C表示通过将低频频谱的复制插入高频部分而获得的全频带的频谱的图。
图1D是表示进行高频部分的包络线调整之后的频谱的图。
图2A是表示原有信号的频谱的轮廓的图。
图2B是表示轮廓调整后的频谱的轮廓的图。
图3A是表示原有信号的频谱的轮廓的图。
图3B是表示在子带分割后对每个子带的增益进行调整时的频谱的轮廓的图。
图4是表示实施方式1的无线发送装置的主要结构的方框图。
图5是表示实施方式1的编码装置内部的主要结构的方框图。
图6是表示实施方式1的高频编码单元内部的主要结构的方框图。
图7是表示实施方式1的增益编码单元内部的主要结构的方框图。
图8A是用于说明实施方式1的插值运算相关的一连串的处理的图。
图8B是用于说明实施方式1的插值运算相关的一连串的处理的图。
图9是表示量化点仅为g1(j)的1点的情况的图。
图10A是表示量化点为3点的情况的图。
图10B是表示量化点为3点的情况的图。
图11是表示实施方式1的编码装置的其他变化形式的方框图。
图12是表示实施方式1的高频编码单元的主要结构的方框图。
图13是表示实施方式1的无线接收装置的主要结构的方框图。
图14是表示实施方式1的解码装置内部的主要结构的方框图。
图15是表示实施方式1的高频解码单元内部的主要结构的方框图。
图16是表示实施方式1的解码装置的结构的图。
图17是表示实施方式1的高频解码单元的主要结构的方框图。
图18A是表示实施方式1的编码装置适用于有线通信系统时的发送端的主要结构的方框图。
图18B是表示实施方式1的解码装置适用于有线通信系统时的接收端的主要结构的方框图。
图19是表示实施方式2的分层编码装置的主要结构的方框图。
图20是表示实施方式2的频谱编码单元内部的主要结构的方框图。
图21是表示实施方式2的扩展频带增益编码单元内部的主要结构的方框图。
图22A是用于说明实施方式2的扩展频带增益编码单元的处理概要的图。
图22B是用于说明实施方式2的扩展频带增益编码单元的处理概要的图。
图23是表示实施方式2的分层解码装置的内部结构的方框图。
图24是表示实施方式2的频谱解码单元的内部结构的方框图。
图25是表示实施方式2的扩展频带增益解码单元内部的主要结构的方框图。
图26是表示实施方式3的扩展频带增益编码单元的主要结构的方框图。
图27是用于说明基准振幅值的计算方法的图。
图28是用于说明实施方式3的插值单元的插值处理的图。
图29是用于说明实施方式3的解码装置的结构的图。
图30是表示实施方式4的扩展频带增益编码单元的主要结构的方框图。
图31是用于说明实施方式4的插值单元的增益候选的配置方法的图。
图32是用于说明实施方式4的扩展频带增益解码单元的图。
具体实施例方式
以下,参照附图详细说明本发明的实施方式。然而,在此以编码/解码对象为音频信号或语音信号的情况为例进行说明。另外,本发明可大致考虑为适用于一般的编码(非可扩展的编码)的第一情况和适用于可扩展编码的第二情况。因此,在实施方式1中说明第一情况,并在实施方式2中说明第二情况。
(实施方式1)图4是表示本发明实施方式1的编码装置被安装在无线通信系统的发送端时的无线发送装置130的主要结构的方框图。
该无线发送装置130包括编码装置100、输入装置131、A/D变换装置132、RF调制装置133以及天线134。
输入装置131将人耳朵可听见的声波W11变换为作为电信号的模拟信号,并输出到A/D变换装置132。A/变换装置132将此模拟信号变换为数字信号,并输出到编码装置100。编码装置100对输入的数字信号进行编码而生成编码信号,并输出到RF调制装置133。RF调制装置133调制编码信号并生成调制编码信号后,输出到天线134。天线134将调制编码信号作为电波W12进行发送。
图5是表示上述编码装置100内部的主要结构的方框图。这里,以时域的数字信号被输入,将该信号变换为频域的信号后进行编码的情况为例进行说明。
编码装置100包括输入端子101、频域变换单元102、分割单元103、低频编码单元104、高频编码单元105、复用单元106以及输出端子107。
频域变换单元102将从输入端子101输入的时域的数字信号变换到频域,生成作为频域的信号的频谱。另外,使该频谱的有效频带为0≤k<FH。变换到频域的方法使用离散傅立叶变换、离散余弦变换、变形离散余弦变换以及小波变换等。
分割单元103将在频域变换单元102获得的频谱分割为低频频谱和高频频谱的两个频带(band)的频谱,将分割后的频谱提供给低频编码单元104和高频编码单元105。具体地说,分割单元103将从频域变换单元102输出的频谱分割为有效频带0≤k<FL的低频频谱和有效频带FL≤k<FH的高频频谱,分别将获得的低频频谱提供给低频编码单元104,将高频频谱提供给高频编码单元105。
低频编码单元104对从分割单元103输出的低频频谱进行编码,将获得的编码信息输出到复用单元106。另外,在音频数据或语音数据的情况,由于低频的数据比高频的数据重要,对低频编码单元104分配比高频编码单元105多的比特,以高质量执行编码。作为具体的编码方法,可利用MPEG层3方式、AAC方式、TwinVQ(Transform domain Weighted Interleave VectorQuantization)方式等。
高频编码单元105对从分割单元103输出的高频频谱进行后述的编码处理,将获得的编码信息(增益信息)输出到复用单元106。高频编码单元105的编码方法的细节将后述。
有关低频频谱的信息从低频编码单元104输入到复用单元106,另一方面,为获得高频频谱的轮廓所需要的增益信息从高频编码单元105输入复用单元106。复用单元106对这些信息进行复用后,从输出端子107输出。
图6是表示上述高频编码单元105内部的主要结构的方框图。
输入信号的有效频率FL≤k<FH的频谱S(k)通过输入端子111被提供给频谱形状编码单元112,频谱形状编码单元112进行此频谱的形状的编码。具体地说,频谱形状编码单元112对频谱形状进行编码,以使听觉失真变得最小,并将有关该频谱形状的编码信息提供给复用单元114和频谱形状解码单元116。
另外,作为频谱形状的编码方法,例如求使以(式1)表示的平方失真E为最小时的代码向量C(i,k),输出此代码向量C(i,k)。
E=Σk=FLFH-1w(k).(S(k)-C(i,k))2]]>…(式1)其中,C(i,k)表示包含在码本的第i个代码向量,w(k)表示与频率k的听觉重要度对应的加权系数。另外,FL和FH分别表示与高频频谱的最小频率和最大频率对应的索引。再有,频谱形状编码单元112也可以输出使(式2)最小的代码向量C(i,k)。
E=Σk=FLFH-1S(k)2-(Σk=FHFH-1S(k).C(i,k))2Σk=FLFH-1C(i,k)2]]>…(式2)由于该式的右边第1项为常数项,可以视为将使右边第2项最大的代码向量输出。
频谱形状解码单元116对从频谱形状编码单元112输出的有关频谱形状的编码信息进行解码,将获得的代码向量C(i,k)提供给增益编码单元113。
增益编码单元113将代码向量C(i,k)的增益编码,使得代码向量C(i,k)的频谱轮廓接近作为目标信号的输入频谱S(k)的频谱轮廓,并将编码信息提供给复用单元114。关于增益编码单元113的处理将在后面详述。
复用单元114对从频谱形状编码单元112和增益编码单元113输出的编码信息进行复用,通过输出端子115将其结果输出。
图7是表示上述增益编码单元113内部的主要结构的方框图。高频频谱的形状通过输入端子121从频谱形状解码单元116输入到增益编码单元113,并且输入频谱通过输入端子127输入到增益编码单元113。
子带振幅计算单元122对于从频谱形状解码单元116输入的频谱形状,计算每个子带的振幅值。乘法单元123对从子带振幅计算单元122输出的频谱形状的各个子带的振幅值乘以从插值单元216输出的每个子带的增益(后述)来调整振幅后,输出到搜索单元124。另一方面,子带振幅计算单元128对于从输入端子127输入的目标信号的输入频谱,计算每个子带的振幅值并输出到搜索单元124。
搜索单元124计算从乘法单元123输出的子带振幅值和由子带振幅计算单元128提供的高频频谱的子带振幅值之间的失真。具体地说,在增益码本125事先登记多个增益量化值的候选g(j),搜索单元124指定该多个增益量化值的候选g(j)中的一个,并对此计算出上述的失真(平方失真)。这里,j是用于识别每个增益量化值的候选的索引。增益码本125将搜索单元124指定的增益候选g(j)提供给插值单元126。插值单元126使用该增益候选g(j),通过插值运算计算还未被决定增益的子带的增益值。然后,插值单元126将由增益码本125提供的增益候选和计算出的插值增益候选提供给乘法单元123。
上述的乘法单元123、搜索单元124、增益码本125以及插值单元126的处理形成反馈环,搜索单元124对登记在增益码本125的所有的增益量化值的候选g(j)计算出上述的失真(平方失真)。然后,搜索单元124通过输出端子129将使平方失真最小的增益的索引j输出。将上述处理换个方式说,搜索单元124首先在登记在增益码本125的增益量化值的候选g(j)中选择某个特定的值,使用该值对剩余的增益量化值进行插值,生成模拟的高频频谱。然后,比较该生成的频谱和目标信号的高频频谱,判断两个频谱的相似程度,搜索单元124最终选择使两个频谱的相似程度变得最佳的增益量化值而不是最初使用的增益量化值的候选,将表示该增益量化值的索引j输出。
图8A、B是用于说明增益编码单元113的上述插值运算相关的一连串的处理的图。这里,以高频频谱由子带数N=8的子带组成的情况为例进行说明。增益码本125具有增益候选G(j)={g0(j),g1(j)},其具有作为元素的第0子带的增益候选g0(j)和第7子带的增益候选g1(j)。这里,j表示用于识别增益候选的索引。增益码本125是事先使用充分长度的学习用数据进行设计的。因此,增益码本125的状态是已存储适当的增益候选的状态。
增益候选G(j)可以是标量值也可以是向量值,但这里作为二维向量加以说明。插值单元126使用该增益候选G(j),通过插值计算还未被决定增益的子带的增益。
具体地说,插值处理是如图8B所示的方式进行。提供g0(j)作为第0子带的增益,并提供g1(j)作为第7子带的增益,除此之外的子带的增益通过对g0(j)和g1(j)进行线性插值作为内插值来提供。
如上述,根据本实施方式的编码装置,将输入的编码对象的宽带的频谱至少分为低频的频谱和高频的频谱,对高频频谱进一步地将该频谱分割为多个子带,从该多个子带中选择一部分的子带,仅将所选择的子带的增益作为编码(量化)对象。因此,由于不是对所有的子带进行编码,能够已较少的代码量高效地对增益进行编码。另外,这里对高频频谱进行上述处理是因为,在输入信号为音频信号、语音信号等的情况下,与低频的数据相比,高频的数据的重要度低。
并且,在上述结构中,本实施方式的编码装置在高频频谱,对于没有被选择的子带的增益,通过对选择的增益进行相互插值来表示。因此,能够在将代码量维持在某个等级的同时,使频谱轮廓的变化近似平滑并决定增益。换言之,能够以较少的比特数抑制奇怪的噪声的产生,并提高质量。因此,能够在将宽带信号的频谱编码时,在实现低比特率化的同时提高原有信号的高频频谱与新生成的频谱之间的相似程度。
本发明着眼于频谱的轮廓向频率轴方向平滑地变化的事实,利用这个性质将编码对象的点(量化点)限定为一部分,仅对该量化点进行编码,对于剩余的子带则通过对量化点的增益进行相互插值来求。
并且,在上述结构中,安装了本实施方式的编码装置的发送装置,仅发送被选择的子带的量化增益,不发送通过插值获得的增益。另一方面,安装在接收装置中的解码装置,接收被发送的量化增益并进行解码,对于未被发送的子带的增益,通过将被发送的增益相互插值来获得。通过采用这些结构,由于在发送/接收装置之间的传输率降低,因此能够减轻通信系统的负担。
另外,在本实施方式中,虽然以对增益进行线性插值的情况为例进行说明,但插值方法不限于此,例如在知道基于频谱的特性,以一次函数以外的函数进行插值较能够提高编码性能的时候,也可以使用该函数进行插值运算。
再有,在本实施方式中,以选择上述位置的子带的增益作为量化点的情况,也就是以g0(j)为高频频谱的最小频率的子带的增益、g1(j)为高频频谱的最高频率的子带的增益的情况为例进行了说明。但量化点的位置不一定限定于这些设定,通过满足下述条件,能够期待插值所造成的误差减小。尤其,为了维持低频频谱和高频频谱的连续性,g0(j)的位置被设定在作为低频频谱和高频频谱的连接部分的频率FL的附近的位置较为理想。可是,即使以上述方式设定g0(j)的位置,也不一定能使低频频谱和(新生成的)高频频谱平滑地连接。但可以推测只要至少维持连续性,就不会产生较大的音质恶化。并且,一般认为,只要能够通过将g1(j)设定在高频频谱的最大频率的子带(也就是高频频谱的右端)的位置,并至少确定该位置的增益,一般说来,虽然可能是以粗略的精度,但依然能够高效地表现高频频谱整体的轮廓。可是,g1(j)的位置,例如可以在FL和FH的中间位置。
另外,在本实施方式中,虽然以量化点为g0(j)和g1(j)的两个点的情况为例子进行说明,但量化点可以是一个点。下面,使用附图详细说明这个情况。
图9是表示量化点仅为g1(j)的1点的情况的图。在此图中,SL表示低频频谱。SH为表示高频频谱。这样,由于能够期待低频频谱的最大频率的子带的增益值不会与高频频谱的最小频率的子带的增益值相差太大,使用低频频谱的最大频率的子带的增益值以取代g0(j)。由此,即使不求g0(j)也能够进行上述的增益插值。
另外,量化点也可以是3点以上。图10A、B是表示量化点为3点的情况的图。
如此图所示,使用以3个子带决定的子带增益,通过插值决定其他的子带的增益。这样,通过利用3以上的量化点,即使将其中的2点用于表示高频频谱的端部(FL或FH)的增益,也能够将至少1点配置在高频频谱的中央部分(端部以外的部分)。因此,在高频频谱的轮廓存在特征性的部分时,例如峰(极大点)或谷(极小点),通过在该峰或谷分配1个量化点,能够生成将高频频谱的轮廓精度良好地表现出来的编码参数。但是,将量化点增加到3以上时,虽然能够更忠实地对频谱的轮廓的细微变化进行编码,但编码效率因折衷选择关系而降低。
再有,在本实施方式中,虽然以下述情况为例进行了说明,即,编码方法包括从多个子带中选择一部分的量化点的步骤,以及,通过插值运算来获得剩余的增益的步骤,但由于仅仅将量化点限定在一部分就能够实现低比特率化,所以在不要求高编码性能时,也可以省略插值运算的步骤,仅执行选择一部分的量化点的步骤。
另外,在本实施方式中,虽然以将频带等间隔分割来生成子带的情况为例进行了说明,但不限于此,例如也可以采用使用Bark标度的非线性分割法。
再有,在本实施方式中,虽然以将输入数字信号直接变换到频域并进行频带分割的情况为例进行了说明,但不限于此。
图11是表示上述编码装置100的其他变化形式(编码装置100a)的方框图。另外,对于相同的构成要素赋予相同的标号,并省略其说明。
如此图所示,也可以采用通过滤波处理对输入数字信号进行频带分割的结构。此时,使用多相(Polyphase)滤波器、正交镜像(Quadrature Mirror)滤波器等进行频带分割。
图12是表示编码装置100a内的高频编码单元105a的主要结构的方框图。另外,对于与高频编码单元105相同的构成要素赋予相同的标号,并省略其说明。高频编码单元105和高频编码单元105a的差异在于频域变换单元的设置位置。
以上,对编码端的结构进行了详细说明。接着,在下面详细说明解码端的结构。
图13是表示对从本实施方式的无线发送装置130发送的信号进行接收的无线接收装置180的主要结构的方框图。
该无线接收装置180包括天线181、RF解调装置182、解码装置150、D/A变换装置183以及输出装置184。
天线181接收作为电波W12的数字的编码语音信号,并生成电信号的数字的接收编码语音信号后,提供给RF解调装置182。RF解调装置182对来自天线181的接收编码语音信号进行解调,生成解调编码语音信号并提供给解码装置150。
解码装置150接收来自RF解调装置182的数字的解调编码语音信号并进行解码处理,生成数字的解码语音信号并提供给D/A变换装置183。D/A变换装置183对来自解码装置150的数字的解码语音信号进行变换,生成模拟的解码语音信号并提供给输出装置184。输出装置184将作为电信号的模拟的解码语音信号变换为空气的振动,并作为声波W13以人耳朵能够听见的方式输出。
图14是表示上述解码装置150内部的主要结构的方框图。
分离单元152从通过输入端子151输入的解调编码语音信号分离出低频编码参数和高频编码参数,将各个编码参数分别提供给低频解码单元153和高频解码单元154。低频解码单元153对经由低频编码单元104的编码处理而获得的编码参数进行解码,生成低频解码频谱并提供给结合单元155。高频解码单元154使用高频编码参数进行解码处理,生成高频解码频谱并提供给结合单元155。另外,该高频解码单元154的详细内容将后述。结合单元155结合低频解码频谱和高频解码频谱,将结合后的频谱提供给时域变换单元156。时域变换单元156将结合后的频谱变换到时域,并且进行开窗(windowing)以及叠加加法(superposition addition)等处理以使得在连接的帧之间较难发生不连续的现象后,从输出端子157输出。
图15是表示高频解码单元154内部的主要结构的方框图。
分离单元162从通过输入端子161输入的高频编码参数分离出频谱形状代码和增益代码,并分别提供给频谱形状解码单元163和增益解码单元164。频谱形状解码单元163参照频谱形状代码,从码本选择代码向量C(i,k)并提供给乘法单元165。增益解码单元164基于增益代码将增益解码后,提供给乘法单元165。另外,有关该增益解码单元164的详细内容,将在实施方式2中描述。乘法单元165将在频谱形状解码单元163选择的代码向量C(i,k)和在增益解码单元164解码的增益相乘,将结果通过输出端子166输出。
另外,在编码端的结构为如图11所示的编码装置100a,是由频带分割滤波器频带分割成低频信号和高频信号的结构的情况时,所对应的解码装置的结构成为如图16所示的结构(解码装置150a)。另外,对于相同的构成要素赋予相同的标号,并省略其说明。并且,图17是表示解码装置150a内的高频解码单元154a的主要结构的方框图。对于与高频解码单元154相同的构成要素赋予相同的标号,并省略其说明。高频解码单元154和高频解码单元154a的差异在于频域变换单元的设置位置。
如上述,根据上述的解码装置,能够对本实施方式的编码装置编码的信息进行解码。
再有,在本实施方式中,虽然以将输入信号的频带分割成两个频带的情况为例进行了说明,但不限于此,能够分割成2以上的频带,并对其中的1个或多个频带进行已说明的上述的频谱的编码处理。
并且,在本实施方式中,虽然以输入时域的信号的情况为例进行了说明,但也可以直接输入频域的信号。
另外,这里虽然以将本实施方式的编码装置或解码装置适用于无线通信系统的情况为例进行了说明,但如下所示,本实施方式的编码装置或解码装置能够适用于有线通信系统。
图18A是表示本实施方式的编码装置应用于有线通信系统时的发送端的主要结构的方框图。并且,对于与在图4已示出的构成要素相同的构成要素赋予相同的标号,并省略其说明。
有线发送装置140包括编码装置100、输入装置131以及A/D变换装置132,输出被连接到网络N1。
A/D变换装置132的输入端子被连接到输入装置131的输出端子。编码装置100的输入端子被连接到A/D变换装置132的输出端子。编码装置100的输出端子被连接到网络N1。
输入装置131将人耳朵可听见的声波W11变换为作为电信号的模拟信号,并提供给A/D变换装置132。A/D变换装置132将模拟信号变换为数字信号,并提供给编码装置100。编码装置100对输入的数字信号进行编码而生成代码,并输出到网络N1。
图18B是表示本实施方式的解码装置适用于有线通信系统时的接收端的主要结构的方框图。另外,对于与在图13已示出的构成要素相同的构成要素赋予相同的标号,并省略其说明。
有线接收装置190包括与网络N1连接的接收装置191、解码装置150、D/A变换装置183以及输出装置184。
接收装置191的输入端子被连接到网络N1。解码装置150的输入端子被连接到接收装置191的输出端子。D/A变换装置183的输入端子被连接到解码装置150的输出端子。输出装置184的输入端子被连接到D/A变换装置183的输出端子。
接收装置191接收来自网络N1的数字的编码语音信号,并生成数字的接收语音信号后,提供给解码装置150。解码装置150接收来自接收装置191的接收语音信号并对此接收语音信号进行解码处理,生成数字的解码语音信号并提供给D/A变换装置183。D/A变换装置183对来自解码装置150的数字的解码语音信号进行变换,生成模拟的解码语音信号并提供给输出装置184。输出装置184将作为电信号的模拟的解码语音信号变换为空气的振动,并作为声波W13以人耳朵能够听见的方式输出。
这样,根据上述结构,能够提供与上述的无线发送/接收装置具有相同作用效果的有线发送/接收装置。
(实施方式2)本实施方式的特征在于,本发明的编码装置和解码装置适用于在频率轴方向具有扩展性(scalability)的频带可扩展编码。
图19是表示本发明实施方式2的分层编码装置200的主要结构的方框图。
分层编码装置200包括输入端子221、下采样单元222、第一层编码单元223、第一层解码单元224、延迟单元226、频谱编码单元210、复用单元227以及输出端子228。
有效频带为0≤k<FH的信号从A/D变换单元132被输入到输入端子221。下采样单元222对通过输入端子221输入的信号进行下采样,生成采样率低的信号并输出。第一层编码单元223将该下采样后的信号进行编码,将获得的编码参数输出到复用单元(多路复用器)227,并也输出到第一层解码单元224。第一层解码单元224基于该编码参数生成第一层的解码信号。
另一方面,延迟单元226对通过输入端子221输入的信号提供预定长度的延迟。使该延迟的大小与信号通过下采样单元222、第一层编码单元223、第一层解码单元224时产生的时间延迟为相同值。频谱编码单元210使从第一层解码单元224输出的信号作为第一信号,并使从延迟单元226输出的信号作为第二信号来进行频谱编码,将生成的编码参数输出到复用单元227。复用单元227对由第一层编码单元223求出的编码参数和由频谱编码单元210求出的编码参数进行复用,作为输出代码通过输出端子228输出。该输出代码被提供到RF调制装置133。
图20是表示上述频谱编码单元210内部的主要结构的方框图。
频谱编码单元210包括输入端子201和204、频域变换单元202和205、扩展频带频谱估计单元203、扩展频带增益编码单元206、复用单元207以及输出端子208。
在第一层解码单元224解码的信号被输入到输入端子201。该信号的有效频带为0≤k<FL。并且,有效频带为0≤k<FH(其中,FL<FH)的第二信号从延迟单元226被输入到输入端子204。
频域变换单元202对从输入端子201输入的第一信号进行频域变换,计算第一频谱S1(k)。另一方面,频域变换单元205对从输入端子204输入的第二信号进行频域变换,计算第二频谱S2(k)。这里,频域变换的方法使用离散傅立叶变换(DFT)、离散余弦变换(DCT)以及变形离散余弦变换(MDCT)等。
扩展频带频谱估计单元203使第二频谱S2(k)作为参照信号来估计应包含在第一频谱S1(k)的频带FL≤k<FH的频谱,求出估计频谱E(k)(其中,FL≤k<FH)。这里,估计频谱E(k)基于包含在第一频谱S1(k)的低频(0≤k<FL)的频谱被估计。
扩展频带增益编码单元206使用估计频谱E(k)和第二频谱S2(k)对应该与估计频谱E(k)相乘的增益进行编码。这里的处理的重点在于如何以较少的代码量高效地使扩展频带的估计频谱E(k)的频谱轮廓接近第二频谱S2(k)的频谱轮廓。其成功与否将对音质造成极大的影响。
有关扩展频带的估计频谱的信息从扩展频带频谱估计单元203输入到复用单元207,并且,为获得扩展频带的频谱轮廓所需要的增益信息从扩展频带增益编码单元206输入复用单元207。复用单元207对这些信息进行复用后,从输出端子208输出。
图21是表示上述扩展频带增益编码单元206内部的主要结构的方框图。
该扩展频带增益编码单元206包括输入端子211和217、子带振幅计算单元212和218、增益码本215、插值单元216、乘法单元213、搜索单元214以及输出端子219。
估计频谱E(k)从输入端子211输入,第二频谱S2(k)从输入端子217输入。子带振幅计算单元212将扩展频带分割为子带,对每个子带计算估计频谱E(k)的振幅值。如果将扩展频带表示为FL≤k<FH,则扩展频带的带宽BW被表示为(式3)。
BW=FH-FL+1 …(式3)将该扩展频带分割为N个子带的话,各个子带的带宽BWS被表示为(式4)。
BWS=(FH-FL+1)/N …(式4)因此,第n子带的最小频率FL(n)被表示为(式5),第n子带的最大频率FH(n)被表示为(式6)。
FL(n)=FL+n·BWS …(式5)FH(n)=FL+(n+1)·BWS-1…(式6)对如上述规定的每个子带基于(式7)计算估计频谱E(k)的振幅值AE(n)。
AE(n)=Σk=FL(n)FH(n)E(k)2BWS]]>…(式7)同样地,子带振幅计算单元218基于(式8)计算出第二频谱S2(k)的每个子带的振幅值AS2(n)。
AS2(n)=Σk=FL(n)FH(n)S2(k)2BWS]]>…(式8)另一方面,增益码本215具有J个增益量化值的候选G(j)(其中,0≤j<J),对所有的增益候选进行如下所示的处理。增益候选G(j)可以是标量值也可以是向量值,但在这里假设为二维向量以便说明(即,g(j)={g0(j),g1(j)}。增益码本215是事先使用充分长度的学习用数据进行设计的。因此,增益码本125处于已存储适当的增益候选的状态。
图22A、图22B是用于说明扩展频带增益编码单元206的处理概要的图。这里也以子带数N=8的情况为例进行说明。
如图22A所示,使增益候选G(j)的第一元素g0(j)为第0子带增益,使第二元素g1(j)为第7子带增益,分别配置在第1子带和第7子带。
插值单元216使用该增益候选G(j),通过插值来计算还未决定增益的子带的增益。
具体情况示于图22B。以g0(j)作为第0子带的增益,以g1(j)作为第7子带的增益,以g0(j)和g1(j)的内插值作为除此之外的子带的增益。基于这个想法,第n子带的增益p(j,n)可表示为(式9)。
p(j,n)=g0(j)+g1(j)-g0(j)N-1.n(0≤n≤N-1)]]>…(式9)以上述方式计算出的子带增益的候选p(j,n)被提供到乘法单元213。乘法单元213按每个元素对由子带振幅计算单元212提供的子带振幅值AE(n)和由插值单元216提供的子带增益的候选p(j,n)进行乘法运算。以AE’(n)表示乘法运算后的子带振幅值,则AE’(n)基于(式10)来计算,被提供到搜索单元214。
AE’(n)=AE(n)·p(j,n)…(式10)搜索单元214对乘法运算后的子带振幅值AE’(n)和由子带振幅计算单元218提供的第二频谱的子带振幅值AS2(k)之间的失真进行计算。另外,在此为了便于说明,以使用平方失真的情况为例进行了说明,但作为失真的定义,例如能够使用对每个元素基于听觉灵敏度进行加权的距离尺度(distance scale)等。
搜索单元214基于(式11)计算AE’(n)和AS2(n)的平方失真D。
D=Σn=0N-1(AS2(n)AE′(n))2]]>…(式11)或者,可将平方失真D表示为(式12)。
D=Σn=0N-1w(n)·(AS2(n)-AE′(n))2]]>…(式12)此时,w(n)表示基于听觉灵敏度的加权函数。
关于包含在增益码本215的所有的增益量化值的候选G(j),基于上述处理计算平方失真D,通过输出端子219将其中的平方失真D成为最小时的增益的索引j输出。
基于上述处理,能够在进行近似使频谱轮廓的变化平滑的同时决定增益,即使比特数少也能够抑制奇怪的噪声的产生并改善质量。
另外,在本实施方式中,虽然是以子带振幅的大小为基准进行插值并决定增益,但也可以取代子带而以子带对数功率为基准进行插值的结构。此时,在适合于人的听觉特性的对数功率的区域决定增益以使得频谱轮廓平滑地变化,因此能够获得在听觉上质量进一步改善的效果。
图23是表示对以上述分层编码装置200编码的信息进行解码的分层解码装置250的内部结构的方框图。这里,以对分层编码的编码参数进行解码的情况为例进行说明。
该分层解码装置250包括输入端子171、分离单元172、第一层解码单元173、频谱解码单元260以及输出端子176和177。
数字的解调编码语音信号从RF解调装置182输入到输入端子171。分离单元172对通过输入端子171输入的解调编码语音信号进行分离,生成用于第一层解码单元173的编码参数和用于频谱解码单元260的编码参数。第一层解码单元173使用在分离单元172获得的编码参数对信号频带0≤k<FL的解码信号进行解码,将该解码信号提供给频谱解码单元。另外,另一方的输出被连接到输入端子176。由此,在必须输出第一层解码单元173生成的第一层解码信号时,能够通过该输出端子176进行输出。
在分离单元172分离的编码参数和由第一层解码单元获得的第一层解码信号被提供到频谱解码单元260。频谱解码单元260进行后述的频谱解码,生成信号频带0≤k<FH的解码信号,将它通过输出端子177输出。频谱解码单元260将由第一层解码单元提供的第一层解码信号视为第一信号进行处理。
根据这个结构,在必须输出第一层解码单元173生成的第一层解码信号时,能够通过该输出端子176进行输出。并且,在必须输出更高质量的频谱解码单元260的输出信号时,能够通过输出端子177输出。输出端子176或输出端子177的任何一方的信号从分层解码装置250输出,并提供给D/A变换装置183。哪一方的信号被输出,是基于应用和用户的设定及判定结果来决定。
图24是表示上述频谱解码单元260的内部结构的方框图。
该频谱解码单元260包括输入端子251和253、分离单元252、频域变换单元254、扩展频带估计频谱赋予单元255、扩展频带增益解码单元256、乘法单元257、时域变换单元258以及输出端子259。
从输入端子251输入在频谱编码单元210编码的编码参数,编码参数通过分离单元252分别输入扩展频带估计频谱赋予单元255和扩展频带增益解码单元256。并且,有效频带为0≤k<FH的第一信号被输入到输入端子253。该第一信号是在第一层解码单元173解码的第一层解码信号。
频域变换单元254对从输入端子253输入的时域信号进行频域变换,计算第一频谱S1(k)。频域变换的方法使用离散傅立叶变换(DFT)、离散余弦变换(DCT)以及变形离散余弦变换(MDCT)等。
扩展频带估计频谱赋予单元255基于从分离单元252获得的编码参数,生成由频域变换单元254提供的第一频谱S1(k)的扩展频带FL≤k<FH所包含的频谱。用于该生成的方法取决于在编码端使用的扩展频带频谱的估计法,但这里假设使用第一频谱S1(k)来生成包含在扩展频带的估计频谱E(k)。因此,从扩展频带估计频谱赋予单元255输出的结合频谱F(k),在频带0≤k<FL是由第一频谱S1(k)构成,在频带FL≤k<FH是由扩展频带估计频谱E(k)构成。
扩展频带增益解码单元256基于从分离单元252获得的编码参数,生成与结合频谱F(k)的扩展频带FL≤k<FH中所包含的频谱相乘的子带增益p(j,n)。生成子带增益p(j,n)的方法将后述。
乘法单元257对由扩展频带估计频谱赋予单元255提供的结合频谱F(k)的扩展频带FL≤k<FH包含的频谱,以子带为单位乘以由扩展频带增益解码单元256提供的子带增益p(j,n),并生成解码频谱F’(k)。可以(式13)表示解码频谱F’(k)。
F′(k)=F(k)(0≤k<FL)F(k).p(j,n)(FL+n.BWS≤k<FL+(n+1).BWS]]>…(式13)时域变换单元258将从乘法单元257获得的解码频谱F’(k)变换为时域的信号,通过输出端子259输出。这里,视需要进行适宜的开窗及叠加加法等处理,以避免在帧间产生的中断。
图25是表示上述扩展频带增益解码单元256内部的主要结构的方框图。
从输入端子261输入在编码端的扩展频带增益编码单元206决定的索引j,基于该索引信息从增益码本262选择并输出增益G(j)。该增益G(j)被提供给插值单元263,在插值单元263,基于前述方法进行插值并生成子带增益p(j,n)后,通过输出端子264输出。
根据这个结构,由于能够在进行近似使频谱轮廓的变化平滑的同时将决定的增益解码,能够获得抑制奇怪的噪声的产生等并改善质量的效果。
如上述,根据本实施方式的解码装置,由于具有与本实施方式的编码方法对应的结构,能够以较少的比特数对编码的语音信号进行解码,并输出良好的语音信号。
(实施方式3)图26是表示本发明实施方式3的编码装置内的扩展频带增益编码单元301的主要结构的方框图。并且,该扩展频带增益编码单元301具有与实施方式2所示的扩展频带增益编码单元206相同的基本结构,对于相同的构成要素赋予相同的编号,并省略其说明。
本实施方式的特征在于包含在增益码本的增益量化值的候选G(j)的次数为1,也就是标量值,并且,在基于通过输入端子获得的基准振幅值而求出的基准增益和增益量化值的候选G(j)之间进行增益的插值。根据这个结构,作为量化的对象的增益的数量被削减为1,能够获得使低比特率化得以实现的效果。
从输入端子302输入的基准振幅值和在子带振幅计算单元212计算出的子带振幅值中最低频的子带的振幅值被提供到基准增益计算单元303。这里,如图27所示,假设基准振幅值是从包含在与扩展频带相邻的频带的频谱计算出来的。基准增益计算单元303以使下述假设成立的方式,即,基准振幅值和最低频子带振幅值相一致的方式决定基准增益。使基准振幅值为Ab、最低频子带振幅值为AE(0),则基准增益gb由(式14)表示。
gb=Ab/AE(0) …(式14)插值单元304使用在基准增益计算单元303求出的基准增益gb和从增益码本215获得的增益量化值的候选g(j),如图28所示,通过插值生成增益尚未定义的子带的增益。另外,在此图中,子带数N=8,并且通过插值来生成增益的子带为第1~第6子带。
接下来,使用图29说明对由本实施方式的编码装置编码的信号进行解码的解码装置的结构。该扩展频带增益解码单元350具有与实施方式2所示的扩展频带增益解码单元256相同的基本结构(参照图25),对于相同的构成要素赋予相同的编号,并省略其说明。
对于扩展频带增益解码单元350,由输入端子351提供基准振幅值Ab,并由输入端子352提供扩展频带的估计频谱中最低频子带的子带振幅值AE(0)。这里,如使用图27所说明的,假设基准振幅值是从包含在与扩展频带相邻的频带的频谱计算出来的。如在扩展频带增益编码单元所说明的,基准增益计算单元353以使下述假设成立的方式,即,基准振幅值和最低频子带振幅值相一致的方式决定基准增益。
如上述,根据本实施方式,作为量化对象的增益数被削减为1,使进一步的低比特率化成为可能。
(实施方式4)图30是表示本发明实施方式4的编码装置内的扩展频带增益编码单元401的主要结构的方框图。并且,该扩展频带增益编码单元401具有与实施方式2所示的扩展频带增益编码单元206相同的基本结构,对于相同的构成要素赋予相同的编号,并省略其说明。
本实施方式的特征在于可使扩展频带包含的子带中在增益最具有特征(例如为增益的最大值或最小值)的子带一定包含在增益码本的搜索对象中。根据这种结构,由于能够将最受增益影响的子带包含在增益码本的搜索对象中,因此能够获得可实现质量改善的效果。但在此结构中,需要将表示选择了哪个子带的附加信息编码。
子带决定单元402使用在子带振幅计算单元212求出的估计频谱E(k)的子带振幅值AE(n)和在子带振幅计算单元218求出的第二频谱S2(k)的子带振幅值AS2(n),基于(式15)计算出理想增益值gopt(n)。
gopt(n)=AS2(n)/AE(n) …(式15)接下来,求理想增益gopt(n)成为最大(或最小)的子带,通过输出端子输出该子带编号。
插值单元403基于从增益码本215获得的增益候选G(j)={g0(j),g1(j),g2(j)}和从子带选择单元402获得的子带信息,如图31所示地配置增益候选,对于增益还没有决定的子带,通过插值决定增益。在此图中,第0子带、第7子带以缺省配置增益候选,将增益候选配置在第1~第6子带中具有最具特征的增益的子带(在此图中为第2子带),并通过插值来决定除此之外的子带的增益。
接下来,使用图32说明对由本实施方式的编码装置编码的信号进行解码的解码装置内的扩展频带增益解码单元450的结构。并且,该扩展频带增益解码单元450具有与实施方式2所示的扩展频带增益解码单元256相同的基本结构,对于相同的构成要素赋予相同的编号,并省略其说明。
插值单元263基于从增益码本262获得的增益G(j)={g0(j),g1(j),g2(j)}和通过输入端子451输入的子带信息,在第0子带配置g0(j),在第7子带配置g2(j),并且在子带信息表示的子带配置g1(j),对于除此之外的子带的增益,通过插值来决定。从输出端子264输出以上述方式解码的子带增益。
这样,根据本实施方式,由于能够将最受增益影响的子带包含在增益码本的搜索对象中进行编码,因此能够进一步提高编码性能。
以上,对本发明的实施方式进行了说明。
本发明的频谱编码装置不限于上述实施方式1~4,可进行各种变更加以实施。
本发明的编码装置和解码装置也可以安装在移动通信系统中的通信终端装置和基站装置,由此能够提供具有与上述相同作用效果的通信终端装置和基站装置。
再有,这里以用硬件构成本发明的情况为例进行了说明,但本发明也能够以软件实现。例如,通过以程序语言描述本发明的编码方法及解码方法的算法,并使该程序存储在存储器,由信息处理单元执行,由此能够实现与本发明的编码装置及解码装置相同的功能。
再有,上述各实施方式的说明中的各功能块可实现为一般作为集成电路的LSI。这些块既可是每个块分别集成到一个芯片,或者可以是部分或所有块集成到一个芯片。
并且,虽然此处称为LSI,但根据集成程度,可以称为IC、系统LSI、超大LSI(Super LSI)、或特大LSI(Ultra LSI)等。
另外,实现集成电路化的方法不仅限于LSI,也可使用专用电路或通用处理器来实现。在LSI制造后可利用可编程的FPGA(Field Programmable GateArray),或者可以使用可重构LSI内部的电路单元的连接或设定的可重构处理器。
再有,随着半导体的技术进步或随之派生的其他技术的出现,如果能够出现替代LSI集成回路化的新技术,当然可利用此技术进行功能块的集成化。并且存在着适用生物技术的可能性。
本说明书基于2004年5月19日申请的日本专利申请第2004-148901号。其内容都包含于此以资参考。
工业利用性本发明的编码装置、解码装置、以及编码方法和解码方法能够适用于移动通信系统中的通信终端装置等用途。
权利要求
1.一种编码装置,包括获得单元,获得至少被分为低频和高频的频谱;第一编码单元,将所述低频的频谱编码;第二编码单元,将所述高频的频谱的形状编码;第三编码单元,仅将所述高频的频谱的特定位置的增益编码;以及输出单元,输出由所述第一、第二、第三编码单元获得的编码信息。
2.如权利要求1所述的编码装置,其中所述第三编码单元包括决定单元,决定所述高频的频谱的所述特定位置的增益;插值单元,对所述特定位置的增益进行插值,以求所述高频的频谱的所述特定位置以外的位置的增益;以及变更单元,对由所述决定单元和所述插值单元双方求出的增益所表示的频谱与所述高频的频谱进行比较,基于这些频谱的相似程度而变更由所述决定单元所决定的增益,对所述变更单元变更后的增益进行编码。
3.如权利要求1所述的编码装置,其中所述第三编码单元将所述高频的频谱的最低频率附近的增益编码。
4.如权利要求1所述的编码装置,其中所述第三编码单元将所述高频的频谱的最高频率附近的增益编码。
5.如权利要求1所述的编码装置,其中所述第三编码单元将所述高频的频谱的极小点或极大点的增益编码。
6.如权利要求1所述编码装置,其中,还包括第四编码单元,对有关在所述第三编码单元使用的所述特定位置中至少一个位置的信息进行编码,所述输出单元还同时输出由所述第四编码单元获得的编码信息。
7.一种生成在频率轴方向具有扩展性的编码信息的分层编码装置,将权利要求1所述的编码装置使用于增强层的编码。
8.一种对有关至少被分为低频和高频的频谱的编码信息进行解码的解码装置,包括第一解码单元,对有关所述低频的频谱的编码信息进行解码;第二解码单元,对有关所述高频的频谱的特定位置的增益的编码信息进行解码;以及第三解码单元,使用由所述第二的解码单元获得的增益,对所述高频的频谱进行解码。
9.一种通信终端装置,包括如权利要求1所述的编码装置。
10.一种通信终端装置,包括如权利要求8所述的解码装置。
11.一种基站装置,包括如权利要求1所述编码装置。
12.一种基站装置,包括如权利要求8所述的解码装置。
13.一种编码方法,包括获得步骤,获得至少被分为低频和高频的频谱;第一编码步骤,将所述低频的频谱编码;第二编码步骤,将所述高频的频谱的形状编码;第三编码步骤,仅将所述高频的频谱的特定位置的增益编码;以及输出步骤,输出在所述第一、第二、第三编码步骤获得的编码信息。
14.一种对有关至少被分为低频和高频的频谱的编码信息进行解码的解码方法,包括第一解码步骤,对有关所述低频的频谱的编码信息进行解码;第二解码步骤,对有关所述高频的频谱的特定位置的增益的编码信息进行解码;以及第三解码步骤,使用在所述第二的解码步骤获得的增益,对所述高频的频谱进行解码。
全文摘要
公开在将宽带信号的频谱编码时,能够在实现低比特率化的同时提高原有信号的高频频谱与新生成的频谱的相似性的编码装置。此装置的子带振幅计算单元(122、128)对从宽带信号获得的高频频谱计算每个子带的振幅。搜索单元(124)和增益码本(125)从多个子带中选择一部分的子带,仅将所选择的子带的增益作为编码对象。插值单元(126)通过对所选择的增益进行相互插值,来表示未被选择的子带的增益。
文档编号H04B1/66GK1954363SQ20058001583
公开日2007年4月25日 申请日期2005年5月17日 优先权日2004年5月19日
发明者押切正浩 申请人:松下电器产业株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1