可扩展编码装置以及可扩展编码方法

文档序号:2829260阅读:316来源:国知局
专利名称:可扩展编码装置以及可扩展编码方法
技术领域
本发明涉及对立体声信号进行编码的可扩展编码装置以及可扩展编码方法。
背景技术
正像通过便携式电话进行通话那样,目前移动通信系统中的语音通信以单声道方式进行的通信(单声道通信)为主流。但是,今后,像第四代移动通信系统那样,随着传输速率更高的比特速率高速化的实现,因为能够确保用于传输多个声道的频宽,所以期待着在语音通信中推广通过立体声方式的通信(立体声通信)。
比如,将音乐存储于装载了HDD(硬盘)的便携式音频播放器,并在该播放器安装用于立体声的耳塞式耳机或头戴式耳机等来欣赏立体声音乐的用户越来越多,考虑这样的现状,可以预见,今后将便携式电话与音乐播放器结合在一起,在使用用于立体声的耳塞式耳机或头戴式耳机等的配件的同时,进行通过立体声方式的语音通信的生活方式将广为普及。另外,在逐渐普及起来的电视会议等的环境中,为了使富有临场感的对话成为可能,预计也将要进行立体声通信。
另一方面,在移动通信系统和有线方式的通信系统等中,为了减轻系统的负荷,一般通过事先对传输的语音信号进行编码而谋求降低传输信息的比特速率。因此,最近对立体声语音信号进行编码的技术颇受瞩目。比如存在使用跨声道预测(cross-channel prediction)提高编码预测残差信号的编码效率的编码技术(参照非专利文献1),所述预测残差信号经立体声语音信号的CELP编码的加权处理。
另外可以预计,即使立体声通信得到普及,仍然要进行单声道通信。这是因为单声道通信利用低比特速率,所以可以期待降低通信成本,而且只适合单声道通信的便携式电话能够缩小电路规模而价格低廉,不需要高品质语音通信的用户可能购买只适合单声道通信的便携式电话。因此,在一个通信系统中,同时存在适合立体声通信的移动电话和适合单声道通信的便携式电话,通信系统需要同时适应立体声通信以及单声道通信。进一步来讲,移动通信系统通过无线信号进行通信数据的交换,因此有时可能因传播路径环境而丢失一部分通信数据。因此,如果有一种便携式电话具有即使一部分通信数据发生了丢失也能够从剩余的接收数据复原原来的通信数据的功能,将非常具有使用价值。
存在由立体声信号和单声道信号构成的可扩展编码技术,其具有以下功能能够同时适应立体声通信以及单声道通信,并且即使通信数据的一部分发生了丢失,也能够从残余的接收数据恢复原来的通信数据。作为具有该功能的可扩展编码装置的例子,比如有非专利文献2所公开的装置。
Ramprashad,S.A.、“Stereophonic CELP coding usingcross channel prediction”、Proc.IEEE Workshop on Speech Coding、Pages136-138、(17-20 Sept.2000)[非专利文献2]ISO/IEC 14496-31999(B.14 Scalable AAC with corecoder)发明内容发明需要解决的问题但是,在非专利文献1所公开的技术中,分别对两个声道的语音信号具有自适应代码本和固定代码本等,对每个声道产生不同的驱动音源信号,并生成合成信号。也就是说,对每个声道进行语音信号的CELP编码,并将得到的每个声道的编码信息输出到解码端。因此,存在相当于声道数目的编码参数被生成,编码速率增大,同时编码装置的电路规模也变大的问题。假设减少自适应代码本和固定代码本等的个数,则虽然编码速率被降低、电路规模也被削减,但是会导致解码信号的较大的音质恶化。即使是非专利文献2所公开的可扩展编码装置,也同样会发生这种问题。
因此,本发明的目的在于提供可扩展编码装置以及可扩展编码方法,能够防止解码信号的音质恶化,同时能够削减编码速率和削减电路规模。
解决该问题的方案本发明的可扩展编码装置采取的结构,包括单声道信号生成单元,从第一声道信号和第二声道信号生成单声道信号;第一声道加工单元,对所述第一声道信号进行加工而生成与所述单声道信号相似的第一声道加工信号;第二声道加工单元,对所述第二声道信号进行加工而生成与所述单声道信号相似的第二声道加工信号;第一编码单元,利用共用的音源,对所述单声道信号、所述第一声道加工信号以及所述第二声道加工信号的全部或部分进行编码;以及第二编码单元,对有关所述第一声道加工单元和所述第二声道加工单元的加工的信息进行编码。
这里,所述第一声道信号和所述第二声道信号是指立体声信号的L声道信号和R声道信号,或者是指立体声信号的R声道信号和L声道信号。
发明的有益效果根据本发明,能够防止解码信号的音质恶化,同时能够削减编码速率和削减编码装置的电路规模。


图1是表示实施方式1的可扩展编码装置的主要结构的方框图;图2是表示在不同位置获取的来自同一发生源的声音的信号的波形谱的一例的图;图3是表示实施方式1的可扩展编码装置的更为详细的结构的方框图;图4是表示实施方式1的单声道信号生成单元内部的主要结构的方框图。
图5是表示实施方式1的空间信息处理单元内部的主要结构的方框图;图6是表示实施方式1的失真最小化单元内部的主要结构的方框图;图7是表示实施方式1的音源信号生成单元内部的主要结构的方框图;图8是用于说明实施方式1的可扩展编码处理的步骤的流程图;图9是表示实施方式2的可扩展编码装置的详细结构的方框图;图10是表示实施方式2的空间信息赋予单元内部的主要结构的方框图;图11是表示实施方式2的失真最小化单元内部的主要结构的方框图;以及图12是用于说明实施方式2的可扩展编码处理的步骤的流程图。
具体实施例方式
以下,参照附图详细说明本发明的实施方式。另外,这里以对由L声道和R声道的两个声道构成的立体声信号进行编码的情形为例来说明。
(实施方式1)图1是表示本发明实施方式1的可扩展编码装置的主要结构的方框图。本实施方式的可扩展编码装置为在第一层(基本层)进行单声道信号的编码;在第二层(扩展层)进行L声道信号和R声道信号的编码;并将由各层得到的编码参数传输到解码端的可扩展编码装置。
本实施方式的可扩展编码装置包括单声道信号生成单元101、单声道信号合成单元102、失真最小化单元103、音源信号生成单元104、L声道信号加工单元105-1、L声道加工信号合成单元106-1、R声道信号加工单元105-2以及R声道加工信号合成单元106-2。另外,单声道信号生成单元101和单声道信号合成单元102被分类为上述的第一层;L声道信号加工单元105-1、L声道加工信号合成单元106-1、R声道信号加工单元105-2以及R声道加工信号合成单元106-2被分类为上述的第二层。另外,失真最小化单元103和音源信号生成单元104为第一层和第二层所共用的结构。
上述的可扩展编码装置的操作的概况如下。
因为输入信号为L声道信号L1和R声道信号R1构成的立体声信号,所以上述的可扩展编码装置在第一层中,从这些L声道信号L1和R声道信号R1生成单声道信号M1,并对该单声道信号M1进行规定的编码。
另一方面,在第二层中,上述可扩展编码装置对L声道信号L1进行后述的加工处理,生成与单声道信号相似的L声道加工信号L2,并对该L声道加工信号L2进行规定的编码。同样地,上述可扩展编码装置在第二层,对R声道信号R1进行后述的加工处理,生成与单声道信号相似的R声道加工信号R2,并对该R声道加工信号R2进行规定的编码。
这里,上述规定的编码是指,对单声道信号、L声道加工信号以及R声道加工信号进行共同的编码,得到对这三个信号共有的单一的编码参数(在单一的音源通过多个编码参数表现的情况下,为一组的编码参数),以谋求降低编码速率的编码处理。比如,在生成与输入信号近似的音源信号,并通过求取指定该音源信号的信息来进行编码的编码方法中,将单一的(或者一组)的音源信号分配给上述的三个信号(单声道信号、L声道加工信号以及R声道加工信号),由此进行编码。这是因为L声道信号和R声道信号都为与单声道信号相似的信号,所以能够通过共同的编码处理来对三个信号进行编码。另外,在该结构中,输入立体声信号既可以是语音信号,也可以是音频信号。
具体而言,本实施方式的可扩展编码装置,生成单声道信号M1、L声道加工信号L2以及R声道加工信号R2的各自的合成信号(M2、L3以及R3),并通过与原来的信号进行比较而求三个合成信号的编码失真。然后,搜索使求出的三个编码失真之和最小的音源信号,并将指定该音源信号的信息作为编码参数I1传输到解码端,由此谋求降低编码速率。
另外,虽然这里没有图示,但是在解码端,为了进行L声道信号以及R声道信号的解码,需要有关对L声道信号进行的加工处理以及对R声道信号进行的加工处理的信息,所以本实施方式的可扩展编码装置还对有关这些加工处理的信息另行编码,并传输到解码端。
接下来,说明上述的对L声道信号或者R声道信号进行的加工处理。
一般而言,即使是来自同一发生源的语音信号或者音频信号,根据麦克风的设置位置,也就是根据对该立体声信号进行拾音(收听)的位置,信号波形也呈现不同的特性。作为一个简单的例子,与来自发生源的距离对应,立体声信号的能量发生衰减,并且到达时间发生延迟,根据拾音位置呈现不同的波形谱。这样,立体声信号受到根据如拾音环境的空间因素的较大的影响。
图2是表示在两个不同位置对来自同一发生源的声音进行拾音而得到的信号(第一信号W1和第二信号W2)的波形谱的一例的图。
如该图所示,可以看出第一信号和第二信号分别呈现不同的特性。该呈现不同特性的现象能够理解为在原来的信号的波形上,被加上因拾音位置而异的新的空间特性后,通过麦克风等的拾音设备,信号被获取的结果。该特性在本说明书中称为空间信息(Spatial Information)。该空间信息为对立体声信号在听觉上提供延伸感(broad-sounding)的信息。另外,因为第一信号和第二信号为在来自同一发生源的信号加上了空间信息的信号,所以具有如下所示的性质。比如,在图2的例子中,当将第一信号W1延迟时间Δt则成为信号W1’。接下来,将信号W1’的振幅按照一定的比例减小而使振幅差ΔA消失,因为信号W1’为来自同一发生源的信号,所以在理想的情况下能够期待与第二信号W2相匹配。也就是说,第一信号和第二信号的特性上的不同(波形上的差异),能够通过对包含在语音信号或者音频信号中的空间信息进行修改的处理而大致去除,其结果,能够使两者的立体声信号的波形相似。另外,在后面进一步详细叙述有关空间信息。
因此,本实施方式通过对L声道信号L1和R声道信号R1予以修改各个空间信息的加工处理,生成与单声道信号M1相似的L声道加工信号L2和R声道加工信号R2。由此,能够共有用于编码处理的音源,或者作为编码参数即使不对三个信号生成各自的编码参数,也能够通过生成单一的(或者一组)编码参数而得到精度高的编码信息。
接下来,关于上述可扩展编码装置的动作,对每个功能块(block)进行说明。
单声道信号生成单元101从输入的L声道信号L1和R声道信号R1,生成具有两种信号的中间性质的单声道信号M1,并将其输出到单声道信号合成单元102。
单声道信号合成单元102利用单声道信号M1和通过音源信号生成单元104生成的音源信号S1,生成单声道信号的合成信号M2。
L声道信号加工单元105-1获取作为L声道信号L1和单声道信号M1之间的差的信息的L声道空间信息,并利用其对L声道信号L1进行上述的加工处理,生成与单声道信号M1相似的L声道加工信号L2。另外,在后面详细叙述有关空间信息。
L声道加工信号合成单元106-1利用L声道加工信号L2和通过音源信号生成单元104生成的音源信号S1,生成L声道加工信号L2的合成信号L3。
关于R声道信号加工单元105-2和R声道加工信号合成单元106-2的动作,因为与L声道信号加工单元105-1和L声道加工信号合成单元106-1的操作基本上相同,所以省略其说明。其中,L声道信号加工单元105-1和L声道加工信号合成单元106-1的处理对象为L声道,而R声道信号加工单元105-2和R声道加工信号合成单元106-2的处理对象为R声道。
失真最小化单元103对音源信号生成单元104进行控制,使其生成音源信号S1,所述音源信号S1为使各个合成信号(M2、L3以及R3)的编码失真之和最小的音源信号。另外,该音源信号S1对单声道信号、L声道信号以及R声道信号是共用的。另外,在求各个合成信号的编码失真时,虽然作为输入还需要作为原来的信号的M1、L2以及R2,但是在本附图中为了简化说明而省略了它们。
音源信号生成单元104在失真最小化单元103的控制下,生成对单声道信号、L声道信号以及R声道信号共用的音源信号S1。
接下来,对上述可扩展编码装置的更为详细的结构如下进行说明。图3是表示图1所示的本实施方式的可扩展编码装置的更为详细的结构的方框图。另外,这里以输入信号为语音信号,并利用CELP编码作为编码方法的可扩展编码装置为例进行说明。并且,对于与图1所示的相同的构成要素和信号赋予相同的标号,并且基本上省略其说明。
该可扩展编码装置将语音信号分为声道信息和音源信息,其中,对于声道信息,在LPC分析/量化单元(111、114-1以及114-2)通过求LPC参数(线性预测系数)进行编码;对于音源信息,通过求索引I1进行编码,所述索引I1为指定使用预先存储着的语音模式中的哪一个的索引,也就是指定通过音源信号生成单元104内的自适应代码本和固定代码本生成什么样的语音矢量的索引。
另外,在图3中,LPC分析/量化单元111和LPC合成滤波器112对应图1所示的单声道信号合成单元102;LPC分析/量化单元114-1和LPC合成滤波器115-1对应图1所示的L声道加工信号合成单元106-1;LPC分析/量化单元114-2和LPC合成滤波器115-2对应图1所示的R声道加工信号合成单元106-2;空间信息处理单元113-1对应图1所示的L声道信号加工单元105-1;空间信息处理单元113-2对应图1所示的R声道信号加工单元105-2。另外,空间信息处理单元113-1和113-2各自在其内部生成L声道空间信息和R声道空间信息。
具体而言,该图所示的可扩展编码装置的各个部分进行以下的动作。另外,酌情参照附图进行说明。
单声道信号生成单元101求取输入的L声道信号L1和R声道信号R1的平均,并将其作为单声道信号M1输出到单声道信号合成单元102。图4是表示单声道信号生成单元101内部的主要结构的方框图。加法器121求L声道信号L1和R声道信号R1之和,乘法器122将该和信号的标量(scale)减半并输出。
LPC分析/量化单元111对单声道信号M1进行线性预测分析,求作为频谱包络信息的LPC参数,将其输出到失真最小化单元103,进一步对该LPC参数进行量化,并将得到的量化LPC参数(用于单声道信号的LPC量化索引)I11输出到LPC合成滤波器112和本实施方式的可扩展编码装置的外部。
LPC合成滤波器112利用从LPC分析/量化单元111输出的量化LPC参数作为滤波器系数,并利用将通过音源信号生成单元104内的自适应代码本和固定代码本生成的音源矢量作为驱动音源的滤波函数,也就是利用LPC合成滤波器来生成合成信号。该单声道信号的合成信号M2输出到失真最小化单元103。
空间信息处理单元113-1从L声道信号L1和单声道信号M1生成用于表示L声道信号L1和单声道信号M1之间的特性的差的L声道空间信息。另外,空间信息处理单元113-1利用该L声道空间信息,对L声道信号L1进行上述加工处理,从而生成与单声道信号M1相似的L声道加工信号L2。
图5是表示空间信息处理单元113-1内部的主要结构的方框图。
空间信息分析单元131通过对L声道信号L1和单声道信号M1进行比较分析,求两种声道信号的空间信息的差,并将得到的分析结果输出到空间信息量化单元132。空间信息量化单元132对通过空间信息分析单元131得到的两个声道的空间信息的差进行量化,并将得到的编码参数(用于L声道信号的空间信息量化索引)I12输出到本实施方式的可扩展编码装置的外部。而且,空间信息量化单元132对通过空间信息分析单元131得到的用于L声道信号的空间信息量化索引进行逆量化,并将结果输出到空间信息去除单元133。空间信息去除单元133从L声道信号L1减去从空间信息量化单元132输出的、经逆量化的空间信息量化索引,也就是对通过空间信息分析单元131得到的两个声道的空间信息的差进行量化并进行逆量化的信号,由此将L声道信号L1变换为与单声道信号M1相似的信号。去除了这种空间信息的L声道信号(L声道加工信号)L2输出到LPC分析/量化单元114-1。
LPC分析/量化单元114-1的动作除了将L信道加工信号L2作为输入之外,与LPC分析/量化单元111相同,还将得到的LPC参数输出到失真最小化单元103,并将用于L声道信号的LPC量化索引I13输出到LPC合成滤波器115-1和本实施方式的可扩展编码装置的外部。
LPC合成滤波器115-1的动作也和LPC合成滤波器112相同,将得到的合成信号L3输出到失真最小化单元103。
另外,空间信息处理单元113-2、LPC分析/量化单元114-2以及LPC合成滤波器115-2的动作,除了将R信道作为处理对象之外,与空间信息处理单元113-1、LPC分析/量化单元114-1以及LPC合成滤波器115-1相同,因此省略其说明。
图6是表示失真最小化单元103内部的主要结构的方框图。
加法器141-1从单声道信号M1减去该单声道信号的合成信号M2,由此计算误差信号E1,并将该误差信号E1输出到听觉加权单元142-1。
听觉加权单元142-1使用听觉加权滤波器,对从加法器141-1输出的编码失真E1进行听觉加权处理,并将结果输出到加法器143,所述听觉加权滤波器将从LPC分析/量化单元111输出的LPC参数作为滤波器系数。
加法器141-2从去除了空间信息的L声道信号(L声道加工信号)L2减去该信号的合成信号L3,从而计算误差信号E2,并将其输出到听觉加权单元142-2。
听觉加权单元142-2的动作与听觉加权单元142-1相同。
加法器141-3也与加法器141-2相同地,从去除了空间信息的R声道信号(R声道加工信号)R2减去该信号的合成信号R3,从而计算误差信号E3,并将其输出到听觉加权单元142-3。
听觉加权单元142-3的动作也与听觉加权单元142-1相同。
加法器143将从听觉加权单元142-1~142-3输出的、经听觉加权处理后的误差信号E1~E3相加,并将结果输出到失真最小值判断单元144。
失真最小值判断单元144对从听觉加权单元142-1~142-3输出的、经听觉加权处理后的误差信号E1~E3的全部加以考虑,对每个副帧求取音源信号生成单元104内部的各个代码本(自适应代码本、固定代码本以及增益代码本)的各个索引,所述各个索引使从这3个误差信号求出的编码失真一并变小。这些代码本索引I1作为编码参数输出到本实施方式的可扩展编码装置的外部。
具体而言,失真最小值判断单元144将编码失真通过误差信号的二次方来表示,求取音源信号生成单元104内部的各个代码本的索引,这些索引使通过从听觉加权单元142-1~142-3输出的误差信号求出的编码失真的总和E12+E22+E32最小。求这些索引的一系列的处理构成闭环(反馈环),失真最小值判断单元144利用反馈信号F1对音源信号生成单元104进行各个代码本的索引的指示,通过在一个副帧内进行各种各样的变化来搜索各个代码本,并将最后得到的各个代码本的索引I1输出到本实施方式的可扩展编码装置的外部。
图7是表示音源信号生成单元104内部的主要结构的方框图。
自适应代码本151根据与从失真最小化单元103指示的索引对应的自适应代码本延迟(lag),生成相当于一个副帧的音源矢量。该音源矢量作为自适应代码本输出到乘法器152。固定代码本153预先存储着多个预定形状的音源矢量,并将与从失真最小化单元103指示的索引对应的音源矢量作为固定代码本矢量输出到乘法器154。增益代码本155根据来自失真最小化单元103的指示,生成用于从自适应代码本151输出的自适应代码本矢量的增益(自适应增益)和用于从固定代码本153输出的固定代码本矢量的增益(固定代码本增益),并将其分别输出到乘法器152和154。
乘法器152将从增益代码本155输出的自适应代码本增益,乘以从自适应代码本151输出的自适应代码本矢量,并将该结果输出到加法器156。乘法器154将从增益代码本155输出的固定代码本增益,乘以从固定代码本153输出的固定代码本矢量,并将结果输出到加法器156。加法器156将从乘法器152输出的自适应代码本矢量和从乘法器154输出的固定代码本矢量相加,并将相加后的音源矢量作为驱动音源信号S1输出。
图8是用于说明上述的可扩展编码处理的步骤的流程图。
单声道信号生成单元101将L声道信号和R声道信号作为输入信号,利用这些信号生成单声道信号(ST1010)。LPC分析/量化单元111进行单声道信号的LPC分析和量化(ST1020)。空间信息处理单元113-1和113-2分别对L声道信号和R声道信号进行上述的空间信息处理,也就是进行空间信息的提取和空间信息的去除处理(ST1030)。LPC分析/量化单元114-1和114-2对去除了空间信息的L声道信号和R声道信号,与对单声道信号相同地进行LPC分析和量化(ST1040)。另外,将从ST1010的单声道信号的生成到ST1040的LPC分析/量化为止的处理统称为处理P1。
失真最小化单元103确定使上述3个信号的编码失真成为最小的各个代码本的索引(处理P2)。也就是说,生成音源信号(ST1110)、进行单声道信号的合成/编码失真的计算(ST1120)、L声道信号和R声道信号的合成/编码失真的计算(ST1130)、以及进行编码失真的最小值的判断(ST1140)。该ST1110~ST1140的搜索代码本索引的处理构成闭环,对所有的索引进行搜索,当所有的搜索结束时该循环结束(ST1150)。然后,失真最小化单元103将求出的代码本索引输出(ST1160)。
另外,在上述的处理步骤中,处理P1以帧为单位进行,处理P2以将帧进一步分割的副帧为单元进行。
另外,在上述的处理步骤中,虽然以ST1020和ST1030~ST1040通过该顺序进行的情况为例进行了说明,但是也可以使ST1020和ST1030~ST1040同时进行处理(即并行处理)。另外,对于ST1120和ST1130也是一样,这些步骤也可以为并行处理。
接下来,利用算式来详细说明空间信息处理单元113-1的各个部分的处理。因为空间信息处理单元113-2的说明与空间信息处理单元113-1相同,所以将它省略。
首先,以作为空间信息使用的两个声道之间的能量比和延迟时间差的情形为例进行说明。
空间信息分析单元131计算两个声道之间的帧单位的能量比。首先,根据下式(1)和下式(2)而求L声道信号和单声道信号的一个帧内的能量ELCH和EM。
ELch=Σn=0FL-1xLch(n)2···(1)]]>EM=Σn=0FL-1xM(n)2···(2)]]>其中,n为样本号码,FL为一个帧的样本数(帧长度)。另外,XLCH(n)和XM(n)分别表示L声道信号和单声道信号的各自的第n个样本的振幅。
继而,空间信息分析单元131根据下式(3)求取L声道信号和单声道信号的能量比的平方根C。
C=ELchEM···(3)]]>另外,空间信息分析单元131如以下这样,将延迟时间差作为在两种声道信号之间的互相关成为最大的值来求取,所述延迟时间差为L声道信号相对于单声道信号的、两种声道信号之间的信号的时间上的偏差量。具体而言,根据下式(4)而求单声道信号以及L声道信号的互相关函数Φ。
φ(m)=Σn=0FL-1xLch(n)·xM(n-m)···(4)]]>其中,设m为取预先确定的从min_m到max_m的范围的值,将Φ(m)成为最大时的m=M作为L声道信号相对于单声道信号的延迟时间差。
另外,上述的能量比以及延迟时间差也可以根据下式(5)而求。在算式(5)中,求使误差D最小的能量比的平方根C和延迟时间m,所述误差D为单声道信号和对该单声道信号去除了空间信息的L声道信号之间的误差。
D=Σn=0FL-1{xLch(n)-C·xM(n-m)}2···(5)]]>空间信息量化单元132将上述C和M通过预先规定的比特数进行量化,并将经量化的C和M分别设为CQ和MQ。
空间信息去除单元133从L声道信号中根据下式(6)的变换式而去除空间信息。
xLch′(n)=CQ·xLch(n-MQ)…(6)(其中,n=0,…,FL-1)另外,作为上述的空间信息的具体例有以下的例子。
比如,能够将两个声道之间的能量比和延迟时间差的两个参数作为空间信息来使用。这些都是易于定量化的参数。另外,作为变化例还可以使用每个频带的传播特性,比如相位差和振幅比等。
如上所述,根据本实施方式,因为使编码对象的信号互相相似并使用共有的音源进行编码,所以能够防止解码信号的音质恶化,同时能够削减编码速率和削减电路规模。
另外,因为在各层使用共有的音源来进行编码,所以无需在各层设置自适应代码本、固定代码本以及增益代码本的组,并能够通过一组的各个代码本来生成音源。也就是说,能够削减电路规模。
另外,在以上的结构中,失真最小化单元103对单声道信号、L声道信号以及R声道信号的所有的编码失真进行考虑,并进行控制以使这些编码失真的总和成为最小。因此,能够提高编码性能,提高解码信号的音质。
另外,在本实施方式的图3之后,虽然作为编码方式以使用CELP编码的情况为例进行了说明,但是不一定使用如CELP编码那样利用语音模式的编码,即使不是利用在代码本预先注册音源的编码方法也可以。
另外,本实施方式中,虽然对单声道信号、L声道加工信号以及R声道加工信号的3个信号的编码失真的全部加以考虑,说明了以其为例的情况,但是因为单声道信号、L声道加工信号以及R声道加工信号相互相似,所以也可以只对1个声道,比如只对单声道信号求取使其编码失真最小的编码参数,并将该编码参数传输到解码端。即使在该情况下,在解码端,不仅能够对单声道信号的编码参数进行解码而重现该单声道信号,而且对于L声道和R声道,也能够对从本实施方式的可扩展编码装置输出的L声道空间信息或者R声道空间信息的编码参数进行解码,并对解码单声道信号进行与上述的加工处理相反的处理,由此能够在不使品质大幅度降低的情况下重现该两个声道的信号。
进一步来讲,在本实施方式中,虽然以将两个声道之间(比如L声道信号和单声道信号)的能量比以及延迟时间差的两个参数的两者作为空间信息的情形为例进行了说明,但是作为空间信息也可以只使用其中任意一者的参数。在只使用一个参数的情形下,与使用两个参数的情形相比,虽然提高两个声道的相似度的效果有所减少,但是反而具有进一步削减编码比特数的效果。
比如,作为空间信息只使用两个声道之间的能量比的情况下,L声道信号的变换利用CQ,根据下式(7)来进行,所述CQ为对通过上式(3)求出的能量比的平方根C进行量化所得到的值。
xLch′(n)=CQ·xLch(n)......(7)(其中,n=0,…,FL-1)因为式(7)的能量比的平方根CQ也可称为振幅比(其中,只限于符号为正的),所以通过对xLCH(n)乘以CQ来变换xLCH(n)的振幅,也就是说,因为能够校正由于与音源之间的距离而造成衰减的振幅,所以相当于去除了空间信息中的源于距离的影响。
比如,作为空间信息只使用两个声道之间的延迟时间差时,副声道信号的变换利用MQ,根据下式(8)来进行,所述MQ为对使通过上式(4)求出的Φ(m)为最大的m=M进行量化而得到的值。
xLch′(n)=xLch(n-MQ)...(8)(其中,n=0,…,FL-1)因为式(8)中的使Φ为最大的MQ为离散地表示时间的值,所以通过将xLCH(n)的n置换成n-MQ,相当于变换成追溯了时间M的(时间M之前的)波形xLCH(n)。也就是说,因为使波形延迟了时间M,所以相当于去除了空间信息中的源于距离的影响。另外,因为音源的方向不同意味着距离也不同,所以相当于对源于方向的影响加以了考虑。
另外,通过LPC量化单元,对去除了空间信息的L声道信号和R声道信号进行量化时,还可以利用对单声道信号量化的量化LPC参数,来进行差分量化和预测量化等。因为去除了空间信息的L声道信号和R声道信号被变换成与单声道信号相近的信号,所以对于这些信号的LPC参数与单声道信号的LPC参数的相关较高,因此能够以更低的比特速率进行高效率的量化。
另外,在失真最小化单元103,当计算编码误差时,为了减少单声道信号或者立体声信号的其中一方对编码失真所造成的影响,还可以如下式(9)那样,预先设定加权系数α、β以及γ。
编码失真=α×单声道信号的编码失真+β×L声道信号的编码失真+γ×R声道信号的编码失真...(9)这样,能够通过将对于希望减少编码失真的影响的信号(高音质并且希望编码的信号)的加权系数设定得比其他的信号的加权系数大,从而实现与使用环境对应的编码。比如,在进行解码时,当对预先设想比单声道信号利用立体声信号进行解码的情况多的信号进行编码时,作为加权系数,对β和γ设定比α大的值,此时对β和γ使用相同的值。
另外,作为上述的加权系数的设定方法的变化例,还可以只考虑立体声信号的编码失真,而不考虑单声道信号的编码失真。在该情况下,将α设定成0。将β和γ设定成相同的值(比如1)。
另外,立体声信号中,当一方的声道的信号(比如L声道信号)包含有重要的信息的情况下(比如,L声道信号为语音,R声道信号为背景音乐),作为加权系数,将β设定成比γ大的值。
另外,还可以搜索音源信号的参数且LPC参数也只对两种信号进行量化,以只使单声道信号和去除了空间信息的L声道信号的两种信号的编码失真最小。在该情况下,R声道信号能够根据下式(10)而求。进一步还可以将L声道信号和R声道信号相反地处理。
R(i)=2×M(i)-L(i)...(10)其中,R(i)为R声道信号,M(i)为单声道信号、L(i)为L声道信号的第i个样本的振幅值。
另外,如果单声道信号、L声道加工信号以及R声道加工信号相互相似,则可以共用音源。由此,在本实施方式,不只是进行去除空间信息等的加工处理,利用其它的加工处理能够得到与上述相同的作用/效果。
(实施方式2)
实施方式1中,失真最小化单元103对单声道信号、L声道信号以及R声道信号的所有的编码失真加以考虑,进行编码循环(loop)的控制以使这些编码失真的总和成为最小。但是,严格来讲,失真最小化单元103比如对于L声道,求取并使用去除了空间信息的L声道信号和去除了空间信息的L声道信号的合成信号之间的编码失真,因为这些信号为去除了空间信息后的信号,所以与其说是L声道信号不如说是具有与单声道信号相近的性质的信号。也就是说,编码循环的对象信号不是原信号,而是进行了规定的处理后的信号。
于是,在本实施方式中,作为失真最小化单元103的编码循环的对象信号,使用原信号。另一方面,因为本发明中并不存在对于原信号的合成信号,比如对于L声道,设置一种结构,在去除了空间信息的L声道信号的合成信号中重新赋予空间信息,求空间信息被复原后的L声道合成信号,并从该合成信号和原信号(L声道信号)计算编码失真。
图9是表示本发明实施方式2的可扩展编码装置的详细结构的方框图。并且,该可扩展编码装置具有与实施方式1所示的可扩展编码装置(参照图3)相同的基本结构,对相同的构成要素赋予相同的标号,并省略其说明。
本实施方式的可扩展编码装置除了实施方式1的结构之外,进一步具有空间信息赋予单元201-1和201-2,以及LPC分析单元202-1和202-2,另外,对编码循环的控制进行管理的失真最小化单元的功能与实施方式1不同(失真最小化单元203)。
空间信息赋予单元201-1对从LPC合成滤波器115-1输出的合成信号L3赋予由空间信息处理单元113-1去除的空间信息,并将结果输出到失真最小化单元203(L3’)。LPC分析单元202-1对作为原信号的L声道信号L1进行线性预测分析,并将得到的LPC参数输出到失真最小化单元203。对于失真最小化单元203的动作将后述。
另外,空间信息赋予单元201-2和LPC分析单元202-2的动作也和上述相同。
图10是表示空间信息赋予单元201-1内部的主要结构的方框图。另外,空间信息赋予单元201-2的结构也与其相同。
空间信息赋予单元201-1包括空间信息逆量化单元211和空间信息解码单元212。空间信息解量化单元211对输入的用于L声道信号的空间信息量化索引CQ和MQ进行解量化,并将相对于L声道信号的单声道信号的空间信息量化参数C’和M’输出到空间信息解码单元212。空间信息解码单元212对去除了空间信息的L声道信号的合成信号L3适用空间信息量化参数C’和M’,由此生成并输出赋予了空间信息的L声道合成信号L3’。
接下来,在下面表示用来说明空间信息赋予单元201-1的处理的算式。另外,因为这些处理只相当于空间信息处理单元113-1的处理的反向处理,所以省略详细的说明。
比如,作为空间信息,在利用能量比和延迟时间差的情况下,与上式(6)对应,成为下式(11)。
xLch′′(n)=1C′·xLch(n+M′)···(11)]]>(其中,n=0,…,FL-1)另外,比如,作为空间信息,在只利用能量比的情况下,与上式(7)对应,成为下式(12)。
xLch′′(n)=1C′·xLch(n)···(12)]]>(其中,n=0,…,FL-1)另外,比如,作为空间信息,在只利用延迟时间差的情况下,与上式(8)对应,成为下式(13)。
xLch″(n)=xLch(n+M′)...(13)(其中,n=0,…,FL-1)另外,对于R声道信号也根据相同的算式说明。
图1 1是表示上述的失真最小化单元203内部的主要结构的方框图。另外,对于与实施方式1所示的失真最小化单元103相同的构成要素赋予相同的标号,并省略其说明。
对失真最小化单元203输入以下信号单声道信号M1和单声道信号的合成信号M2、L声道信号L1和对其赋予了空间信息的合成信号L3’、以及R声道信号R1和对其赋予了空间信息的合成信号R3’。失真最小化单元203计算各个信号之间的编码失真,在进行听觉加权后,计算各个编码失真的总和,并确定该编码失真成为最小的各个代码本的索引。
另外,听觉加权单元142-2输入L声道信号的LPC参数,听觉加权单元142-2将其作为滤波器系数进行听觉加权。另外,听觉加权单元142-3输入R声道信号的LPC参数,听觉加权单元142-2将其作为滤波系数进行听觉加权。
图12是用于说明上述的可扩展编码处理的步骤的流程图。
与实施方式1所示的图8的不同之处为具有进行L/R声道信号的合成和空间信息的赋予的步骤(S2010)来代替ST1130,以及进行L/R声道信号的编码失真的计算的步骤(ST2020)。
如上所述,根据本实施方式,作为编码循环的对象信号,直接使用作为原信号的L声道信号和/或R声道信号,而不是实施方式1那样的进行了规定的处理后的信号。另外,为了使对象信号成为原信号,作为所对应的合成信号,使用将空间信息复原的LPC合成信号。因此,可以期待提高编码精度。
这是因为,比如,在实施方式1中,对L声道信号和R声道信号进行编码循环的动作,以对从去除了空间信息后的信号所合成的信号的编码失真进行最小化。因此,存在对于最后输出的解码信号的编码失真未成为最小的可能。
另外,比如在L声道信号的振幅比单声道信号的振幅大得多的情况下,按照实施方式1的方法,在输入到失真最小化单元的L声道信号的误差信号中,成为去除了该振幅较大所引起的影响后的信号。因此,解码装置中,在复原空间信息时,伴随振幅的放大,不需要的编码失真也被放大,会导致重放音质的恶化。另一方面,在本实施方式中,因为将包含在与通过解码装置得到的解码信号相同的信号的编码失真作为对象进行最小化,所以不会发生这样的问题。
另外,在上述结构中,用于进行听觉加权的LPC参数,使用从去除空间信息前的L声道信号和R声道信号求取的LPC参数。也就是说,在听觉加权中,适用对于作为原信号的L声道信号和R声道信号本身的听觉加权。因此,能够对L声道信号和R声道信号进行在听觉上失真更小的高音质的编码。
以上,说明了本发明的实施方式。
本发明的可扩展编码装置以及可扩展编码方法,不被上述实施方式所限定,可以加以各种变更来实施。
本发明的可扩展编码装置,能够配置于移动通信系统的通信终端装置和基站装置,并且由此能够提供具有同样的作用效果的通信终端装置和基站装置。另外,本发明的可扩展编码装置以及可扩展编码方法还有可能利用在有线方式的通信系统中。
另外,虽然这里以通过硬件来实现本发明的情形为例进行了说明,但是本发明还可以通过软件来实现。比如,通过编程语言,对本发明的可扩展编码方法的算法进行记述,并在内存中保存该程序并通过信息处理装置来实行,从而能够实现与本发明的可扩展编码装置相同的功能。
另外,自适应代码本(adaptive codebook)有时也被称为自适应音源代码本。另外,固定代码本(fixed codebook)有时也被称为固定音源代码本。另外,固定代码本也有时被称为噪音代码本、概率代码本(stochastic codebook)、或者随机代码本(random codebook)。
另外,用于说明上述的实施方式的各个功能模块,典型地被实现为由集成电路构成的LSI(大规模集成电路)。这些既可以分别实行单芯片化,也可以包含其中一部分或者是全部而实行单芯片化。
另外,每个功能块在此虽然称做LSI,但根据集成度的不同也可以称为“IC”、“系统LSI”、“超大LSI”和“极大LSI”等。
另外,集成电路化的技术不只限于LSI,也可以使用专用电路或通用处理器来实现。也可以在LSI制造后利用可编程的FPGA(Field ProgrammableGate Array,现场可编程门阵列),或将LSI内部的电路单元连接或设定重新配置的可重配置处理器(Reconfigurable Processor)。
再有,如果随着半导体技术的进步或者其他技术的派生,出现了取代LSI集成电路的技术,当然也可以利用该技术来实现功能块的集成化。也有适用生物技术等的可能性。
本说明书根据2004年12月28日提交的日本专利申请特愿2004-381492号和2005年5月31日提交的日本专利申请特愿2005-160187号。其内容全部包括在此。
工业实用性本发明的可扩展编码装置和可扩展编码方法能够适用于移动通信系统中的通信终端装置、基站装置等用途。
权利要求
1.一种可扩展编码装置,包括单声道信号生成单元,从第一声道信号和第二声道信号生成单声道信号;第一声道加工单元,对所述第一声道信号进行加工而生成与所述单声道信号相似的第一声道加工信号;第二声道加工单元,对所述第二声道信号进行加工而生成与所述单声道信号相似的第二声道加工信号;第一编码单元,利用共用的音源,对所述单声道信号、所述第一声道加工信号以及所述第二声道加工信号的全部或部分进行编码;以及第二编码单元,对有关所述第一声道加工单元和所述第二声道加工单元的加工的信息进行编码。
2.如权利要求1所述的可扩展编码装置,其中,所述第一声道加工单元对包含在所述第一声道信号中的空间信息予以修改而生成所述第一声道加工信号,所述第二声道加工单元对包含在所述第二声道信号中的空间信息予以修改而生成所述第二声道加工信号,所述第二编码单元对有关在所述第一声道加工单元和所述第二声道加工单元进行的所述修改的信息进行编码。
3.如权利要求2所述的可扩展编码装置,其中,包含在所述第一声道信号中的空间信息为有关所述第一声道信号和所述单声道信号的波形上的差异的信息。
4.如权利要求3所述的可扩展编码装置,其中,有关所述波形上的差异的信息为有关能量和延迟时间的双方或者一方的信息。
5.如权利要求1所述的可扩展编码装置,其中,所述第一编码单元包括对所述单声道信号、所述第一声道加工信号以及所述第二声道加工信号的全部或部分共用的自适应代码本和固定代码本。
6.如权利要求1所述的可扩展编码装置,其中,所述第一编码单元求使所述单声道信号的编码失真、所述第一声道加工信号的编码失真以及所述第二声道加工信号的编码失真的总和最小的所述共用的音源。
7.如权利要求1所述的可扩展编码装置,其中,还包括第一反向处理单元,对所述第一声道加工信号进行与所述第一加工单元的加工相反的处理而得到第一声道信号;以及第二反向处理单元,对所述第二声道加工信号进行与所述第二加工单元的加工相反的处理而得到第二声道信号,所述第一编码单元求使所述单声道信号的编码失真、通过所述第一反向处理单元得到的第一声道信号的编码失真以及通过所述第二反向处理单元得到的第二声道信号的编码失真的总和最小的所述共用的音源。
8.如权利要求7所述的可扩展编码装置,其中,还包括单声道LPC分析单元,对所述单声道信号进行LPC分析而得到单声道LPC参数;第一声道LPC分析单元,对所述第一声道信号进行LPC分析而得到第一声道LPC参数;第二声道LPC分析单元,对所述第二声道信号进行LPC分析而得到第二声道LPC参数;单声道听觉加权单元,利用所述单声道LPC参数,对所述单声道信号的编码失真进行听觉加权;第一声道听觉加权单元,利用所述第一声道LPC参数,对通过所述第一反向处理单元得到的第一声道信号的编码失真进行听觉加权;以及第二声道听觉加权单元,利用所述第二声道LPC参数,对通过所述第二反向处理单元得到的第二声道信号的编码失真进行听觉加权。
9.一种包括权利要求1所述的可扩展编码装置的通信终端装置。
10.一种包括权利要求1所述的可扩展编码装置的基站装置。
11.一种可扩展编码方法,包括单声道信号生成步骤,从第一声道信号和第二声道信号生成单声道信号;第一声道加工步骤,对所述第一声道信号进行加工而生成与所述单声道信号相似的第一声道加工信号;第二声道加工步骤,对所述第二声道信号进行加工而生成与所述单声道信号相似的第二声道加工信号;第一编码步骤,利用共用的音源,对所述单声道信号、所述第一声道加工信号以及所述第二声道加工信号的全部或部分进行编码;以及第二编码步骤,对有关所述第一声道加工步骤和所述第二声道加工步骤的加工的信息进行编码。
全文摘要
公开了可扩展编码装置,能够防止解码信号的音质恶化,同时能够削减编码速率和削减电路规模。在该装置中,L声道信号加工单元(105-1)利用L声道空间信息,对L声道信号L1进行加工而生成与单声道信号M1相似的加工信号L2。L声道加工信号合成单元(106-1)利用加工信号L2和由音源信号生成单元(104)生成的音源信号S1而生成合成信号L3。R声道信号加工单元(105-2)和R声道加工信号合成单元(106-2)也进行相同的动作。失真最小化单元(103)对音源信号生成单元(104)进行控制,使其生成音源信号S1,所述音源信号S1为使合成信号M2、L3以及R3的编码失真的和成为最小的共用的音源信号。
文档编号G10L19/14GK101091205SQ200580045238
公开日2007年12月19日 申请日期2005年12月26日 优先权日2004年12月28日
发明者后藤道代, 吉田幸司 申请人:松下电器产业株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1