可扩展编码装置和可扩展编码方法

文档序号:2829997阅读:277来源:国知局
专利名称:可扩展编码装置和可扩展编码方法
技术领域
本发明涉及对立体声信号实施编码的可扩展编码装置和可扩展编码方法。
背景技术
正如通过移动电话进行通话那样,目前移动通信系统中的语音通信以单 声道方式进行的通信(单声道通信)为主流。但是,今后如第四代移动通信 系统那样,如果传输速率的更高比特速率化继续推进,则能够确保用于传输 多个声道的频带,从而可期待在语音通信中立体声方式的通信(立体声通信) 也将变得普及。例如,将音乐存储于搭载了 HDD(硬盘)的便携式音频播放器,并在该播 放器安装立体声用的耳机或头戴式耳机等来欣赏立体声音乐的用户越来越 多,考虑到该现状可以预测,今后将移动电话与音乐播放器相结合,在使用 立体声用的耳机或头戴式耳机等装备的同时,进行立体声方式的语音通信的 生活方式将广为普及。此外,在最近日渐普及的电视会议等环境中,为了可 进行富有临场感的会话,预计也将要进行立体声通信。另一方面,在移动通信系统和有线方式的通信系统等中,为了减轻系统 的负荷, 一般进行通过对所传输的语音信号预先进行编码来谋求传输信息的 低比特速率化。因此,最近对立体声语音信号进行编码的技术备受瞩目。例 如,已存在使用cross-channel prediction来提高预测残差信号的编码效率的编 码技术(参照非专利文献1),该预测残差信号为立体声语音信号的CELP编码 的被加权的信号。此外,可以预测,即使普及了立体声通信,依然要进行单声道通信。原 因是,单声道通信是低比特速率所以可以期待降低通信成本,此外,因为仅 对应单声道通信的移动电话的电路规模变小所以价格低廉,不需要高质量语 音通信的用户可能购买仅对应单声道通信的移动电话。因此,在一个通信系 统中,混合存在对应立体声通信的移动电话和对应单声道通信的移动电话,
从而通信系统有必要对应立体声通信以及单声道通信。进而,在移动通信系 统中通过无线信号进行通信数据的交换,所以有时由于传播路径环境而使一 部分通信数据丢失。因此,如果移动电话具有即使丟失一部分的通信数据也 能够从剩余的接收数据恢复原来的通信数据的功能,将非常有用。作为能够应对立体声通信以及单声道通信,而且即使丢失一部分的通信 数据,也能够从剩余的接收数据恢复原来的通信数据的功能,有由立体声信 号和单声道信号构成的可扩展编码。作为具有该功能的可扩展编码装置的例子,例如有非专利文献2所公开的装置。非专利文献1Ramprashad, S. A.、 "Stereophonic CELP coding using cross channel prediction"、 Proc. IEEE Workshop on Speech Coding、 Pages: 136 — 138、 (17-20 Sept. 2000)[非专利文献2] ISO/IEC 14496-3:1999 (B.14 Scalable AAC with core coder)
发明内容
发明要解决的问题但是,在非专利文献1所公开的技术中,对两个声道的语音信号分别单 独具有自适应代码本和固定代码本等,对各个声道产生各自的驱动音源信号,并生成合成信号。也就是说,对各个声道进行语音信号的CELP编码,并将 获得的各个声道的编码信息输出到解码端。因此存在以下问题,生成相当于 声道数的数量的编码参数,增大了编码率,同时编码装置的电路规模也变大。 如果减少自适应代码本和固定代码本等的个数,虽然能够降低编码率并能够 削减电路规模,但是反而会带给解码信号大的音质恶化。这是即使是非专利 文献2所公开的可扩展编码装置也同样产生的问题。因此,本发明的目的在于提供一种能够防止解码信号的音质恶化,同时 能够削减编码率,并能够削减电路规模的可扩展编码装置和可扩展编码方法。解决该问题的方案本发明的可扩展编码装置釆用以下结构,包括单声道信号生成单元, 使用用于构成立体声信号的多个声道信号来生成单声道信号;第一编码单元, 对所述单声道信号进行编码而生成音源参数;单声道相似信号生成单元,使 用所述声道信号和所述单声道信号来生成第一单声道相似信号;合成单元,
使用所述音源参数和所述第一单声道相似信号来生成合成信号;以及第二编 码单元,使用所述合成信号和所述第一单声道相似信号来生成失真最小化参数。发明有益效果根据本发明,能够防止解码信号的音质恶化,同时能够削减编码率,并 能够削减编码装置的电路规模。


图1是表示实施方式1的可扩展编码装置的主要结构的方框图; 图2是表示实施方式1的单声道信号生成单元内部的主要结构的方框图; 图3是表示实施方式1的单声道信号编码单元内部的主要结构的方框图; 图4是表示实施方式1的第二层编码器内部的主要结构的方框图; 图5是表示实施方式1的第一变换单元内部的主要结构的方框图; 图6是表示对来自同一发生源的信号在不同的位置所获得的信号的波形 频谱的一例的图;图7是表示实施方式1的音源信号生成单元内部的主要结构的方框图; 图8是表示实施方式1的失真最小化单元内部的主要结构的方框图; 图9是汇总了 L声道处理系统的编码处理的概要的图; 图10是表示汇总了 L声道和R声道在第二层的编码处理的步骤的流程图;图11是表示实施方式2的第二层编码器的主要结构的方框图;图12是表示实施方式2的第二变换单元内部的主要结构的方框图;图13是表示实施方式2的失真最小化单元内部的主要结构的方框图;以及图14是表示实施方式1的第二层解码器内部的主要结构的方框图;具体实施方式
以下,参照附图详细说明本发明的实施方式。另外,这里以对由L声道 以及R声道两个声道构成的立体声语音信号进行编码的情况为例进行说明。 (实施方式1)图l是表示本发明的实施方式l的可扩展编码装置的主要结构的方框图。
这里以使用CELP编码作为各层的编码方式为例进行说明。本实施方式的可扩展编码装置具有第一层编码器100以及第二层编码器150,在第一层(基本层)中进行单声道信号的编码,在第二层(扩展层)中进行 立体声信号的编码,并将在各层所获得的编码参数传输到解码端。更加具体的为下述处理,在第一层编码器100中,在单声道信号生成单 元101从所输入的立体声语音信号,即L声道信号Ll以及R声道信号Rl生 成单声道信号Ml,在单声道信号编码单元102,对该信号M1进行编码,并 获得与声道信息有关的编码参数(LPC量化索引)以及与音源信息有关的编码 参数(音源参数)。在该第一层所获得的音源参数,即驱动音源在第二层中也被 使用。第二层编码器150进行后述的第一变换而生成第一变换信号,并输出该 第一变换所使用的第一变换系数,以使L声道信号和R声道信号在波形上相 似于单声道信号。此外,第二层编码器150使用在第一层所生成的驱动音源 进行第一变换信号的LPC分析以及LPC合成。该第一变换的细节将后述。进而,第二层编码器150对各个LPC合成信号实施第二变换,该第二变 换为使这些合成信号对第一变换信号的编码失真成为最小的变换,并输出在 该第二变换中所使用的第二变换系数的编码参数。通过使用代码本,进行各 个声道的闭环搜索求代码本索引,来进行该第二变换。该第二变换的细节也 将后述。这样,通过在第一层和第二层共享驱动音源,本实施方式的可扩展编码 装置能够实现低比特率的编码。此外,在第二层,进行第一变换,以使立体声信号的L声道信号以及R 声道信号成为在波形上与各个单声道信号相近似的信号,对于该第一变换后 的信号(第一变换信号),共享CELP编码的驱动音源,且对各个声道单独地实 施第二变换,以使各个声道对LPC合成信号的第一变换信号的编码失真成为 最小。由此,能够提高语音质量。图2是表示上述单声道信号生成单元101内部的主要结构的方框图。单声道信号生成单元101从所输入的L声道信号Ll和R声道信号Rl生 成具有两种信号的中间特性的单声道信号Ml ,并输出到单声道信号编码单元 102。作为具体的例子,将L声道信号L1和R声道信号R1的平均设为单声 道信号M1即可,在该情况下,如图2所示,由加法器105求L声道信号L1
和R声道信号R1之和,由乘法器106将该相加信号的标量乘以1/2,并作为 单声道信号M1输出。图3是表示上述单声道信号编码单元102内部的主要结构的方框图。单声道信号编码单元102包括LPC分析单元111、 LPC量化单元112、 LPC合成滤波器113、加法器114、听觉加权单元115、失真最小化单元116、 自适应代码本117、乘法器118、固定代码本119、乘法器120、增益代码本 121以及加法器122,进行CELP编码并输出音源参数(自适应代码本索引、 固定代码本索引和增益代码本索引)和LPC量化索引。LPC分析单元111对单声道信号Ml实施线性预测分析,将作为分析结 果的LPC参数输出到LPC量化单元112以及听觉加权单元115。 LPC量化单 元112对该LPC参数进行量化,并输出用于确定所获得的量化LPC参数的索 引(LPC量化索引)。该索引通常被输出到本实施方式的可扩展编码装置的外 部。此外,LPC量化单元112将量化LPC参数输出到LPC合成滤波器113。 LPC合成滤波器113使用从LPC量化单元112输出的量化LPC参数,将音源 向量作为驱动音源进行通过LPC合成滤波器的合成,该音源向量为使用后述 的自适应代码本117以及固定代码本119而生成的音源向量。所获得的合成 信号被输出到加法器114。加法器114通过从单声道信号M1中减去从LPC合成滤波器113输出的 合成信号来计算误差信号,并将该误差信号输出到听觉加权单元115。该误 差信号相当于编码失真。听觉加权单元115使用基于从LPC分析单元111输 出的LPC参数而构成的听觉加权滤波器,对编码失真进行听觉加权,并将该 信号输出到失真最小化单元116。失真最小化单元116对自适应代码本117、 固定代码本119以及增益代码本121指示要使用的索引,以使编码失真成为 最小。自适应代码本117将过去生成的、送往LPC合成滤波器113的驱动音源 的音源向量存储于内部緩冲器,基于与从失真最小化单元116指示的索引对 应的自适应代码本延迟,从该被存储的音源向量生成相当于一个子帧的音源 向量,并作为自适应音源向量输出到乘法器118。固定代码本119将与从失真 最小化单元116指示的索引对应的音源向量作为固定音源向量输出到乘法器 120。增益代码本121生成自适应音源向量以及固定音源向量的各个增益。乘 法器118将从增益代码本121输出的自适应音源增益乘以自适应音源向量,
并输出到加法器122。乘法器120将从增益代码本121输出的固定音源增益 乘以固定音源向量,并输出到加法器122。加法器122将从乘法器118输出 的自适应音源向量和从乘法器120输出的固定音源向量相加,并将相加后的 音源向量作为驱动音源输出到LPC合成滤波器113。另外,加法器122将获 得的驱动音源的音源向量反馈给自适应代码本117。如上所述,LPC合成滤波器113将从加法器122输出的音源向量,即使 用自适应代码本117以及固定代码本119所生成的音源向量作为驱动音源, 进行通过LPC合成滤波器的合成。这样,使用由自适应代码本117以及固定代码本119所生成的音源向量, 求编码失真的一连串处理成为闭环(反馈环),失真最小化单元116对自适应 代码本U7、固定代码本119以及增益代码本121进行指示以使该编码失真成 为最小。然后,失真最小化单元116将使编码失真成为最小的各种音源参数 输出。这些参数通常被输出到本实施方式的可扩展编码装置的外部。图4是表示上述第二层编码器150内部的主要结构的方框图。第二层编码器150大致由处理立体声语音信号的L声道的L声道处理系 统和处理立体声语音信号的R声道的R声道处理系统构成,两个系统具有彼 此相同的结构。因此,对两个声道的相互对应的结构赋予相同的标号,还另 外对L声道处理系统在连字符后面赋予分支号1,对R声道处理系统在连字 符后面赋予分支号2。然后,仅说明L声道处理系统,省略对R声道处理系 统的说明。另外,音源信号生成单元151为L声道和R声道共享。第二层编码器150的L声道处理系统包括音源信号生成单元151、第一 变换单元152-1、 LPC分析/量化单元153-1、 LPC合成滤波器154-1、第二变 换单元155-1以及失真最小化单元156-1。音源信号生成单元151使用从第一层编码器IOO输出的音源参数P1来生 成在L声道以及R声道中共享的音源信号M2。第一变换单元152-1从L声道信号L1和单声道信号M1中获得表示L声 道信号Ll和单声道信号Ml的在波形上的特性差的第一变换系数,使用该第 一变换系数对L声道信号L1实施第一变换,并生成与单声道信号M1相似的 第一变换信号Md。此外,第一变换单元152-1输出确定第一变换系数的索 引Il(第一变换系数索引)。LPC分析/量化单元153-1对第一变换信号ML1实施线性预测分析,求频 谱包络信息的LPC参数,并对该LPC参数进行量化,将所获得的量化LPC 参数输出到LPC合成滤波器154-1,同时输出确定量化LPC参数的索引(LPC 量化索引)12。LPC合成滤波器154-1将从LPC分析/量化单元153-1输出的量化LPC 参数作为滤波系数,并将在音源信号生成单元151所生成的音源向量M2作 为驱动音源的滤波函数,即使用LPC合成滤波器来生成L声道的合成信号 ML2。该合成信号Mt2被输出到第二变换单元155-1。第二变换单元155-1对合成信号ML2实施后述的第二变换,并将第二变 换信号输出到失真最小化单元156-1。失真最小化单元156-1通过反馈信号F1来控制第二变换单元155-1中的 第二变换,以使第二变换信号Mt3的编码失真成为最小,并输出用于确定使 编码失真最小的第二变换系数的索引(第二变换系数索引)D。第一变换系数索 引II、 LPC量化索引12以及第二变换系数索引13通常被输出到本实施方式 的可扩展编码装置的外部。接着,更详细地说明该第二层编码器150内部的各单元的动作。图5是表示上述第一变换单元152-1内部的主要结构的方框图。该第一 变换单元152-1包括分析单元131、量化单元132以及变换单元133。分析单元131通过对L声道信号L1的波形和单声道信号M1的波形进行 比较分析,来求表示L声道信号Ll的波形相对于单声道信号Ml的波形的差 的参数(波形差参数)。量化单元132对该波形差参数实施量化,将所获得的编 码参数,即第一变换系数索引Il输出到本实施方式的可扩展编码装置的外部。 此外,量化单元132对第一变换系数索引II实施反量化,并将其输出到变换 单元133。变换单元133通过从L声道信号Ll中除去波形差参数(但是,有 时包含量化误差),该波形差参数为从量化单元132输出的被反量化的第一变 换系数索引,即由分析单元131所获得的两个声道之间的波形差参数,将L 声道信号L1变换为与单声道信号M1在波形上相似的信号ML1。这里,上述的波形差参数是表示L声道信号和单声道信号在波形上的特 性不同的参数,具体而言是指,将单声道信号设为参照信号,L声道信号的 相对于单声道信号的信号之间的振幅比(能量比)以^/或延迟时间差。一般地,即使是来自同一发生源的立体声语音信号或立体声音频信号, 由于话筒的摆放位置,信号波形呈现出不同的特性。作为筒单的例子为,根
据距发生源的距离,立体声信号的能量发生衰减,同时到达时间也发生延迟, 并由于语音的拾音位置而呈现出不同的波形频谱。这样,立体声信号由于拾 音环境的空间因素而受到较大的影响。为了详细地说明因该拾音环境的不同而产生的立体声信号的特性,图6 表示在不同的两个位置对来自同一发生源的信号所获得的信号(第一信号Wl和第二信号W2)的语音波形的一例。如该图所示,可以看出第一信号以及第二信号分别呈现不同的特性。呈 现出该不同特性的现象能够理解为,在原有的信号的波形上,加上因获得位置而产生的不同的新空间特性(空间信息spatial information)后,通过话筒等 的拾音设备获得信号的结果。在本申请中,呈现该特性的参数特别地称为波 形差参数。例如,在图6的例子中,将第1信号Wl仅延迟时长At后就成为 信号Wl,。接着,如果将信号Wl,的振幅按照一定的比例减小而能使振幅差AA消失,则因为信号wr为来自同一发生源的信号,所以理论上能够期待与第二信号W2相一致。也就是说,通过实施对包含在语音信号或音频信号 中的波形上的特性进行操作的处理,能够使第 一信号以及第二信号的特性差 异消失,其结果,能够使双方的信号波形相似。图5所示的第一变换单元152-1求L声道信号Ll相对于单声道信号Ml 的波形差参数,并将它从L声道信号L1中分离,从而获得与单声道信号M1 相似的第一变换信号ML1,同时还对波形差参it进行编码。接着,使用算式详细地说明上述的第一变换系数的具体的导出法。首先, 以使用两个声道之间的能量比以及延迟时间差作为上述波形差参数的情形为 例进行说明。分析单元131计算两个声道之间的以帧为单位的能量比。首先,按照下 面的式(1 )以及式(2 )求L声道信号以及单声道信号的一个帧内的能量ELch 以及Em。<formula>formula see original document page 11</formula>其中,n为样本号,FL为一个帧的样本数(帧长度)。此外,(n) 以及Xm (n)分别表示L声道信号以及单声道信号的第n个样本的振幅。
然后,分析单元131按照下面的式(3 )求L声道信号以及单声道信号的 能量比的平方根C。…(3)此外,如以下那样,分析单元131求作为使两个声道的信号之间的相互相关成为最高值的延迟时间差,该延迟时间差为L声道信号相对于单声道信号在时间上的偏移量。具体而言,按照下面的式(4)求单声道信号以及L声道信号的相互相关函数①。少—)=z (") xM (" - w)"=。 ...(4)其中,将m设为取预先规定的从min一m至max—m为止的范围的值,并 将①(m)成为最大时的m-M设为L声道信号相对于单声道信号的延迟时间 差。另外,上述的能量比以及延迟时间差也可以通过下面的式(5)来求。在 式(5)中,求使误差D成为最小的能量比的平方根C以及延迟时间m,所 述误差D为单声道信号和对该单声道信号除去了波形差参数的L声道信号之 间的误差。"=o …(5 )量化单元132以预先;^见定的比特数对上述C以及M进行量化,并将被量 化的C以及M分别设为CQ以及Mq。变换单元133按照下面的式(6)的变换式,从L声道信号中除去L声道信 号和单声道信号之间的能量差以及延迟时间差。0) = ce'W"_Me) …(6 )(其中,"=0,.-.,尸丄-1 )另外,作为上述波形差参数的具体例子有以下的示例。例如,可以将两个声道之间的能量比以及延迟时间差这两个参数作为波形差参数来使用。这些都是易于定量化的参数。另外,作为变化形式,也可以使用每个频带的传播特性,例如相位差和振幅比等。此外,也可以不将两个声道之间(例如,L声道信号和单声道信号)的能量
比以及延迟时间差这两个参数都设为波形差参数,仅使用其中 一 方的参数作 为波形差参数。在将仅使用一个参数的情况与使用两个参数的情形相比较, 虽然减少了提高两个声道的相似程度的效果,但反而有能够进一步削减编码 比特数的效果。例如,在仅使用两个声道之间的能量比作为波形差参数的情况下,使用Cq并按照下面的式(7 )进行L声道信号的变换,该Cq为对通过上述的式(3 )求出的能量比的平方根C进行了量化的值。 0) = <^、(") …(7 )(其中,"二0,…,F丄-1 )例如,在仅使用两个声道之间的延迟时间差作为波形差参数的情况下, 使用Mq并按照下面的式(8)进行L声道信号的变换,该Mq为对使通过上 述的式(4)求出的①(m)为最大的n^M进行了量化的值。0) = &""-^e) …(8 )(其中,"-0,…,FZ-l )图7是表示上述音源信号生成单元151内部的主要结构的方框图。自适应代码本161从自适应代码本索引中求对应的自适应代码本滞后 (lag),该自适应代码本索引为从单声道信号编码单元102输出的音源参数 Pl中的自适应代码本索引,基于该自适应代码本滞后,从预先存储的音源向 量生成一个子帧的音源向量,并将其作为自适应音源向量输出到乘法器162。固定代码本163使用固定代码本索引,将与该固定代码本索引对应的音 源向量作为固定音源向量输出到乘法器164,该固定代码本索引为从单声道 信号编码单元102输出的音源参数P1中的固定代码本索引。增益代码本165使用增益代码本索引,生成上述自适应音源向量以及固 定音源向量的各个增益,该增益代码本索引为从单声道信号编码单元102输 出的音源参数P1中的增益代码本索引。乘法器162将从增益代码本165输出的自适应音源增益乘以自适应音源 向量,并输出到加法器166。同样,乘法器164也将从增益代码本165输出 的固定音源增益乘以固定音源向量,并输出到加法器166。加法器166将从乘法器162以及乘法器164输出的各音源向量相加,并 将相加后的音源向量(音源信号)M2作为驱动音源输出到LPC合成滤波器154-l(以及LPC合成滤波器154-2)。接着,详细说明第二变换单元155-1的动作。在第二变换单元155-1,进 行下述的第二变换。第二变换单元155-1对从LPC合成滤波器154-1输出的合成信号实施第 二变换。该第二变换是使从LPC合成滤波器154-1输出的合成信号与从第一 变换单元152-1输出的第一变换信号ML1相似的变换。也就是说,通过第二 变换,使第二变换后的信号成为与第一变换信号MJ相似的信号。在失真最 小化单元156-1的控制下,第二变换单元155-1通过闭环搜索,从在第二变换 单元155-1内部预先准备的变换系数的代码本中求实现上述变换的变换系数。具体而言,按照下面的式(9)进行第二变换。"-m …(9 )(其中,《 = 0广、肌-1 )这里,S(n-k)为从LPC合成滤波器154-1输出的合成信号,SPj(n)为第二 变换后的信号。此外,ocj(k)(其中,k = - KB ~ KF )为第j个第二变 换系数,将N"(其中,j = 0 N。b-,)个的系凄t^列作为代码本预先准 备。SFL为子帧长度。对这些组的每个组,进行上面的式(9)的计算。失真最小化单元156-1按照下面的式(IO),计算信号S(n)与SPj(n)(n=0~ SFL-1)之间的差值信号DFj(n)。D巧(")^(")-巧(") ...(1 0 )(其中,"=0,.--,肌-1 )这里,将对差值信号D F j(n)进行听觉加权后的编码失真设为本实施方式的可扩展编码装置的编码失真。对第二变换系数((Xj(k))的所有的组进行该计算,从而决定使L声道信号以及R声道信号各自的编码失真成为最小的第 二变换系数。求该信号的编码失真的一连串的处理成为闭环(反馈环),并通过 使第二变换系数在一个子帧中作各种变化,从而输出最终获得的、用于表示 使编码失真最小的第二变换系数的组的索引(第二变换系数索引)。图8是表示上述失真最小化单元156-1内部的主要结构的方框图。 加法器141将从第一变换信号MU减去第二变换信号ML3而计算误差信 号,并将该误差信号输出到听觉加权单元142。听觉加权单元142使用听觉加权滤波器,对从加法器141输出的误差信号实施听觉加权,并将其输出到失真计算单元143。失真计算单元143通过对每个子帧使用反馈信号F1来控制第二变换单元 155-1,以使从听觉加权单元142输出的、已进行听觉加权后的误差信号求得 的编码失真,即第二变换信号M^的编码失真最小。然后,失真计算单元143 输出使第二变换信号ML3的编码失真最小的第二变换系数索引13。通常将该 参数作为编码参数输出到本实施方式的可扩展编码装置的外部。图9是汇总上述L声道处理系统的编码处理的概要的图。使用该图说明 通过本实施方式的可扩展编码方法可削减编码率,而且提高编码精度的原理。在L声道的编码中, 一般是将L声道的原信号的信号Ll作为编码对象。 但是,在上述的L声道处理系统中,不直接使用信号Ll,而将信号L1变换 为与单声道信号Ml相似的信号(羊声道相似信号)MlI,并将该变换信号作为 编码对象。这是因为,如果将信号M^作为编码对象,则可使用对单声道信 号进行编码时的构成进行编码处理,即可通过以单声道信号的编码为基准的 方法进行L声道信号的编码。具体而言,在L声道处理系统中,对单声道相似信号IVU使用单声道信 号的音源M2来生成合成信号ML2,同时求使该合成信号的误差最小的编码 参数。此外,通过将第二层的L声道处理系统的编码对象作为单声道相似信号 ML1,在本实施方式中,能够有效利用在第一层已求得的结果(编码参数、音 源信号等)而进行第二层的编码。这是因为第一层的编码对象为单声道信号。具体而言,在第二层生成合成信号Mt2时,利用在第一层已预先生成(对 于单声道信号)的音源。因此,由于在第一层和第二层共享音源,所以能够削减编码率。特别是,在本实施方式中,使用在第一层已求得的项目中的、在单声道 信号编码单元102生成的音源进行第二层的编码。也就是说,仅利用音源信 息以及声道信息中的、在第 一 层已求得的音源信息。例如,在3GPP标准的TS26.190 V5丄0 (2001-12)所公开的AMR-WB方 式(23.85kbit/s)中,音源信息的信息量约是声道信息的信息量的7倍,音源信 息的编码后的比特率也比声道信息多。因此,与声道信息相比,在第一层和 第二层共享音源信息时,编码率的削减效果大。此外,共享音源信息而不是声道信息的原因在于,立体声语音信号所具
有的特性,其理由如下。立体声信号原本是指对从特定的发生源来的声音,例如用左右分开的两 个话筒在相同的定时进行拾音而得到的声音。因此,理想的情况为,各个声 道信号具有共同的音源信息。实际上,如果声音的发生源是单一的(或者即使 发生源是多个,但由于聚集在一起而能够同等地视为单一的情况),则能够将 各个声道的音源信息视为共通而进行处理。但是,声音的发生源为多个并在彼此分离开的位置时,在各发生源所发 出的多个声音在不同的定时到达各话筒(延迟时间不同),而且由于传播路径的 不同而引起衰减度也不同,所以在各话筒实际所拾音的声音为各音源信息混 合成难以分离状态的声音。立体声信号特有的上述现象能够理解为由于拾音环境的不同而使声音被赋予了新的空间特性的结果。于是,认为在立体声语音信号的声道信息和音 源信息中,由于拾音环境的不同,声道信息受到大的影响,而音源信息不怎 么受到影响。这是因为如声道信息也被称为频镨包络信息那样,其主要是有 关语音频镨的波形的信息,而由于拾音环境的不同对声音新赋予的空间特性 也是如振幅比、延迟时间等与波形有关的特性。因此,能够期待即使在单声道信号(第一层)和L声道/R声道信号(第二层) 共享音源信息也不会导致大的音质恶化。也就是说,通过在第一层以及第二层共享音源信息,并在各个声道对声道信息进行处理的方式,从而能够期待 编码效率变高,并能够削减编码率。因此,在本实施方式中,有关音源信息,将在单声道信号编码单元102 所生成的音源输入到L声道用的LPC合成滤波器154-1和R声道用的LPC 合成滤波器154-2。此外,有关声道信息,分别对L声道设置LPC分析/量 化单元153-1,对R声道设置LPC分析/量化单元153-2,并对各个声道独立 地进行线性预测分析(参照图4)。也就是说,将由于拾音环境的不同而被赋予 的空间特性作为包含于声道信息的编码参数的模型进行编码。另一方面,由于采用上述结构,随之发生新的问题。例如,着眼于L声 道进行说明,在L声道处理系统使用的音源M2为对单声道信号所求得的。 因此,使用其进行L声道的编码后,由于在L声道混入单声道的信息,从而 使L声道的编码精度恶化。另外,由于上述第一变换为仅对原信号Ll的波 形进行数学性(通过加减乘除)的加工的变换,所以认为将单声道相似信号MU
作为编码对象不成为大问题。这是因为,例如,从变换后的信号Mil恢复原 来的信号Ll的逆变换是可行的,并且从编码精度的观点来看,认为将1VU1 作为编码对象和将L1作为编码对象实质上是相同的。因此,在本实施方式中,进行使基于音源M2所生成的合成信号M^接近于MU的最佳化(第二变换)。由此,即使利用单声道信号的音源,也能够 提高L声道的编码精度。具体而言,L声道处理系统对基于音源M2所生成的合成信号ML2实施 第二变换,并生成变换信号MJ。然后,将1VU作为基准信号,调节第二变 换系数以使变换信号ML3接近于MLl。更加具体的是,第二变换以后的处理 构成环,L声道处理系统通过对表示第二变换系数的索引逐次加一,计算所 有索引的ML1和ML3之间的误差,并最终输出使误差最小的第二变换系数的 索引。图10是表示汇总了 L声道和R声道在第二层的编码处理的步骤的流程图。第二层编码器150对L声道信号以及R声道信号进行第一变换而将其变 换为与单声道信号相似的信号(STIOIO),同时输出第一变换系数(第一变换参 数)(ST1020),并进行第一变换信号的LPC分析以及量化(ST1030)。另外, ST1020不一定在ST1010和ST1030之间。此外,第二层编码器150基于在第一层所决定的音源参数(自适应代码本 索引、固定代码本索引以及增益代码本索引),进行音源信号的生成(STlllO), 并进行L声道信号以及R声道信号的LPC合成(ST1120)。然后,对这些合成 信号,使用预先决定的第二变换系数的组进行第二变换(ST1130),并从第二 变换信号和近似于单声道信号的第一变换信号计算编码失真(ST1140)。接着, 进行失真最小值判定(ST1150),确定使这些编码失真成为最小的第二变换系 数。确定上述第二变换系数的环(ST1130-ST1150)为闭环,进行所有的索引 的搜索,并在全部搜索结束的时刻结束环(ST1160)。所求得的第二变换系数 索引(第二变换参数索引)被输出(ST1210)。在上述处理步骤中,以帧为单位进行从ST1010至ST1030为止的处理Pl, 以对帧进一步分割后的子帧为单位进行乂人ST1110至ST1160为止的处理P2。另外,用于决定该第二变换系数的处理以帧为单位,并将第二变换系数 以帧为单位输出也可。
接着,说明与上述可扩展编码装置对应的、本实施方式的可扩展解码装置。图14是表示在本实施方式的可扩展解码装置中特别具特征的第二层解 码器170内部的主要结构的方框图。该第二层解码器170为与本实施方式的 可扩展编码装置内部的第二层编码器150(参照图4)对应的结构。对与第二层 编码器150相同的结构要素赋予相同的标号,并省略对重复的动作的说明。第二层解码器170与第二层编码器150—样,大致由L声道处理系统和 R声道处理系统构成,这两个系统具有彼此相同的结构。因此,对L声道处 理系统在标号后面赋予分支号1,对R声道处理系统赋予分支号2,并且仅说 明L声道处理系统,而省略R声道处理系统的说明。另外,音源信号生成单 元151为L声道和R声道共享的结构。第二层解码器170的L声道处理系统包括音源信号生成单元151、 LPC 合成滤波器154-1、第二变换单元155-1、 LPC解码单元171-1、第一变换系 数解码单元172-1以及逆第一变换单元173-1。将由本实施方式的可扩展编码 装置所生成的音源参数P1、第一变换系数索引II、 LPC量化索引12以及第 二变换系数索引13输入到该L声道处理系统。音源信号生成单元151使用所输入的音源参数P1来生成为L声道以及R 声道共享的音源信号M2,并将其输出到LPC合成滤波器154-1。LPC解码单元171-1使用所输入的LPC量化索引12来对量化LPC参数 进行解码,并将其输出到LPC合成滤波器154-1。LPC合成滤波器154-1将已被解码的量化LPC参数作为滤波系数,并生 成将音源向量M2作为驱动音源的滤波函数,即,使用LPC合成滤波器来生 成L声道的合成信号M^。将该合成信号1V^2输出到第二变换单元155-1。第二变换单元155-1通过使用所输入的第二变换系数索引13而对合成信 号实施第二变换,生成第二变换信号MJ,并输出到逆第一变换单元 173-1。该第二变换与第二层编码器150中的第二变换为相同的处理。第一变换系数解码单元172-1使用所输入的第一变换系数索引II来对第 一变换系数进行解码,并将其输出到逆第一变换单元173-1。逆第一变换单元173-1使用已被解码的第一变换系数的倒数,对第二变 換信号Ml 3实施(第二层编码器150中的)第一变换的逆变换的逆第一变换, 并生成L声道解码信号。
这样,第二层解码器170的L声道处理系统能够解码L声道信号。同样, 通过第二层解码器170的R声道处理系统,R声道信号也^f皮解码。另外,通 过与本实施方式的可扩展编码装置内部的单声道信号编码单元102(参照图3) 对应的结构的单声道信号解码单元(未图示),单声道信号也被解码。如以上说明,根据本实施方式,在各层共享驱动音源。也就是说,因为 使用各层共享的音源进行各层的编码,所以不需要对各层设置自适应代码本、 固定代码本以及增益代码本的组。因此,能够实现低比特率的编码,同时能 够削减电路4见模。此外,在第二层,进行第一变换以使立体声信号的各个声 道信号成为在波形上与单声道信号相近似的信号,并对所获得的第一变换信 号进行使各个声道的信号的编码失真成为最小的第二变换。由此,能够提高 语音质量。也就是说,能够防止解码信号的音质恶化,同时能够削减编码率 而削减电路规模。,另夕卜,在本实施方式中,以使用两个信号之间的振幅比(能量比)以及延迟 时间差作为波形差参数的情况为例进行了说明,但是也可使用各个频带的信 号的传播特性(相位差、振幅比)等来代替它们。此外,也可使用量化LPC参数对波形差参数进行过处理的L声道信号以 及R声道信号进行差分量化或预测量化等,该量化LPC参数为在LPC量化 单元进行量化时,对于单声道信号已被量化的量化LPC参数。这是因为,由 于对波形差参数进行过处理的L声道信号以及R声道信号被变换为与单声道 信号相近似的信号,且这些信号的LPC参数与单声道信号的LPC参数的相关 高,所以能够以更低比特率进行高效率的量化。此外,在本实施方式中,以使用CELP编码作为编码方式为例进行了说 明,但不一定是如CELP编码那样使用语音模型的编码,也可以不是利用预 先记录在代码本中的音源的编码方法。此外,在本实施方式中,以将在第一层的单声道信号编码单元102所生 成的音源参数输入到第二层编码器150的情况为例进行了说明,但是也可将 在单声道信号编码单元102内部最终生成的驱动音源信号,即,使误差最小 的驱动音源信号本身输入到第二层编码器150。在这种情况下,将该驱动音 源信号直接输入到第二层编码器150内部的LPC合成滤波器154-1和154-2。 (实施方式2)本发明的实施方式2的可扩展编码装置的基本结构与实施方式1所示的可
扩展编码装置相同。因此,以下说明与实施方式1不同的结构的第二层编码 器。图11是表示本实施方式的第二层编码器150a的主要结构的方框图。另 外,对与实施方式1所示的第二层编码器150(图4)相同的构成要素赋予相同 的标号,并省略其说明。与实施方式1不同的结构是第二变换单元201以及 失真最小化单元202。图12是表示第二变换单元201内部的主要结构的方框图。第二变换单元201内的L声道处理单元221-1从预先记录在第二变换系 数表(第二变换参数表)222中的第二变换系数中,按照来自失真最小化单元 202的反馈信号Fl,读出适合的第二变换系数,且使用它来对从LPC合成滤 波器154-1输出的合成信号ML2实施第二变换并输出(信号MJ,)。同样,R 声道处理单元221-2从预先记录在第二变换系数表222中的第二变换系数中, 按照来自失真最小化单元202的反馈信号Fl,读出适合的第二变换系数,且使 用它来对从LPC合成滤波器154-2输出的合成信号MR2实施第二变换并输出 (信号MR3,)。通过这些处理,合成信号ML2、 MR2成为与从第一变换单元 152-1、 152-2输出的第一变换信号M丄Mr1相似的信号IVU,、 Mr3,。逸里, 第二变换系数表222为L声道和R声道共享。按照下面的式(11)以及式(12)进行第二变换。<formula>formula see original document page 20</formula>(其中,"=0,-",肌-1 )...(1 2 )(其中<formula>formula see original document page 20</formula>其中,SLch(n-k)为从LPC合成滤波器154-1输出的L声道的合成信号, SRch(n-k)为从LPC合成滤波器154-2输出的R声道的合成信号,SP^j(n)为进 行了第二变换的L声道信号,SPReh,j(n)为进行了第二变换的R声道信号。此外,OlLch,j(k)为L声道的第j个的第二变换系数,(XRch,j(k)为R声道的第j个的第二变换系数,并预先准备Ncb(其中,j-0 Ncw)个的成对的L声道以及R 声道的系数序列作为代码本。此外,SFL为子帧长度。对这些成对的每个对,
进行上面的式(11)以及式(12)的计算。接着,说明失真最小化单元202。图13是表示失真最小化单元202内部 的主要结构的方框图。失真最小化单元202求第二变换系数表222的索引,该第二变换系数表 222的索引是使L声道以及R声道各自的第二变换信号的编码失真的和成为 最小的索引。具体而言,加法器211-1通过从第一变换信号MU减去第二变 换信号MJ,来计算误差信号El,并将该误差信号El输出到听觉加权单元 212-1。听觉加权单元212-1使用听觉加权滤波器,对从加法器211-1输出的 误差信号E1实施听觉加权,并将其输出到失真计算单元213-1。失真计算单 元213-1计算已被听觉加权的误差信号El的编码失真,并将其输出到加法器 214。加法器211-2、听觉加权单元212-2以及失真计算单元213-2的动作与 上述相同,E2是从Mr1中减去MR3,后的误差信号。加法器214将从失真计算单元213-1和213-2输出的编码失真相加,并输 出相加的和。失真最小值判定单元215求4吏从失真计算单元213-1和213-2 输出的编码失真的和最小的第二变换系数表222的索引。求该编码失真的一 连串处理成为闭环(反馈环),失真最小值判定单元215使用反馈信号F 1 ,对 第二变换单元201指示第二变换系数表222的索引,并使第二变换系数在一 个子帧内作各种变化。然后,将表示使最终获得的编码失真最小的第二变换 系数的组的索引D,输出。如上述说明,该索引被L声道信号以及R声道信号 共享。以下,使用算式说明失真最小化单元202中的处理。 失真最小化单元202按照下面的式(13),计算信号Skh(n)与SPLch,j(n)(其 中,n=0 ~ SFL-1)之间的差值信号DFLchJ(n)。<formula>formula see original document page 21</formula>此外,失真最小化单元202按照下面的式(14),计算信号SRch(n)与SPRch,j(n)(其中,n=0 ~ SFL-1)之间的差值信号<formula>formula see original document page 21</formula> 将对差值信号DFLehj(n)以及DFRehj(n)进行听觉加权后的编码失真设为本
实施方式的可扩展编码装置的编码失真。对使第二的变换系数(C^hj(k"与(anch,j(k"成对的所有组进行该计算,并确定使L声道信号以及R声道信号的 编码失真的和成为最小的第二变换系数。另夕卜,0^h(k)值的组以及aRch(k)值的组使用究全相同的组也可以。在这种 情况下,能够将第二变换用的变换系数的表的大小减半。这样,根据本实施方式,将在各个声道的第二变换中使用的各个声道的 第二变换系数预先设定为以两个声道为单位的组,并用一个索引来指定。也 就是说,在第二层的编码中,对各个声道的LPC合成信号进行第二变换时, 预先准备以两个声道为单位的组作为第二变换系数,并同时对两个声道进行 闭环搜索,从而决定使编码失真最小的第二变换系数。这就是利用已被变换 为与单声道信号相近似的信号的l声道信号和r声道信号之间存在的强相 关。由此,能够削减编码率。以上,iJt明了本发明的各个实施方式。本发明的可扩展编码装置以及可扩展编码方法,不限定于上述各实施方 式,可对本发明进行各种变更来实施。本发明的可扩展编码装置,还能够配置于移动通信系统的通信终端装置 以及基站装置,由此能够提供具有与上述相同作用效果的通信终端装置以及 基站装置。此外,本发明的可扩展编码装置以及可扩展编码方法也可以利用 于有线方式的通信系统。另外,虽然在此以通过硬件来实现本发明的情形为例进行了说明,但是 本发明还可以通过软件来实现。比如,通过编程语言,对本发明的可扩展编 码方法的处理算法进行记述,并在内存中保存该程序并通过信息处理装置来 实行,从而能够实现与本发明的可扩展编码装置相同的功能。另外,自适应代码本(adaptive codebook)有时也被称为自适应音源代码 本,固定代码本(fixed codebook)有时也被称为固定音源代码本。另外,在上述各实施方式的说明中使用的各功能块典型地通过集成电路 的LSI来实现。这些既可以分别实行单芯片化,也可以包含其中一部分或者 是全部而实行单芯片化。另外,每个功能块在此虽然称做LSI,但根据集成度的不同也可以称为 IC、系统LSI、超大LSI(SuperLSI)、或特大LSI(Ultra LSI)等。另外,集成电路化的技术不只限于LSI,也可以使用专用电路或通用处
理器来实现。也可以利用在LSI制造后能够编程的FPGA( Field Programmable Gate Array,现场可编程门阵列),或可以利用可对LSI内部的电路块的连接 或i殳定进行重新构置的可重构置处理器(Reconfigurable Processor )。再有,如果随着半导体技术的进步或者其他技术的派生,出现取代LSI 集成电路化的技术,当然也可以利用该技术来实现功能块的集成化。也有适 用生物技术等的可能性。本说明书基于2005年2月1日申请的(日本)特愿2005-025123。其内容全部包含于此。 产业上的可利用性本发明的可扩展编码装置以及可扩展编码方法能够适用于移动通信系统 的通信终端装置、基站装置等的用途。
权利要求
1、一种可扩展编码装置,包括单声道信号生成单元,使用用于构成立体声信号的多个声道信号来生成单声道信号;第一编码单元,对所述单声道信号进行编码而生成音源参数;单声道相似信号生成单元,使用所述声道信号和所述单声道信号来生成第一单声道相似信号;合成单元,使用所述音源参数和所述第一单声道相似信号来生成合成信号;以及第二编码单元,使用所述合成信号和所述第一单声道相似信号来生成失真最小化参数。
2、 如权利要求l所述的可扩展编码装置,其中,所述单声道信号生成单 元将所述多个声道信号的平均设为所述单声道信号。
3、 如权利要求1所述的可扩展编码装置,其中,所述第一编码单元对所 述单声道信号进行CELP编码而生成所述音源参数。
4、 如权利要求1所述的可扩展编码装置,其中,所述单声道相似信号生 成单元求所述声道信号与所述单声道信号在波形上的差的信息。
5、 如权利要求4所述的可扩展编码装置,其中,所述波形上的差的信息 为与能量以及延迟时间的双方或一方有关的信息。
6、 如权利要求4所述的可扩展编码装置,其中,所述单声道相似信号生 成单元使用与所述波形上的差有关的信息,减少所述声道信号的波形与所述 单声道信号的波形之间的误差。
7、 如权利要求1所述的可扩展编码装置,其中,所述合成单元使用所述 第一单声道相似信号来计算滤波系数,使用所述音源参数来生成驱动音源,并通过使用所述滤波系数和所述驱动音源进行LPC合成来生成合成信号。
8、 如权利要求1所述的可扩展编码装置,其中,所述合成单元对所述多 个声道信号,共同地使用所述音源参数来生成与各个声道信号对应的合成信号
9、 如权利要求1所述的可扩展编码装置,其中,所述第二编码单元使用 所述合成信号来生成第二单声道相似信号,并生成使所述第 一单声道相似信 号与所述第二单声道相似信号之间的差成为最小的所述失真最小化参数。
10、 如权利要求1所述的可扩展编码装置,其中,所述第二编码单元预 先存储所述失真最小化参数的候选。
11、 如权利要求1所述的可扩展编码装置,其中,所述第二编码单元在 所述多个声道之间以组为单位预先存储与所述多个声道信号对应的多个所述 失真最小化参数的候选。
12、 如权利要求11所述的可扩展编码装置,其中,所述第二编码单元从 所述失真最小化参数的候选中,对各个声道信号分别求所述合成信号与所述 单声道相似信号之间的失真,并求使这些所述失真的总和为最小的所述失真 最小化参数的组。
13、 一种通信终端装置,包括权利要求1所述的可扩展编码装置。
14、 一种基站装置,包括权利要求1所述的可扩展编码装置。
15、 一种可扩展编码方法,包括使用构成立体声信号的多个声道信号来生成单声道信号的步骤;对所述单声道信号进行编码而生成音源参数的步骤;使用所述声道信号和所述单声道信号来生成第 一单声道相似信号的步骤;使用所述音源参数和所述第一单声道相似信号来生成合成信号的步骤;以及使用所述合成信号和所述第一单声道相似信号来生成失真最小化参数的 步骤。
全文摘要
公开了能够防止解码信号的音质恶化,同时能够削减编码率,并能够削减电路规模的可扩展编码装置。本发明的可扩展编码装置采用以下结构,包括第一层编码器(100),使用用于构成立体声信号的多个声道信号(L声道信号和R声道信号)来生成单声道信号,并对所述单声道信号进行编码而生成音源参数;以及第二层编码器(150),使用所述声道信号和所述单声道信号来生成第一变换信号,使用所述音源参数和所述第一变换信号来生成合成信号,并使用所述合成信号和所述第一变换信号来生成第二变换系数索引。
文档编号G10L19/14GK101111887SQ20068000381
公开日2008年1月23日 申请日期2006年1月30日 优先权日2005年2月1日
发明者吉田幸司, 后藤道代 申请人:松下电器产业株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1