声音编解码与发送接收设备及编码方法、通信终端和基站的制作方法

文档序号:2831090阅读:316来源:国知局
专利名称:声音编解码与发送接收设备及编码方法、通信终端和基站的制作方法
技术领域
本发明涉及一种高效率地对声学信号如音乐信号或语音信号进行压缩和 编码的声学编码设备和声学编码方法,特别涉及一种执行甚至能够从编码代 码的一部分对音乐和语音进行解码的可扩展编码的声学编码设备和声学解码 设备和声学编码方法、声音信号发送设备、声音信号接收设备,以及通信终 端设备和基站设备。
背景技术
以低比特率压缩音乐信号或语音信号的声学编码技术对于在移动通信和 记录介质中有效地利用无线电波传输路径容量等是重要的。作为用于对语音 信号进行编码的语音编码方法,存在诸如G726、 G729的方法,其由ITU(国 际电信联盟)标准化。这些方法可以高质量地以8千比特/秒到32千比特/秒的 比特率对窄带信号(300Hz到3.4kHz)执行编码。
而且,存在用于对宽带信号(50Hz到7kHz)进行编码的标准方法,例如 ITU的G722、 G722.1以及3GPP(第三代伙伴计划)的AMR-WB。这些方法可 以高质量地以6.6千比特/秒到64千比特/秒的比特率对宽带语音信号执行编 码。
一种用于高效率地以低比特率对语音信号有效地执行编码的方法是 CELP(码激励线性预测)。基于人类语音生成模型的工程模拟模型,CELP是 使以随机数或脉冲串表达的激励信号通过对应于周期性强度的基频(pitch)滤 波器并且通过对应于声道特征的合成滤波器,并且确定编码参数,使得输出 信号与输入信号之间的误差平方在感觉特征的加权下变得最小。(例如,参见
"Code-Excited Linear Prediction(CELP -码激励线性预测)high quality speech at very low bit rates(极低比特率的高质量语音)",Proc. ICASSP 85, pp. 937-940,1985。)
4艮多新近的标准语音编码方法基于CELP。例如,G729可以以8千比特 /秒的比特率对窄带信号执行编码,并且AMR-WB可以以6.6千比特/秒到 23.85千比特/秒的比特率对宽带信号执行编码。
另一方面,在对音乐信号进行编码的音频编码的情况下,通常使用变换 编码,其将音乐信号变换到频域,并且使用感觉心理学模型对变换后的系数 进行编码,例如由MPEG(活动图像专家组)标准化的MPEG-1第3层编码和 AAC编码。公知的是,这些方法对于具有采样率44.1kHz的信号以每信道64 千比特/秒到96千比特/秒的比特率几乎不产生恶化。
然而,当对主要包括在背景中叠加有音乐和环境声音的语音信号的信号 进行编码时,应用语音编码涉及这样的问题,即由于背景中的音乐和环境声 音的影响,不仅背景中的信号而且语音信号都恶化,从而降低了总体质量。 这是由于语音编码基于专用于CELP语音模型的方法这一事实而造成的问题。 此外,所存在的另一个问题是由于结构上的原因,语音编码适用的信号频带 最多高达7kHz,而具有更高频率的信号不能^皮覆盖。
另一方面,音乐编码(音频编码)方法允许对音乐进行高质量的编码,从 而对于在背景中包括音乐和环境声音的前述语音信号,也可获得足够的质量。 此外,音频编码适用于其采样率达到大约22kHz的目标信号的频带,这等同 于CD质量。
另一方面,为了实现高质量编码,有必要使用高比特率的信号,并且问 题是,如果比特率降至大约32千比特/秒那样低,则解码信号的质量大幅降 低。这将导致这样的问题该方法不能用于具有低传输比特率的通信网络。
为了避免上述问题,有可能采用组合这些技术的可扩展编码,其首先使 用CELP在基本层中对输入信号执行编码,然后计算通过从输入信号减去解 码信号而获得的剩余信号,并且在增强层中对该信号执行变换编码。
根据该方法,基本层采用CELP,从而可以高质量地对语音信号执行编 码,并且增强层可以高效地对不能由基本层表达的背景中的音乐和环境声音 以及具有比基本层所覆盖的频带高的频率分量的信号执行编码。此外,根据 该配置,有可能将比特率抑制到低级别。另外,该配置允许仅从编码代码的 一部分对声学信号进行解码,也就是,基本层的编码代码和这样的可扩展功 能对于实现向多个具有不同传输比特率的网络的组播是有效的。然而,这样的可扩展编码具有一个问题是增强层中的延迟增大。该问题
将利用图1和图2加以说明。图1示出传统语音编码中的基本层的帧(基本帧) 和增强层的帧(增强帧)的例子。图2示出传统语音解码中的基本层的帧(基本 帧)和增强层的帧(增强帧)的例子。
在传统语音编码中,基本帧和增强帧由具有相同时间长度的帧构成。在 图1中,从时间T(n-l)到T(n)输入的输入信号为第n基本帧,并且在基本层 中被编码。另外,从T(n-l)到T(n)的剩余信号也在增强层中被编码。
这里,当在增强层中使用MDCT(改进的离散余弦变换)时,有必要使两 个连续的MDCT分析帧以分析帧长度的一半相互重叠。执行该重叠以便防止 合成过程中帧间的不连续。
在MDCT的情况下,正交基被设计成不仅在分析帧内而且在连续的分析 帧之间保持正交,因此相互重叠连续的分析帧并且在合成过程中相加这两者 防止了由于帧间的不连续而发生失真。在图1中,将第n分析帧设成T(n-2) 到T(n)的长度,并且执行编码处理。
解码处理生成包括第n基本帧和第n增强帧的解码信号。增强层执行 IMDCT(改进的离散余弦逆变换),并且如上所述,有必要以合成帧长度的一 半重叠第n增强帧的解码信号与前一帧(在本例中为第(n-l)增强帧)的解码信 号,并且相加这两者。为此,解码处理部件只能生成直到时间T(n-l)的信号。
也就是,发生如图2所示其长度与基本帧的长度相同的延迟(在本例中为 T(n)-T(n-l)的时间长度)。如果假定基本帧的时间长度为20毫秒,则增强层中 新产生的延迟为20毫秒。这样的延迟增大构成了实现语音通信服务的严重问 题。
如上所述,传统设备具有的问题是难以以短延迟、低比特率和高质量对 主要包括在背景中叠加有音乐和噪声的语音的信号执行编码。

发明内容
本发明的目的是提供一种声学编码设备和声学编码方法,其能够以短延 迟、低比特率和高质量对甚至是主要包括在背景中叠加有音乐和噪声的语音 的信号执行编码。
通过对增强层执行编码,其中增强层帧的时间长度被设成短于基本层帧 的时间长度,并且以短延迟、低比特率和高质量对主要包括在背景中叠加有音乐和噪声的语音的信号执行编码,可以实现该目的。
根据本发明的一个方面,提供一种声音编码设备,包括第一编码部件, 以基本帧为单位对输入信号进行编码,以获得第一编码代码;解码部件,对 所述第一编码代码进行解码,以获得解码信号;减法部件,获得所述输入信 号与所述解码信号之间的剩余信号;分割部件,以时间长度短于所述基本帧 的增强帧为单位对所述剩余信号进行分割;以及第二编码部件,对以所述增 强帧为单位分割后的剩余信号进行编码,以获得第二编码代码。
根据本发明的一个方面,还提供一种声音解码设备,包括第一解码部 件,对第一编码代码进行解码以获得第一解码信号,所述第一编码代码是通 过在编码侧、以预定基本帧为单位,对输入信号进行编码而获得的;第二解 码部件,对第二编码代码进行解码以获得第二解码信号,所述第二编码代码 是通过在编码侧、以时间长度短于所述基本帧的增强帧为单位,对所述输入 信号与对所述第一编码代码进行解码而获得的解码信号之间的剩余信号进行 分割并编码而获得的;以及加法部件,将所述第二解码信号和所述第一解码 信号相加。
根据本发明的另一个方面,还提供一种声音信号发送设备,包括声音 输入部件,将声音信号转换成电信号;A/D变换部件,将从所述声音输入部 件输出的信号变换成数字信号;权利要求1所述的声音编码设备,对从所述 A/D变换部件输出的数字信号进行编码;RF调制部件,将从该编码设备输出 的编码代码调制成射频的信号;以及发送天线,将从所述RF调制部件输出 的信号变换成无线电波,并且发送该信号。
根据本发明的另一个方面,还提供一种声音信号接收设备,包括接收 天线,接收无线电波;RF解调部件,对由所述接收天线接收的信号进行解调;
如上所述的声音解码设备,对由该RF解调部件获得的信息进行解码; D/A变换部件,将从所述解码设备输出的信号变换成模拟信号;以及声音输 出部件,将从所述D/A变换部件输出的电信号变换成声音信号。
根据本发明的另一个方面,还提供一种通信终端设备,包括如上所述的 声音编码设备和如上所述的声音解码设备中的至少一个。
根据本发明的另一个方面,还提供一种基站设备,包括如上所述的声音 编码设备和如上所述的声音解码设备中的至少一个。
根据本发明的另一个方面,还提供一种声音编码方法,包括第一编码步骤,以基本帧为单位对输入信号进行编码,以获得第一编码代码;解码步 骤,对所述第一编码代码进行解码,以获得解码信号;减法步骤,获得所述 输入信号与所述解码信号之间的剩余信号;分割步骤,以时间长度短于所述 基本帧的增强帧为单位对所述剩余信号进行分割;以及第二编码步骤,对以 所述增强帧为单位分割后的剩余信号进行编码,以获得第二编码代码。


图1示出传统语音编码中的基本层的帧(基本帧)和增强层的帧(增强帧) 的例子;
图2示出传统语音解码中的基本层的帧(基本帧)和增强层的帧(增强帧) 的例子;
图3是示出根据本发明实施例1的声学编码设备的配置的方框图4示出声学信号上的信息分布的例子;
图5示出基本层和增强层的要编码的域的例子;
图6示出基本层和增强层的编码的例子;
图7示出基本层和增强层的解码的例子;
图8是示出根据本发明实施例1的声学解码设备的配置的方框图9是示出根据本发明实施例2的基本层编码器的内部配置的示例的方
框图10是示出根据本发明实施例2的基本层解码器的内部配置的示例的方
框图11是示出根据本发明实施例2的基本层解码器的内部配置的另 一示例 的方框图12是示出根据本发明实施例3的增强层编码器的内部配置的示例的方
框图13示出MDCT系数的排列的例子;
图14是示出根据本发明实施例3的增强层解码器的内部配置的示例的方
框图15是示出根据本发明实施例4的声学编码设备的配置的方框图16是示出上面实施例中的感觉屏蔽计算部件的内部配置的示例方框
图;图17是示出上面实施例中的增强层编码器的内部配置的示例方框图; 图18是示出上面实施例中的感觉屏蔽计算部件的内部配置的示例方框
图19是示出根据本发明实施例5的增强层编码器的内部配置的示例方框
图20示出MDCT系数的排列的例子;
图21是示出根据本发明实施例5的增强层解码器的内部配置的示例方框
图22是示出根据本发明实施例6的增强层编码器的内部配置的示例方框
图23示出MDCT系数的排列的例子;
图24是示出根据本发明实施例6的增强层解码器的内部配置的示例方框
图25是示出根据本发明实施例7的通信设备的配置的方框图; 图26是示出根据本发明实施例8的通信设备的配置的方框图; 图27是示出根据本发明实施例9的通信设备的配置的方框图;以及 图28是示出根据本发明实施例IO的通信设备的配置的方框图。
具体实施例方式
下面将参照附图对本发明的实施例进行说明。
通过注意到基本帧的时间长度与增强帧的时间长度相同,其中基本帧为 编码输入信号,并且增强帧为输入信号与通过对编码输入信号进行解码而获 得的信号之间的编码差值,并且这在解调的时候导致了较长的延迟,本发明 人提出了本发明。
也就是,本发明的实质是对增强层执行编码,其中增强层帧的时间长度 被设成短于基本层帧的时间长度,并且以短延迟、低比特率和高质量对主要 包括在背景中叠加有音乐和噪声的语音的信号执行编码。
(实施例1)
图3是示出根据本发明实施例1的声学编码设备的配置的方框图。图3 中的声学编码设备100主要由下采样器(downsampler)101、基本层编码器102、 本地解码器103、上采样器(upsampler)104、延迟器105、减法器106、分帧器107、增强层编码器108以及多路复用器109构成。
在图3中,下釆样器101接收采样率2*FH的输入数据(声学数据),将该 输入数据转换成低于采样率2*FH的采样率2*FL,并且将输入数据输出到基 本层编码器102。
基本层编码器102以预定基本帧为单位对采样率2*FL的输入数据进行 编码,并且将作为编码输入数据的第一编码代码输出到本地解码器103和多 路复用器109。例如,基本层编码器102根据CELP编码对输入数据进行编码。
本地解码器103对第一编码代码进行解码,并且将通过解码而获得的解 码信号输出到上采样器104。上釆样器104将解码信号的采样率增加到2*FH, 并且将解码信号输出到减法器106。
延迟器105将输入信号延迟预定的时间,并且将延迟的输入信号输出到 减法器106。将该延迟的长度设成与在下采样器101、基本层编码器102、本 地解码器103和上采样器104中产生的时间延迟相同的值防止了下一减法处 理中的相移。例如,假定该延迟时间是下采样器101、基本层编码器102、本 地解码器103和上采样器104上的处理时间的总和。减法器106从输入信号 中减去解码信号,并且将减法结果作为剩余信号输出到分帧器107。
分帧器107将剩余信号分成其时间长度比基本帧短的增强帧,并且将分 成增强帧的剩余信号输出到增强层编码器108。增强层编码器108对分成增 强帧的剩余信号进行编码,并且将通过该编码而获得的第二编码代码输出到 多路复用器109。多路复用器109多路复用第一编码代码和第二编码代码, 以输出多路复用代码。
接下来,将说明根据本实施例的声学编码设备的操作。这里,将说明对 作为采样率2*FH的声学数据的输入信号进行编码的例子。
由下采样器101将输入信号转换成低于采样率2*FH的采样率2*FL。然 后,由基本层编码器102对采样率2* 1^的输入信号进行编码。由本地解码器 103对编码输入信号进^f于解码,并且生成解码信号。由上采样器104将解码 信号转换到高于采样率2*FL的采样率2*FH。
在由延迟器105将输入信号延迟预定的时间之后,将其输出到减法器 106。通过减法器106计算通过了延迟器105的输入信号与转换成采样率2+FH 的解码信号之间的差值,获得剩余信号。
由分帧器107将剩余信号分成具有短于在基本层编码器102处编码的帧单元的时间长度的帧。由增强层编码器108对划分后的剩余信号进行编码。 由多路复用器109多路复用由基本层编码器102生成的编码代码和由增强层 编码器108生成的编码代码。
下面将说明由基本层编码器102和增强层编码器108编码的信号。图4 示出声学信号的信息分布的例子。在图4中,纵轴表示信息量,而横轴表示 频率。图4示出包括在输入信号中的语音信息、背景音乐和背景噪声信息存 在于哪个频带内以及它们的量是多少。
如图4所示,语音信息在低频域内具有较多的信息,并且信息量随着频 率的增大而减小。另一方面,与语音信息相比,背景音乐和背景噪声信息具 有相对较小数量的低频带信息,并且具有较多包括在高频带内的信息。
因此,基本层使用CELP编码高质量地对语音信号进行编码,而增强层 高效地对不能被基本层表达的背景音乐和环境声音以及具有比由基本层覆盖 的频带高的频率分量的信号进行编码。
图5示出要由基本层和增强层编码的域的例子。在图5中,纵轴表示信 息量,而横轴表示频率。图5示出要由基本层编码器102和增强层编码器108 编码的信息的域。
基本层编码器102被设计成高效地表达从0到FL的频带内的语音信息, 并且可以高质量地对该域中的语音信息进行编码。然而,基本层编码器102 在从0到FL的频带内不具有背景音乐和背景噪声信息的高编码质量。
增强层编码器108被设计成覆盖上述基本层编码器102的不足能力和从 FL到FH的频带内的信号。因此,组合基本层编码器102和增强层编码器108 可以在宽频带内高质量地实现编码。
如图5所示,由于通过基本层编码器102的编码而获得的第一编码代码 包括从O到FL的频带内的语音信息,因此有可能至少实现可扩展的功能,由 此单独通过第 一编码代码获得解码信号。
本实施例中的声学编码设备100将由增强层编码器108编码的帧的时间 长度设成足够短于由基本层编码器102编码的帧的时间长度,从而可以缩短 在增强层中产生的延迟。
图6示出基本层和增强层的编码的例子。在图6中,横轴表示时间。在 图6中,作为第n帧处理从T(n-l)到T(n)的输入信号。基本层编码器102作 为第n基本帧对第n帧进行编码,其中第n基本帧是一个基本帧。另一方面,增强层编码器108通过将第n帧分成多个增强帧来对其进行编码。
这里,增强层的帧(增强帧)的时间长度被设成相对于基本层的帧(基本帧) 的1/J。在图6中,为方便起见设置片8,但是本实施例不限于此值,并且可 使用满足J > 2的任何整数。
图6中的例子假定J-8,因此八个增强帧对应于一个基本帧。以下,对 应于第n基本帧的每个增强帧将被表示为第n增强帧(弁j)(j-l到8)。每个增 强层的分析帧被设成使两个连续的分析帧以分析帧长度的一半相互重叠,以 防止在连续帧之间发生不连续,并使其经历编码处理。例如,在第n增强帧 (#1)中,组合帧401和帧402的域成为分析帧。然后,解码侧对通过使用基本 层和增强层对上述输入信号进行编码而获得的信号进行解码。
图7示出基本层和增强层的解码的例子。在图7中,横轴表示时间。在 解码处理中,生成第n基本帧的解码信号和第n增强帧的解码信号。在增强 层中,有可能对与有可能与前一帧进行叠加的部分对应的信号进行解码。在 图7中,生成解码信号直到时间501,也就是,直到第n增强帧(弁8)的中心位 置。
也就是,根据本实施例的声学编码设备,在增强层中产生的延迟对应于 时间501到时间502,从而只需基本层的时间长度的1/8。例如,当基本帧的 时间长度是20毫秒时,在增强层中新产生的延迟为2.5毫秒。
本例是增强帧的时间长度被设成基本帧的时间长度的1/8的情况,但是 一般而言,当增强帧的时间长度被设成基本帧的时间长度的1/J时,在增强层 中产生的延迟为1/J,并且有可能根据系统中允许的延迟的长度来设置J。
接下来,将说明执行上述解码的声学解码设备。图8是示出根据本发明 实施例1的声学解码设备的配置的方框图。图8中的声学解码设备600主要 由多路分解器601、基本层解码器602、上采样器603、增强层解码器604、 叠加器605以及加法器606构成。
多路分解器601将由声学编码设备100编码的代码分离成基本层的第一 编码代码和增强层的第二编码代码,将第 一编码代码输出到基本层解码器 602,并且将第二编码代码输出到增强层解码器604。
基本层解码器602对第一编码代码进行解码,以获得具有釆样率2*FL 的解码信号。基本层解码器602将解码信号输出到上采样器603。上采样器 603将采样率2*FL的解码信号转换成具有采样率2*FH的解码信号,并且将转换后的信号输出到加法器606。
增强层解码器604对第二编码代码进行解码,以获得具有采样率2*FH 的解码信号。该第二编码代码是在声学编码设备100处通过以具有短于基本 帧的时间长度的增强帧为单位对输入信号进行编码而获得的代码。然后,增 强层解码器604将该解码信号输出到叠加器605。
叠加器605以由增强层解码器604解码的增强帧为单位重叠该解码信号, 并且将重叠的解码信号输出到加法器606。更具体地说,叠加器605将解码 信号乘以用于合成的窗口函数,以合成帧长度的一半重叠该解码信号与在前 一帧中解码的时域中的信号,并且相加这些信号,以生成输出信号。
加法器606相加由上采样器603上采样的基本层中的解码信号与由叠加 器605重叠的增强层中的解码信号,并且输出所得到的信号。
因此,根据本实施例的声学编码设备和声学解码设备,声学编码设备侧 以具有短于基本帧的时间长度的增强帧为单位划分剩余信号,并且对划分的 剩余信号进行编码,而声学解码设备侧对以具有短于该基本帧的时间长度的 时间长度的增强帧为单位而编码的剩余信号进行解码,重叠具有重叠时间区 域的部分,从而有可能缩短可引起解码期间的延迟的增强帧的时间长度,并 且缩短语音解码中的延迟。
(实施例2)
本实施例将描述使用CELP编码对基本层进行编码的例子。图9是示出 根据本发明实施例2的基本层编码器的内部配置的示例方框图。图9示出图 3中的基本层编码器102的内部配置。图9中的基本层编码器102主要由LPC 分析器701、感觉加权部件702、自适应码本搜索器703、自适应向量增益量 化器704、目标向量生成器705、噪声码本搜索器706、噪声向量增益量化器 707以及多路复用器708构成。
LPC分析器701计算采样率2*FL的输入信号的LPC系数,并且将这些 LPC系数转换成适于量化的参数集,如LSP系数,并且量化该参数集。然后, LPC分析器701将通过该量化而获得的编码代码输出到多路复用器708。
此外,LPC分析器701从编码代码计算量化LSP系数,将LSP系数转换 成LPC系数,并且将量化LPC系数输出到自适应码本搜索器703、自适应向 量增益量化器704、噪声码本搜索器706和噪声向量增益量化器707。此外, LPC分析器701将量化之前的LPC系数输出到感觉加权部件702。感觉加权部件702 4艮据由LPC分析器701获得的量化和未量化LPC系 数两者,向从下采样器101输出的输入信号分配权重。这旨在执行频语整形, 使得量化失真的频语被输入信号的频镨包络(spectral envelope)屏蔽。
自适应码本搜索器703使用感觉加权输入信号作为目标信号来搜索自适 应码本。通过以基频(pitch)周期重复过去的激励串而获得的信号称作"自适应 向量,,,并且自适应码本由以预定范围内的基频周期生成的自适应向量构成。
当假定感觉加权输入信号为t(n)时,通过将由LPC系数构成的合成滤波 器的冲击响应巻积为具有基频周期的自适应向量而获得的信号为pi(n),自适 应码本搜索器703将最小化表达式(1)中的评价函数D的自适应向量的基频周 期i作为参数输出到多路复用器708 。
/W-l 、2
"=2>2(")-——^ …(i)
n=0
其中N表示向量长度。表达式(l)中的第一项与基频周期i无关,因此自适应 码本搜索器703仅计算第二项。
自适应向量增益量化器704量化与自适应向量相乘的自适应向量增益。 自适应向量增益P以下面表达式(2)表达,并且自适应向量增益量化器704对 该自适应向量增益0进行标量量化,并且将通过该量化而获得的代码输出到 多路复用器708。
》(")A(")
目标向量生成器705从输入信号减去自适应向量的影响,生成要在噪声 码本搜索器706和噪声向量增益量化器707中使用的目标向量,并且输出这 些目标向量。在目标向量生成器705中,如果假定pi(n)是通过将合成滤波器 的脉冲响应巻积为由表达式1表达的评价函数D最小时的自适应向量而获得
的信号,并且Pq是由表达式2表达的自适应向量P进行标量量化时的量化值,
则以下面表达式(3)表达目标向量t2(n):
,2(")^(")-A.A(") …(3)噪声码本搜索器706使用目标向量t2(n)和量化LPC系数搜索噪声码本。 例如,随机噪声或者使用大量语音数据库学习的信号可以用于噪声码本搜索 器706中的噪声码本。此外,为噪声码本搜索器706提供的噪声码本可以如 同代数码本一样,由具有预定非常小数目的幅度1的脉沖的向量表达。该代 数码本的特征在于能够通过小量的计算确定脉冲位置和脉沖正负号(极性)的 最佳组合。
当假定目标向量是t2(n),并且通过将合成滤波器的脉沖响应巻积为对应 于代码j的噪声向量而获得的信号是Cj(n)时,噪声码本搜索器706将最小化 下面表达式(4)的评价函数D的噪声向量的索引j输出到多路复用器708。
广W-1 、2 ^ 》2(")。(")
"=0 》六")
M=0
噪声向量增益量化器707量化与噪声向量相乘的噪声向量增益。噪声向 量增益量化器707使用下面示出的表达式(5)计算噪声向量增益y ,并且标量 量化该噪声向量增益Y ,并且将其输出到多路复用器708。
j^2(")。(")
r = ^i- …(5)
多路复用器708多路复用量化LPC系数、自适应向量、自适应向量增益、 噪声向量以及噪声向量增益的编码代码,并且它将多路复用结果输出到本地 解码器103和多路复用器109。
下一步,将说明解码侧。图10是示出根据本发明实施例2的基本层解码 器的内部配置的示例方框图。图IO示出图8中的基本层解码器602的内部配 置。图10中的基本层解码器602主要由多路分解器801、激励生成器802和 合成滤波器803构成。
多路分解器801将从多路分解器601输出的第一编码代码分离为量化 LPC系数、自适应向量、自适应向量增益、噪声向量以及噪声向量增益的编 码代码,并且它将自适应向量、自适应向量增益、噪声向量以及噪声向量增 益的编码代码输出到激励生成器802。同样地,多路分解器801将量化LPC 系数的编码代码输出到合成滤波器803。
激励生成器802对自适应向量、自适应向量增益、噪声向量以及噪声向
1量增益的编码代码进行解码,并且它使用下面示出的表达式(6)生成激励向量 ex(n):
= & .《(")+ y《 c(") …(6)
其中q(n)表示自适应向量,Pq表示自适应向量增益,c(n)表示噪声向量, 而Yq表示噪声向量增益。
合成滤波器803从LPC系数的编码代码解码该量化LPC系数,并且使 用下面示出的表达式(7)生成合成信号syn(n):
W尸
,(")=+ J] (/) ,(《 - /) …(7)
/=1
其中otq表示解码LPC系数,并且NP表示LPC系数的阶。合成滤波器 803将解码信号syn(n)输出到上采样器603。
这样,根据本实施例的声学编码设备和声学解码设备,发送侧通过对基 本层应用CELP编码而对输入信号进行编码,并且接收侧对基本层应用CELP 编码的解码方法,从而有可能以低比特率实现高质量基本层。
本实施例的语音编码设备也可以采用在合成滤波器803之后设有后置滤 波器的配置,以改善主观质量。图11是示出根据本发明实施例2的基本层解 码器的内部配置的示例方框图。然而,与图IO相同的组件被分配与图10相 同的标号,并且将省略其详细说明。
对于后置滤波器902,可采用各种配置来改善主观质量。 一种典型的方 法是使用由通过多路分解器801的解码而获得的LPC系数构成的共振峰增强 滤波器的方法。共振峰增强滤波器Hf(z)以下面示出的表达式(8)表达
其中1/A(z)表示由解码的LPC系数构成的合成滤波器,并且Yn、 Yd和 ju表示确定滤波器特征的常量。 (实施例3)
该实施例的特征在于使用变换编码,由此将增强层的输入信号变换成频 域的系数,然后对变换后的系数进行编码。将利用图12说明根据本实施例的 增强层编码器108的基本配置。图12是示出根据本发明实施例3的增强层编码器的内部配置的示例方框图。图12示出图3中的增强层编码器108的内部 配置的例子。图12中的增强层编码器108主要由MDCT部件1001和量化器 1002构成。
MDCT部件1001对从分帧器107输出的输入信号进行MDCT变换(改进 的离散余弦变换),以获得MDCT系数。MDCT变换以分析帧长度的一半完 全重叠连续的分析帧。并且MDCT的正交基包括分析帧的第一半的"奇函数" 和第二半的"偶函数"。在合成过程中,MDCT变换不产生任何帧边界失真, 因为它重叠且相加逆变换后的波形。当执行MDCT时,将输入信号与诸如正 弦窗口的窗口函数相乘。当假定一组MDCT系数为X(n)时,可以通过下面示 出的表达式(9)计算MDCT系数
其中X(n)表示通过将输入信号乘以窗口函数而获得的信号。 量化器1002量化由MDCT部件1001计算的MDCT系数。更具体地说, 量化器1002对MDCT系数进行标量量化。或者,由多个MDCT系数形成向 量,并且对其进行向量量化。尤其当应用标量量化时,上述量化方法往往增 大比特率,以便获得足够的质量。为此,当有可能将足够的比特分配给增强 层时,该量化方法是有效的。然后,量化器1002将通过对MDCT系数进行 量化而获得的代码输出到多路复用器109。
接下来,将说明通过緩和比特率的增大而高效地量化MDCT系数的方 法。图13示出MDCT系数的排列的例子。在图13中,横轴表示时间,而纵 轴表示频率。
要在增强层中编码的MDCT系数可以如图13所示采用具有时间方向和 频率方向的二维矩阵表达。在本实施例中,为一个基本帧设置八个增强帧, 因此横轴变成八维,并且纵轴具有与增强帧的长度匹配的维数。在图13中, 纵轴以16维表达,但是维数不限于此。
为了为图13中表达的所有MDCT系数获得足够高的SNR,量化需要很 多比特。为了避免该问题,本实施例的声学编码设备仅量化包括在预定频带 内的MDCT系数,并且不发送有关其它MDCT系数的信息。也就是,量化 图13的阴影区域1101内的MDCT系数,而不量化其它MDCT系数。该量化方法基于这样的概念,即已经在基本层中以足够的质量对要由基
本层编码的频带(O到FL)进行了编码,并且该频带具有足够的信息量,因此 在增强层中只需对其它频带(例如,FL到FH)进行编码。或者该量化方法基于 这样的概念,即编码失真往往在由基本层编码的频带的高频部分中增大,因 此只需对由基本层编码的频带的高频部分和未由基本层编码的频带进行编 码。
这样,通过仅关心不能被基本层的编码覆盖的域或者不能被基本层的编 码覆盖的域以及包括由基本层的编码覆盖的频带的一部分作为编码目标的 域,有可能减少要编码的信号,并且实现MDCT系数的高效量化,同时緩和 比特率的增大。
接下来,将说明解码侧。
以下,将说明使用改进的离散余弦逆变换(IMDCT)作为从频域变换到时 域的方法的情况。图14是示出根据本发明实施例3的增强层解码器的内部配 置的示例方框图。图14示出图8中的增强层解码器604的内部配置的例子。 图14中的增强层解码器604主要由MDCT系数解码器1201和IMDCT部件 1202构成。
MDCT系数解码器1201从由多路分解器601输出的第二编码代码解码 该量化MDCT系数。IMDCT部件1202对从MDCT系数解码器1201输出的 MDCT系数应用IMDCT,生成时域信号,并且将时域信号输出到叠加器605。
这样,根据本实施例的声学编码设备和声学解码设备,将差值信号从时 域变换到频域,对不能被基本层编码覆盖的增强层中的变换信号的频域进行 编码,从而能够为诸如音乐的具有较大频i普变化的信号实现高效的编码。
要由增强层编码的频带无需被固定为FL到FH。要在增强层中编码的频 带根据基本层的编码方法的特征和包括在输入信号的高频带内的信息量而变 化。因此,如实施例2所述,在宽带信号的CELP编码用于基本层并且输入 信号是语音的情况下,可推荐将由增强层编码的频带设为6kHz到9kHz。
(实施例4)
人类感觉特征具有屏蔽效应,即当提供特定信号时,其频率接近于该信 号的频率的信号不能被听到。本实施例的特征在于基于输入信号找出感觉屏 蔽,并且利用感觉屏蔽^l行增强层的编码。
图15是示出根据本发明实施例4的声学编码设备的配置的方框图。然而,相同于图3的组件被分配相同于图3的标号,并且将省略其详细描述。图15 中的声学编码设备1300包括感觉屏蔽计算部件1301和增强层编码器1302, 并且其不同于图3中的声学编码设备之处在于它从输入信号的频谱计算感觉 屏蔽,并且量化MDCT系数,使得量化失真降到该屏蔽值之下。
延迟器105将输入信号延迟预定时间,并且将延迟的输入信号输出到减 法器106和感觉屏蔽计算部件1301。感觉屏蔽计算部件1301计算表示不能 被人类听觉感觉到的频语的幅度的感觉屏蔽,并且将该感觉屏蔽输出到增强 层编码器1302。增强层编码器1302对具有超过感觉屏蔽的频语的域的差值 信号进行编码,并且将差值信号的编码代码输出到多路复用器109。
接下来,将说明感觉屏蔽计算部件1301的详细信息。图16是示出本实 施例中的感觉屏蔽计算部件的内部配置的示例方框图。图16中的感觉屏蔽计 算部件1301主要由FFT部件1401、巴克(bark)频镨计算器1402、扩频函数 (spread fiinction)巻积器1403、音调计算器1404以及感觉屏蔽计算器1405构 成。
在图16中,FFT部件1401对从延迟器105输出的输入信号进行傅立叶 变换,并且计算傅立叶系数(Re(m),Im(m》。这里,m表示频率。
巴克频镨计算器1402使用下面示出的表达式(10)计算巴克频谱B(k):
萍)
丑("=£户(附) ...(io)
其中P(m)表示通过下面示出的表达式(ll)计算的功率频谱 P(m) = Re20 ) + Im2(m) …(11)
其中Re(m)和Im(m)分别表示具有频率m的复语的实部和虚部。此外,k 对应于巴克频语的序号,FL(k)和FH(k)分别表示第k个巴克频谱的最小频率 (Hz)和最大频率(Hz)。巴克频语B(k)表示当在巴克标度上以有规律的间隔将 频语分成多个频带时频镨的强度。当以f表达赫兹标度并且以B表达巴克标 度时,赫兹标度和巴克标度之间的关系以下面示出的表达式(12)表达
jB二13tan,0.76/) + 3.5taiT1丄 …(12)
扩频函数巻积器1403将扩频函数SF(k)巻积到巴克频谱B(k)中,以计算
C(k)。音调计算器1404使用下面示出的表达式(14)从能频P(m)计算每个巴克频 谱的频谱平坦度SFM(k):
阔*) = ^ …(14)
其中ia g(k)表示第k巴克频谱的几何平均值,而m a(k)表示第k个巴克频 语的算术平均值。音调计算器1404利用下面示出的表达式(15),从频语平坦 度SFM(k)的分贝值SFM dB(k)计算音调系数a(k):
<formula>formula see original document page 21</formula> …(15)
感觉屏蔽计算器1405利用下面示出的表达式(16),从由音调计算器1404 算出的音调系数oc (k)计算每个巴克标度的偏移O(k):
<formula>formula see original document page 21</formula> …(16)
然后,感觉屏蔽计算器1405利用下面示出的表达式(17),从由扩频函数 巻积器1403获得的C(k)减去偏移O(k),以计算感觉屏蔽T(k)。
<formula>formula see original document page 21</formula> …(17)
其中Tq(k)表示绝对阈值。该绝对阈值表示作为人类感觉特征而观察到的 感觉屏蔽的最小值。感觉屏蔽计算器1405将在巴克标度上表达的感觉屏蔽 T(k)变换成赫兹标度M(m),并且将其输出到增强层编码器1302。
利用这样获得的感觉屏蔽M(m),增强层编码器1302对MDCT系数进行 编码。图17是示出本实施例的增强层编码器的内部配置的示例方框图。图 17中的增强层编码器1302主要由MDCT部件1501和MDCT系数量化器1502 构成。
MDCT部件1501将从分帧器107输出的输入信号乘以分析窗口 ,对输 入信号进行MDCT变换(改进的离散余弦变换),以获得MDCT系数。MDCT 以分析帧长度的一半重叠连续的分析。并且MDCT的正交基包括分析帧的第 一半的奇函数和第二半的偶函数。在合成过程中,MDCT重叠逆变换后的波 形,并且相加这些波形,因此不发生帧边界失真。当执行MDCT时,将输入信号与诸如正弦窗口的窗口函数相乘。当假定MDCT系数为X(n)时,根据表 达式(9)计算MDCT系数。
MDCT系数量化器1502将从感觉屏蔽计算部件1301输出的感觉屏蔽用 于从MDCT部件1501输出的MDCT系数,以将MDCT系数分类成要量化的 系数和不要量化的系数,并且仅对要量化的系数进行编码。更具体地说, MDCT系数量化器1502将MDCT系数X(m)与感觉屏蔽M(m)进行比较,并 且忽略其强度小于M(m)的MDCT系数X(m),并且从编码目标中排除它们, 因为这样的MDCT系数X(m)由于感觉屏蔽效应而不被人类听觉感觉到,并 且仅量化其强度大于M(m)的MDCT系数。然后,MDCT系数量化器1502 将该量化MDCT系数输出到多路复用器109。
这样,本实施例的声学编码设备利用屏蔽效应的特性,从输入信号的频 谱计算感觉屏蔽,在增强层的编码期间执行量化,使得量化失真降到该屏蔽 值之下,从而可以减少要量化的MDCT系数的数目,而不导致质量降低,并 且以低比特率和高质量实现编码。
上面实施例说明了利用FFT计算感觉屏蔽的方法,但是也有可能利用 MDCT而非FFT计算感觉屏蔽。图18是示出本实施例的感觉屏蔽计算部件 的内部配置的示例方框图。然而,相同于图16的组件被分配相同于图16的 标号,并且将省略其详细说明。
MDCT部件1601使用MDCT系数近似功率频谱P(m)。更具体地说, MDCT部件1601利用下面表达式(18)近似P(m):
尸(m)-i 2(m) …(18)
其中R(m)表示通过对输入信号进行MDCT变换而获得的MDCT系数。 巴克频语计算器1402从由MDCT部件1601近似的P(m)计算巴克频语 B(k)。从那时起,根据上述方法计算感觉屏蔽。 (实施例5)
该实施例涉及增强层编码器1302,并且其特征是它涉及一种当超过感觉 屏蔽的MDCT系数是量化目标时、高效地对这些MDCT系数的位置信息进 行编码的方法。
图19是示出根据本发明实施例5的增强层编码器的内部配置的示例方框 图。图19示出图15中的增强层编码器1302的内部配置的例子。图19中的增强层编码器1302主要由MDCT部件1701、量化位置确定部件1702、MDCT 系数量化器1703、量化位置编码器1704以及多路复用器1705构成。
MDCT部件1701将从分帧器107输出的输入信号乘以分析窗口 ,然后 对输入信号进行MDCT变换(改进的离散余弦变换),以获得MDCT系数。通 过以分析帧长度的一半重叠连续的分析帧来执行MDCT变换,并且使用分析 帧的第一半的奇函数和第二半的偶函数的正交基。在合成过程中,MDCT变 换重叠逆变换后的波形,并且相加这些波形,因此不发生帧边界失真。当执 行MDCT时,将输入信号与诸如正弦窗口的窗口函数相乘。当假定MDCT 系数为X(n)时,根据表达式(9)计算MDCT系数。
由MDCT部件1701计算的MDCT系数表示为X(j, m)。这里,j表示增 强帧的帧号,而m表示频率。本实施例将说明增强帧的时间长度为基本帧的 时间长度的1/8的情况。图20示出MDCT系数的排列的例子。MDCT系数 X(j,m)如图20所示,可以在其横轴表示时间而其纵轴表示频率的矩阵上表达。 MDCT部件1701将MDCT系数X(j, m)输出到量化位置确定部件1702和 MDCT系数量化部件1703。
量化位置确定部件1702比较从感觉屏蔽计算部件1301输出的感觉屏蔽 M(j, m)与从MDCT部件1701输出的MDCT系数X(j, m),并且确定要量化哪 些位置的MDCT系数。
更具体地说,当满足下面示出的表达式(19)时,量化位置确定部件1702 量化X(j, m)。
<formula>formula see original document page 23</formula>…(19)
然后,当满足表达式(20)时,量化位置确定部件1702不量化X(j,m)。<formula>formula see original document page 23</formula>…(20)
然后,量化位置确定部件1702将要量化的MDCT系数X(j, m)的位置信 息输出到MDCT系数量化部件1703和量化位置编码器1704。这里,位置信 息表示时间j和频率m的组合。
在图20中,由量化位置确定部件1702确定的要量化的MDCT系数X(j,
m)的位置以阴影区域表达。在本例中,位置(j,m)气6, 1)、 (5,3).....(7,15)、
(5, 16)的MDCT系数X(j, m)是量化目标。这里,假定通过与增强帧同步来计算感觉屏蔽M(j,m)。然而,由于计算 量等的限制,也有可能与基本帧同步来计算感觉屏蔽M(j,m)。在这种情况下, 与感觉屏蔽与增强帧同步的情况相比,感觉屏蔽的计算量减至1/8。此外,在 这种情况下,首先通过基本帧获得感觉屏蔽,然后将相同的感觉屏蔽用于所 有增强帧。
MDCT系数量化部件1703量化在由量化位置确定部件1702确定的位置 上的MDCT系数X(j, m)。当执行量化时,MDCT系数量化部件1703使用有 关感觉屏蔽M(j,m)的信息,并且执行量化,使得量化误差降到感觉屏蔽M(j, m)之下。当假定量化的MDCT系数为X,(j,m)时,MDCT系数量化部件1703 执行量化,使得满足下面示出的表达式(21)。
IW,附) - 义'(y, m) |《M(,附) …(21)
然后,MDCT系数量化部件1703将量化代码输出到多路复用器1705。
量化位置编码器1704对位置信息进行编码。例如,量化位置编码器1704 使用游程长度编码方法对位置信息进行编码。量化位置编码器1704在时间轴 方向上从最低频率开始扫描,并且以把要编码的系数不连续存在的位置数和 要编码的系数连续存在的位置数视作位置信息的方式执行编码。
更具体地说,量化位置编码器1704在j增大的方向上从(j, m)=(l, l)开始 扫描,并且使用直到出现要编码的系数为止的位置数作为位置信息执行编码。
在图20中,从(j,m)气l, l)到成为第一个编码目标的系数的位置(j,m)-(l, 6)的距离是5,然后,由于只有一个要编码的系数连续存在,因此要编码的系 数连续存在的位置数为1,然后不要编码的系数连续存在的位置数为14。这 样,在图20中,表达位置信息的代码是5、 1、 14、 1、 4、 1、 4...、 5、 1、 3。 量化位置编码器1704将该位置信息输出到多路复用器1705。多路复用器1705 多路复用有关MDCT系数X(j,m)的量化的信息和位置信息,并且将多路复用 结果输出到多路复用器109。
接下来,将说明解码侧。图21是示出才艮据本发明实施例5的增强层解码 器的内部配置的示例方框图。图21示出图8中的增强层解码器604的内部配 置的例子。图21中的增强层解码器604主要由多路分解器1901、 MDCT系 数解码器1902、量化位置解码器1903、时间-频率矩阵生成器1904以及IMDCT 部件1905构成。多路分解器1901将从多路分解器601输出的第二编码代码分离为MDCT 系数量化信息以及量化位置信息,并且将MDCT系数量化信息输出到MDCT 系数解码器1902,并且将量化位置信息输出到量化位置解码器1903。
MDCT系数解码器1902从由多路分解器1901输出的MDCT系数量化信 息解码MDCT系数,并且将解码的MDCT系数输出到时间-频率矩阵生成器 1904。
量化位置解码器1903从由多路分解器1901输出的量化位置信息解码量 化位置信息,并且将解码的量化位置信息输出到时间-频率矩阵生成器1904。 该量化位置信息是表示时间-频率矩阵中的解码MDCT系数的位置的信息。
时间-频率矩阵生成器1904使用从量化位置解码器1903输出的量化位置 信息和从MDCT系数解码器1902输出的解码MDCT系数生成图20所示的 时间-频率矩阵。图20以阴影区域示出存在解码MDCT系数的位置,并且以 空白区域示出不存在解码MDCT系数的位置。在空白区域内的位置上,不存 在解码MDCT系数,因此,提供O作为解码MDCT系数。
然后,时间-频率矩阵生成器1904针对每个增强帧(]=1到J)将解码MDCT 系凄t输出到IMDCT部件1905。 IMDCT部件1905对解码MDCT系数应用 IMDCT,生成时域信号,并且将该信号输出到叠加器605。
这样,本实施例的声学编码设备和声学解码设备在增强层中编码的期间 将剩余信号从时域变换到频域,然后执行感觉屏蔽,以确定要编码的系数, 并且对有关频率和帧号的两维位置信息进行编码,从而可以利用要编码的系 数和不要编码的系数的位置是连续的这一事实减少信息量,并且以低比特率 和高质量执行编码。
(实施例6)
图22是示出根据本发明实施例6的增强层编码器的内部配置的示例方框 图。图22示出图15中的增强层编码器1302的内部配置的例子。然而,相同 于图19的组件被分配相同于图19的标号,并且将省略其详细说明。图22中 的增强层编码器1302包括分域器2001、量化域确定部件2002、 MDCT系数 量化部件2003以及量化域编码器2004,并且涉及另一种当超过感觉屏蔽的 MDCT系数是量化目标时、高效地对MDCT系数的位置信息进行编码的方法。
分域器2001将由MDCT部件1701获得的MDCT系数X(j, m)分成多个 域。这里,域是指多个MDCT系数的位置和集合,并且预先确定为为编码器和解码器共有的信息。
量化域确定部件2002确定要量化的域。更具体地说,当将域表达为 S(k)(k=l到K)时,量化域确定部件2002计算这些MDCT系数X(j, m)超过包 括在域S(k)中的感觉屏蔽M(m)的量的总和,并且按照该总和的幅度以降序选 择K,(K、K)个域。
图23示出MDCT系数的排列的例子。图23示出域S(k)的例子。图23 中的阴影区域表示由量化域确定部件2002确定的要量化的域。在本例中,域 S(k)是在时间轴方向上为四维、在频率轴方向上为二维的矩形,并且量化目 标是四个域S(6)、 S(8)、 S(11)和S(14)。
如上所述,量化域确定部件2002根据MDCT系数X(j, m)超过感觉屏蔽 M(j, m)的量的总和确定应当量化哪些域S(k)。总和V(k)通过下面表达式(22) 来计算
<formula>formula see original document page 26</formula> …(22)
根据该方法,根据输入信号可以几乎不选择高频域V(k)。因此,代替表 达式(22),也有可能使用在下面示出的表达式(23)中表达的、以MDCT系数 X(j,m)的强度归一化的方法
<formula>formula see original document page 26</formula> …(23)
然后,量化域确定部件2002将有关要量化的域的信息输出到MDCT系 数量化部件2003和量化域编码器2004。
量化域编码器2004向要量化的域分配代码1,而向其它域分配代码0, 并且将这些代码输出到多路复用器1705。在图23的情况下,这些代码为0000、 0101、 0010、 0100。此外,该代码还可使用游程长度编码方法来表达。在这 种情况下,所获得的代码是5、 1、 1、 1、 2、 1、 2、 1、 2。
MDCT系数量化部件2003量化包括在由量化域确定部件2002确定的域 中的MDCT系数。作为量化方法,还有可能从包括在域中的MDCT系数构 造一个或多个向量,并且执行向量量化。在执行向量量化中,还有可能使用 由感觉屏蔽M(j, m)力。权的标度。
接下来,将说明解码侧。图24是示出根据本发明实施例6的增强层解码器的内部配置的示例方框图。图24示出图8中的增强层解码器604的内部配 置的例子。图24中的增强层解码器604主要由多路分解器2201、 MDCT系 数解码器2202、量化域解码器2203、时间-频率矩阵生成器2204以及IMDCT 部件2205构成。
本实施例的特征在于能够对由实施例6的前述增强层编码器1302生成的 编码代码进行解码。
多路分解器2201将从多路分解器601输出的第二编码代码分离为MDCT 系数量化信息和量化域信息,将MDCT系数量化信息输出到MDCT系数解 码器2202,并将量化域信息输出到量化域解码器2203。
MDCT系数解码器2202根据从多路分解器2201获得的MDCT系数量化 信息解码MDCT系数。量化域解码器2203根据从多路分解器2201获得的量 化域信息解码量化域信息。该量化域信息是表达各个解码MDCT系数属于时 间频率矩阵中的哪个域的信息。
时间-频率矩阵生成器2204使用从量化域解码器2203获得的量化域信息 和从MDCT系数解码器2202获得的解码MDCT系数,生成图23所示的时 间-频率矩阵。在图23中,以阴影区域表达存在解码MDCT系数的域,而以 空白区域表达不存在解码MDCT系数的域。由于不存在解码MDCT系数, 因此空白区域提供O作为解码MDCT系数。
然后,时间-频率矩阵生成器2204将每个增强帧(]=1到J)的解码MDCT 系数输出到IMDCT部件2205。 IMDCT部件2205对解码MDCT系数应用 IMDCT,生成时域信号,并且将该信号输出到叠加器605。
这样,本实施例的声学编码设备和声学解码设备以组单元(域)设置存在 超过感觉屏蔽的剩余信号的时域和频域的位置信息,从而可以以较少比特表 达要编码的域的位置,并且实现低比特率。
(实施例7)
接下来,将参照

实施例7。图25是示出根据本发明实施例7的 通信设备的配置的方框图。本实施例的特征在于图25中的信号处理设备2303 由实施例1到实施例6所示的前述声学编码设备之一构成。
如图25所示,根据本发明实施例7的通信设备2300包括输入设备2301、 A/D转换设备2302和连接到网络2304的信号处理设备2303。
A/D转换设备2302连接到输入设备2301的输出端。信号处理设备2303的输入端连接到A/D转换设备2302的输出端。信号处理设备2303的输出端 连接到网络2304。
输入设备2301将可为人耳听见的声波转换为作为电信号的模拟信号,并 且将其提供给A/D转换设备2302。 A/D转换设备2302将模拟信号转换为数 字信号,并且将其提供给信号处理设备2303。信号处理设备2303对所输入 的数字信号进行编码,生成代码,并且将该代码输出到网络2304。
这样,根据本发明的本实施例的通信设备可提供能够实现实施例1到6 所示效果的声学编码设备,并且高效地以较少比特对声学信号进行编码。
(实施例8)
接下来,将参照

本发明的实施例8。图26是示出根据本发明实 施例8的通信设备的配置的方框图。本实施例的特征在于图26中的信号处理 设备2303由实施例1到实施例6所示的前述声学解码设备之一构成。
如图26所示,根据本发明实施例8的通信设备2400包括连接到网络2401 的接收设备2402、信号处理设备2403 、 D/A转换设备2404以及输出设备2405 。
接收设备2402的输入端连接到网络2401。信号处理设备2403的输入端 连接到接收设备2402的输出端。D/A转换设备2404的输入端连接到信号处 理设备2403的输出端。输出设备2405的输入端连接到D/A转换设备2404 的输出端。
接收设备2402从网络2401接收数字编码声学信号,生成数字接收声学 信号,并且将其提供给信号处理设备2403。信号处理设备2403从接收设备 2402接收所接收的声学信号,对所接收声学信号应用解码处理,生成数字解 码声学信号,并且将其提供给D/A转换设备2404。 D/A转换设备2404转换 来自信号处理设备2403的数字解码语音信号,生成模拟解码语音信号,并且 将其提供给输出设备2405。输出设备2405将作为电信号的模拟解码声学信 号转换成空气振动,并且将其作为人耳可听到的声波输出。
这样,本实施例的通信设备可以在通信中实现实施例1到6所示的前述 效果,高效地以较少比特对编码声学信号进行解码,从而输出高质量声学信 号。
(实施例9)
接下来,将参照

本发明的实施例9。图27是示出根据本发明实 施例9的通信设备的配置的方框图。本发明的实施例9的特征在于图27中的信号处理设备2503由实施例1到实施例6所示的前述声学编码部件之一构 成。
如图27所示,根据本发明实施例9的通信设备2500包括输入设备2501、 A/D转换设备2502、信号处理设备2503、 RF调制设备2504以及天线2505。
输入设备2501将可为人耳听见的声波转换为作为电信号的模拟信号,并 且将其提供给A/D转换设备2502。 A/D转换设备2502将模拟信号转换为数 字信号,并且将其提供给信号处理设备2503。信号处理设备2503对所输入 的数字信号进行编码,生成编码声学信号,并且将其提供给RF调制设备2504。 RF调制设备2504对编码声学信号进行调制,生成调制的编码声学信号,并 且将其提供给天线2505。天线2505作为无线电波发送调制的编码声学信号。
这样,本实施例的通信设备可以在无线电通信中实现如实施例1到6所 示的效果,并且高效地以较少比特对声学信号进行编码。
本发明适用于使用音频信号的发送设备、发送编码设备或声学信号编码 设备。此外,本发明还适用于移动台设备或基站设备。
(实施例10)
接下来,将参照

本发明的实施例10。图28是示出根据本发明 实施例10的通信设备的配置的方框图。本发明的实施例10的特征在于图28 中的信号处理设备2603由实施例1到实施例6所示的前述声学编码部件之一 构成。
如图28所示,根据本发明实施例10的通信设备2600包括天线2601、 RF解调设备2602、信号处理设备2603、 D/A转换设备2604以及输出设备 2605。
天线2601接收作为无线电波的数字编码声学信号,生成作为电信号的数 字接收编码声学信号,并且将其提供给RF解调设备2602。 RF解调设备2602 对来自天线2601的接收编码声学信号进行解调,生成解调的编码声学信号, 并且将其提供给信号处理设备2603。
信号处理设备2603从RF解调设备2602接收数字解调编码声学信号, 执行解码处理,生成数字解码声学信号,并且将其提供给D/A转换设备2604。 D/A转换设备2604转换来自信号处理设备2603的数字解码语音信号,生成 模拟解码语音信号,并且将其提供给输出设备2605。输出设备2605将作为 电信号的模拟解码声学信号转换成空气振动,并且将其作为人耳可听到的声波输出。
这样,本实施例的通信设备可以在无线电通信中实现如实施例1到6所 示的效果,高效地以较少比特对编码声学信号进行解码,从而输出高质量声 学信号。
本发明适用于使用音频信号的接收设备、接收解码设备或语音信号解码 设备。此外,本发明还适用于移动台设备或基站设备。
此外,本发明不限于上述实施例,而是可以以各种方式修改实现。例如, 上述实施例描述了本发明被实现为信号处理设备的情况,但是本发明不限于 此,并且该信号处理方法也可通过软件来实现。
例如,有可能预先在ROM(只读存储器)中存储用于执行上述信号处理方 法的程序,并且通过CPU(中央处理单元)运行程序。
此外,还有可能在计算机可读存储介质中存储用于执行上述信号处理方 法的程序,将存储在存储介质中的程序记录在计算机的RAM(随机存取存储 器)中,并且根据该程序操作计算机。
上述说明描述了使用MDCT作为从时域变换到频域的方法的情况,但是 本发明不限于此,并且只要是至少提供正交变换,任何方法都是适用的。例 如,可使用离散傅立叶变换或离散余弦变换等。
本发明适用于使用音频信号的接收设备、接收解码设备或语音信号解码 设备。此外,本发明还适用于移动台设备或基站设备。
从上述说明可以清楚,本发明的声学编码设备和声学编码方法对增强层 进行编码,其中增强层中的帧的时间长度被设成短于基本层中的帧的时间长 度,从而能够以短延迟、低比特率和高质量对甚至是主要包括背景中叠加有 音乐和噪声的语音的信号进行编码。
本申请基于2002年9月6日提交的日本专利申请No. 2002-261549,在 此将其全文引作参考。
工业适用性
本发明优选地适用于高效地对诸如音乐信号或语音信号的声学信号进行 压缩和编码的声学编码设备和通信设备。
权利要求
1. 一种声音编码设备,包括第一编码部件,以基本帧为单位对输入信号进行编码,以获得第一编码代码;解码部件,对所述第一编码代码进行解码,以获得解码信号;减法部件,获得所述输入信号与所述解码信号之间的剩余信号;分割部件,以时间长度短于所述基本帧的增强帧为单位对所述剩余信号进行分割;以及第二编码部件,对以所述增强帧为单位分割后的剩余信号进行编码,以获得第二编码代码。
2. 根据权利要求1所述的声音编码设备,其中所述第一编码部件使用码 激励线性预测法对输入信号进行编码。
3. 根据权利要求1所述的声音编码设备,其中所述第二编码部件将所述 剩余信号从时域正交变换到频域,并且对变换后的所述剩余信号进行编码。
4. 根据权利要求3所述的声音编码设备,其中所述第二编码部件使用改 进离散余弦变换将所述剩余信号从时域变换到频域。
5. 根据权利要求3或者4所述的声音编码设备,其中所述第二编码部件 仅对于预定频带,对变换到频域的所述剩余信号进行编码。
6. 根据权利要求3或者4所述的声音编码设备,其中,还包括听觉屏蔽部件,其计算表达不影响听觉的幅度值的听觉屏蔽, 所述第二编码部件不把所述听觉屏蔽内的信号作为编码对象。
7. 根据权利要求6所述的声音编码设备,其中所述第二编码部件计算听 觉屏蔽与剩余信号之间的差值,把该差值较大的剩余信号作为编码对象,并 且对存在所述剩余信号的时域和频域的部分进行编码。
8. 根据权利要求7所述的声音编码设备,其中所述第二编码部件在时域 和频域的一个或两者内分别将多个域作为 一个组,以所述组为单位计算听觉 屏蔽与剩余信号之间的差值,并且仅对包含在该差值较大的组中的剩余信号 进行编码。
9. 一种声音解码设备,包括第一解码部件,对第一编码代码进行解码以获得第一解码信号,所述第一编码代码是通过在编码侧、以预定基本帧为单位,对输入信号进^f亍编码而获得的;第二解码部件,对第二编码代码进行解码以获得第二解码信号,所述第 二编码代码是通过在编码侧、以时间长度短于所述基本帧的增强帧为单位, 对所述输入信号与对所述第一编码代码进行解码而获得的解码信号之间的剩 余信号进行分割并编码而获得的;以及加法部件,将所述第二解码信号和所述第一解码信号相加。
10. 根据权利要求9所述的声音解码设备,其中所述第一解码部件使用 码激励线性预测法对第 一编码代码进行解码。
11. 根据权利要求9所述的声音解码设备,其中所述第二解码部件将所 述第二解码信号从频域正交变换到时域。
12. 根据权利要求11所述的声音解码设备,其中, 还包括叠加部件,将以相同的定时对第二解码信号之间进行编码而获得的帧部分重叠,所述第二解码部件使用改进离散余弦逆变换,将所述第二解码信号从频 域正交变换到时域,从而对所述第二解码信号进行解码,并且将解码后的信 号输出到所述加法部件,并且加法部件将由所述叠加部件重叠后的第二解码信号和所述第一解码信号 相力口。
13. 根据权利要求ll所述的声音解码设备,其中所述第二解码部件从第 二编码代码解码出关于存在剩余信号的时域和频域的信息,并且对存在所述 剩余信号的时域和频域的部分进行解码。
14. 根据权利要求13所述的声音解码设备,其中所述第二解码部件在时 域和频域的一个或两者内分别将多个域作为一个组,并且对包含在解码对象 的组中的剩余信号进^f亍解码。
15. —种声音信号发送设备,包括 声音输入部件,将声音信号转换成电信号;A/D变换部件,将从所述声音输入部件输出的信号变换成数字信号; 权利要求1所述的声音编码设备,对从所述A/D变换部件输出的数字信 号进行编码;RF调制部件,将从所述编码设备输出的编码代码调制成射频的信号;以及发送天线,将从所述RF调制部件输出的信号变换成无线电波,并且发 送该信号。
16. —种声音信号接收设备,包括 接收天线,接收无线电波;RF解调部件,对由所述接收天线接收的信号进行解调; 权利要求9所述的声音解码设备,对由所述RF解调部件获得的信息进 行解码;D/A变换部件,将从所述解码设备输出的信号变换成模拟信号;以及 声音输出部件,将从所述D/A变换部件输出的电信号变换成声音信号。
17. —种通信终端设备,包括根据权利要求1所述的声音编码设备和根 据权利要求9所述的声音解码设备中的至少一个。
18. —种基站设备,包括根据权利要求1所述的声音编码设备和根据权 利要求9所述的声音解码设备中的至少一个。
19. 一种声音编码方法,包括第一编码步骤,以基本帧为单位对输入信号进行编码,以获得第一编码 代码;解码步骤,对所述第一编码代码进行解码,以获得解码信号; 减法步骤,获得所述输入信号与所述解码信号之间的剩余信号; 分割步骤,以时间长度短于所述基本帧的增强帧为单位对所述剩余信号 进行分割;以及第二编码步骤,对以所述增强帧为单位分割后的剩余信号进行编码,以 获得第二编码代码。
全文摘要
声音编解码与发送接收设备及编码方法、通信终端和基站。该声音编码设备包括第一编码部件,以基本帧为单位对输入信号进行编码,以获得第一编码代码;解码部件,对所述第一编码代码进行解码,以获得解码信号;减法部件,获得所述输入信号与所述解码信号之间的剩余信号;分割部件,以时间长度短于所述基本帧的增强帧为单位对所述剩余信号进行分割;以及第二编码部件,对以所述增强帧为单位分割后的剩余信号进行编码,以获得第二编码代码。
文档编号G10L19/02GK101425294SQ200810183109
公开日2009年5月6日 申请日期2003年8月12日 优先权日2002年9月6日
发明者押切正浩 申请人:松下电器产业株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1