语音音响编码装置、语音音响解码装置、语音音响编码方法和语音音响解码方法

文档序号：8417609阅读：516来源：国知局

语音音响编码装置、语音音响解码装置、语音音响编码方法和语音音响解码方法
【技术领域】
[0001] 本发明涉及使用了变换编码方式的语音音响编码装置、语音音响解码装置、语音音响编码方法及语音音响解码方法。
【背景技术】
[0002] 作为能够高效率地编码0. 05-14kHz频带的超宽频带（SWB !Super-Wide-Band) 的语音信号或音乐信号的方式，有按ITU-T (International Telecommunication Union Telecommunication Standardization Sector ;国际电信联盟电信标准化部门）标准化的非专利文献1及非专利文献2中记载的技术。在这些技术中，将7kHz为止的频带在核心编码单元中编码，将7kHz以上的频带（以下，称为"扩展频带"）在扩展编码单元中编码。
[0003] 在核心编码单元中，使用码激励线性预测（CELP :Code Excited Linear Prediction)进行编码，在将CELP中不能编码的剩余信号用MDCT(Modified Discrete Cosine Transform;改进离散余弦变换）变换到频域后，以称为FPC(Factorial Pulse Coding;阶乘脉冲编码）或AVQ(Algebraic Vector Quantization;代数矢量量化）的变换编码进行编码。在扩展编码单元中，在7kHz以上的扩展频带中，搜索与7kHz为止的低频的频谱之间相关较高的频带，将相关最高的频带使用在扩展频带的编码中利用的方法等进行编码。再有，在非专利文献1及非专利文献2中，在7kHz为止的低频侧和7kHz以上的高频侦牝分别被预先确定编码比特数，以分别确定的编码比特数编码低频侧和高频侧。
[0004] 此外，在非专利文献3中，也公开了将SWB编码的方式已被ITU-T标准化。在非专利文献3中记载的编码装置中，将输入信号通过MDCT变换到频域，分割为子带，对每个子带进行编码。具体地说，该编码装置首先计算各子带能量，并进行编码。接着，为了编码频率精细结构，基于子带能量，对各子带分配用于编码频率精细结构的编码比特。频率精细结构使用格型矢量量化（Lattice Vector Quantization)来编码。与FPC或AVQ同样，格型矢量量化也是适合频谱的编码的一种变换编码。在格型矢量量化中，由于编码比特未被充分地分配，所以有时解码过的频谱的能量和子带能量的误差较大。这种情况下，通过进行将子带能量和解码频谱的能量的误差用噪声矢量填补的处理，进行编码。
[0005] 此外，在非专利文献4中，论述了基于AAC(Advanced Audio Coding ;高级音频编码）的编码技术。在AAC中，基于听觉模型计算掩蔽阈值，通过将掩蔽阈值以下的MDCT系数从编码对象中除去，高效率地进行编码。
[0006] 现有技术文献
[0007] 非专利文献
[0008] 非专利文献 I : ITU-T Standard G. 718AnnexB，2010 年
[0009] 非专利文献 2 : ITU-T Standard G. 729. lAnnexE，2010 年
[0010] 非专利文献 3 : ITU-T Standard G. 719, 2008 年
[0011] 非专利文献4 :MP3AND AAC explained，AES 17th International Conference on High Quality Audio Coding，1999 年

【发明内容】

[0012] 发明要解决的问题
[0013] 在非专利文献1及非专利文献2中，对核心编码单元编码的低频侧和扩展编码单元编码的高频侧以固定方式分配比特，不能对低频和高频按照信号的特性适当地分配编码比特。因此，存在因输入信号的特性而不能发挥充分的性能的课题。
[0014] 另一方面，在非专利文献3中，有按照子带能量从低频到高频自适应地分配比特的机制，但着眼于高频越高，相对频谱的误差的灵敏度越低这样的听觉特性，存在对高频容易分配需要以上的比特的课题。有关该课题在以下说明。
[0015] 在编码过程中，首先，计算各子带中需要的比特量，以使对每个子带计算出的子带能量越大，分配越多的比特。但是，在变换编码中，在算法的性质上，即使将编码比特分配增加1比特，编码能力也不会提高，有时如果不分配一定程度汇集的比特数，编码结果就不改变。因此，如果不是以比特单位，而是以这样汇集的比特数的单位进行比特的分配，则是便利的。将这样的编码上需要的比特数的单位在这里称为单元。分配的单元（unit)数越多，能够越正确地表现频谱的形状及振幅。再有，考虑到听觉特性，高频的子带与低频的子带相比，一般来说其带宽取得宽，但带宽越宽，1单元所需要的比特量就越多，所以1单元的比特数随着带宽而改变。
[0016] 在本发明所设想的变换编码中，将频谱用频率轴上的少数脉冲串近似，所以在该脉冲串的振幅信息和位置信息上，消耗以单元单位分配的编码比特。
[0017] 而且，在非专利文献4中，通过将听觉特性上不重要的MDCT系数从编码对象中除去，而进行高效率地编码，要编码的各个频谱的位置信息被正确地表现。因此，子带的带宽越宽，为了表现各个频谱的位置，必然消耗越多的比特。
[0018] 然而，高频越高，相对频谱的位置的听觉的灵敏度就变得越低，如果能够表现主要的频谱振幅、子带能量，则难以感觉听感上的劣化。然而，在非专利文献3及非专利文献4 中，在高频中都消耗很多的比特，才准确地表现各个频谱的位置。即，为了准确地表现频谱位置，存在使用需要以上的编码比特的课题。
[0019] 本发明的目的在于，提供在抑制扩展频带的音质的劣化的同时降低对扩展频带的频谱的编码分配的编码比特量的语音音响编码装置、语音音响解码装置、语音音响编码方法及语音音响解码方法。
[0020] 解决问题的方案
[0021] 本发明的语音音响编码装置采用以下结构，包括：时间频率变换单元，将时域的输入信号变换为频域的频谱；分割单元，将所述频谱分割为子带；频带压缩单元，在扩展频带内的子带中，将频谱从低频侧或高频侧起按顺序分成各自多个样本的组合，选择各组合之中振幅的绝对值大的频谱，将选择出的频谱在频率轴上靠紧配置而压缩该子带的频带；以及变换编码单元，将比所述扩展频带低的低频的子带的频谱和频带压缩过的频谱通过变换编码进行编码。
[0022] 本发明的语音音响解码装置采用以下结构，包括：变换编码解码单元，在扩展频带内的子带中，将频谱从低频侧或高频侧起按顺序分成各自多个样本的组合，选择各组合之中振幅的绝对值大的频谱，将选择出的频谱在频率轴上靠紧配置，从而将压缩了该子带的频带的频谱和比所述扩展频带低的低频的子带的频谱，都通过变换编码所编码的编码数据解码；频带扩展单元，将所述压缩的子带的带宽扩展到原来的子带的带宽；子带集中单元，将比解码过的所述扩展频带低的低频的子带的频谱和扩展过的所述扩展频带内的子带的频谱集中在一个矢量中；以及频率时间变换单元，将集中后的频域的频谱变换为时域的信号。
[0023] 本发明的语音音响编码方法，包括以下步骤：时间频率变换步骤，将时域的输入信号变换为频域的频谱；分割步骤，将所述频谱分割为子带；频带压缩步骤，将扩展频带内的子带的频谱从低频侧或高频侧起按顺序分成各自多个样本的组合，选择各组合之中振幅的绝对值大的频谱，并将选择出的频谱在频率轴上靠紧配置而压缩频带；以及变换编码步骤，将比所述扩展频带低的低频的子带的频谱和频带压缩过的频谱，通过变换编码进行编码。
[0024] 本发明的语音音响解码方法，包括：变换编码解码步骤，将扩展频带内的子带的频谱从低频侧或高频侧起按顺序分成各自多个样本的组合，选择各组合之中振幅的绝对值大的频谱，将选择出的频谱在频率轴上靠紧配置，从而将压缩了频带的频谱和比所述扩展频带低的低频的子带的频谱，都通过变换编码所编码的编码数据解码；频带扩展步骤，将经压缩的子带的带宽扩展到原来的子带的带宽；子带集中步骤，将比经解码的所述扩展频带低的低频的子带的频谱和经扩展的所述扩展频带内的子带的频谱集中在一个矢量中；以及频率时间变换步骤，将集中后的频域的频谱变换为时域的信号。
[0025] 发明的效果
[0026] 根据本发明，在能够抑制扩展频带的音质的劣化的同时，并且能够降低对扩展频带的频谱的编码分配的编码比特量。
【附图说明】
[0027] 图1是表示本发明的实施方式1、3、5的语音音响编码装置的结构的框图。
[0028] 图2是用于说明频带压缩的图。
[0029] 图3是用于说明单元数重新计算单元的动作的图。
[0030] 图4是表示本发明的实施方式1、3、5的语音音响解码装置的结构的框图。
[0031] 图5是用于说明频带扩展的图。
[0032] 图6是表示本发明的实施方式1的语音音响编码装置的另一结构的框图。
[0033] 图7是表示本发明的实施方式1的语音音响解码装置的另一结构的框图。
[0034] 图8是表示本发明的实施方式2的语音音响编码装置的结构的框图。
[0035] 图9是表示本发明的实施方式2的语音音响解码装置的结构的框图。
[0036] 图10是表示基于位置校正信息

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：河岛拓也;押切正浩;
技术所有人：松下电器（美国）知识产权公司;
我是此专利的发明人

上一篇：利用节目响度和边界元数据的音频编码器和解码器的制造方法
上一篇：机动车中的语音识别的制作方法