音频编码器、音频编码方法和程序的制作方法

文档序号：2833229阅读：274来源：国知局

专利名称：音频编码器、音频编码方法和程序的制作方法
技术领域：
本技术涉及一种音频编码器、音频编码方法以及程序，更具体地，涉及能够在高效地对多个声道的音频信号进行编码时防止由于编码而导致声音质量劣化的音频编码器、音频编码方法和程序。
背景技术：
在用于对由多个声道的音频信号构成的立体声音频信号进行编码的公知技术当中，存在通过利用声道之间的关系来提高编码效率的Μ/S立体声编码技术、强度立体声编码技术等。在下文中，为了便于说明，立体声音频信号的声道数量是两个，即左声道和右声道，但是该说明同样可以适用于数量是三个或更多个的情况。
Μ/S立体声编码生成构成立体声音频信号的右声道的音频信号和左声道的音频信号之间的和分量以及差分量作为编码结果。因此，由于当右声道的音频信号和左声道的音频信号彼此类似时差分量较小，因此编码效率较高。然而，由于当右声道的音频信号和左声道的音频信号彼此显著不同时差分量较大，因此难以获得高编码效率。这会在编码之后的量化时引起量化噪声，从而在解码时引起人工噪声。在强度立体声编码中，基于如下原理执行编码人类听觉在高频域对相位迟钝，并且主要基于频谱之间的水平比(level ratio)来感测位置(例如，参见IS0/IEC 13818-7Information technology^Generic coding of moving pictures and associated audioinformation Part 7〃，Advanced Audio Coding (AAC))。具体地，对于低于预定频率 Fis 的频率，强度立体声编码按原样提供右声道和左声道的频谱作为编码结果。另一方面，对于等于或大于预定频率Fis的频率，强度立体声编码生成通过混合右声道和左声道的频谱而获得的共同谱以及各个声道的频谱的水平作为编码结果。因此，对于低于频率Fis的频率，解码器将作为编码结果的右声道和左声道的频谱按原样提供作为解码结果。另一方面，对于等于或大于频率FIS的频率，解码器将各个声道的频谱的水平应用于作为编码结果的共同谱，以生成解码结果。另外，对于这样的强度立体声编码，假定与Μ/S立体声编码的情况类似，右声道的音频信号和左声道的音频信号彼此类似。因此，当右声道的音频信号和左声道的音频信号彼此完全不同时，例如，当左声道的音频信号是钹(cymbals)的音频信号而右声道的音频信号是小号(trumpet)的音频信号时，由于共同谱不同于右声道和左声道的频谱，因此在解码时会出现人工噪声。因此，提出了计算右声道的音频信号的频谱与左声道的音频信号的频谱之间的距离的尺度，并且当该尺度等于或小于阈值时，执行诸如Μ/S立体声编码的共同编码，并且当该尺度等于或大于阈值时，单独地执行编码(例如，参见日本专利第3421726号，在下文中将其称为专利文献I)。此外，还提出了针对预定频带将立体声音频信号的频谱划分成段(piece)，并且对于每个频带，使用特定的哈夫曼码本号来传送被应用了强度立体声编码的索引(例如，参见日本专利第3622982号,这在下文中被称为专利文献2)。因而,可以针对每个预定频带而在开与关之间切换强度立体声编码。然而，在专利文献I和2的技术的情况下，当在开与关之间频繁切换共同编码或强度立体声编码时，感测位置会变得不稳定或者会出现异常声音。另外，存在对于编码期望高压缩率的情形。即使在右声道的音频信号和左声道的音频信号彼此显著不同时，该情形也可能强制要求采用强度立体声编码以提高编码效率。在该情况下，在解码时肯定会出现可感测的人工噪声。同时，认为针对带而被划分成段的立体声音频信号基于编码的失真系数、以混合比率混合从而将其编码(例如，参见日本专利第3951690号)。在该情况下，由于基于失真系数连续地控制右边和左边的编码对象的分离(立体声感觉)，因此可以防止感测位置不稳定或者可以防止异常声音的出现。图I是示出执行这样的编码的音频编码器的配置的一个示例的框图。图I中的音频编码器10被配置成包括滤波器组11、滤波器组12、自适应混合部13、T/F变换部14、T/F变换部15、编码控制部16、编码部17、多路复用器18以及失真系数检测部19。作为左声道的时间信号的音频信号^和作为右声道的时间信号的音频信号xK作为编码对象的立体声音频信号被输入到图I中的音频编码器10。音频编码器10的滤波器组11将被输入作为编码对象的音频信号&划分成相应的B个频带(带)的音频信号。滤波器组11将所划分的具有带号b (b=l，2，…，B)的子带信号提供到自适应混合部13。类似地，滤波器组12将被输入作为编码对象的音频信号xK划分成相应的B个带的音频信号。滤波器组12将所划分的具有带号b (b=l，2，...，B)的子带信号xbK提供到自适应混合部13。自适应混合部13基于从失真系数检测部19提供的并且用于对过去的编码对象编码的失真系数，确定从滤波器组11提供的子带信号1\与从滤波器组12提供的子带信号xbK的混合比率。具体地，自适应混合部13使得混合比率随着失真系数越大(即，S/N比率越小)而越大。因而，要通过进行混合而获得的子带信号针对右边和左边的分离(立体声感觉)变小，并且将提高编码效率。另一方面，自适应混合部13使得混合比率随着失真系数越小(B卩，S/N比率越大)而越小。因而，要通过进行混合而获得的子带信号针对右边和左边的分离(立体声感觉)变大。自适应混合部13基于所确定的子带信号1\的混合比率而针对每个带混合子带信号X\和子带信号xbK，以生成子带信号X\mix。类似地，自适应混合部13基于所确定的子带信号xbK的混合比率而针对每个带混合子带信号xbL和子带信号xbK，以生成子带信号xbKmix。自适应混合部13将所生成的子带信号x\mix提供到T/F变换部14，并且将子带信号Xbsmix提供到T/F变换部15。T/F变换部14对子带信号x\mix执行诸如MDCT (改进的离散余弦变换)的时频变换，并且将所得到的频谱\提供到编码控制部16和编码部17。类似地，T/F变换部15对子带信号Xbftllix执行诸如MDCT的时频变换，并且将所得到的频谱Xk提供到编码控制部16和编码部17。编码控制部16基于从T/F变换部14提供的频谱与从T/F变换部15提供的频谱Xk之间的关联，选择Μ/S立体声编码和强度编码这两种编码中的任一种编码方案。编码控制部16将所选择的编码方案提供到编码部17。编码部17使用从编码控制部16提供的编码方案对从T/F变换部14提供的频谱Xl和从T/F变换部15提供的频谱Xk中的每一个进行编码。编码部17将通过编码所获得的编码谱和关于编码的附加信息提供到多路复用器18。多路复用器18以预定格式对从编码部17提供的编码谱、关于编码的附加信息等进行多路复用，并且输出所得到的编码数据。失真系数检测部19检测编码部17的编码的失真系数，并且将其提供到自适应混合部13。

发明内容
然而，在图I的音频编码器10中，由于基于过去的编码对象的失真系数来确定混合比率，因此该混合比率不一定适合于当前编码对象的特征。结果，会出现由于编码而导致的声音质量的劣化。例如，即使当右声道的音频信号和左声道的音频信号彼此显著不同时，也会出现由于未充分混合右声道和左声道的频谱而弓I起的解码时的噪声。本技术是鉴于上述情形而做出的，并且期望在高效地对立体声音频信号进行编码时防止由于编码而导致的声音质量的劣化。根据本技术的一方面，提供了一种音频编码器，包括确定部，基于多个声道的音频信号的频谱，确定混合比率，该混合比率为针对多个声道中的每个声道，其它声道的频谱相对于该声道的混合后频谱的比率；混合部，基于确定部确定的混合比率，针对每个声道混合多个声道的频谱；以及编码部，对经混合部混合后的多个声道的频谱进行编码。根据本技术的一方面，提供了一种与根据本技术的第一方面的音频编码器对应的音频编码方法和程序。在根据本技术的一方面，基于多个声道的音频信号的频谱，确定混合比率，该混合比率为针对多个声道中的每个声道，其它声道的频谱相对于该声道的混合后频谱的比率；基于所确定的混合比率，针对每个声道混合多个声道的频谱；以及对混合后的多个声道的频谱进行编码。根据本技术的一方面，可以在高效地对多个声道的音频信号进行编码时防止由于编码而导致的声音质量的劣化。

图I是示出过去的音频编码器的配置的一个示例的框图；图2是示出应用了本技术的音频编码器的一个实施例的构成示例的框图；图3是用于说明图2中的关联/能量计算部中的带的图；图4是示出图2中的自适应混合部的构成示例的图；图5是示出混合比率Iii1的示例的图；图6是示出混合比率m2的示例的图7是示出混合比率m3的示例的图；图8是示出图2中的编码部的构成示例的框图；图9是用于说明编码处理的流程图；图10是用于详细地说明图9中的混合处理的流程图；以及图11是示出计算机的一个实施例的构成示例的图。
具体实施例方式<实施例>(音频编码器的一个实施例的构成示例)图2是示出应用了本技术的音频编码器的一个实施例的构成示例的框图。图2中的音频编码器30被配置成包括输入端子31和输入端子32、T/F变换部33和T/F变换部34、关联/能量计算部35、自适应混合部36、编码部37、多路复用器38以及输出端子39。音频编码器30以基于立体声音频信号的频谱的混合比率来对频谱进行混合，以执行强度立体声编码。具体地，编码对象的立体声音频信号之中作为左声道的时间信号的音频信号^被输入到音频编码器30的输入端子31，并且被提供到T/F变换部33。此外，编码对象的立体声音频信号之中作为右声道的时间信号的音频信号xK被输入到输入端子32，并且被提供到T/F变换部34。T/F变换部33针对每个预定的变换帧，对从输入端子31提供的音频信号执行诸如MDCT变换的时频变换。T/F变换部33将所得到的频谱(系数)提供到关联/能量计算部35和自适应混合部36。类似地，T/F变换部34针对每个预定的变换帧，对从输入端子32提供的音频信号Xe执行诸如MDCT变换的时频变换。T/F变换部34将所得到的频谱Xk (系数)提供到关联/能量计算部35和自适应混合部36。关联/能量计算部35针对各预定频带(带)将从T/F变换部33提供的频谱和从T/F变换部34提供的频谱Xk中的每一个划分成段。另外，按照频率的升序而顺序地为各个带给出带号b (b=l, 2, ···, B)0 另外，关联/能量计算部35根据以下等式(I)，针对每个带计算具有带号b的带的频谱Xl的能量El (b)和频谱Xe的能量Ee (b)。
权利要求
1.一种音频编码器，包括确定部，基于多个声道的音频信号的频谱，确定混合比率，所述混合比率为针对所述多个声道中的每个声道，其它声道的频谱相对于该声道的混合后频谱的比率；混合部，基于所述确定部确定的所述混合比率，针对每个声道混合所述多个声道的频谱；以及编码部，对经所述混合部混合之后的所述多个声道的频谱进行编码。
2.根据权利要求I所述的音频编码器，其中，所述确定部基于所述多个声道的频谱之间的关联，确定所述混合比率。
3.根据权利要求2所述的音频编码器，其中，所述确定部以下述方式确定所述混合比率所述混合比率随着所述关联越接近O而变得越大，并且所述混合比率随着所述关联越接近-I而变得越小。
4.根据权利要求2所述的音频编码器，其中，当所述关联小于预定负阈值时，所述确定部确定所述混合比率是O，其中所述预定负阈值大于-I。
5.根据权利要求I所述的音频编码器，其中，所述确定部基于所述多个声道的频谱之间的水平比，确定所述混合比率。
6.根据权利要求5所述的音频编码器，其中，所述确定部以下述方式确定所述混合比率所述混合比率随着所述水平比越大而变得越小。
7.根据权利要求5所述的音频编码器，其中，当所述多个声道中的至少一个声道的频谱的水平小于预定阈值时，所述确定部确定所述混合比率是O，而当所述多个声道的所有频谱的水平都等于或大于所述预定阈值时，所述确定部基于所述水平比确定所述混合比率。
8.根据权利要求5所述的音频编码器，其中，所述确定部基于所述多个声道的频谱之间的能量比，确定所述混合比率。
9.根据权利要求I所述的音频编码器，其中，所述确定部针对各个预定频带将所述多个声道的各个频谱划分成段，并且基于针对每个频带的所述多个声道的频谱确定每个频带的混合比率，以及所述混合部基于所述确定部确定的针对每个频带的混合比率，针对每个声道和每个频带而混合所述多个声道的频谱。
10.根据权利要求9所述的音频编码器，其中，所述确定部基于每个频带的频谱和该频带的频率，确定每个频带的混合比率。
11.根据权利要求I所述的音频编码器，其中，所述编码器对经所述混合部混合后的所述多个声道的频谱执行强度立体声编码。
12.—种音频编码方法，包括通过音频编码器执行如下步骤基于多个声道的音频信号的频谱，确定混合比率，该混合比率为针对所述多个声道中的每个声道，其它声道的频谱相对于该声道的混合后频谱的比率；基于通过确定步骤的处理而确定的所述混合比率，针对每个声道混合所述多个声道的频谱；以及对通过混合步骤的处理混合后的所述多个声道的频谱进行编码。
13.一种使得计算机执行以下步骤的程序基于多个声道的音频信号的频谱，确定混合比率，该混合比率为针对所述多个声道中的每个声道，其它声道的频谱相对于该声道的混合后频谱的比率；基于通过确定步骤的处理而确定的所述混合比率，针对每个声道混合所述多个声道的频谱；以及对通过混合步骤的处理混合后的所述多个声道的频谱进行编码。
全文摘要
本发明公开了一种音频编码器、音频编码方法和程序，该音频编码器包括确定部，基于多个声道的音频信号的频谱，确定混合比率，该混合比率为针对多个声道中的每个声道，其它声道的频谱相对于该声道的混合后频谱的比率；混合部，基于确定部确定的混合比率，针对每个声道混合多个声道的频谱；以及编码部，对经混合部混合之后的多个声道的频谱进行编码。
文档编号G10L19/008GK102855876SQ201210212498
公开日2013年1月2日申请日期2012年6月21日优先权日2011年7月1日
发明者户栗康裕, 前田祐儿, 松本淳, 铃木志朗, 松村祐树申请人:索尼公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：户栗康裕;前田祐儿;松本淳;铃木志朗;松村祐树
技术所有人：索尼公司
我是此专利的发明人

上一篇：基于编组方式的语音库实现语音识别系统及其方法
上一篇：多能电子笛的制作方法