支持时域及频域编码模式的音频编解码器的制造方法

文档序号：2825625阅读：192来源：国知局

支持时域及频域编码模式的音频编解码器的制造方法
【专利摘要】在速率/失真比方面具有低延迟及增高的编码效率的支持时域及频域两种编码模式的音频编解码器通过如下得到：配置音频编码器使得音频编码器以不同操作模式操作，使得如果活动的操作模式为第一操作模式，则可用帧编码模式的模式相关集合与时域编码模式的第一子集不相交，并且与频域编码模式的第二子集重叠；而如果活动的操作模式为第二操作模式，则可用帧编码模式的模式相关集合与两个子集即时域编码模式的子集以及频域编码模式的子集都重叠。
【专利说明】支持时域及频域编码模式的音频编解码器
【技术领域】
[0001]本发明涉及支持时域及频域编码模式的音频编解码器。
【背景技术】
[0002]最近，最终通过了 MPEG USAC编解码器。统一语音与音频编码(USAC)是使用高阶音频编码(AAC)、变换编码激励(TCX)及代数代码激励线性预测编码器(ACELP)的混合方式来编码音频信号的编解码器。更具体地，MPEG USAC使用1024样本的帧长度，且允许在1024或8x128样本的仿AAC帧、TCX1024帧，或在一个帧内ACELP帧(256样本)、TCX256及TCX512样本的组合之间切换。
[0003]不利地MPEG USAC编解码器不适合需要低延迟的应用。双向通信应用例如需要这样的短延迟。由于USAC具有1024样本的帧长度，故USAC并非这些低延迟应用的候选者。
[0004]在W02011147950中，曾经提出通过将USAC编解码器的编码模式只限制于TCX及ACELP模式而使得USAC方法适用于低延迟应用。此外，曾经提出使得帧结构变得更细小以便遵守由低延迟应用所施加的低延迟要求。
[0005]但仍然需要提出一种音频编解码器，在速率/失真比方面具有增高的编码效率而执行低编码延迟。优选地，该编解码器应该能够有效地处置不同类型的音频信号比如语音及首乐。

【发明内容】

[0006]这样，本发明的目的在于提供一种音频编解码器，以提供低延迟用于低延迟应用，但与USAC相比，例如在速率/失真比方面具有增高的编码效率。
[0007]该目的通过审查中的独立权利要求的主题来实现。
[0008]本发明的基本构想是可获得具有低延迟及在速率/失真比方面具有增加的编码效率的支持时域及频域编码模式的音频编解码器，如果该音频编码器被配置成以不同操作模式进行操作，使得如果活动的操作模式为第一操作模式，则可用的帧编码模式的模式相关集合与时域编码模式的第一子集不相交，并且与频域编码模式的第二子集重叠；而如果活动的操作模式为第二操作模式，则可用的帧编码模式的模式相关集合与两个子集重叠，即，时域编码模式的子集以及频域编码模式的子集。例如，取决于用于传输数据流的可用传输比特率，可执行关于采用第一和第二操作模式中的哪一个的决定。例如，决定的依赖性可以是在较低可用传输比特率的情况下采用第二操作模式，而在较高可用传输比特率的情况下采用第一操作模式。更具体地，通过对编码器提供操作模式，可防止编码器在编码情况下选择任何时域编码模式，比如通过可用传输比特率而来确定，当在长期的基础上在速率/失真比方面考虑编码效率时，选择任何时域编码模式极其可能造成编码效率的损耗。更精确而言，本发明的发明人发现在(相对)高的可用传输带宽的情况下，抑制选择任何时域编码模式使得编码效率增高:但在短期的基础上，可以假设时域编码模式当前优于频域编码模式，但如果以较长时间周期来分析音频信号，则此假设变得不正确。这种长期分析或预测在低延迟应用不可能，因此，防止编码器事先采用任何时域编码模式使得能够实现增加的编码效率。
[0009]根据本发明的实施例，前述构想是经探索以达到数据流比特率更进一步增高的程度:虽然同步地控制编码器与解码器的操作模式就比特率而言相当价廉，或当同步性是通过一下其它装置提供时甚至无需耗用任何比特率，但可以探讨编码器与解码器同步地在操作模式之间操作与切换的事实，以便减轻传递在音频信号的连续部分中数据流的各个帧相关联的帧编码模式时的额外传递负担。更特别地，当解码器的关联器可被配置成取决于与数据流中的帧相关联的帧模式语法元素而执行数据流的连续帧的每一个与多个帧编码模式的模式相关集合中的一个的关联时，该关联器可特别地取决于活动的操作模式而改变关联的性能的依赖性。更具体地，依赖性的改变可以使得如果活动的操作模式为第一操作模式，则该模式相关集合与第一子集不相交，并且与第二子集重叠；而如果活动的操作模式为第二操作模式，则该模式相关集合与两个子集重叠。然而，通过由探索与当前的操作模式相关联的情况的知识，提高比特率的较少限制性的解决方案也是可行的。
[0010]本发明的实施例的有利的方面是从属权利要求的主题。
【专利附图】

【附图说明】
[0011]更具体地，本发明的优选实施例在下面参考附图以进一步细节说明，附图中
[0012]图1示出根据实施例的音频解码器的框图；
[0013]图2示出根据实施例，帧模式语法元素与该模式相关集合的帧编码模式的可能值之间的双射映射的示意图；
[0014]图3示出根据实施例的时域解码器的框图；
[0015]图4示出根据实施例的频域编码器的框图；
[0016]图5示出根据实施例的音频编码器的框图；及
[0017]图6示出根据实施例的时域及频域编码器的框图。
[0018]有关附图的说明须注意除非另外明白地教示，否则在一幅图中的组件描述也将同等地适用于另一幅图中具有与其相关联的相同组件符号的组件。
【具体实施方式】
[0019]图1示出根据本发明的实施例的音频解码器10。音频解码器包括时域解码器12及频域解码器14。此外，音频解码器10包括关联器16，被配置为将数据流20的每一个连续帧18a-18c关联到多个22帧编码模式所组成的模式相关集合中的一个，多个22帧编码模式在图1中示例说明为A、B及C。可以有多于三个帧编码模式，因此数目从3改成其它数目。各个帧18a-c对应于音频解码器从数据流20重建的音频信号26的连续部分24a_c中的一个。
[0020]更精确地来说，关联器16是连接在一方面解码器10的输入28与另一方面时域解码器12及频域解码器14的输入之间，从而以后面详述的方式为关联器16提供相关联的帧18a_c。
[0021]时域解码器12是被配置来解码帧，该帧具有与其相关联的多个22帧编码模式中的一个或多个所组成的第一子集30中的一个；而且频域解码器14是被配置来解码帧，该帧具有与其相关联的多个22帧编码模式中的一个或多个所组成的第二子集32中的一个。第一及第二子集彼此不相交，如图1中示例说明。更精确的来说，该时域解码器12具有输出使得输出音频信号26的对应于具有与其相关联的帧编码模式的第一子集30中的一个的帧的重建部分24a-c ;及该频域解码器14包括输出用以输出音频信号26的对应于具有与其相关联的帧编码模式的第二子集32中的一个的帧的重建部分。
[0022]如图1所示，音频解码器10可选地具有组合器34，该组合器34连接在一方面时域解码器12及频域解码器14的输出与另一方面解码器10的输出36之间。特别地，虽然图1建议部分24a-24c彼此不重叠，而是在时间t上彼此立即连接，在该种情况下也可不存在组合器34 ;也可能部分24a-24c在时间t上至少部分连接，但彼此部分重叠，比如涉及由频域解码器14所使用的重叠变换，允许时间混迭抵消，举例而言，如同后文将就频域解码器14作进一步细节解说的实施例的情况。
[0023]在继续对图1的实施例进行说明之前，须注意图1示例说明的帧编码模式A-C的数目仅供举例说明。图1的音频解码器可支持多于三个编码模式。后文中，子集32的帧编码模式被称作频域编码模式，而子集30的帧编码模式被称作时域编码模式。关联器16将任何时域编码模式30的帧15a-c转发给时域解码器12，并且将任何频域编码模式的帧18a_c转发给频域解码器14。组合器34正确地登记如由时域解码器12及频域解码器14所输出的音频信号26的重建部分，因此如图1所示在时间t上为连续排列。可选地，组合器34可在频域编码模式部分24之间执行重叠加法功能，或在紧接地连续部分间的过渡处执行其它特定措施，比如重叠加法功能用以执行由频域解码器14所输出部分间的混迭抵消。可在由时域及频域解码器12及14分开输出的立即相连部分24a-c之间执行正向混迭抵消，即针对从频域编码模式部分24至时域编码模式部分24的过渡，及从时域编码模式部分24至频域编码模式部分24的过渡。有关可能实现的进一步细节请参考后文描述的进一步细节实施例。
[0024]如后面将要详细描述，关联器16是被配置来使用帧编码模式A-C而执行数据流20的连续帧18a-c的关联，而其执行关联的方式可在不适合使用此种时域编码模式的情况下避免使用时域编码模式，比如在高可用传输比特率的情况下，在这种情况下，在速率/失真比方面，时域编码模式比频域编码模式更无效，因此时域编码模式用于某些帧18a_18c极其可能导致编码效率的减低。
[0025]据此，关联器16被配置来取决于与该数据流20中的帧18a_c相关联的一帧模式语法元素而执行帧与帧编码模式的关联。举例而言，数据流20的语法可被配置来使得各个帧18a-c包括用以确定对应的帧18a-c所属的帧编码模式的帧模式语法元素38。
[0026]此外，关联器16被配置来在多个操作模式中的活动的模式下进行操作，或从多个操作模式中选出当前的操作模式。关联器16可取决于数据流或根据外部控制信号而执行该选择。举例而言，如后面将要详细描述的，与编码器的操作模式的改变同步地，音频解码器10改变其操作模式，以及为了实现同步，编码器可以传送活动的操作模式及该数据流20内的操作模式中的活动的操作模式的改变。另外，编码器及解码器10可通过一些外部控制信号同步地被控制，比如由较低的传输层比如EPS或RTP等所提供的控制信号。外部提供的控制信号例如可以指示一些可用传输比特率。
[0027]为了示例说明或实现避免如前文所述的不当选择或不当使用时域编码模式，关联器16被配置来取决于活动的操作模式，改变帧18与编码模式的关联的性能的依赖性。更明确而言，如果活动的操作模式为第一操作模式，则多个帧编码模式的模式相关集合例如为40处所示，其与第一子集30不相交而与第二子集32重叠；而如果活动的操作模式为第二操作模式，则模式相关集合例如为图1中42处所示，且与第一及第二子集30及32重叠。
[0028]换句话说，根据图1的实施例，音频解码器10是可以经由数据流20或外部控制信号加以控制，因而在第一模式与第二模式间改变其活动的操作模式，通过此改变巾贞编码模式的操作模式相关集合，换句话说，在40与42间改变，使得根据一个操作模式，模式相关集合40与时域编码模式集合脱离；而在另一个操作模式中，模式相关集合42含有至少一个时域编码模式以及至少一个频域编码模式。
[0029]为了进一步以细节解释关联器16的关联性能的依赖性，参考图2，举例示出数据流20中的一个片段，该片段包括与图1的帧18a至18c中的某一个相关联的帧模式语法元素38。就此点而言，须注意图1举例说明的数据流20的结构仅用于示例说明目的，也可应用其它结构。举例而言，虽然图1的帧18a至18c是示出作为数据流20的单纯连接或连续部分，它们之间并无交插，但也可以应用这种交插。此外，虽然图1提示帧模式语法元素38是包含在所指的帧内部，但并非必然如此。相反地，帧模式语法元素38可位于帧18a至18c外部的数据流20内。此外，包含在数据流20内的帧模式语法元素38的数目不是必须等于数据流20中的帧18a至18c的数目。例如图2的帧模式语法元素38可与数据流20中的帧18a至18c中的多于一个相关联。
[0030]总而言之，取决于帧模式语法元素38已经插入数据流20内的方式，在如数据流20所含且经由数据流20所传输的帧模式语法元素38与帧模式语法元素38的可能值的集合46间存在映射44。举例言的，帧模式语法元素38可直接地，即、使用二进制表示，比如PCM插入数据流20，或使用可变长度代码和/或使用熵编码比如霍夫曼编码或算术编码而插入数据流20。如此，关联器16可被配置来比如通过解码48而从数据流20中提取帧模式语法元素38，以便导出可能值的任何集合46，其中可能值在图2中通过小三角形表示。在编码器端，相对应地例如通过编码50而进行插入。
[0031]换句话说，帧模式语法元素38可能假设的任何可能值，亦即在帧模式语法元素38的可能值范围集合46内的各个可能值与多个帧编码模式A、B及C中的某一个相关联。更具体地，一方面的集合46的可能值与另一方面的帧编码模式的模式相关集合之间有双射映射。通过图2的双箭头52示例说明的映射是根据活动的操作模式而改变。双射映射52是关联器16的功能的一部分，关联器16取决于活动的操作模式而改变映射52。如图1说明，在图2中示例说明的第二操作模式的情况下，虽然模式相关集合40或42与两个帧编码模式子集30及32重叠，但在第一操作模式的情况下，模式相关集合与子集30不相交，即不包含子集30的任何元素。换言之，双射映射52将帧模式语法元素38的可能值的域映射至帧编码模式的共域(co-domain)上，分别称作为模式相关集合50及52。如图1及图2的示例说明，通过使用针对集合46的可能值的实线的三角形，在两个操作模式中即第一及第二操作模式中，双射映射52的域可保持相同，而如前文示例说明及描述，双射映射52的共域改变。
[0032]然而，集合46内部的可能值的数目可能改变。这是以图2中画有虚线的三角形表示。更精确而言，第一与第二操作模式之间的可用帧编码模式的数目可能不同。然而，如果这样，在任何情况下仍然实现关联器16使得双射映射52的共域表现为如前述，在第一操作模式为活动的情况下，模式相关集合与子集30间没有重叠。
[0033]换言之，注意到下述情况。在内部，帧模式语法元素38的值可以某个二进制值表示，容纳可能值集合46的可能值范围与当前活动的操作模式无关。为求更精确，关联器16在内部以二进制表示的二进制值来表示帧模式语法元素38的值。运用此二进制值，集合46的可能值被排序为顺序量表(ordinal scale),使得集合46的可能值即便在操作模式改变的情况下也保持彼此可相比较。根据这种顺序量表，集合46的第一可能值例如可以定义为在集合46的可能值中具有最高概率者，而集合46的可能值中的第二可能值连续地为具有次低概率者等等。因此，尽管操作模式改变，但帧模式语法元素38的可能值彼此可相比较。后述情况下，尽管第一与第二操作模式之间的活动的操作模式改变，双射映射52的域及共域，即可能值的集合46及帧编码模式的模式相关集合保持相同；但双射映射52改变一方面模式相关集合的帧编码模式与另一方面集合46的可相比较的可能值之间的关联。在后述实施例中，图1的解码器10仍可利用根据后文解释的实施例作用的编码器，换言之，在第一操作模式的情况下，避开选择不合适的时域编码模式。通过在第一操作模式的情况下，将集合46的更高可能的可能值与频域编码模式32单独地关联，而在第一操作模式期间只使用针对时域编码模式30的集合46的较低可能的可能值，但在第二操作模式的情况下改变此种策略，若使用用以将帧模式语法元素38插入数据流20/从数据流20提取帧模式语法元素38的熵编码，导致了数据流20的较高压缩率。换言之，在第一操作模式中，时域编码模式30中没有任何一个可以与集合46的可能值相关联，该可能值的概率高于通过映射52而映射至频域编码模式32中的任一者所映射的可能值的概率，这样的情况存在于第二操作模式，在第二操作模式中，至少一个时域编码模式30与如下可能值相关联，该可能值的概率比根据映射52而与频域编码模式32相关联的另一可能值的概率更高。
[0034]刚才所述与可能值46相关联的且可选地用于编码/解码可能值的概率可以是固定的或自适应改变的。不同概率估计集合可用于不同操作模式。在自适应改变概率的情况下，可使用上下文自适应熵编码。
[0035]如图1所示，关联器16的一个优选实施例为关联的性能的依赖性是取决于活动的操作模式，而帧模式语法元素38被编码成数据流20及从数据流20解码，使得集合46内的可区别的可能值数目与该活动的操作模式为第一或第二操作模式无关。更具体地，在图1的情况下，可区别的可能值的数目为2，也如图2示例说明，考虑带有实线的三角形。在该种情况下，举例而言，关联器16可被配置来使得如果活动的操作模式为第一操作模式，则模式相关集合40包括帧编码模式的第二子集32的第一及第二帧编码模式A及B，以及负责这些帧编码模式的频域解码器14被配置来使用不同的时-频分辨率来对与第一及第二帧编码模式A及B中的一者相关联的帧进行解码。通过此方式，例如一个比特将足以直接地传输数据流20内部的帧模式语法元素38，即无需任何额外的熵编码，其中当从第一操作模式改成第二操作模式时，只有双射映射52改变，反之亦然。
[0036]如后文中将参考第3及4图概述的，时域解码器12可以是代码激励线性预测解码器，及频域解码器可以是变换解码器，被配置来基于被编码成数据流20的变换系数等级而对具有与其相关联的帧编码模式的第二子集中的任一个的帧进行解码。
[0037]例如参考图3。图3示出时域解码器12及与时域编码模式相关联的帧，使得该帧通过时域解码器12而获得重建音频信号26的对应部分24。根据图3的实施例及根据后面将描述的图4的实施例，时域解码器12及频域解码器为以线性预测为基础的解码器，被配置成针对来自数据流12的各个帧获得线性预测滤波器系数。虽然图3及图4提示各个帧18可将线性预测滤波器系数16结合于其中，但非必需为此种情况。线性预测系数60在数据流12内部传输的LPC (线性预测编码)传输速率可等于帧18的帧速率或可以不同。然而，通过从LPC传输速率内插至LPC应用速率，编码器与解码器可同步操作或应用单独地与各帧相关联的线性预测滤波器系数。
[0038]如图3所示，时域解码器12可包括线性预测合成滤波器62及激励信号构建器64。如图3所示，线性预测合成滤波器62被馈送针对当前时域编码模式帧18而从数据流12获得的线性预测滤波器系数。激励信号构建器64是被馈送针对当前解码帧18 (具有与其相关联的时域编码模式)而从数据流12获得的激励参数或代码，比如码簿指数(CBI) 66。激励信号构建器64及线性预测合成滤波器62串联连接，因而在合成滤波器62的输出端输出重建的对应的音频信号部分24。更具体地，激励信号构建器64被配置来使用激励参数66而构建激励信号68，如图3指示，该激励信号可以包含在与任何时域编码模式相关联的当前解码帧内部。激励信号68是一种残差信号，其频谱包络是通过线性预测合成滤波器62形成。更具体地，线性预测合成滤波器是通过针对当前解码帧(具有与其相关联的时域编码模式)在数据流20内部传递的线性预测滤波器系数来控制，以便获得音频信号26的重建部分24。
[0039]有关图3的CELP解码器的可能实现的进一步的细节参考已知的编解码器，比如前述USAC[2]或AMR-WB+编解码器[I]。根据后述编解码器，图3的CELP解码器可实现为ACELP解码器，据此通过组合受代码/参数控制的信号即创新激励，以及连续更新的自适应激励而形成激励信号68，该连续更新的自适应激励是根据针对当前已解码时域编码模式帧18也在数据流12内部传递的自适应激励参数来修改针对恰在之前的时域编码模式帧的最终获得及施加的激励信号而得到。自适应激励参数例如可限定音准延迟及增益，从音准及增益的意义上规定如何修改过去的激励以便获得针对当前帧的自适应激励。创新激励可从当前帧内部的代码66推导出，代码限定多个脉冲及其在激励信号内部的位置。代码66可用于码簿查询，或例如在数目及位置方面，逻辑上或算术上限定创新激励脉冲。
[0040]同理，图4示出频域解码器14的可能的实施例。图4示出进入频域解码器14的当前帧18，帧18具有与其相关联的任何频域编码模式。频域解码器14包括频域噪声整形器70，其输出连接至重新变换器72。重新变换器72的输出又转而为频域解码器14的输出，输出对应于当前已经解码的帧18的音频信号的重建部分。
[0041]如图4所示，数据流20可传递针对具有与其相关联的任何频域编码模式的帧的变换系数等级74及线性预测滤波器系数76。虽然线性预测滤波器系数76可具有与任何时域编码模式相关联的帧所关联的线性预测滤波器系数的相同结构，但变换系数等级74是用以表示在变换域中用于频域帧18的激励信号。如从USAC已知，例如变换系数等级74可沿频谱轴差异地编码。变换系数等级74的量化准确度可通过常用比例因子或增益因子来控制。比例因子可以是数据流的一部分及假设为变换系数等级74的一部分。但也可使用任何其它量化方案。变换系数等级74被馈送至频域噪声整形器70。同理适用于针对当前已解码频域帧18的线性预测滤波器系数76。然后频域噪声整形器70被配置来从变换系数等级74获得激励信号的激励频谱，及根据线性预测滤波器系数76而在频谱上对该激励频谱整形。更精确地，频域噪声整形器70被配置来将变换系数等级74解量化以便获得激励信号的频谱。然后，频域噪声整形器70将线性预测滤波器系数76变换成加权频谱以便对应于由线性预测滤波器系数76所限定的线性预测合成滤波器的转移函数。这种变换可涉及施加至LPC的ODFT，以便将LPC转成频谱加权值。进一步细节可从USAC标准获得。运用该加权频谱，频域噪声整形器70对通过变换系数等级74所获得的激励频谱进行整形或加权，由此获得激励信号频谱。通过整形/加权，在编码端通过量化变换系数所引入的量化噪声被整形因而感觉上不明显。然后重新变换器72将由频域噪声整形器70所输出的已整形的激励频谱进行重新变换，以获得对应于刚解码帧18的重建部分。
[0042]如前文已述，图4的频域解码器14可支持不同编码模式。更明确地，频域解码器14可被配置来在对与不同频域编码模式相关联的频域帧进行解码时应用不同的时-频分辨率。例如，通过重新变换器72执行的重新变换可以是重叠变换，据此连续的且彼此重叠的待变换信号的开窗部分再细分成个别变换，其中重新变换器72获得这些开窗部分78a、78b及78c的重建。如前记，组合器34可通过例如重叠加法处理而交互补偿出现在这些开窗部分的重叠部分的混迭。重新变换器72的重叠变换或重叠重新变换例如可以要求时间混迭抵消的临界采样变换/重新变换。举例而言，重新变换器72可执行逆MDCT。总而言之，频域编码模式A及B可彼此不同在于对应于当前已解码帧18的部分18是通过一个开窗部分78覆盖，也延伸至先前部分及后继部分，由此获得帧18内部变换系数等级74的一个较大集合，或是延伸至两个连续开窗子部分78c及78b，其是交互重叠且延伸入先前部分及后继部分，及分别地与先前部分及后继部分重叠，由此获得帧18内部变换系数等级74的两个较小集合。因此，虽然解码器及频域噪声整形器70及重新变换器72例如可对模式A的帧执行两项操作，即塑形及重新变换，但例如对帧编码模式B的每个帧，可手动执行一项操作。
[0043]前述音频解码器的实施例是特别设计来利用音频编码器，音频编码器是在不同操作模式下进行操作的，换言之，以便在这些操作模式间改变帧编码模式的选择至下述程度，在这些操作模式中的一个中不选择时域帧编码模式，而只在另一个操作模式中选用。但须注意至少只考虑这些实施例的子集，后述音频编码器的实施例也匹配不支持不同操作模式的音频解码器。这一点至少对于在这些操作模式之间数据流的产生不改变的那些编码器实施例为真。换言之，根据后述音频编码器的一些实施例，对于这些操作模式中的一个对频域编码模式的帧编码模式的选择限制本身并不反映在数据流12内部，在数据流12中操作模式的改变至当前为止是透明的(除了这些操作模式中的一个为活动的期间不存在时域帧编码模式)。但根据前述多个实施例的特别专用的音频解码器连同前述音频编码器的个别实施例形成音频编解码器，如前所述，音频编解码器在对应于例如特殊传输况的特殊操作模式期间额外利用帧编码模式选择限制。
[0044]图5示出根据本发明的实施例的音频编码器。图5的音频编码器一般地表示为100，并且包括关联器102、时域编码器104及频域编码器106，关联器102是连接在一方面音频编码器100的输入108与另一方面时域编码器104及频域编码器106的输入之间。时域编码器104及频域编码器106的输出连接至音频编码器100的输出110。因此，图5中在112指示的待编码的音频信号输入输入端108，及音频编码器100被配置来从其中形成数据流 114。
[0045]关联器102是被配置来将对应于前述音频信号112的部分24的连续部分116a至116c中的每个与多个帧编码模式的模式相关集合中的一个相关联(参考图1至4的40及42)。
[0046]时域编码器104被配置成将与多个22帧编码模式中的一个或多个所组成的第一子集30中的一个相关联的部分116a至116c编码成数据流114的对应的帧118a至118c。频域编码器106同样地负责将与集合32的任何频域编码模式相关联的部分编码成数据流114的对应的帧118a至118c。
[0047]关联器102被配置来在多个操作模式中的活动模式中进行操作。更精确地，关联器102被配置使得多个操作模式中的确切一个为活动的，但在音频信号112的顺序编码部分116a至116c期间多个操作模式中的活动模式的选择可改变。
[0048]更具体地，关联器102被配置使得如果活动的操作模式为第一操作模式，则模式相关集合的表现为类似图1的集合40，即集合40与第一子集30不相交及与第二子集32重叠；但如果活动的操作模式为第二操作模式，则多个编码模式的模式相关集合的表现为类似图1的模式42，即模式42与第一及第二子集30及32重叠。
[0049]如前文所述，图5的音频编码器的功能允许外部控制编码器100，因而防止编码器100不利地选择任何时域帧编码模式，虽然外部状况比如传输状况为如下，比起只限制选择频域帧编码模式，初步选择任何时域帧编码模式极其可能在速率/失真比方面获得较低编码效率。如图5所示，关联器102例如可被配置来接收外部控制信号120。关联器102例如可连接至某个外部实体，使得由该外部实体所提供的外部控制信号120指示用于数据流114传输的可用传输带宽。该外部实体例如可以是下方较低传输层的一部分，比如就OSI层模型而言为较低层。举例言之，外部实体可以是LTE通信网路的一部分。信号122当然可基于实际可用传输带宽的估值或平均未来可用传输带宽的估值提供。如前文就图1至4已述，“第一操作模式”可与低于某个阈值的可用传输带宽相关联，而“第二操作模式”可与超过预定阈值的可用传输带宽相关联，由此防止编码器100在不适当状况下选用任何时域帧编码模式，在不适当状况下时域编码极其可能获得更加无效的压缩，换言之，可用传输带宽低于某个阈值。
[0050]但须注意控制信号120也可以由某个其它实体提供，比如语音检测器，该语音检测器分析待重建的音频信号，即112，以便区别语音语句(即音频信号112内的语音分量占主导的期间的时间间隔)与非语音语句(其中音频信号112内的其它音频源比如音乐等占主导)。控制信号120可指示语音语句和非语音语句中的这种变化，并且关联器102可被配置成因此而在操作模式间改变。例如，在语音语句中关联器102可以输入前述“第二操作模式”，而“第一操作模式”可以与非语音语句相关联，由此遵守下述事实，在非语音语句期间选择时域帧编码模式极其可能导致较为无效的压缩。
[0051]虽然关联器102可被配置成将帧模式语法元素122 (与图1的语法元素38作比较)编码成数据流114，以便针对各部分116a至116c指示相应的部分与多个帧编码模式中的哪个帧编码模式相关联，但该帧模式语法元素122插入数据流114可能不取决于操作模式以获得具有图1至4的帧模式语法元素38的数据流20。如前文已述，数据流114的数据流的产生可与当前活动的操作模式无关地执行。[0052]但就比特率额外开销而言，优选地数据流114是通过图5的音频编码器100产生，以便获得前文关于图1至4的实施例所讨论的数据流20，据此数据流的产生有利地适应于当前活动的操作模式。
[0053]因此，根据图5的音频编码器100的实施例，匹配前文关于图1至4的音频解码器讨论的实施例，关联器102可被配置成使用在一方面与相应的部分116a至116c相关联的帧模式语法元素122的可能值的集合46与另一方面帧编码模式的模式相关集合之间的双射映射52来将帧模式语法元素122编码成数据流114，该双射映射52取决于活动的操作模式而改变。更具体地，改变可以是使得如果活动的操作模式为第一操作模式，则模式相关集合的表现类似集合40，即该集合与第一子集30不相交而与第二子集32重叠；但如果活动的操作模式为第二操作模式，则模式相关集合的表现类似集合42，即该集合与第一及第二子集30和32重叠。更具体地，如前文已述，集合46内的可能值的数目可以是2，而与活动的操作模式为第一或第二操作模式独立无关；及关联器102可被配置成使得如果活动的操作模式为第一操作模式，则模式相关集合包括频域帧编码模式A及B ;及频域编码器106可被配置成根据其帧编码模式为模式A或模式B而使用不同时-频分辨率来编码相应的部分116a 至 116c。
[0054]图6示出对应于前述事实的时域编码器104及频域编码器106的可能实现的实施例，据此代码激励线性预测编码可用于时域帧编码模式，而变换编码激励线性预测编码是用于频域编码模式。据此，根据图6，时域编码器104为代码激励线性预测编码器，及频域编码器106为变换编码器，变换编码器被配置成使用变换系数等级来编码与频域编码模式相关联的部分，及将该部分编码成数据流114的对应帧118a至118c。
[0055]为了说明时域编码器104及频域编码器106的可能实现，参考图6。根据图6，频域编码器106及时域编码器104共同拥有或共享LPC分析器130。但须注意这种环境对本实施例而言并不重要，也可使用不同的实现，据此两个编码器104及106彼此完全分开。此夕卜，有关前文就图1和4所述的编码器实施例及解码器实施例，须注意本发明并非限于下述情况，其中两种编码模式即频域帧编码模式及时域帧编码模式为基于线性预测。然而，编码器与解码器实施例也可转移为另一种情况，其中时域编码及频域编码中的任一个是以不同方式来实现。
[0056]回头参考图6的说明，除了 LPC分析器130之外，图6的频域编码器106包括变换器132、LPC至频域加权转换器134、频域噪声整形器136、及量化器138。变换器132、频域噪声整形器136及量化器138是串联连接在频域编码器106的公共输入140与输出142之间。LPC转换器134连接在LPC分析器130的输出与频域噪声整形器136的加权输入之间。LPC分析器130的输入连接至公共输入140。
[0057]就时域编码器104而言，除了 LPC分析器130之外，包括LP分析滤波器144及基于代码的激励信号逼近器146，二者串联连接在公共输入140与时域编码器104的输出148之间。LP分析滤波器144的线性预测系数输入连接至LPC分析器130的输出。
[0058]在对在输入端140输入的音频信号112进行编码中，LPC分析器130针对音频信号112的各部分116a至116c连续地确定线性预测系数。LPC确定可能涉及音频信号的连续开窗部分(重叠或不重叠)的自相关性确定，比如使用(韦)李杜((Wiener-)Levison-Durbin)算法或萧尔(Schur)算法或其它而对所产生的自相关性执行LPC估算(可选性地伴以先前使自相关性接受Lag开窗)。
[0059]如关于图3和4所述，LPC分析器130并非必需以等于帧118a至118c的帧速率的LPC传输速率来传输数据流114内的线性预测系数。也可使用甚至高于该速率的速率。一般地，LPC分析器130可以由前述自相关率所限定的LPC确定速率来确定LPC信息60及76，例如基于该自相关率而确定LPC的确定速率。然后，LPC分析器130可以可能低于LPC确定速率的LPC传输速率将LPC信息60及76插入数据流。时域(TD)及频域(FD)编码器104及106又可通过内插数据流114的帧118a至118c内所传输的LPC信息60及76来施加线性预测系数，以高于LPC传输速率的LPC应用速率而更新该系数。更具体地，由于频域编码器106及频域解码器每次变换应用一次LPC系数，所以频域帧内的LPC应用速率可低于通过从LPC传输速率内插而调整/更新时域编码器/解码器中应用的LPC系数的速率。由于在解码端也同步地执行内插，故相同线性预测系数可用于一方面时域及频域编码器，另一方面可用于时域及频域解码器。总而言之，LPC分析器130在等于或高于帧速率的某个LPC确定速率而确定针对音频信号112的线性预测系数，及以可等于或低于LPC确定速率的LPC传输速率将LPC确定速率插入数据流。但LP分析滤波器144可以内插，以便以高于LPC传输速率的LPC应用速率来更新LP分析滤波器。LPC转换器134可以执行内插或不执行内插，以便针对各次变换或各次LPC至频谱加权转换需要而确定LPC系数。为了传输LPC系数，可使LPC系数在合适的域比如在LSF/LSP域中接受量化。
[0060]时域编码器104可操作如下。LP分析滤波器可取决于由LPC分析器130所输出的线性预测系数而过滤音频信号112的时域编码模式部分。在LP分析滤波器144的输出，这样得到激励信号150。激励信号是通过逼近器146来逼近。更具体地，逼近器146设定代码比如码簿指数或其它参数来估计激励信号150，比如通过最小化或最大化一方面由激励信号150的偏差所限定的一些最佳化度量，另一方面在合成域即在根据LPC将相应的合成滤波器施加至相应的激励信号后通过码簿指数限定的合成产生的激励信号。最佳化度量可以可选地在感觉上更相关的频带上感觉上强调偏差。通过逼近器146由代码集合确定的创新激励可称作创新参数。
[0061]这样，逼近器146可以每个时域帧编码模式部分输出一个或多个创新参数，以便经由例如帧模式语法元素122插入对应的帧，该对应的帧与时域编码模式相关联。频域编码器106又可如下操作。变换器132使用例如重叠变换来变换音频信号112的频域部分，以获得每个部分的一个或多个频谱。在变换器132输出端所得的光谱图输入频域噪声整形器136，该整形器136根据LPC对表示光谱图的频谱序列进行整形。为此，LPC转换器134将LPC分析器130的线性预测系数转换成频域加权值，以便在频谱上加权该频谱。这时，执行频谱加权从而获得LP分析滤波器的转移函数结果。换言之，ODFT例如可用来将LPC系数转换成频谱权值，然后由变换器132输出的频谱可除以频谱权值，而乘法是用在解码器端。
[0062]此后，量化器138将由频域噪声整形器136所输出的结果所得激励频谱量化成为变换系数等级60用来插入数据流114的对应帧。
[0063]根据前述实施例，当通过修改USAC编码器来以不同操作模式进行操作而修改在本申请说明书的序言部分所讨论的USAC编解码器时可以得出本发明的实施例，因而避免在在某个操作模式的情况下选择ACELP模式。为了使得实现较低的延迟，USAC编解码器可以进一步以下述方式修改:例如，与操作模式无关，可以只使用TCX及ACELP帧编码模式。为了实现较低延迟，可以减小帧长度来达到20毫秒的帧。更具体地，根据前述实施例为了更有效地呈现USAC编解码器，可以修改USAC的操作模式即窄带(NB)、宽带(WB)、及超宽带(SWB)，使得根据下面说明的表，在各个操作模式内只有总体可用帧编码模式的适当的子集
可用:
【权利要求】
1.一种音频解码器，包括: 时域解码器(12); 频域解码器(14); 关联器(16)，被配置成将数据流(20)的连续的帧(18a-C)中的每个与多个(22)帧编码模式的模式相关集合中的一个相关联，所述帧中的每个代表音频信号的连续部分(24a-24c)中对应的一个，其中所述时域解码器(12)被配置成对与所述多个(22)帧编码模式中的一个或多个的第一子集(30)中的一个相关联的帧进行解码，而所述频域解码器(14)被配置成对与所述多个(22)帧编码模式中的一个或多个的第二子集(32)中的一个相关联的帧进行解码，所述第一子集和所述第二子集彼此不相交；其中所述关联器(16)被配置成执行取决于与所述数据流(20)中的所述帧(18a-C)相关联的帧模式语法元素(38)的关联，以及通过根据所述数据流和/或外部控制信号从所述多个操作模式中选出所述活动的操作模式而在多个操作模式中的活动的操作模式中进行操作，并且改变取决于所述活动的操作模式而改变所述关联的性能的依赖性。
2.根据权利要求1所述的音频解码器，其中所述关联器(16)被配置成使得如果所述活动的操作模式为第一操作模式，则所述多个帧编码模式的所述模式相关集合(40)与所述第一子集(30)不相交而与所述第二子集(32)重叠，以及如果所述活动的操作模式为第二操作模式，则所述多个帧编码模式的所述模式相关集合(42)与所述第一子集(30)及所述第二子集(32)重叠。
3.根据权利要·求1或2所述的音频解码器，其中所述帧模式语法元素被编码成所述数据流(20)，使得对于与各个帧有关的所述帧模式语法元素(38)的可区分的可能值的数目与所述活动的操作模式为所述第一操作模式或所述第二操作模式无关。
4.根据权利要求3所述的音频解码器，其中所述可区分的可能值的数目为2，并且所述关联器(16)被配置成使得如果所述活动的操作模式为所述第一操作模式，则所述模式相关集合(40)包括一个或多个帧编码模式的所述第二子集(32)的第一和第二帧编码模式，并且所述频域解码器(14)被配置成在对与所述第一帧编码模式和所述第二帧编码模式相关联的帧进行解码时使用不同的时频分辨率。
5.根据前述权利要求中任意一项所述的音频解码器，其中所述时域解码器是代码激励线性预测解码器。
6.根据前述权利要求中任意一项所述的音频解码器，其中所述频域解码器是变换解码器，所述变换解码器被配置成基于编码于其中的变换系数等级而对与所述帧编码模式中的一个或多个的所述第二子集(32)中的一个相关联的帧进行解码。
7.根据前述权利要求中任意一项所述的音频解码器，其中所述时域解码器(12)及所述频域解码器是基于线性预测的解码器，其被配置成针对来自所述数据流的每个帧获得线性预测滤波器系数，其中所述时域解码器(12)被配置成通过针对与所述多个帧编码模式中的一个或多个的所述第一子集中的一个相关联的所述帧将取决于所述LPC滤波器系数的LP合成滤波器施加至与所述多个帧编码模式中的一个或多个的所述第一子集中的一个相关联的所述帧中的使用码簿指数构建的激励信号，而重建与所述帧编码模式中的一个或多个的所述第一子集中的一个相关联的所述帧所对应的所述音频信号(26)的所述部分，并且所述频域解码器(14)被配置成通过针对与所述第二子集中的一个相关联的所述帧根据所述LPC滤波器系数对与所述第二子集中的一个相关联的所述帧中由变换系数等级所限定的激励频谱进行整形，并且对整形后的激励频谱进行重新变换来重建与所述帧编码模式中的一个或多个的所述第二子集中的一个相关联的所述帧所对应的所述音频信号的部分。
8.一种音频编码器，包括: 时域编码器(104)；频域编码器(106);及关联器(102)，被配置成将音频信号(112)的连续的部分(116a-c)中的每一个与多个(22)帧编码模式的模式相关集合中的一个相关联，其中所述时域编码器(104)被配置成将与所述多个(22)帧编码模式中的一个或多个的第一子集中的一个相关联的部分编码成数据流(114)的对应帧(118a-c)，并且其中所述频域编码器(106 )被配置成将与所述多个编码模式中的一个或多个的第二子集中的一个相关联的部分编码成所述数据流的对应帧，其中所述关联器(102)被配置成在多个操作模式中的活动的模式中进行操作，使得如果所述活动的操作模式为第一操作模式，则所述多个帧编码模式的所述模式相关集合(40)与所述第一子集(30)不相交而与所述第二子集(32)重叠，以及如果所述活动的操作模式为第二操作模式，则所述多个编码模式的所述模式相关集合与所述第一子集(30)及所述第二子集(32)重叠。
9.根据权利要求8所述的音频编码器，其中所述关联器(102)被配置成将帧模式语法元素(122)编码成所述数据流(114)，以便针对每个部分指示各个部分与所述多个帧编码模式中的哪个帧编码模式相关联。
10.根据权利要求9所述的音频编码器，其中所述关联器(102)被配置成使用一方面与各个部分相关联的所述帧模式语法元素的可能值的集合与另一方面所述帧编码模式的所述模式相关集合之间的双射映射而将所述帧模式语法元素(122)编码成所述数据流(114)，所述双射映射(52)取决于所述活动的操作模式而改变。
11.根据权利要求9所述的音频编码器，其中所述关联器(102)被配置成使得如果所述活动的操作模式为所述第一操作模式，则所述多个帧编码模式的所述模式相关集合与所述第一子集(30)不相交而与所述第二子集(32)重叠，以及如果所述活动的操作模式为第二操作模式，则所述多个帧编码模式的所述模式相关集合与所述第一子集及所述第二子集重叠。
12.根据权利要求11所述的音频解码器，其中在所述可能值的集合中的可能值的数目是2，并且所述关联器(102)被配置成使得如果所述活动的操作模式为所述第一操作模式，则所述模式相关集合包括一个或多个帧编码模式的所述第二子集的第一和第二帧编码模式，并且所述频域编码器被配置在对与所述第一帧编码模式和所述第二帧编码模式相关联的帧进行解码时使用不同的时频分辨率。
13.根据权利要求8至12中任意一项所述的音频编码器，其中所述时域编码器是代码激励线性预测编码器。
14.根据权利要求8至13中任意一项所述的音频编码器，其中所述频域编码器是变换编码器，所述变换解码器被配置成使用变换系数等级将与所述帧编码模式中的一个或多个的所述第二子集中的一个相关联的部分进行编码，并且将所述部分编码成所述数据流的对应的帧。
15.根据权利要求8至14中任意一项所述的音频编码器，其中所述时域解码器及所述频域解码器是基于线性预测的编码器，其被配置成针对所述音频信号(112)的各部分传送LPC滤波器系数，其中所述时域编码器(104)被配置成将取决于所述LPC滤波器系数的LP分析滤波器施加至与所述帧编码模式中的一个或多个的所述第一子集中的一个相关联的所述音频信号(112)的所述部分以获得激励信号(150)，并且通过使用码簿指数来近似所述激励信号及将其插入所述对应的帧；其中所述频域编码器(106)被配置成对与所述帧编码模式中的一个或多个的所述第二子集中的一个相关联的所述音频信号的部分进行变换以获得频谱，及针对与所述第二子集中的一个相关联的部分根据所述LPC滤波器系数对所述频谱进行整形，以获得激励频谱，将所述激励频谱量化为与所述第二子集中的一个相关联的所述帧中的变换系数等级，并将所述量化激励频谱插入所述对应的帧内。
16.一种使用时域解码器(12)和频域解码器(14)的音频解码方法，所述方法包括: 将数据流(20)的连续帧(18a-c)中的每个与多个(22)帧编码模式的模式相关集合中的一个相关联，所述帧中的每个代表音频信号的连续部分(24a-24c)中对应的一个，通过所述时域解码器(12)对与所述多个(22)帧编码模式中的一个或多个的第一子集(30)中的一个相关联的帧(18a-C)进行解码，通过所述频域解码器(14)对与所述多个(22)帧编码模式中的一个或多个的第二子集(32)中的一个相关联的帧(18a-C)进行解码，所述第一子集和所述第二子集彼此不相交；其中所述关联取决于与所述数据流(20)中的所述帧(18a-C)相关联的帧模式语法元素(38)，并且其中所述关联是通过根据所述数据流和/或外部控制信号从所述多个操作模式中选出所述活动的操作模式而在多个操作模式中的活动的操作模式中执行，使得所述关联的性能的依赖性取决于所述活动的操作模式而改变。
17.一种使用时域编码器(104)及频域编码器(106)的音频编码方法，所述方法包括: 将音频信号(112)的连续部分(116a-c)中的每个与多个(22)帧编码模式的模式相关集合中的一个相关联，通过所述时域编码器(104)对与所述多个(22)帧编码模式中的一个或多个的第一子集中(30)的一个相关联的部分编码成数据流(114)的对应的帧(118a-c)，通过所述频域编码器(106)对与所述多个编码模式中的一个或多个第二子集(32)中的一个相关联的部分编码成所述数据流的对应的帧，其中所述关联在多个操作模式中的活动的模式中执行，使得如果所述活动的操作模式为第一操作模式，则所述多个帧编码模式的所述模式相关集合与所述第一子集(30)不相交而与所述第二子集(32)重叠，以及如果所述活动的操作模式为第二操作模式，则所述多个编码模式的所述模式相关集合与所述第一子集和所述第二子集重叠。
18.一种具有程序代码的计算机程序，当所述计算机程序在计算机上运行时，所述程序代码用于执行根据权利要求16或17所述的方法。
【文档编号】G10L19/012GK103548078SQ201280018224
【公开日】2014年1月29日申请日期:2012年2月14日优先权日:2011年2月14日
【发明者】拉尔夫·热日尔, 康斯坦丁·施密特, 伯恩哈德·格里尔, 曼弗雷德·卢茨基, 米夏埃尔·维尔纳, 马克·盖尔, 约翰内斯·希尔珀特, 玛丽亚·路易斯瓦莱罗, 沃尔夫冈·耶格斯申请人:弗兰霍菲尔运输应用研究公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：拉尔夫·热日尔;康斯坦丁·施密特;伯恩哈德·格里尔;曼弗雷德·卢茨基;米夏埃尔·维尔纳;马克·盖尔;约翰内斯·希尔珀特;玛丽亚·路易斯瓦莱罗;沃尔夫冈·耶格斯
技术所有人：弗兰霍菲尔运输应用研究公司
我是此专利的发明人