高频带编码方法和装置,以及高频带解码方法和装置与流程

文档序号:12288480阅读:198来源:国知局
高频带编码方法和装置,以及高频带解码方法和装置与流程
一个或多个示例性实施方式涉及音频编码和解码,更具体地,涉及针对带宽扩展(BWE)的高频带编码的方法和装置以及高频带解码的方法和装置。
背景技术
:G.719中的编码方案已经被开发并且被标准化以用于视频会议。根据该方案,通过修正离散余弦变换(MDCT)执行频域变换以直接对固定帧的MDCT频谱编码,并且改变非固定帧的时域混叠顺序以考虑时间特性。通过执行交织以构建与固定帧具有相同的框架的编解码器,可以以与固定帧相似的形式来构建对于非固定帧获得的频谱。所构建的频谱的能量被获得、归一化并量化。一般来说,能量被用均方根(RMS)值表示,并且通过基于能量的比特分配从归一化频谱获得每个频带所需的比特,并且通过基于与每个频带的比特分配有关的信息的量化和无损编码生成比特流。根据G.719中的解码方案,在编码方案的逆过程中,通过对来自比特流的能量进行去量化,基于去量化的能量生成比特分配信息,以及基于比特分配信息对频谱进行去量化来生成归一化的去量化频谱。当比特不足时,去量化的频谱可能不存在于特定频带中。为了生成用于特定频带的噪声,采用用于基于去量化的低频频谱生成噪声码本并根据所发送的噪声水平生成噪声的噪声填充方法。对于特定频率或更高频率的频带,采用通过折叠低频信号来生成高频信号的带宽扩展方案。技术实现要素:技术问题一个或多个示例性实施方式提供了针对带宽扩展(BWE)的高频带编码的方法和装置以及高频带解码的方法和装置,并且提供了采用该方法和装置的多媒体设备,其中,该方法和装置可以改善重构信号的声音质量。技术方案根据一个或多个示例性实施方式,高频带编码方法包括:基于全频带的包络,为每一个子频带生成比特分配信息;基于每一个子频带的比特分配信息,确定高频带中需要更新包络的子频带;以及生成与更新所确定的子频带的包络有关的细化数据。根据一个或多个示例性实施方式,高频带编码装置包括至少一个处理器,其被配置为:基于全频带的包络,为每一个子频带生成比特分配信息;基于每一个子频带的比特分配信息,确定高频带中需要更新包络的子频带;以及生成与更新所确定的子频带的包络有关的细化数据。根据一个或多个示例性实施方式,高频带解码方法包括:基于全频带的包络,为每一个子频带生成比特分配信息;基于每一个子频带的比特分配信息,确定高频带中需要更新包络的子频带;以及通过解码与更新所确定的子频带的包络有关的细化数据来更新包络。根据一个或多个示例性实施方式,高频带解码装置包括至少一个处理器,其被配置为:基于全频带的包络,为每一个子频带生成比特分配信息;基于每一个子频带的比特分配信息,确定高频带中需要更新包络的子频带;以及通过解码与更新所确定的子频带的包络有关的细化数据来更新包络。技术效果根据一个或多个示例性实施方式,对于包括高频带中的重要频谱信息的至少一个子频带,对应于其范数(norm)的信息被表征,从而改善了重构信号的声音质量。附图说明通过结合附图对示例性实施方式的以下描述,这些和/或其它方面将变得清楚和更容易理解,在附图中:图1示出了根据示例性实施方式的低频带中的子频带和高频带中的子频带的相应配置。图2a-2c示出了根据示例性实施方式,根据所选择的编码方案,区域R0和区域R1分别分为R4和R5以及R2和R3。图3示出了根据示例性实施方式的高频带中的子频带的配置。图4示出了根据示例性实施方式的高频带编码方法的概念。图5是根据示例性实施方式的音频编码装置的框图。图6是根据示例性实施方式的带宽扩展(BWE)参数生成单元的框图。图7是根据示例性实施方式的高频编码装置的框图。图8是根据示例性实施方式的图7中的包络细化单元的框图。图9是根据示例性实施方式的图5中的低频编码装置的框图。图10是根据示例性实施方式的音频解码装置的框图。图11是根据示例性实施方式的高频解码单元中的元件的一部分。图12是根据示例性实施方式的图11中的包络细化单元的框图。图13是根据示例性实施方式的图10中的低频解码装置的框图。图14根据示例性实施方式的图10中的组合单元的框图。图15是根据示例性实施方式的包括编码模块的多媒体设备的框图。图16是根据示例性实施方式的包括解码模块的多媒体设备的框图。图17根据示例性实施方式的包括编码模块和解码模块的多媒体设备的框图。图18是根据示例性实施方式的音频编码方法的流程图。图19是根据示例性实施方式的音频解码方法的流程图。具体实施方式本发明构思可以允许形式上的各种改变或修改,并且具体的示例性实施方式将在附图中示出并且在说明书中详细描述。然而,这不旨在将本发明构思限制为特定的实践模式,并且应当理解,本发明构思包括不脱离本发明构思的技术精神和技术范围的所有改变、等同物和替代物。在本说明书中,当认为相关技术的某些详细解释可能不必要地模糊本发明的本质时,将省略这些解释。尽管包括序数的术语,例如“第一(first)”、“第二(second)”等可以用于描述各种部件,但是这些部件不受这些术语的限制。术语第一和第二不应当用于附加任何重要性顺序,而是用于将一个元件与另一元件区分开。在说明书中使用的术语仅用于描述特定实施方式,并且不旨在限制本发明的范围。尽管在本说明书中广泛使用的一般术语是考虑到其功能被选择来描述本公开,但是这些一般术语可以根据本领域普通技术人员的意图、案例先例、新技术的出现等而变化。本发明的申请人任意选择的术语也可以用于特定情况。在这种情况下,它们的含义需要在本发明的详细描述中给出。因此,术语必须基于它们的含义和整个说明书的内容来定义,而不是简单地陈述术语。以单数形式使用的表述包括复数形式的表述,除非它在上下文中具有明显不同的含义。在说明书中,应当理解例如“包括有(including)”、“具有(having)”和“包含有(comprising)”的术语旨在表明在本文中公开的特征、数字、步骤、动作、部件、部分或其组合的存在,而不旨在排除一个或多个其它特征、数字、步骤、动作、部件、部分或其组合可能存在或可能被添加的可能性。现将在下文中参考附图更全面地描述一个或多个示例性实施方式。在附图中,相同的附图标记表示相同的元件,并且不再给出其重复说明。图1示出了根据示例性实施方式的低频带中的子频带和高频带中的子频带的相应配置。根据实施方式,采样率是32KHz,并且640个修正离散余弦变换(MDCT)频谱系数可以由22个频带形成,更具体地,由低频带的17个频带和高频带的5个频带形成。例如,高频带的开始频率是第241频谱系数,并且第0至第240频谱系数可以被定义为R0,即,将以低频编码方案(即,核心编码方案)编码的区域。此外,第241至第639频谱系数可以被定义为R1,即,执行带宽扩展(BWE)的高频带。在区域R1中,还可以存在根据比特分配信息以低频编码方案编码的频带。图2a-2c示出了根据所选择的编码方案,图1的区域R0和区域R1分别分为R4和R5以及R2和R3。作为BWE区域的区域R1可以被划分为R2和R3,并且作为低频编码区域的区域R0可以被划分为R4和R5。R2表示包含将以低频编码方案(例如频域编码方案)被量化和无损编码的信号的频带,而R3表示不存在以低频编码方案编码的信号的频带。然而,即使当确定R2是分配了比特并且以低频编码方案编码的频带时,当比特不足时,R2可以以与R3相同的方式生成频带。R5表示通过分配的比特执行低频编码方案的频带,而R4表示由于没有额外比特甚至不能对低频信号进行编码或者由于较少的分配比特而应该添加噪声的频带。因此,可以通过确定是否添加噪声来识别R4和R5,其中,该确定可以通过低频编码频带中的频谱的数量的百分比来执行,或者可以在使用阶乘脉冲编码(FPC)时基于带内脉冲分配信息来执行。由于当在解码处理中向频带添加噪声时可以识别频带R4和频带R5,所以在编码处理中可能不能清楚地识别频带R4和频带R5。频带R2至频带R5可以具有相互不同的待编码的信息,并且不同的解码方案可以应用于频带R2至频带R5。在图2a所示的图中,在低频编码区域R0中包含第170至第240频谱系数的两个频带是添加了噪声的R4,并且在BWE区域R1中包含第241到至第350频谱系数的两个频带和包含第427至第639频谱系数的两个频带是将以低频编码方案进行编码的R2。在图2b所示的图中,在低频编码区域R0中包含第202至第240频谱系数的一个频带是添加了噪声的R4,并且在BWE区域R1中包含第241到至第639频谱系数的所有五个频带是将以低频编码方案进行编码的R2。在图2c所示的图中,在低频编码区域R0中包含第144至第240频谱系数的三个频带是添加了噪声的R4,并且在BWE区域R1中不存在R2。一般来说,在低频编码区域R0中的R4可以分布在高频率频带中,并且在BWE区域R1中的R2可以不限于特定频带。图3示出了根据实施方式的宽带(WB)中的高频带的子频带。采样率是32KHz,并且640个MDCT频谱系数中的高频带可以由14个频带形成。四个频谱系数可以包括在100Hz的频带中,并且因此400Hz的第一频带可以包括16个频谱系数。附图标记310表示的高频带的子频带配置,而附图标记330表示的高频带的子频带配置。根据实施方式,当对全频带的频谱进行编码时,低频带的比例因子和高频带的比例因子可以彼此不同地表示。比例因子可以由能量,包络,平均功率或范数等表示。例如,从全频带中,为了简洁地表示低频带,可以获得低频带的范数或包络然后进行标量量化和无损编码,并且为了有效地表示高频带,可以获得高频带的范数或包络然后进行矢量量化。对于其中包括重要频谱信息的子频带,可以使用低频编码方案来表示与其范数对应的信息。此外,对于在高频带中通过使用低频编码方案编码的子频带,可以经由比特流发送用于补偿高频率频带的范数的细化数据。因此,可以精确地表示高频带中的有意义的频谱分量,从而改善重构信号的声音质量。图4示出了根据示例性实施方式的表示全频带的比例因子的方法。参考图4,低频带410可以由范数表示而高频带430可以由包络和必要情况下的范数之间的差值(delta)来表示。低频带410的范数可以是标量量化的并且高频带430的包络可以是矢量量化的。对于其中包括重要频谱信息的子频带450,可以表示范数之间的差值。对于低频带,可以基于全频带的频带划分信息Bfb来构建子频带,而对于高频带,可以基于高频带的频带划分信息Bhb来构建子频带。全频带的频带划分信息Bfb和高频带的频带划分信息Bhb可以相同或可以彼此不同。当全频带的频带划分信息Bfb不同于高频带的频带划分信息Bhb时,可以通过映射处理来表示高频带的范数。表1表示根据全频带的频带划分信息Bfb的低频带的子频带配置的示例。对于所有比特率,全频带的频带划分信息Bfb可以是相同的。在表中,p表示子频带指数,Lp表示子频带中的频谱系数的数量,sp表示子频带的开始频率指数,以及ep表示子频带的结束频率指数。p0123456789101112131415Lp8888888888888888sp081624324048566472808896104112120ep71523323947556371798795103111119127p1617181920212223Lp1616161616161616sp128144160176192208224240ep143159175191207223239255p242526272829303132333435Lp242424242424242424242424sp256280304328352376400424448472496520ep279303327351375399423447471495519543p3637383940414243Lp3232323232323232sp544576608640672704736768ep574607639671703735767799表1对于如表1所示构建的每个子频带,可以通过使用方程1来计算范数或频谱能量。方程1这里,y(k)表示通过时间-频率变换获得的频谱系数,例如修正离散余弦变换(MDCT)频谱系数。还可以以与范数相同的方式获得包络。对于取决于频带配置的子频带获得的范数可以被定义为包络。范数和包络可以用作等效项。低频带的范数或低频率频带的范数可以被标量量化然后被无损编码。范数的标量量化可以通过下面的表2来执行。指数码指数码指数码指数码0217.010212.02027.03022.01216.511211.52126.53121.52216.012211.02226.03221.03215.513210.52325.53320.54215.014210.02425.03420.05214.51529.52524.5352-0.56214.01629.02624.0362-1.07213.51728.52723.5372-1.58213.01828.02823.0382-2.09212.51927.52922.5392-2.5表2高频带的包络可以被矢量量化。量化的包络可以被定义为Eq(p)。表3和表4分别表示在比特率为24.4kbps和比特率为32kbps的情况下的高频带的频带配置。p012345678910111213141516Lp1624162416241624242424243232404080sp320336360376400416440456480504528552576608640680720ep335359375399415439455479503527551575607639679719799表3p01234567891011121314Lp162416241624162424242424404080sp384400424440464480504520544568592616640680620ep399423439463479503519543567591615639679719799表4图5是根据示例性实施方式的音频编码装置的框图。图5的音频编码装置可以包括BWE参数生成单元510、低频率编码单元530、高频率编码单元550以及多路复用单元570。这些部件可以集成到至少一个模块中并且由至少一个处理器(未示出)实施。输入信号可以表示音乐,语音或音乐和语音的混合信号,并且可以主要分为语音信号和另一个一般信号。在下文中,为了便于描述,将输入信号称为音频信号。参考图5,BWE参数生成单元510可以生成用于带宽扩展的BWE参数。BWE参数可以对应于激励类别。根据实施方案,BWE参数可以包括激励类别和其它参数。BWE参数生成单元510可以基于信号特性以帧为单位生成激励类别。具体地,BWE参数生成单元510可以确定输入信号是具有语音特性还是音调特性,并且可以基于所确定的结果从多个激励类别中确定一个。多个激励类别可以包括与语音相关的激励类别,与音调音乐相关的激励类别,以及与非音调音乐相关的激励类别。所确定的激励类别可以包括在比特流中并被发送。低频率编码单元530可以对低频带信号进行编码以生成编码频谱系数。低频率编码单元530还可以对与低频带信号的能量相关的信息进行编码。根据实施方式,低频率编码单元530可以将低频带信号变换为频域信号以生成低频率频谱,并且可以对低频率频谱进行量化以生成量化频谱系数。MDCT可以用于域变换,但是实施方式不限于此。金字塔矢量量化(PVQ)可以用于量化,但是实施方式不限于此。高频率编码单元550可以对高频带信号进行编码以生成解码器端中的带宽扩展或比特分配必需的参数。带宽扩展必需的参数可以包括与高频带信号的能量相关的信息和附加信息。能量可以表示为每个频带的包络、比例因子、平均功率、或范数。附加信息可以对应于与包括高频带中的重要频谱分量的频带相关的信息,并且可以是与包括在高频带的特定频带中的频谱分量相关的信息。高频率编码单元550可以通过将高频带信号变换为频域信号来生成高频率频谱,并且可以对与高频率频谱的能量相关的信息进行量化。MDCT可以用于域变换,但是实施方式不限于此。矢量量化可以用于量化,但是实施方式不限于此。多路复用单元570可以生成包括BWE参数(即,激励类别)、带宽扩展必需的参数和低频带的量化频谱系数的比特流。可以发送和存储比特流。带宽扩展必需的参数可以包括高频带的包络的量化指数和高频带的细化数据。频域中的BWE方案可以通过与时域编码部分组合来应用。码激励线性预测(CELP)方案可以主要用于时域编码,并且时域编码可以被实施为以CELP方案对低频率频带进行编码,并且可以与时域中的BWE方案而不是频域中的BWE方案组合。在这种情况下,基于时域编码和频域编码之间的自适应编码方案的确定,编码方案可以选择性地应用于整个编码。为了选择适当的编码方案,需要信号分类,并且根据实施方式,可以通过优选地使用信号分类的结果为每个帧确定激励类别。图6是根据实施方式的图5的BWE参数生成单元510的框图。BWE参数生成单元510可以包括信号分类单元610和激励类别生成单元630。参考图6,信号分类单元610可以通过以帧为单位分析输入信号的特性来分类当前帧是否是语音信号,并且可以根据分类的结果确定激励类别。可以使用各种公知的方法来执行信号分类,例如通过使用短期特性和/或长期特性。短期特性和/或长期特性可以是频域特性和/或时域特性。当当前帧被分类为时域编码是适当编码方案的语音信号时,分配固定类型激励类别的方法可能比基于高频带信号的特性的方法更有助于改善声音质量。可以在当前帧上执行信号分类而不考虑前一帧的分类结果。换句话说,即使当考虑到拖尾的当前帧最终可能被分类为适于频域编码的情况时,可以在当前帧自身被分类为适于时域编码的情况下分配固定激励类别。例如,当当前帧被分类为适于时域编码的语音信号时,激励类别可以被设置为与语音特性相关的第一激励类别。当作为信号分类单元610的分类结果,当前帧没有被分类为语音信号时,激励类别生成单元630可以通过使用至少一个阈值来确定激励类别。根据实施方式,当作为信号分类单元610的分类结果,当前帧没有被分类为语音信号时,激励类别生成单元630可以通过计算高频带的音调值并且将所计算的音调值与阈值进行比较来确定激励类别。可以根据激励类别的数量使用多个阈值。当使用单个阈值并且所计算的音调值大于阈值时,当前帧可以被分类为音调音乐信号。另一方面,当使用单个阈值并且所计算的音调值小于阈值时,当前帧可以被分类为非音调音乐信号,例如噪声信号。当当前帧被分类为音调音乐信号时,激励类别可以被确定为与音调特性相关的第二激励类别。另一方面,当当前帧被分类为噪信号时,激励类别可以被确定为与非音调特性相关的第三激励类别。图7是根据示例性实施方式的高频带编码装置的框图。图7的高频带编码装置可以包括第一包络量化单元710、第二包络量化单元730和包络细化单元750。这些部件可以集成到至少一个模块中并且由至少一个处理器(未示出)实施。参考图7,第一包络量化单元710可以量化低频带的包络。根据实施方式,可以对低频带的包络进行矢量量化。第二包络量化单元730可以量化高频带的包络。根据实施方式,可以对高频带的包络进行矢量量化。根据实施方式,可以在高频带的包络上执行能量控制。具体地,可以从原始频谱生成的高频带频谱的音调与原始频谱的音调之间的差异获得能量控制因子,可以基于能量控制因子在高频带的包络上执行能量控制,并且被执行能量控制的高频带的包络可以被量化。作为量化的结果,高频带的包络的量化指数可以包括在比特流中或被存储。包络细化单元750可以基于从低频带包络和高频带包络获得的全频带包络,为每一个子频带生成比特分配信息,基于每一个子频带的比特分配信息,确定高频带中需要更新包络的子频带,以及生成与更新所确定的子频带的包络有关的细化数据。全频带包络可以通过将高频带包络的频带配置映射到低频带的频带配置并且将映射的高频带包络与低频带包络组合来获得。包络细化单元750可以将在高频带中分配有比特的子频带确定为被执行包络更新并且细化数据被发送的子频带。包络细化单元750可以基于用于表示所确定的子频带的细化数据的比特来更新比特分配信息。更新的比特分配信息可以用于频谱编码。细化数据可以包括必需的比特、最小值和范数的差值。图8示出了根据示例性实施方式的图7的包络细化单元750的详细框图。图8的包络细化单元730可以包括映射单元810,组合单元820,第一比特分配单元830,差值编码单元840,包络更新单元850和第二比特分配单元860。这些部件可以集成到至少一个模块中并且由至少一个处理器(未示出)实施。参考图8,映射单元810可以将高频带包络映射到与全频带的频带划分信息相对应的频带配置中,以进行频率匹配。根据实施方式,从第二包络量化单元730提供的量化的高频带包络可以被去量化,并且可以从去量化的包络获得映射的高频带包络。为了方便说明,将去量化的高频带包络表示为E'q(p),并且将映射的高频带包络表示为NM(p)。当全频带的频带配置与高频带的频带配置相同时,可以对高频带的量化包络Eq(p)按原样标量量化。当全频带的频带配置与高频带的频带配置不同时,需要将高频带的量化包络Eq(p)映射到全频带的频带配置,即,低频带的频带配置。这可以基于包括在低频带的子频带中的高频带的每个子频带中的频谱系数的数量来执行。当全频带的频带配置和高频带的频带配置之间存在一些重叠时,可以基于重叠频带来设置低频率编码方案。作为示例,可以执行以下映射处理。NM(30)=E'q(1)NM(31)={E'q(2)*2+E'q(3)}/3NM(32)={E'q(3)*2+E'q(4)}/3NM(33)={E'q(4)+E'q(5)*2}/3NM(34)={E'q(5)+E'q(6)*2}/3NM(35)=E'q(7)NM(36)={E'q(8)*3+E'q(9)}/4NM(37)={E'q(9)*3+E'q(10)}/4NM(38)={E'q(10)+E'q(11)*3}/4NM(39)=E'q(12)NM(40)={E'q(12)+E'q(13)*3}/4NM(41)={E'q(13)+E'q(14)}/2NM(42)=E'q(14)NM(43)=E'q(14)可以获得低频带包络直到低频率和高频率之间存在重叠的子频带,即p=29。可以获得高频带的映射包络直到子频带作为示例,参考表1和表4,结束频率指数为639的情况意味着直到超宽频带(32K采样率)的频带分配,并且结束频率指数为799的情况意味着直到全频带(48K采样率)的频带分配。如上所述,高频带的映射包络NM(p)可以被再次量化。为此,可以使用标量量化。组合单元820可以组合量化的低频带包络Nq(p)与映射的量化的高频带包络NM(p)以获得全频带包络Nq(p)。第一比特分配单元830可以基于全频带包络Nq(p),以子频带为单位执行用于频谱量化的初始比特分配。在初始比特分配中,基于从全频带包络获得的范数,可以将更多比特分配给具有更大范数的子频带。基于初始比特分配信息,可以确定对于当前帧是否需要包络细化。如果存在具有高频带中分配的比特的任何子频带,则需要进行差值编码以细化高频率包络。换句话说,如果在高频带中存在任何重要的频谱分量,则可以执行细化以提供更精细的频谱包络。在高频带中,分配有比特的子频带可以被确定为需要包络更新的子频带。如果在初始比特分配期间没有给高频带中的子频带分配比特,则可不需要包络细化并且初始比特分配可以用于低频带的频谱编码和/或包络编码。根据从第一比特分配单元830获得的初始比特分配,可以确定差值编码单元840、包络更新单元850和第二比特分配单元860是否工作。第一比特分配单元830可以执行分数比特分配。差值编码单元840可针对需要包络更新的子频带获得差值,即来自原始频谱的映射包络NM(p)和量化包络Nq(p)之间的差,然后进行编码。差值可以表示为方程2。方程2D(p)=Nq(p)-NM(p)差值编码单元840可以通过检查差值的最小值和最大值来计算信息传输必需的比特。例如,当最大值大于3并且小于7时,必需比特可以被确定为4比特,并且可以发送从-8至7的差值。也就是说,最小值min可以被设置为-2(B-1),最大值max可以被设置为2(B-1)-1,并且B表示必需的比特。因为当表示必需的比特时存在一些约束,所以当在超过一些约束的同时表示必需的比特时,可以限制最小值和最大值。如方程3所示,可以通过使用限制的最小值min1和限制的最大值max1来重新计算差值。方程3Dq(p)=Max(Min(D(p),maxl),minl)差值编码单元840可以生成范数更新信息,即细化数据。根据实施方式,必需的比特可以由2比特表示,并且差值可以包括在比特流中。因为必需的比特可以由2比特表示,所以可以表示4种情况。必需的比特可以由2至5比特表示,并且也可以使用0、1、2和3。通过使用最小值min,可以通过Dt(p)=Dq(p)-min来计算待发送的差值。细化数据可以包括必需的比特、最小值和差值。包络更新单元850可以通过使用差值来更新包络,即范数。方程4Nq(p)=NM(p)+Dq(p)第二比特分配单元860可以更新与用于表示待发送的差值的比特一样多的比特分配信息。根据实施方式,为了在编码差值中提供足够的比特,同时在初始比特分配期间将频带从低频率改变到高频率或从高频率改变到低频率,当比特定比特多的比特分配给子频带时,则其分配减少一个比特,直到已经考虑了差值所需的所有比特。更新的比特分配信息可以用于频谱量化。图9示出了图5的低频率编码装置的框图并且可以包括量化单元910。参考图9,量化单元910可以基于从第一比特分配单元830或第二比特分配单元860提供的比特分配信息来执行频谱量化。根据实施方式,可以将金字塔矢量量化(PVQ)用于量化,但是实施方式不限于此。量化单元910可基于更新的包络(即更新的范数)来执行归一化,并且对归一化的频谱执行量化。在频谱量化期间,可以计算解码端中的噪声填充所需的噪声水平,然后对其进行编码。图10示出了根据实施方式的音频解码装置的框图。图10的音频解码装置可以包括多路分解单元1010、BWE参数解码单元1030、高频率解码单元1050、低频率解码单元1070和组合单元1090。虽然图10中没有示出,但是音频解码装置还可以包括逆变换单元。这些部件可以集成到至少一个模块中并且由至少一个处理器(未示出)实施。输入信号可以表示音乐、语音或音乐和语音的混合信号,并且可以主要分为语音信号和另一个一般信号。在下文中,为了便于描述,将输入信号称为音频信号。参考图10,多路分解单元1010可以解析接收的比特流以生成解码必需的参数。BWE参数解码单元1030可以解码包括在比特流中的BWE参数。BWE参数可以对应于激励类别。根据另一实施方式,BWE参数可以包括激励类别和其它参数。高频率解码单元1050可以通过使用解码的低频率频谱和激励类别来生成高频率激励频谱。根据另一实施方式,高频率解码单元1050可以对包括在比特流中的带宽扩展或比特分配所需的参数进行解码,并且可以将带宽扩展或比特分配必需的参数以及与解码的低频带信号的能量相关的解码信息应用到高频率激励频谱。带宽扩展必需的参数可以包括与高频带信号的能量相关的信息和附加信息。附加信息可以对应于与包括高频带中的重要频谱分量的频带相关的信息,并且可以是与包括在高频带的特定频带中的频谱分量相关的信息。可以对与高频带信号的能量相关的信息进行矢量去量化。低频率解码单元1070可以通过解码低频带的编码频谱系数来生成低频率频谱。低频率解码单元1070还可以解码与低频带信号的能量相关的信息。组合单元1090可以将从低频率解码单元1070提供的频谱与从高频率解码单元1050提供的频谱组合。逆变换单元(未示出)可以将从频谱组合获得的组合频谱逆变换成时域信号。逆MDCT(IMDCT)可以用于域逆变换,但是实施方式不限于此。图11是根据实施方式的高频率解码单元1050的部分配置的框图。图11的高频率解码单元1050可以包括第一包络去量化单元1110,第二包络去量化单元1130和包络细化单元1150。这些部件可以集成到至少一个模块中以实现至少一个处理器(未示出)。参考图11,第一包络去量化单元1110可以对低频带包络进行去量化。根据实施方式,低频带包络可以被矢量去量化。第二包络去量化单元1130可以对高频带包络进行去量化。根据实施方式,高频带包络可以被矢量去量化。包络细化单元1150可以基于从低频带包络和高频带包络获得的全频带包络为每一个子频带生成比特分配信息,基于每一个子频带的比特分配信息确定高频带中需要包络更新的子频带,解码与所确定的子频带包络更新相关的细化数据,并且更新包络。在这点上,全频带包络可以通过将高频带包络的频带配置映射到低频带的频带配置并且将映射的高频带包络与低频带包络组合来获得。包络细化单元1150可以将在高频带中分配有比特的子频带确定为需要包络更新并且细化数据被解码的子频带。包络细化单元1150可以基于用于表达所确定的子频带的细化数据的比特数来更新比特分配信息。更新的比特分配信息可以用于频谱解码。细化数据可以包括必需的比特、最小值和范数的差值。图12是根据实施方式的图11的包络细化单元1150的框图。图12的包络细化单元1150可以包括映射单元1210、组合单元1220、第一比特分配单元1230、差值解码单元1240、包络更新单元1250和第二比特分配单元1260。这些部件可以集成到至少一个模块中并且由至少一个处理器(未示出)实施。参考图12,映射单元1210可以将高频带包络映射到与全频带的频带划分信息相对应的频带配置中,以进行频率匹配。映射单元1210可以以与图8的映射单元810相同的方式工作。组合单元1220可以组合去量化的低频带包络Nq(p)与映射的去量化的高频带包络NM(p)以获得全频带包络Nq(p)。组合单元1220可以以与图8的组合单元820相同的方式工作。第一比特分配单元1230可以基于全频带包络Nq(p),以子频带为单位执行用于频谱去量化的初始比特分配。第一比特分配单元1230可以以与图8的第一比特分配单元830相同的方式工作。差值解码单元1240可以基于比特分配信息来确定是否需要包络更新,并且确定需要进行包络更新的子频带。对于所确定的子频带,可以对更新信息(即从编码端发送的细化数据)进行解码。根据实施方式,可以从表示为Delta(0),Delta(1)等的细化数据提取必需的比特(2比特),并随后可以计算最小值以提取差值Dq(p)。因为2比特被用于必需的比特,所以可以表示4种情况。因为可以分别使用0、1、2和3来表示高达2到5个比特,所以例如0比特、2比特或者3比特、5比特可设置为必需的比特。根据必需的比特,可以计算最小值min,并随后可以基于最小值通过Dq(p)=Dt(p)+min提取Dq(p)。包络更新单元1250可以基于所提取的差值Dq(p)来更新包络,即范数。包络更新单元1250可以以与图8的包络更新单元850相同的方式工作。第二比特分配单元1260可以再次获得与用于表示提取的差值的比特一样多的比特分配信息。第二比特分配单元1260可以以与图8的第二比特分配单元860相同的方式工作。通过第二比特分配单元1260获得的更新的包络和最终比特分配信息可以被提供至低频率解码单元1070。图13是图10的低频率解码装置的框图并且可以包括去量化单元1310和噪声填充单元1350。参考图13,去量化单元1310可以基于比特分配信息对包括在比特流中的频谱量化指数进行去量化。因此,可以生成低频带频谱和高频带中的部分重要频谱。噪声填充单元1350可以对去量化的频谱执行噪声填充处理。可以在低频带上执行噪声填充处理。可以在去量化频谱中对被去量化为全零的子频带或者分配了小于预定值的平均比特的子频带上执行噪声填充处理。可以将噪声填充频谱提供给图10的组合单元1090。此外,可以基于更新的包络对填充噪声的频谱执行去归一化处理。还可以对由噪声填充单元1330生成的频谱执行反稀疏处理,并且可以基于激励类别来调整反稀疏处理频谱的振幅,以便然后生成高频率频谱。在反稀疏处理中,具有随机符号和特定振幅值的信号可以插入到在噪声填充频谱内保持为零的系数部分中。图14是图10的组合单元1090的框图并且可以包括频谱组合单元1410。参考图14,频谱组合单元1410可以将解码的低频带频谱和生成的高频带频谱进行组合。低频带频谱可以是噪声填充频谱。可以通过使用基于激励类别通过调整动态范围或解码的低频带频谱的振幅而获得的修正的低频带频谱生成高频带频谱。例如,可以通过将修正的低频率频谱修补(例如,移调,复制,镜像或折叠)到高频带来生成高频带频谱。频谱组合单元1410可以基于从包络细化单元110提供的比特分配信息来选择性地组合解码的低频带频谱和生成的高频带频谱。比特分配信息可以是初始比特分配信息或最终比特分配信息。根据实施方式,当比特被分配给位于低频带和高频带的边界处的子频带时,可以基于噪声填充频谱来执行组合,而当比特未被分配给位于低频带和高频带的边界处的子频带时,可以对噪声填充频谱和生成的高频带频谱执行重叠和相加处理。频谱组合单元1410可以在具有比特分配的子频带的情况下使用噪声填充频谱,并且可以在没有比特分配的子频带的情况下使用所生成的高频带频谱。子频带配置可以对应于全频带的频带配置。图15是根据示例性实施方式的包括编码模块的多媒体设备的框图。参考图15,多媒体设备1500可以包括通信单元1510和编码模块1530。此外,多媒体设备1500还可以包括存储单元1550以用于存储作为根据音频比特流的使用的编码结果而获得的音频比特流。此外,多媒体设备1500还可以包括麦克风1570。也就是说,可以可选地包括存储单元1550和麦克风1570。多媒体设备1500还可以包括任意解码模块(未示出),例如,用于执行一般解码功能的解码模块或根据示例性实施方式的解码模块。编码模块1530可以由至少一个处理器(未示出)通过与包括在多媒体设备1500中的其它部件(未示出)集成为一体来实现。通信单元1510可以接收从外部提供的音频信号或编码比特流中的至少一个,或者可以发送作为编码模块1530中的编码的结果而获得的重构音频信号或编码比特流中的至少一个。通信单元1510被配置为通过无线网络或有线网络向外部多媒体设备或服务器发送数据和从外部多媒体设备或服务器接收数据,无线网络例如无线互联网、无线内联网、无线电话网络、无线局域网(LAN)、Wi-Fi、Wi-Fi直连(WFD)、第三代(3G)、第四代(4G)、蓝牙、红外数据协议(IrDA)、射频识别(RFID)、超宽带(UWB)、紫蜂协议(Zigbee)或近场通信(NFC),有线网络例如有线电话网络或有线互联网。根据示例性实施方式,编码模块1530可以将通过通信单元1510或麦克风1570提供的时域音频信号变换为频域音频信号,基于从频域音频信号获得的全频带的包络为每一个子频带生成比特分配信息,基于每个子频带的比特分配信息确定高频带中需要更新包络的子频带,并且生成与所确定的子频带包络更新有关的细化数据。存储单元1550可以存储由编码模块1530生成的编码比特流。此外,存储单元1550可以存储操作多媒体设备1500所需的各种程序。麦克风1570可以将来自用户或外部的音频信号提供给编码模块1530。图16是根据示例性实施方式的包括解码模块的多媒体设备的框图。参考图16,多媒体设备1600可以包括通信单元1610和解码模块1630。此外,根据作为解码的结果而获得的重构音频信号的使用,多媒体设备1600还可以包括存储单元1650用于存储重构音频信号。此外,多媒体设备1600还可以包括扬声器1670。也就是说,可以可选地包括存储单元1650和扬声器1670。多媒体设备1600还可以包括编码模块(未示出),例如,用于执行一般编码功能的编码模块或根据示例性实施方式的编码模块。解码模块1630可以由至少一个处理器(未示出)通过与包括在多媒体设备1600中的其它部件(未示出)集成为一体来实现。通信单元1610可以接收从外部提供的音频信号或编码比特流中的至少一个,或者可以发送作为解码模块1630中的解码的结果而获得的重构音频信号或作为编码结果而获得的音频比特流中的至少一个。通信单元1610可以大致类似于图15的通信单元1510来实现。根据示例性实施方式,解码模块1630可以接收通过通信单元1610提供的比特流,基于全频带的包络为每一个子频带生成比特分配信息,基于每个子频带的比特分配信息确定高频带中需要更新包络的子频带,并且通过解码与所确定的子频带的包络更新相关的细化数据来更新包络。存储单元1650可以存储由解码模块1630生成的重构音频信号。此外,存储单元1650可以存储操作多媒体设备1600所需的各种程序。扬声器1670可以将由解码模块1630生成的重构音频信号输出到外部。图17是根据示例性实施方式的包括编码模块和解码模块的多媒体设备的框图。参考图17,多媒体设备1700可以包括通信单元1710、编码模块1720和解码模块1730。此外,多媒体设备1700还可以包括存储单元1740以用于存储作为编码结果获得的音频比特流或作为根据音频比特流或重构音频信号的使用的解码结果而获得的重构音频信号。此外,多媒体设备1700还可以包括麦克风1750和/或扬声器1760。编码模块1720和解码模块1730可以由至少一个处理器(未示出)通过与包括在多媒体设备1700中的其它部件(未示出)集成为一体来实现由于图17所示的多媒体设备1700的部件与图15所示的多媒体设备1500的部件或图16所示的多媒体设备1600的部件对应,所以省略其详细描述。图15、图16和图17所示的多媒体设备1500、多媒体设备1600和多媒体设备1700中的每一个可以包括例如电话或移动电话的语音通信专用终端、例如TV或MP3播放器的广播或音乐专用装置、或者语音通信专用终端和广播或音乐专用装置的混合终端装置,但不限于此。此外,多媒体设备1500、多媒体设备1600和多媒体设备1700中的每一个可以用作客户端、服务器或设置在客户端和服务器之间的转换器。当多媒体设备1500、多媒体设备1600和多媒体设备1700例如是移动电话时,尽管未示出,多媒体设备1500、多媒体设备1600和多媒体设备1700还可以包括用户输入单元(例如键盘)、用于显示由用户接口或移动电话处理的信息的显示单元、以及用于控制移动电话的功能的处理器。此外,移动电话还可以包括具有图像拍摄功能的相机单元和用于执行移动电话所需的功能的至少一个部件。当多媒体设备1500、多媒体设备1600和多媒体设备1700例如是TV时,虽然未示出,但是多媒体设备1500、多媒体设备1600和多媒体设备1700还可以包括用户输入单元(例如键盘)、用于显示接收的广播信息的显示单元、以及用于控制TV的所有功能的处理器。此外,TV还可以包括用于执行TV的功能的至少一个部件。图18是根据示例性实施方式的音频编码方法的流程图。图18的音频编码方法可以由图5至图9中的相应元件来执行或者可以由专用处理器执行。参考图18,在操作1810中,可以对输入信号执行例如MDCT的时间-频率变换。在操作1810中,可以从MDCT频谱计算低频率频带的范数,然后对其进行量化。在操作1820中,可以从MDCT频谱计算高频率频带的包络,然后对其进行量化。在操作1830中,可以提取高频率频带的扩展参数。在操作1840中,可以通过高频率频带的范数值映射来获得全频带的量化范数值。在操作1850中,可以生成每个频带的比特分配信息。在操作1860中,当基于每个频带的比特分配信息对高频带的重要频谱信息进行量化时,可以生成关于高频率频带的更新范数的信息。在操作1870中,通过更新高频率频带的范数,可以更新全频带的量化范数值。在操作1880中,可以对频谱进行归一化,并随后基于全频带的更新的量化范数值进行量化。在操作1890中,可以生成包括量化频谱的比特流。图19是根据示例性实施方式的音频解码方法的流程图。图19的音频解码方法可以由图10至图14中的相应元件来执行或者可以由专用处理器执行。参考图19,在操作1900中,可以解析比特流。在操作1905中,可以对包括在比特流中的低频率频带的范数进行解码。在操作1910中,可以对包括在比特流中的高频率频带的包络进行解码。在操作1915中,可以对高频率频带的扩展参数进行解码。在操作1920中,可以通过高频率频带的范数值映射来获得全频带的去量化的范数值。在操作1925中,可以生成每个频带的比特分配信息。在操作1930中,当基于每个频带的比特分配信息对高频率频带的重要频谱信息进行量化时,可以对高频率频带的更新范数的信息进行解码。在操作1935中,通过更新高频率频带的范数,可以更新全频带的量化范数值。在操作1940中,可以对频谱进行去量化,并随后基于全频带的更新的量化范数值来对频谱进行去归一化。在操作1945中,可以基于解码的频谱来执行带宽扩展解码。在操作1950中,可以选择性地组合解码的频谱或带宽扩展解码的频谱。在操作1955中,可以对选择性组合的频谱执行例如IMDCT的时间-频率逆变换。根据实施方式的方法可以由计算机可执行程序编辑并且在用于通过使用计算机可读记录介质执行程序的通用数字计算机中实现。此外,可以通过各种手段将可用于本发明的实施方式中的数据结构、程序命令或数据文件记录在计算机可读记录介质中。计算机可读记录介质可以包括用于存储可由计算机系统读取的数据的所有类型的存储装置。计算机可读记录介质的示例包括磁性介质(例如硬盘、软盘或磁带)、光学介质(例如压缩光盘只读存储器(CD-ROM)或数字多功能光盘(DVD))、磁-光介质(例如光软盘)以及被特别配置为存储和执行程序命令的硬件装置(例如ROM,RAM或闪存)。此外,计算机可读记录介质可以是用于发送用于指定程序命令、数据结构等的信号的传输介质。程序命令的示例包括可以由使用解译器的计算机执行的高级语言代码以及由编译器制作的机器语言代码。尽管已经参考有限的实施方式和附图描述了本发明的实施方式,但是本发明的实施方式不限于上述实施方式,并且其更新和修改可以由本领域普通技术人员以各种方式执行。因此,本发明的范围不是由上述说明限定,而是由权利要求限定,并且对权利要求的所有一致或等同的修改将属于本发明的技术思想的范围。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1