用于带宽扩展的高频解码的方法及设备与流程

文档序号:12288490阅读:400来源:国知局
用于带宽扩展的高频解码的方法及设备与流程

一个或更多个示例性实施例涉及音频编码和解码,更具体地,涉及一种用于带宽扩展(BWE)的高频解码的方法及设备。



背景技术:

在G.719中的编码方案已经针对视频会议得到发展和标准化。根据本方案,通过改进的离散余弦变换执行频域变换,以针对静止帧对MDCT频谱直接进行编码并针对非静止帧改变时域混序以便考虑时间特征。可通过执行交织构造与静止帧具有相同框架的编解码器,按照与静止帧相似的形式构造针对非静止帧获得的频谱。构造的频谱的能量被获得、归一化和量化。通常,能量被表示为均方根值,并且通过基于能量的比特分配从归一化的频谱获得每个频带所需要的比特,并且通过基于关于针对每个频带的比特分配的信息进行量化和无损编码来产生比特流。

根据G.719解码方案,在编码方案的逆处理中,通过对来自比特流的能量进行反量化,基于反量化的能量产生比特分配信息并基于比特分配信息对频谱进行反量化来产生归一化的反量化频谱。当比特不足时,特定频带中可能不存在反量化的频谱。为了产生针对特定频带的噪声,应用用于基于反量化的低频频谱产生噪声码书并根据传输的噪声等级产生噪声的噪声填充方法。针对特定频率或更高频率的频带,应用用于通过折叠低频信号产生高频信号的带宽扩展方案。



技术实现要素:

技术问题

一个或更多个示例性实施例提供了一种用于带宽扩展(BWE)的高频解码的方法和设备以及采用所述方法和设备的多媒体设备,其中,通过用于BWE的高频解码可提高重构的音频信号的质量。

技术方案

根据一个或更多个示例性实施例,一种用于带宽扩展(BWE)的高频解码方法包括:对激励类别进行解码,基于解码的激励类别对解码的低频频谱进行修改,并基于修改的低频频谱产生高频激励频谱。

根据一个或更多个示例性实施例,一种用于带宽扩展(BWE)的高频解码设备包括至少一个处理器,其中,所述至少一个处理器被配置为:对激励类别进行解码,基于解码的激励类别对解码的低频频谱进行修改,并基于修改的低频频谱产生高频激励频谱。

有益效果

根据一个或更多个示例性实施例,对重构的低频频谱进行修改以产生高频激励频谱,从而在无需过度的复杂性的情况下提高重构的音频信号的质量。

附图说明

通过以下结合附图对示例性实施例的描述,这些和/或其他方面将变得更明显且更容易理解,其中:

图1示出根据示例性实施例的低频带的子带和高频带的子带。

图2a-图2c示出根据实施例的根据选择的编码方案分别将区域R0和区域R1划分为R4和R5以及R2和R3。

图3示出根据示例性实施例的高频带的子带。

图4是根据示例性实施例的音频编码设备的框图。

图5是根据示例性实施例的带宽扩展(BWE)参数产生单元的框图。

图6是根据示例性实施例的音频解码设备的框图。

图7是根据示例性实施例的高频解码设备的框图。

图8是根据示例性实施例的低频频谱修改单元的框图。

图9是根据另一示例性实施例的低频频谱修改单元的框图。

图10是根据另一示例性实施例的低频频谱修改单元的框图。

图11是根据另一示例性实施例的低频频谱修改单元的框图。

图12是根据示例性实施例的动态范围控制单元的框图。

图13是根据示例性实施例的高频激励频谱产生单元的框图。

图14是用于描述对在频带边界的权重进行平滑的曲线。

图15是用于描述根据示例性实施例的作为将被用于产生重叠区域中的频谱的贡献的权重的曲线图。

图16是根据示例性实施例的包括解码模块的多媒体设备的框图。

图17是根据示例性实施例的包括编码模块和解码模块的多媒体设备的框图。

图18是根据示例性实施例的高频解码方法的流程图。

图19是根据示例性实施例的低频频谱修改方法的流程图。

具体实施方式

本发明构思可允许形式上的各种改变或修改,并且特定的示例性实施例将在附图中示出并在说明书中详细描述。但是,这不是意图将本发明构思限制于特定的实践模式,并且本发明构思包含不脱离本发明构思的技术精神和技术范围的所有的改变、等同物和替换。在说明书中,当认为对现有技术的某些详细说明可能不必要地模糊本发明构思的实质时,省略对现有技术的某些详细说明。

虽然包括序号的术语(诸如“第一”、“第二”等)可被用于描述各种组件,但这些组件将不被这些术语限制。术语第一和第二不应该被用于附加任何重要性顺序,而是被用于将一个元件与另一个元件区分。

说明书中使用的术语仅用于描述特定的实施例,并不意图限制本发明构思的范围。虽然考虑到本公开的功能而选择在本说明书中广泛使用的通用术语来描述本公开,但是这些通用术语可根据本领域技术人员的意图、情况判例、新技术的出现等而变化。在特定情况下也可使用由本发明的申请人任意选择的术语。在这种情况中,在发明的详细描述中需要给出术语的含义。因此,术语必须基于它们的含义和整个说明书的内容被定义,而不是简单地陈述术语。

除非上下文中有明显不同的含义,否则以单数使用的表述包含复数表述。在说明书中,将理解,诸如“包括”、“具有”、“包含”的术语意图表示存在说明书中公开的特征、数字、步骤、动作、组件、部件或它们的组合,并不意图排除可存在或可添加一个或多个其他特征、数字、步骤、动作、组件、部件或它们的组合的可能。

在下文中将参照附图更充分地描述一个或更多个示例性实施例。在附图中,相同的标号表示相同的元件,并且将不会给出相同的元件的重复说明。

图1示出根据示例性实施例的低频带的子带和高频带的子带。根据实施例,采样率为32KHz,并且可针对22个频带(更具体地,低频带的17个频带和高频带的5个频带)形成640个改进的离散余弦变换(MDCT)频谱系数。例如,高频带的开始频率是第241频谱系数,并且第0到第240频谱系数可被定义为R0,即,将按照低频编码方案(即,核心编码方案)被编码的区域。此外,第241到第639频谱系数可被定义为R1,即,执行带宽扩展(BWE)的高频带。在区域R1中,也可存在根据比特分配信息将按照低频编码方案被编码的频带。

图2a-图2c示出根据选择的编码方案,分别将图1的区域R0和区域R1划分为R4和R5、以及R2和R3。区域R1可被划分为R2和R3,区域R0可被划分为R4和R5,其中,区域R1是BWE区域,R2是低频编码区域。R2表示包含将按照低频编码方案(例如,频域编码方案)被量化和无损编码的信号的频带,并且R3表示不存在将按照低频编码方案被编码的信号的频带。但是,即使当确定R2是被分配了比特并且按照低频编码方案被编码的频带时,当比特不足时,R2可按照与R3相同的方式产生频带。R5表示针对其执行通过分配的比特的低频编码方案的频带,R4表示这样的频带,其中,对于该频带,由于没有额外的比特或者由于分配的比特较少而应该添加噪声,因此即使针对低频信号也不能执行编码。因此,可通过确定噪声是否被添加来识别R4和R5,其中,确定噪声是否被添加可根据在低频编码频带中频谱数量的百分比被执行,或者可基于当使用阶乘脉冲编码(FPC)时的带内脉冲分配信息被执行。由于当在解码处理中噪声被添加到频道R4和R5时可识别R4和R5频带,因此在编码处理中可能不能清楚地识别频带R4和R5。频带R2到R5可具有将被编码的互相不同的信息,并且不同的解码方案可被应用于频带R2到R5。

如图2a所示,在低频编码区域R0中包含第170到第240频谱系数的两个频带是添加了噪声的R4,并且在BWE区域R1中包含第241至第350频谱系数的两个频带以及包含第427到第639频谱系数的两个频带是将按照低频编码方案被编码的R2。如图2b所示,在低频编码区域R0中包含第202到第240频谱系数的一个频带是添加了噪声的R4,并且在BWE区域R1中包含第241到第639频谱系数的所有的五个频带是将按照低频编码方案被编码的R2。在图2c所示的示意中,在低频编码区域R0中包含第144到第240频谱系数的三个频带是添加了噪声的R4,并且在BWE区域R1中不存在R2。一般来说,在低频编码区域R0中的R4可分布在高频带中,并且在BWE区域R1中的R2可不限于特定的频带。

图3示出根据实施例的在宽带(WB)中的高频带的子带。采样率为32KHz,并且640个MDCT频谱系数之中的高频带可由14个频带形成。在100Hz的频带中包括四个频谱系数,因此400Hz的第一频带可包括16个频谱系数。标号310表示6.4KHz到14.4KHz的高频带的子带配置,并且标号330表示8.0KHz到16.0KHz的高频带的子带配置。

图4示出根据示例性实施例的音频编码设备的框图。

图4的音频编码设备可包括BWE参数产生单元410、低频编码单元430、高频编码单元450和多路复用单元470。这些组件可被整合到至少一个模块并由至少一个处理器(未示出)实现。输入信号可指示音乐、语音或音乐和语音的混合信号,并且可被主要划分为语音信号和另一普通信号。在下文中,为了方便描述,输入信号被称为音频信号。

参照图4,BWE参数产生单元410可产生用于BWE的BWE参数。BWE参数可与激励类别相应。根据实施方案,BWE参数可包括激励类别和其他参数。BWE参数产生单元410可基于信号特征以帧为单位产生激励类别。具体地,BWE参数产生单元410可确定输入信号具有语音特征还是音调特征,并可基于前者确定的结果来确定多个激励类别中的一个。多个激励类别可包括与语音有关的激励类别、与音调音乐有关的激励类别和与非音调音乐有关的激励类别。确定的激励类别可包括在比特流中并被传输。

低频编码单元430可对低频带信号进行编码以产生编码的频谱系数。低频编码单元430也可对与低频带信号的能量有关的信息进行编码。根据实施例,低频编码单元430可将低频带信号变换为频域信号以产生低频频谱,并可对低频频谱进行量化以产生量化的频谱系数。MDCT可被用于域变换,但实施例不限于此。金字塔矢量量化(PVQ)可被用于量化,但实施例不限于此。

高频编码单元450可对高频带信号进行编码以产生用于在解码器端中的BWE或比特分配所必需的参数。用于BWE所必需的参数可包括与高频带信号的能量有关的信息和附加信息。能量可被表示为包络、比例因子、平均功率或每个频带的范数。附加信息是关于高频带中的包括重要频率组份的频带的,并可以是与特定的高频带中包括的频率组份有关的信息。高频编码单元450可通过将高频带信号变换为频域信号来产生高频频谱,并可对与高频频谱的能量有关的信息进行量化。MDCT可被用于域变换,但实施例不限于此。矢量量化可被用于量化,但实施例不限于此。

多路复用单元470可产生包括以下参数的比特流:BWE参数(例如,激励类别)、用于BWE或比特分配所必需的参数以及低频带的编码的频谱系数。比特流可被传输并存储。

频域中的BWE方案可通过与时域编码部分组合被应用。码激励线性预测(CELP)方案主要可被用于时域编码,并且时域编码可被实现以便以CELP方案对低频带进行编码,并可与时域中的BWE方案组合而不是与频域中的BWE方案组合。在这种情况中,编码方案可基于在时域编码和频域编码之间的自适应编码方案确定被选择性地应用于整个编码。为了选择合适的编码方案,需要信号分类,并且根据实施例,可通过优先使用信号分类的结果来针对每个帧确定激励类别。

图5是根据实施例的图4的BWE参数产生单元410的框图。BWE参数产生单元410可包括信号分类单元510和激励类别产生单元530。

参照图5,信号分类单元510可通过以帧为单位分析输入信号的特征来对当前帧是否是语音信号进行分类,并可根据分类结果确定激励类别。可使用各种公知的方法执行信号分类,例如,通过使用短期特征和/或长期特征。短期特征和/或长期特征可以是频域特征和/或时域特征。当当前帧被分类为时域编码是合适的编码方案的语音信号时,分配固定类型的激励类别的方法可比基于高频信号的特征的方法更有利于声音质量的提高。可在不考虑针对先前帧的分类结果的情况下对当前帧进行信号分类。换句话说,即使当通过考虑迟滞的当前帧可最终被分类为频域编码是合适的情况时,固定的激励类别也可在当前帧自己被分类为时域编码是合适的情况时被分配。例如,当当前帧被分类为时域编码对其合适的语音信号时,激励类别可被设置为与语音特征有关的第一激励类别。

当作为信号分类单元510的分类的结果而当前帧未被分类为语音信号时,激励类别产生单元530可通过使用至少一个阈值来确定激励类别。根据实施例,当作为信号分类单元510的分类的结果而当前帧未被分类为语音信号时,激励类别产生单元530可通过计算高频带的音调值并将计算出的音调值与阈值进行比较来确定激励类别。可根据激励类别的数量使用多个阈值。当单个阈值被使用并且计算出的音调值大于该阈值时,当前帧可被分类为音调音乐信号。另一方面,当单个阈值被使用并且计算出的音调值小于阈值时,当前帧可被分类为非音调音乐信号,例如,噪声信号。当当前帧被分类为音调音乐信号时,激励类别可被确定为与音调特征有关的第二激励类别。换句话说,当当前帧被分类为噪声信号时,激励类别可被分类为与非音调特征有关的第三激励类别。

图6是根据示例性实施例的音频解码设备的框图。

图6的音频解码设备可包括多路解复用单元610、BWE参数解码单元630、低频解码单元650和高频解码单元670。虽然在图6中未示出,但音频解码设备还可包括频谱组合单元和逆变换单元。这些组件可被整合到至少一个模块中并由至少一个处理器(未示出)实现。输入信号可指示音乐、语音或音乐和语音的混合信号,并可被主要划分为语音信号和另一普通信号。在下文中,为了方便描述,输入信号被称为音频信号。

参照图6,多路解复用单元610可对接收的比特流进行解析以产生用于解码所必需的参数。

BWE参数解码单元630可对比特流中包括的BWE参数进行解码。BWE参数可与激励类别对应。BWE参数可包括激励类别和其他参数。

低频解码单元650可通过对比特流中包括的低频带的编码的频谱系数进行解码来产生低频频谱。低频解码单元650也可对与低频带信号的能量有关的信息进行解码。

高频解码单元670可通过使用解码的低频频谱以及激励类别来产生高频激励频谱。根据另一实施例,高频解码单元670可对比特流中包括的用于BWE或比特分配所必需的参数进行解码,并可将用于BWE或比特分配所必需的参数以及与低频带信号的能量相关的解码的信息应用于高频激励频谱。

用于BWE所必需的参数可包括与高频带信号的能量相关的信息以及附加信息。附加信息是关于高频带中的包括重要频率组份的频带的,并可以是与特定高频带中包括的频率组份有关的信息。与高频带信号的能量有关的信息可被矢量反量化。

频谱组合单元(未示出)可将由低频解码单元650提供的频谱与由高频解码单元670提供的频谱组合。逆变换单元(未示出)可将由频谱组合造成的组合频谱逆变换为时域信号。逆MDCT(IMDCT)可被用于逆变换,但实施例不限于此。

图7是根据示例性实施例的高频解码设备的框图。图7的高频解码设备可与图6的高频解码单元670对应,或可被实现为专用设备。图7的高频解码设备可包括低频频谱修改单元710和高频激励频谱产生单元730。虽然在图7中未示出,但是高频解码设备还可包括接收解码的低频频谱的接收单元。

参照图7,低频频谱修改单元710可基于激励类别修改低频频谱。根据实施例,解码的低频频谱可以是填充了噪声的频谱。根据另一实施例,解码的低频频谱可以是通过执行噪声填充并随后执行再将随机符号和具有特定值的幅度的系数插入保持为零的频谱部分中的抗稀疏处理而获得的频谱。

高频激励频谱产生单元730可从修改后的低频频谱产生高频激励频谱。此外,高频激励频谱产生单元730可将增益应用于产生的高频激励频谱的能量,使得高频激励频谱的能量与反量化后的能量相匹配。

图8是根据实施例的图7的低频频谱修改单元710的框图。图8的低频频谱修改单元710可包括计算单元810。

参照图8,计算单元810可通过基于激励类别针对解码的低频频谱执行预定计算来产生修改的低频频谱。解码的低频频谱可与噪声填充后的频谱、抗稀疏处理后的频谱或未添加噪声的反量化后的低频频谱相应。预定计算可表示根据激励类别确定权重并基于确定的权重将解码的低频频谱与随机噪声进行混合的处理。预定计算可包括乘法处理和加法处理。随机噪声可以以各种公知的方法产生,例如,使用随机种子。计算单元810还可包括在预定计算之前将白化后的低频频谱与随机噪声相匹配以使得白化后的低频频谱的等级彼此相似的处理。

图9是根据另一实施例的图7的低频频谱修改单元710的框图。图9的低频频谱修改单元710可包括白化单元910、计算单元930和等级调整单元950。等级调整单元950可被可选地包括。

参照图9,白化单元910可对解码的低频频谱执行白化。通过噪声填充或抗稀疏处理,可将噪声添加到解码的低频频谱中保持为零的部分。噪声添加可以以子带为单位被选择性地执行。白化是基于低频频谱的包络信息的归一化,并且白化可使用各种公知的方法被执行。具体地,归一化可与从低频频谱计算包络并根据包络划分低频频谱相应。在白化过程中,频谱具有平坦的形状,并且内部频率的精细结构可被保持。可根据信号特征确定用于归一化的窗口大小。

计算单元930可通过基于激励类别针对白化后的低频频谱执行预定计算来产生修改的低频频谱。预定计算可指以下处理:根据激励类别确定权重,并基于确定的权重将白化后的低频频谱与随机噪声混合。计算单元930可与图8的计算单元810相同地进行操作。

图10是根据另一实施例的图7的低频频谱修改单元710的框图。图10的低频频谱修改单元710可包括动态范围控制单元1010。

参照图10,动态范围控制单元1010可通过基于激励类别控制解码后的低频频谱的动态范围来产生修改的低频频谱。动态范围可指频谱幅度。

图11是根据另一实施例的图7的低频频谱修改单元710的框图。图11的低频频谱修改单元710可包括白化单元1110和动态范围控制单元1130。

参照图11,白化单元1110可与图9的白化单元910相同地进行操作。换句话说,白化单元1110可对解码的低频频谱执行白化。通过噪声填充或抗稀疏处理,噪声可被添加到在恢复的低频频谱中的保持为零的部分。噪声添加可以以子带为单位被选择性地执行。白化是基于低频频谱的包络信息的归一化,并可应用各种公知的方法。具体地,归一化可与从低频频谱计算包络并根据包络划分低频频谱相应。在白化过程中,频谱具有平坦的形状,并且内部频率的精细结构可被保持。可根据信号特征确定用于归一化的窗口大小。

动态范围控制单元1130可通过基于激励类别控制白化后的低频频谱的动态范围来产生修改的低频频谱。

图12是根据实施例的图11的动态范围控制单元1110的框图。动态范围控制单元1130可包括符号分离单元1210、控制参数确定单元1230、幅度调整单元1250、随机符号产生单元1270和符号应用单元1290。随机符号产生单元1270可与符号应用单元1290集成。

参照图12,符号分离单元1210可通过从解码后的低频频谱去除符号来产生幅度,即,绝对频谱。

控制参数确定单元1230可基于激励类别确定控制参数。由于激励类别是与音调特征或平坦特征有关的信息,因此控制参数确定单元1230可基于激励类别确定能够控制绝对频谱的幅度的控制参数。绝对频谱的幅度可表示为动态范围或峰谷间隔。根据实施例,控制参数确定单元1230可根据不同的激励类别确定控制参数的不同的值。例如,当激励类别与语音特征相关时,值0.2可被分配为控制参数。当激励类别与音调特征相关时,值0.05可被分配为控制参数。当激励类别与噪声特征相关时,值0.8可被分配位控制参数。因此,在高频带中的具有噪声特征的帧的情况下,控制幅度的程度可以大。

幅度调整控制单元1250可基于由控制参数确定单元1230确定的控制参数来调整低频频谱的幅度,即,动态范围。在这种情况下,控制参数的值越大,动态范围被控制的越大。根据实施例,可通过将原始绝对频谱与预定大小的幅度相加或相减来控制动态范围。预定大小的幅度可与通过将绝对频谱中的特定频带的每个频段的幅度与特定频带的平均幅度之间的差值与控制参数相乘而获得的值相应。幅度调整单元1250可用具有相同大小的频带构造低频频谱并可处理构造的低频频谱。根据实施例,每个频带可被构造为包括16个频谱系数。可针对每个频带计算平均幅度,并且可基于每个频带的平均幅度和控制参数来控制每个频带中包括的每个频段的幅度。例如,幅度比频带的平均幅度大的频段减小它的幅度,并且幅度比频带的平均幅度小的频段增大它的幅度。控制动态范围的程度可根据激励类别的类型而变化。具体地,可根据等式1执行动态范围控制。

[等式1]

S'[i]=S[i]-(S[i]-m[k])*a

其中S'[i]表示动态范围被控制的频段i的幅度,S[i]表示频段i的幅度,m[k]表示频段i属于的频带的平均幅度,a表示控制参数。根据实施例,每个幅度可以是绝对值。因此,可以以频带的频谱系数(即,频段)为单位执行动态范围控制。可以以频带为单位计算平均幅度,并且可以以帧为单位应用控制参数。

可基于将被执行换位的开始频率来构造每个频带。例如,每个频带可被构造为包括从换位频段2开始的16个频段。具体地,在超宽带(SWB)的情况下,可存在以24.4kbps在频段145结束的9个频带,并可存在以32kbps在频段129结束的8个频带。在全频带(FB)的情况下,可存在以24.4kbps在频段305结束的19个频带,并可存在以32kbps在频段289结束的18个频带。

当基于激励类别确定随机符号是必要的时,随机符号产生单元1270可产生随机符号。可以以帧为单位产生随机符号。根据实施例,在激励类别与噪声特征相关的情况下,可应用随机符号。

符号应用单元1290可通过将随机符号或原始符号应用于动态范围已经被控制的低频频谱来产生修改的低频频谱。原始符号可以是由符号分离单元1210去除的符号。根据实施例,在激励类别与噪声特征相关的情况下,可应用随机符号。在激励类别与音调特征或语音特征相关的情况下,可应用原始信号。具体地,在被确定为嘈杂的帧的情况下,可应用随机符号。在被确定为具有音调或是语音信号的帧的情况下,可应用原始符号。

图13是根据实施例的图7的高频激励频谱产生单元730的框图。图13的高频激励频谱产生单元730可包括频谱修补单元1310和频谱调整单元1330。频谱调整单元1330可被可选择地包括。

参照图13,频谱修补单元1310可通过修补(例如,将修改的低频频谱换位、复制、镜像或折叠到高频带)来用频谱填充空的高频带。根据实施例,在50Hz到3250Hz的源频带中存在的修改的频谱可被复制到8000Hz到11200Hz的频带,在50Hz到3250Hz的源频带中存在的修改的频谱可被复制到112000Hz到14400Hz的频带,并且在2000Hz到3600Hz的源频带中存在的修改的频谱可被复制到14400Hz到16000Hz的频带。通过这种处理,可从修改的低频频谱产生高频激励频谱。

频谱调整单元1330可调整从频谱修补单元1310提供的高频激励频谱,以便处理在由频谱修补单元1310修补的频带之间的边界处频谱的不连续性。根据实施例,频谱调整单元1330可利用由频谱修补单元1310提供的高频激励频谱的边界周围的频谱。

如上所述产生的高频激励频谱或调整后的高频激励频谱可与解码后的低频频谱进行组合,并可通过逆变换将由于组合而导致的组合后的频谱产生为时域信号。高频激励频谱和解码的低频频谱可单独地被逆变换并随后被组合。IMDCT可被用于逆变换,但实施例不限于此。

在频谱组合期间的频带的重叠部分可通过重叠-相加处理被重构。可选地,在频谱组合期间的频带的重叠部分可基于通过比特流发送的信息被重构。可选地,可根据接收侧的环境来应用重叠-相加处理或基于传输信息的处理,或者可基于权重重构频带的重叠部分。

图14是用于描述平滑在频带边界的权重的曲线。参照图14,因为第K+2频带的权重和第K+1频带的权重彼此不同,所以在频带边界进行平滑是必要的。在图14的示例中,因为第K+1频带的权重Ws(K+1)为0,所以不针对第K+1频带执行平滑而仅针对第K+2频带执行平滑,并且当针对第K+1频带执行平滑时,第K+1频带的权重Ws(K+1)不为0,在这种情况下,在第K+1频带中的随机噪声也应该被考虑。换句话说,当产生高频激励频谱时,权重0表示在相应频带中不考虑随机噪声。权重0相应于极限音调信号,并且随机噪声不被考虑以防止通过由于随机噪声而被插入到谐波信号的谷持续时间中的噪声产生嘈杂的声音。

当除了低频能量传输方案之外的方案(例如,矢量量化(VQ)方案)被应用于高频能量时,可通过在标量量化之后使用无损编码来传输低频能量,并且可在以另一方案进行量化之后传输高频能量。在这种情况下,在低频编码区域R0中的最后一个频带和BWE区域R1中的第一个频带可互相重叠。此外,BWE区域R1中的频带可按照另一方案被配置以具有用于频带分配的相对紧密的结构。

例如,在低频编码区域R0中的最后一个频带可在8.2KHz结束,并且在BWE区域R1中的第一频带可从8KHz开始。在这种情况下,在低频编码区域R0和BWE区域R1之间存在重叠区域。因此,可在重叠区域中产生两个解码的频谱。一个解码的频谱是通过应用低频解码方案产生的频谱,另一解码的频谱是通过应用高频解码方案产生的频谱。重叠和相加方案可被应用,使得两个频谱(例如,低频频谱和高频频谱)之间的过渡更平滑。例如,可通过同时使用两个频谱来重新配置重叠区域,其中,针对接近重叠区域中的低频的频谱增大按照低频方案产生的频谱的贡献,并且针对接近重叠区域中的高频的频谱增大按照高频方案产生的频谱的贡献。

例如,当低频编码区域R0中的最后一个频带在8.2KHz结束并且BWE区域R1中的第一频带从8KHz开始时,如果以32KHz的采样率构造640个采样的频谱,则八个频谱(例如,第320个频谱到第327个频谱)重叠,并且可使用等式2产生这八个频谱。

[等式2]

其中表示按照低频方案解码的频谱,表示按照高频方案解码的频谱,L0表示高频的开始频谱的位置,L0~L1表示重叠区域,并且w0表示贡献。

图15是用于描述根据实施例的在解码端进行BWE处理之后将被用于产生在重叠区域中存在的频谱的贡献。

参照图15,wo0(k)和wo1(k)可被选择性地应用于wo(k),其中,wo0(k)表示相同的权重被应用于低频和高频解码方案,wo1(k)表示较大的权重被应用于高频解码方案。针对wo(k)的各种选择标准之中的示例是是否低频的重叠频带中的存在脉冲。当低频的重叠频带中的脉冲已经被选择并被编码时,wo0(k)被用于对在L1的附近有效的低频处产生的频谱做出贡献,并被用于减少高频的贡献。基本上,按照实际编码方案产生的频谱可比通过BWE产生的信号的频谱更接近原始信号。通过使用这种方法,在重叠频带中,可应用用于增大更接近原始信号的频谱的贡献的方案,并且因此,可期望平滑效果和音质的提高。

图16是示出根据示例性实施例的包括解码模块的多媒体装置的配置的框图。

图16中示出的多媒体装置1600可包括通信单元1610和解码模块1630。此外,根据音频比特流的使用,还可包括用于存储作为编码结果而获得的音频比特流的存储单元1650。此外,多媒体装置1600还可包括扬声器1670。即,可选择性地提供存储单元1650和扬声器1670。图16中示出的多媒体装置1600还可包括任意的编码模块(未示出),例如,用于执行通用编码功能的编码模块或根据示例性实施例的编码模块。这里,解码模块1630可与提供给多媒体装置1600的其他组件(未示出)集成,并被实现为至少一个处理器(未示出)。

参照图16,通信单元1610可接收从外部提供的音频和编码的比特流中的至少一个,或者可发送以下项中的至少一个:作为解码模块1630的解码结果而获得的重构的音频信号、和作为编码结果获得的音频比特流。通信单元1610被配置为能够通过无线网络(诸如无线互联网、无线内部网、无线电话网络、无线局域网(LAN)、Wi-Fi网络、Wi-Fi直连(WFD)网络、第三代(3G)网络、4G网络、蓝牙网络、红外数据协会(IrDA)网络、无线射频识别(RFID)网络、超宽带(UWB)网络、ZigBee网络和近场通信(NFC)网络)或有线网络(诸如有线电话网络或有线互联网)向外部的多媒体装置或服务器发送数据并从外部的多媒体装置或服务器接收数据。

解码模块1630可通过通信单元1610提供的比特流,并对比特流中包括的音频频谱进行解码。可使用上述的解码设备或随后将被描述的解码方法执行解码,但实施例不限于此。

存储单元1650可存储由解码模块1630产生的重构的音频信号。存储单元1650也可存储操作多媒体装置1600所需要的各种程序。

扬声器1670可向外部输出由解码模块1630产生的重构的音频信号。

图17是示出根据另一示例性实施例的包括编码模块和解码模块的多媒体装置的配置的框图。

图17中示出的多媒体装置1700可包括通信单元1700、编码模块1720和解码模块1730。此外,根据音频比特流或重构的音频信号的使用,还可包括用于存储作为编码结果而获得的音频信号或作为解码结果而获得的重构的音频信号的存储单元1740。此外,多媒体装置1700还可包括麦克风1750或扬声器1760。这里,编码模块1720和解码模块1730可与提供给多媒体装置1700的其他组件(未示出)集成,并被实现为至少一个处理器(未示出)。

省略对图17中示出的组件之中的与图16中示出的多媒体装置1600的组件相同的组件的详细描述。

根据实施例,编码模块1720可对通过通信单元1710或麦克风1750提供的时域中的音频信号进行编码。可使用上述的编码设备执行编码,但实施例不限于此。

麦克风1750可向编码模块1720提供用户或外部的音频信号。

图16中示出的多媒体装置1600和图17中示出的多媒体装置1700可包括包含电话或手机的语音通信专用终端、包含TV或MP3播放器的广播或音乐专用装置或语音通信专用终端和广播或音乐专用装置的混合终端,但不限于此。此外,多媒体装置1600或1700可被用作布置在客户端、服务器中或布置在客户端和服务器之间的换能器。

当多媒体装置1600或1700例如是手机时,尽管未示出,但还可包括用户输入单元(诸如,键盘)、用于显示用户界面或由手机处理的信息的显示单元、以及用于控制手机的一般功能的处理器。此外,手机还可包括具有图像拍摄功能的照相机单元以及用于执行由移动电话所需要的功能的至少一个组件。

当多媒体装置1600或1700例如是TV时,尽管未示出,但还可包括用户输入单元(诸如,键盘)、用于显示接收的广播信息的显示单元、以及用于控制TV的一般功能的处理器。此外,TV还可包括用于执行由TV所需要的功能的至少一个组件。

图18是根据示例性实施例的高频解码方法的流程图。图18的高频解码方法可由图7的高频解码单元670执行或可由特定处理器执行。

参照图18,在操作1810,对激励类别进行解码。激励类别可由编码器端产生,并且可被包括在比特流中并被发送到解码器端。可选择地,激励类别可由解码器端产生。激励类别可以帧为单位获得。

在操作1830,可接收从比特流中包括的低频频谱的量化指数解码的低频频谱。量化指数可以是例如频带之间的差分指数,而不是最低频带。低频频谱的量化指数可被矢量反量化。PVQ可被用于矢量反量化,但实施例不限于此。解码的低频频谱可通过针对反量化结果执行噪声填充而产生。噪声填充是通过被量化为零来填充在频谱中存在的间隙。伪随机噪声可被插入到间隙内。可预设进行噪声填充的频段部分。可根据通过比特流传输的参数来控制插入到间隙内的噪声的量。已经执行了噪声填充的低频频谱可另外被反量化。已经执行了噪声填充的低频频谱可另外经过抗稀疏处理。为了实现抗稀疏处理,具有随机符号和特定幅度值的系数可被插入到在已经执行了噪声填充的低频频谱内的保持为零的系数部分。已经执行了抗稀疏处理的低频频谱的能量可另外基于低频带的反量化后的包络被控制。

在操作1850,可基于激励类别修改解码的低频频谱。解码的低频频谱可相应于反量化后的频谱、噪声填充处理后的频谱或抗稀疏处理后的频谱。解码的低频频谱的幅度可根据激励类别被控制。例如,幅度的减小可取决于激励类别。

在操作1870,可使用修改的低频频谱产生高频激励频谱。可通过将修改后的低频频谱补到用于BWE所需要的高频带来产生高频激励频谱。修补方法的示例可以是将预设部分复制或折叠到高频带。

图19是根据示例性实施例的低频频谱修改方法的流程图。图19的低频频谱修改方法可相应于图18的操作1850或可独立地实现。图19的低频频谱修改方法可由图7的低频频谱修改单元710执行或可由特定的处理器执行。

参照图19,在操作1910,可基于激励类别确定幅度控制程度。具体地,在操作1910,可基于激励类别产生控制范数,以便确定幅度控制程度。根据实施例,可根据激励类别表示语音特征、音调特征还是非音调特征来确定控制参数的值。

在操作1930,可基于确定的幅度控制程度控制低频频谱的幅度。当激励类别代表语音特征或音调特征时,与当激励类别代表非音调特征时相比,产生具有更大的值的控制参数。因此,幅度的减小可增大。作为幅度控制的示例,可根据通过将每个频段的幅度之间的差值(例如,每个频段的范数值与相应频带的平均范数值之间的差值)与控制参数相乘而获得的值减少幅度。

在操作1950,可将符号应用于幅度被控制的低频频谱。根据激励类别,可应用原始符号或随机符号。例如,当激励类别代表语音特征或音调特征时,可应用原始符号。当激励类别代表无语音特征时,可应用随机符号。

在操作1970,可将已经在操作1950中应用了符号的低频频谱产生为修改后的低频频谱。

根据实施例的方法可通过计算机可执行程序编辑,并在通用数字计算机中实现,以通过使用计算机可读记录介质执行所述程序。此外,可在本发明的实施例中使用的数据结构、程序指令或数据文件可通过各种方法被记录在计算机可读记录介质中。计算机可读记录介质可包括用于存储可由计算机系统读取的数据的所有类型的存储装置。计算机可读记录介质的示例包括磁性介质(诸如硬盘、软盘或磁带)、光学介质(诸如致密盘-只读存储器(CD-ROMs)或数字通用盘(DVD))、磁光介质(诸如软光盘)和被专门配置为存储和执行程序指令的硬件装置,诸如,ROM、RAM或闪存。此外,计算机可读记录介质可以是用于传输指定程序指令、数据结构等的信号的传输介质。程序指令的示例包括可由计算机使用解释器执行的高级语言代码以及可由编译器生成的机器语言代码。

尽管已经参照有限的实施例和附图描述了本发明的实施例,但是本发明的实施例不限于上述描述的实施例,并且本领域中的普通技术人员可从本公开不同地实施本发明的实施例的更新和修改。因此,本发明的范围不是由以上描述而是由权利要求限定,并且所有它们的一致的或等同的修改将属于本发明的技术理念的范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1