用于隐藏帧错误的方法和设备与流程

文档序号:15938209发布日期:2018-11-14 02:43阅读:199来源:国知局

示例性实施例涉及帧错误隐藏,更具体地说,涉及一种在使用时频变换(time-frequencytransform)处理的音频编码和解码中在解码的音频信号的一部分帧中发生错误时,能够使重建声音质量的恶化最小化的帧错误隐藏方法和设备以及音频解码方法和设备。

背景技术

当编码的音频信号通过有线/无线网络被发送时,如果一部分包由于传输错误而被损坏或失真,则在解码的音频信号的一部分帧中会发生错误。如果错误未被适当校正,则在包括发生错误的帧(在下文中,被称为“错误帧”)和相邻帧的持续时间中,解码的音频信号的声音质量会降低。

关于音频信号编码,众所周知对特定信号执行时频变换处理并随后在频域中执行压缩处理的方法提供了良好的重建声音质量。在时频变换处理中,广泛地使用修正离散余弦变换(mdct)。在这种情况下,对于音频信号解码,使用逆mdct(imdct)将频域信号变换为时域信号,并可对该时域信号执行重叠相加(ola)处理。在ola处理中,如果在当前帧中发生错误,则下一帧也会被影响。具体地说,通过将先前帧和后续帧之间的混叠分量与时域信号中的重叠部分相加来产生最终的时域信号,如果发生错误,则不存在精确的混叠分量,因此,可能产生噪声,从而导致相当大的重建声音质量恶化。

当使用时频变换处理对音频信号进行编码和解码时,在多个用于隐藏帧错误的方法之中的用于通过对先前好帧(pgf)的参数进行回归分析来获得错误帧的参数的回归分析方法中,可通过稍微考虑错误帧的原始能量来进行隐藏,但是在信号逐渐增强或严重波动的部分中,错误隐藏效率会降低。此外,当将被应用的参数类型的数量增加时,回归分析方法将会引起复杂度的增加。在通过重复地复制错误帧的pgf来恢复错误帧中的信号的重复方法中,可能由于ola处理的特性而难以使重建声音质量的恶化最小化。通过对pgf和下一好帧(ngf)的参数进行插值来对错误帧的参数进行预测的插值方法需要额外一个帧的延迟,因此,不宜将该插值方法应用在对于延迟敏感的通信编解码器中。

因此,当使用时频变换处理对音频信号进行编码和解码时,需要一种在无需额外时间延迟或复杂度的过分增加的情况下对帧错误进行隐藏以使由于帧错误而引起的重建声音质量的恶化最小化的方法。



技术实现要素:

技术问题

示例性实施例提供了一种帧错误隐藏方法和设备,所述帧错误隐藏方法和设备用于在使用时频变换处理对音频信号进行编码和解码时在没有额外时间延迟并具有低复杂度的情况下对帧错误进行隐藏。

示例性实施例还提供了一种音频解码方法和设备,所述音频解码方法和设备用于在使用时频变换处理对音频信号进行编码和解码时使由于帧错误而引起的重建声音质量的恶化最小化。

示例性实施例还提供了一种音频解码方法和设备,所述音频解码方法和设备用于在音频解码设备中更精确地检测关于用于帧错误隐藏的瞬态帧的信息。

示例性实施例还提供了一种非暂时性计算机可读存储介质,所述非暂时性计算机可读存储介质存储有这样的程序指令:该程序指令在被计算机执行时执行帧错误隐藏方法、音频编码方法或音频解码方法。

示例性实施例还提供了一种采用帧错误隐藏设备、音频编码设备或音频解码设备的多媒体装置。

技术方案

根据示例性实施例的一方面,提供了一种帧错误隐藏(fec)方法,包括:基于在时频逆变换处理之后产生的时域信号中的当前帧和当前帧的先前帧的状态,选择fec模式;基于选择的fec模式对当前帧执行相应的时域错误隐藏处理,其中,当前帧是错误帧,或者当先前帧是错误帧时当前帧是正常帧。

根据示例性实施例的另一方面,提供了一种音频解码方法,包括:当当前帧是错误帧时,在频域中执行错误隐藏处理;当当前帧是正常帧时对频谱系数进行解码;对作为错误帧或正常帧的当前帧执行时频逆变换处理;基于在时频逆变换处理之后产生的时域信号中的当前帧和当前帧的先前帧的状态,选择fec模式;基于选择的fec模式对当前帧执行相应的时域错误隐藏处理,其中,当前帧是错误帧,或者当先前帧是错误帧时当前帧是正常帧。

有益效果

根据示例性实施例,在使用时频变换处理的音频编码和解码中,当在解码的音频信号中的一部分帧中发生错误时,通过按照根据时域中的信号特性的最佳方法执行错误隐藏处理,在解码的音频信号中由于错误帧而引起的快速信号波动可被平滑,并且复杂度低也没有额外延迟。

具体地说,作为瞬态帧的错误帧或者构成突发错误的错误帧可被更精确地重建,并且作为结果,紧接着错误帧的正常帧所受到的影响也可被最小化。

附图说明

图1a和图1b分别是根据示例性实施例的音频编码设备和音频解码设备的框图;

图2a和图2b分别是根据另一示例性实施例的音频编码设备和音频解码设备的框图;

图3a和图3b分别是根据另一示例性实施例的音频编码设备和音频解码设备的框图;

图4a和图4b分别是根据另一示例性实施例的音频编码设备和音频解码设备的框图;

图5是根据示例性实施例的频域音频编码设备的框图;

图6是用于描述当使用重叠时长小于50%的变换窗时拖尾延迟保护(hangover)标志被设置为1的时长的示图;

图7是根据示例性实施例的图5的频域音频编码设备中的瞬态检测单元的框图;

图8是用于描述根据示例性实施例的图7中的第二瞬态确定单元的操作的示图;

图9是用于描述根据示例性实施例的图7中的信号信息(signalinginformation)产生单元的操作的流程图;

图10是根据示例性实施例的频域音频解码设备的框图;

图11是根据示例性实施例的图10中的频谱解码单元的框图;

图12是根据另一示例性实施例的图10中的频谱解码单元的框图;

图13是根据示例性实施例的图12中的解交织(deinterleaving)单元的操作的框图;

图14是根据示例性实施例的图10中的重叠相加(ola)单元的框图;

图15是根据示例性实施例的图10的错误隐藏和ola单元的框图;

图16是根据示例性实施例的图15中的第一错误隐藏单元的框图;

图17是根据示例性实施例的图15中的第二错误隐藏单元的框图;

图18是根据示例性实施例的图15中的第三错误隐藏单元的框图;

图19是用于描述在使用重叠时长小于50%的变换窗时由编码设备和解码设备执行的用于去除时域混叠的加窗处理的示例的示图;

图20是用于描述图18中的使用ngf的时域信号进行ola处理的示例的示图;

图21是根据另一示例性实施例的频域音频解码设备的框图;

图22是根据示例性实施例的图21中的稳态检测单元的框图;

图23是根据示例性实施例的图21中的错误隐藏和ola单元的框图;

图24是用于描述根据示例性实施例的当当前帧是错误帧时图21中的fec模式选择单元的操作的流程图;

图25是用于描述根据示例性实施例的当先前帧是错误帧并且当前帧不是错误帧时图21中的fec模式选择单元的操作的流程图;

图26是示出根据示例性实施例的图23中的第一错误隐藏单元的操作的框图;

图27是示出根据示例性实施例的图23中的第二错误隐藏单元的操作的框图;

图28是示出根据另一示例性实施例的图23中的第二错误隐藏单元的操作的框图;

图29是用于描述根据示例性实施例的图26中的当当前帧是错误帧时的错误隐藏方法的框图;

图30是用于描述根据示例性实施例的图28中的当先前帧是错误帧时用于作为瞬态帧的下一好帧(ngf)的错误隐藏方法的框图;

图31是用于描述根据示例性实施例的图27或图28中的当先前帧是错误帧时用于不是瞬态帧的ngf的错误隐藏方法的框图;

图32是用于描述图26中的当当前帧是错误帧时进行的ola处理的示例的示图;

图33是用于描述图27中的当先前帧是随机错误帧时对下一帧进行的ola处理的示例的示图;

图34是用于描述图27中的当先前帧是突发错误帧时对下一帧进行的ola处理的示例的示图;

图35是用于描述根据示例性实施例的相位匹配方法的概念的示图;

图36是根据示例性实施例的错误隐藏设备的框图;

图37是根据示例性实施例的图36中的相位匹配fec模块或时域fec模块的框图;

图38是根据示例性实施例的图37中的第一相位匹配隐藏单元或第二相位匹配错误隐藏单元的框图;

图39是用于描述根据示例性实施例的图38中的平滑单元的操作的示图;

图40是用于描述根据另一示例性实施例的图38中的平滑单元的操作的示图;

图41是根据示例性实施例的包括编码模块的多媒体装置的框图;

图42是根据示例性实施例的包括解码模块的多媒体装置的框图;

图43是根据示例性实施例的包括编码模块和解码模块的多媒体装置的框图。

具体实施方式

本发明构思可允许各种类型的改变或修改以及形式上的各种改变,特定的示例性实施例将在附图中说明,并在说明书中详细描述。然而,应理解特定示例性实施例不将本发明构思限制在特定的公开形式,而是包括本发明构思的精神和技术范围内的每个修改的、等价的或代替的形式。在以下描述中,由于公知功能或结构将使用不必要的细节来模糊本发明,因此不详细描述公知功能或结构。

虽然诸如“第一”和“第二”的术语可被用于描述各种元件,但是这些元件不能由这些术语的限制。这些术语可被用于将特定元件与另一元件区分。

在本申请中使用的术语仅被用于描述特定示例性实施例,并不具有限制本发明构思的目的。虽然在考虑在本发明构思中的功能的同时将当前尽可能广泛使用的一般术语选为在本发明构思中使用的术语,但是它们可根据本领域中的普通技术人员的意图、司法先例或者新技术的出现而改变。另外,在特定情况下,可使用由申请人有意选择的术语,并且在此情况下,将在本发明的相应描述中公开所述术语的含义。因此,在本发明构思中使用的术语不应由术语的简单名称来定义,而由术语的含义和本发明构思的内容来定义。

单数形式的表达包括复数形式的表达,除非它们在上下文中明显彼此不同。在本申请中,应理解,诸如“包括”和“具有”的术语用于指示被实现的特征、数量、步骤、操作、元素、部件或它们的组合的存在,而不预先排除存在或添加一个或更多个其它特征、数量、步骤、操作、元素、部件或它们的组合的可能性。

现在将参照附图详细地描述示例性实施例。

图1a和图1b分别是根据示例性实施例的音频编码设备110和音频解码设备130的框图。

图1a中示出的音频编码设备110可包括预处理单元112、频域编码单元114和参数编码单元116。这些组件可被集成在至少一个模块中,并可被实现为至少一个处理器(未示出)。

在图1a中,预处理单元112可对输入信号执行滤波、下采样等,但不限于此。输入信号可包括语音信号、音乐信号或者语音和音乐的混合信号。以下,为了描述方便,输入信号被称为音频信号。

频域编码单元114可对由预处理单元112提供的音频信号执行时频变换,选择与声道的数量、编码频带和音频信号的比特率相应的编码工具,并通过使用选择的编码工具对音频信号进行编码。时频变换使用改进离散余弦变换(mdct)、调制重叠变换(mlt)或快速傅里叶变换(fft),但不限于此。当给定的比特数充足时,可将一般的变换编码方法用于所有频带,当给定的比特数不足时,可将带宽扩展方案应用于一部分频带。当音频信号是立体声道或多声道时,如果给定的比特数充足,则可对每个声道执行编码,如果给定的比特数不足,则可应用向下混合(down-mixing)方案。频域编码单元114可产生编码后的频谱系数。

参数编码单元116可从提供自频域编码单元114的编码后的频谱系数提取参数,并对提取的参数进行编码。例如,可针对每个子频带来提取参数,其中,子频带是对频谱系数进行分组的单位,并可通过反映临界频带而具有统一或非统一的长度。当每个子频带具有非统一的长度时,存在于低频频带中的子频带与存在于高频频带中的子频带相比可具有相对短的长度。包括在一个帧中的子频带的数量和长度可根据编解码器算法而变化,并可影响编码性能。参数可包括例如缩放因子、功率、平均能量或范数,但不限于此。作为编码的结果而获得的频谱系数和参数可形成比特流,并且比特流可被存储在存储介质中,或者可通过信道以例如包的形式被发送。

图1b中示出的音频解码设备130可包括参数解码单元132、频域解码单元134和后处理单元136。频域解码单元134可包括帧错误隐藏算法。这些组件可被集成在至少一个模块中,并可被实现为至少一个处理器(未示出)。

在图1b中,参数解码单元132可从接收到的比特流解码出参数,并从解码后的参数以帧为单位检查是否已发生了错误。可使用各种公知的方法来执行错误检查,并且可将关于当前帧是正常帧还是错误帧的信息提供给频域解码单元134。

当当前帧是正常帧时,频域解码单元134可通过一般的变换解码处理执行解码来产生合成的频谱系数。当当前帧是错误帧时,频域解码单元134可通过帧错误隐藏算法对先前好帧(pgf)的频谱系数进行缩放来产生合成的频谱系数。频域解码单元134可通过对合成的频谱系数执行频时变换来产生时域信号。

后处理单元136可对从频域解码单元134提供的时域信号执行滤波、上采样等以提高声音质量,但是不限于此。后处理单元136提供重建的音频信号作为输出信号。

图2a和图2b分别是根据另一示例性实施例的音频编码设备210和音频解码设备230的框图,其中,音频编码设备210和音频解码设备230具有切换结构。

图2a中示出的音频编码设备210可包括预处理单元212、模式确定单元213、频域编码单元214、时域编码单元215和参数编码单元216。这些组件可被集成在至少一个模块中,并可被实现为至少一个处理器(未示出)。

在图2a中,由于预处理单元212基本上与图1a的预处理单元112相同,因此省略其描述。

模式确定单元213可通过参考输入信号的特性来确定编码模式。模式确定单元213可根据输入信号的特性,确定适用于当前帧的编码模式是语音模式还是音乐模式,并且还可确定对于当前帧有效的编码模式是时域模式还是频域模式。可通过使用帧的短期特性或多个帧的长期特性来感知输入信号的特性,但是感知输入信号的特性的方法不限于此。例如,如果输入信号与语音信号相应,则编码模式可被确定为语音模式或时域模式,如果输入信号与除了语音信号之外的信号(即,音乐信号或混合信号)对应,则编码模式可被确定为音乐模式或频域模式。当输入信号的特性与音乐模式或频域模式相应时,模式确定单元213可将预处理单元212的输出信号提供给频域编码单元214,当输入信号的特性与语音模式或时域模式相应时,模式确定单元213将预处理单元212的输出信号提供给时域编码单元215。

由于频域编码单元214基本上与图1a的频域编码单元114相同,因此省略其描述。

时域编码单元215可对从预处理单元212提供的音频信号执行码激励线性预测(celp)编码。详细地讲,可将代数celp用于celp编码,但是celp编码不限于此。时域编码单元215产生编码后的频谱系数。

参数编码单元216可从提供自频域编码单元214或时域编码单元215的编码后的频谱系数提取参数,并对提取的参数进行编码。由于参数编码单元216基本上与图1a的参数编码单元116相同,因此省略其描述。作为编码的结果而获得的频谱系数和参数可与编码模式信息一起形成比特流,并且比特流可通过信道以包的形式被发送,或存储在存储介质中。

图2b中示出的音频解码设备230可包括参数解码单元232、模式确定单元233、频域解码单元234、时域解码单元235和后处理单元236。频域解码单元234和时域解码单元235中的每个可包括每个相应域中的帧错误隐藏算法。这些组件可被集成在至少一个模块中,并可被实现为至少一个处理器(未示出)。

在图2b中,参数解码单元232可从以包的形式发送的比特流解码出参数,并从解码后的参数以帧为单位检测是否已发生了错误。可使用各种公知的方法来执行错误检查,并且可将关于当前帧是正常帧还是错误帧的信息提供给频域解码单元234或时域解码单元235。

模式确定单元233可检查包括在比特流中的编码模式信息,并将当前帧提供给频域解码单元234或时域解码单元235。

当编码模式是音乐模式或频域模式时,频域解码单元234可进行操作,并且当当前帧是正常帧时,频域解码单元234可通过一般的变换解码处理进行解码来产生合成的频谱系数。当当前帧是错误帧,并且先前帧的编码模式是音乐模式或频域模式时,频域解码单元234可通过帧错误隐藏算法对pgf的频谱系数进行缩放来产生合成的频谱系数。频域解码单元234可通过对合成的频谱系数执行频时变换来产生时域信号。

当编码模式是语音模式或时域模式时,时域解码单元235可进行操作,并且当当前帧是正常帧时,时域解码单元235可通过一般的celp解码处理进行解码来产生时域信号。当当前帧是错误帧,并且先前帧的编码模式是语音模式或时域模式时,时域解码单元235可执行时域中的帧错误隐藏算法。

后处理单元236可对从频域解码单元234或时域解码单元235提供的时域信号执行滤波、上采样等,但不限于此。后处理单元236提供重建的音频信号作为输出信号。

图3a和图3b分别是根据另一示例性实施例的音频编码设备310和音频解码设备330的框图。

图3a中示出的音频编码设备310可包括预处理单元312、线性预测(lp)分析单元313、模式确定单元314、频域激励编码单元315、时域激励编码单元316和参数编码单元317。这些组件可被集成在至少一个模块中,并可被实现为至少一个处理器(未示出)。

在图3a中,由于预处理单元312基本上与图1a的预处理单元112相同,因此省略其描述。

lp分析单元313可通过对输入信号执行lp分析来提取lp系数,并从提取的lp系数产生激励信号。可根据编码模式将激励信号提供给频域激励编码单元315和时域激励编码单元316中的一个。

由于模式确定单元314基本上与图2a的模式确定单元213相同,因此省略其描述。

当编码模式是音乐模式或频域模式时,频域激励编码单元315可进行操作,由于除了输入信号是激励信号之外,频域激励编码单元315基本上与图1a的频域编码单元114相同,因此省略其描述。

当编码模式是语音模式或时域模式时,时域激励编码单元316可进行操作,并且由于时域激励编码单元316基本上与图2a的时域编码单元215相同,因此省略其描述。

参数编码单元317可从提供自频域激励编码单元315或时域激励编码单元316的编码后的频谱系数提取参数,并对提取的参数进行编码。由于参数编码单元317基本上与图1a的参数编码单元116相同,因此省略其描述。作为编码的结果而获得的频谱系数和参数可与编码模式信息一起形成比特流,并且比特流可通过信道以包的形式被发送,或可被存储在存储介质中。

图3b中示出的音频解码设备330可包括参数解码单元332、模式确定单元333、频域激励解码单元334、时域激励解码单元335、lp合成单元336和后处理单元337。频域激励解码单元334和时域激励解码单元335中的每一个可包括每个相应域中的帧错误隐藏算法。这些组件可被集成在至少一个模块中,并可被实现为至少一个处理器(未示出)。

在图3b中,参数解码单元332可从以包的形式发送的比特流解码出参数,并从解码后的参数以帧为单位检查是否已发生错误。可将各种公知的方法用于错误检查,并且可将关于当前帧是正常帧还是错误帧的信息提供给频域激励解码单元334或时域激励解码单元335。

模式确定单元333可检查包括在比特流中的编码模式信息,并将当前帧提供给频域激励解码单元334或时域激励解码单元335。

当编码模式是音乐模式或频域模式时,频域激励解码单元334可进行操作,并且当当前帧是正常帧时,频域激励解码单元334可通过一般的变换解码处理进行解码来产生合成的频谱系数。当当前帧是错误帧,并且先前帧的编码模式是音乐模式或频域模式时,频域激励解码单元334可通过帧错误隐藏算法对pgf的频谱系数进行缩放来产生合成的频谱系数。频域激励解码单元334可通过对合成的频谱系数执行频时变换来产生激励信号,其中,所述激励信号是时域信号。

当编码模式是语音模式或时域模式时,时域激励解码单元335可进行操作,并且当当前帧是正常帧时,时域激励解码单元335可通过一般的celp解码处理进行解码来产生激励信号,其中,所述激励信号为时域信号。当当前帧是错误帧,并且先前帧的编码模式是语音模式或时域模式时,时域激励解码单元335可执行时域中的帧错误隐藏算法。

lp合成单元336可通过对从频域激励解码单元334或时域激励解码单元335提供的激励信号执行lp合成来产生时域信号。

后处理单元337可对从lp合成单元336提供的时域信号执行滤波、上采样等,但是不限于此。后处理单元337提供重建的音频信号作为输出信号。

图4a和图4b分别是根据另一示例性实施例的音频编码设备410和音频解码设备430的框图,其中,音频编码设备410和音频解码设备430具有切换结构。

图4a中示出的音频编码设备410可包括预处理单元412、模式确定单元413、频域编码单元414、lp分析单元415、频域激励编码单元416、时域激励编码单元417和参数编码单元418。这些组件可被集成在至少一个模块中,并可被实现为至少一个处理器(未示出)。由于可考虑通过组合图2a的音频编码设备210和图3a的音频编码设备310来得到图4a中示出的音频编码设备410,因此不重复共同部件的操作描述,并且现在将描述模式确定单元413的操作。

模式确定单元413可通过参考输入信号的特性和比特率来确定输入信号的编码模式。模式确定单元413可基于根据输入信号的特性当前帧是语音模式还是音乐模式以及基于对于当前帧有效的编码模式是时域模式还是频域模式,来将编码模式确定为celp模式或另一模式。当输入信号的特性与语音模式相应时,模式确定单元413可将编码模式确定为celp模式,当输入信号的特性与音乐模式和高比特率相应时,模式确定单元413可将编码模式确定为频域模式,当输入信号的特性与音乐模式和低比特率相应时,模式确定单元413可将编码模式确定为音频模式。模式确定单元413可在编码模式是频域模式时将输入信号提供给频域编码单元414,在编码模式是音频模式时经由lp分析单元415将输入信号提供给频域激励编码单元416,并在编码模式是celp模式时经由lp分析单元415将输入信号提供给时域激励编码单元417。

频域编码单元414可与图1a的音频编码设备110的频域编码单元114或图2a的音频编码设备210的频域编码单元214相应,并且频域激励编码单元416或时域激励编码单元417可与图3a的音频编码设备310中的频域激励编码单元315或时域激励编码单元316相应。

图4b中示出的音频解码设备430可包括参数解码单元432、模式确定单元433、频域解码单元434、频域激励解码单元435、时域激励解码单元436、lp合成单元437和后处理单元438。频域解码单元434、频域激励解码单元435和时域激励解码单元436中的每一个可包括每个相应域中的帧错误隐藏算法。这些组件可被集成在至少一个模块中,并可被实现为至少一个处理器(未示出)。由于可考虑通过组合图2b的音频解码设备230和图3b的音频解码设备330来得到图4b中示出的音频解码设备430,因此不重复共同部分的操作描述,并且现在将描述模式确定单元433的操作。

模式确定单元433可检查包括在比特流中的编码模式信息,并将当前帧提供给频域解码单元434、频域激励解码单元435或时域激励解码单元436。

频域解码单元434可与图1b的音频解码设备130中的频域解码单元134或图2b的音频解码设备230中的频域解码单元234相应,频域激励解码单元435或时域激励解码单元436可与图3b的音频解码设备330中的频域激励解码单元334或时域激励解码单元335相应。

图5是根据示例性实施例的频域音频编码设备的框图。

图5中示出的频域音频编码设备510可包括瞬态检测单元511、变换单元512、信号分类单元513、范数编码单元514、频谱归一化单元515、比特分配单元516、频谱编码单元517和复用单元518。这些组件可被集成在至少一个模块中,并可被实现为至少一个处理器(未示出)。频域音频编码设备510可执行图2中示出的频域音频编码单元214的全部功能和参数编码单元216的部分功能。除了信号分类单元513之外,频域音频编码设备510可被在itu-tg.719标准中公开的编码器的配置代替,并且变换单元512可使用重叠时长为50%的变换窗。另外,除了瞬态检测单元511和信号分类单元513之外,频域音频编码设备510可被在itu-tg.719标准中公开的编码器的配置代替。在每个情况下,虽然未示出,但是噪声级别估计单元还可被包括在如itu-tg.719标准中的频谱编码单元517的后端,以估计在比特分配处理中没有被分配比特的频谱系数的噪声级别,并将估计的噪声级别插入比特流中。

参照图5,瞬态检测单元511可通过分析输入信号来检测展现瞬态特性的时长,并响应于检测的结果针对每个帧产生瞬态信号信息。各种公知方法可被用于检测瞬态时长。根据示例性实施例,当变换单元可使用重叠时长小于50%的窗时,瞬态检测单元511可首先确定当前帧是否是瞬态帧,然后验证已被确定为瞬态帧的当前帧。瞬态信号信息可由复用单元518包括在比特流中,并可被提供给变换单元512。

变换单元512可根据瞬态时长的检测结果确定将被用于变换的窗大小,并基于确定的窗大小来执行时频变换。例如,短窗可被应用于已检测到瞬态时长的子频带,长窗可被应用于还未检测到瞬态时长的子频带。作为另一示例,短窗可被应用于包括瞬态时长的帧。

信号分类单元513可分析从变换单元512提供的频谱以确定每个帧是否与谐波帧相应。各种公知的方法可被用于确定谐波帧。根据示例性实施例,信号分类单元513可将从变换单元512提供的频谱划分为多个子频带,并针对每个子频带获得峰值能量值和平均能量值。随后,信号分类单元513可针对每个帧获得峰值能量值比平均能量值高预定比例或预定比例以上的子频带的数量,并将获得的子频带的数量大于或等于预定值的帧确定为谐波帧。可预先通过实验或仿真来确定预定比例和预定值。谐波信号信息可通过复用单元518被包括在比特流中。

范数编码单元514可在每个子频带单元中获得与平均频谱能量相应的范数值,并对范数值进行量化和无损编码。每个子频带的范数值可被提供给频谱归一化单元515和比特分配单元516,并可通过复用单元518被包括在比特流中。

频谱归一化单元515可通过使用在每个子频带单元中获得的范数值来对频谱进行归一化。

比特分配单元516可通过使用在每个子频带单元中获得的范数值来按整数单位或小数点单位来分配比特。另外,比特分配单元516可通过使用在每个子频带单元中获得的范数值来计算掩蔽阈值,并通过使用掩蔽阈值来估计感知所需的比特数量,即,可允许的比特数量。比特分配单元516可限制分配的比特数量不超过每个子频带的可允许的比特数量。比特分配单元516可从具有更大的范数值的子频带开始顺序地分配比特,并根据每个子频带的感知重要性对每个子频带的范数值进行加权,以调整分配的比特数量,从而更多数量的比特被分配给感知重要的子频带。如在itu-tg.719标准中,从范数编码单元514提供给比特分配单元516的量化后的范数值可在被预先调整之后用于比特分配以考虑心理声学加权和掩蔽效应。

频谱编码单元517可通过使用每个子频带的分配的比特数量来对归一化后的频谱进行量化,并对量化的结果进行无损编码。例如,阶乘脉冲编码(fpc)可被用于频谱编码,但频谱编码不限于此。根据fpc,可以以阶乘格式来表示分配数量的比特内的信息,诸如脉冲的位置、脉冲的幅度和脉冲的符号。关于由频谱编码单元517编码的频谱的信息可通过复用单元518被包括在比特流中。

图6是用于描述当使用重叠时长小于50%的窗时需要拖尾延迟保护(hangover)标志的时长的示图。

参照图6,当当前帧n+1的已被检测为瞬态的时长与没有执行重叠的时长610相应时,瞬态帧的窗(例如,短窗)不必用于下一帧n。然而,当当前帧n+1的已被检测为瞬态的时长与发生重叠的时长610相应时,可通过针对下一帧n使用瞬态帧的窗来预期已考虑了信号特性的重建声音质量的提高。如上所述,当使用了重叠时长小于50%的窗时,可根据帧中被检测为瞬态的位置来确定是否产生拖尾延迟保护标志。

图7是根据示例性实施例的图5中示出的瞬态检测单元511(在图7中被称为710)的框图。

图7中示出的瞬态检测单元710可包括滤波单元712、短期能量计算单元713、长期能量计算单元714、第一瞬态确定单元715、第二瞬态确定单元716和信号信息产生单元717。这些组件可被集成在至少一个模块中,并可被实现为至少一个处理器(未示出)。除了短期能量计算单元713、第二瞬态确定单元716和信号信息产生单元717之外,瞬态检测单元710可被在itu-tg.719标准中公开的配置代替。

参照图7,滤波单元712可对在例如48khz采样的输入信号执行高通滤波。

短期能量计算单元713可接收由滤波单元712滤波的信号,将每个帧划分为例如四个子帧(即,四个块),并计算每个块的短期能量。另外,短期能量计算单元713还可针对输入信号以帧为单位计算每个块的短期能量,并将计算出的每个块的短期能量提供给第二瞬态确定单元716。

长期能量计算单元714可以以帧为单位计算每个块的长期能量。

第一瞬态确定单元715可针对每个块将短期能量与长期能量进行比较,如果在当前帧的块中短期能量比长期能量高预定比例或预定比例以上,则确定当前帧是瞬态帧。

第二瞬态确定单元716可执行附加验证处理,并可再次确定已被确定为瞬态帧的当前帧是否是瞬态帧。这是为了防止由于因滤波单元712中的高通滤波而导致的低频带中的能量去除而发生的瞬态确定错误。

现在在如图8所示一个帧由四个块构成(即,四个子帧0、1、2和3被分配给四个块)并且基于帧n的第二块1将帧检测为瞬态的情况下描述第二瞬态确定单元716的操作。

首先,具体地,可将在帧n的第二块1之前存在的第一多个块l810的短期能量的第一平均值与包括帧n中的第二块1和其后存在的块的第二多个块h830的短期能量的第二平均值进行比较。在这种情况下,根据被检测为瞬态的位置,包括在第一多个块l810中的块的数量和包括在第二多个块h830中的块的数量可改变。也就是说,可计算包括已被检测为瞬态的块和在其后存在的块的第一多个块的短期能量的平均值(即,第二平均值)与在已被检测为瞬态的块之前存在的第二多个块的短期能量的平均值(即,第一平均值)之比。

其次,可计算在高通滤波之前的帧n的短期能量的第三平均值与在高通滤波之后的帧n的短期能量的第四平均值之比。

最后,如果第二平均值与第一平均值之比在第一阈值和第二阈值之间,并且第三平均值与第四平均值之比大于第三阈值,则即使第一瞬态确定单元715已首先确定了当前帧是瞬态帧,第二瞬态确定单元716也可做出当前帧是正常帧的最终确定。

可通过实验或仿真来预先设置第一阈值至第三阈值。例如,第一阈值和第二阈值可被分别设置为0.7和2.0,对于超宽带信号,第三阈值可被设置为50,对于宽带信号,第三阈值可被设置为30。

由第二瞬态确定单元716执行的两个比较处理可防止具有短暂大幅度的信号被检测为瞬态的错误。

返回参照图7,信号信息产生单元717可从在第二瞬态确定单元716中的确定结果,根据先前帧的拖尾延迟保护标志确定当前帧的帧类型是否要被更新,根据当前帧的已被检测为瞬态的块的位置来不同地设置当前帧的拖尾延迟保护标志,产生其结果作为瞬态信号信息。现将参照图9详细地描述此操作。

图9是用于描述根据示例性实施例的图7中示出的信号信息产生单元717的操作的流程图。图9示出如图8中构造的一个,使用重叠时长小于50%的变换窗,并且在块2和3发生重叠的情况。

参照图9,在操作912,可从第二瞬态确定单元716接收最终确定的当前帧的帧类型。

在操作913,可基于当前帧的帧类型来确定当前帧是否是瞬态帧。

如果在操作913确定当前帧的帧类型不指示瞬态帧,则在操作914,可检查针对先前帧设置的拖尾延迟保护标志。

在操作915,可确定先前帧的拖尾延迟保护标志是否是1,如果作为在操作915中的确定结果,先前帧的拖尾延迟保护标志是1,即,如果先前帧是影响重叠的瞬态帧,则在操作916,不是瞬态帧的当前帧可被更新为瞬态帧,并且随后当前帧的拖尾延迟保护标志可被设置为0以用于下一帧。将当前帧的拖尾延迟保护标志设置为0表示由于当前帧是由于先前帧而被更新的瞬态帧,因此下一帧不受当前帧的影响。

如果作为在操作915中的确定结果,先前帧的拖尾延迟保护标志是0,则在操作917,可在不更新帧类型的情况下,将当前帧的拖尾延迟保护标志设置为0。也就是说,保持当前帧的帧类型不是瞬态帧。

如果作为在操作913中的确定结果,当前帧的帧类型指示瞬态帧,则在操作918,可接收已在当前帧中检测到的并被确定为瞬态的块。

在操作919,可确定已在当前帧中检测到的并被确定为瞬态的块是否与重叠时长相应,例如,在图8中,确定已在当前帧中检测到的并被确定为瞬态的块的数量是否大于1,即,是否是2或3。如果在操作919确定已在当前帧中检测到的并被确定为瞬态的块与2或3(指示重叠时长)不相应,则在操作917,可在不更新帧类型的情况下,将当前帧的拖尾延迟保护标志设置为0。也就是说,如果已在当前帧中检测到的并被确定为瞬态的块的数量为0,则可将当前帧的帧类型保持为瞬态帧,并且可将当前帧的拖尾延迟保护标志设置0以不影响下一帧。

如果作为在操作919中的确定结果,已在当前帧中检测到的并被确定为瞬态的块与2或3(指示重叠时长)相应,则在操作920,可在不更新帧类型的情况下,将当前帧的拖尾延迟保护标志设置为1。也就是说,虽然当前帧的帧类型被保持为瞬态帧,但是当前帧可影响下一帧。这表示如果当前帧的拖尾延迟保护标志是1,则虽然确定下一帧不是瞬态帧,下一帧也可被更新为瞬态帧。

在操作921,当前帧的拖尾延迟保护标志和当前帧的帧类型可被形成为瞬态信号信息。具体地说,当前帧的帧类型(即,指示当前帧是否是瞬态帧的信号信息)可被提供给音频解码设备。

图10是根据示例性实施例的频域音频解码设备1030的框图,其中,频域音频解码设备1030可与图1b的频域解码单元134、图2b的频域解码单元234、图3b的频域激励解码单元334或图4b的频域解码单元434相应。

图10中示出的频域音频解码设备1030可包括频域帧错误隐藏(fec)模块1032、频谱解码单元1033、第一存储器更新单元1034、逆变换单元1035、普通重叠相加(ola)单元1036和时域fec模块1037。除了嵌入在第一存储器更新单元1034中的存储器(未示出)之外的组件可被集成在至少一个模块中,并可被实现为至少一个处理器(未示出)。第一存储器更新单元1034的功能可被分配给并包括在频域fec模块1032和频谱解码单元1033中。

参照图10,参数解码单元1010可从接收到的比特流解码出参数,并从解码出的参数以帧为单位检查是否已发生错误。参数解码单元1010可与图1b的参数解码单元132、图2b的参数解码单元232、图3b的参数解码单元332或图4b的参数解码单元432相应。由参数解码单元1010提供的信息可包括指示当前帧是否是错误帧的错误标志和到目前为止连续的错误帧的数量。如果确定在当前帧中已发生错误,则诸如坏帧指示符(bfi)的错误标志可被设置为1,指示不存在用于错误帧的信息。

频域fec模块1032可在其中具有频域错误隐藏算法,并且当由参数解码单元1010提供的错误标志bfi是1且先前帧的解码模式是频域模式时,频域fec模块1032可进行操作。根据示例性实施例,频域fec模块1032可通过重复在存储器(未示出)中存储的pgf的合成频谱系数来产生错误帧的频谱系数。在这种情况下,可通过考虑先前帧的帧类型和到目前为止已发生的错误帧的数量来执行重复处理。为了方便描述,当已连续发生的错误帧的数量是2个或更多个时,此事件与突发错误相应。

根据示例性实施例,当当前帧是形成突发错误的错误帧,并且先前帧不是瞬态帧时,频域fec模块1032可从例如第五错误帧开始将解码出的pgf的频谱系数强制向下缩放固定值3db。也就是说,如果当前帧与连续发生的错误帧中的第五错误帧相应,则频域fec模块1032可通过减少解码出的pgf的频谱系数的能量并重复能量减少的频谱系数,来产生第五错误帧的频谱系数。

根据另一示例性实施例,当当前帧是形成突发错误的错误帧,并且先前帧是瞬态帧时,频域fec模块1032可从例如第二错误帧开始将解码出的pgf的频谱系数向下缩放固定值3db。也就是说,如果当前帧与连续发生的错误帧中的第二错误帧相应,则频域fec模块1032可通过减少解码出的pgf的频谱系数的能量并重复能量减少的频谱系数,来产生第二错误帧的频谱系数。

根据另一示例性实施例,当当前帧是形成突发错误的错误帧时,频域fec模块1032可通过随机地改变针对错误帧产生的频谱系数的符号来针对每个帧减小由于频谱系数的重复而产生的调制噪声。在形成突发错误的错误帧组中随机符号开始将被应用到的错误帧可根据信号特性而不同。根据示例性实施例,可根据信号特性是否指示当前帧是瞬态而不同地设置随机符号开始将被应用到的错误帧的位置,或者,可针对不是瞬态的信号之中的稳态信号不同地设置随机符号开始将被应用到的错误帧的位置。例如,当确定在输入信号中存在谐波分量时,输入信号可被确定为信号波动不严重的稳态信号,并且与稳态信号相应的错误隐藏算法可被执行。通常,从编码器发送的信息可被用于输入信号的谐波信息。当低复杂度不是必需的时,可使用由解码器合成的信号来获得谐波信息。

可将随机符号应用到错误帧的所有频谱系数,或者,由于通过不将随机符号应用到等于或小于例如200hz的非常低的频带中可预期更好的性能,因此可将随机符号应用到高于预定义频带的频带中的频谱系数。这是因为在低频带中,波形或能量会因为符号的改变而产生相当大的改变。

根据另一示例性实施例,频域fec模块1032不仅可对形成突发错误的错误帧应用向下缩放或随机符号,还可在每隔一个的帧是错误帧的情况下应用向下缩放或随机符号。也就是说,当当前帧是错误帧,在前一个的帧(one-framepreviousframe)是正常帧,并且在前两个的帧(two-framepreviousframe)是错误帧时,可应用向下缩放或随机符号。

当由参数解码单元1010提供的错误标志bfi是0时,即,当当前帧是正常帧时,频谱解码单元1033可进行操作。频谱解码单元1033可通过使用由参数解码单元1010解码的参数执行频谱解码来合成频谱系数。将在下面参照图11和图12更详细地描述频谱解码单元1033。

关于作为正常帧的当前帧,第一存储器更新单元1034可针对下一帧对合成频谱系数、使用解码出的参数获得的信息、到目前为止连续发生的错误帧的数量、关于信号特性或每个帧的帧类型的信息等进行更新。信号特性可包括瞬态特性或稳态特性,帧类型可包括瞬态帧、稳态帧或谐波帧。

逆变换单元1035可通过对合成频谱系数执行时频逆变换来产生时域信号。逆变换单元1035可基于当前帧的错误标志和先前帧的错误标志来将当前帧的时域信号提供给普通ola单元1036和时域fec模块1037之一。

当当前帧和先前帧都是正常帧时,普通ola单元1036可进行操作。普通ola单元1036可通过使用先前帧的时域信号来执行普通ola处理,作为普通ola处理的结果,产生当前帧的最终时域信号,并将最终时域信号提供给后处理单元1050。

当当前帧是错误帧时,或者当当前帧是正常帧,先前帧是错误帧并且最近的pgf的解码模式是频域模式时,时域fec模块1037可进行操作。也就是说,当当前帧是错误帧时可由频域fec模块1032和时域fec模块1037执行错误隐藏处理,当先前帧是错误帧并且当前帧是正常帧时,可由时域fec模块1037执行错误隐藏处理。

图11是根据示例性实施例的图10中示出的频谱解码单元1033(在图11中被称为1110)的框图。

图11中示出的频谱解码单元1110可包括无损解码单元1112、参数反量化单元1113、比特分配单元1114、频谱反量化单元1115、噪声填充单元1116和频谱成形单元1117。噪声填充单元1116可在频谱成形单元1117的后端。这些组件可被集成在至少一个模块中,并可被实现为至少一个处理器(未示出)。

参照图11,无损解码单元1112可对在编码处理中已执行无损编码的参数(例如,范数值或频谱系数)执行无损解码。

参数反量化单元1113可对无损解码后的范数值进行反量化。在解码处理中,可使用各种方法(例如矢量量化(vq)、标量量化(sq)、网格编码量化(tcq)、格矢量量化(lvq)等)之一对范数值进行量化,可使用相应方法来对范数值进行反量化。

比特分配单元1114可基于量化后的范数值或反量化后的范数值以子频带为单位分配所需的比特。在这种情况下,以子频带为单位分配的比特的数量可与在编码处理中分配的比特的数量相同。

频谱反量化单元1115可通过使用以子频带为单位分配的比特的数量执行反量化处理来产生归一化的频谱系数。

噪声填充单元1116可产生噪声信号,并以子频带为单位将噪声信号填充到归一化的频谱系数之中的需要噪声填充的部分中。

频谱成形单元1117可通过使用反量化后的范数值来使归一化的频谱系数成形。可通过频谱成形处理来获得最终解码后的频谱系数。

图12是根据另一示例性实施例的图10中示出的频谱解码单元1033(在图12中被称为1210)的框图,其中,频谱解码单元1033可被优选地应用到短窗被用于信号波动严重的帧(例如,瞬态帧)的情况。

图12中示出的频谱解码单元1210可包括无损解码单元1212、参数反量化单元1213、比特分配单元1214、频谱反量化单元1215、噪声填充单元1216、频谱成形单元1217和解交织单元1218。噪声填充单元1216可在频谱成形单元1217的后端。这些组件可被集成在至少一个模块中,并可被实现为至少一个处理器(未示出)。与图11中示出的频谱解码单元1110相比,还增加了解交织单元1218,因此,不再重复相同组件的操作的描述。

首先,当当前帧是瞬态帧时,将被使用的变换窗需要比用于稳态帧的变换窗(参照图13的1310)更短。根据示例性实施例,瞬态帧可被划分为四个子帧,总共四个短窗(参照图13的1330)可被用作用于每个子帧的短窗。在描述解交织单元1218的操作之前,现将描述编码器端中的交织处理。

可设置使得当瞬态帧被划分为四个子帧时使用四个短窗获得的四个子帧的频谱系数的和与针对瞬态帧使用一个长窗获得的频谱系数的和相同。首先,通过应用四个短窗来执行变换,并且作为结果,可获得频谱系数的四个集。接下来,按照每个集的频谱系数的顺序来连续执行交织。具体地说,如果假设第一短窗的频谱系数是c01、c02、…、c0n,第二短窗的频谱系数是c11、c12、…、c1n,第三短窗的频谱系数是c21、c22、…、c2n,第四短窗的频谱系数是c31、c32、…、c3n,则交织的结果可以是c01、c11、c21、c31、…、c0n、c1n、c2n、c3n。

如上所述,通过交织处理,可像使用长窗的情况一样来更新瞬态帧,并可执行诸如量化和无损编码的后续编码处理。

返回参照图12,解交织单元1218可被用于将由频谱成形单元1217提供的重建频谱系数更新为最初使用短窗的情况。瞬态帧具有能量波动严重的特性,通常趋向于在开始部分具有低能量在结束部分具有高能量。因此,当pgf是瞬态帧时,如果瞬态帧的重建频谱系数被重复用于错误帧,则由于能量波动严重的帧连续存在,因此噪声会非常大。为了防止这点,当pgf是瞬态帧时,可使用利用第三短窗和第四短窗解码的频谱系数代替使用第一短窗和第二短窗解码的频谱系数,来产生错误帧的频谱系数。

图14是根据示例性实施例的图10中示出的普通ola单元1036(在图14中被称为1410)的框图,其中,普通ola单元1036(在图14中被称为1410)可在当前帧和先前帧是正常帧时进行操作,并对由逆变换单元(图10的1035)提供的时域信号(即,imdct信号)执行ola处理。

图14中示出的普通ola单元1410可包括加窗单元1412和ola单元1414。

参照图14,加窗单元1412可对当前帧的imdct信号执行加窗处理以去除时域混叠。以下将参照图19来描述重叠时长小于50%的窗的情况。

ola单元1414可对加窗后的imdct信号执行ola处理。

图19是用于描述当使用重叠时长小于50%的窗时由编码设备和解码设备执行的用于去除时域混叠的加窗处理的示例的示图。

参照图19,可以以彼此相反的方向来表示由编码设备使用的窗格式和由解码设备使用的窗格式。当新的输入被接收到时,编码设备通过使用过去存储的信号来应用加窗。当重叠时长的大小被减小以防止时间延迟时,重叠时长可位于窗的两端。解码设备通过对当前帧n中图19(a)的旧音频输出信号执行ola处理来生成音频输出信号,其中,当前帧n的区域与旧加窗imdct输出信号的区域相同。音频输出信号的将来区域被用于在下一帧中的ola处理。图19(b)示出根据示例性实施例的用于隐藏错误帧的窗格式。当在频域编码中发生错误时,通常重复过去的频谱系数,因此,可能无法在错误帧中去除时域混叠。因此,修改的窗可被用于隐藏由于时域混叠而造成的失真(artifact)。具体地说,当使用重叠时长小于50%的窗时,为了减少由于短重叠时长而引起的噪声,可通过将重叠时长的长度1930调整为jms(0<j<帧大小)来对重叠进行平滑。

图15是根据示例性实施例的图10中示出的时域fec模块1037的框图。

图15中示出的时域fec模块1510可包括fec模式选择单元1512、第一时域错误隐藏单元1513、第二时域错误隐藏单元1514、第三时域错误隐藏单元1515和第二存储器更新单元1516。第二存储器更新单元1516的功能可被包括在第一时域错误隐藏单元1513、第二时域错误隐藏单元1514和第三时域错误隐藏单元1515中。

参照图15,fec模式选择单元1512可通过接收当前帧的错误标志bfi、先前帧的错误标志prev_bfi和连续错误帧的数量来选择在时域中的fec模式。对于错误标志,1可指示错误帧,0可指示正常帧。当连续错误帧的数量等于或大于例如2时,可确定突发错误被形成。作为在fec模式选择单元1512的选择结果,可将当前帧的时域信号提供给第一时域错误隐藏单元1513、第二时域错误隐藏单元1514和第三时域错误隐藏单元1515中的一个。

第一时域错误隐藏单元1513可在当前帧是错误帧时执行错误隐藏处理。

第二时域错误隐藏单元1514可在当前帧是正常帧并且先前帧是形成随机错误的错误帧时执行错误隐藏处理。

第三时域错误隐藏单元1515可在当前帧是正常帧并且先前帧是形成突发错误的错误帧时执行错误隐藏处理。

第二存储器更新单元1516可更新用于对当前帧进行错误隐藏处理的各种类型的信息,并将该信息存储在存储器(未示出)中以用于下一帧。

图16是根据示例性实施例的图15中示出的第一时域错误隐藏单元1513的框图。当当前帧是错误帧时,如果通常使用重复在频域中获得的过去的频谱系数的方法,如果在imdct和加窗之后执行ola处理,则在当前帧的开始部分中的时域混叠分量改变,并因此不可能进行完美重建,从而导致不希望的噪声。即使使用重复方法,第一时域错误隐藏单元1513也可被用于使噪声的出现最小化。

图16中示出的第一时域错误隐藏单元1610可包括加窗单元1612、重复单元1613、ola单元1614、重叠大小选择单元1615和平滑单元1616。

参照图16,加窗单元1612可执行与图14的加窗单元1412的操作相同的操作。

重复单元1613可将重复的在前两个的帧(被称为“在前旧”)的imdct信号应用到作为错误帧的当前帧的开始部分。

ola单元1614可对由重复单元1613重复的信号和当前帧的imdct信号执行ola处理。作为结果,可产生当前帧的音频输出信号,并可通过使用在前两个的帧的信号来减少音频输出信号的开始部分中的噪声的产生。即使当在频域中应用缩放和先前帧的频谱的重复时,也可大大减少当前帧的开始部分中的噪声的产生的可能性。

重叠大小选择单元1615可选择将在平滑处理中应用的平滑窗的重叠时长的长度ov_size,其中,ov_size可以总是相同的值(例如,针对20ms的帧大小的12ms)或者可根据特定条件而不同地调整。特定条件可包括当前帧的谐波信息、能量差等。谐波信息指示当前帧是否具有谐波特性,并可从编码设备被发送或者由解码设备获得。能量差指示当前帧的能量ecurr与每个帧能量的移动平均ema之间的归一化的能量差的绝对值。可由等式1来表示能量差。

在等式1中,ema=0.8×ema+0.2×ecurr。

平滑单元1616可将选择的平滑窗应用在先前帧的信号(旧音频输出)与当前帧的信号(被称为“当前音频输出”)之间,并执行ola处理。可以以这样的方式形成平滑窗:相邻窗之间的重叠时长的和为1。满足这样的条件的窗的示例是正弦波窗、使用基函数的窗和汉宁窗,但平滑窗不限于此。根据示例性实施例,可使用正弦波窗,在这种情况下,可由等比2来表示窗函数w(n)。

在等式2中,ov_size表示将在平滑处理中使用的重叠时长的长度,其中,ov_size由重叠大小选择单元1615选择。

通过执行如上所述的平滑处理,当当前帧是错误帧时,可防止先前帧和当前帧之间的不连续性,其中,该不连续性可因为通过使用从在前两个的帧复制的imdct信号来代替在先前帧中存储的imdct信号而产生。

图17是根据示例性实施例的图15中示出的第二时域错误隐藏单元1514的框图。

图17中示出的第二时域错误隐藏单元1710可包括重叠大小选择单元1712和平滑单元1713。

参照图17,重叠大小选择单元1712可如图16的重叠大小选择单元1615一样,选择将在平滑处理中应用的平滑窗的重叠时长的长度ov_size。

平滑单元1713可将选择的平滑窗应用在旧imdct信号和当前imdct信号之间,并执行ola处理。同样,可以以这样的方式形成平滑窗:相邻窗之间的重叠时长的和为1。

也就是说,当先前帧是随机错误帧,并且当前帧是正常帧时,由于不可能进行正常加窗,因此难以去除先前帧的imdct信号和当前帧的imdct信号之间的重叠时长中的时域混叠。因此,可通过执行平滑处理来代替ola处理来使噪声最小化。

图18是根据示例性实施例的图15中示出的第三时域错误隐藏单元1515的框图。

图18中示出的第三时域错误隐藏单元1810可包括重复单元1812、缩放单元1813、第一平滑单元1814、重叠大小选择单元1815和第二平滑单元1816。

参照图18,重复单元1812可将作为正常帧的当前帧的imdct信号之中的与下一帧相应的部分复制到当前帧的开始部分。

缩放单元1813可调整当前帧的规模以防止突然信号(suddensignal)的增大。根据示例性实施例,缩放单元1813可执行向下缩放3db。缩放单元1813可以是可选的。

第一平滑单元1814可将平滑窗应用到先前帧的imdct信号和从将来帧(futureframe)复制的imdct信号,并执行ola处理。同样,可以以这样的方式形成平滑窗:相邻窗之间的重叠时长的和为1。也就是说,当将来信号被复制时,需要加窗来去除可能在先前帧和当前帧之间发生的不连续性,可通过ola处理使过去信号被将来信号代替。

像图16的重叠大小选择单元1615一样,重叠大小选择单元1815可选择将在平滑处理中应用的平滑窗的重叠时长的长度ov_size。

第二平滑单元1816可通过将选择的平滑窗应用在作为被代替的信号的旧imdct信号和作为当前帧信号的当前imdct信号之间,来执行ola处理,同时去除不连续性。同样,可以以这样的方式形成平滑窗:相邻窗之间的重叠时长的和为1。

也就是说,当先前帧是突发错误帧并且当前帧是正常帧时,由于不可能进行正常加窗,因此不能去除先前帧的imdct信号和当前帧的imdct信号之间的重叠时长中的时域混叠。在突发错误帧中,由于能量的减少或连续的重复可能产生噪声等,因此可采用复制将来信号以用于当前帧的重叠的方法。在这种情况下,平滑处理可被执行两次,以去除当前帧中可能产生的噪声并同时去除在先前帧和当前帧之间可能发生的不连续性。

图20是用于描述图18中的使用ngf的时域信号进行ola处理的示例的示图。

图20(a)示出当先前帧不是错误帧时通过使用先前帧执行重复或增益缩放的方法。参照图20(b),为了不使用额外延迟,通过仅针对尚未通过重叠解码的部分将在作为ngf的当前帧中解码的时域信号重复到过去来执行重叠,并还执行增益缩放。将被重复的信号的大小可被选为小于或等于重叠部分的大小的值。根据示例性实施例,重叠部分的大小可以是13×l/20,其中,例如,对于窄带(nb),l是160,对于宽带(wb),l是320,对于超宽带(swb),l是640,对于全频带(fb),l是960。

现在将描述通过重复获得ngf的时域信号来生成将用于时间重叠处理的信号的方法。

在图20(b)中,通过将在帧n+2的将来部分中标记的大小为13×l/20的块复制到帧n+1中的与帧n+2的将来部分的相同位置相应的将来部分,来执行缩放调整,以使用帧n+2的将来部分的值来代替帧n+1的将来部分的现有值。例如,缩放的值是-3db。为了去除在复制中的帧n+2和帧n+1之间的不连续性,从图20(b)中的帧n+1(先前帧值)获得的时域信号和从将来部分复制的信号可在大小为13×l/20的第一块处彼此线性重叠。通过该处理,可获得用于重叠的最终信号,当更新的n+1信号和n+2信号彼此重叠时,可输出帧n+2的最终时域信号。

图21是根据另一示例性实施例的频域音频解码设备2130的框图。与图10中示出的实施例相比,还包括了稳态检测单元2138。因此,不再重复与图10的组件相同的组件的操作的详细描述。

参照图21,稳态检测单元2138可通过分析由逆变换单元2135提供的时域信号来检测当前帧是否是稳态的。在稳态检测单元2138中的检测的结果可被提供给时域fec模块2136。

图22是根据示例性实施例的图21中示出的稳态检测单元2138(在图22中被称为2210)的框图。在图21中示出的稳态检测单元2210可包括稳态帧检测单元2212和滞后应用(hysteresisapplication)单元2213。

参照图22,稳态帧检测单元2212可通过接收包括包络变化量(envelopedelta)env_delta、先前帧的稳态模式stat_mode_old、能量差diff_energy等的信息,来确定当前帧是否是稳态。通过使用关于频域的信息来获得包络变化量env_delta,包络变化量env_delta指示先前帧和当前帧之间的每个频带范数值差的平均能量。可由等式3来表示包络变化量env_delta。

eed_ma=env_smf*eed+(1-env_smf)*eed_ma(3)

在等式3中,norm_old(k)表示先前帧的频带k的范数值,norm(k)表示当前帧的频带k的范数值,nb_sfm表示频带的数量,eed表示当前帧的包络变化量,eed_ma是通过将平滑因子应用到eed而获得的,并可被设置为将用于稳态确定的包络变化量,env_smf表示包络变化量的平滑因子,并根据本发明的示例性实施例,env_smf可以是0.1。具体地,当能量差diff_energy小于第一阈值,并且包络变化量env_delta小于第二阈值时,当前帧的稳态模式stat_mode_curr可被设置为1。第一阈值和第二阈值分别可以是0.032209和1.305974,但不限于此。

如果确定当前帧是稳态,则滞后应用单元2213可通过应用先前帧的稳态模式stat_mode_old来产生当前帧的最终稳态信息stat_mode_out,以防止当前帧的稳态信息的频繁改变。也就是说,如果在稳态帧检测单元2212中确定当前帧是稳态并且先前帧是稳态,则当前帧被检测为稳态帧。

图23是根据示例性实施例的图21中示出的时域fec模块2136的框图。

图23中示出的时域fec模块2310可包括fec模式选择单元2312、第一时域错误隐藏单元2313、第二时域错误隐藏单元2314和第一存储器更新单元2315。第一存储器更新单元2315的功能可被包括在第一时域错误隐藏单元2313和第二时域错误隐藏单元2314中。

参照图23,fec模式选择单元2312可通过接收当前帧的错误标志bfi、先前帧的错误标志prev_bfi和各种参数来选择时域中的fec模式。对于错误标志,1可指示错误帧,0可指示正常帧。作为fec模式选择单元2312中的选择结果,当前帧的时域信号可被提供给第一时域错误隐藏单元2313和第二时域错误隐藏单元2314。

第一时域错误隐藏单元2313可在当前帧是错误帧时执行错误隐藏处理。

第二时域错误隐藏单元2314可在当前帧是正常帧且先前帧是错误帧时执行错误隐藏处理。

第一存储器更新单元2315可更新用于对当前帧进行错误隐藏处理的各种类型的信息,并可将这些信息存储在存储器(未示出)中以用于下一帧。

在由第一时域错误隐藏单元2313和第二时域错误隐藏单元2314执行的ola处理中,可根据输入信号是瞬态还是稳态,或者当输入信号是稳态时根据稳态级别,来应用最佳方法。根据示例性实施例,当信号是稳态时,平滑窗的重叠时长的长度被设置为长,否则,可原样使用在普通ola处理中使用的长度。

图24是用于描述根据示例性实施例的当当前帧是错误帧时图23的fec模式选择单元2312的操作的流程图。

在图24中,当当前帧是错误帧时用于选择fec模式的参数类型如下:当前帧的错误标志、先前帧的错误标志、pgf的谐波信息、ngf的谐波信息和连续错误帧的数量。当当前帧是正常帧时,连续错误帧的数量可被重置。另外,参数还可包括pgf的稳态信息、能量差和包络变化量。每一条谐波信息可从编码器被发送,或者可由解码器单独地产生。

参照图24,在操作2411,可通过使用各种参数确定输入信号是否是稳态。具体地,当pgf是稳态,能量差小于第一阈值,并且pgf的包络变化量小于第二阈值时,可确定输入信号是稳态。可通过实验或仿真预先设置第一阈值和第二阈值。

如果在操作2411中确定输入信号是稳态,则在操作2413,可执行重复和平滑处理。如果确定输入信号是稳态,则平滑窗的重叠时长的长度可被设置为更长,例如,设置为6ms。

如果在操作2411中确定输入信号不是稳态,则在操作2415,可执行普通ola处理。

图25是用于描述根据示例性实施例的当先前帧是错误帧并且当前帧不是错误帧时图23的fec模式选择单元2312的操作的流程图。

参照图25,在操作2512,可通过使用各种参数确定输入信号是否是稳态。可使用与图24的操作2411使用的相同参数。

如果在操作2512中确定输入信号不是稳态,则在操作2513,可通过检查连续错误帧的数量是否大于1来确定先前帧是否是突发错误帧。

如果在操作2512中确定输入信号是稳态,则在操作2514,可响应于作为错误帧的先前帧,执行对ngf的错误隐藏处理,即,重复和平滑处理。当确定输入信号是稳态时,平滑窗的重叠时长的长度可被设置为更长,例如,设置为6ms。

如果在操作2513中确定输入信号不是稳态并且先前帧是突发错误帧,则在操作2515,可响应于作为突发错误帧的先前帧,执行对ngf的错误隐藏处理。

如果在操作2513中确定输入信号不是稳态并且先前帧是随机错误帧,则在操作2516,可执行普通ola处理。

图26是示出根据示例性实施例的图23的第一时域错误隐藏单元2313的操作的流程图。

参照图26,在操作2601,当当前帧是错误帧时,可重复先前帧的信号,并可执行平滑处理。根据示例性实施例,可应用重叠时长为6ms的平滑窗。

在操作2603,可将重叠区域中的预定时长的能量pow1与非重叠区域中的预定时长的能量pow2进行比较。具体地说,当在错误隐藏处理之后重叠区域的能量减小或显著增加时,由于当在重叠中相位颠倒时会发生能量的减小,当在重叠中相位保持时会发生能量的增加,因此可执行普通ola处理。当信号比较平稳时,由于在操作2601中的错误隐藏性能很好,因此如果作为操作2601的结果,重叠区域和非重叠区域之间的能量差大,则表示由于在重叠中的相位而产生了问题。

如果作为在操作2603的比较结果,重叠区域和非重叠区域之间的能量差大,则在操作2604,不选择操作2601的结果,并可执行普通ola处理。

如果作为在操作2603的比较结果,重叠区域和非重叠区域之间的能量差不大,则可选择操作2601的结果。

图27是示出根据示例性实施例的图23的第二时域错误隐藏单元2314的操作的流程图。图27的操作2701、操作2702和操作2703分别与图25的操作2514、操作2515和操作2516相应。

图28是示出根据另一示例性实施例的图23的第二时域错误隐藏单元2314的操作的流程图。与图27的实施例相比,图28的实施例不同之处在于当作为ngf的当前帧是瞬态帧时的错误隐藏处理(操作2801)以及当作为ngf的当前帧不是瞬态帧时使用具有不同的重叠时长长度的平滑窗的错误隐藏窗(操作2802和2803)。也就是说,图28的实施例可被应用于除了普通ola处理之外还包括对瞬态帧的ola处理的情况。

图29是用于描述根据示例性实施例的图26中的当当前帧是错误帧时的错误隐藏方法的框图。与图16的实施例相比,图29的实施例不同之处在于不包括与重叠大小选择单元(图16的1615)相应的组件,同时还包括了能量检查单元2916。也就是说,平滑单元2915可应用预定平滑窗,能量检查单元2916可执行与图26的操作2603和2604相应的功能。

图30是用于描述根据本发明的实施例的图28中的当先前帧是错误帧时用于作为瞬态帧的ngf的错误隐藏方法的框图。当先前帧的帧类型是瞬态时,可优选地应用图30的实施例。也就是说,由于先前帧是瞬态时,可通过在过去帧中使用的错误隐藏方法来执行对ngf的错误隐藏处理。

参照图30,窗更新单元3012可通过考虑先前帧的窗来更新将被用于对当前帧进行平滑处理的窗的重叠时长的长度。

平滑单元3013可通过将由窗更新单元3012更新的平滑窗应用到先前帧和作为ngf的当前帧,来执行平滑处理。

图31是用于描述根据本发明的实施例的图27或图28中的当先前帧是错误帧时用于不是瞬态帧的ngf的错误隐藏方法的框图,其中,该错误隐藏方法与图17和图18的实施例相应。也就是说,根据连续错误帧的数量,可如图17中那样执行与随机错误帧相应的错误隐藏处理,或者可如图18中那样执行与突发错误帧相应的错误隐藏处理。然而,与图17和图18的实施例相比,图31的实施例的不同之处在于预先设置了重叠大小。

图32是用于描述图26中的当当前帧是错误帧时的ola处理的示例的示图。图32(a)是针对瞬态帧的示例。图32(b)示出对非常平稳的帧的ola处理,其中,m的长度长于n,并且在平滑处理中的重叠时长的长度长。图32(c)示出对比图32(b)的情况更不平稳的帧的ola处理,图32(d)示出普通ola处理。该ola处理可与对ngf的ola处理独立地被使用。

图33是用于描述图27中的先前帧是随机错误帧时对ngf的ola处理的示例的示图。图33(a)示出对非常平稳的帧的ola处理,其中,长度k长于l,在平滑处理中的重叠时长的长度长。图33(b)示出对比图33a的情况不平稳的帧的ola处理,图33(c)示出普通ola处理。该ola处理可与对错误帧的ola处理独立地被使用。因此,可进行错误帧和ngf之间的ola处理的各种组合。

图34是用于描述图27中的当先前帧是突发错误帧时对ngfn+2的ola处理的示例的示图。与图18和图20相比,图34的不同之处在于可通过调整平滑窗的重叠时长的长度3412或3413来执行平滑处理。

图35是用于描述应用于示例性实施例的相位匹配方法的概念的示图。

参照图35,当在解码的音频信号中的帧n中发生错误时,可在缓冲器中存储的n个过去正常帧中搜索与先前帧n-1中的解码信号中的搜索区段3512最相似的匹配区段3513,其中,搜索区段3512与帧n相邻。此时,可根据与将被搜索的音调分量相应的最小频率的波长来确定搜索区段3512的大小和缓冲器中的搜索范围。为了使搜索的复杂度最小化,搜索区段3512的大小优选为小。例如,搜索区段3512的大小可被设置为大于最小频率的波长的一半,并小于最小频率的波长。缓冲器中的搜索范围可被设置为等于或大于将被搜索的最小频率的波长。具体地说,可从搜索范围内的过去解码信号之中搜索到与搜索区段3512具有最高互相关性的匹配区段3513,可获得与匹配区段3513相应的位置信息,并可通过考虑窗长度(例如,通过将帧长度和重叠时长的长度相加而获得的长度)来设置从匹配区段3513的末端开始的预定时长3514,并将预定时长3514复制到已发生错误的帧n。

图36是根据示例性实施例的错误隐藏设备3610的框图。

图36中示出的错误隐藏设备3610可包括相位匹配标志产生单元3611、第一fec模式选择单元3612、相位匹配fec模块3613、时域fec模块3614和存储器更新单元3615。

参照图36,相位匹配标志产生单元3611可产生相位匹配标志,其中,相位匹配标志用于确定当在下一帧中发生错误时是否在每个正常帧中使用相位匹配错误隐藏处理。为此,可使用每个子频带的能量和频谱系数。可从范数值获得能量,但不限于此。具体地说,当作为正常帧的当前帧中的具有最大能量的子频带属于预定低频带,并且帧内或帧间能量改变不大时,相位匹配标志可被设置为1。根据示例性实施例,当当前帧中的具有最大能量的子频带属于75hz到1000hz,并且当前帧中关于相应子频带的索引与先前帧的关于相应子频带的索引相同时,可将相位匹配错误隐藏处理应用到已发生错误的下一帧。根据另一示例性实施例,当当前帧中的具有最大能量的子频带属于75hz到1000hz,并且当前帧的关于相应子频带的索引与先前帧中关于相应子频带的索引之间的差小于或等于1时,可将相位匹配错误隐藏处理应用到已发生错误的下一帧。根据另一示例性实施例,当当前帧中的具有最大能量的子频带属于75hz到1000hz,当前帧的关于相应子频带的索引与先前帧的关于相应子频带的索引相同,当前帧是能量改变小的稳态帧,并且在缓冲器中存储的n个过去帧是正常帧且不是瞬态帧时,可将相位匹配错误隐藏处理应用到已发生错误的下一帧。根据另一示例性实施例,当当前帧中的具有最大能量的子频带属于75hz到1000hz,当前帧的关于相应子频带的索引与先前帧的关于相应子频带的索引之间的差小于或等于1,当前帧是能量改变小的稳态帧,并且在缓冲器中存储的n个过去帧是正常帧且不是瞬态帧时,可将相位匹配错误隐藏处理应用到已发生错误的下一帧。可通过对差能量与在上述的稳态帧检测处理中使用的阈值进行比较来确定当前帧是否是稳态帧。另外,可确定在缓冲器中存储的多个过去帧之中的最近的三个帧是否是正常帧,可确定在缓冲器中存储的多个过去帧之中的最近的两个帧是否是瞬态帧,但本实施例不限于此。

当由相位匹配标志产生单元3611产生的相位匹配标志被设置1时,如果在下一帧发生错误,则可应用相位匹配错误隐藏处理。

第一fec模式选择单元3612可通过考虑相位匹配标志以及先前帧和当前帧的状态来从多个fec模式选择一个fec模式。相位匹配标志可指示pgf的状态。先前帧和当前帧的状态可包括先前帧或当前帧是否是错误帧,当前帧是随机错误帧还是突发错误帧,或者是否已执行了对先前错误帧的相位匹配错误隐藏处理。根据示例性实施例,多个fec模式可包括使用相位匹配错误隐藏处理的第一主fec模式和使用时域错误隐藏处理的第二主fec模式。第一主fec模式可包括第一子fec模式、第二子fec模式和第三子fec模式,其中,第一子fec模式被用于相位匹配标志被设置为1并且是随机错误帧的当前帧,第二子fec模式在先前帧是错误帧并且已执行了对先前帧的相位匹配错误隐藏处理时被用于作为ngf的当前帧,第三子fec模式在已执行了对先前帧的相位匹配错误隐藏处理时被用于形成突发错误帧的当前帧。根据示例性实施例,第二主fec模式可包括第四子fec模式和第五子fec模式,其中,第四子fec模式被用于相位匹配标志被设置为0并且是错误帧的当前帧,第五子fec模式被用于相位匹配标志被设置为0并且是先前错误帧的ngf的当前帧。根据示例性实施例,可以以与参照图23所描述的相同方法来选择第四子fec模式或第五子fec模式,并可根据选择的fec模式来执行相同的错误隐藏处理。

当由第一fec模式选择单元3612选择的fec模式是第一主fec模式时,相位匹配fec模块3613可进行操作,并可通过执行与第一子fec模式至第三子fec模式中的每一个子fec模式相应的相位匹配错误隐藏处理,来产生错误被隐藏的时域信号。这里,为了便于描述,示出了经过存储器更新单元3615输出错误被隐藏的时域信号。

当由第一fec模式选择单元3612选择的fec模式是第二主fec模式时,时域fec模块3614可进行操作,并可通过执行与第四子fec模式和第五子fec模式中的每一个子fec模式相应的相位匹配错误隐藏处理,来产生错误被隐藏的时域信号。同样,为了便于描述,示出了经过存储器更新单元3615输出错误被隐藏的时域信号。

存储器更新单元3615可接收在相位匹配fec模块3613或时域fec模块3614中的错误隐藏的结果,并可更新用于对下一帧进行错误隐藏处理的多个参数。根据示例性实施例,存储器更新单元3615的功能可被包括在相位匹配fec模块3613和时域fec模块3614中。

如上所述,通过针对错误帧重复时域中的相位匹配信号来代替重复频域中获得的频谱系数,在使用重叠时长的长度小于50%的窗时,可有效地抑制在低频带中的重叠时长中可能产生的噪声。

图37是根据示例性实施例的图36的相位匹配fec模块3613或时域fec模块3614的框图。

图37中示出的相位匹配fec模块3710可包括第二fec模式选择单元3711、第一相位匹配错误隐藏单元3712、第二相位匹配错误隐藏单元3713和第三相位匹配错误隐藏单元3714,图37中示出的时域fec模块3730可包括第三fec模式选择单元3731、第一时域错误隐藏单元3732和第二时域错误隐藏单元3733。根据示例性实施例,第二fec模式选择单元3711和第三fec模式选择单元3731可被包括在图36的第一fec模式选择单元3612中。

参照图37,当pgf在预定低频带中具有最大能量并且能量的改变小于预定阈值时,第一相位匹配错误隐藏单元3712可对作为随机错误帧的当前帧执行相位匹配错误隐藏处理。根据本发明的实施例,即使满足以上条件,也可获得相关性尺度(correlationscale)acca,并可根据相关性尺度acca是否在预定范围内来执行相位匹配错误隐藏处理或普通ola处理。也就是说,通过考虑搜索范围中存在的区段之间的相关性以及搜索区段与搜索范围中存在的区段之间的互相关性,来优选地确定是否执行相位匹配错误隐藏处理。现将更详细地描述该处理。

可通过等式4来获得相关性尺度acca。

在等式4中,d表示在搜索范围中存在的区段的数量,rxy表示用于针对存储在帧冲器中的n个过去正常帧(y信号)搜索具有与搜索区段(x信号)3512相同长度的匹配区段3513(参照图35)的互相关性,ryy表示存储在缓冲器中的n个过去正常帧(y信号)中存在的区段之间的相关性。

接下来,可确定相关性尺度acca是否在预定范围内,如果相关性尺度acca在预定范围内,则可执行对作为错误帧的当前帧的相位匹配错误隐藏处理,否则,可执行对当前帧的普通ola处理。根据示例性实施例,如果相关性尺度acca小于0.5或大于1.5,则可执行普通ola处理,否则,可执行相位匹配错误隐藏处理。这里,上限值和下限值仅是说明性的,并可通过实验或仿真来将上限值和下限值预先设置为最佳值。

当先前帧是错误帧并且已执行了对先前帧的相位匹配错误隐藏处理时,第二相位匹配错误隐藏单元3713可对作为pgf的当前帧执行相位匹配错误隐藏处理。

当先前帧是错误帧并且已执行了对先前帧的相位匹配错误隐藏处理时,第三相位匹配错误隐藏单元3714可对形成突发错误帧的当前帧执行相位匹配错误隐藏处理。

当pgf在预定低频带中不具有最大能量时,第一时域错误隐藏单元3732可对作为错误帧的当前帧执行时域错误隐藏处理。

当pgf在预定低频带中不具有最大能量时,第二时域错误隐藏单元3733可对作为先前错误帧的ngf的当前帧执行时域错误隐藏处理。

图38是根据示例性实施例的图37的第一相位匹配错误隐藏单元3712或第二相位匹配错误隐藏单元3713的框图。

图38中示出的相位匹配错误隐藏单元3810可包括最大相关性搜索单元3812、复制单元3813和平滑单元3814。

参照图38,最大相关性搜索单元3812可从存储在缓冲器中的n个过去正常帧中搜索与pgf中的解码信号中的搜索区段具有最大相关性(即,最相似)的匹配区段,其中,搜索区段与当前帧相邻。作为搜索的结果而获得的匹配区段的位置索引可被提供给复制单元3813。最大相关性搜索单元3812可按照相同的方式针对作为随机错误帧的当前帧或在先前帧是随机错误帧并且已执行了对先前帧的相位匹配错误隐藏处理时的作为正常帧的当前帧来进行操作。当当前帧是错误帧时,可优选地预先执行频域错误隐藏处理。根据示例性实施例,最大相关性搜索单元3812可获得用于在已确定将执行相位匹配错误隐藏处理的作为错误帧的当前帧的相关性尺度,并再次确定相位匹配错误隐藏处理是否合适。

复制单元3813可通过参考匹配区段的位置索引来将从匹配区段的末端开始的预定时长复制到作为错误帧的当前帧。另外,当先前帧是随机错误帧并且已执行了对先前帧的相位匹配错误隐藏处理时,复制单元3813可通过参考匹配区段的位置索引来将从匹配区段的末端开始的预定时长复制到作为正常帧的当前帧。此时,与窗长度相应的时长可被复制到当前帧。根据示例性实施例,当从匹配区段的末端开始的可复制时长比窗长度短时,从匹配区段的末端开始的可复制时长可被重复地复制到当前帧。

平滑单元3814可通过ola执行平滑处理来产生关于错误被隐藏的当前帧的时域信号,以使当前帧和相邻帧之间的不连续性最小化。将参照图39和图40来详细描述平滑单元3814的操作。

图39是用于描述根据示例性实施例的图38的平滑单元3814的操作的示图。

参照图39,可在存储在缓冲器中的n个过去正常帧中搜索与先前帧n-1中的解码信号中的搜索区段3912最相似的匹配区段3913,其中,搜索区段3912与作为错误帧的当前帧n相邻。接下来,可通过考虑窗长度,将从匹配区段3913的末端开始的预定时长复制到已发生错误的当前帧n。当复制处理完成时,可在当前帧n的开始部分,对复制的信号3914和存储在先前帧n-1中的用于重叠的oldauout信号3915执行第一重叠时长3916的重叠。由于信号的相位彼此匹配,因此第一重叠时长3916的长度可比在普通ola处理中使用的长度更短。例如,如果在普通ola处理中使用6ms,则第一重叠时长3916可使用1ms,但不限于此。当从匹配区段3913的末端开始的可复制时长比窗长度短时,从匹配区段3913的末端开始的可复制时长可部分重叠,并可被重复地复制到当前帧n。根据示例性实施例,重叠时长可与第一重叠时长3916相同。在这种情况下,可在下一帧n+1的开始部分,对两个复制的信号3914和3917中的重叠部分与存储在当前帧n中的用于重叠的oldauout信号3918执行第二重叠时长3919的重叠。由于信号的相位彼此匹配,因此第二重叠时长3919的长度可比在普通ola处理中使用的长度更短。例如,第二重叠时长3919的长度可与第一重叠时长3916的长度相同。也就是说,当从匹配区段3913的末端开始的可复制时长等于或长于窗长度时,可执行仅针对第一重叠时长3916的重叠。如上所述,通过对复制的信号3914和存储在先前帧n-1中的用于重叠的oldauout信号3915的重叠,可使在当前帧n的开始部分与先前帧n-1的不连续性最小化。作为结果,可产生信号3920,其中,信号3920与窗长度相应,并且对于信号3920,已执行了当前帧n和先前帧n-1之间的平滑处理并且错误已被隐藏。

图40是用于描述根据另一示例性实施例的图38的平滑单元3814的操作的示图。

参照图40,可在存储在缓冲器中的n个过去正常帧中搜索与先前帧n-1中的解码信号中的搜索区段4012最相似的匹配区段4013,其中,搜索区段4012与作为错误帧的当前帧n相邻。接下来,可通过考虑窗长度,将从匹配区段4013的末端开始的预定时长复制到已发生错误的当前帧n。当复制处理完成时,可在当前帧n的开始部分,对复制的信号4014和存储在先前帧n-1中的用于重叠的oldauout信号4015执行第一重叠时长4016的重叠。由于信号的相位彼此匹配,因此第一重叠时长4016的长度可比在普通ola处理中使用的长度更短。例如,如果在普通ola处理中使用6ms,则第一重叠时长4016可使用1ms,但不限于此。当从匹配区段4013的末端开始的可复制时长比窗长度短时,从匹配区段4013的末端开始的可复制时长可部分重叠,并可被重复地复制到当前帧n。在这种情况下,可执行对两个复制的信号4014和4017中的重叠部分的重叠。重叠部分4019的长度可优选地与第一重叠时长4016的长度相同。也就是说,当从匹配区段4013的末端开始的可复制时长等于或长于窗长度时,可执行仅针对第一重叠时长4016的重叠。如上所述,通过对复制的信号4014和存储在先前帧n-1中的用于重叠的oldauout信号4015执行重叠,可使在当前帧n的开始部分与先前帧n-1的不连续性最小化。作为结果,可产生第一信号4020,其中,第一信号4020与窗长度相应,并且对于第一信号4020,已执行了当前帧n和先前帧n-1之间的平滑处理并且错误已被隐藏。接下来,通过在重叠时长4022中执行对与重叠时长4022相应的信号和存储在当前帧n中的用于重叠的oldauout信号4018的重叠,可产生第二信号4023,其中,对于第二信号4023,作为错误帧的当前帧n和重叠时长4022中的下一帧n+1之间的不连续性被最小化。

因此,当信号的主频率(例如,基本频率)在每个帧中不同时,或者当信号快速变化时,即使在复制的信号的尾部(即,与下一帧n+1的重叠时长中)发生相位失配,也可通过执行平滑处理来使当前帧n和下一帧n+1之间的不连续性最小化。

图41是根据示例性实施例的包括编码模块的多媒体装置的框图。

参照图41,多媒体装置4100可包括通信单元4110和编码模块4130。另外,多媒体装置4100还可根据作为编码的结果而获得的音频比特流的使用来包括用于存储该音频比特流的存储单元4150。此外,多媒体装置4100还可包括麦克风4170。也就是说,可选择性地包括存储单元4150和麦克风4170。多媒体装置4100还可包括任意解码模块(未示出),例如,用于执行普通解码功能的解码模块或根据示例性实施例的解码模块。编码模块4130可通过与包括在多媒体装置4100中的其它组件(未示出)集成为一体来由至少一个处理器(例如,中央处理器(未示出))来实现。

通信单元4110可接收从外部提供的音频信号或编码比特流中的至少一个,或可发送恢复音频信号或作为由编码模块4130进行编码的结果而获得的编码比特流中的至少一个。

通信单元4110被配置为通过无线网络(诸如无线互联网、无线内联网、无线电话网络、无线局域网(lan)、wi-fi、wi-fi直连(wfd)、第三代(3g)、第四代(4g)、蓝牙、红外数据组织(irda)、射频识别(rfid)、超宽带(uwb)、zigbee或近场通信(nfc))或有线网络(诸如有线电话网络或有线互联网),将数据发送到外部多媒体装置,或从外部多媒体装置接收数据。

根据示例性实施例,编码模块4130可考虑在通过通信单元4110或麦克风4170提供的时域信号中,当前帧中的检测为瞬态的时长是否属于重叠时长,来设置用于下一帧的拖尾延迟保护标志。

存储单元4150可存储由编码模块4130产生的编码比特流。另外,存储单元4150可存储操作多媒体装置4100所需要的各种程序。

麦克风4170可将来自用户或外部的音频信号提供给编码模块4130。

图42是根据示例性实施例的包括解码模块的多媒体装置的框图。

图42的多媒体装置4200可包括通信单元4210和解码模块4230。另外,根据作为解码结果而获得的恢复的音频信号的使用,图42的多媒体装置4200还可包括用于存储恢复的音频信号的存储单元4250。另外,图42的多媒体装置4200还可包括扬声器4270。也就是说,存储单元4250和扬声器4270是可选的。图42的多媒体装置4200还可包括编码模块(未示出),例如,用于执行普通编码功能的编码模块或根据示例性实施例的编码模块。解码模块4230可与包括在多媒体装置4200中的其它组件(未示出)集成,并可由至少一个处理器(例如,中央处理器(cpu))实现。

参照图42,通信单元4210可接收从外部提供的音频信号或编码比特流中的至少一个,或可发送作为解码模块4230的解码结果而获得的恢复音频信号或作为编码的结果获得的音频比特流中的至少一个。通信单元4210可与图41的通信单元4110实质上相似地实现。

根据示例性实施例,解码模块4230可接收通过通信单元4210提供的比特流,当当前帧是错误帧时在频域中执行错误隐藏处理,当当前帧是正常帧时对频谱系数进行解码,对作为错误帧或正常帧的当前帧执行时频逆变换处理,基于在时频逆变换处理之后产生的时域信号中的当前帧和当前帧的先前帧的状态来选择fec模式,并基于选择的fec模式对当前帧执行相应的时域错误隐藏处理,其中,当前帧是错误帧,或者当先前帧是错误帧时当前帧是正常帧。

存储单元4250可存储由解码模块4230产生的恢复音频信号。另外,存储单元4250可存储操作多媒体装置4200所需的各种程序。

扬声器4270可将由解码模块4230产生的恢复音频信号输出到外部。

图43是根据示例性实施例的包括编码模块和解码模块的多媒体装置的框图。

图43中示出的多媒体装置4300可包括通信单元4310、编码模块4320和解码模块4330。另外,多媒体装置4300还可根据作为编码的结果而获得的音频比特流和作为解码的结果而获得的恢复音频信号的使用,来包括用于存储音频比特流和恢复音频信号的存储单元4340。另外,多媒体装置4300还可包括麦克风4350和/或扬声器4360。编码模块4320和解码模块4330可通过与包括在多媒体装置4300中的其它组件(未示出)集成为一体,来由至少一个处理器(例如,中央处理器(cpu))(未示出)实现。

由于图43中示出的多媒体装置4100的组件与由图41中示出的多媒体装置4100的组件或图42中示出的多媒体装置4200的组件相应,因此,省略对其的详细描述。

图41、图42和图43中示出的多媒体装置4100、4200和4300中的每一个可包括语音通信专用终端(诸如电话或移动电话)、广播或音乐专用终端(诸如tv或mp3播放器)或语音通信专用终端和广播或音乐专用终端的混合终端装置,但不限于此。另外,多媒体装置4100、4200和4300中的每一个可被用作客户机、服务器或位于客户机和服务器之间的换能器。

当多媒体装置4100、4200或4300是例如移动电话(虽然未示出)时,尽管未示出,但多媒体装置4100、4200或4300还可包括用户输入单元(诸如键区)、用于显示由用户界面或移动电话处理的信息的显示单元以及用于控制移动电话的功能的处理器。另外,移动电话还可包括具有图像拾取功能的相机单元和用于执行移动电话所需的功能的至少一个组件。

当多媒体装置4100、4200或4300是例如tv(虽然未示出)时,尽管未示出,但多媒体装置4100、4200或4300还可包括用户输入单元(诸如键区)、用于显示接收到的广播信息的显示单元以及用于控制tv的所有功能的处理器。另外,tv还可包括用于执行tv的功能的至少一个组件。

根据实施例的方法可被编写为计算机可执行程序,并可被实现在通用数字计算机中,其中,该通用数字计算机通过使用非暂时性计算机可读记录介质执行所述程序。另外,可在实施例中使用的数据结构、程序指令或数据文件可以以各种方式被记录在非暂时性计算机可读记录介质中。非暂时性计算机可读记录介质是可存储随后可由计算机系统读取的数据的任何数据存储装置。非暂时性计算机可读记录介质的示例包括磁存储介质(诸如硬盘、软盘和磁带)、光学记录介质(诸如cd-rom和dvd)、磁光介质(诸如光盘)以及专门被配置为存储和执行程序指令的硬件装置(诸如rom、ram和闪存)。另外,非暂时性计算机可读记录介质可以是用于传输指定程序指令、数据结构等的信号的传输介质。程序指令的示例不仅可包括由编译器创建的机器语言代码还可包括由计算机使用解释器等可执行的高级语言代码。

虽然已专门示出和描述了示例性实施例,但本领域的普通技术人员将理解在不脱离由权利要求限定的本发明构思的精神和范围的情况下,可在示例性实施例中进行形式和细节上的各种改变。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1