基于频率子频带中的频谱动态的音频译码中的时间掩蔽的制作方法

文档序号:2831803阅读:530来源:国知局
专利名称:基于频率子频带中的频谱动态的音频译码中的时间掩蔽的制作方法
技术领域
本发明大体上涉及数字信号处理,且更具体地说,涉及用于对信号进行编码及解码以供存储及/或通信的技术。

背景技术
在数字通信中,通常对信号进行编码以供传输及对信号进行解码以供接收。信号的编码涉及将原始信号转换成适于经由传输媒体来传播的格式。目标是保持原始信号的质量,但消耗较少的媒体带宽。信号的解码涉及译码过程的反转。
已知的译码方案使用脉冲码调制(PCM)的技术。图1展示可为(例如)语音信号的片段的时变信号x(t)。y轴及x轴分别表示信号振幅及时间。通过多个脉冲20来对模拟信号x(t)进行取样。每一脉冲20具有在特定时间表示信号x(t)的振幅。此后可将所述脉冲20中的每一者的振幅编码成数字值以供稍后传输。
为了节省带宽,可在传输之前使用对数压缩扩展过程来压缩PCM脉冲20的数字值。在接收端处,接收器仅执行上述译码过程的反转以恢复原始时变信号x(t)的近似型式。采用前述方案的设备通常被称作a法则或μ法则编解码器。
随着用户数目增加,实际上更需要节省带宽。举例来说,在无线通信系统中,很多用户经常限于共享有限量的频谱。通常在其他用户间为每一用户分配有限带宽。因此,随着用户数目增加,进一步压缩数字信息以便节省传输信道上可用的带宽的需求也增加。
对于话音通信来说,通常使用语音编码器来压缩话音信号。在过去数十年中,语音编码器的发展已取得了显著进展。常用技术采用代码激励线性预测(CELP)的方法。CELP方法的细节可参见普伦蒂斯霍尔(Prentice Hall)出版社出版的拉宾纳(Rabiner)及夏弗(Schafer)的标题为“对语音信号的数字处理(Digital Processing of SpeechSignals)”的出版物(ISBN0132136031,1978年9月);及威利-IEEE(Wiley-IEEE)出版社出版的戴乐(Deller)、普罗科斯(Proakis)及汉森(Hansen)的标题为“对语音信号的离散时间处理(Discrete-Time Processing of Speech Signals)”的出版物(ISBN0780353862,1999年9月)。下文中简要地描述CELP方法所潜藏的基本原理。
参看图1,使用CELP方法来代替个别地以数字方式编码及传输每一PCM样本20,可成群地编码及传输PCM样本20。举例来说,首先将图1中的时变信号x(t)的PCM脉冲20分割成多个帧22。每一帧22具有固定的持续时间,例如20ms。每一帧22内的PCM样本20经由CELP方案而共同地编码且此后进行传输。所述经取样脉冲的示范性帧为图1所示的PCM脉冲群组22A到22C。
为简单起见,仅采用三个PCM脉冲群组22A到22C来进行说明。在传输之前进行编码期间,将PCM脉冲群组22A到22C的数字值连续地馈入到线性预测器(LP)模块。所得输出为一组频率值,还称为“LP滤波器”或简称为“滤波器”,其基本上表示脉冲群组22A到22C的频谱含量。接着量化所述LP滤波器。
LP模块产生PCM脉冲群组22A到22C的频谱表示的近似。因此,在预测过程期间,引入误差或残值。将残值映射到码簿,所述码簿含有可用于紧密匹配PCM脉冲群组22A到22C的经编码数字值的各种组合的条目。所述码簿中的最适合值被映射。被映射的值为待传输的值。整个过程被称作时域线性预测(TDLP)。
因此,在电信中使用CELP方法,编码器(未图示)仅必须产生LP滤波器及被映射的码簿值。传输器仅需要传输LP滤波器及所映像的码簿值来代替如在上述a法则及μ法则编码器中传输经个别编码的PCM脉冲值。因此,可节省大量的通信信道带宽。
在接收器端上,其也具有类似于传输器中的码簿的码簿。接收器中的解码器(未图示)依赖于相同码簿而仅必须反转如上述的译码过程。连同接收到的LP滤波器,可恢复时变信号x(t)。
迄今,许多已知语音译码方案(例如上述CELP方案)是基于正被编码的信号为短时静态的假定。也就是说,所述方案是基于经编码帧的频率含量为静态且可由简单(全极点)滤波器及在激励所述滤波器中的一些输入表示来近似的前提。在得出上述码簿的过程中,各种TDLP算法是基于此种模型的。然而,个体之间的话音模式可能非常不同。非语音音频信号(例如,发自各种乐器的声音)也明显不同于语音信号。此外,在上述的CELP过程中,为了加快实时信号处理,通常选择短时帧。更具体地说,如图1所示,为了在将PCM脉冲群组(例如,22A到22C)的值映射到码簿中的对应向量条目的过程中减少算法延迟,界定短时窗22,例如,如图1所示为20毫秒。然而,从每一帧导出的频谱或共振峰信息多半为共同的且可在其它帧之间共享。因此,以未对带宽节省最有利的方式通过通信信道或多或少地重复发送共振峰信息。
作为优于TLDP算法的改进,已开发出频域线性预测(FDLP)方案以改进对信号质量的保持,不仅可应用于人类语音,而且也可应用于多种其它声音,且另外,更有效地利用通信信道带宽。FDLP基本上为TLDP的频域类似物;然而,在与TLDP相比时,FDLP编码及解码方案能够处理长得多的时间帧。类似于TLDP如何使全极点模型配合输入信号的功率谱,FDLP使全极点模型配合输入信号的平方希尔伯特(Hilbert)包络。虽然FDLP代表了音频及语音编码技术的显著进步,但仍需要改进FDLP编解码器的压缩效率。


发明内容
本文揭示一种用于FDLP音频译码及解码的新的且改进的方法。本文所揭示的技术将时间掩蔽应用于由FDLP译码方案产生的所估计希尔伯特载波。时间掩蔽是人类听觉系统的特性,其中在强烈的瞬时时间信号之后高达100到200ms内出现的声音归因于此强烈的时间分量而被听觉系统掩蔽。已发现,在FDLP编解码器中模型化人耳的时间掩蔽特性改进了编解码器的压缩效率。
根据本文所揭示的方法的一方面,一种对信号进行编码的方法包括提供对所述信号的频率变换;将频域线性预测(FDLP)方案应用于所述频率变换以产生载波;确定时间掩蔽阈值;及基于所述时间掩蔽阈值来量化所述载波。
根据所述方法的另一方面,一种用于对信号进行编码的系统包括频率变换组件,其经配置以产生所述信号的频率变换;FDLP组件,其经配置以响应于所述频率变换而产生载波;时间掩模,其经配置以确定时间掩蔽阈值;及量化器,其经配置以基于所述时间掩蔽阈值来量化所述载波。
根据所述方法的另一方面,一种用于对信号进行编码的系统包括用于提供对所述信号的频率变换的装置;用于将FDLP方案应用于所述频率变换以产生载波的装置;用于确定时间掩蔽阈值的装置;及用于基于所述时间掩蔽阈值来量化所述载波的装置。
根据所述方法的另一方面,一种包含有可由一个或一个以上处理器执行的一组指令的计算机可读媒体包括用于提供对信号的频率变换的代码;用于将FDLP方案应用于所述频率变换以产生载波的代码;用于确定时间掩蔽阈值的代码;及用于基于所述时间掩蔽阈值来量化所述载波的代码。
根据所述方法的另一方面,一种对信号进行解码的方法包括提供根据时间掩蔽阈值确定的量化信息;基于所述量化信息来逆量化所述信号的一部分以恢复载波;及将逆FDLP方案应用于所述载波以恢复经重构信号的频率变换。
根据所述方法的另一方面,一种用于对信号进行解码的系统包括解包化器,其经配置以提供根据时间掩蔽阈值确定的量化信息;逆量化器,其经配置以基于所述量化信息来逆量化所述信号的一部分以恢复载波;及逆FDLP组件,其经配置以响应于所述载波而输出经重构信号的频率变换。
根据所述方法的另一方面,一种用于对信号进行解码的系统包括用于提供根据时间掩蔽阈值确定的量化信息的装置;用于基于所述量化信息来逆量化所述信号的一部分以恢复载波的装置;及用于将逆FDLP方案应用于所述载波以恢复经重构信号的频率变换的装置。
根据所述方法的另一方面,一种包含有可由一个或一个以上处理器执行的一组指令的计算机可读媒体包括用于提供根据时间掩蔽阈值确定的量化信息的代码;用于基于所述量化信息来逆量化所述信号的一部分以恢复载波的代码;及用于将逆FDLP方案应用于所述载波以恢复经重构信号的频率变换的代码。
根据所述方法的另一方面,一种确定时间掩蔽阈值的方法包括提供人类听觉系统的一阶掩蔽模型;通过将校正因子应用于所述一阶掩蔽模型来确定所述时间掩蔽阈值;及在编解码器中提供所述时间掩蔽阈值。
根据所述方法的另一方面,一种用于确定时间掩蔽阈值的系统包括模型器,其经配置以提供人类听觉系统的一阶掩蔽模型;处理器,其经配置以通过将校正因子应用于所述一阶掩蔽模型来确定所述时间掩蔽阈值;及时间掩模,其经配置以在编解码器中提供所述时间掩蔽阈值。
根据所述方法的另一方面,一种用于确定时间掩蔽阈值的系统包括用于提供人类听觉系统的一阶掩蔽模型的装置;用于通过将校正因子应用于所述一阶掩蔽模型来确定所述时间掩蔽阈值的装置;及用于在编解码器中提供所述时间掩蔽阈值的装置。
根据所述方法的另一方面,一种包含有可由一个或一个以上处理器执行的一组指令的计算机可读媒体包括用于提供人类听觉系统的一阶掩蔽模型的代码;用于通过将校正因子应用于所述一阶掩蔽模型来确定所述时间掩蔽阈值的代码;及用于在编解码器中提供所述时间掩蔽阈值的代码。
所属领域的技术人员在查看完以下图式及详细描述后将明了音频译码技术的其它方面、特征、实施例及优点。希望所有此类额外特征、实施例、过程及优点包括于此描述内且受所附权利要求书保护。



应理解,图式仅用于说明目的。此外,各图中的组件未必按比例绘制,而是将着重点放在说明所揭示的音频译码技术的原理上。在各图中,相同参考标号在不同视图中始终表示对应部分。
图1展示经取样为离散信号的时变信号的图形表示。
图2为说明用于对信号进行编码及解码的数字系统的一般化框图。
图3为说明可包括于图2的系统中的使用时间掩蔽的FDLP数字编码器的某些组件的概念框图。
图4为说明图3所示的QMF分析组件的细节的概念框图。
图5为说明可包括于图2的系统中的FDLP数字解码器的某些组件的概念框图。
图6为说明由图1的数字系统对音调性及非音调性信号进行处理的过程流程图。
图7A到图7B为说明使用采用时间掩蔽的FDLP译码方案来对信号进行编码的方法的流程图。
图8为说明使用FDLP解码方案来对信号进行解码的方法的流程图。
图9为说明确定时间掩蔽阈值的方法的流程图。
图10为人耳的绝对听力阈值的图形表示。
图11为展示以dB SPL为单位的示范性子频带帧信号及其对应时间掩蔽阈值与经调整的时间掩蔽阈值的图表。
图12为分割成多个帧的时变信号的图形表示。
图13为时变信号在一帧的持续时间内的离散信号表示的图形表示。
图14为说明在FDLP译码过程中估计希尔伯特包络的方法的流程图。

具体实施例方式 以下详细描述(其参看且并入有图式)描述及说明一个或一个以上特定实施例。充分详细地展示及描述这些实施例以使得所属领域的技术人员能够实践所主张的内容,所述实施例并非经提供以进行限制而是仅为了进行例示及教示。因此,为简短起见,所述描述可能省略所属领域的技术人员已知的某些信息。
词“示范性”在本文中用于意指“充当实例、例子或说明”。本文中描述为“示范性”的任何实施例或变型不必被解释为比其它实施例或变型优选或有利。此描述中所描述的所有实施例及变型为经提供以使得所属领域的技术人员能够制造及使用本发明且未必限制所附权利要求书所给予的法律保护范围的示范性实施例及变型。
在本说明书及所附权利要求书中,除非特定指出,否则在适当时,广义地理解术语“信号”。因此,术语“信号”包括连续及离散信号,且进一步包括频域及时域信号。另外,术语“频率变换”与“频域变换”可互换地使用。同样,术语“时间变换”与“时域变换”可互换地使用。
本发明揭示一种基于模型化频谱动态的新颖且非明显的音频译码技术。简要地说,采用对输入音频信号的频率分解来获得密切遵循临界分解的多个频率子频带。因此,在每一子频带中,预先计算所谓的分析信号且使用离散傅立叶变换(DFT)来变换所述分析信号的平方量值,且接着应用线性预测,从而针对所述子频带中的每一者产生希尔伯特包络及希尔伯特载波。因为采用了频率分量的线性预测,所以所述技术被称作频域线性预测(FDLP)。所述希尔伯特包络及所述希尔伯特载波类似于时域线性预测(TDLP)技术中的频谱包络及激励信号。下文中进一步详细地揭示一种用以改进FDLP编解码器的压缩效率的时间掩蔽技术。具体地说,将前向掩蔽的概念应用于子频带希尔伯特载波信号的编码。通过这样做,可大致上降低FDLP编解码器的位速率而不会使信号质量显著地降级。
更具体地说,所述FDLP译码方案是基于处理长(几百毫秒)时间片段。使用QMF分析来将全频带输入信号分解成子频带。在每一子频带中,应用FDLP且量化表示子频带希尔伯特包络的线谱频率(LSF)。使用DFT来处理残留物(子频带载波)且量化对应频谱参数。在解码器中,重构子频带载波的频谱分量且使用逆DFT将其变换到时域中。使用经重构的FDLP包络(来自LSF参数)来调制对应子频带载波。最后,应用逆QMF块来从频率子频带重构全频带信号。
现转向图式且明确地说转向图2,其为说明用于对信号进行编码及解码的数字系统30的一般化框图。系统30包括编码部分32及解码部分34。数据处置器36安置于部分32与解码器34之间。数据处置器36的实例可为数据存储装置及/或通信信道。
在编码部分32中,存在连接到数据包化器40的编码器38。编码器38实施如本文所述的用于对输入信号进行编码的FDLP技术。包化器40格式化及包封经编码的输入信号及其它信息以供通过数据处置器36输送。时变输入信号x(t)在通过编码器38及数据包化器40处理之后被引导到数据处置器36。
以稍微类似的方式但以相反的次序,在解码部分34中,存在耦合到数据解包化器44的解码器42。将来自数据处置器36的数据馈入到数据解包化器44,数据解包化器44又将所述经解包化的数据发送到解码器42以供重构原始时变信号x(t)。经重构的信号由x′(t)表示。解包化器44从传入数据包提取经编码的输入信号及其它信息。解码器42实施如本文所述的用于对经编码的输入信号进行解码的FDLP技术。
图3为说明可包括于图2的系统30中的使用时间掩蔽的示范性FDLP型编码器38的某些组件的概念框图。编码器38包括正交镜像滤波器(QMF)302、音调性检测器304、时域线性预测(TDLP)滤波器306、频域线性预测(FDLP)组件308、离散傅立叶变换(DFT)组件310、第一分裂向量量化器(VQ)312、第二分裂向量量化器(VQ)316、标量量化器318、相位位分配器320及时间掩模314。编码器38接收时变的连续输入信号x(t),其可为音频信号。所述时变输入信号经取样为离散输入信号。接着由上述组件302到320来处理所述离散输入信号以产生编码器输出。编码器38的输出由数据包化器40包化且操纵成适于经由通信信道或其它数据输送媒体输送到接收者(例如,包括解码部分34的装置)的格式。
QMF 302对所述离散输入信号执行QMF分析。本质上,所述QMF分析将所述离散输入信号分解成三十二个非均一的临界取样的子频带。为此目的,首先使用均一QMF分解来将所述输入音频信号分解成六十四个均一子频带。接着将所述六十四个均一QMF子频带合并以获得三十二个非均一子频带。基于产生所述六十四个子频带的均一QMF分解的FDLP编解码器可在约130kbps下操作。QMF滤波器组可以树状结构(例如,六级二元树)来实施。所述合并等效于捆扎二元树中的位于特定级处的一些分支以形成非均一频带。此捆扎可遵循人类听觉系统,即,较高频率的频带比较低频率的频带更多地合并在一起,因为人耳通常对较低频率更敏感。具体地说,所述子频带在低频率端处比在高频率端处窄。此布置是基于以下发现哺乳动物的听觉系统的感觉生理学与音频频率频谱的低端处的较窄频率范围比与高端处的较宽频率范围更相合。图4中展示由六十四个子频带到三十二个子频带的示范性合并产生的极好重构非均一QMF分解的图形示意图。
将从QMF 302输出的三十二个子频带中的每一者提供到音调性检测器304。所述音调性检测器应用频谱噪声整型(SNS)技术来克服频谱前回声。频谱前回声为在使用FDLP编解码器来对音调性信号进行编码时所出现的一类不合需要的音频假象。如所属领域的技术人员所理解的,音调性信号为在频域中具有强烈脉冲的信号。在FDLP编解码器中,音调性子频带信号可引起对在所述音调周围的频率上扩展的FDLP载波的量化的误差。在由FDLP解码器输出的经重构音频信号中,这看起来如同随着帧持续时间的周期出现的音频成帧假象。此问题被称作频谱前回声。
为了减少或消除频谱前回声的问题,音调性检测器304在每一子频带信号由FDLP组件308处理之前检查每一子频带信号。如果子频带信号被识别为音调性的,则使其通过TDLP滤波器306。如果不是,则在不进行TDLP滤波的情况下将所述非音调性子频带信号传递到FDLP组件308。
由于音调性信号在时域中为高度可预测的,因此音调性子频带信号的时域线性预测的残留物(TDLP滤波器输出)具有可由FDLP组件308有效模型化的频率特性。因此,对于音调性子频带信号来说,经FDLP编码的子频带信号连同所述子频带的TDLP滤波器参数(LPC系数)一起从编码器38输出。在接收器处,对经FDLP解码的子频带信号应用逆TDLP滤波,其使用所输送的LPC系数,以重构所述子频带信号。下文中结合图5及图8来描述解码过程的进一步细节。
FDLP组件308依次地处理每一子频带。具体地说,在频域中预测所述子频带信号,且所述预测系数形成希尔伯特包络。所述预测的残留物形成希尔伯特载波信号。FDLP组件308将传入子频带信号分裂成两个部分由希尔伯特包络系数表示的近似部分以及由希尔伯特载波表示的近似误差。在线谱频率(LSF)域中由FDLP组件308来量化所述希尔伯特包络。将所述希尔伯特载波传递到DFT组件310,在DFT组件310处将其编码到DFT域中。
线谱频率(LSF)对应于所述希尔伯特载波的自回归(AR)模型且根据FDLP系数来计算。所述LSF为由第一分裂VQ 312量化的向量。40阶全极点模型可由所述第一分裂VQ 312用于执行分裂量化。
DFT组件310从FDLP组件308接收所述希尔伯特载波且针对每一子频带希尔伯特载波输出DFT量值信号及DFT相位信号。所述DFT量值及相位信号表示所述希尔伯特载波的频谱分量。将所述DFT量值信号提供到第二分裂VQ 316,其执行对量值频谱分量的向量量化。由于全搜索VQ可能会在计算上为不可行的,所以采用分裂VQ方法来量化所述量值频谱分量。所述分裂VQ方法将计算复杂性及存储器要求降低到易管理的极限而不会严重地影响VQ性能。为了执行分裂VQ,将频谱量值的向量空间划分成较低尺寸的单独分区。跨越所有频率子频带使用林德-布佐-格雷(Linde-Buzo-Gray)(LBG)算法来针对每一分区来训练VQ码簿(在大音频数据库上)。低于4kHz的频带具有较高分辨率的VQ码簿,即,与较高频率子频带相比将更多位分配给较低子频带。
标量量化器318执行对应于子频带的希尔伯特载波的DFT相位信号的非均一标量量化(SQ)。大体上,DFT相位分量在时间上为非相关的。所述DFT相位分量具有接近于均一的分布,且因此具有高熵。为了防止表示DFT相位系数需要消耗过多位,使用较低分辨率的SQ来传输对应于相对较低DFT量值频谱分量的那些内容,即,在标量量化器318中通过自适应性定阈值来处理选自DFT量值码簿的码簿向量。所述阈值比较由相位位分配器320来执行。使用高分辨率SQ来仅传输对应DFT量值高于预定义阈值的DFT频谱相位分量。动态地调适阈值以满足编码器38的指定位速率。
将时间掩模314应用于DFT相位及量值信号以自适应地量化这些信号。时间掩模314允许在某些情况下通过减少表示DFT相位及量值信号所需要的位的数目而进一步压缩音频信号。时间掩模314包括大体上界定在译码过程中允许的最大噪声电平以使得音频对于用户来说保持为感知上可接受的一个或一个以上阈值。对于由编码器38处理的每一子频带帧,确定由编码器38引入到音频中的量化噪声且将其与时间掩蔽阈值进行比较。如果所述量化噪声小于所述时间掩蔽阈值,则减少DFT相位及量值信号的量化电平的数目(即,用于表示所述信号的位的数目),进而增加编码器38的量化噪声电平使其接近或等于由时间掩模314指示的噪声电平。在示范性编码器38中,特定地使用时间掩模314来控制对于对应于每一子频带希尔伯特载波的DFT量值及相位信号的位分配。
可用以下特定方式来应用时间掩模314。针对每一子频带子帧执行基线编解码器(无时间掩蔽的编解码器型式)中所存在的平均量化噪声的估计。所述基线编解码器的量化噪声可能通过量化DFT信号分量(即,从DFT组件310输出的DFT量值及相位信号)而引入且优选地从这些信号测量。子频带子帧的持续时间可为200毫秒。如果给定子频带子帧中的量化噪声的平均值高于时间掩蔽阈值(例如,时间掩模的平均值),则不将位速率减少应用于所述子频带帧的DFT量值及相位信号。如果时间掩模的平均值高于所述量化噪声平均值,则使对所述子频带帧的DFT量值及相位信号进行编码所需要的位(即,用于DFT量值的分裂VQ位及用于DFT相位的SQ位)的量减少某一量,使得所述量化噪声电平接近或等于由时间掩模314给出的最大容许阈值。
基于基线编解码器量化噪声与所述时间掩蔽阈值之间的以dB声压级(SPL)为单位的差值来确定位速率减少的量。如果所述差值较大,则所述位速率减少较大。如果所述差值较小,则所述位速率减少较小。
时间掩模314配置所述第二分裂VQ 316及SQ 318以自适应地实现DFT相位及量值参数的基于掩模的量化。如果在给定子频带子帧内时间掩模的平均值高于噪声平均值,则对所述子频带子帧进行编码所需要的位(用于DFT量值参数的分裂VQ位及用于DFT相位参数的标量量化位)的量以使给定子帧(例如,200毫秒)中的噪声电平可变得等于(平均地)由时间掩模给出的容许阈值(例如,平均值、中值、均方根)的方式来减少。在本文所揭示的示范性编码器38中,八个不同的量化为可用的,使得位速率减少处于八个不同级(其中一个级对应于无位速率减少)。
将关于DFT量值及相位信号的时间掩蔽量化的信息输送到解码部分34,使得其在解码过程中可用于重构音频信号。将每一子频带子帧的位速率减少的级作为辅助信息连同经编码的音频一起输送到解码部分34。
图4为说明图3中的QMF 302的细节的概念框图。QMF 302使用经配置以遵循人耳的听觉反应的QMF分析来将全频带离散输入信号(例如,在48kHz下取样的音频信号)分解成三十二个非均一的临界取样的频率子频带。QMF 302包括具有六个级402到416的滤波器组。为了简化图4,子频带1到16的最后四个级大体上由16信道QMF 418表示,且子频带17到24的最后三个级大体上由8信道QMF 420表示。QMF 302的每一级处的每一分支包括低通滤波器H0(z)404或高通滤波器H1(z)405。每一滤波器之后是经配置以用因子2来对经滤波信号进行分样的分样器↓2406。
图5为说明可包括于图2的系统30中的FDLP型解码器42的某些组件的概念框图。数据解包化器44对从数据处置器36接收到的包中所含有的数据及信息进行解包封,且接着将所述数据及信息传递到编码器42。所述信息至少包括用于每一子频带帧的音调性旗标及用于每一子频带子帧的时间掩蔽量化值。
解码器42的组件本质上执行编码器38中所包括的那些操作的逆操作。解码器42包括第一逆向量量化器(VQ)504、第二逆VQ 506及逆标量量化器(SQ)508。所述第一逆分裂VQ 504接收表示希尔伯特包络的经编码数据,且所述第二逆分裂VQ 506及逆SQ 508接收表示希尔伯特载波的经编码数据。解码器42还包括逆DFT组件510及逆FDLP组件512、音调性选择器514、逆TDLP滤波器516及合成QMF 518。
针对每一子频带,由第一逆分裂VQ 504来逆量化对应于希尔伯特包络的LSF的所接收向量量化索引。从通过第二逆分裂VQ 506逆量化的向量量化索引来重构DFT量值参数。从通过逆SQ 508逆量化的标量值来重构DFT相位参数。通过第二逆分裂VQ 506及逆SQ 508来应用时间掩蔽量化值。逆DFT组件510响应于第二逆分裂VQ 506及逆SQ 508的输出而产生子频带希尔伯特载波。逆FDLP组件512使用经重构的希尔伯特包络来调制子频带希尔伯特载波。
将所述音调性旗标提供到音调性选择器514,以便允许选择器514确定是否应应用逆TDLP滤波。如果如由从编码器38传输的旗标所指示,所述子频带信号为音调性的,则将所述子频带信号发送到逆TDLP滤波器516以供在QMF合成之前进行逆TDLP滤波。如果不是,则所述子频带信号绕过所述逆TDLP滤波器516而到达合成QMF 518。
合成QMF 518执行编码器38的QMF 302的逆操作。使用QMF合成来将所有子频带合并以获得全频带信号。使用适当D/A转换技术来将离散全频带信号转换成连续信号以获得经重构的时变连续信号x′(t)。
图6为说明由图1的数字系统30对音调性及非音调性信号进行处理的过程流程图600。对于从QMF 302输出的每一子频带信号,音调性检测器304确定所述子频带信号是否为音调性的。如上文结合图3所论述的,音调性信号为在频域中具有强烈脉冲的信号。因此,音调性检测器314可将频域变换(例如,DFT)应用于每一子频带信号以确定其频率分量。音调性检测器314接着确定所述子频带的谐波含量,且如果所述谐波含量超过预定阈值,则将所述子频带断言为音调性的。接着将音调性时域子频带信号提供到TDLP滤波器306且在其中进行处理,如上文结合图3所描述。将TDLP滤波器306的输出提供到FDLP编解码器602,FDLP编解码器602可包括解码器38的组件308到320及解码器42的组件504到516。将FDLP编解码器602的输出提供到逆TDLP滤波器516,逆TDLP滤波器516又产生经重构的子频带信号。
非音调性子频带信号绕过TDLP滤波器306而直接提供到FDLP编解码器602;且FDLP编解码器602的输出表示所述经重构的子频带信号,而未由逆TDLP滤波器516进行任何进一步滤波。
图7A到图7B为说明使用采用时间掩蔽的FDLP译码方案来对信号进行编码的方法的流程图700。在步骤702中,将时变输入信号x(t)取样为离散输入信号x(n)。所述时变信号x(t)是(例如)经由脉冲码调制(PCM)过程来取样的。信号x(t)的离散型式由x(n)表示。
接下来,在步骤704中,将所述离散输入信号x(n)分割成帧。时变信号x(t)的一个此类帧由如图12所示的参考标号460来表示。每一帧优选地包括表示输入信号x(t)的1000毫秒的离散样本。选定帧460内的时变信号在图12中被标示为s(t)。在图13中突出显示及复制连续信号s(t)。应注意,图13中所示的信号片段s(t)具有与如图12中所说明的相同信号片段s(t)相比更狭长的时标。也就是说,图13中的x轴的时标与图12的对应x轴标度相比显著地伸展开。
信号s(t)的离散型式由s(n)表示,其中n为索引样本编号的整数。时间连续信号s(t)通过以下代数表达式而与离散信号s(n)相关 s(t)=s(nτ)(1) 其中τ为如图13所示的取样周期。
在步骤706中,将每一帧分解成多个频率子频带。可将QMF分析应用于每一帧以产生所述子频带帧。每一子频带帧表示所述输入信号在一帧的持续时间内的预定带宽切片。
在步骤708中,针对每一子频带帧做出其是否为音调性的确定。这可由音调性检测器来执行,例如上文结合图3及图6描述的音调性检测器314。如果子频带帧为音调性的,则将TDLP滤波应用于所述子频带帧(步骤710)。如果所述子频带帧为非音调性的,则不将TDLP滤波应用于所述子频带帧。
在步骤712中,每一子频带帧内的经取样的信号或TDLP残留物(如果所述信号为音调性的)经受频率变换以针对所述子频带帧获得频域信号。将所述子频带经取样信号表示成针对第k个子频带为sk(n)。在本文所揭示的示范性解码器38中,k为1与32之间的整数,且优选地采用离散傅立叶变换(DFT)的方法来进行频率变换。sk(n)的DFT可表达为
其中sk(n)如上文所定义的,

表示DFT运算,f为所述子频带内的离散频率(0≤f≤N),Tk为sk(n)的N个脉冲的N个经变换值的线性阵列,且N为整数。
在此时,其有助于偏离到定义及区别各种频域及时域项。第k个子频带sk(n)中的离散时域信号可通过其对应频率对应物Tk(f)的逆离散傅立叶变换(IDFT)来获得。第k个子频带sk(n)中的时域信号本质上由两个部分组成,即时域希尔伯特包络hk(n)及希尔伯特载波ck(n)。以另一方式叙述,用希尔伯特包络hk(n)来调制希尔伯特载波ck(n)将导致产生第k个子频带sk(n)中的时域信号。在代数学上,其可表达如下 因此,根据等式(3),如果时域希尔伯特包络hk(n)及希尔伯特载波ck(n)为已知的,则可重构第k个子频带sk(n)中的时域信号。经重构的信号近似于无损重构的信号。
将FDLP应用于每一子频带频域信号以获得对应于相应子频带帧的希尔伯特包络及希尔伯特载波(步骤714)。所述希尔伯特包络部分由作为全极点模型的FDLP方案近似。近似地估计所述希尔伯特载波部分(其表示全极点模型的残留物)。
如早先所提及的,第k个子频带中的时域项希尔伯特包络hk(n)可从对应频域参数Tk(f)导出。在步骤714中,采用对参数Tk(f)的频域线性预测(FDLP)过程来完成此。由FDLP过程产生的数据可为更流畅的,且因此更适于传输或存储。
在以下段落中,简要地描述所述FDLP过程,随后进行更详细的解释。
简要地说,在FDLP过程中,估计希尔伯特包络hk(n)的频域对应物,所述对应物在代数学上表达为

然而,既定被编码的信号为sk(n)。参数sk(n)的频域对应物为Tk(f)。为了从sk(n)获得Tk(f),使用激励信号,例如白噪声。如下文将描述的,由于参数

为近似值,因此还可估计近似值

与实际值Tk(f)之间的差值,所述差值表达为Ck(f)。参数Ck(f)被称作频域希尔伯特载波,且有时还被称作残值。在执行逆FLDP过程之后,直接获得信号sk(n)。
在下文中,描述用于估计希尔伯特包络及希尔伯特载波参数Ck(f)的FDLP过程的进一步细节。
可使用由图14的流程图500所示的方法来导出每一子频带的希尔伯特包络的自回归(AR)模型。在步骤502中,从sk(n)获得分析信号vk(n)。对于离散时间信号sk(n),可使用FIR滤波器或替代地使用DFT方法来获得所述分析信号。具体地说,在使用DFT方法的情况下,用于从实数值N点离散时间信号sk(n)创建复数值N点离散时间分析信号vk(n)的程序如下给出。首先,从sk(n)计算N点DFT Tk(f)。接下来,根据以下等式(4),通过使信号Tk(f)为因果的来形成N点单侧离散时间分析信号频谱(假定N为偶数) Xk(f)=Tk(0), 其中f=0, 2Tk(f),其中1≤f≤N/2-1, (4) Tk(N/2), 其中f=N/2, 0, 其中N/2+1≤k≤N 接着计算Xk(f)的N点逆DFT以获得分析信号vk(n)。
接下来,在步骤505中,从所述分析信号vk(n)估计希尔伯特包络。所述希尔伯特包络本质上为所述分析信号的平方量值,即 hk(n)=|vk(n)|2=vk(n)vk*(n) (5) 其中vk*(n)表示vk(n)的复共轭。
在步骤507中,希尔伯特包络的频谱自相关函数是作为所述离散信号的希尔伯特包络的离散傅立叶变换(DFT)而获得。希尔伯特包络的DFT可写成 其中Xk(f)表示所述分析信号的DFT,且r(f)表示所述频谱自相关函数。离散信号sk(n)的希尔伯特包络及频谱域中的自相关形成傅立叶变换对。以与使用功率谱的逆傅立叶变换来计算所述信号的自相关类似的方式,所述频谱自相关函数可因此作为希尔伯特包络的傅立叶变换而获得。在步骤509中,这些频谱自相关由选定线性预测技术用于通过求解(例如)线性等式系统来执行希尔伯特包络的AR模型化。如下文中进一步详细地论述,可采用列文逊-杜宾(Levinson-Durbin)算法来进行线性预测。一旦执行了AR模型化,便使所得的所估计的FDLP希尔伯特包络为因果的以对应于原始因果序列sk(n)。在步骤511中,从希尔伯特包络的模型来计算希尔伯特载波。下文所描述的技术中的一些可用于从希尔伯特包络模型导出希尔伯特载波。
一般来说,由图14的方法产生的频谱自相关函数将为复杂的,因为希尔伯特包络并非为偶对称的。为了获得实数自相关函数(在频谱域中),用以下方式来使输入信号对称 se(n)=(s(n)+s(-n))/2(7) 其中se[n]表示s的偶对称部分。se(n)的希尔伯特包络也将为偶对称的,且因此,这将导致在频谱域中的实数值自相关函数。为了计算简单而进行此产生实数值频谱自相关的步骤,但可同样良好地对复数值信号进行线性预测。
在编码器38的替代配置中,可使用改为依赖于DCT的不同过程来得到每一子频带的所估计希尔伯特包络。在此配置中,离散信号sk(n)从时域变换到频域在数学上可表达为如下 其中sk(n)为如上文所定义的,f为所述子频带内的离散频率(0≤f≤N),Tk为sk(n)的N个脉冲的N个经变换值的线性阵列,且系数c由


(1≤f≤N-1)给出,其中N为整数。
频域变换Tk(f)的N个脉冲样本被称作DCT系数。
第k个子频带sk(n)中的离散时域信号可通过其对应频率对应物Tk(f)的逆离散余弦变换(IDCT)来获得。在数学上,其表达为如下 其中sk(n)及Tk(f)为如上文所定义的。同样,f为离散频率(0≤f≤N),且系数c由


(1≤f≤N-1)给出。
通过使用上文论述的DFT或DCT方法中的任一者,可使用列文逊-杜宾(Levinson-Durbin)算法来模型化希尔伯特包络。在数学上,待由列文逊-杜宾(Levinson-Durbin)算法估计的参数可表达为如下 其中H(z)为z域中的转移函数,其近似时域希尔伯特包络hk(n);z为z域中的复变量;a(i)为近似希尔伯特包络hk(n)的频域对应物

的全极点模型的第i个系数;i=0,...,K-1。上文已描述了时域希尔伯特包络hk(n)(例如,见图7及图14)。
z域中的Z变换的基本原理可参见普伦蒂斯霍尔(Prentice Hall)出版社出版的艾伦·V·奥本海姆(Alan V.Oppenheim)、罗纳德·W·夏弗(Ronald W.Schafer)、约翰·R·巴克(John R.Buck)的标题为“离散时间信号处理(Discrete-Time Signal Processing)”第二版的出版物(ISBN0137549202),且在此处不做进一步详细阐述。
在等式(10)中,可基于帧460(图12)的长度来选择K的值。在示范性解码器38中,将K选择为20,其中帧460的持续时间设定为1000mS。
实质上,在FDLP过程中,如由等式(10)所例示,第k个子频带Tk(f)中的频域变换的DCT系数经由列文逊-杜宾(Levinson-Durbin)算法来处理,从而得到时域希尔伯特包络hk(n)的频率对应物

的一组系数a(i),其中0<i<K-1。
列文逊-杜宾(Levinson-Durbin)算法在此项技术中为众所周知的且在此处不做重复。所述算法的基本原理可参见普伦蒂斯霍尔(Prentice Hall)出版社出版的拉宾纳(Rabiner)及夏弗(Schafer)的标题为“对语音信号的数字处理(Digital Processing of SpeechSignals)”的出版物(ISBN0132136031,1978年9月)。
现在返回到图7的方法,将全极点模型希尔伯特包络的所得系数a(i)量化到线谱频率(LSF)域中(步骤716)。使用分裂VQ 312来量化每一子频带帧的希尔伯特包络的LSF表示。
如上文所提及及此处所重复的,由于参数

为原始参数Tk(f)的有损近似,因此两个参数之间的差值被称作残值,其在代数学上表达为Ck(f)。换句话说,在经由上述列文逊-杜宾(Levinson-Durbin)算法得出全极点模型的配合过程中,无法俘获关于原始信号的一些信息。如果既定进行高质量的信号编码,也就是说,如果需要无损编码,则需要估计残值Ck(f)。残值Ck(f)基本上包含信号sk(n)的载波频率ck(n)的频率分量。
存在若干种估计希尔伯特载波ck(n)的方法。
在时域中对希尔伯特载波作为残值ck(n)的估计简单地通过原始时域子频带信号sk(n)与其希尔伯特包络hk(n)的标量相除来导出。在数学上,其表达为如下 ck(n)=sk(n)/hk(n)(11) 其中所有参数均如上文所定义。
应注意,等式(11)展示估计残值的直接方式。还可使用其它方法来进行估计。举例来说,可从参数Tk(f)与

之间的差值中非常良好地产生频域残值Ck(f)。此后,可通过值Ck(f)的直接时域变换来获得时域残值ck(n)。
另一直接方法为假定希尔伯特载波ck(n)主要由白噪声组成。用以获得白噪声信息的一种方式为对原始信号x(t)(图12)进行带通滤波。在滤波过程中,可识别白噪声的主要频率分量。接收器处的经重构信号的质量取决于用于在接收器处表示希尔伯特载波的精确性。
如果原始信号x(t)(图12)为有声信号,即,源自人类的语音片段,则发现希尔伯特载波ck(n)可为可通过仅少许频率分量来完全预测的。这在子频带位于低频率端(即,k的值相对较低)的情况下尤其成立。当在时域中表达时,参数Ck(f)实际上为希尔伯特载波ck(n)。在有声信号的情况下,希尔伯特载波ck(n)相当规则且可用仅少许正弦频率分量来表示。对于相当高质量的编码来说,仅可选择最强的分量。举例来说,通过使用“峰值拾取”方法,可选择频率峰值周围的正弦频率分量来作为希尔伯特载波ck(n)的分量。
作为估计残余信号的另一替代方案,可推理地向每一子频带k指派基础频率分量。通过分析希尔伯特载波ck(n)的频谱分量,可估计每一子频带的基础频率分量且将其连同其多个谐波一起使用。
对于与原始信号源是有声还是无声无关的更可靠的信号重构来说,可使用上述方法的组合。举例来说,经由对频域中的希尔伯特载波Ck(f)进行简单定阈值,可检测及确定原始信号片段s(t)是有声还是无声的。因此,如果信号片段s(t)被确定为有声的,则使用“峰值拾取”频谱估计方法。另一方面,如果信号片段s(t)被确定为无声的,则可采用如上述的白噪声重构方法。
存在可用于估计希尔伯特载波ck(n)的又一种方法。此方法涉及频域中的希尔伯特载波Ck(f)的频谱分量的标量量化。此处,在量化之后,通过有损近似来表示希尔伯特载波的量值及相位,使得将所引入的失真减到最小。
将从每一子频带帧的FDLP输出的所估计时域希尔伯特载波分解成子帧。每一子帧表示帧的200毫秒部分,所以每帧存在5个子帧。可使用稍长的重叠性210ms长子帧(从1000ms帧产生的5个子帧)以便减小帧边界上的转变效应或噪声。在解码器侧上,可应用对重叠区域求平均以找回1000ms长希尔伯特载波的窗。
使用DFT对每一子频带子帧的时域希尔伯特载波进行频率变换(步骤720)。
在步骤722中,应用时间掩模以确定用于量化DFT相位及量值参数的位分配。针对每一子频带子帧,在时间掩模值与针对基线译码过程所确定的量化噪声之间进行比较。如上文结合图3所论述,可根据此比较结果来调整DFT参数的量化。在步骤724中,至少部分基于所述时间掩模比较使用分裂VQ来量化每一子频带子帧的DFT量值参数。在步骤726中,至少部分基于所述时间掩模比较来对DFT相位参数进行标量量化。
在步骤728中,将每一子频带帧的经编码数据及辅助信息串连起来且以适于传输或存储的格式将其包化。在需要时,可在包化过程中实施此项技术中众所周知的各种算法,包括数据压缩及加密。此后,可将经包化数据发送到数据处置器36,且接着发送到接收者以供随后解码,如步骤730中所示。
图8为说明使用FDLP解码方案来对信号进行解码的方法的流程图800。在步骤802中,接收一个或一个以上数据包,其含有用于重构输入信号的经编码数据及辅助信息。在步骤804中,对经编码数据及信息进行解包化。将经编码数据分类成子频带帧。
在步骤806中,从由解码器42接收到的VQ索引来重构表示每一子频带子帧的希尔伯特载波的DFT量值参数。逆量化每一子频带子帧的DFT相位参数。使用逆分裂VQ来逆量化DFT量值参数,且使用逆标量量化来逆量化DFT相位参数。DFT相位及量值参数的逆量化是使用在译码过程中发生的由时间掩蔽指派给每一子频带的位分配来执行。
在步骤808中,将逆DFT应用于每一子频带子帧以恢复所述子频带子帧的时域希尔伯特载波。接着重组子帧以针对每一子频带帧形成希尔伯特载波。
在步骤810中,逆量化对应于每一子频带帧的希尔伯特包络的LSF的所接收VQ索引。
在步骤812中,使用对应的经重构希尔伯特包络来调制每一子频带希尔伯特载波。这可由逆FDLP组件512来执行。可通过针对每一子频带相反地执行图14的步骤来重构希尔伯特包络。
在决策步骤814中,检查每一子频带帧以确定其是否为音调性的。这可通过进行检查以确定是否设定从编码器38发送的音调性旗标来进行。如果所述子频带信号为音调性的,则将逆TDLP滤波应用于所述子频带信号以恢复所述子频带帧。如果所述子频带信号并非为音调性的,则针对所述子频带帧绕过TDLP滤波。
在步骤818中,使用QMF合成将所有子频带合并以获得全频带信号。这针对每一帧来执行。
在步骤820中,将所恢复的帧进行组合以产生经重构离散输入信号x′(n)。通过使用合适的数/模转换过程,可将所述经重构离散输入信号x′(n)转换成经重构时变输入信号x′(t)。
图9为说明确定时间掩蔽阈值的方法的流程图900。时间掩蔽为人耳的特性,其中在强烈时间信号之后约100到200ms内出现的声音归因于此强烈时间分量而被掩蔽。为了获得精确的掩蔽阈值,执行具有加性白噪声的非正式听力实验。
在步骤902中,人类的一阶时间掩蔽模型提供用于确定精确阈值的起点。可将人耳的时间掩蔽解释为从掩蔽恢复的时程中的变化或在每一信号延迟处的掩蔽成长中的变化。前向掩蔽的量是由许多因素的相互作用而确定的,所述因素包括掩蔽物电平、掩蔽物与信号的时间分离、掩蔽物及信号的频率以及掩蔽物及信号的持续时间。在等式(12)中给出简单的一阶数学模型,其为时间掩模的量提供充分近似。
M[n]=a(b-log10Δt)(s[n]-c)(12) 其中M为以dB声压级(SPL)为单位的时间掩模,s为由整数索引n指示的样本的dB SPL电平,Δt为以毫秒为单位的时间延迟,且a、b及c为常数,且c表示绝对听力阈值。
a及b的最佳值为预定义的且为所属领域的技术人员所知。参数c为由图10所示的图表950给出的绝对听力阈值(ATH)。图表950将ATH展示为频率的函数。图表950中所示的频率范围为大体可由人耳感知的频率范围。
使用等式(12)来针对子频带子帧中的每个离散样本计算时间掩模,从而产生多个时间掩蔽值。对于任何给定样本,存在对应于若干个先前样本的多个掩模估计。选择这些先前样本掩模估计中的最大者作为当前样本的时间掩蔽值(以dB SPL为单位)。
在步骤904中,将校正因子应用于所述一阶掩蔽模型(等式12)以产生经调整的时间掩蔽阈值。所述校正因子可为对所述一阶掩蔽模型的任何合适调整,包括但不限于下文所示的一组示范性等式(13)。
一种用于校正所述一阶模型的技术为确定由时间掩蔽产生的感知不到的噪声的实际阈值。这些阈值可通过加上具有由所述一阶掩模模型指定的功率电平的白噪声来确定。可使用各类人的一组非正式听力测试来确定可加到原始输入信号以使得原始输入信号中所包括的音频在感知上为显然的白噪声的实际量。使将从所述一阶时间掩蔽阈值减少的功率的量(以dB SPL为单位)取决于所述频带中的ATH。通过加上白噪声的非正式听力测试,已根据经验发现可加到原始输入信号以使得音频在感知上仍显然的白噪声的最大功率由以下一组示范性等式给出 T[n]=Lm[n]-(35-c),如果Lm[n]≥(35-c) =Lm[n]-(25-c),如果(25-c)≤Lm[n]≤(35-c)(13) =Lm[n]-(15-c),如果(15-c)≤Lm[n]≤(25-c) =c,如果Lm[n]≤(15-c), 其中T[n]表示样本n的经调整的时间掩蔽阈值,Lm为对多个先前样本计算的所述一阶时间掩蔽模型(等式12)的最大值,c表示以dB为单位的绝对听力阈值,且n为表示样本的整数索引。一般来说,噪声阈值比使用等式(12)估计的一阶时间掩蔽阈值低约20dB。作为实例,图11展示以dB SPL为单位的子频带信号451的帧(持续时间为1000ms)、从等式(12)获得的其时间掩蔽阈值453及从等式(13)获得的经调整的时间掩蔽阈值455。
所述组等式(13)仅为可应用于线性模型(等式12)的校正因子的一个实例。本文所揭示的译码方案预期其它形式及类型的校正因子。举例来说,等式13的阈值常数(即,35、25、15)可为其它值,且/或所述组中的等式(分区)的数目及其对应适用范围可与等式13中所示的内容有所差异。
经调整的时间掩蔽阈值还展示针对特定子频带的时域中的最大容许量化噪声。目标是减少量化子频带希尔伯特载波的DFT参数所需的位数目。请注意,子频带信号为其希尔伯特包络与其希尔伯特载波的乘积。如先前所描述,使用标量量化来量化希尔伯特包络。为了在应用时间掩蔽的同时考虑包络信息,以dB SPL标度来计算给定子频带的逆量化希尔伯特包络的对数。接着从自等式(13)获得的经调整的时间掩蔽阈值中减去此值。
本文所描述的各种方法、系统、设备、组件、功能、状态机、装置及电路可以硬件、软件、固件或前述各项的任何合适组合来实施。举例来说,本文所描述的方法、系统、设备、组件、功能、状态机、装置及电路可至少部分地用经设计以执行本文所描述的功能的一个或一个以上通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、知识产权(IP)核心或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其任何组合来实施。通用处理器可为微处理器,但在替代方案中,所述处理器可为任何常规处理器、控制器、微控制器或状态机。处理器还可实施为计算装置的组合,例如DSP与微处理器的组合、多个微处理器、与DSP核心结合的一个或一个以上微处理器或任何其它此类配置。
本文所描述的功能、状态机、组件及方法在以软件实施的情况下可作为一个或一个以上指令或代码而存储于计算机可读媒体上或经由计算机可读媒体来传输。计算机可读媒体包括计算机存储媒体及包括促进将计算机程序从一处传送到另一处的任何媒体的通信媒体两者。存储媒体可为可由计算机存取的任何可用媒体。借助于实例而非限制,此等机器可读媒体可包含RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置,或可用于携载或存储呈指令或数据结构形式的所要程序代码且可由计算机处理器存取的任何其它媒体。而且,将任何传送媒体或连接适当地称作计算机可读媒体。举例来说,如果使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)或例如红外线、无线电及微波等无线技术从网站、服务器或其它远程源传输软件,则同轴电缆、光纤电缆、双绞线、DSL或例如红外线、无线电及微波等无线技术即包括于媒体的定义中。磁盘及光盘在本文中使用时包括压缩光盘(CD)、激光光盘、光盘、数字通用光盘(DVD)、软盘及蓝光光盘,其中磁盘通常以磁性方式再生数据,而光盘用激光以光学方式来再生数据。上述各者的组合也包括于计算机可读媒体的范围内。
提供以上对所揭示实施例的描述以使得所属领域的技术人员能够制造或使用由所附权利要求书界定的内容。所附权利要求书不希望限于所揭示的实施例。所属领域的技术人员鉴于这些教示将容易想到其它实施例及修改。因此,在结合上述说明书及附图审视时,所附权利要求书既定涵盖所有此类实施例及修改。
权利要求
1.一种对信号进行编码的方法,其包含
提供对所述信号的频率变换;
将频域线性预测(FDLP)方案应用于所述频率变换以产生至少一个载波;
确定时间掩蔽阈值;及
基于所述时间掩蔽阈值来量化所述载波。
2.根据权利要求1所述的方法,其中应用所述FDLP方案包含产生表示至少一个包络的一组值。
3.根据权利要求1所述的方法,其中确定所述时间掩蔽阈值包含
计算对应于多个信号样本的多个时间掩模估计;
从所述时间掩模估计中确定最大时间掩模估计;及
选择所述最大时间掩模估计作为所述时间掩蔽阈值。
4.根据权利要求3所述的方法,其进一步包含
从所述最大时间掩模估计中减去至少一个包络值。
5.根据权利要求3所述的方法,其中所述信号样本为在正针对其确定所述时间掩蔽阈值的当前样本之前出现的先前样本序列。
6.根据权利要求1所述的方法,其中量化包含
估计所述信号的量化噪声;
将所述量化噪声与所述时间掩蔽阈值进行比较;及
如果所述时间掩蔽阈值大于所述量化噪声,则减少对所述载波的位分配。
7.根据权利要求6所述的方法,其进一步包含
定义多个量化,其各自定义一不同的位分配;及
基于所述量化噪声与所述时间掩蔽阈值的所述比较来选择所述量化中的一者;及
使用所述选定量化来量化所述载波。
8.根据权利要求1所述的方法,其进一步包含
执行对所述载波的频率变换;及
基于所述时间掩蔽阈值来量化所述经频率变换的载波。
9.根据权利要求1所述的方法,其中所述时间掩蔽阈值是基于人类听觉系统的一阶掩蔽模型及校正因子的。
10.根据权利要求9所述的方法,其中所述一阶掩蔽模型由下式表示
M[n]=a(b-log10Δt)(s[n]-c),
其中M为以dB声压级(SPL)为单位的时间掩模,s为由整数索引n指示的样本的dB SPL电平,Δt为以毫秒为单位的时间延迟,且a、b及c为常数,且c表示绝对听力阈值。
11.一种对信号进行解码的方法,其包含
提供根据时间掩蔽阈值确定的量化信息;
基于所述量化信息来逆量化所述信号的一部分以恢复至少一个载波;及
将逆频域线性预测(FDLP)方案应用于所述至少一个载波以恢复经重构信号的频率变换。
12.根据权利要求11所述的方法,其进一步包含
逆量化所述信号的另一部分以产生表示至少一个包络的一组值;及
将所述逆FDLP方案应用于所述载波及所述组值以恢复所述经重构信号的所述频率变换。
13.根据权利要求11所述的方法,其进一步包含
在应用所述逆FDLP方案之前执行对所述载波的逆频率变换。
14.一种确定至少一个时间掩蔽阈值的方法,其包含
提供人类听觉系统的一阶掩蔽模型;
通过将校正因子应用于所述一阶掩蔽模型来确定时间掩蔽阈值;及
在编解码器中提供所述时间掩蔽阈值。
15.根据权利要求14所述的方法,其中所述校正因子表示加性白噪声的据经验确定的电平。
16.根据权利要求14所述的方法,其中所述校正因子的值取决于特定音频频率下的绝对听力阈值。
17.根据权利要求14所述的方法,其中所述时间掩蔽阈值T[n]由以下等式给出
T[n]=Lm[n]-(35-c),如果Lm[n]≥(35-c)
=Lm[n]-(25-c),如果(25-c)≤Lm[n]≤(35-c)
=Lm[n]-(15-c),如果(15-c)≤Lm[n]≤(25-c)(5)
=c,如果Lm[n]≤(15-c),
其中Lm为对在第n个样本之前的多个先前样本计算出的所述一阶掩蔽模型的最大值,c表示以dB为单位的绝对听力阈值,且n为表示样本的整数索引。
18.一种用于对信号进行编码的系统,其包含
用于提供对所述信号的频率变换的装置;
用于将频域线性预测(FDLP)方案应用于所述频率变换以产生至少一个载波的装置;
用于确定时间掩蔽阈值的装置;及
用于基于所述时间掩蔽阈值来量化所述载波的装置。
19.根据权利要求18所述的系统,其中所述应用装置包含用于产生表示至少一个包络的一组值的装置。
20.根据权利要求18所述的系统,其中所述确定装置包含
用于计算对应于多个信号样本的多个时间掩模估计的装置;
用于从所述时间掩模估计中确定最大时间掩模估计的装置;及
用于选择所述最大时间掩模估计作为所述时间掩蔽阈值的装置。
21.根据权利要求20所述的系统,其进一步包含
用于从所述最大时间掩模估计中减去包络值的装置。
22.根据权利要求20所述的系统,其中所述信号样本为在正针对其确定所述时间掩蔽阈值的当前样本之前出现的先前样本序列。
23.一种用于对信号进行解码的系统,其包含
用于提供根据时间掩蔽阈值确定的量化信息的装置;
用于基于所述量化信息来逆量化所述信号的一部分以恢复至少一个载波的装置;及
用于将逆频域线性预测(FDLP)方案应用于所述载波以恢复经重构信号的频率变换的装置。
24.根据权利要求23所述的系统,其进一步包含
用于逆量化所述信号的另一部分以产生表示至少一个包络的一组值的装置;及
用于将所述逆FDLP方案应用于所述载波及所述组值以恢复所述经重构信号的所述频率变换的装置。
25.一种用于确定至少一个时间掩蔽阈值的系统,其包含
用于提供人类听觉系统的一阶掩蔽模型的装置;
用于通过将校正因子应用于所述一阶掩蔽模型来确定所述时间掩蔽阈值的装置;及
用于在编解码器中提供所述时间掩蔽阈值的装置。
26.一种包含有可由一个或一个以上处理器执行的一组指令的计算机可读媒体,其包含
用于提供对信号的频率变换的代码;
用于将频域线性预测(FDLP)方案应用于所述频率变换以产生至少一个载波的代码;
用于确定时间掩蔽阈值的代码;及
用于基于所述时间掩蔽阈值来量化所述载波的代码。
27.根据权利要求26所述的计算机可读媒体,其中所述用于应用所述FDLP方案的代码包含用于产生表示至少一个包络的一组值的代码。
28.根据权利要求26所述的计算机可读媒体,其中所述用于确定所述时间掩蔽阈值的代码包含
用于计算对应于多个信号样本的多个时间掩模估计的代码;
用于从所述时间掩模估计中确定最大时间掩模估计的代码;及
用于选择所述最大时间掩模估计作为所述时间掩蔽阈值的代码。
29.根据权利要求26所述的计算机可读媒体,其中所述时间掩蔽阈值是基于人类听觉系统的一阶掩蔽模型及校正因子的。
30.根据权利要求29所述的计算机可读媒体,其中所述校正因子表示加性白噪声的电平。
31.根据权利要求29所述的计算机可读媒体,其中所述一阶掩蔽模型由下式表示
M[n]=a(b-log10Δt)(s[n]-c),
其中M为以dB声压级(SPL)为单位的时间掩模,s为由整数索引n指示的样本的dB SPL电平,Δt为以毫秒为单位的时间延迟,且a、b及c为常数,且c表示绝对听力阈值。
32.根据权利要求31所述的计算机可读媒体,其中所述时间掩蔽阈值T[n]由以下等式给出
T[n]=Lm[n]-(35-c),如果Lm[n]≥(35-c)
=Lm[n]-(25-c),如果(25-c)≤Lm[n]≤(35-c)
=Lm[n]-(15-c),如果(15-c)≤Lm[n]≤(25-c)(5)
=c,如果Lm[n]≤(15-c),
其中Lm为对在第n个样本之前的多个先前样本计算出的所述一阶掩蔽模型的最大值,c表示以dB为单位的绝对听力阈值,且n为表示样本的整数索引。
33.一种包含有可由一个或一个以上处理器执行的一组指令的计算机可读媒体,其包含
用于提供根据至少一个时间掩蔽阈值确定的量化信息的代码;
用于基于所述量化信息来逆量化所述信号的一部分以恢复至少一个载波的代码;及
用于将逆频域线性预测(FDLP)方案应用于所述载波以恢复经重构信号的频率变换的代码。
34.根据权利要求33所述的计算机可读媒体,其进一步包含
用于逆量化所述信号的另一部分以产生表示至少一个包络的一组值的代码;及
用于将所述逆FDLP方案应用于所述载波及所述组值以恢复所述经重构信号的所述频率变换的代码。
35.根据权利要求33所述的计算机可读媒体,其进一步包含
用于在应用所述逆FDLP方案之前执行对所述载波的逆频率变换的代码。
36.一种包含有可由一个或一个以上处理器执行的一组指令的计算机可读媒体,其包含
用于提供人类听觉系统的一阶掩蔽模型的代码;
用于通过将校正因子应用于所述一阶掩蔽模型来确定至少一个时间掩蔽阈值的代码;及
用于在编解码器中提供所述时间掩蔽阈值的代码。
37.根据权利要求36所述的计算机可读媒体,其中所述校正因子表示加性白噪声的据经验确定的电平。
38.根据权利要求36所述的计算机可读媒体,其中所述校正因子的值取决于特定音频频率下的绝对听力阈值。
39.根据权利要求36所述的计算机可读媒体,其中所述时间掩蔽阈值T[n]由以下等式给出
T[n]=Lm[n]-(35-c),如果Lm[n]≥(35-c)
=Lm[n]-(25-c),如果(25-c)≤Lm[n]≤(35-c)
=Lm[n]-(15-c),如果(15-c)≤Lm[n]≤(25-c)(5)
=c,如果Lm[n]≤(15-c),
其中Lm为对在第n个样本之前的多个先前样本计算出的所述一阶掩蔽模型的最大值,c表示以dB为单位的绝对听力阈值,且n为表示样本的整数索引。
40.一种用于对信号进行编码的设备,其包含
频率变换组件,其用于产生所述信号的频率变换;
频域线性预测(FDLP)组件,其经配置以响应于所述频率变换而产生至少一个载波;
时间掩模,其经配置以确定时间掩蔽阈值;及
量化器,其经配置以基于所述时间掩蔽阈值来量化所述载波。
41.根据权利要求40所述的设备,其中所述FDLP组件经配置以产生表示至少一个包络的一组值。
42.根据权利要求40所述的设备,其中所述时间掩模包含
计算器,其经配置以计算对应于多个信号样本的多个时间掩模估计;
比较器,其经配置以从所述时间掩模估计中确定最大时间掩模估计;及
选择器,其经配置以选择所述最大时间掩模估计作为所述时间掩蔽阈值。
43.根据权利要求40所述的设备,其中所述量化器包含
估计器,其经配置以估计所述信号的量化噪声;
比较器,其经配置以将所述量化噪声与所述时间掩蔽阈值进行比较;及
减少器,其经配置以在所述时间掩蔽阈值大于所述量化噪声时减少对所述载波的位分配。
44.根据权利要求41所述的设备,其进一步包含
多个预定量化,其各自定义一不同的位分配;及
选择器,其经配置以基于所述量化噪声与所述时间掩蔽阈值的所述比较来选择所述量化中的一者;且
所述量化器经配置以使用所述选定量化来量化所述载波。
45.根据权利要求44所述的设备,其进一步包含
包化器,其经配置以将所述选定量化传送到解码器以供重构所述信号。
46.根据权利要求40所述的设备,其进一步包含
频率变换组件,其经配置以对所述载波进行频率变换;及
一个或一个以上量化器,其经配置以基于所述时间掩蔽阈值来量化所述经频率变换的载波。
47.根据权利要求40所述的设备,其中所述时间掩蔽阈值是基于人类听觉系统的一阶掩蔽模型及校正因子的。
48.根据权利要求47所述的设备,其中所述校正因子表示加性白噪声的电平。
49.根据权利要求47所述的设备,其中所述一阶掩蔽模型由下式表示
M[n]=a(b-log10Δt)(s[n]-c),
其中M为以dB声压级(SPL)为单位的时间掩模,s为由整数索引n指示的样本的dB SPL电平,Δt为以毫秒为单位的时间延迟,且a、b及c为常数,且c表示绝对听力阈值。
50.根据权利要求49所述的设备,其中所述时间掩蔽阈值T[n]由以下等式给出
T[n]=Lm[n]-(35-c),如果Lm[n]≥(35-c)
=Lm[n]-(25-c),如果(25-c)≤Lm[n]≤(35-c)
=Lm[n]-(15-c),如果(15-c)≤Lm[n]≤(25-c)(5)
=c,如果Lm[n]≤(15-c),
其中Lm为对在第n个样本之前的多个先前样本计算出的所述一阶掩蔽模型的最大值,c表示以dB为单位的绝对听力阈值,且n为表示样本的整数索引。
51.一种用于对信号进行解码的设备,其包含
解包化器,其经配置以提供根据时间掩蔽阈值确定的量化信息;
逆量化器,其经配置以基于所述量化信息来逆量化所述信号的一部分以恢复至少一个载波;及
逆频域线性预测(FDLP)组件,其经配置以响应于所述载波而输出经重构信号的频率变换。
52.根据权利要求51所述的设备,其进一步包含
第二逆量化器,其经配置以逆量化所述信号的另一部分以产生表示包络的一组值;且
所述逆FDLP组件经配置以响应于所述载波及所述组值而输出所述经重构信号的所述频率变换。
53.根据权利要求51所述的设备,其进一步包含
逆频率变换组件,其经配置以在由所述逆FDLP组件处理之前将所述载波变换到时域。
54.一种用于确定至少一个时间掩蔽阈值的设备,其包含
模型器,其经配置以提供人类听觉系统的一阶掩蔽模型;
处理器,其经配置以通过将校正因子应用于所述一阶掩蔽模型来确定时间掩蔽阈值;及
时间掩模,其经配置以在编解码器中提供所述时间掩蔽阈值。
全文摘要
本发明揭示一种基于模型化频谱动态的音频译码技术。执行对输入音频信号的频率分解以获得密切遵循人类听觉系统分解的临界频带的多个频率子频带。接着对每一子频带进行频率变换且应用线性预测。这针对所述子频带中的每一者产生希尔伯特包络及希尔伯特载波。因为对频率分量应用了线性预测,所以所述技术被称作频域线性预测(FDLP)。所述希尔伯特包络及所述希尔伯特载波类似于时域线性预测(TDLP)技术中的频谱包络及激励信号。将时间掩蔽应用于所述FDLP子频带以改进压缩效率。具体地说,可采用子频带FDLP载波信号的前向掩蔽来改进经编码信号的压缩效率。
文档编号G10L19/12GK101779236SQ200880102427
公开日2010年7月14日 申请日期2008年8月24日 优先权日2007年8月24日
发明者哈里纳特·加吕达德里, 彼得·莫特利采克, 斯里拉姆·加纳帕蒂, 海尼克·赫尔曼斯基 申请人:高通股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1