利用深度神经网络的自适应块切换的制作方法

文档序号:34688816发布日期:2023-07-05 23:51阅读:37来源:国知局
利用深度神经网络的自适应块切换的制作方法

本发明涉及将生成模型与媒体信号的现有高效编解码方案组合。具体地,本发明涉及一种用于用经训练的神经网络预测自适应块长度媒体信号的变换系数的方法。


背景技术:

1、在低速率自适应块长度编码和解码中,编码器被配置成优化频率与时间分辨率之间的折衷。这可以通过由编码器为每个信号样本块选择变换长度来实现。通常,编码器将为表示具有缓慢演变时间特性的信号的信号样本块选择具有较高数量的变换系数的长块,并将为表示具有快速演变时间特性的信号的信号样本块选择一组短块,每个短块具有较低数量的变换系数。

2、对自适应块长度信号进行编码和解码的问题在于,要被解码的块可能包括不同数量的变换系数,这些变换系数表示在媒体信号的不同持续时间内媒体信号的频率内容。因此,自适应块长度与为固定块长度信号开发的传统解码方案不兼容。此外,在解码器中获得原始媒体信号的更准确的表示是有益的,所述原始媒体信号已经在编码器中被采样以形成信号样本块,并且被自适应地分成具有不同数量的变换系数的块。


技术实现思路

1、基于以上所述,因此本发明的一个目的是提供一种用于利用神经网络来预测自适应块长度媒体信号、并且特别是自适应块长度一般音频信号的变换系数的方法。

2、根据本发明的第一方面,提供了一种用于利用计算机实施的神经网络系统预测表示自适应块长度媒体信号的频率内容的变换系数的方法。所述方法包括:接收帧的块,所述帧的每个块包括表示所述媒体信号的部分时间片段的至少一个经量化变换系数(或一组经量化变换系数);接收指示所述帧的每个块的经量化变换系数的数量的块长度信息,所述经量化变换系数的数量是第一数量或第二数量之一,其中,所述第一数量大于所述第二数量;确定所述帧的至少第一块具有第二数量的经量化变换系数;将至少所述第一块转换成具有第一数量的经量化变换系数的经转换块;调节主神经网络,所述主神经网络被训练成在给定至少一个调节变量的情况下预测至少一个输出变量,所述至少一个调节变量基于调节信息,所述调节信息包括经转换块的表示和所述第一块的块长度信息的表示;向输出级(输出神经网络)提供所述至少一个输出变量,所述输出级被配置成从所述至少一个输出变量提供至少一个预测的变换系数。

3、作为经量化变换系数的替代,变换系数可能失真或受损。由输出级(输出神经网络)输出的变换系数在某种意义上被增强,即这些变换系数更接近地类似于一组原始变换系数,和/或被逆变换到时域的增强的变换系数描述了媒体信号,与由经量化变换系数描述的时域媒体信号相比,所述媒体信号被感知为更高质量的媒体信号。进一步,本文提及的帧可以包括一个或多个块(例如,一组块)。

4、本发明至少部分地基于这样的理解,即通过将(短)第一块转换成具有第一数量的变换系数的(长)转换块,被训练的主神经网络的生成属性可以被引入到可变块切换解码中。由于神经网络在其输出层中具有固定的维度,因此其与自适应长度块不兼容。通过将具有经量化变换系数的第一块转换成经转换块,并使用经转换块的表示和块长度信息的表示来调节主神经网络,神经网络可以基于块长度以动态方式预测至少一个(增强的或非量化的)变换系数。也就是说,由于块长度信息的表示被包括在调节信息中(至少一个调节变量基于所述调节信息),因此主神经网络将被训练成适当地响应已经被转换成包括第一数量的变换系数的块。

5、另外地,还可以确定帧的块包括第一数量的经量化变换系数。这种(长)块可以不被转换成经转换块而是具有第一数量的经量化变换系数的块的表示被包括在调节信息中。除了不转换长块之外,可以类似于所确定的短块来处理长块。由输出级输出的变换系数包括第一数量的变换系数,所述第一数量的变换系数表示具有第一数量的变换系数的经量化变换系数块或具有第一数量的经量化变换系数的经转换块,其进而表示具有第二数量的变换系数的至少一个经量化变换系数块。

6、因为主神经网络可以依次预测每个可变长度块的至少一个变换系数,所以主神经网络考虑了时间和/或频率依赖性。主神经网络可以具有记忆功能,使得先前的输入影响当前的处理,并且使得当前(增强的)至少一个变换系数的预测受到先前变换系数的影响。

7、自适应长度块表示频率与时间之间的折衷。较长的块包括更多的变换系数,并且将表示媒体信号的较长持续时间,而较短的块包括较少的变换系数,并且将表示媒体信号的较短持续时间。

8、根据本发明的第二方面,提供了一种用于获得至少一个训练块的方法,所述至少一个训练块用于训练计算机实施的神经网络系统以预测自适应块长度媒体信号的至少一个变换系数。所述方法包括:获得一组变换块,每个变换块包括表示媒体信号的频率内容的多个变换系数,每个块中的变换系数的数量是第一数量或第二数量,其中,所述第一数量大于所述第二数量;确定第一块包括第二数量的变换系数;将所述第一块转换成具有第一数量的变换系数的经转换块;从经转换块获得目标预测块;对所述经转换块进行量化;以及从经量化转换块获得训练块。

9、所获得一组的变换块可以进一步表示一系列相关联的时域窗口函数(短、长、桥接输入或桥接输出)。

10、根据本发明的第三方面,提供了一种用于预测表示自适应块长度媒体信号的频率内容的至少一个变换系数的计算机实施的神经网络系统。所述神经网络系统包括自适应块预处理单元,所述自适应块预处理单元被配置成:接收包括表示媒体信号的部分时间片段的一组经量化变换系数的帧;接收指示所述帧中每个块的经量化变换系数的数量的块长度信息,经量化变换系数的数量是第一数量或第二数量之一,其中,所述第一数量大于所述第二数量;确定至少第一块具有第二数量的变换系数;以及将至少第一块转换成具有第一数量的经量化变换系数的经转换块。所述神经网络系统进一步包括:主神经网络,其中,所述主神经网络被训练成在给定基于调节信息的至少一个调节变量的情况下预测至少一个输出变量,所述调节信息包括经转换块的表示和第一块的块长度信息的表示;以及输出级,所述输出级被配置成从所述至少一个输出变量提供至少一个预测的变换系数。

11、在一些实施方式中,上述神经网络系统已经通过使用一组目标预测块和一组训练块被训练。所述一组训练块是目标预测块的受损表示,并且训练块包括具有第一数量的变换系数的至少一个训练块和具有第二数量的变换系数的至少一个训练块。所述一组训练块被提供给神经网络系统的自适应块预处理单元,并且从神经网络系统的输出级根据所述一组训练块中获得一组预测块。计算预测块相对于所述一组目标预测块的度量,并且修改神经网络系统的权重以减小所述度量。

12、通过响应于预测块的度量来修改神经网络系统的权重,训练将使得神经网络系统学习从至少一个经量化变换系数预测(生成)至少一个变换系数。所述训练将使得神经网络系统学习正确地识别表示(多个)短块的至少一个调节变量,并处理所述调节变量,其方式使得得到的至少一个预测的变换系数非常类似于媒体信号的至少一个变换系数。

13、应当理解,基于获得所述度量,可以通过修改每个神经网络的参数(例如,权重)来训练神经网络系统,优选地迭代地训练直到获得令人满意的小度量。

14、根据第二和第三方面的发明以与根据第一方面的发明相同或等同的实施例和益处为特征。进一步,关于方法描述的任何功能可以在用于在计算机程序产品中执行这些功能的系统或代码中具有对应的结构特征。

15、已经进行了用固定块长度和自适应块长度编码和解码参考媒体信号的实验。在固定块长度的情况下,在解码器中实施固定长度的神经网络系统,并且在自适应块长度的情况下,在解码器中实施根据本发明的实施方式的神经网络系统。固定块长度编码使用256mdct系数块,并且自适应块长度编码使用自适应256/128mdct系数块。当比较解码信号时,在解码器中使用本发明的神经网络系统的自适应块长度切换示出与固定块长度对应部分相比减少了前回声失真。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1