本公开总体上涉及一种用于建立用于从音频比特流生成经处理的音频数据的解码器的方法,该解码器包括用于处理音频数据的生成式对抗网络gan的生成器,并且本公开具体地涉及预先配置该生成器和该解码器。本公开进一步涉及一种使用用于处理音频数据的生成式对抗网络gan的生成器来从音频比特流生成经处理的音频数据的方法。此外,本公开还涉及相应的装置、相应的系统和计算机程序产品。尽管本文将特别参考该公开内容来描述一些实施例,但是将理解的是,本公开不限于这种使用领域,并且可应用于更广泛的背景。
背景技术:
1、在整个公开内容中对背景技术的任何讨论绝不应视为承认这种技术是本领域众所周知的或形成本领域公知常识的一部分。
2、在过去几年期间,深度学习方法在包括语音增强的各种应用领域中变得越来越有吸引力。一般而言,最近的研究主要基于深度卷积gan(通称为dcgan)。迄今为止大多数深度学习方法都涉及语音去噪。要注意的是,从编码噪声中恢复音频是具有挑战性的问题。直观地说,人们可以认为编码伪像减少与去噪高度相关。然而,去除与期望声音高度相关的编码伪像/噪声似乎比去除通常不太相关的(去噪应用中的)其他噪声类型更复杂。编码伪像的特性取决于编解码器和所采用的编码工具以及所选比特率。
3、鉴于上述内容,仍然需要改进基于深度学习的方法。特别需要改进在质量与多样化之间的折衷方面的灵活性。
技术实现思路
1、根据本公开的第一方面,提供了一种用于建立用于从音频比特流生成经处理的音频数据的解码器的方法,该解码器包括用于处理音频数据的生成式对抗网络gan的生成器,其中,该生成器包括编码器级和解码器级,其中,编码器级和解码器级各自包括多个层,每一层中具有一个或多个滤波器,其中,编码器级的最后一层是映射到经编码音频特征空间的瓶颈层,其中,生成器被适配成将经编码音频特征空间中的特征与随机噪声向量z级联以基于级联的结果获得级联分布。该方法可以包括步骤(a)将生成器预先配置成利用该生成器的一组参数来处理音频数据,该参数是通过在训练时间使用完整的级联分布训练生成器来确定的。并且该方法可以包括步骤(b)将解码器预先配置成在解码时间确定用于修改级联分布的截断模式并且将所确定的截断模式应用于级联分布。
2、在一些实施例中,解码器可以被预先配置成在解码时间从两种或更多种截断模式中确定用于修改级联分布的截断模式。
3、在一些实施例中,该两种或更多种截断模式可以包括截断关闭截断模式、弱截断截断模式、中等截断截断模式和强截断截断模式。
4、在一些实施例中,在步骤(b)中,解码器可以被预先配置成在解码时间基于音频内容和/或音频比特流的比特流参数来确定截断模式。
5、在一些实施例中,音频内容可以包括掌声、语音、音乐和效果中的一者或多者。
6、在一些实施例中,比特流参数可以包括对比特率的指示和对音频编解码器类型的指示中的一者或多者。
7、在一些实施例中,在步骤(b)中,解码器可以被预先配置成当音频内容包括掌声时在解码时间确定截断关闭截断模式。
8、在一些实施例中,在步骤(b)中,解码器可以被预先配置成当音频内容包括语音、音乐和/或效果时在解码时间确定弱截断截断模式、中等截断截断模式或强截断截断模式之一。
9、在一些实施例中,在步骤(b)中,解码器可以被预先配置成当对比特率的指示表明低比特率时在解码时间确定截断关闭截断模式。
10、在一些实施例中,在步骤(b)中,解码器可以被预先配置成当对比特率的指示表明高比特率时在解码时间确定弱截断截断模式、中等截断截断模式或强截断截断模式之一。
11、在一些实施例中,在步骤(b)中,解码器可以被预先配置成基于对应当使用的截断模式的指示来确定截断模式,该指示被包括在音频比特流的元数据中。
12、在一些实施例中,将所确定的截断模式应用于级联分布可以包括:根据截断范围向级联分布应用切断,以获得截断区域;以及对截断区域外的所有值进行重新采样,以使其位于截断区域内。
13、在一些实施例中,弱截断截断模式可以被设置成应用从-0.8延伸到+0.8的截断范围。
14、在一些实施例中,中等截断截断模式可以被设置成应用从-0.5延伸到+0.5的截断范围。
15、在一些实施例中,强截断截断模式可以被设置成应用从-0.4延伸到+0.4的截断范围。
16、在一些实施例中,完整的级联分布可以是高斯分布或拉普拉斯分布。
17、在一些实施例中,步骤(a)可以包括使用完整的级联分布来训练生成器。
18、在一些实施例中,在步骤(a)中,生成器的一组参数可以通过在包括该生成器和判别器的gan设置中训练该生成器来确定,其中,该训练可以包括以下步骤:
19、(a)将音频训练信号输入到生成器中;
20、(b)由生成器基于音频训练信号使用完整的级联分布来生成经处理的音频训练信号;
21、(c)一次一个地将经处理的音频训练信号和已从中得到音频训练信号的对应原始音频信号输入到判别器中;
22、(d)由判别器判断输入音频信号是经处理的音频训练信号还是原始音频信号;以及
23、(e)迭代地调整生成器的参数直到判别器不在能将经处理的音频训练信号与原始音频信号区分开为止。
24、在一些实施例中,在训练生成器期间,可以应用截断关闭截断模式。
25、根据本公开的第二方面,提供了一种使用用于处理音频数据的生成式对抗网络gan的生成器从音频比特流生成经处理的音频数据的方法,其中,该生成器包括编码器级和解码器级,其中,编码器级和解码器级各自包括多个层,每一层中具有一个或多个滤波器,其中,编码器级的最后一层是映射到经编码音频特征空间的瓶颈层,其中,生成器被适配成将经编码音频特征空间中的特征与随机噪声向量z级联以基于级联的结果获得级联分布。该方法可以包括步骤(a)接收音频比特流。该方法可以进一步包括步骤(b)由解码器确定截断模式。该方法可以进一步包括步骤(c)将音频数据输入到用于处理音频数据的生成器中。该方法可以进一步包括步骤(d)将所确定的截断模式应用于级联分布以生成经截断的级联分布。该方法可以进一步包括步骤(e)由生成器基于经截断的级联分布来处理音频数据。并且该方法可以包括步骤(f)获得经处理的音频数据作为生成器的输出。
26、在一些实施例中,该方法可以进一步包括对接收到的音频比特流进行核心解码。
27、在一些实施例中,截断模式可以由解码器从两种或更多种截断模式中确定。
28、在一些实施例中,该两种或更多种截断模式可以包括截断关闭截断模式、弱截断截断模式、中等截断截断模式和强截断截断模式。
29、在一些实施例中,在步骤(b)中,截断模式可以由解码器基于音频内容和/或比特流参数确定。
30、在一些实施例中,音频内容可以包括掌声、语音、音乐和效果中的一者或多者。
31、在一些实施例中,比特流参数可以包括对比特率的指示和对音频编解码器类型的指示中的一者或多者。
32、在一些实施例中,在步骤(b)中,当音频内容包括掌声时,解码器可以确定截断关闭截断模式。
33、在一些实施例中,在步骤(b)中,当音频内容包括语音、音乐和/或效果时,解码器可以确定弱截断截断模式、中等截断截断模式或强截断截断模式之一。
34、在一些实施例中,在步骤(b)中,当对比特率的指示表明低比特率时,解码器可以确定截断关闭截断模式。
35、在一些实施例中,在步骤(b)中,当对比特率的指示表明高比特率时,解码器可以确定弱截断截断模式、中等截断截断模式或强截断截断模式之一。
36、在一些实施例中,在步骤(d)中,将所确定的截断模式应用于级联分布可以包括:根据截断范围向级联分布应用切断,以获得截断区域;以及对截断区域外的所有值进行重新采样,以使其位于截断区域内。
37、在一些实施例中,弱截断截断模式可以被设置成应用从-0.8延伸到+0.8的截断范围。
38、在一些实施例中,中等截断截断模式可以被设置成应用从-0.5延伸到+0.5的截断范围。
39、在一些实施例中,强截断截断模式可以被设置成应用从-0.4延伸到+0.4的截断范围。
40、在一些实施例中,级联分布可以是高斯分布或拉普拉斯分布。
41、在一些实施例中,音频比特流可以包括元数据,其中,应当由解码器使用的对截断模式的指示可以被包括在元数据中。
42、根据本公开的第三方面,提供了一种用于从音频比特流生成经处理的音频数据的装置。该装置可以包括(a)接收器,该接收器用于接收音频比特流。该装置可以进一步包括(b)确定器,该确定器用于确定截断模式。该装置可以进一步包括(c)用于处理音频数据的生成式对抗网络gan的生成器,其中,该生成器包括编码器级和解码器级,其中,编码器级和解码器级各自包括多个层,每一层中具有一个或多个滤波器,其中,编码器级的最后一层是映射到经编码音频特征空间的瓶颈层,其中,该生成器被适配成将经编码音频特征空间中的特征与随机噪声向量z级联以基于级联的结果获得级联分布,并且其中,该装置可以进一步包括一个或多个处理器,该一个或多个处理器被配置成执行使用用于处理音频数据的生成式对抗网络gan的生成器从音频比特流生成经处理的音频数据的方法。
43、在一些实施例中,该装置可以进一步包括核心解码器,该核心解码器用于对接收到的音频比特流进行核心解码。
44、在一些实施例中,接收到的音频比特流可以进一步包括指示应当使用的截断模式的元数据,并且该装置可以进一步包括解复用器,该解复用器用于对接收到的音频比特流进行解复用。
45、根据本公开的第四方面,提供了一种计算机程序产品,该计算机程序产品包括具有指令的计算机可读存储介质,该指令被适配成当由具有处理能力的设备执行时使该设备执行用于建立用于从音频比特流生成经处理的音频数据的解码器的方法。
46、根据本公开的第五方面,提供了一种计算机程序产品,该计算机程序产品包括具有指令的计算机可读存储介质,该指令被适配成当由具有处理能力的设备执行时使该设备执行使用生成式对抗网络gan的生成器从音频比特流生成经处理的音频数据的方法。
47、根据本公开的第六方面,提供了一种具有用于从音频比特流生成经处理的音频数据的装置以及包括生成器和判别器的生成式对抗网络的系统,其中,该系统被配置成执行用于建立用于从音频比特流生成经处理的音频数据的解码器的方法。
48、根据本公开的第七方面,提供了一种具有用于将音频数据编码在音频比特流中的装置和用于从音频比特流生成经处理的音频数据的装置的系统。