根据基于独特键值的网络指导和调节的信号变换的制作方法

文档序号:34568582发布日期:2023-06-28 11:34阅读:14来源:国知局
根据基于独特键值的网络指导和调节的信号变换的制作方法

1.本公开涉及执行键值指导信号变换。


背景技术:

2.静态机器学习(ml)网络可以建模和学习固定信号变换函数。当存在多个不同的信号变换时或在连续时变变换的情况下,静态ml模型倾向于学习,例如,次优随机平均变换。
附图说明
3.图1是配置有被训练的神经网络模型以执行动态键值指导信号变换的示例系统的高级框图。
4.图2是用于训练图1的系统的神经网络的机器学习(ml)模型以进行信号变换的第一示例训练过程的流程图。
5.图3是用于训练ml模型以执行信号变换的第二示例训练过程的流程图。
6.图4是示例高级通信系统的框图,其中神经网络一旦被训练,就可以被部署以执行推断阶段键值指导信号变换。
7.图5是第一示例发射机过程的流程图,该第一示例发射机过程在通信系统的发射机中执行以在用非编码输入信号训练ml模型时产生与ml模型相容的比特流。
8.图6是第二示例发射机过程的流程图,该第二示例发射机过程在通信系统的发射机中执行以在用编码输入信号训练ml模型时产生与ml模型相容的比特流。
9.图7是在通信系统的接收机中执行的示例推断阶段接收机过程的流程图。
10.图8是使用先前训练为由键值参数配置以执行信号变换的神经网络来执行键值指导信号变换的示例方法的流程图。
11.图9是被配置为实现文中给出的实施例的计算机设备的框图。
具体实施方式
12.示例性实施例
13.本文给出的实施例提供基于键值的机器学习(ml)神经网络调节(conditioning)以对时变信号变换进行建模。实施例涉及配置“键值空间”、以及基于键值空间对于不同应用的信号变换映射。应用范围广泛,从音频信号合成和语音质量改进到加密和验证。
14.这些实施例至少实现了以下高级特征:
15.a.识别与输入信号的信号变换相关联的合适的键值空间,生成独特地表示或表征信号变换并且在一段时间(例如输入信号的一帧)内固定的键值参数,以及使用对应于输入信号的帧的键值参数配置机器学习神经网络以合成被变换的输入信号的输出信号。与信号变换相关联的键值空间定义或包含有限数量的键值参数、和适于配置神经网络以执行相关联信号变换的键值参数的一系列值。
16.b.在神经网络的训练过程中,至少基于输入信号帧的特性、训练帧、以及与帧对应
的独特键值,调整或选择成本最小化准则,使得神经网络学习要由独特键值配置以实现信号变换。
17.参考图1,给出了示例系统100的高级框图,该系统配置有被训练的神经网络模型以执行动态键值指导(key-guided)的/基于键值的信号变换。系统100被呈现为用于描述在下文呈现的不同实施例中采用的概念的构造。因此,并非系统100中呈现的所有组件和信号都应用于所有不同的实施例,这将从随后的描述中显而易见。
18.系统100包括键值生成器或估计器102、以及键值指导信号变换器104,其可以部署在发射机(tx)/接收机(rx)(tx/rx)系统中。在示例中,键值估计器102接收键值生成数据,该数据可至少包括输入信号、目标或期望信号、变换索引或信号变换映射。基于键值生成数据,键值估计器102生成或估计一组变换参数kp,也称为“键值参数”kp。键值估计器102可以逐个帧地或在一组帧上估计键值参数kp,如下所述。键值参数kp参数化或表示目标信号的期望/目标信号特性,例如目标信号的频谱/基于频率的特性或时间/时基特性。在tx/rx系统中,键值参数kp在发射机tx处被估计,然后与输入信号一起传输到接收机rx。
19.在接收机rx,信号变换器104接收由发射机tx发送的输入信号和键值参数kp。信号变换器104基于键值参数kp执行输入信号的期望信号变换,以产生具有与目标信号的期望/目标信号特性相似或匹配的输出信号特性的输出信号。
20.信号变换器104包括先前训练的神经网络模型,其配置为执行期望的kp驱动信号变换。神经网络(nn)可以是卷积神经网络(cnn),其包括具有卷积滤波器的一系列神经网络层,该滤波器具有基于常规的基于随机梯度的优化算法被配置的权重或系数。在另一个示例中,神经网络可以基于递归神经网络(rnn)模型。在一个实施例中,神经网络包括机器学习(ml)模型,其被训练为由键值参数kp独特地配置以执行输入信号的动态键值指导信号变换,以产生输出信号,使得一个或多个输出信号特性匹配或遵循一个或多个期望/目标信号特性。例如,键值参数kp配置神经网络的ml模型以执行信号变换,使得输出信号的频谱或时间特性匹配目标信号的对应的期望/目标频谱或时间特性。上述由系统100的信号变换器104执行的处理被称为“推断(inference)阶段”处理,因为该处理是在信号变换器的神经网络已经被训练之后由神经网络执行的。
21.在输入信号和目标信号包括各自的信号帧序列,例如各自的音频帧序列的示例中,键值估计器102在逐帧的基础上估计键值参数kp以产生逐帧键值参数序列,信号变换器104的神经网络的ml模型由键值参数配置以逐帧地执行输入信号到输出信号的信号变换。也就是说,由于用于指导给定输入帧的变换的帧特定键值参数,神经网络对于每个给定输入帧/与每个给定输入帧相对应地产生独特转换的输出帧。因此,由于期望/目标信号特性动态地因帧而变,并且所估计的表示期望/目标信号特性的键值参数相应地因帧而变,键值指导信号变换将相应地因帧而变,使得输出帧具有跟踪目标帧的信号特性的信号特性。这样,信号变换器104的神经网络对输入信号执行动态的、键值指导的信号变换,以产生随时间匹配目标信号特性的输出信号。在随后的描述中,信号变换器104也被称为“神经网络”104。
22.在各种实施例中,输入信号可以表示代表输入信号的被预处理输入信号,并且目标信号可以表示代表目标信号的被预处理目标信号,使得键值估计器102基于被预处理输入信号和被预处理目标信号来估计键值参数kp,神经网络104对被预处理输入信号进行信
号变换。在另一个实施例中,键值参数kp可以表示被编码的键值参数,使得被编码的键值参数配置神经网络104以执行输入信号或被预处理输入信号的信号变换。此外,输入信号可以表示被编码的输入信号或被编码的被预处理输入信号,使得键值估计器102和神经网络104各自对被编码的输入信号或被编码的被预处理输入信号进行操作。所有这些和进一步的变型在各种实施例中都是可能的,下面将描述其中的一些。
23.举例来说,在输入信号和目标信号各自为音频信号,即“输入音频”和“目标音频”的上下文中描述系统100的各个方面。应当理解,本文呈现的实施例同样适用于其他上下文,例如输入信号和目标信号包括各自的射频(rf)信号、图像、视频等的上下文。在音频上下文中,目标信号可以是语音或音频信号,例如以32khz采样并例如被缓存为对应于每帧1024个样本的32ms的帧。类似地,输入信号可以是语音或音频信号,例如:
24.a.以与目标信号相同的采样率(例如32khz)采样,或以不同的采样率(例如16khz、44.1khz或48khz)采样。
25.b.以与目标信号相同的帧持续时间(例如32毫秒)或不同的持续时间(例如16毫秒、20毫秒或40毫秒)进行缓存。
26.c.目标信号的带宽受限版本。例如,目标信号是全频带音频信号,包括高达例如16khz的奈奎斯特频率的频率内容,而输入信号带宽受限,具有小于目标信号的音频频率内容,例如直至4khz、8khz或12khz。这种“带宽受限”的场景称为“示例a”。
27.d.目标信号的失真版本。例如,输入信号包含不需要的噪声或目标信号的时间/频谱失真。这种“失真”的场景被称为“示例b”。
28.e.与目标信号不可感知或可理解地相关。例如,输入信号包括语音/对话,而目标信号包括音乐;或者输入信号包括乐器-1的音乐,而目标信号包括来自另一乐器的音乐,等等。这种“感知”场景称为“示例c”。
29.在一个实施例中,输入信号和目标信号可以各自被预处理以产生被预处理输入信号和被预处理目标信号,键值估计器102和神经网络104在其上运行。可对输入信号和目标信号执行的示例预处理操作包括以下中的一者或多者:重采样(例如,下采样或上采样);直流(dc)滤波以去除低频,例如低于50hz;预加重滤波以补偿输入信号中的频谱倾斜;和/或调整增益以使得输入信号在其随后的信号变换之前被归一化。
30.如上所述,键值估计器102估计键值参数kp,其被用于指导/配置神经网络104以对输入信号执行信号变换。为了估计键值参数kp,键值估计器102可以对输入信号和目标信号执行各种不同的分析操作,以产生对应的不同集合的键值参数kp。在一个示例中,键值估计器102对目标信号、输入信号、或基于目标信号和输入信号生成的中间信号中的至少一者执行线性预测(lp)分析。lp分析产生lp系数(lpc)和线谱频率(lsf),它们通常紧凑地表示基础信号(即目标信号、输入信号或中间信号)的更宽频谱包络。lsf紧凑地表示lpc,它们表现出良好的量化和帧间插值属性。在示例a和示例b两者中,目标信号(即,其代表基准或真值)的lsf充当神经网络104的良好表示,以学习或模拟目标信号的频谱包络(即,目标频谱包络)并对输入信号的频谱包络(即输入频谱包络)施加频谱变换以产生具有目标频谱包络的被变换信号(即输出信号)。因此,在这种情况下,键值参数kp表示或形成包括频谱包络键值参数的“频谱包络键值”的基础。频谱包络键值配置神经网络104以将输入信号变换为输出信号,使得输出信号的频谱包络(即,输出频谱包络)匹配或遵循目标频谱包络。在生成键值
参数的特定非限制性示例中,根据由lpc阶数l=2的线性预测多项式表示的白化滤波器(例如,2极滤波器)来变换输入信号以产生输出信号。在训练期间估计线性预测多项式的lpc,以实现驱动输出信号匹配目标信号的被估计lpc(例如,基于与输入信号的白化期望相关联的各种误差/损失函数中的任一者)。然后,将被估计的lpc转换为lsf(范围从0到pi),并使用每个lsf 6位标量量化器进行量化以生成键值参数。6位标量量化器产生独特键值的总共12位或4096种可能组合;然而,在这个例子中,存在与2个极点位置对应的2个键值。
31.在另一示例中,键值估计器102对目标信号、输入信号、或基于目标信号和输入信号生成的中间信号中的至少一者执行频率谐波分析。谐波分析生成例如存在于目标信号中并且在输入信号中存在/缺失的主导音调谐波的子集的表示作为键值参数kp。键值估计器102使用例如对频谱峰值的搜索或正弦分析/合成算法来估计主导音调谐波。在这种情况下,键值参数kp表示或形成包括谐波键值参数的“谐波键值”的基础。谐波键值配置神经网络104以将输入信号变换为输出信号,使得输出信号包括存在于目标信号中的、但不存在于输入信号中的频谱特征。在这种情况下,信号变换可以表示用以产生具有感知上改善的信号质量的输出信号的对输入信号的信号增强,这例如可以包括频率带宽扩展(bwe)。产生lsf的上述lp分析和谐波分析均是频谱分析的示例。
32.在又一示例中,键值估计器102对目标信号、或基于目标信号和输入信号生成的中间信号中的至少一者执行时间分析(即,时域分析)。时间分析产生键值参数kp作为如下参数:该参数例如紧凑地表示给定帧中的时间演变(例如,增益变化),或目标信号或中间信号的宽时间包络(通常称为“时间振幅”特性)。在带宽受限示例-a和失真示例-b两者中,目标信号的时间特征(即参考值或真值)用作神经网络104学习或模拟目标信号的时间精细结构(即,所期望的时间精细结构)并将此时间特征转换施加到输入信号上的良好原型。在这种情况下,键值参数kp表示或形成包括时间键值参数的“时间键值”的基础。时间键值配置神经网络104以将输入信号变换为输出信号,使得输出信号具有期望的时间包络。
33.上述键值估计/生成和推断阶段处理依赖于神经网络104的被训练ml模型。用于训练神经网络104的ml模型以执行动态键值指导信号变换的各种过程将在下文结合图2和3进行描述。参考图2,其为采用各种训练信号来训练ml模型的第一示例训练过程200的流程图。例如,训练信号包括训练输入信号(例如,训练输入音频)、训练目标信号(例如,训练目标音频),以及具有通常类似于输入信号、目标信号的信号特性/属性的训练键值参数,以及用于系统100中推断阶段处理的键值参数kp;然而,训练信号和推断阶段信号不是相同信号。在图2的例子中,训练过程200使用输入信号的未编码版本来训练ml模型。此外,训练过程200在逐帧的基础上进行操作,即,训练过程对输入信号的每一帧和目标信号的相应并发帧进行操作。
34.在202,训练过程预处理输入信号帧以产生被预处理的输入信号帧。示例输入信号预处理操作包括重采样;直流滤波以去除低频,例如低于50hz;预加重滤波以补偿输入信号中的频谱倾斜;和/或调整增益使得输入信号在后续信号变换之前被归一化。类似地,在204,训练过程预处理对应的目标信号帧,以产生被预处理的目标信号帧。目标信号预处理可以执行由输入信号预处理执行的所有操作或操作的子集。
35.在206,训练过程为输入信号帧估计对应的键值参数集合,其将指导(被预处理的)输入信号帧的后续信号变换。为了估计键值参数,训练系统可以对输入信号帧和相应的目
标信号帧执行各种不同的分析操作,以上文结合键值估计/生成和推断阶段处理被描述的方式产生对应的不同键值参数集合。例如,训练系统可以对输入信号帧、对应的目标信号帧、以及基于输入信号和对应的目标信号帧的中间信号帧中的至少一者执行上述lp分析、频率谐波分析、和/或时间分析,以对于输入信号帧分别产生频谱包络键值、谐波键值和/或时间键值。
36.在208,训练系统对键值参数进行编码以产生被编码键值参数kpt,即针对输入信号帧的键值参数的编码版本。键值参数的编码可以包括但不限于量化键值参数中的至少一个或子集,以及使用标量或矢量量化器码本对键值参数进行编码。
37.在210,神经网络104的ml模型接收被预处理的输入信号帧和针对输入信号帧的被编码键值参数kpt。此外,将被预处理的目标信号帧提供给用于训练的成本最小化器cm。被编码键值参数kpt配置ml模型以对被预处理的输入信号帧执行信号变换,以产生输出信号帧。成本最小化器cm实施损失函数以根据输出信号帧和目标信号帧之间的差异或相似性来生成当前成本/误差。该误差可以表示目标信号帧的期望信号特性与输入信号帧的对应信号特性的偏差。通过使用例如任何已知的或以后开发的反向传播技术来更新神经网络的权重以最小化损失函数,基于误差来更新/训练ml模型的权重以来减少偏差。损失函数可以使用任何已知的或以后开发的用于实现要用于训练ml模型的损失函数的技术来实现。例如,损失函数的实现可能包括估计目标信号和由信号变换器(模型)产生的模型输出信号之间的均方误差(mse)或绝对误差。目标信号和模型输出信号可以在时域、频谱域或键值参数域中。这里的域对应于目标和模型输出信号的表示,其中频谱域对应于信号的频域(例如,离散傅里叶变换(dft))表示,键值参数域对应于本领域技术人员已知的信号(例如,lpc、音调、频谱倾斜因子和/或预测增益)的参数表示(例如,本领域技术人员已知的线性预测系数、音调、频谱倾斜因子、预测增益)。在另一个示例实施例中,损失函数可以被实现为在时域、谱域和/或键值参数域中估计的多个误差的加权组合。
38.对连续的输入和相应的目标信号帧重复进行操作202-210以使键值参数随时间配置ml模型以对输入信号执行信号变换,使得输出信号的输出信号特性匹配作为信号变换目标的目标信号特性。一旦在输入信号的许多帧上训练了ml模型,被训练的ml模型(即,神经网络104的被训练的ml模型)可以部署用于基于(推断阶段)键值参数执行(推断阶段)输入信号的推断阶段处理。
39.参考图3,其是用于训练ml模型的第二示例训练过程300的流程图。训练过程300类似于训练过程200,不同之处在于训练过程300使用输入信号的编码版本来训练ml模型。上述操作202-208的描述通常为训练过程200和300所共有,应足以描述它们在训练过程300中的相应功能,因此不再重复。然而,训练过程300包括附加的编码操作302。编码操作302对输入信号进行编码以产生被编码的输入信号。编码操作302可以使用任何已知的或以后开发的波形保持音频压缩技术对输入信号进行编码。信号预处理操作202然后对被编码的输入信号执行其预处理,以产生被编码的、被预处理的输入信号。信号预处理操作202将被编码的、被预处理的输入信号提供给ml模型以用于训练操作310,其以与操作210类似的方式进行。
40.参考图4,其是示例高级通信系统400的框图,其中可以部署被训练的神经网络104以执行推断阶段键值指导信号变换。通信系统400包括其中可以部署键值估计器102的发射
机(tx)402和其中部署被训练的神经网络104的接收机(rx)404。在高层,发射机402生成包括输入信号和用以指导输入信号变换的键值参数(例如,键值参数kp)的比特流,并通过通信通道发送比特流。接收机404从通信通道接收比特流,并从比特流中恢复输入信号和键值参数。接收机404的被训练的神经网络104执行其推断处理,并基于从比特流恢复的键值参数转换从比特流恢复的输入信号以产生输出信号。下面结合图5-7描述在发送机402和接收机404中执行的键值估计/生成和推断阶段处理。
41.参考图5,其是发射机402执行的第一示例发射机过程500的流程图,该第一示例发射机过程500产生与先前用未编码输入信号训练的(例如根据训练过程200训练的)神经网络104的ml模型相容的比特流。发射机过程500对信号全集例如输入信号、目标信号和键值参数kp,进行操作,这些信号具有与训练过程200的相应训练信号相似的统计特性。此外,发射机过程500采用训练过程200采用的操作中的许多操作。以上对训练过程200和发射机过程500两者基本共有的操作202-208的描述对于发射机过程应该是足够的,因此将不再详细重复。
42.发射机过程500包括操作202和204以分别向键值估计操作206提供被预处理的输入信号和被预处理的目标信号。接下来,键值估计操作206和键值编码操作208共同从被预处理的输入信号和目标信号生成编码的键值参数kp。接下来,编码操作502对输入信号进行编码以产生被编码/压缩的输入信号。最后,比特流复用操作504将被编码的输入信号和被编码的键值参数复用成比特流(即,复用信号),以便由发射机402通过通信通道传输。
43.参考图6,其是发射机402执行的第二示例发射机过程600的流程图,该第二示例发射机过程600产生与先前用被编码输入信号训练的(例如根据训练过程300训练的)神经网络104的ml模型相容的比特流。发射机过程600对具有与训练过程300的训练信号相似的统计特性的信号全集进行操作。此外,发射机过程600采用训练过程300采用的操作中的许多操作。以上对训练过程300和发射机过程600两者基本共有的操作202-208和302的描述对于发射机过程应该是足够的,因此将不再详细重复。
44.发射机过程600包括操作302和202,它们共同向键值估计操作206和比特流复用操作504提供被编码的被预处理的输入信号。此外,操作204向键值估计操作206提供预处理的目标信号。接下来,键值生成操作206和208基于被编码的被预处理的输入信号和被预处理的目标信号共同生成被编码的键值参数kp。最后,比特流复用操作504将被编码的输入信号和被编码的键值参数复用到比特流中,以供发射机402通过通信通道传输。
45.参见图7,其是由接收机404执行的示例性推断阶段接收机过程700的流程图。接收机过程700接收由发射机402发射的比特流。接收机过程700包括解复用器-解码器操作702(也简称为“解码器”操作)以从比特流中解复用和解码被编码的输入信号和被编码的键值参数,以恢复输入信号和键值参数的本地副本/版本(在图7中分别标记为“被解码的输入信号”和“被解码的键值参数”)。
46.接下来,可选的输入信号预处理操作704预处理来自比特流解复用器-解码器操作702的输入信号,以产生输入信号的预处理版本,其代表输入信号。基于键值参数,神经网络104的ml模型对输入信号的预处理版本执行所期望的信号变换,以产生输出信号(在图7中标记为“模型输出”)。在省略预处理输入信号预处理操作704的实施例中,神经网络104的ml模型直接对输入信号执行所期望的信号变换。输入信号的被处理版本和输入信号均可以更
一般地被称为“代表输入信号的信号”。
47.接收机过程700还可以包括输入-输出混合操作710以将被预处理的输入信号与输出信号混合。输入输出混合操作710可以包括在逐帧的基础上执行的以下操作中的一个或多个:
48.a.恒定重叠相加(cola)加窗,例如,两个连续加窗帧的50%跳跃和重叠相加。
49.b.混合被预处理输入信号和输出信号的加窗/过滤版本以生成所期望信号,混合的目的是控制在输出信号和被预处理信号之间的频谱重叠区域中所期望信号的特性。混合还可以包括基于键值参数对输出信号进行后处理以控制输出信号中的整体音调和噪声。
50.总之,过程700包括(i)接收输入音频和代表目标音频特性的键值参数,以及(ii)使用键值参数配置先前被训练为由键值参数配置的神经网络104,以导致神经网络执行代表输入音频的音频(例如,输入音频或输入音频的预处理版本)的信号变换,以产生具有与目标音频特性匹配的输出音频特性的输出音频。键值参数可以将目标频谱特性表示为目标音频特性,并且该配置包括使用键值参数配置神经网络104以使神经网络执行输入音频的输入频谱特性到与目标频谱特性匹配的输出音频的输出频谱特性的信号变换。
51.参考图8,其是使用神经网络(例如,神经网络104)执行键值指导信号变换的示例方法800的流程图,该神经网络先前被训练为使用键值参数进行配置以执行信号变换,即基于键值参数执行信号转换。
52.在802,键值估计器接收输入音频和具有目标音频特性的目标音频。输入音频和目标音频均可包括音频帧序列。键值估计器基于目标音频和输入音频中的一者或多者估计表示目标音频特性的键值参数。键值估计器可以执行输入和目标音频的频谱和/或时间分析,以产生键值参数,如上所述。键值估计器可以逐帧估计键值参数以产生逐帧键值参数序列。键值估计器将键值参数提供给被训练的神经网络的第一输入。
53.在804,被训练的神经网络还在神经网络的第二输入处接收输入音频。键值参数配置被训练的神经网络以执行所期望的信号变换。响应于键值参数,被训练的神经网络对输入音频(即,输入音频的输入音频特性)执行所期望的信号变换,以产生具有与目标音频特性匹配的输出音频特性的输出音频。也就是说,信号变换将输入音频特性变换为与目标音频特性匹配或相似的输出音频特性。被训练的神经网络可以逐帧地由逐帧键值参数序列配置,以将每个输入音频帧转换为相应的输出音频帧,以产生输出音频作为输出音频帧序列(每个输入音频帧和每组逐帧键值参数一个输出音频帧)。
54.在先验训练阶段,训练神经网络以执行信号变换,以便最小化输出音频和目标音频之间的误差。例如,通过训练神经网络的权重来训练神经网络,使神经网络响应于训练键值参数对训练输入音频进行信号变换,以产生训练输出音频,从而使误差最小化。
55.参照图9,其是被配置为实现本文呈现的实施例的计算机设备900的框图。计算机设备900有多种可能的配置,而图9只是一个例子。计算机设备900的示例包括平板计算机、个人计算机、膝上型计算机、诸如智能手机的移动电话等。计算机设备900包括一个或多个网络接口单元(niu)908,以及均耦合到处理器916的存储器914。一个或多个niu 908可以包括允许处理器916通过通信网络进行通信的有线和/或无线连接能力。例如,niu 908可以包括通过以太网连接进行通信的以太网卡、在通信网络中与蜂窝网络进行无线通信的无线rf收发器、光收发器等,如本领域的普通技术人员所理解的那样。处理器916接收被采样或数
字化的音频,并将被数字化的音频提供给一个或多个音频设备918,如已知的那样。音频设备918可以包括麦克风、扬声器、模数转换器(adc)和数模转换器(dac)。
56.处理器916可以包括微控制器和/或微处理器的集合,例如,均被配置为执行存储在存储器914中的相应软件指令。处理器916可以实现神经网络的ml模型。处理器916可以在一个或多个可编程专用集成电路(asic)、固件或其组合中实现。存储器914的部分(和其中的指令)可以与处理器916集成。如本文所用,术语“声学”、“音频”和“声音”是同义词且可互换。
57.存储器914可以包括只读存储器(rom)、随机存取存储器(ram)、磁盘存储介质设备、光存储介质设备、闪存设备、电的、光的、或其他物理的/有形的(例如,非暂时性的)记忆存储设备。因此,通常,存储器914可以包括一个或多个计算机可读存储介质(例如,存储器设备),其被用包括计算机可执行指令的软件编码,并且当软件被(处理器916)执行时,它可操作以执行文中描述的操作。例如,存储器914存储或编码有指令,以供控制逻辑920来实现模块,这些模块被配置为执行本文描述的与神经网络的ml模型、键值估计器、输入/目标信号预处理、输入信号和键值编码和解码、成本最小化、比特流复用和解复用、输入-输出混合(后处理)等有关的操作,以及上述方法。
58.此外,存储器914存储处理器916使用和生成的数据/信息922,包括键值参数、输入音频、目标音频和输出音频,以及神经网络的ml模型采用的系数和权重。
59.综上所述,在一个实施例中,提供了一种方法,包括:接收输入音频和具有目标音频特性的目标音频;基于输入音频和目标音频中的一者或多者来估计表示目标音频特性的键值参数;以及配置神经网络,该神经网络被训练为由键值参数配置,键值参数使神经网络执行输入音频的信号变换,以产生具有与目标音频特性相对应且匹配的输出音频特性的输出音频。
60.在另一个实施例中,提供了一种装置,包括:键值估计器,用于接收输入音频和具有目标音频特性的目标音频;以及基于输入音频和目标音频中的一者或多者来估计表示目标音频特性的键值参数;以及神经网络,该神经网络被训练为由键值参数配置以执行输入音频的信号变换,以产生具有与目标音频特性相对应且匹配的输出音频特性的输出音频。
61.在又一个实施例中,提供了一种非暂时性计算机可读介质。该介质被编码有指令,该指令在由处理器执行时,使处理器实行:接收输入音频和具有目标音频特性的目标音频;基于输入音频和目标音频中的一者或多者来估计表示目标音频特性的键值参数;以及配置神经网络(由指令实现),该神经网络被训练为由键值参数配置,键值参数使神经网络执行输入音频的信号变换,以产生具有与目标音频特性相对应且匹配的输出音频特性的输出音频。
62.在另一个实施例中,提供了一种装置,包括:解码器,用于解码编码的输入音频和编码的键值参数,以分别产生输入音频和键值参数;以及神经网络,其被训练为由键值参数配置以执行代表输入音频的音频(例如,输入音频本身或输入音频的预处理版本)的信号变换,以产生输出音频。键值参数表示目标音频特性,神经网络被训练为由键值参数配置以执行输入音频的输入音频特性到与目标音频特性匹配的输出音频的输出音频特性的信号变换。
63.在另一个实施例中,提供了一种方法,包括:接收输入音频和代表目标音频特性的
键值参数;以及利用键值参数配置先前被训练为由键值参数配置的神经网络,以使神经网络执行代表输入音频的音频的信号变换,以产生具有与目标音频特性匹配的输出音频特性的输出音频。
64.在另一个实施例中,提供了一种非暂时性计算机可读介质。该介质被编码有指令,指令在由处理器执行时,使处理器执行:接收输入音频和代表目标音频特性的键值参数;以及利用键值参数配置先前被训练为由键值参数配置的神经网络,以使神经网络执行代表输入音频的音频的信号变换,以产生具有与目标音频特性匹配的输出音频特性的输出音频。
65.尽管本文中技术被图示和描述为体现在一个或多个具体示例中,但是它并不旨在局限于所示的细节,因为可以在权利要求的范围和等同范围内进行各种修改和结构变化。
66.下面给出的各权利要求代表单独的实施例,并且组合不同权利要求和/或不同实施例的实施例在本公开的范围内,并且在本领域的普通技术人员阅读本公开后将是显而易见的。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1