使用神经网络进行音频处理的制作方法

文档序号:36382524发布日期:2023-12-14 17:07阅读:46来源:国知局
使用神经网络进行音频处理的制作方法

本说明书涉及通过神经网络的层处理输入以生成输出。


背景技术:

1、神经网络是机器学习模型,其采用一层或多层非线性单元来对于接收的输入预测输出。除了输出层之外,一些神经网络还包括一个或多个隐藏层。每个隐藏层的输出用作对于网络中的下一层(即,下一个隐藏层或输出层)的输入。网络的每个层根据相应参数集的当前值从所接收的输入生成输出。


技术实现思路

1、通常,本说明书中描述的主题的一个创新方面可以体现在用于提供包括多个神经网络层的神经网络的方法中,其中,神经网络被配置为接收音频样本的时域特征,并处理时域特征以从音频样本生成神经网络输出,其中,神经网络包括:(i)频率变换(f-t)层,其被配置为应用由f-t层参数集合定义的将时域特征的窗变换为频域特征的变换;以及(ii)一个或多个其他神经网络层,其具有相应的层参数,并且被配置为处理频域特征以生成神经网络输出。该方法还可以包括训练神经网络。训练神经网络的方法可以包括下述行为:获得训练数据,训练数据包括对于多个训练音频样本中的每一个而言的该训练音频样本的时域特征和训练音频样本的已知输出;并且在训练数据上训练神经网络以调整其他神经网络层的参数的值,并调整f-t层参数的值以定义从时域特征到频域特征的最佳变换。

2、该方面的其他实施例包括对应的计算机系统、装置和记录在一个或多个计算机存储设备上的计算机程序,每个被配置为执行所述方法的行为。一个或多个计算机的系统可以被配置为借助于安装在系统上的软件、固件、硬件或其任何组合来执行特定操作或行为,所述软件、固件、硬件或其任何组合在运行中可以使系统执行所述行为。一个或多个计算机程序可以被配置为通过包括指令来执行特定操作或行为,该指令在由数据处理装置执行时使所述装置执行所述行为。

3、根据另一方面,提供了一种系统,包括一个或多个计算机和存储指令的一个或多个存储设备,所述指令在由一个或多个计算机执行时使计算机执行操作以实现:神经网络系统,所述神经网络系统包括多个神经网络层,其中,所述神经网络系统被配置为接收音频样本的时域特征并处理所述时域特征以生成用于所述音频样本的神经网络输出,所述多个神经网络层包括:频率变换(f-t)层,其被配置为应用由f-t层参数集合定义的将时域特征的窗变换为频域特征的变换;以及一个或多个其他神经网络层,其具有相应的层参数,其中,所述一个或多个神经网络层被配置为处理频域特征以生成神经网络输出。f-t层参数可以是经训练的f-t层参数,其定义从时域到频域的最佳变换。

4、根据另一方面,提供了一种用于在训练数据上训练包括多个神经网络层的神经网络的方法,其中,所述神经网络被配置为接收音频样本的时域特征,并处理所述时域特征以从所述音频样本生成神经网络输出,其中,所述神经网络包括:(i)频率变换(f-t)层,被配置为应用由f-t层参数集合定义的将时域特征的窗变换为频域特征的变换;以及(ii)一个或多个其他神经网络层,具有相应的层参数,并且被配置为处理所述频域特征以生成所述神经网络输出,并且其中,所述方法包括下述行为:获得训练数据,所述训练数据包括对于多个训练音频样本中的每一个而言的该训练音频样本的时域特征和该训练音频样本的已知输出;并且在所述训练数据上训练所述神经网络以调整所述其他神经网络层的所述参数的所述值,并调整所述f-t层参数的所述值以定义从时域特征到频域特征的最佳变换。

5、根据另一方面,提供了一种系统,包括一个或多个计算机和存储指令的一个或多个存储设备,所述指令在由所述一个或多个计算机执行时使得所述计算机执行操作,所述操作用于:在训练数据上训练包括多个神经网络层的神经网络,其中,所述神经网络被配置为接收音频样本的时域特征,并处理所述时域特征以从所述音频样本生成神经网络输出,其中,所述神经网络包括:(i)频率变换(f-t)层,被配置为应用由f-t层参数集合定义的变换,所述变换将时域特征的窗变换为频域特征;以及(ii)一个或多个其他神经网络层,其具有相应的层参数,并且被配置为处理所述频域特征以生成所述神经网络输出,并且其中,所述操作包括:获得训练数据,所述训练数据包括对于多个训练音频样本中的每一个而言的该训练音频样本的时域特征和该训练音频样本的已知输出;以及在所述训练数据上训练所述神经网络以调整所述其他神经网络层的所述参数的所述值,并调整所述f-t层参数的所述值以定义从时域特征到频域特征的最佳变换。

6、前述方面和其他实施例可以每个可选地单独或组合地包括一个或多个以下特征。在一些实施方式中,由f-t层参数集合定义的将时域特征的窗变换为频域特征的变换是由离散傅里叶变换(dft)矩阵表示的。

7、在一些情况下,所述f-t层参数集合包括变换矩阵,其中,所述变换矩阵的每一行的条目包括相应的采样基函数。

8、在一些实施方式中,每行的第一参数确定该行中的条目中的每个条目的频率,并且每行的第二参数确定该行中的条目中的每个条目的幅度。

9、在一些情况下,所述变换矩阵中的行数等于所提取的频率的数目。

10、在一些实施方式中,所述f-t层参数集合包括变换矩阵,其中,所述变换矩阵包括窗函数。

11、在一些情况下,所述神经网络被配置为将窗函数应用于f-t层输入。

12、在一些方面,所述训练数据包括多个多信道训练数据。

13、在一些实施方式中,所述神经网络包括多个f-t层,每个f-t层被配置为应用由相应的f-t层参数集合定义的将时域特征的窗变换为频域特征的变换,并且训练所述神经网络包括连接由所述多个f-t层中的每一个生成的频域特征以执行多时间标度dft。

14、在一些情况下,所述多个f-t层每个被配置为应用由共享的f-t层参数集合定义的变换。

15、在一些实施方式中,该方法还包括将所述多个多信道训练数据合并为单个训练数据输入。

16、在一些情况下,在所述训练数据上训练所述神经网络包括针对每个时域特征的窗和针对所述f-t层:从所述f-t层上方的神经网络层接收时域特征的所述窗的反向传播梯度;计算所述神经网络的误差函数的梯度,其中,所述误差函数取决于所述f-t层参数和所接收的反向传播梯度的乘积;以及使用所计算的梯度来更新所述f-t层参数。

17、在一些实施方式中,所述频率变换(f-t)层所运算于的所述时域特征的所述窗取决于所接收的时域特征的数目。

18、在一些情况下,所述f-t层是完全连接的神经网络层。

19、在一些实施方式中,所述神经网络被配置为接收音频样本的时域特征,并且处理所述时域特征以生成对所述音频样本进行分类的神经网络输出,并且所述训练数据包括对于多个训练音频样本的每个而言的该训练音频样本的时域特征和该训练音频样本的已知分类。

20、可以在特定实施例中实现本说明书中描述的主题,以便实现以下优点中的一个或多个。

21、诸如语音识别、内容识别、音乐识别、紧急警报器检测和其他分类问题的音频处理任务通常利用作为输入的频域特征来工作。用于将时域特征转换(convert)为频域特征的常用算法产生固定标度的频域特征,诸如线性标度频域特征或其他预定义标度的频域特征,其可被提供作为诸如神经网络系统的音频分类系统的输入。

22、然而,在固定标度转换过程期间可能丢失重要信息,并且提供固定标度频域特征作为音频分类系统的输入可能降低音频分类系统的精度和性能。此外,时域特征到频域特征的硬编码固定标度转换可能无法为特定任务提供从时域到频域的最佳映射。例如,对于一些识别任务,线性标度频率映射可以是最佳的,对于其他识别任务,对数标度(logarithmic scale)或主要音阶(major musical scale)可以是最佳的。作为另一个例子,一些识别任务受益于在中频频谱中具有更详细的频率标度而在低频和高频频谱中具有更少的细节。

23、如本说明书中所描述的自适应时域到频域转换神经网络系统学习用于给定识别任务的时域特征和频域特征之间的最佳映射。特别地,自适应时域到频域转换神经网络系统为不同的识别任务和不同的输入信号特性学习不同的频率映射。因此,与对时域特征应用固定标度频率映射并向神经网络提供固定标度频域特征以进行处理的系统相比,在对原始输入样本进行分类时,实现本说明书中描述的自适应时域到频域转换的神经网络系统可以实现更高的精度水平。

24、此外,如本说明书中所描述的自适应时域到频域转换神经网络系统可以使用基于离散傅立叶变换(dft)的技术来学习时域特征和频域特征之间的最佳映射,这在一些情况下导致与不实现自适应时间到频域转换的其他神经网络系统相比,神经网络系统的性能和效率得到改善,因为尽管dft的计算复杂度实际上可能高于诸如快速傅里叶变换(fft)的其他转换技术,但是由于矩阵乘法和与fft相关的大常数的效率,它在实践中通常可以更快。另外,如本说明书中所描述的自适应时域到频域转换神经网络系统映射到k个频率,其中,k显著小于n。因此,系统执行n*k运算,这甚至更有效。

25、在附图和以下描述中阐述了本说明书的主题的一个或多个实施例的细节。根据说明书、附图和权利要求,本主题的其他特征、方面和优点将变得显而易见。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1