基于卷积神经网络的声学特征提取方法、装置和终端设备与流程

文档序号:12723987阅读:来源:国知局

技术特征:

1.一种基于卷积神经网络的声学特征提取方法,其特征在于,包括:

将待识别的语音排列成预定纬数的语谱图;

通过卷积神经网络对所述预定纬数的语谱图进行识别,获得所述待识别的语音中的声学特征。

2.根据权利要求1所述的方法,其特征在于,所述将待识别的语音排列成预定纬数的语谱图包括:

每隔预定的时间间隔从所述待识别的语音中提取预定纬度的特征向量,以将所述待识别的语音排列成预定纬数的语谱图。

3.根据权利要求1所述的方法,其特征在于,所述通过卷积神经网络对所述预定纬数的语谱图进行识别包括:

通过卷积神经网络的残差网络结构对所述预定纬数的语谱图进行识别。

4.根据权利要求3所述的方法,其特征在于,所述通过卷积神经网络的残差网络结构对所述预定纬数的语谱图进行识别之前,还包括:

配置所述卷积神经网络的残差网络结构的模型。

5.根据权利要求4所述的方法,其特征在于,所述配置所述卷积神经网络的残差网络结构的模型包括:

对于由1个64通道的滤波器组的卷积有向无环图组成的64通道的滤波器模块,由池化层在时域和频域上均做降采样;

对于由1个128通道的滤波器组的卷积有向无环图组成的128通道的滤波器模块,由池化层在时域和频域上均做降采样;

对于由1个256通道的滤波器组的卷积有向无环图组成的256通道的滤波器模块,由池化层在频域上做降采样;

对于由1个512通道的滤波器组的卷积有向无环图组成的512通道的滤波器模块,由池化层在频域上做降采样。

6.根据权利要求1所述的方法,其特征在于,所述通过卷积神经网络对所述预定纬数的语谱图进行识别包括:

通过卷积神经网络的跳跃链接结构对所述预定纬数的语谱图进行识别。

7.根据权利要求6所述的方法,其特征在于,所述通过卷积神经网络的跳跃链接结构对所述预定纬数的语谱图进行识别之前,还包括:

配置所述卷积神经网络的跳跃链接结构的模型。

8.根据权利要求7所述的方法,其特征在于,所述配置所述卷积神经网络的跳跃链接结构的模型包括:

对于由1个64通道的滤波器组的卷积有向无环图组成的64通道的滤波器模块,由池化层在时域和频域上均做降采样;

对于由1个128通道的滤波器组的卷积有向无环图组成的128通道的滤波器模块,由池化层在时域和频域上均做降采样;

对于由1个256通道的滤波器组的卷积有向无环图组成的256通道的滤波器模块,由池化层在频域上做降采样;

对于由1个512通道的滤波器组的卷积有向无环图组成的512通道的滤波器模块,由池化层在频域上做降采样。

9.一种基于卷积神经网络的声学特征提取装置,其特征在于,包括:

生成模块,用于将待识别的语音排列成预定纬数的语谱图;

识别模块,用于通过卷积神经网络对所述生成模块生成的预定纬数的语谱图进行识别,获得所述待识别的语音中的声学特征。

10.根据权利要求9所述的装置,其特征在于,

所述生成模块,具体用于每隔预定的时间间隔从所述待识别的语音中提取预定纬度的特征向量,以将所述待识别的语音排列成预定纬数的语谱图。

11.根据权利要求9所述的装置,其特征在于,

所述识别模块,具体用于通过卷积神经网络的残差网络结构对所述预定纬数的语谱图进行识别。

12.根据权利要求11所述的装置,其特征在于,还包括:

配置模块,用于在所述识别模块对所述预定纬数的语谱图进行识别之前,配置所述卷积神经网络的残差网络结构的模型。

13.根据权利要求12所述的装置,其特征在于,

所述配置模块,具体用于对于由1个64通道的滤波器组的卷积有向无环图组成的64通道的滤波器模块,由池化层在时域和频域上均做降采样;对于由1个128通道的滤波器组的卷积有向无环图组成的128通道的滤波器模块,由池化层在时域和频域上均做降采样;对于由1个256通道的滤波器组的卷积有向无环图组成的256通道的滤波器模块,由池化层在频域上做降采样;对于由1个512通道的滤波器组的卷积有向无环图组成的512通道的滤波器模块,由池化层在频域上做降采样。

14.根据权利要求9所述的装置,其特征在于,

所述识别模块,具体用于通过卷积神经网络的跳跃链接结构对所述预定纬数的语谱图进行识别。

15.根据权利要求14所述的装置,其特征在于,还包括:

配置模块,用于在所述识别模块对所述预定纬数的语谱图进行识别之前,配置所述卷积神经网络的跳跃链接结构的模型。

16.根据权利要求15所述的装置,其特征在于,

所述配置模块,具体用于对于由1个64通道的滤波器组的卷积有向无环图组成的64通道的滤波器模块,由池化层在时域和频域上均做降采样;对于由1个128通道的滤波器组的卷积有向无环图组成的128通道的滤波器模块,由池化层在时域和频域上均做降采样;对于由1个256通道的滤波器组的卷积有向无环图组成的256通道的滤波器模块,由池化层在频域上做降采样;对于由1个512通道的滤波器组的卷积有向无环图组成的512通道的滤波器模块,由池化层在频域上做降采样。

17.一种终端设备,其特征在于,包括:

一个或多个处理器;

存储装置,用于存储一个或多个程序;

当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-8中任一所述的方法。

18.一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-8中任一所述的方法。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1