音频识别方法、装置、电子设备及存储介质与流程

文档序号:41407192发布日期:2025-03-25 19:04阅读:86来源:国知局

本申请涉及人工智能,具体涉及一种音频识别方法、装置、电子设备及存储介质。


背景技术:

1、音频识别(包括语音识别)是指通过分析音频信号来确定音频的识别结果,比如该识别结果可以为音频中用户的情感信息,可以识别音频信号中表达的情绪,它在客服系统、虚拟助手、情感分析、医疗诊断等领域均有着广泛的应用。

2、目前,一般是通过对音频信号进行特征提取,比如梅尔频谱特征提取的方式,得到对应的音频特征表示,然后基于音频特征表示进行音频识别,得到与音频信号对应的识别结果,但是,该方式使得音频识别的精度较低。


技术实现思路

1、本申请提供了一种音频识别方法、装置、电子设备及存储介质,提高了音频识别的精度。

2、第一方面,本申请提供一种音频识别方法,该方法包括:

3、对待识别音频中的每个音频帧进行特征提取,得到第一特征矩阵;

4、基于第一特征矩阵,确定用于表征多个音频帧中的任意两个音频帧之间的关联关系的第二特征矩阵;

5、基于第二特征矩阵,确定用于表征每个音频帧与多个音频帧之间的关联关系的第三特征矩阵;

6、基于第一特征矩阵、第三特征矩阵进行识别,得到与待识别音频对应的识别结果。

7、第二方面,本申请提供一种音频识别装置,该装置包括:获取单元和处理单元;

8、获取单元,用于获取待识别音频;

9、处理单元,用于对待识别音频中的每个音频帧进行特征提取,得到第一特征矩阵;基于第一特征矩阵,确定用于表征多个音频帧中的任意两个音频帧之间的关联关系的第二特征矩阵;基于第二特征矩阵,确定用于表征每个音频帧与多个音频帧之间的关联关系的第三特征矩阵;基于第一特征矩阵、第三特征矩阵进行识别,得到与待识别音频对应的识别结果。

10、第三方面,本申请提供一种电子设备,包括:处理器和存储器,处理器与存储器相连,存储器用于存储计算机程序,处理器用于执行存储器中存储的计算机程序,以使得电子设备执行如第一方面的方法。

11、第四方面,本申请提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时执行如第一方面的方法。

12、第五方面,本申请提供一种计算机程序产品,计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,计算机程序被处理器执行时执行如第一方面的方法。

13、实施本申请,具有如下有益效果:

14、在对待识别音频中的多个音频帧进行特征提取得到第一特征矩阵之后,并非直接基于第一特征矩阵进行识别,而是先基于第一特征矩阵确定表征多个音频帧中的任意两个音频帧之间的关联关系的第二特征矩阵,即第二特征矩阵中的每个元素对应表示两个音频帧之间的关联关系,即可以关注音频帧之间或者说时间节点之间的关联关系,然后再基于该第二特征矩阵确定用于表征每个音频帧与所述多个音频帧之间的关联关系的第三特征矩阵,即第三特征矩阵中的每个元素表示每个音频帧与待识别音频的多个音频帧之间的整体的关联关系,可以体现每个音频帧在整个待识别音频中的一个特征表现,即每个音频帧汇聚了与多个音频帧之间的关联,使得最终每个音频帧对应的特征表示融合了与多个音频帧之间的关联,丰富了每个音频帧的特征表示,增强了每个音频帧的特征表达能力,进而基于第一特征矩阵中每个音频帧的特征表示和第三特征矩阵中每个音频帧在多个音频帧之间的一个整体的关联关系的特征表示进行识别,可以提高音频识别的精度。



技术特征:

1.一种音频识别方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于所述第二特征矩阵,确定用于表征每个音频帧与所述多个音频帧之间的关联关系的第三特征矩阵,包括:

3.根据权利要求1或2所述的方法,其特征在于,所述对待识别音频中的多个音频帧进行特征提取,得到第一特征矩阵,包括:

4.根据权利要求3所述的方法,其特征在于,所述基于所述与多个通道对应的多个第四特征矩阵,确定所述第一特征矩阵,包括:

5.根据权利要求4所述的方法,其特征在于,所述基于每个通道对应的第一融合特征矩阵,确定所述第一特征矩阵,包括:

6.根据权利要求1-5任一项所述的方法,其特征在于,所述基于所述第一特征矩阵和所述第三特征矩阵进行识别,得到所述待识别音频的识别结果,包括:

7.根据权利要求6所述的方法,其特征在于,所述基于所述第二融合特征矩阵进行识别,得到所述待识别音频的识别结果,包括:

8.一种音频识别装置,其特征在于,所述音频识别装置包括:获取单元和处理单元;

9.一种电子设备,其特征在于,包括:处理器和存储器,所述处理器与所述存储器相连,所述存储器用于存储计算机程序,所述处理器用于执行所述存储器中存储的计算机程序,以使得所述电子设备执行如权利要求1-7中任一项所述的方法。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现如权利要求1-7中任一项所述的方法。


技术总结
本申请公开了一种音频识别方法、装置、电子设备及存储介质。该方法包括:对待识别音频中的每个音频帧进行特征提取,得到第一特征矩阵;基于第一特征矩阵,确定用于表征多个音频帧中的任意两个音频帧之间的关联关系的第二特征矩阵;基于第二特征矩阵,确定用于表征每个音频帧与多个音频帧之间的关联关系的第三特征矩阵;基于第一特征矩阵、第三特征矩阵进行识别,得到与待识别音频对应的识别结果。

技术研发人员:熊雪军
受保护的技术使用者:马上消费金融股份有限公司
技术研发日:
技术公布日:2025/3/24
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!