音频识别方法、装置、设备、存储介质及计算机程序产品与流程

文档序号:45010916发布日期:2026-03-24 20:36阅读:6来源:国知局

本申请涉及自然语言处理,尤其涉及一种音频识别方法、装置、设备、存储介质及计算机程序产品。


背景技术:

1、相关技术的音频识别方法的识别目标,往往以字为单位,区别于混合模型以音素为建模单元,以字为建模单元的音频识别模型,更加依赖于训练数据,其所携带的语义信息更为容易倾向于训练集,当对某些特定的词进行识别时,以字为建模单元的音频识别模型难以准确地识别出特定的词,导致音频识别效果差。


技术实现思路

1、本申请实施例提供一种音频识别方法、装置、设备、存储介质及计算机程序产品,能够提升音频识别效果。

2、本申请实施例的技术方案是这样实现的:

3、本申请实施例提供一种音频识别方法,所述方法包括:

4、对待识别音频数据进行音频编码处理,得到音频编码特征;

5、对所述音频编码特征进行第一解码处理,得到第一解码特征;

6、对预设的词文本以及所述第一解码特征进行第一文本编码处理,得到第一文本编码特征,其中,所述第一文本编码特征包括用于表征所述预设的词文本的语义的特征和所述待识别音频数据的语义的特征;

7、对所述第一文本编码特征进行第二解码处理,得到预测音频文本,其中,所述预测音频文本用于表征所述预设的词文本的语义和所述待识别音频数据的语义。

8、本申请实施例提供一种音频识别装置,包括:

9、数据处理模块,用于对待识别音频数据进行音频编码处理,得到音频编码特征;

10、所述数据处理模块,还用于对所述音频编码特征进行第一解码处理,得到第一解码特征;

11、所述数据处理模块,还用于对预设的词文本以及所述第一解码特征进行第一文本编码处理,得到第一文本编码特征,其中,所述第一文本编码特征包括用于表征所述预设的词文本的语义的特征和所述待识别音频数据的语义的特征;

12、预测模块,用于对所述第一文本编码特征进行第二解码处理,得到预测音频文本,其中,所述预测音频文本用于表征所述预设的词文本的语义和所述待识别音频数据的语义。

13、本申请实施例提供一种电子设备,所述电子设备包括:

14、存储器,用于存储计算机可执行指令;

15、处理器,用于执行所述存储器中存储的计算机可执行指令时,实现本申请实施例提供的音频识别方法。

16、本申请实施例提供一种计算机可读存储介质,存储有计算机程序或计算机可执行指令,用于被处理器执行时实现本申请实施例提供的音频识别方法。

17、本申请实施例提供一种计算机程序产品,包括计算机程序或计算机可执行指令,所述计算机程序或计算机可执行指令被处理器执行时,实现本申请实施例提供的音频识别方法。

18、本申请实施例具有以下有益效果:

19、通过从待识别音频数据获取第一解码特征,并对预设的词文本以及第一解码特征进行第一文本编码处理,得到第一文本编码特征,以及对第一文本编码特征进行第二解码处理,得到预测音频文本,相较于相关技术单纯基于输入文本的音频数据进行音频识别的方式,通过在解码阶段利用预设的词文本与第一解码特征进行第一文本编码处理后再进行解码输出,能够在需要对特定词识别的场景中充分表征待识别音频数据的语义,进而提升基于第一文本编码特征所得到音频文本的准确性。


技术特征:

1.一种音频识别方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述对预设的词文本以及所述第一解码特征进行第一文本编码处理,得到第一文本编码特征,包括:

3.根据权利要求2所述的方法,其特征在于,所述基于所述预设的词文本和所述第一解码特征,确定第一注意力编码特征,包括:

4.根据权利要求3所述的方法,其特征在于,所述对所述第一上下文词特征向量和所述第一解码特征进行注意力编码处理,得到第一注意力编码特征,包括:

5.根据权利要求1所述的方法,其特征在于,所述对所述音频编码特征进行第一解码处理,得到第一解码特征之前,所述方法还包括:

6.根据权利要求5所述的方法,其特征在于,所述对所述词文本和所述音频编码特征进行第二文本编码处理,得到第二文本编码特征,包括:

7.根据权利要求1至6任一项所述的方法,其特征在于,所述音频识别方法是通过音频识别模型实现的,所述对待识别音频数据进行音频编码处理,得到音频编码特征之前,所述方法还包括:

8.根据权利要求7所述的方法,其特征在于,所述得到训练更新后的第一音频识别模型之后,所述方法还包括:

9.根据权利要求8所述的方法,其特征在于,所述从音频文本标注中获取第一词样本,包括:

10.根据权利要求8所述的方法,其特征在于,所述对所述第一词样本和所述新的第一音频识别模型中的编码器的输出进行第二文本编码处理,得到第二样本编码特征,包括:

11.根据权利要求8所述的方法,其特征在于,在所述得到第二音频识别模型之后,所述方法还包括:

12.根据权利要求11所述的方法,其特征在于,所述基于所述新的第二音频识别模型中的第一词增强网络的输出、所述预设的词标签、所述预测音频样本文本和所述音频文本标注,更新所述新的第二音频识别模型的参数,得到第三音频识别模型,包括:

13.一种音频识别装置,其特征在于,所述装置包括:

14.一种电子设备,其特征在于,所述电子设备包括:

15.一种计算机可读存储介质,存储有计算机可执行指令或者计算机程序,其特征在于,所述计算机可执行指令或者计算机程序被处理器执行时实现权利要求1至12任一项所述的音频识别方法。

16.一种计算机程序产品,包括计算机可执行指令或计算机程序,其特征在于,所述计算机可执行指令或计算机程序被处理器执行时实现权利要求1至12任一项所述的音频识别方法。


技术总结
本申请提供了一种音频识别方法、装置、设备、存储介质及计算机程序产品;方法包括:对待识别音频数据进行音频编码处理,得到音频编码特征;对音频编码特征进行第一解码处理,得到第一解码特征;对预设的词文本以及第一解码特征进行第一文本编码处理,得到第一文本编码特征,其中,第一文本编码特征包括用于表征预设的词文本的语义的特征和待识别音频数据的语义的特征;对第一文本编码特征进行第二解码处理,得到预测音频文本,其中,预测音频文本用于表征预设的词文本的语义和待识别音频数据的语义。通过本申请,能够提升音频识别效果。

技术研发人员:孟庆林
受保护的技术使用者:马上消费金融股份有限公司
技术研发日:
技术公布日:2026/3/23
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!