语音唤醒方法及装置、终端设备与流程

文档序号:38523733发布日期:2024-07-01 23:05阅读:126来源:国知局

本公开涉及计算机通信,尤其涉及一种语音唤醒方法及装置、终端设备。


背景技术:

1、语音唤醒是终端设备上最常见的人机交互方式,用户通过语音唤醒终端设备并发出相关指令而让终端设备实现相关服务。

2、在语音唤醒的识别过程中,需要先对用户发出的语音进行流式语音识别得到唤醒词,在唤醒词校验通过后,再对语音进行声纹识别,声纹校验成功后,终端设备将对本次唤醒产生响应。由于先做流式语音识别再做声纹识别,将导致语音唤醒存在较长的延时,且流式语音识别需要耗费一定时间,进一步使得唤醒速度较慢。


技术实现思路

1、有鉴于此,本公开提供一种语音唤醒方法及装置、终端设备,可以有效降低语音唤醒的延时,提高语音唤醒的响应速度。

2、根据本公开实施例的第一方面,提供了一种语音唤醒方法,所述方法应用于终端设备,所述方法包括:

3、获取待识别语音的语谱图;

4、将所述语谱图输入预先训练好的同步识别神经网络,得到所述同步识别神经网络同步输出的语音识别结果和声纹特征信息;

5、至少根据所述语音识别结果和所述声纹特征信息,确定是否对终端设备执行设备唤醒操作。

6、结合本公开提供的任一实施方式,所述同步识别神经网络包括以下至少一项:

7、用于提取所述语谱图所包括的特征信息的编码器;

8、用于基于所述特征信息确定语音识别结果的第一子网络;

9、用于基于所述特征信息确定所述声纹特征信息的第二子网络。

10、结合本公开提供的任一实施方式,所述编码器中网络参数的权重为确定语音识别结果的语音识别任务和确定声纹特征信息的声纹识别任务所共享。

11、结合本公开提供的任一实施方式,所述同步识别神经网络采用以下方式训练得到:

12、基于样本语音的样本语谱图,确定所述样本语谱图中的语音输出者标签和音素标签;

13、将所述样本语谱图输入迁移神经网络,得到所述迁移神经网络同步输出的样本语音识别结果和样本声纹特征信息,所述样本语音识别结果包含识别得到的所述样本语音中的音素序列,所述样本声纹特征信息为识别得到的所述样本语音对应的语音输出者的声纹特征信息;

14、基于所述样本语音识别结果中的音素序列和所述音素标签中的音素序列之间的差异,以及所述样本声纹特征信息和所述语音输出者标签中的声纹特征信息之间的差异,确定迁移损失函数;

15、根据所述迁移损失函数,对所述迁移神经网络进行训练,直到迁移损失函数满足预设的停止训练条件,得到所述同步识别神经网络。

16、结合本公开提供的任一实施方式,所述迁移神经网络采用以下方式训练得到:

17、获取至少两类语谱图;其中,第一类语谱图标注了第一音素标签;第二类语谱图标注了第二语音输出者标签;

18、将所述第一类语谱图和所述第二类语谱图输入初始神经网络,得到所述初始神经网络同步输出的第一语音识别结果和第二声纹特征信息,所述第一语音识别结果包含识别得到的所述第一类语谱图中的音素序列,所述第二声纹特征信息为识别得到的所述第二类语谱图对应的语音输出者的声纹特征信息;

19、基于所述第一语音识别结果中的音素序列和所述第一音素标签中的音素序列之间的差异,以及所述第二声纹特征信息和所述第二语音输出者标签中的声纹特征信息之间的差异,确定损失函数;

20、根据所述损失函数,对所述初始神经网络进行训练,直到损失函数满足预设的停止训练条件,得到所述迁移神经网络。

21、结合本公开提供的任一实施方式,所述至少根据所述语音识别结果和所述声纹特征信息,确定是否对终端设备执行设备唤醒操作,包括:

22、响应于所述语音识别结果和标准唤醒词的比对结果为比对一致,且所述声纹特征信息和标准语音输出者的声纹特征信息的比对结果为比对一致,确定对终端设备执行设备唤醒操作。

23、结合本公开提供的任一实施方式,所述至少根据所述语音识别结果和所述声纹特征信息,确定是否对终端设备执行设备唤醒操作,包括:

24、响应于所述语音识别结果和标准唤醒词的比对结果为比对不一致,或者,所述声纹特征信息和标准语音输出者的声纹特征信息的比对结果为比对不一致,确定不对终端设备执行设备唤醒操作。

25、根据本公开实施例的第二方面,提供了一种语音唤醒装置,所述装置应用于终端设备,所述装置包括:

26、语谱图获取模块,用于:获取待识别语音的语谱图;

27、同步识别模块,用于:将所述语谱图输入预先训练好的同步识别神经网络,得到所述同步识别神经网络同步输出的语音识别结果和声纹特征信息;

28、执行唤醒模块,用于:至少根据所述语音识别结果和所述声纹特征信息,确定是否对终端设备执行设备唤醒操作。

29、根据本公开实施例的第三方面,提供了一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述第一方面任一所述语音唤醒方法的步骤。

30、根据本公开实施例的第四方面,提供了一种终端设备,包括:

31、处理器;

32、用于存储处理器可执行指令的存储器;

33、其中,所述处理器被配置为被处理器执行时实现上述第一方面任一所述语音唤醒方法的步骤。

34、本公开实施例提供的技术方案可以包括以下有益效果:

35、本方案中通过将采集到的待识别语音的语谱图输入预先训练好的同步识别神经网络,由同步识别神经网络同时对待识别语音中的语音结果和声纹特征进行识别,将语音识别任务和声纹识别任务结合起来,降低了语音唤醒的延时,提高了语音唤醒的速度。

36、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。



技术特征:

1.一种语音唤醒方法,其特征在于,所述方法应用于终端设备,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述同步识别神经网络包括以下至少一项:

3.根据权利要求2所述的方法,其特征在于,所述编码器中网络参数的权重为确定语音识别结果的语音识别任务和确定声纹特征信息的声纹识别任务所共享。

4.根据权利要求1所述的方法,其特征在于,所述同步识别神经网络采用以下方式训练得到:

5.根据权利要求4所述的方法,其特征在于,所述迁移神经网络采用以下方式训练得到:

6.根据权利要求1所述的方法,其特征在于,所述至少根据所述语音识别结果和所述声纹特征信息,确定是否对终端设备执行设备唤醒操作,包括:

7.根据权利要求1所述的方法,其特征在于,所述至少根据所述语音识别结果和所述声纹特征信息,确定是否对终端设备执行设备唤醒操作,包括:

8.一种语音唤醒装置,其特征在于,所述装置应用于终端设备,所述装置包括:

9.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1~7任一所述语音唤醒方法的步骤。

10.一种终端设备,其特征在于,包括:


技术总结
本公开提供一种语音唤醒方法及装置、终端设备,其中,所述方法应用于终端设备,所述方法包括:获取待识别语音的语谱图;将所述语谱图输入预先训练好的同步识别神经网络,得到所述同步识别神经网络同步输出的语音识别结果和声纹特征信息;至少根据所述语音识别结果和所述声纹特征信息,确定是否对终端设备执行设备唤醒操作。本方法降低了语音唤醒的延时,提高了语音唤醒的速度。

技术研发人员:王伟
受保护的技术使用者:北京小米移动软件有限公司
技术研发日:
技术公布日:2024/6/30
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!