本申请涉及语音交互,尤其涉及一种终端设备及语音唤醒方法。
背景技术:
1、终端设备是指具有声音采集功能的电子设备,可以是智能电视、手机、智能音箱、电脑、机器人等电子设备。为了满足用户多样化和个性化需求,终端设备拥有语音识别技术,用户可以与终端设备进行语音交互。例如,在智能电视处于待机状态时,用户可利用语音识别技术唤醒智能电视,即通过远场语音指令唤醒智能电视,使智能电视从待机状态进入开机状态。
2、通常智能电视的唤醒过程为采集用户语音,对用户语音进行唤醒词识别,为了降低功耗,唤醒词识别通常是利用低功耗的小模型简单网络进行唤醒计算,当判断出有唤醒词时,向前回滚固定时间,保存对应的音频,将音频传输至大模型复杂网络进行唤醒计算,即二次校验是否是真的唤醒,如果是,则进入正常的唤醒、识别、语义理解及用户命令响应流程。
3、然而,为了降低功耗及成本,语音唤醒时能独立保存音频的空间较少,目前远场语音进行音频缓存的内存空间只有80k-100k,以采样率为16000bit/s,采样精度为16bit来计算,最多只能缓存2.5-3.2s的音频,按照用户说话的平均语速2个字/秒来计算,仅能满足五个字以内的唤醒词。而针对语速较慢,或者超过5个字以上的唤醒词,则会唤醒失败。并且在低功耗的小模型简单网络中识别出唤醒词后,回滚并进行音频保存,传输至大模型复杂网络进行二次校验时,音频的传输效率较慢,且会再进行一次信号处理及特征提取,导致唤醒的响应时间较长,降低用户体验。
技术实现思路
1、本申请提供了一种终端设备及语音唤醒方法,以解决语音唤醒时缓存音频空间少、唤醒响应时间长的问题。
2、第一方面,本申请提供一种终端设备,包括:声音采集器、第一处理器和第二处理器;其中,所述声音采集器用于采集唤醒语音;所述第一处理器被配置为执行以下程序步骤:
3、响应于用户输入的唤醒语音,从所述唤醒语音中提取语音特征值,以及向第二处理器发送所述语音特征值,所述语音特征值为包含唤醒词的频谱特征,所述频谱特征由所述唤醒语音经过语音信号处理得到;
4、所述第二处理器被配置为执行以下程序步骤:
5、响应于所述第一处理器发送的所述语音特征值,校验所述语音特征值,以及在校验成功时,控制所述终端设备开启语音交互功能。
6、第二方面,本申请还提供一种语音唤醒方法,应用于终端设备,所述终端设备包括声音采集器、第一处理器和第二处理器;所述声音采集器用于采集唤醒语音;所述语音唤醒方法包括:
7、所述第一处理器响应于用户输入的唤醒语音,从所述唤醒语音中提取语音特征值,以及向第二处理器发送所述语音特征值,所述语音特征值为包含唤醒词的频谱特征,所述频谱特征由所述唤醒语音经过语音信号处理得到;
8、所述第二处理器响应于所述第一处理器发送的所述语音特征值,校验所述语音特征值,以及在校验成功时,控制所述终端设备开启语音交互功能。
9、由以上技术方案可知,本申请提供的提供一种终端设备及语音唤醒方法,所述终端设备包括声音采集器、第一处理器和第二处理器,第一处理器可以响应于用户输入的唤醒语音,对唤醒语音进行特征提取,提取唤醒语音的语音特征值,并向第二处理器发送语音特征值,其中,语音特征值为包含唤醒词的频谱特征,频谱特征由唤醒语音经过语音信号处理得到,第二处理器可以响应于第一处理器发送的语音特征值,对语音特征值进行校验,以及在校验成功时,控制终端设备开启语音交互功能。所述方法可以将在唤醒语音中提取的语音特征值进行缓存,在唤醒词二次校验时,直接传输语音特征值进行二次校验,以降低占用的存储空间,提高唤醒响应速度。
1.一种终端设备,其特征在于,包括:
2.根据权利要求1所述的终端设备,其特征在于,所述第一处理器执行从所述唤醒语音中提取语音特征值的步骤之后,还被配置为:
3.根据权利要求1所述的终端设备,其特征在于,所述第一处理器还被配置为:
4.根据权利要求3所述的终端设备,其特征在于,所述第一处理器执行对所述频谱特征进行唤醒词识别,还被配置为:
5.根据权利要求1所述的终端设备,其特征在于,所述第一处理器还被配置为:
6.根据权利要求5所述的终端设备,其特征在于,所述第一处理器执行根据所述频谱图,获取频谱特征,还被配置为:
7.根据权利要求5所述的终端设备,其特征在于,所述第一处理器执行将所述语音信号拆分成多个帧音频数据段的步骤,还被配置为:
8.根据权利要求1所述的终端设备,其特征在于,所述第二处理器执行校验所述语音特征值,还被配置为:
9.根据权利要求1所述的终端设备,其特征在于,所述第二处理器还被配置为:
10.一种语音唤醒方法,其特征在于,应用于终端设备,所述终端设备包括声音采集器、第一处理器和第二处理器;所述声音采集器用于采集唤醒语音;所述语音唤醒方法包括: