本申请涉及语音处理技术领域,具体涉及一种指令执行方法、装置、存储介质及电子设备。
背景技术:
目前,用户可以在不方便直接操控电子设备的情况下说出唤醒词来唤醒电子设备,以及说出语音指令来控制电子设备执行特定操作等。然而,在相关技术中,一方面,电子设备需要处理器来持续运行唤醒算法,使得电子设备实现语音唤醒的功耗较高。另一方面,电子设备需要在唤醒后启动语音交互应用才能接收并执行用户的语音指令。
技术实现要素:
本申请实施例提供了一种指令执行方法、装置、存储介质及电子设备,能够提高语音控制的易用性,同时降低电子设备实现语音唤醒的功耗。
第一方面,本申请实施例提供了一种指令执行方法,应用于电子设备,所述电子设备包括处理器、专用语音识别芯片和麦克风,且所述专用语音识别芯片的功耗小于所述处理器的功耗,所述指令执行方法包括:
在所述处理器处于休眠状态时,基于所述专用语音识别芯片控制所述麦克风进行音频采集,得到第一音频数据;
基于所述专用语音识别芯片校验所述第一音频数据,若校验通过,则唤醒所述处理器;
基于所述处理器校验所述第一音频数据,若校验通过,则基于所述处理器控制所述麦克风进行音频采集,得到第二音频数据;
基于所述处理器调用预训练的指令识别模型识别所述第二音频数据携带的语音指令,并执行所述语音指令。
第二方面,本申请实施例提供了一种指令执行装置,应用于电子设备,所述电子设备包括处理器、专用语音识别芯片和麦克风,且所述专用语音识别芯片的功耗小于所述处理器的功耗,所述指令执行装置包括:
音频采集模块,用于在所述处理器处于休眠状态时,基于所述专用语音识别芯片控制所述麦克风进行音频采集,得到第一音频数据;
第一校验模块,用于基于所述专用语音识别芯片校验所述第一音频数据,若校验通过,则唤醒所述处理器;
第二校验模块,用于基于所述处理器校验所述第一音频数据,若校验通过,则基于所述处理器控制所述麦克风进行音频采集,得到第二音频数据;
指令执行模块,用于基于所述处理器调用预训练的指令识别模型识别所述第二音频数据携带的语音指令,并执行所述语音指令。
第三方面,本申请实施例提供了一种存储介质,其上存储有计算机程序,当所述计算机程序在包括处理器、专用语音识别芯片和麦克风的电子设备运行时,使得所述电子设备执行本申请实施例提供的指令执行方法中的步骤,其中,所述专用语音识别芯片的功耗小于所述处理器的功耗。
第四方面,本申请实施例还提供了一种电子设备,所述电子设备包括音频采集单元、处理器、专用语音识别芯片和麦克风,且所述专用语音识别芯片的功耗小于所述处理器的功耗,其中,
所述专用语音识别芯片用于在所述处理器处于休眠状态时,控制所述麦克风采集的外部的第一音频数据;以及
校验所述第一音频数据,若校验通过,则唤醒所述处理器;
所述处理器用于校验所述第一音频数据,若校验通过,则控制所述麦克风采集的外部的第二音频数据;以及
调用预训练的指令识别模型识别所述第二音频数据携带的语音指令,并执行所述语音指令。
本申请实施例中,电子设备包括处理器、专用语音识别芯片和麦克风,通过在处理器处于休眠状态时,由功耗低于处理器的专用语音识别芯片控制麦克风进行音频采集,得到第一音频数据;然后基于专用语音识别芯片校验第一音频数据,若校验通过,则唤醒处理器;再基于处理器校验第一音频数据,若校验通过,则基于处理器控制麦克风进行音频采集,得到第二音频数据;最后基于处理器调用预训练的指令识别模型识别第二音频数据携带的语音指令,并执行语音指令。由此,能够降低电子设备实现语音唤醒的功耗,同时,由于无需启动语音交互应用来实现语音指令的识别,还提高了语音控制的易用性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的指令执行方法的一流程示意图。
图2是本申请实施例中调用一级文本校验模型的示意图。
图3是本申请实施例提供的指令执行方法的另一流程示意图。
图4是本申请实施例提供的指令执行装置的结构示意图。
图5是本申请实施例提供的电子设备的结构示意图。
具体实施方式
请参照图式,其中相同的组件符号代表相同的组件,本申请的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本申请具体实施例,其不应被视为限制本申请未在此详述的其它具体实施例。
本申请实施例首先提供一种指令执行方法,该指令执行方法的执行主体可以是本申请实施例提供的电子设备,该电子设备包括处理器、专用语音识别芯片和麦克风,且专用语音识别芯片的功耗小于处理器的功耗,该电子设备可以是智能手机、平板电脑、掌上电脑、笔记本电脑、或者台式电脑等配置有处理器而具有处理能力的设备。
请参照图1,图1为本申请实施例提供的指令执行方法的流程示意图。该指令执行方法应用于本申请提供的电子设备,该电子设备包括处理器、专用语音识别芯片和麦克风,如图1所示,本申请实施例提供的指令执行方法的流程可以如下:
在101中,在处理器处于休眠状态时,基于专用语音识别芯片控制麦克风进行音频采集,得到第一音频数据。
应当说明的是,本申请实施例中的专用语音识别芯片是以语音识别为目的而设计的专用芯片,比如以语音为目的而设计的数字信号处理芯片,以语音为目的而设计的专用集成电路芯片等,其相较于通用的处理器,具有更低的功耗。其中,专用语音识别芯片、处理器之间通过通信总线(比如i2c总线)建立通信连接,实现数据的交互。其中,处理器在电子设备的屏幕处于熄屏状态时休眠,而专用语音识别芯片在屏幕处于亮屏状态时休眠。此外,电子设备所包括的麦克风可以是内置的麦克风,也可以是外置的麦克风(可以是有线的麦克风,也可以是无线的麦克风)。
本申请实施例中,在处理器处于休眠状态时(专用语音识别芯片处于唤醒状态),专用语音识别芯片控制麦克风对外部的声音进行采集,将采集得到的音频数据记为第一音频数据。
在102中,基于专用语音识别芯片校验第一音频数据,若校验通过,则唤醒处理器。
其中,专用语音识别芯片对第一音频数据的校验包括但不限于校验第一音频数据的文本特征和/或声纹特征。
通俗的说,校验第一音频数据的文本特征也即是校验第一音频数据中是否包括预设唤醒词,只要第一音频数据包括预设唤醒词,即校验第一音频数据的文本特征通过,而不论该预设唤醒词由谁说出。比如,第一音频数据包括了预设用户(比如,电子设备的机主,或者机主授权使用电子设备的其他用户)设置的预设唤醒词,但是该预设唤醒词由用户a说出,而不是预设用户,专用语音识别芯片在基于第一校验算法校验第一音频数据的文本特征时,将校验通过。
而校验第一音频数据的文本特征以及声纹特征也即是校验第一音频数据中是否包括预设用户说出的预设唤醒词,若第一音频数据中包括预设用户说出的预设唤醒词,则第一音频数据的文本特征以及声纹特征校验通过,否则校验不通过。比如,第一音频数据包括了预设用户设置的预设唤醒词,且该预设唤醒词由预设用户说出,则该第一音频数据的文本特征以及声纹特征校验通过;又比如,第一音频数据包括了预设用户之外的其他用户说出的预设唤醒词,或者第一音频数据不包括任何用户说出的预设唤醒词时,则该第一音频数据的文本特征以及声纹特征将校验失败(或者说未校验通过)。
本申请实施例中,专用语音识别芯片在校验第一音频数据通过时,基于其与处理器之间的通信连接发送预设的中断信号至处理器,以唤醒处理器。
应当说明的是,若第一音频数据未校验通过,则专用语音识别芯片继续控制麦克风进行音频采集,直至第一音频数据通过校验。
在103中,基于处理器校验第一音频数据,若校验通过,则基于处理器控制麦克风进行音频采集,得到第二音频数据。
其中,专用语音识别芯片在唤醒处理器之后,还将第一音频数据提供给处理器,由处理器再次对第一音频数据进行校验。以安卓系统为例,专用语音识别芯片可以基于soundtrigger框架将第一音频数据提供给处理器。
应当说明的是,处理器对第一音频数据的校验包括但不限于校验前述第一音频数据的文本特征和/或声纹特征。
处理器在对第一音频数据的校验通过时,控制麦克风进行音频采集,并将采集得到的音频数据记为第二音频数据。
此外,若处理器校验第一音频数据通过,处理器还切换屏幕至亮屏状态。
在104中,基于处理器调用预训练的指令识别模型识别第二音频数据携带的语音指令,并执行前述语音指令。
应当说明的是,本申请实施例中还预先采用机器学习算法训练有指令识别模型,该指令识别模型被配置为识别输入的音频数据所携带的语音指令。
相应的,处理器在采集得到第二音频数据之后即调用预训练的指令识别模型,将第二音频数据输入指令识别模型进行识别,得到第二音频数据所携带的语音指令,并执行该语音指令。
比如,当识别到第二音频数据所携带的语音指令为“启动语音交互应用”时,则处理器启动语音交互应用,以基于语音交互应用与用户进行更为复杂的语音交互。
又比如,识别到第二音频数据所携带的语音指令为“播放音乐”时,则处理器启动默认的音乐播放器,以供用户播放期望的音乐。
由上可知,通过在处理器处于休眠状态时,由功耗低于处理器的专用语音识别芯片控制麦克风进行音频采集,得到第一音频数据;然后基于专用语音识别芯片校验第一音频数据,若校验通过,则唤醒处理器;再基于处理器校验第一音频数据,若校验通过,则基于处理器控制麦克风进行音频采集,得到第二音频数据;最后基于处理器调用预训练的指令识别模型识别第二音频数据携带的语音指令,并执行语音指令。由此,能够降低电子设备实现语音唤醒的功耗,同时,由于无需启动语音交互应用来实现语音指令的识别,还提高了语音控制的易用性。
在一实施例中,指令识别模型包括多个对应不同语音指令的指令识别模型,基于处理器调用预训练的指令识别模型识别第二音频数据携带的语音指令,包括:
(1)基于处理器调用每一指令识别模型对第二音频数据进行评分;
(2)将评分最高的指令识别模型所对应的语音指令作为第二音频数据携带的语音指令。
应当说明的是,本申请实施例中预先训练有多个对应不同语音指令的指令识别模型。
示例性的,语音指令比如“播放音乐”、“打开微信”、“启动语音交互应用”等。对于每一语音指令,采集包括该语音指令的样本语音,并提取其语谱图。然后,利用卷积神经网络对提取的语谱图进行训练,得到对应该语音之类的指令识别模型。由此,可以训练得到多个对应不同语音指令的指令识别模型,比如对应“播放音乐”的指令识别模型、对应“打开微信”的指令识别模型、对应“启动语音交互应用”的指令识别模型等。
相应的,在识别第二音频数据携带的语音指令时,处理器调用每一指令识别模型对第二音频数据进行评分,评分高低即反映了第二音频数据携带某一语音指令的概率,一指令识别模型的评分越高,第二音频数据携带该指令识别模型所对应的语音指令的概率越高。
相应的,处理器可以将评分最高的指令识别模型所对应的语音指令作为第二音频数据携带的语音指令。
可选地,为确保识别的准确性,处理器还可以将评分最高且达到预设评分的指令识别模型所对应的语音指令作为第二音频数据携带的语音指令。
在一实施例中,基于专用语音识别芯片校验第一音频数据,包括:
(1)基于专用语音识别芯片调用预训练的场景分类模型对第一音频数据进行场景分类,得到场景分类结果;
(2)基于专用语音识别芯片调用预训练的对应场景分类结果的一级文本校验模型校验第一音频数据中是否包括预设唤醒词。
本申请实施例中,以专用语音识别芯片进行的一级校验包括文本特征的校验为例进行说明。
应当说明的是,本申请实施例中还根据不同已知场景的样本语音,采用机器学习算法预训练有场景分类模型,利用该场景分类模型可以实现对电子设备所处场景的分类。
此外,本申请实施例在电子设备中预先设置有一级文本校验模型集合,一级文本校验模型集合中包括多个预先在不同场景下训练得到的对应预设唤醒词的一级文本校验模型,以适于专用语音识别芯片在不同的场景下加载,从而更灵活准确的对第一音频数据中是否包括预设唤醒词进行校验。
相应的,在得到对应第一音频数据的场景分类结果之后,电子设备即基于专用语音识别芯片从一级文本校验模型集合中调用对应该场景分类结果的一级文本校验模型,并基于该一级文本校验模型校验第一音频数据中是否包括预设唤醒词,是则校验通过,否则校验失败。
比如,请参照图2,一级文本校验模型集合中包括四个一级文本校验模型,分别为适于在a场景进行音频校验的一级文本校验模型a、适于在b场景进行音频校验的一级文本校验模型b、适于在c场景进行音频校验的一级文本校验模型c以及适于在d场景进行音频校验的一级文本校验模型d。假设场景分类结果指示第一音频数据对应的场景为b场景,则电子设备基于专用语音识别芯片从一级文本校验模型集合中加载一级文本校验模型b;假设场景分类结果指示第一音频数据对应的场景为b场景,则电子设备基于专用语音识别芯片从一级文本校验模型集合中加载一级文本校验模型b,以此类推。
在一实施例中,基于处理器校验第一音频数据,包括:
(1)基于处理器调用预训练的对应预设唤醒词的二级文本校验模型,校验第一音频数据中是否包括预设唤醒词;
(2)当第一音频数据中包括预设唤醒词时,基于处理器调用预训练的二级声纹校验模型,其中,二级声纹校验模型基于预设用户说出预设唤醒词的样本语音训练得到;
(3)基于二级声纹校验模型校验第一音频数据的声纹特征是否与样本语音的声纹特征匹配。
本申请实施例中,以处理器进行文本特征和声纹特征的校验为例进行说明。
其中,首先基于处理器调用预训练的对应预设唤醒词的二级文本校验模型,利用该二级文本校验模型校验第一音频数据中是否包括预设唤醒词。
示例性的,二级文本校验模型可由评分函数训练得到,其中,评分函数用于将向量映射到数值,以此为约束,可由本领域普通技术人员根据实际需要选取合适的函数作为评分函数,本发明实施例对此不做具体限制。
在利用二级文本校验模型校验第一音频数据中是否包括预设唤醒词时,首先提取能够表征第一音频数据的特征向量,将该特征向量输入到二级文本校验模型中进行评分,得到对应的评分分值。然后,比较该评分分值以及二级文本校验模型对应的判别分值,若评分分值达到二级文本校验模型对应的判别分值,则判定第一音频数据中包括预设唤醒词。
其中,在校验出第一音频数据中包括预设唤醒词时,进一步基于处理器调用预训练的二级声纹校验模型,该二级声纹校验模型基于预设用户说出预设唤醒词的样本语音训练得到。然后,利用该二级声纹校验模型校验第一音频数据的声纹特征是否与样本语音的声纹特征匹配。
示例性的,二级声纹校验模型可由二级文本校验模型基于样本语音进一步训练得到。在利用二级声纹校验模型校验第一音频数据的声纹特征是否与样本语音的声纹特征匹配时,首先提取能够表征第一音频数据的特征向量,将该特征向量输入到二级声纹校验模型中进行评分,得到对应的评分分值。然后,比较该评分分值以及二级声纹校验模型对应的判别分值,若评分分值达到二级声纹校验模型对应的判别分值,则判定第一音频数据的声纹特征与样本语音的声纹特征匹配,此时判定校验通过,否则判定校验失败。
在一实施例中,本申请提供的指令执行方法还包括:
(1)基于处理器获取预训练的对应预设唤醒词的通用校验模型,将通用校验模型设为二级文本校验模型;
(2)基于处理器控制麦克风采集预设用户说出预设唤醒词的样本语音;
(3)基于处理器利用样本语音对通用校验模型进行自适应训练,得到二级声纹校验模型。
比如,可以预先采集多人(比如200人)说出预设唤醒词的样本信号,然后分别提取这些样本信号的声学特征(比如梅尔频率倒谱系数),再根据这些样本信号的声学特征训练得到一个与预设唤醒词对应的通用校验模型。由于通用校验模型采用大量与特定人(即用户)无关的音频信号训练得到,其仅拟合人的声学特征分布,并不代表某个具体的人。
本申请实施例中,可以基于处理器获取预训练的对应预设唤醒词的通用校验模型,将该通用校验模型设为二级文本校验模型。
此外,还基于处理器控制麦克风采集预设用户说出预设唤醒词的样本语音。然后,基于处理器提取样本语音的声学特征,并基于通用校验模型对声学特征进行自适应训练,将自适应训练后的通用校验模型设为二级声纹校验模型。其中,该自适应训练可以采用最大后验估计算法实现。
在一实施例中,唤醒处理器之后,还包括:
控制专用语音识别芯片休眠。
本申请实施例中,在唤醒处理器之后,可以控制专用语音识别芯片休眠,以节省电量。
在一实施例中,基于处理器调用预训练的指令识别模型识别第二音频数据携带的语音指令之后,还包括:
(1)当未识别到第二音频数据携带的语音指令时,基于处理器后台启动语音交互应用;
(2)基于语音交互应用识别第二音频数据携带的语音指令,语音交互应用的识别能力大于指令识别模型的识别能力。
应当说明的是,本申请中的指令识别模型相较于语音交互应用的识别能力较弱,其适用于快捷操作的执行。因此,可能存在指令识别模型识别失败的情况(可能是指令识别模型未识别到,也可能是第二音频数据中不存在语音指令),此时,由处理器在后台启动识别能力更强的语音交互应用,并基于该语音交互应用识别第二音频数据携带的语音指令,若识别到,则执行识别到的语音指令。
图3为本申请实施例提供的指令执行方法的另一流程示意图。该指令执行方法应用于本申请提供的电子设备,该电子设备包括处理器、专用语音识别芯片和麦克风,如图3所示,本申请实施例提供的指令执行方法的流程可以如下:
在201中,在处理器处于休眠状态时,基于专用语音识别芯片控制麦克风进行音频采集,得到第一音频数据。
应当说明的是,本申请实施例中的专用语音识别芯片是以语音识别为目的而设计的专用芯片,比如以语音为目的而设计的数字信号处理芯片,以语音为目的而设计的专用集成电路芯片等,其相较于通用的处理器,具有更低的功耗。其中,专用语音识别芯片、处理器之间通过通信总线(比如i2c总线)建立通信连接,实现数据的交互。其中,处理器在电子设备的屏幕处于熄屏状态时休眠,而专用语音识别芯片在屏幕处于亮屏状态时休眠。此外,电子设备所包括的麦克风可以是内置的麦克风,也可以是外置的麦克风(可以是有线的麦克风,也可以是无线的麦克风)。
本申请实施例中,在处理器处于休眠状态时(专用语音识别芯片处于唤醒状态),专用语音识别芯片控制麦克风对外部的声音进行采集,将采集得到的音频数据记为第一音频数据。
在202中,基于专用语音识别芯片调用预训练的场景分类模型对第一音频数据进行场景分类,得到场景分类结果。
在203中,基于专用语音识别芯片调用预训练的对应场景分类结果的一级文本校验模型校验第一音频数据中是否包括预设唤醒词,若校验通过,则唤醒处理器。
本申请实施例中,以专用语音识别芯片进行的一级校验包括文本特征的校验为例进行说明。
应当说明的是,本申请实施例中还根据不同已知场景的样本语音,采用机器学习算法预训练有场景分类模型,利用该场景分类模型可以实现对电子设备所处场景的分类。
此外,本申请实施例在电子设备中预先设置有一级文本校验模型集合,一级文本校验模型集合中包括多个预先在不同场景下训练得到的对应预设唤醒词的一级文本校验模型,以适于专用语音识别芯片在不同的场景下加载,从而更灵活准确的对第一音频数据中是否包括预设唤醒词进行校验。
相应的,在得到对应第一音频数据的场景分类结果之后,电子设备即基于专用语音识别芯片从一级文本校验模型集合中调用对应该场景分类结果的一级文本校验模型,并基于该一级文本校验模型校验第一音频数据中是否包括预设唤醒词,是则校验通过,否则校验失败。
比如,请参照图2,一级文本校验模型集合中包括四个一级文本校验模型,分别为适于在a场景进行音频校验的一级文本校验模型a、适于在b场景进行音频校验的一级文本校验模型b、适于在c场景进行音频校验的一级文本校验模型c以及适于在d场景进行音频校验的一级文本校验模型d。假设场景分类结果指示第一音频数据对应的场景为b场景,则电子设备基于专用语音识别芯片从一级文本校验模型集合中加载一级文本校验模型b;假设场景分类结果指示第一音频数据对应的场景为b场景,则电子设备基于专用语音识别芯片从一级文本校验模型集合中加载一级文本校验模型b,以此类推。
本申请实施例中,专用语音识别芯片在校验第一音频数据通过时,基于其与处理器之间的通信连接发送预设的中断信号至处理器,以唤醒处理器。
应当说明的是,若第一音频数据未校验通过,则专用语音识别芯片继续控制麦克风进行音频采集,直至第一音频数据通过校验。
在204中,基于处理器调用预训练的对应预设唤醒词的二级文本校验模型,校验第一音频数据中是否包括预设唤醒词。
其中,专用语音识别芯片在唤醒处理器之后,还将第一音频数据提供给处理器,由处理器再次对第一音频数据进行校验。以安卓系统为例,专用语音识别芯片可以基于soundtrigger框架将第一音频数据提供给处理器。
本申请实施例中,以处理器进行文本特征和声纹特征的校验为例进行说明。
其中,首先基于处理器调用预训练的对应预设唤醒词的二级文本校验模型,利用该二级文本校验模型校验第一音频数据中是否包括预设唤醒词。
示例性的,二级文本校验模型可由评分函数训练得到,其中,评分函数用于将向量映射到数值,以此为约束,可由本领域普通技术人员根据实际需要选取合适的函数作为评分函数,本发明实施例对此不做具体限制。
在利用二级文本校验模型校验第一音频数据中是否包括预设唤醒词时,首先提取能够表征第一音频数据的特征向量,将该特征向量输入到二级文本校验模型中进行评分,得到对应的评分分值。然后,比较该评分分值以及二级文本校验模型对应的判别分值,若评分分值达到二级文本校验模型对应的判别分值,则判定第一音频数据中包括预设唤醒词。
在205中,当第一音频数据中包括预设唤醒词时,基于处理器调用预训练的二级声纹校验模型,其中,二级声纹校验模型基于预设用户说出预设唤醒词的样本语音训练得到。
在206中,基于二级声纹校验模型校验第一音频数据的声纹特征是否与样本语音的声纹特征匹配,若校验通过,则基于处理器控制麦克风进行音频采集,得到第二音频数据。
其中,在校验出第一音频数据中包括预设唤醒词时,进一步基于处理器调用预训练的二级声纹校验模型,该二级声纹校验模型基于预设用户说出预设唤醒词的样本语音训练得到。然后,利用该二级声纹校验模型校验第一音频数据的声纹特征是否与样本语音的声纹特征匹配。
示例性的,二级声纹校验模型可由二级文本校验模型基于样本语音进一步训练得到。在利用二级声纹校验模型校验第一音频数据的声纹特征是否与样本语音的声纹特征匹配时,首先提取能够表征第一音频数据的特征向量,将该特征向量输入到二级声纹校验模型中进行评分,得到对应的评分分值。然后,比较该评分分值以及二级声纹校验模型对应的判别分值,若评分分值达到二级声纹校验模型对应的判别分值,则判定第一音频数据的声纹特征与样本语音的声纹特征匹配,此时判定校验通过,否则判定校验失败。
处理器在对第一音频数据的校验通过时,控制麦克风进行音频采集,并将采集得到的音频数据记为第二音频数据。
此外,若处理器校验第一音频数据通过,处理器还切换屏幕至亮屏状态。
在207中,基于处理器调用预训练的指令识别模型识别第二音频数据携带的语音指令,并执行语音指令。
应当说明的是,本申请实施例中还预先采用机器学习算法训练有指令识别模型,该指令识别模型被配置为识别输入的音频数据所携带的语音指令。
相应的,处理器在采集得到第二音频数据之后即调用预训练的指令识别模型,将第二音频数据输入指令识别模型进行识别,得到第二音频数据所携带的语音指令,并执行该语音指令。
比如,当识别到第二音频数据所携带的语音指令为“启动语音交互应用”时,则处理器启动语音交互应用,以基于语音交互应用与用户进行更为复杂的语音交互。
又比如,识别到第二音频数据所携带的语音指令为“播放音乐”时,则处理器启动默认的音乐播放器,以供用户播放期望的音乐。
请参照图4,图4为本申请实施例提供的指令执行装置的结构示意图。该指令执行装置可以应用于电子设备,该电子设备包括处理器、专用语音识别芯片和麦克风,且专用语音识别芯片的功耗小于处理器的功耗。指令执行装置可以包括音频采集模块401、第一校验模块402、第二校验模块403以及指令执行模块404,其中,
音频采集模块401,用于在处理器处于休眠状态时,基于专用语音识别芯片控制麦克风进行音频采集,得到第一音频数据;
第一校验模块402,用于基于专用语音识别芯片校验第一音频数据,若校验通过,则唤醒处理器;
第二校验模块403,用于基于处理器校验第一音频数据,若校验通过,则基于处理器控制麦克风进行音频采集,得到第二音频数据;
指令执行模块404,用于基于处理器调用预训练的指令识别模型识别第二音频数据携带的语音指令,并执行前述语音指令。
在一实施例中,指令识别模型包括多个对应不同语音指令的指令识别模型,在基于处理器调用预训练的指令识别模型识别第二音频数据携带的语音指令时,指令执行模块404用于:
基于处理器调用每一指令识别模型对第二音频数据进行评分;
将评分最高的指令识别模型所对应的语音指令作为第二音频数据携带的语音指令。
在一实施例中,在基于专用语音识别芯片校验第一音频数据,第一校验模块402用于:
基于专用语音识别芯片调用预训练的场景分类模型对第一音频数据进行场景分类,得到场景分类结果;
基于专用语音识别芯片调用预训练的对应场景分类结果的一级文本校验模型校验第一音频数据中是否包括预设唤醒词。
在一实施例中,在基于处理器校验第一音频数据时,第二校验模块403还用于:
基于处理器调用预训练的对应预设唤醒词的二级文本校验模型,校验第一音频数据中是否包括预设唤醒词;
当第一音频数据中包括预设唤醒词时,基于处理器调用预训练的二级声纹校验模型,其中,二级声纹校验模型基于预设用户说出预设唤醒词的样本语音训练得到;
基于二级声纹校验模型校验第一音频数据的声纹特征是否与样本语音的声纹特征匹配。
在一实施例中,本申请实施例提供的指令执行装置还包括模型获取模块,用于:
基于处理器获取预训练的对应预设唤醒词的通用校验模型,将通用校验模型设为二级文本校验模型;
基于处理器控制麦克风采集预设用户说出预设唤醒词的样本语音;
基于处理器利用样本语音对通用校验模型进行自适应训练,得到二级声纹校验模型。
在一实施例中,在唤醒处理器之后,第一校验模块402还用于:
控制专用语音识别芯片休眠。
在一实施例中,在基于处理器调用预训练的指令识别模型识别第二音频数据携带的语音指令之后,指令执行模块404还用于:
当未识别到第二音频数据携带的语音指令时,基于处理器后台启动语音交互应用;
基于语音交互应用识别第二音频数据携带的语音指令,语音交互应用的识别能力大于指令识别模型的识别能力。
本申请实施例提供一种存储介质,其上存储有指令执行程序,当其存储的指令执行程序在本申请实施例提供的电子设备上执行时,使得电子设备执行如本申请实施例提供的指令执行方法中的步骤。其中,存储介质可以是磁碟、光盘、只读存储器(readonlymemory,rom)或者随机存取器(randomaccessmemory,ram)等。
本申请实施例还提供一种电子设备,请参照图5,电子设备包括处理器501、专用语音识别芯片502、麦克风503和存储器504,且专用语音识别芯片502的功耗小于处理器501的功耗,其中,专用语音识别芯片502、处理器501以及音频采集单元501任意二者之间通过通信总线(比如i2c总线)建立通信连接,实现数据的交互。
应当说明的是,本申请实施例中的专用语音识别芯片502是以语音识别为目的而设计的专用芯片,比如以语音为目的而设计的数字信号处理芯片,以语音为目的而设计的专用集成电路芯片等,其相较于通用处理器,具有更低的功耗。
本申请实施例中的处理器是通用处理器,比如arm架构的处理器。
存储器504中存储有指令执行程序,其可以为高速随机存取存储器,还可以为非易失性存储器,比如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件等。相应地,存储器504还可以包括存储器控制器,以提供处理器501、专用语音识别芯片501对存储器504的访问,实现如下功能:
专用语音识别芯片502用于在处理器501处于休眠状态时,控制麦克风进行音频采集,得到第一音频数据;以及
校验第一音频数据,并在校验通过时唤醒处理器501;
处理器501用于校验第一音频数据,并在校验通过时控制麦克风进行音频采集,得到第二音频数据;以及
调用预训练的指令识别模型识别第二音频数据携带的语音指令,并执行前述语音指令。
在一实施例中,指令识别模型包括多个对应不同语音指令的指令识别模型,在调用预训练的指令识别模型识别第二音频数据携带的语音指令时,处理器501用于:
调用每一指令识别模型对第二音频数据进行评分;
将评分最高的指令识别模型所对应的语音指令作为第二音频数据携带的语音指令。
在一实施例中,在校验第一音频数据时,专用语音识别芯片502用于:
调用预训练的场景分类模型对第一音频数据进行场景分类,得到场景分类结果;
调用预训练的对应场景分类结果的一级文本校验模型校验第一音频数据中是否包括预设唤醒词。
在一实施例中,在校验第一音频数据时,处理器501用于:
调用预训练的对应预设唤醒词的二级文本校验模型,校验第一音频数据中是否包括预设唤醒词;
当第一音频数据中包括预设唤醒词时,调用预训练的二级声纹校验模型,其中,二级声纹校验模型基于预设用户说出预设唤醒词的样本语音训练得到;
基于二级声纹校验模型校验第一音频数据的声纹特征是否与样本语音的声纹特征匹配。
在一实施例中,处理器501还用于:
获取预训练的对应预设唤醒词的通用校验模型,将通用校验模型设为二级文本校验模型;
控制麦克风采集预设用户说出预设唤醒词的样本语音;
利用样本语音对通用校验模型进行自适应训练,得到二级声纹校验模型。
在一实施例中,专用语音识别芯片502还在唤醒处理器501之后休眠。
在一实施例中,在调用预训练的指令识别模型识别第二音频数据携带的语音指令之后,处理器501还用于:
当未识别到第二音频数据携带的语音指令时,后台启动语音交互应用;
基于语音交互应用识别第二音频数据携带的语音指令,语音交互应用的识别能力大于指令识别模型的识别能力。
应当说明的是,本申请实施例提供的电子设备与上文实施例中的指令执行方法属于同一构思,在电子设备上可以运行指令执行方法实施例中提供的任一方法,其具体实现过程详见特征提取方法实施例,此处不再赘述。
需要说明的是,对本申请实施例的指令执行方法而言,本领域普通测试人员可以理解实现本申请实施例的指令执行方法的全部或部分流程,是可以通过计算机程序来控制相关的硬件来完成,所述计算机程序可存储于一计算机可读取存储介质中,如存储在电子设备的存储器中,并被该电子设备内的处理器和专用语音识别芯片执行,在执行过程中可包括如指令执行方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储器、随机存取记忆体等。
以上对本申请实施例所提供的一种指令执行方法、存储介质及电子设备进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。