语音唤醒的方法、装置、电子设备及计算机可读存储介质与流程

文档序号:16368119发布日期:2018-12-22 08:32阅读:199来源:国知局
语音唤醒的方法、装置、电子设备及计算机可读存储介质与流程

本发明实施例涉及语音识别技术领域,具体而言,本发明实施例涉及一种语音唤醒的方法、装置、电子设备及计算机可读存储介质。

背景技术

随着信息技术的发展,语音识别技术也随之发展,利用语音识别的产品越来越多,例如,会话助理、智能机器人、智能手表等。这些产品都是通过语音识别来增强用户体验和提高自然人机交互的水平。在语音识别中,一种非常重要的技术就是关键词检测,一般也可以成为语音唤醒。

现有技术中进行语音唤醒的方式为通过预设关键词检测模型,对采集到的用户语音进行关键词检测,当采集到的用户语音中存在目标关键词时,实现语音唤醒。

然而,在进行发明创造的过程中发明人发现,当通过现有的预设关键词检测模型实现语音唤醒时,由于用户所有的语音均需要预设关键词检测模型进行关键词检测,以确定是否执行语音唤醒操作,由于现有的预设关键词检测模型比较复杂,对用户语音进行关键词检测的计算量较大,从而导致计算量开销较大。



技术实现要素:

本发明实施例提供了一种语音唤醒的方法、装置、电子设备及计算机可读存储介质,用于解决对用户语音进行关键词检测的计算开销较大的问题。

为了解决上述问题,本发明实施例主要提供如下技术方案:

第一方面,提供了一种语音唤醒的方法,该方法包括:

从采集到用户语音中提取频谱特征信息;

将所述频谱特征信息输入至第一关键词检测模型,得到所述频谱特征信息对应的第一置信度;

若所述频谱特征信息对应的第一置信度不小于第一置信度阈值,则将所述频谱特征信息以及所述频谱特征信息对应的第一置信度输入至第二关键词检测模型,得到检测结果,第一置信度阈值为第一关键词检测模型对应的置信度阈值;

基于检测结果,确定是否执行语音唤醒操作。

第二方面,提供了一种语音唤醒的的装置,该装置包括:

提取模块,用于从采集到用户语音中提取频谱特征信息;

第一输入模块,用于将所述提取模块提取到的频谱特征信息输入至第一关键词检测模型,得到所述频谱特征信息对应的第一置信度;

第二输入模块,用于当所述频谱特征信息对应的第一置信度不小于第一置信度阈值时,将所述提取模块提取到的频谱特征信息以及所述频谱特征信息对应的第一置信度输入至第二关键词检测模型,得到检测结果,第一置信度阈值为第一关键词检测模型对应的置信度阈值;

确定模块,用于基于检测结果,确定是否执行语音唤醒操作。

第三方面,提供了一种电子设备,该电子设备包括:

至少一个处理器;

以及与所述处理器连接的至少一个存储器、总线;其中,

所述处理器、存储器通过所述总线完成相互间的通信;

所述处理器用于调用所述存储器中的程序指令,以执行第一方面所示的语音唤醒的方法。

第四方面,提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行第一方面所示的语音唤醒的方法。

本发明实施例提供的技术方案至少具有下列优点:

本发明实施例提供了一种语音唤醒的方法、装置、电子设备及计算机可读存储介质,与现有技术中通过现有的预设关键词检测模型实现语音唤醒相比,本发明实施例从采集到用户语音中提取频谱特征信息,然后将频谱特征信息输入至第一关键词检测模型,得到频谱特征信息对应的第一置信度,若频谱特征信息对应的第一置信度不小于第一置信度阈值,则将频谱特征信息以及频谱特征信息对应的第一置信度输入至第二关键词检测模型,得到检测结果,第一置信度阈值为第一关键词检测模型对应的置信度阈值,然后基于检测结果,确定是否执行语音唤醒操作。即本发明实施例中部分用户语音通过第一关键词检测模型之后,即可以确定出不执行语音唤醒操作,不需要在通过第二关键词检测模型进行关键检测,由于第一关键词检测模型结构复杂度远小于现有的预设关键词检测模型,因此仅通过第一关键词检测模型的计算量开销远小于现有技术中预设关键词检测模型的计算量,从而可以降低对用户语音进行关键词检测的计算量开销。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单地介绍。

图1为本发明实施例提供的一种语音唤醒的方法流程示意图;

图2为本发明实施例提供的一种语音唤醒的装置结构示意图;

图3为本发明实施例提供的另一种语音唤醒的装置结构示意图;

图4为本发明实施例提供的一种语音唤醒的电子设备结构示意图。

具体实施方式

下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本发明的限制。

本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。

现有技术中在语音唤醒中需要通过现有的关键词检测模型进行关键词检测,现有技术中为了保证误唤醒率较低时,需要关键的关键词检测模型结构特别复杂,并且计算方式也特别复杂,并且由于现有技术中用户输入的所有语音均需要通过该现有的关键词检测模型,因此用户输入的所有语音均需要通过现有模型中的计算方式进行计算,计算量较大,计算开销较大。

本发明实施例提供的语音唤醒的方法、装置、电子设备和计算机可读存储介质,旨在解决现有技术的如上技术问题。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。

实施例一

本发明实施例提供了一种语音唤醒的方法,如图1所示,该方法包括:

步骤s101、从采集到用户语音中提取频谱特征信息。

对于本发明实施例,采集到用户一段时间内的语音,然后从采集到的用户一段时间内的语音中提取频谱特征信息。

对于本发明实施例,语音唤醒的方法可以运行于电子设备上可以接收用户发送的语音。在本发明实施例中,当电子设备处于工作状态时,可以实时监听周围的声音,从而接收用户的语音信息。

对于本发明实施例,语音唤醒方法运行于电子设备可以通过有线连接方式或者无线连接方式从用户利用其进行语音交互的终端接收语音信息。需要指出的是,上述无线连接方式可以包括但不限于3g/4g连接、wifi连接、蓝牙连接、wimax连接、zigbee连接、uwb(ultrawideband)连接、以及其它无线连接方式。

对于本发明实施例,从用户语音中提取频谱特征信息的方式为本领域的公知常识,在此不再赘述。

步骤s102、将频谱特征信息输入至第一关键词检测模型,得到频谱特征信息对应的第一置信度。

对于本发明实施例,第一关键词检测模型可以为结构比较简单的神经网络。在本发明实施例中,第一关键词检测模型用于确定输入的频谱特征信息对应的第一置信度与第一置信度阈值的关系。

对于本发明实施例,置信度用于表征用户语音为用于唤醒电子设备的唤醒语音的概率。在本发明实施例中,第一置信度用于表征第一关键字检测模型检测到用户语音为唤醒电子设备的唤醒语音的概率。

步骤s103、若频谱特征信息对应的第一置信度不小于第一置信度阈值,则将频谱特征信息以及频谱特征信息对应的第一置信度输入至第二关键词检测模型,得到检测结果。

其中,第一置信度阈值为第一关键词检测模型对应的置信度阈值。

对于本发明实施例,第二关键词检测模型与第一关键词检测模型对频谱信息的检测维度并不相同。在本发明实施例中,第二关键词检测模型可以为神经网络,并且第二关键词检测模型的结构比第一关键词检测模型的结构复杂。

步骤s104、基于检测结果,确定是否执行语音唤醒操作。

本发明实施例提供了一种语音唤醒的方法,与现有技术中通过现有的预设关键词检测模型实现语音唤醒相比,本发明实施例从采集到用户语音中提取频谱特征信息,然后将频谱特征信息输入至第一关键词检测模型,得到频谱特征信息对应的第一置信度,若频谱特征信息对应的第一置信度不小于第一置信度阈值,则将频谱特征信息以及频谱特征信息对应的第一置信度输入至第二关键词检测模型,得到检测结果,第一置信度阈值为第一关键词检测模型对应的置信度阈值,然后基于检测结果,确定是否执行语音唤醒操作。即本发明实施例中部分用户语音通过第一关键词检测模型之后,即可以确定出不执行语音唤醒操作,不需要在通过第二关键词检测模型进行关键检测,由于第一关键词检测模型结构复杂度远小于现有的预设关键词检测模型,因此仅通过第一关键词检测模型的计算量开销远小于现有技术中预设关键词检测模型的计算量,从而可以降低对用户语音进行关键词检测的计算量开销。

实施例二

本发明实施例提供了另一种可能的实现方式,在实施例一的基础上,还包括实施例二所示的方法,其中,

步骤s104包括步骤s1041(图中未标注)以及步骤s1042(图中未标注),其中,

步骤s1041、若检测结果中指示频谱特征信息对应的第二置信度不小于第二置信度阈值,则确定执行语音唤醒操作。

对于本发明实施例,第二置信度为表征第二关键字检测模型检测到用户语音为电子设备唤醒语音的概率。

对于本发明实施例,检测结果中指示频谱特征信息对应的第二置信度不小于第二置信度阈值即表征该用户语音为电子设备唤醒语音的概率较大,则确定执行语音唤醒。

步骤s1042、若检测结果中指示频谱特征信息对应的第二置信度小于第二置信度阈值,则确定不执行语音唤醒操作。

其中,第二置信度阈值为第二关键词检测模型对应的置信度阈值。

对于本发明实施例,若检测结果中指示频谱特征信息对应的第二置信度小鱼第二置信度阈值,则表征用户语音为唤醒语音的概率较低,则确定不执行语音唤醒操作。

实施例三

本发明实施例的另一种可能的实现方式,在实施例二所示的基础上还包括实施例三所示的操作,其中,

步骤s102之前还包括步骤sa(图中未标注),其中,

步骤sa、训练第一关键词检测模型以及第二关键词检测模型。

对于本发明实施例,实现语音唤醒的方法需要利用第一关键词检测模型以及第二关键词检测模型。在本发明实施例中,在利用第一关键词检测模型以及第二关键词检测模型进行关键词检测之前,需要通过大量的训练样本对第一关键词检测模型以及第二关键词检测模型进行训练。

对于本发明实施例,步骤sa具体可以包括:通过线下训练的方式训练第一关键词检测模型以及第二关键词检测模型;和/或,通过在线学习的方式训练第一关键词检测模型以及第二关键词检测模型。

对于本发明实施例,步骤sa中可以同时第一关键词检测模型以及第二关键词检测模型,也可以先训练第一关键词检测模型,再训练第二关键词检测模型,也可以先训练第二关键词检测模型,再训练第一关键词检测模型。在本发明实施例中不做限定。

实施例四

本发明实施例的另一种可能的实现方式,在实施例三所示的基础上还包括实施例四所示的操作,其中,

步骤sa中训练第一关键词检测模型的方式,包括:步骤sa1(图中未标注)以及步骤sa2(图中未标注),其中,

步骤sa1、获取第一样本信息。

其中,第一样本信息包括:至少一个第一样本频谱信息以及各个第一样本频谱信息分别对应的第一置信度是否不小于第一置信度阈值的标注信息。

对于本发明实施例,该标注信息可以包括第一标识和第二标识,其中,第一标识可以表征第一样本频谱信息对应的第一置信度不小于第一置信度阈值,第二标识用于表征第一样本频谱信息对应的第一置信度小于第一置信度阈值。

例如,第一标识可以为“0”,第二标识可以为“1”。

步骤sa2、基于第一样本信息,训练第一关键词检测模型。

具体地,步骤sa中训练第二关键词检测模型的方式,包括:步骤sa3(图中未标注)以及步骤sa4(图中未标注),其中,

步骤sa3、获取第二样本信息。

其中,第二样本信息包括:至少一个第二样本频谱信息组以及任一第二样本频谱信息组对应的第二置信度是否不小于第二置信度阈值的标注信息;任一第二样本频谱信息组中包括:第二样本频谱信息以及第二频谱信息分别对应的第一置信度;任一第二样本频谱信息为第一置信度不小于第一置信度阈值的样本频谱信息。

对于本发明实施例,该标注信息可以包括第三标识和第四标识,其中,第三标识可以表征第二样本频谱信息组对应的第二置信度不小于第二置信度阈值,第四标识用于表征该第二样本频谱信息组对应的第二置信度小于第二置信度阈值。

对于本发明实施例,第三标识与第四标识并不相同,第三标识可以与第一标识或者第二标识相同,第四标识可以与第一标识或者第二标识相同。

对于本发明实施例,第一样本频谱信息与第二样本频谱信息可以相同,也可以不同。在本发明实施例中不做限定。

对于本发明实施例,若第一样本频谱信息与第二样本频谱信息相同,则第二样本频谱信息对应的第一置信度为该第二频谱信息通过第一关键词检测模型后得到的置信度。

步骤sa4、基于第二样本信息,训练第二关键词检测模型。

对于本发明实施例,通过大量的样本信息(包括第一样本信息以及第二样本信息)分别对第一关键词检测模型以及第二关键词检测模型进行训练,能够得到训练后的第一关键词检测模型以及训练后的第二关键词检测模型,由于第一关键词检测模型以及第二关键词检测模型是通过大量的样本进行训练的,从而可以提高通过训练后的第一关键词检测模型以及训练后的第二关键词检测模型确定是否执行语音唤醒操作的准确度,进而可以提升用户体验。

实施例五

本发明实施例的另一种可能的实现方式,在实施例三或实施例四的基础上还包括实施例五所示的操作,其中,

步骤sa之前还包括步骤sb(图中未标注),其中,

步骤sb、配置第一置信度阈值以及第二置信度阈值。

其中,第一置信度阈值小于第二置信度阈值。

对于本发明实施例,由于第一置信度阈值为第一关键词检测模型对应的置信度阈值,第二置信度阈值为第二关键词检测模型对应的置信度阈值,且第二关键词检测模型是针对通过第一关键词检测模型的频谱信息进行二次校验,因此第二关键词检测模型对应的置信度阈值要高于第一关键词检测模型对应的置信度阈值才可以二次校验的效果。

对于本发明实施例,该第一置信度阈值以及第二置信度阈值可以由用户设置,也可以由语音唤醒应用的运营商设置。在本发明实施例中不做限定。

实施例六

本发明实施例的另一种可能的实现方式,在实施例一的基础上还包括实施例六所示的操作,其中,

步骤s102之后还包括步骤sc(图中未标注),其中,

步骤sc、若频谱特征信息对应的第一置信度小于第一置信度阈值,则确定不执行语音唤醒操作。

对于本发明实施例,若通过第一关键词检测模型得到频谱特征信息对应的第一置信度小于第一置信度阈值,则确定不执行语音唤醒操作,且也不需要将该频谱特征信息以及该频谱特征信息对应的第一置信度输入至第二关键词检测模型进行二次检测,可以降低计算压力。

实施例七

本发明实施例的另一种可能的实现方式,在实施例一的基础上还包括实施例七所示的操作,其中,

该方法还包括步骤sd(图中未标注),其中,

步骤sd、若第一关键词检测模型配置于本地、第二关键词检测模型配置于云端,且检测到终端设备当前未连接至云端,则通过频谱特征信息对应的第一置信度以及第一置信度阈值,确定是否执行语音唤醒操作。

对于本发明实施例,第一关键词检测模型以及第二关键词检测模型可以均配置于本地,第一关键词检测模型以及第二关键词检测模型可以均配置于云端,第一关键词检测模型可以配置于本地,且第二关键词检测模型可以配置于云端。在本发明实施例中不做限定。

对于本发明实施例,第一关键词检测模型以及第二关键词检测模型配置于本地还是配置于云端,是由终端设备的计算能力以及终端设备的存储空间决定的。

对于本发明实施例,当第一关键词检测模型配置于本地,第二关键词检测模型配置于云端,且终端设备当前未连接至云端设备时,即终端设备无法将频谱特征信息以及该频谱特征信息对应的第一置信度发送至云端设备,则可以仅通过第一关键词检测模型的检测结果,确定是否执行唤醒操作。

对于本发明实施例,当第一关键词检测模型的检测结果指示该频谱特征信息的第一置信度小于第一置信度阈值时,确定不执行语音唤醒操作;当第一关键词检测模型的检测结果指示该频谱特征信息的第一置信度不小于第一置信度阈值时,确定执行语音唤醒操作。

对于本发明实施例,当第一关键词检测模型配置于本地、第二关键词检测模型配置于云端,且检测到终端设备当前未连接至云端,可以通过第一关键词检测模型的检测结果,确定是否执行语音唤醒操作,避免由于当前无法连接至云端导致无法执行语音唤醒操作的情况,进而可以进一步地提升用户体验。

对于本发明实施例,当第一关键词检测模型以及第二关键词检测模型均配置于云端,且终端设备当前未连接至云端时,则输出提示信息,用于提示用户当前终端设备无法连接至云端。

实施例八

本发明实施例提供的一种语音唤醒的装置结构示意图,如图2所示,本发明实施例的语音唤醒的装置20可以包括:提取模块201、第一输入模块202、第二输入模块203以及确定模块204,其中,

提取模块201,用于从采集到用户语音中提取频谱特征信息。

第一输入模块202,用于将提取模块201提取到的频谱特征信息输入至第一关键词检测模型,得到频谱特征信息对应的第一置信度。

第二输入模块203,用于当频谱特征信息对应的第一置信度不小于第一置信度阈值时,将提取模块201提取到的频谱特征信息以及频谱特征信息对应的第一置信度输入至第二关键词检测模型,得到检测结果。

其中,第一置信度阈值为第一关键词检测模型对应的置信度阈值。

确定模块204,用于基于检测结果,确定是否执行语音唤醒操作。

本发明实施例提供了一种语音唤醒的装置,与现有技术中通过现有的预设关键词检测模型实现语音唤醒相比,本发明实施例从采集到用户语音中提取频谱特征信息,然后将频谱特征信息输入至第一关键词检测模型,得到频谱特征信息对应的第一置信度,若频谱特征信息对应的第一置信度不小于第一置信度阈值,则将频谱特征信息以及频谱特征信息对应的第一置信度输入至第二关键词检测模型,得到检测结果,第一置信度阈值为第一关键词检测模型对应的置信度阈值,然后基于检测结果,确定是否执行语音唤醒操作。即本发明实施例中部分用户语音通过第一关键词检测模型之后,即可以确定出不执行语音唤醒操作,不需要在通过第二关键词检测模型进行关键检测,由于第一关键词检测模型结构复杂度远小于现有的预设关键词检测模型,因此仅通过第一关键词检测模型的计算量开销远小于现有技术中预设关键词检测模型的计算量,从而可以降低对用户语音进行关键词检测的计算量开销。

本实施例的语音唤醒的装置可执行本发明实施例一提供的一种语音唤醒的方法,其实现原理相类似,此处不再赘述。

实施例九

本发明实施例提供的另一种语音唤醒的装置结构示意图,如图3所示,本发明实施例的语音唤醒的装置30可以包括:提取模块301、第一输入模块302、第二输入模块303以及确定模块304,其中,

提取模块301,用于从采集到用户语音中提取频谱特征信息。

其中,图3中的提取模块301与图2中提取模块201的功能相同或者相似。

第一输入模块302,用于将提取模块301提取到的频谱特征信息输入至第一关键词检测模型,得到频谱特征信息对应的第一置信度。

其中,图3中的第一输入模块302与图2中第一输入模块202的功能相同或者相似。

第二输入模块303,用于当频谱特征信息对应的第一置信度不小于第一置信度阈值时,将提取模块301提取到的频谱特征信息以及频谱特征信息对应的第一置信度输入至第二关键词检测模型,得到检测结果。

其中,第一置信度阈值为第一关键词检测模型对应的置信度阈值。

其中,图3中的第二输入模块303与图2中第二输入模块203的功能相同或者相似。

确定模块304,用于基于检测结果,确定是否执行语音唤醒操作。

其中,图3中的确定模块304与图2中确定模块204的功能相同或者相似。

具体地,确定模块304,具体用于当检测结果中指示频谱特征信息对应的第二置信度不小于第二置信度阈值时,确定执行语音唤醒操作。

确定模块304,具体还用于当检测结果中指示频谱特征信息对应的第二置信度小于第二置信度阈值时,确定不执行语音唤醒操作。

其中,第二置信度阈值为第二关键词检测模型对应的置信度阈值。

进一步地,如图3所示,该装置30中还可以包括:第一训练模块305以及第二训练模块306,其中,第一训练模块305与第二训练模块306可以为同一个训练模块,也可以为两个训练模块。在本发明实施例中不做限定。其中,在图3中显示第一训练模块305与第二训练模块306为两个训练模块,其中,

第一训练模块305,用于训练第一关键词检测模型。

第二训练模块306,用于训练第二关键词检测模型。

具体地,第一训练模块305包括:第一获取单元3051以及第一训练单元3052,其中,

第一获取单元3051,用于获取第一样本信息。

其中,第一样本信息包括:至少一个第一样本频谱信息以及各个第一样本频谱信息分别对应的第一置信度是否不小于第一置信度阈值的标注信息。

第一训练单元3052,用于基于第一获取单元3051获取的第一样本信息,训练第一关键词检测模型。

具体地,第二训练模块306包括:第二获取单元3061以及第二训练单元3062,其中,

第二获取单元3061,用于获取第二样本信息。

其中,第二样本信息包括:至少一个第二样本频谱信息组以及任一第二样本频谱信息组对应的第二置信度是否不小于第二置信度阈值的标注信息;任一第二样本频谱信息组中包括:第二样本频谱信息以及第二频谱信息分别对应的第一置信度;任一第二样本频谱信息为第一置信度不小于第一置信度阈值的样本频谱信息。

对于本发明实施例,当第一训练模块305与第二训练模块306为同一个训练模块,则第一获取单元3051与第二获取单元3061可以为同一个获取单元,也可以为两个获取单元。在本发明实施例中不做限定。在图3中仅展示第一获取单元3051与第二获取单元3061为两个获取单元的情况。

第二训练单元3062,用于基于第二获取单元3061获取的第二样本信息,训练第二关键词检测模型。

对于本发明实施例,当第一训练模块305与第二训练模块306为同一个训练模块,则第一训练单元3052与第二训练单元3062可以为同一个训练单元,也可以为两个训练单元。在本发明实施例中不做限定。在图3中仅展示第一训练单元3052与第二训练单元3062为两个训练单元的情况。

进一步地,如图3所示,该装置30还包括:第一配置模块307以及第二配置模块308,其中,

第一配置模块307,用于配置第一置信度阈值。

第二配置模块308,用于配置第二置信度阈值。

其中,第一置信度阈值小于第二置信度阈值。

对于本发明实施例,第一配置模块307与第二配置模块308可以为同一配置模块,也可以为两个配置模块。在本发明实施例中不做限定。

其中,图3中仅展示显示第一配置模块307与第二配置模块308为两个配置模块的情况。

在一个可能的实现方式中,确定模块304,还用于当频谱特征信息对应的第一置信度小于第一置信度阈值时,确定不执行语音唤醒操作。

对于本发明实施例,若通过第一关键词检测模型得到频谱特征信息对应的第一置信度小于第一置信度阈值,则确定不执行语音唤醒操作,且也不需要将该频谱特征信息以及该频谱特征信息对应的第一置信度输入至第二关键词检测模型进行二次检测,可以降低计算压力。

在一个可能的实现方式中,确定模块304,还用于当第一关键词检测模型配置于本地、第二关键词检测模型配置于云端,且检测到终端设备当前未连接至云端时,通过频谱特征信息对应的第一置信度以及第一置信度阈值,确定是否执行语音唤醒操作。

对于本发明实施例,当第一关键词检测模型配置于本地、第二关键词检测模型配置于云端,且检测到终端设备当前未连接至云端,可以通过第一关键词检测模型的检测结果,确定是否执行语音唤醒操作,避免由于当前无法连接至云端导致无法执行语音唤醒操作的情况,进而可以进一步地提升用户体验。

本发明实施例提供了一种语音唤醒的装置,与现有技术中通过现有的预设关键词检测模型实现语音唤醒相比,本发明实施例从采集到用户语音中提取频谱特征信息,然后将频谱特征信息输入至第一关键词检测模型,得到频谱特征信息对应的第一置信度,若频谱特征信息对应的第一置信度不小于第一置信度阈值,则将频谱特征信息以及频谱特征信息对应的第一置信度输入至第二关键词检测模型,得到检测结果,第一置信度阈值为第一关键词检测模型对应的置信度阈值,然后基于检测结果,确定是否执行语音唤醒操作。即本发明实施例中部分用户语音通过第一关键词检测模型之后,即可以确定出不执行语音唤醒操作,不需要在通过第二关键词检测模型进行关键检测,由于第一关键词检测模型结构复杂度远小于现有的预设关键词检测模型,因此仅通过第一关键词检测模型的计算量开销远小于现有技术中预设关键词检测模型的计算量,从而可以降低对用户语音进行关键词检测的计算量开销。

本实施例的语音唤醒的装置可执行本发明实施例一至实施例七任一实施例所示的语音唤醒的方法,其实现原理相类似,此处不再赘述。

实施例十

本发明实施例提供了一种电子设备,如图4所示,图4所示的电子设备4000包括:处理器4001和存储器4003。其中,处理器4001和存储器4003相连,如通过总线4002相连。

其中,处理器4001应用于本发明实施例中,用于实现图2或图3所示的提取模块、第一输入模块、第二输入模块以及确定模块的功能,和/或图3所示的第一训练模块、第二训练模块、第一配置模块以及第二配置模块的功能。

处理器4001可以是cpu,通用处理器,dsp,asic,fpga或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器4001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,dsp和微处理器的组合等。

总线4002可包括一通路,在上述组件之间传送信息。总线4002可以是pci总线或eisa总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。

存储器4003可以是rom或可存储静态信息和指令的其他类型的静态存储设备,ram或者可存储信息和指令的其他类型的动态存储设备,也可以是eeprom、cd-rom或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。

存储器4003用于存储执行本申请方案的应用程序代码,并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的应用程序代码,以实现图2或图3所示实施例提供的语音唤醒的装置的动作。

在本发明实施例中的电子设备可以为本地终端设备,也可以为云端设备。在此不做限定。

本发明实施例提供了一种语音唤醒的电子设备,与现有技术中通过现有的预设关键词检测模型实现语音唤醒相比,本发明实施例从采集到用户语音中提取频谱特征信息,然后将频谱特征信息输入至第一关键词检测模型,得到频谱特征信息对应的第一置信度,若频谱特征信息对应的第一置信度不小于第一置信度阈值,则将频谱特征信息以及频谱特征信息对应的第一置信度输入至第二关键词检测模型,得到检测结果,第一置信度阈值为第一关键词检测模型对应的置信度阈值,然后基于检测结果,确定是否执行语音唤醒操作。即本发明实施例中部分用户语音通过第一关键词检测模型之后,即可以确定出不执行语音唤醒操作,不需要在通过第二关键词检测模型进行关键检测,由于第一关键词检测模型结构复杂度远小于现有的预设关键词检测模型,因此仅通过第一关键词检测模型的计算量开销远小于现有技术中预设关键词检测模型的计算量,从而可以降低对用户语音进行关键词检测的计算量开销。

本发明实施例提供了一种电子设备适用于上述方法实施例一至实施例七任一实施例。在此不再赘述。

实施例十一

本发明实施例提供一种非暂态计算机可读存储介质,非暂态计算机可读存储介质存储计算机指令,计算机指令使计算机执行上述各方法实施例一至实施例七任一实施例所示的语音唤醒的方法。

本发明实施例提供了一种非暂态计算机可读存储介质,与现有技术中通过现有的预设关键词检测模型实现语音唤醒相比,本发明实施例从采集到用户语音中提取频谱特征信息,然后将频谱特征信息输入至第一关键词检测模型,得到频谱特征信息对应的第一置信度,若频谱特征信息对应的第一置信度不小于第一置信度阈值,则将频谱特征信息以及频谱特征信息对应的第一置信度输入至第二关键词检测模型,得到检测结果,第一置信度阈值为第一关键词检测模型对应的置信度阈值,然后基于检测结果,确定是否执行语音唤醒操作。即本发明实施例中部分用户语音通过第一关键词检测模型之后,即可以确定出不执行语音唤醒操作,不需要在通过第二关键词检测模型进行关键检测,由于第一关键词检测模型结构复杂度远小于现有的预设关键词检测模型,因此仅通过第一关键词检测模型的计算量开销远小于现有技术中预设关键词检测模型的计算量,从而可以降低对用户语音进行关键词检测的计算量开销。

本发明实施例提供了一种非暂态计算机可读存储介质适用于上述方法任一实施例。在此不再赘述。

应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1