一种智能设备的唤醒方法、装置及设备与流程

文档序号:25279292发布日期:2021-06-01 17:25阅读:122来源:国知局
一种智能设备的唤醒方法、装置及设备与流程

本公开涉及人工智能领域,尤其涉及一种智能设备的唤醒方法、装置及设备。



背景技术:

随着智能设备的普及,唤醒技术在生活中得到了广泛的应用。例如,对于智能手机、智能音箱等智能设备,人们说出相应的关键词,会激活上述智能设备中的唤醒引擎,将上述智能设备由休眠状态唤醒为工作状态,然后通过语音控制上述智能设备进行相应的操作,例如控制智能设备拨打电话、设置闹钟、播放音乐等等,给生活提供了极大的便利。

相关技术的唤醒引擎一般通过神经网络模型(简称唤醒模型)实现,而且在相关技术的智能设备的唤醒方案中,智能设备获取音频数据后,提取上述音频数据每一帧的特征,进行对齐处理后,将对齐的结果输入上述唤醒模型,以识别每一帧特征对应的多个音素标签及其对应的概率,并将整体概率最大的音素识别结果作为每一帧对应的音素标签;然后根据上述全部帧的音素标签和概率,确定是否对智能设备进行唤醒。

相关技术的智能设备的唤醒方案存在如下的缺陷:

(1)唤醒模型要随时等待识别唤醒词,所以唤醒模型使用的网络计算量和参数量不可以占用大量资源,但是相关技术的唤醒模型因为其按帧处理的特性,无法使用较大程度的降采样,因此占用资源较多。

(2)相关技术的唤醒模型依赖对齐处理,而相关技术的对齐效果不好,甚至可能出现几十帧的误差,即使对齐模型效果好,也无法确定每个字的边界,仍然会存在一到十帧的误差。



技术实现要素:

本公开提供一种智能设备的唤醒方法、装置及设备,解决相关技术的智能设备的唤醒方案存在的占用资源过多且依赖对齐处理唤醒效果差的问题。

第一方面,本公开提供一种智能设备的唤醒方法,该方法包括:

获得音频数据序列;

将音频数据序列输入唤醒模型,利用唤醒模型对音频数据序列进行特征提取得到第一序列特征,及根据用于唤醒智能设备的唤醒语句样本的第二序列特征及第一序列特征,预测是否识别到唤醒语句序列并输出对应的序列标签;

确定输出标识识别到唤醒语句序列的序列标签时,唤醒智能设备。

可选地,根据用于唤醒智能设备的唤醒语句样本的第二序列特征及第一序列特征,预测是否识别到唤醒语句序列并输出对应的序列标签,包括:

根据正向样本集中各唤醒语句样本的序列特征及第一序列特征,预测标识识别到唤醒语句序列的第一序列标签及第一概率;

根据反向样本集中各非唤醒语句样本的序列特征及第一序列特征,预测标识未识别到唤醒语句序列的第二序列标签及第二概率;

根据第一序列标签及第一概率、第二序列标签及第二概率,预测是否识别到唤醒语句序列。

可选地,还包括:

获取不同唤醒语句样本得到正向样本集;

对不同唤醒语句样本按照设定规则进行演化,得到反向样本集中的非唤醒语句样本。

可选地,还包括:

将样本集中不同语句样本输入网络模型,对语句样本进行序列特征提取,以输出语句样本的第一序列标签/第二序列标签为目标,进行网络模型参数调整,得到唤醒模型;

样本集包括唤醒语句样本及其对应的第一序列标签,及非唤醒语句样本及其对应的第二序列标签。

可选地,将样本集中不同语句样本输入网络模型,对语句样本进行序列特征提取,以输出语句样本的第一序列标签/第二序列标签为目标,进行网络模型参数调整,包括:

利用特征提取部分对样本集中不同语句样本进行特征提取;

将提取的特征输入具有标签标注能力的网络部分,预测标识识别到唤醒语句序列的第一序列标签及第一概率,及未识别到唤醒语句序列的第二序列标签及第二概率;

利用输出部分根据预测的第一序列标签及第一概率、第二序列标签及第二概率,输出语句样本是否为唤醒语句序列的序列标签;

根据输出的序列标签及语句样本对应的第一序列标签/第二序列标签,计算连接时序分类ctc损失,并根据ctc损失调整网络模型参数。

可选地,对不同唤醒语句样本按照设定规则进行演化,得到反向样本集中的非唤醒语句样本,包括:

对不同唤醒语句样本进行语义分析,确定各唤醒语句样本的分割单元;

对分割单元按照设定规则进行演化,得到反向样本集中的非唤醒语句样本。

可选地,对不同唤醒语句样本进行语义分析,确定各唤醒语句样本的分割单元,包括:

利用对齐网络部分将不同唤醒语句样本分别划分为多个对齐单元,并确定对齐单元分别对应的字;

确定不同唤醒语句样本中相邻字之间的对齐单元,并对相邻字之间的对齐单元进行随机切割,得到不同唤醒语句样本对应的多个分割单元。

可选地,对分割单元按照设定规则进行演化,得到反向样本集中的非唤醒语句样本,包括以下至少一种方式:

将唤醒语句样本对应的分割单元进行乱序排列;

删除唤醒语句样本中的至少一个分割单元;

在唤醒语句样本中加入其它内容,其他内容为非唤醒语句序列音频数据或静默音频数据;

将唤醒语句样本中的至少一个分割单元替换为音近词。

第二方面,本公开提供一种智能设备的唤醒设备,包括存储器和处理器,其中:

存储器用于存储计算机程序;

处理器用于读取存储器中的程序并执行如下步骤:

获得音频数据序列;

将音频数据序列输入唤醒模型,利用唤醒模型对音频数据序列进行特征提取得到第一序列特征,及根据用于唤醒智能设备的唤醒语句样本的第二序列特征及第一序列特征,预测是否识别到唤醒语句序列并输出对应的序列标签;

确定输出标识识别到唤醒语句序列的序列标签时,唤醒智能设备。

可选地,处理器根据用于唤醒智能设备的唤醒语句样本的第二序列特征及第一序列特征,预测是否识别到唤醒语句序列,包括:

根据正向样本集中各唤醒语句样本的序列特征及第一序列特征,预测标识识别到唤醒语句序列的第一序列标签及第一概率;

根据反向样本集中各非唤醒语句样本的序列特征及第一序列特征,预测标识未识别到唤醒语句序列的第二序列标签及第二概率;

根据第一序列标签及第一概率、第二序列标签及第二概率,预测是否识别到唤醒语句序列。

可选地,处理器还用于:

获取不同唤醒语句样本得到正向样本集;

对不同唤醒语句样本按照设定规则进行演化,得到反向样本集中的非唤醒语句样本。

可选地,处理器还用于:

将样本集中不同语句样本输入网络模型,对语句样本进行序列特征提取,以输出语句样本的第一序列标签/第二序列标签为目标,进行网络模型参数调整,得到唤醒模型;

样本集包括唤醒语句样本及其对应的第一序列标签,及非唤醒语句样本及其对应的第二序列标签。

可选地,处理器将样本集中不同语句样本输入网络模型,对语句样本进行序列特征提取,以输出语句样本的第一序列标签/第二序列标签为目标,进行网络模型参数调整,包括:

利用特征提取部分对样本集中不同语句样本进行特征提取;

将提取的特征输入具有标签标注能力的网络部分,预测标识识别到唤醒语句序列的第一序列标签及第一概率,及未识别到唤醒语句序列的第二序列标签及第二概率;

利用输出部分根据预测的第一序列标签及第一概率、第二序列标签及第二概率,输出语句样本是否为唤醒语句序列的序列标签;

根据输出的序列标签及语句样本对应的第一序列标签/第二序列标签,计算连接时序分类ctc损失,并根据ctc损失调整网络模型参数。

可选地,处理器对不同唤醒语句样本按照设定规则进行演化,得到反向样本集中的非唤醒语句样本,包括:

对不同唤醒语句样本进行语义分析,确定各唤醒语句样本的分割单元;

对分割单元按照设定规则进行演化,得到反向样本集中的非唤醒语句样本。

可选地,处理器对不同唤醒语句样本进行语义分析,确定各唤醒语句样本的分割单元,包括:

利用对齐网络部分将不同唤醒语句样本分别划分为多个对齐单元,并确定对齐单元分别对应的字;

确定不同唤醒语句样本中相邻字之间的对齐单元,并对相邻字之间的对齐单元进行随机切割,得到不同唤醒语句样本对应的多个分割单元。

可选地,处理器对分割单元按照设定规则进行演化,得到反向样本集中的非唤醒语句样本,包括以下至少一种方式:

将唤醒语句样本对应的分割单元进行乱序排列;

删除唤醒语句样本中的至少一个分割单元;

在唤醒语句样本中加入其它内容,其他内容为非唤醒语句序列音频数据或静默音频数据;

将唤醒语句样本中的至少一个分割单元替换为音近词。

第三方面,本公开提供一种智能设备的唤醒装置,包括:

数据获取单元,用于获得音频数据序列;

标签识别单元,用于将音频数据序列输入唤醒模型,利用唤醒模型对音频数据序列进行特征提取得到第一序列特征,及根据用于唤醒智能设备的唤醒语句样本的第二序列特征及第一序列特征,预测是否识别到唤醒语句序列并输出对应的序列标签;

设备唤醒单元,用于确定输出标识识别到唤醒语句序列的序列标签时,唤醒智能设备。

可选地,标签识别单元根据用于唤醒智能设备的唤醒语句样本的第二序列特征及第一序列特征,预测是否识别到唤醒语句序列,包括:

根据正向样本集中各唤醒语句样本的序列特征及第一序列特征,预测标识识别到唤醒语句序列的第一序列标签及第一概率;

根据反向样本集中各非唤醒语句样本的序列特征及第一序列特征,预测标识未识别到唤醒语句序列的第二序列标签及第二概率;

根据第一序列标签及第一概率、第二序列标签及第二概率,预测是否识别到唤醒语句序列。

可选地,标签识别单元还用于:

获取不同唤醒语句样本得到正向样本集;

对不同唤醒语句样本按照设定规则进行演化,得到反向样本集中的非唤醒语句样本。

可选地,标签识别单元还用于:

将样本集中不同语句样本输入网络模型,对语句样本进行序列特征提取,以输出语句样本的第一序列标签/第二序列标签为目标,进行网络模型参数调整,得到唤醒模型;

样本集包括唤醒语句样本及其对应的第一序列标签,及非唤醒语句样本及其对应的第二序列标签。

可选地,标签识别单元将样本集中不同语句样本输入网络模型,对语句样本进行序列特征提取,以输出语句样本的第一序列标签/第二序列标签为目标,进行网络模型参数调整,包括:

利用特征提取部分对样本集中不同语句样本进行特征提取;

将提取的特征输入具有标签标注能力的网络部分,预测标识识别到唤醒语句序列的第一序列标签及第一概率,及未识别到唤醒语句序列的第二序列标签及第二概率;

利用输出部分根据预测的第一序列标签及第一概率、第二序列标签及第二概率,输出语句样本是否为唤醒语句序列的序列标签;

根据输出的序列标签及语句样本对应的第一序列标签/第二序列标签,计算连接时序分类ctc损失,并根据ctc损失调整网络模型参数。

可选地,标签识别单元对不同唤醒语句样本按照设定规则进行演化,得到反向样本集中的非唤醒语句样本,包括:

对不同唤醒语句样本进行语义分析,确定各唤醒语句样本的分割单元;

对分割单元按照设定规则进行演化,得到反向样本集中的非唤醒语句样本。

可选地,标签识别单元对不同唤醒语句样本进行语义分析,确定各唤醒语句样本的分割单元,包括:

利用对齐网络部分将不同唤醒语句样本分别划分为多个对齐单元,并确定对齐单元分别对应的字;

确定不同唤醒语句样本中相邻字之间的对齐单元,并对相邻字之间的对齐单元进行随机切割,得到不同唤醒语句样本对应的多个分割单元。

可选地,标签识别单元对分割单元按照设定规则进行演化,得到反向样本集中的非唤醒语句样本,包括以下至少一种方式:

将唤醒语句样本对应的分割单元进行乱序排列;

删除唤醒语句样本中的至少一个分割单元;

在唤醒语句样本中加入其它内容,其他内容为非唤醒语句序列音频数据或静默音频数据;

将唤醒语句样本中的至少一个分割单元替换为音近词。

第四方面,本公开提供一种计算机程序介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面提供的一种智能设备的唤醒方法的步骤。

本公开提供的一种智能设备的唤醒方法、装置及设备,具有以下有益效果:

通过识别音频数据序列的序列标签,占用的资源更少,而且不会因为降采样处理影响唤醒效果,可以对音频数据进行降采样处理,进一步减少智能设备的唤醒功能占用的资源;降低唤醒功能对对齐处理的依赖,避免了对齐处理的误差对唤醒结果的影响,提高唤醒效果,提升唤醒功能的性能。

附图说明

图1为相关技术提供的一种对齐处理的结果示意图;

图2为本公开实施例提供的一种智能设备的唤醒方法的流程图;

图3为本公开实施例提供的一种训练唤醒模型的流程图;

图4为本公开实施例提供的一种智能设备的唤醒设备的示意图;

图5为本公开实施例提供的一种智能设备的唤醒装置的示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,并不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

在本申请实施例的描述中,除非另有说明,“/”表示或的意思,例如,a/b可以表示a或b;文本中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况,另外,在本申请实施例的描述中,“多个”是指两个或多于两个,其它量词与之类似应当理解,此处所描述的优选实施例仅用于说明和解释本申请,并不用于限定本申请,并且在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。

需要说明的是,以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

以下,对本公开实施例中的部分用语进行解释说明,以便于本领域技术人员理解。

(1)本公开实施例中术语“唤醒技术”,又被称为语音唤醒,在连续语流中实时检测出特定片段,其目的是将设备从休眠状态激活至运行状态,所以唤醒技术的实时性是一个关键点。

(2)本公开实施例中术语“音素”,是根据语音的自然属性划分出来的最小语音单位,依据音节里的发音动作来分析,一个动作构成一个音素。本申请中的音素包括拼音中的全部音素,分为元音与辅音两大类。如汉语音节啊(ā)只有一个音素,爱(ài)有两个音素,代(dài)有三个音素等。

(3)本公开实施例中术语“子词”,经常处于英文唤醒词中,比如hilily,对应子词可能为hi、li、ly,可以理解英文单词的短发音。

(4)本公开实施例中术语“帧”,是很短的音频片段,可以取10ms为一帧。

(5)本公开实施例中术语“对齐”,可以理解为获得每个音素或者字起始结束对应时间点,指的是将音素或者字对到每一帧上去。

为了使本公开的目的、技术方案和优点更加清楚,下面将结合附图对本公开作进一步地详细描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本公开保护的范围。

在相关技术的智能设备的唤醒方案中,进行对齐处理,以识别每一帧特征可能对应的多个音素标签及其对应的概率,并将整体概率最大的音素识别结果作为每一帧对应的音素标签;上述获得的音素标签可能为全部音素中的任一音素,因此为了进一步判断上述音频数据是否包含预先确定的唤醒词,需要在上述唤醒词包含的音素中确定与上述音素相似的音素及概率,即,根据上述唤醒词中包含的音素,确定每一帧特征对应的唤醒词中的音素标签和概率。然后根据上述全部帧的音素标签和概率,确定是否对智能设备进行唤醒。例如,以唤醒词为“小爱”为例,若全部帧中,某一帧为“小”的概率为0.8,持续n帧,后续“爱”的概率为0.7,持续m帧,累加小爱顺序输出的概率,平均到每一帧超过预设阈值就确定唤醒,若(0.8*n+0.7*m)/(m+n)的结果超过预设阈值,确定唤醒,否则就不唤醒。

在相关技术的智能设备的唤醒方案中,唤醒模型学习的目标是输入的语音数据每一帧的标签。在相关技术的唤醒模型的训练方法中,先对正向样本集和反向样本集进行对齐处理,得到每一帧的标签,然后对标签进行后处理,转换成唤醒相应的建模单元,建模单元常常是字,音素,子词等等。其中,为了区分唤醒正向集和唤醒反向集的相同发音音素,一般用两种不同标签来表示正向集和反向集,或者是反向集全部处理成一种标签。得到每一帧的标签后,用唤醒模型进行按帧计算损失的训练,例如交叉熵损失。

在上述相关技术的唤醒模型的训练方法中,把经过对齐处理后的每一帧当作输入,送进唤醒模型,进行目标为对应标签的训练。但是因为,对齐处理本身就无法做到完全正确,而且无法确定字的准确边界,如图1所示,相关技术提供一种对齐处理的结果示意图,如上图所示,对齐的内容为“蓝色苹果”,不同的对齐处理获得的对齐结果存在较大差异,获得的边界有明显的偏差。所以对齐处理对唤醒模型有很大影响,在唤醒模型的层数比较少的时候,上述情况更加明显。

如果想要减少唤醒模型占用的资源,需要对数据进行降采样处理。但是相关技术的唤醒模型具有按帧处理的特性,如果对数据进行降采样处理,很容易造成音素缺失,进而严重影响唤醒性能,因此无法使用较大程度的降采样。也就是说,相关技术的唤醒模型需要占用的资源较多。

另外,因为对齐处理的影响,相关技术的唤醒模型根据每一帧的概率确定音频数据的整体概率,并以此判断是否为唤醒词,损失训练和最终是否为唤醒词的判断效果不是线性相关,很有可能出现训练的损失变小,而唤醒的性能反而下降的情形。

鉴于相关技术的智能设备的唤醒方案存在的上述问题,本申请提出一种智能设备的唤醒方法、装置及设备。

下面结合附图对本申请实施例中的一种智能设备的唤醒方法、装置及设备进行详细说明。

实施例1

本公开实施例提供一种智能设备的唤醒方法的流程图,如图2所示,包括:

步骤s201,获得音频数据序列;

因为在本公开实施例的方案中,下述唤醒模型预测的标签为每一个音频数据序列对应的标签,如果进行降采样处理,不会影响唤醒结果,因此,可以对上述音频数据序列进行降采样处理,以实现大幅度降低计算量的效果。

作为一种可选的实施方式,获得音频数据序列后,还包括:

对上述音频数据序列进行降采样。

其中,降采样的比例根据具体的实施情况进行具体设定。

步骤s202,将音频数据序列输入唤醒模型,利用唤醒模型对音频数据序列进行特征提取得到第一序列特征,及根据用于唤醒智能设备的唤醒语句样本的第二序列特征及第一序列特征,预测是否识别到唤醒语句序列并输出对应的序列标签;

上述唤醒语句序列,也称为唤醒词,为预先设置的用于唤醒智能设备的语句序列,可以根据具体的实施情况进行具体设置,例如,设置唤醒语句序列为“蓝色苹果”,“你好世界”等。

需要说明的是,本公开实施例中的唤醒模型输出的标签为音频数据序列对应的序列标签,关注上述音频数据序列是不是唤醒语句序列,而不关注音频数据序列中每一帧的具体标签,也就是说,不依赖于对齐处理。

例如,设置蓝色苹果为唤醒语句序列,如果设置标签的内容为音素,在相关技术的按帧训练的方案中每一帧对应一个音素,得到的标签可能为:llllananananansssseeeepppinginginginggggguuuuoooo。

但是本公开实施例的方案输出的为序列标签,并不关心音频数据序列中每一帧的具体标签。

本公开实施例中序列标签的内容为是否识别到唤醒语句序列的具体实施方式,包括:

实施方式1:序列标签为识别到唤醒语句序列或未识别到唤醒语句序列的序列标签。

上述实施方式1中的序列标签的具体确定方式如上述步骤s102所述,在此不再赘述。

需要说明的是,上述序列标签的内容可以为标识识别到唤醒语句序列或未识别到唤醒语句序列的替代符号,例如,使用a标识识别到唤醒语句序列,使用b标识未识别到唤醒语句序列,也可以为识别到的序列的具体内容,例如,lansepingguo。

实施方式2:序列标签为识别到唤醒语句序列的序列标签及其概率与未识别到唤醒语句序列的序列标签及其概率。

根据正向样本集中各唤醒语句样本的序列特征及上述第一序列特征,预测标识识别到唤醒语句序列的第一序列标签及第一概率;

根据反向样本集中各非唤醒语句样本的序列特征及上述第一序列特征,预测标识未识别到唤醒语句序列的第二序列标签及第二概率;

根据上述第一序列标签及第一概率、第二序列标签及第二概率,预测是否识别到述唤醒语句序列。

需要说明的是,上述第一序列标签与上述第二序列标签为两个不同的序列标签,以区分是否识别到唤醒语句序列,根据具体的实施情况确定上述第一序列标签与上述第二序列标签的具体内容。

例如,使用1作为上述第一序列标签,使用2作为上述第二序列标签,连接时序分类(connectionisttemporalclassification,ctc)中的blank标签使用0,其中blank的含义为没有预测值,是ctc自带的标签。

上述正向样本集,也称为唤醒正向集,为只包含完整唤醒语句序列的训练数据;上述反向样本集,也称为唤醒反向集,为不包含完整唤醒语句序列的训练数据。

为了保证唤醒模型对唤醒语句序列识别的准确性,增强唤醒模型对于相似语句序列的识别能力,例如,当唤醒词为蓝色苹果时,保证唤醒模型可以区分红色苹果,蓝色乒乓等语句序列,甚至蓝色苹果后面接静音的情况,需要对反向样本集进行扩充。因为如果反向样本集中上述易混淆的样本很少,唤醒模型很有可能学到错误的标签。

上述确定正向样本集和反向样本集的方式,包括:

获取不同唤醒语句样本得到正向样本集;

上述唤醒语句样本为只包含上述唤醒语句序列的音频数据,任意获取上述唤醒语句样本的方式都可以应用到本公开实施例中,例如,通过录制等方式采集人声、通过网络等方式获取现有的音频数据等。

对上述不同唤醒语句样本按照设定规则进行演化,得到反向样本集中的非唤醒语句样本。

为了扩充上述反向样本集,可以在上述正向样本集的基础上进行演化,确定反向样本集中的非唤醒语句样本。

作为一种可选的实施方式,对上述不同唤醒语句样本按照设定规则进行演化,得到反向样本集中的非唤醒语句样本,包括:

对上述不同唤醒语句样本进行语义分析,确定各唤醒语句样本的分割单元;

实施方式1:利用语言处理相关方法,确定各唤醒语句样本的分割单元。

利用例如自然语言处理相关方式,确定各唤醒语句样本中对应字的位置,在字之间进行切割,得到上述分割单元。

实施方式2:利用对齐处理,确定各唤醒语句样本的分割单元。

上述对齐处理之后虽然存在边界误差,但是对于语句序列中每个字对应的位置基本正确,在具体实施时,可以先将正向样本集的数据进行对齐处理,然后进行分割。

具体的,利用对齐网络部分将上述不同唤醒语句样本分别划分为多个对齐单元,并确定上述对齐单元分别对应的字;

确定上述不同唤醒语句样本中相邻字之间的对齐单元,并对上述相邻字之间的对齐单元进行随机切割,得到上述不同唤醒语句样本对应的多个分割单元。

上述对齐单元可以为一帧。

上述对齐网络部分从识别网络中获得,用于根据输入的数据确定不同的对齐单元分别对应的内容。上述对齐网络部分工作的基本原理为,根据预先获得的序列的内容,猜测每一对齐单元最可能的结果,并解出序列最可能的结果。

以蓝色苹果为例,在蓝与色、色与苹、苹与果之间进行至少一处切割,例如,在蓝与色之间进行切割,获得蓝、色苹果两个分割单元;在蓝与色、色与苹之间进行切割,获得蓝、色、苹果三个分割单元。

对上述分割单元按照设定规则进行演化,得到反向样本集中的非唤醒语句样本。

上述确定上述对齐单元分别对应的字,可以根据具体的实施情况确定对齐单元对应的内容的粒度,例如,较大粒度的词、较小粒度的子词、音素等。

作为一种可选的实施方式,对上述唤醒语句样本中的至少一个字所在的对齐单元进行随机切割。

以蓝色苹果为例,从“蓝”中间一帧的时间戳a和“色”中间一帧的时间戳b,随机将唤醒语句样本从ab之间某一段切开,放入反向样本集中,也保证了“x色苹果”或者“蓝x”不是唤醒语句序列,必须是蓝色苹果连在一起才是正确的唤醒语句序列。

同时,因为在切开的分割单元中,“色苹果”是分割单元的起始,所以可以在上述反向样本集中多加入一些包含上述“色苹果”或者音近词的反向集;另外,也可以使用拼接分割的方法,制造一些反向集。

对上述分割单元按照设定规则进行演化,得到反向样本集中的非唤醒语句样本,包括以下至少一种方式:

将上述唤醒语句样本对应的分割单元进行乱序排列;

以蓝色苹果为例,乱序排列获得“苹果蓝色”的非唤醒语句样本。

删除唤醒语句样本中的至少一个上述分割单元;

以蓝色苹果为例,删除分割单元获得“苹果”的非唤醒语句样本。

在唤醒语句样本中加入其它内容,上述其他内容为非唤醒语句序列音频数据或静默音频数据;

以蓝色苹果为例,加入其它内容获得“蓝色的苹果”或“蓝色—苹果”的非唤醒语句样本,上述“—”代表静默音频数据。

将唤醒语句样本中的至少一个上述分割单元替换为音近词。

以蓝色苹果为例,替换音近词获得“蓝色评估”的非唤醒语句样本。

通过上述方式确定样本集后,用ctc损失训练上述唤醒模型:

将样本集中不同语句样本输入网络模型,对上述语句样本进行序列特征提取,以输出上述语句样本的第一序列标签/第二序列标签为目标,进行网络模型参数调整,得到唤醒模型;

如图3所示,本公开实施例提供一种训练唤醒模型的流程图,包括:

步骤s301,利用特征提取部分对样本集中不同语句样本进行特征提取;

上述样本集包括唤醒语句样本及其对应的第一序列标签,及非唤醒语句样本及其对应的第二序列标签。

上述序列特征包括唤醒语句样本的序列特征,及非唤醒语句样本的序列特征。

步骤s302,将提取的特征输入具有标签标注能力的网络部分,预测标识识别到唤醒语句序列的第一序列标签及第一概率,及未识别到唤醒语句序列的第二序列标签及第二概率;

上述具有标签标注能力的网络部分可以为任意网络结构,例如,卷积神经网络模型、循环神经网络模型、改进的循环神经网络模型、隐马尔可夫模型等,不是本公开的重点,在此不再赘述。

步骤s303,利用输出部分根据预测的第一序列标签及第一概率、第二序列标签及第二概率,输出上述语句样本是否为上述唤醒语句序列的序列标签;

上述输出部分可以为解码器,上述解码器根据输入的数据确定概率最大的结果。

作为一种可选的实施方式,上述解码器为集束搜索算法beamsearch。

上述解码器也可以为贪心搜索算法greedysearch、前缀束搜索算法prefixbeamsearch。

步骤s304,根据输出的序列标签及上述语句样本对应的第一序列标签/第二序列标签,计算连接时序分类ctc损失,并根据上述ctc损失调整网络模型参数。

需要说明的是,上述网络模型参数包括上述三个网络部分的参数,即特征提取部分、具有标签标注能力的网络部分以及输出部分的参数。

上述使用ctc损失训练提升上述唤醒模型的唤醒性能,降低对对齐处理的依赖。

而且上述使用ctc损失训练得到的唤醒模型在进行唤醒识别时,可以对获得的音频数据使用大幅度降采样以降低计算量,节省解码时间,在同样资源情况下,可以使用更大更复杂的模型去计算,提升了模型的性能。

另外,因为ctc损失训练使用的标签为序列标签,计算一个语句序列的损失,损失越小,上述语句序列的正确概率越高,使训练损失和模型性能正相关。

唤醒模型输出的标签只有一个,上述解码算法实现也更为简单。

步骤s203,确定输出标识识别到唤醒语句序列的序列标签时,唤醒上述智能设备。

将上述智能设备由休眠状态唤醒为工作状态,然后通过语音控制上述智能设备进行相应的操作。

实施例2

本公开实施例提供一种智能设备的唤醒设备400的示意图,包括存储器401和处理器402,如图4所示,其中:

存储器用于存储计算机程序;

处理器用于读取存储器中的程序并执行如下步骤:

获得音频数据序列;

将音频数据序列输入唤醒模型,利用唤醒模型对音频数据序列进行特征提取得到第一序列特征,及根据用于唤醒智能设备的唤醒语句样本的第二序列特征及第一序列特征,预测是否识别到唤醒语句序列并输出对应的序列标签;

确定输出标识识别到唤醒语句序列的序列标签时,唤醒智能设备。

可选地,处理器根据用于唤醒智能设备的唤醒语句样本的第二序列特征及第一序列特征,预测是否识别到唤醒语句序列,包括:

根据正向样本集中各唤醒语句样本的序列特征及第一序列特征,预测标识识别到唤醒语句序列的第一序列标签及第一概率;

根据反向样本集中各非唤醒语句样本的序列特征及第一序列特征,预测标识未识别到唤醒语句序列的第二序列标签及第二概率;

根据第一序列标签及第一概率、第二序列标签及第二概率,预测是否识别到唤醒语句序列。

可选地,处理器还用于:

获取不同唤醒语句样本得到正向样本集;

对不同唤醒语句样本按照设定规则进行演化,得到反向样本集中的非唤醒语句样本。

可选地,处理器还用于:

将样本集中不同语句样本输入网络模型,对语句样本进行序列特征提取,以输出语句样本的第一序列标签/第二序列标签为目标,进行网络模型参数调整,得到唤醒模型;

样本集包括唤醒语句样本及其对应的第一序列标签,及非唤醒语句样本及其对应的第二序列标签。

可选地,处理器将样本集中不同语句样本输入网络模型,对语句样本进行序列特征提取,以输出语句样本的第一序列标签/第二序列标签为目标,进行网络模型参数调整,包括:

利用特征提取部分对样本集中不同语句样本进行特征提取;

将提取的特征输入具有标签标注能力的网络部分,预测标识识别到唤醒语句序列的第一序列标签及第一概率,及未识别到唤醒语句序列的第二序列标签及第二概率;

利用输出部分根据预测的第一序列标签及第一概率、第二序列标签及第二概率,输出语句样本是否为唤醒语句序列的序列标签;

根据输出的序列标签及语句样本对应的第一序列标签/第二序列标签,计算连接时序分类ctc损失,并根据ctc损失调整网络模型参数。

可选地,处理器对不同唤醒语句样本按照设定规则进行演化,得到反向样本集中的非唤醒语句样本,包括:

对不同唤醒语句样本进行语义分析,确定各唤醒语句样本的分割单元;

对分割单元按照设定规则进行演化,得到反向样本集中的非唤醒语句样本。

可选地,处理器对不同唤醒语句样本进行语义分析,确定各唤醒语句样本的分割单元,包括:

利用对齐网络部分将不同唤醒语句样本分别划分为多个对齐单元,并确定对齐单元分别对应的字;

确定不同唤醒语句样本中相邻字之间的对齐单元,并对相邻字之间的对齐单元进行随机切割,得到不同唤醒语句样本对应的多个分割单元。

可选地,处理器对分割单元按照设定规则进行演化,得到反向样本集中的非唤醒语句样本,包括以下至少一种方式:

将唤醒语句样本对应的分割单元进行乱序排列;

删除唤醒语句样本中的至少一个分割单元;

在唤醒语句样本中加入其它内容,其他内容为非唤醒语句序列音频数据或静默音频数据;

将唤醒语句样本中的至少一个分割单元替换为音近词。

本公开实施例提供一种智能设备的唤醒装置的示意图,如图5所示,包括:

数据获取单元501,用于获得音频数据序列;

标签识别单元502,用于将音频数据序列输入唤醒模型,利用唤醒模型对音频数据序列进行特征提取得到第一序列特征,及根据用于唤醒智能设备的唤醒语句样本的第二序列特征及第一序列特征,预测是否识别到唤醒语句序列并输出对应的序列标签;

设备唤醒单元503,用于确定输出标识识别到唤醒语句序列的序列标签时,唤醒智能设备。

可选地,标签识别单元根据用于唤醒智能设备的唤醒语句样本的第二序列特征及第一序列特征,预测标识是否识别到唤醒语句序列,包括:

根据正向样本集中各唤醒语句样本的序列特征及第一序列特征,预测标识识别到唤醒语句序列的第一序列标签及第一概率;

根据反向样本集中各非唤醒语句样本的序列特征及第一序列特征,预测标识未识别到唤醒语句序列的第二序列标签及第二概率;

根据第一序列标签及第一概率、第二序列标签及第二概率,预测是否识别到唤醒语句序列。

可选地,标签识别单元还用于:

获取不同唤醒语句样本得到正向样本集;

对不同唤醒语句样本按照设定规则进行演化,得到反向样本集中的非唤醒语句样本。

可选地,标签识别单元还用于:

将样本集中不同语句样本输入网络模型,对语句样本进行序列特征提取,以输出语句样本的第一序列标签/第二序列标签为目标,进行网络模型参数调整,得到唤醒模型;

样本集包括唤醒语句样本及其对应的第一序列标签,及非唤醒语句样本及其对应的第二序列标签。

可选地,标签识别单元将样本集中不同语句样本输入网络模型,对语句样本进行序列特征提取,以输出语句样本的第一序列标签/第二序列标签为目标,进行网络模型参数调整,包括:

利用特征提取部分对样本集中不同语句样本进行特征提取;

将提取的特征输入具有标签标注能力的网络部分,预测标识识别到唤醒语句序列的第一序列标签及第一概率,及未识别到唤醒语句序列的第二序列标签及第二概率;

利用输出部分根据预测的第一序列标签及第一概率、第二序列标签及第二概率,输出语句样本是否为唤醒语句序列的序列标签;

根据输出的序列标签及语句样本对应的第一序列标签/第二序列标签,计算连接时序分类ctc损失,并根据ctc损失调整网络模型参数。

可选地,标签识别单元对不同唤醒语句样本按照设定规则进行演化,得到反向样本集中的非唤醒语句样本,包括:

对不同唤醒语句样本进行语义分析,确定各唤醒语句样本的分割单元;

对分割单元按照设定规则进行演化,得到反向样本集中的非唤醒语句样本。

可选地,标签识别单元对不同唤醒语句样本进行语义分析,确定各唤醒语句样本的分割单元,包括:

利用对齐网络部分将不同唤醒语句样本分别划分为多个对齐单元,并确定对齐单元分别对应的字;

确定不同唤醒语句样本中相邻字之间的对齐单元,并对相邻字之间的对齐单元进行随机切割,得到不同唤醒语句样本对应的多个分割单元。

可选地,标签识别单元对分割单元按照设定规则进行演化,得到反向样本集中的非唤醒语句样本,包括以下至少一种方式:

将唤醒语句样本对应的分割单元进行乱序排列;

删除唤醒语句样本中的至少一个分割单元;

在唤醒语句样本中加入其它内容,其他内容为非唤醒语句序列音频数据或静默音频数据;

将唤醒语句样本中的至少一个分割单元替换为音近词。

本公开还提供一种计算机程序介质,其上存储有计算机程序,该程序被处理器执行时实现上述实施例1中提供的一种智能设备的唤醒方法的步骤。

在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,上述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。

上述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。上述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。

在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。

上述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行上述计算机程序指令时,全部或部分地产生按照本申请实施例上述的流程或功能。上述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。上述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,上述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。上述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。上述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘(solidstatedisk,ssd))等。

以上对本申请所提供的技术方案进行了详细介绍,本申请中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1