语音唤醒方法、装置、设备及存储介质与流程

文档序号:26235406发布日期:2021-08-10 16:37阅读:179来源:国知局
语音唤醒方法、装置、设备及存储介质与流程

本发明涉及语音处理技术领域,更具体地涉及一种语音唤醒方法、装置、设备及存储介质。



背景技术:

随着语音处理技术的发展,带有语音唤醒功能的电子设备越来越普及。现有技术中,电子设备的唤醒功能比较单一,难以满足用户的多样化需求。

因此,亟需一种新的语音唤醒技术,以解决上述问题。



技术实现要素:

考虑到上述问题而提出了本发明。本发明提供了一种语音唤醒方法、装置、设备及存储介质。

根据本发明一方面,提供了一种语音唤醒方法,包括:获取自当前唤醒人产生的音频信号;提取音频信号的声学特征;通过音频信号的声学特征对音频信号进行一级唤醒检测,以得到一级检测结果;根据一级检测结果确定音频信号是否通过一级唤醒检测;在一级检测结果表示音频信号通过一级唤醒检测的情况下,通过音频信号的声学特征对音频信号进行二级唤醒检测,以得到二级检测结果,同时通过音频信号的声学特征对音频信号进行声纹验证,以验证当前唤醒人是否为授权用户;根据二级检测结果确定音频信号是否通过二级唤醒检测;在二级检测结果表示音频信号通过二级唤醒检测的情况下,根据一级检测结果、二级检测结果和声纹验证结果,针对当前唤醒人执行对应的唤醒操作或不执行任何操作。

示例性地,方法还包括:在提取音频信号的声学特征之前,对音频信号进行语音端点检测,以去除音频信号中的静音和/或噪音信号;或者在提取音频信号的声学特征之后,对声学特征进行语音端点检测,以去除声学特征中对应静音和/噪音信号的部分。

示例性地,一级检测结果包括音频信号包含的至少一个一级唤醒音节以及每个一级唤醒音节的帧数范围;通过音频信号的声学特征对音频信号进行声纹验证,包括:将每个一级唤醒音节的帧数范围内的所有帧的声学特征对应相加并取平均值,以得到每个一级唤醒音节的声学特征;根据每个一级唤醒音节的声学特征,获得音频信号的声纹表征向量;计算音频信号的声纹表征向量与授权用户预先设置的声纹验证向量之间的相似度,以得到的声纹相似度分值,声纹相似度分值用于确定当前唤醒人是否为授权用户。

示例性地,一级检测结果包括一级检测分值,二级检测结果包括二级检测分值,声纹验证结果包括声纹相似度分值;根据一级检测结果、二级检测结果和声纹验证结果,针对当前唤醒人执行对应的唤醒操作或不执行任何操作,包括:在声纹相似度分值小于预设的声纹阈值并且二级检测分值与一级检测分值的差值大于预设的唤醒阈值的情况下,或将二级检测分值与一级检测分值的差值与声纹系数相乘,在二级检测分值与一级检测分值的差值与声纹系数的乘积大于预设的唤醒阈值的情况下,则不执行任何操作;在声纹相似度分值小于预设的声纹阈值,并且二级检测分值与一级检测分值的差值小于或等于预设的唤醒阈值的情况下,则执行非授权用户的唤醒操作;以及在声纹相似度分值大于或等于预设的声纹阈值,并且将二级检测分值与一级检测分值的差值与声纹系数相乘,在二级检测分值与一级检测分值的差值与声纹系数的乘积小于或等于预设的唤醒阈值的情况下,则执行授权用户的唤醒操作。

示例性地,根据一级检测结果、二级检测结果和声纹验证结果,针对当前唤醒人执行对应的唤醒操作或不执行任何操作,还包括:根据声纹相似度分值确定声纹系数,其中,声纹相似度分值越高,声纹系数越低。

示例性地,根据声纹相似度分值确定声纹系数,包括:根据如下公式确定声纹系数λ,

如果scorevp>0.9,则λ=0.2~0.3;

如果0.6<scorevp≤0.9,则λ=0.5~0.6;

如果0.3<scorevp≤0.6,则λ=0.7~0.8;

如果0<scorevp≤0.3,则λ=0.9;

其中,scorevp为声纹相似度分值。

示例性地,通过音频信号的声学特征对音频信号进行一级唤醒检测,包括:根据音频信号的声学特征,通过一级检测模型获得音频信号中每一帧对应的一级唤醒音素,以及每个一级唤醒音素对应的概率;将音频信号中各个帧对应的一级唤醒音素进行组合,以得到音频信号包含的至少一个一级唤醒音节以及每个一级唤醒音节的帧数范围;根据每个一级唤醒音节中的每个一级唤醒音素对应的概率,计算出音频信号的一级检测分值。

示例性地,根据每个一级唤醒音节中的每个一级唤醒音素对应的概率计算出音频信号对应的一级检测分值,包括:将每个一级唤醒音节中的所有一级唤醒音素对应的概率相乘,以得到每个一级唤醒音节对应的概率;以及根据每个一级唤醒音节对应的概率计算所有一级唤醒音节的概率的平均值并将所有一级唤醒音节的概率的平均值确定为音频信号的一级检测分值。

示例性地,通过音频信号的声学特征对音频信号进行二级唤醒检测,包括:根据音频信号的声学特征,通过二级检测模型获得音频信号中每一帧对应的二级唤醒音素,以及每个二级唤醒音素对应的概率,其中,二级检测模型的计算量高于一级检测模型的计算量;将音频信号中每一帧对应的二级唤醒音素进行组合,以得到音频信号包含的至少一个二级唤醒音节以及每个二级唤醒音节的帧数范围;根据每个二级唤醒音节中的每个二级唤醒音素对应的概率,计算出音频信号的二级检测分值。

示例性地,根据每个一级唤醒音节中的每个二级唤醒音素对应的概率,计算出音频信号对应的二级检测分值,包括:将每个二级唤醒音节中的所有二级唤醒音素对应的概率相乘,以得到每个二级唤醒音节对应的概率;以及根据每个二级唤醒音节对应的概率计算所有二级唤醒音节的概率的平均值并将所有二级唤醒音节的概率的平均值确定为音频信号的二级检测分值。

根据本发明的另一方面,提供一种语音唤醒装置,包括:信号获取模块,用于获取自当前唤醒人产生的音频信号;特征提取模块,用于提取音频信号的声学特征;一级检测模块,用于通过音频信号的声学特征对音频信号进行一级唤醒检测,以得到一级检测结果;第一判断模块,用于根据一级检测结果确定音频信号是否通过一级唤醒检测;综合检测模块,用于在一级检测结果表示音频信号通过一级唤醒检测的情况下,通过音频信号的声学特征对音频信号进行二级唤醒检测,以得到二级检测结果,同时通过音频信号的声学特征对音频信号进行声纹验证,以验证当前唤醒人是否为授权用户;第二判断模块,用于根据二级检测结果确定音频信号是否通过二级唤醒检测;执行模块,用于在二级检测结果表示音频信号通过二级唤醒检测的情况下,根据一级检测结果、二级检测结果和声纹验证结果,针对当前唤醒人执行对应的唤醒操作或不执行任何操作。

根据本发明的又一方面,提供一种语音唤醒设备,包括,声音采集装置、处理器和存储器,其中,声音采集装置用于自当前唤醒人获取音频信号,以发送给处理器;存储器中存储有计算机程序指令,计算机程序指令被处理器运行时用于执行如上所述的语音唤醒方法。

根据本发明的再一方面,提供一种存储介质,在存储介质上存储了程序指令,程序指令在运行时用于执行如上所述的语音唤醒方法。

本发明提供了一种能够在保证语音唤醒的响应速度的同时支持声纹验证的语音唤醒方法、装置、设备以及存储介质,实现了语音唤醒和声纹验证的结合,满足了用户的多样需求。该语音唤醒方法中,在二级唤醒检测和声纹验证过程中,均充分利用了一级唤醒检测的结果,避免了重复计算。此外,通过两级唤醒检测提高了唤醒率,极大的避免了错误唤醒的情况的出现。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

通过结合附图对本发明实施例进行更详细的描述,本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解,并且构成说明书的一部分,与本发明实施例一起用于解释本发明,并不构成对本发明的限制。在附图中,相同的参考标号通常代表相同部件或步骤。

图1示出了根据本发明一个实施例的语音唤醒方法的示意性流程图;

图2示出了根据本发明一个实施例的对音频信号进行一级唤醒检测的示意性流程图;

图3示出了根据本发明一个实施例的对音频信号进行声纹验证的示意性流程图;

图4示出了根据本发明一个实施例的利用神经网络获取声纹表征向量的示意图;

图5示出了根据本发明一个实施例的针对所述当前唤醒人执行对应的唤醒操作或不执行任何操作的示意性流程图;

图6示出了根据本发明另一个实施例的语音唤醒方法的示意性流程图;

图7示出了根据本发明一个实施例的语音唤醒装置的示意性框图;以及

图8示出了根据本发明一个实施例的语音唤醒设备的示意性框图。

具体实施方式

为了使得本发明的目的、技术方案和优点更为明显,下面将参照附图详细描述根据本发明的示例实施例。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是本发明的全部实施例,应理解,本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例,本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。

本申请涉及电子设备的语音唤醒技术。该电子设备可以是智能音箱、智能手机或笔记本电脑等具有语音接收功能的电子设备。语音通常是指人说话的声音,从生物学的角度来看,是气流通过声带、咽喉、口腔以及鼻腔等发出的声音。可以理解,对于同样的文字,每个人所发出的语音具有共性;同时,由于个人的生理特点,每个人的语音相比其他人又具有其独特性。

目前,常见电子设备的语音唤醒的解决方案基于上述每个人对同样的文字发出的语音具有共性的原理,利用以下步骤实现。首先将用户发出的语音转换为音频信号作为输入;然后在能量谱上应用mel滤波器组提取音频信号的声学特征,例如fbank(filterbanks)特征或mfcc(mel-frequencycepstralcoefficients)特征;之后将音频信号的声学特征输入至唤醒模型中进行唤醒检测,得到该音频信号是唤醒音频的概率,即检测结果;最后将该概率与预设的唤醒阈值进行比较以判断是否执行唤醒操作。

如前所述,每个人的语音相比其他人具有其独特性。该独特性可以体现为例如每个人的声纹(voiceprint,vp)不同。声纹可以是携带有语音信息的声波频谱。对于每个人来说,声纹不仅具有独特性,而且具有相对稳定性。成年人的声纹可保持长期相对稳定不变,因此,它同指纹一样,具有独特的生物学特征,可用于身份识别,也即是声纹验证。

根据本发明的实施例,当不同的唤醒人通过特定的语音意图对电子设备进行唤醒时,电子设备不仅可以根据音频信号判断是否执行唤醒操作,同时,还可以通过音频信号的声纹执行声纹验证,以验证当前唤醒人是否为电子设备登记的授权用户,从而判断当前唤醒人是否能够具有更多的设备权限。

根据本发明的一个方面,提出了一种语音唤醒方法。对当前唤醒人产生的音频信号进行两级唤醒检测,在所述音频信号通过一级唤醒检测的情况下,同时对音频信号进行二级唤醒检测和声纹验证的并行处理,并且根据一级检测结果、二级检测结果和声纹验证结果,通过解码策略综合判定当前唤醒人是否为授权用户从而执行对应的唤醒操作,或者不执行任何操作。由此,提供了一种能够在保证语音唤醒的响应速度的同时支持声纹验证的语音唤醒方法,实现了语音唤醒和声纹验证的结合,满足了用户的需求。

下面,将参考图1描述根据本发明实施例的语音唤醒方法100。如图1所示,方法100包括步骤s110、步骤s120、步骤s130、步骤s140、步骤s150、步骤s160以及步骤s170。

步骤s110,获取自当前唤醒人产生的音频信号。

在一个实施例中,当前唤醒人可以基于唤醒目的对电子设备发出语音。可以利用电子设备的声音采集设备(例如麦克风)接收该语音,并通过a/d转换电路进行转换,以将模拟信号转换为电子设备能识别和处理的数字信号。由此,音频信号对应于当前唤醒人的一段时长的语音。

步骤s120,提取所获取的音频信号的声学特征。

在一个实施例中,以预先设定的第一时长为帧长,以预先设定的第二时长为帧移,对人工标注的语音数据进行快速傅里叶变换。根据快速傅里叶变换结果,提取梅尔标度滤波器组(filterbanks)声学特征,即以mel频率窗提取fbank声学特征。

具体地,以一个30秒左右的16比特数字脉冲编码调制后的音频信号为例来描述其声学特征提取过程。首先对音频信号进行采样,例如以16khz为采样频率。采样完成后得到关于整个音频信号的一个数值列表,每个值是音频信号的对应时间点处的振幅。可选地,对音频信号进行预加重操作。音频信号可能有频谱倾斜(spectraltilt)现象,即高频部分的幅度会比低频部分的小,预加重操作起到平衡频谱的作用,增大高频部分的幅度。在预加重操作之后,可以将音频信号分成短时帧。音频信号中的频率会随时间变化,然而一些信号处理算法通常希望信号是稳定。为了避免音频信号的频率轮廓会随着时间的推移而丢失,可以对音频信号进行分帧处理。由此,可以认为每一帧的音频信号是短时不变的。可以设置帧长取20毫秒~40毫秒,相邻帧之间存在50%(+/-10%)的重叠。在分帧之后,可以对每一帧的音频信号进行加窗处理。目的是让每一帧的两端平滑地衰减,这样可以降低后续傅里叶变换后旁瓣的强度,取得更高质量的频谱。对于每一帧的加窗信号,进行n点快速傅里叶变换。n可以取256或512。从而可以计算出音频信号对应的能量谱。最后,在所述能量谱上应用mel滤波器组,以提取到fbank声学特征。所述mel滤波器组是一系列的三角形滤波器,例如40个或80个三角形滤波器,其在中心频率点响应值为1,在两边的滤波器中心点衰减到0。

本领域普通技术人员可以理解,上述以fbank声学特征为例描述了提取音频信号的声学特征的详细过程,其仅作为本申请的示例,而不构成对本申请的限制,还可以提取音频信号的其他声学特征,例如,mfcc特征或者plp(perceptuallinearpredictive)特征等。

步骤s130,通过音频信号的声学特征对音频信号进行一级唤醒检测,以得到一级检测结果。

对于某一特定电子设备,通常预设唤醒语音。只有唤醒人说出该唤醒语音时,才能够唤醒该电子设备。唤醒检测即检测自当前唤醒人产生的音频信号是否对应于该预设的唤醒语音。假设该预设唤醒语音为“小贝同学”,则只有当当前唤醒人说出“小贝同学”而不是任何其他语音时,该特定电子设备才会被唤醒。

该一级唤醒检测可以认为是初步或粗略的语音唤醒检测,其可以得到一级检测结果。该一级检测结果可以表示当前唤醒人的音频信号与唤醒语音相对应的概率。例如,该一级检测结果可以包括一级检测分值。

步骤s140,根据一级检测结果确定音频信号是否通过一级唤醒检测。

如前所述,一级检测分值可以表示当前唤醒人的音频信号与唤醒语音相对应的概率。在此步骤中,可以将一级检测分值与预设的一级检测阈值相比较。如果一级检测分值大于该一级检测阈值,则认为音频信号通过了一级唤醒检测;否则,则认为音频信号未通过一级唤醒检测。一级检测阈值可以根据实验结果进行选定,例如0.5至0.9之间的任意值等。示例性地,可以使用100个样本音频信号进行实验。在实验中,当一级检测阈值为0.5时,有97个样本音频信号通过了一级唤醒检测。当一级检测阈值为0.7时,仅有90个样本音频信号通过了一级唤醒检测。则根据该实验结果,可以选择0.5作为一级检测阈值。

一级唤醒检测对音频信号进行初步过滤。例如,在当前唤醒人在进行交谈或唱歌等其他活动而产生音频信号的情况下,该音频信号可能与唤醒语音相去甚远。一级唤醒检测就会将这些音频信号过滤掉而不进行后续操作。

在音频信号未通过一级唤醒检测的情况下,可以终止语音唤醒并返回,以继续获取新的音频信号。

一级唤醒检测能够在降低误唤醒发生可能性的情况下,提高了语音唤醒的处理速度。

步骤s150,在一级检测结果表示音频信号通过一级唤醒检测的情况下,通过音频信号的声学特征对音频信号进行二级唤醒检测,以得到二级检测结果。在进行二级唤醒检测的同时,通过音频信号的声学特征对音频信号进行声纹验证,以验证当前唤醒人是否为授权用户。

二级唤醒检测与一级唤醒检测类似,只是其通过的难度更大。一级唤醒检测是对音频信号的初级过滤。当音频信号与唤醒语音相差较大时,才会将音频信号检测为不通过一级唤醒检测。而二级唤醒检测是对音频信号的更精准检测。当音频信号与唤醒语音相差无几时,才会将音频信号检测为通过二级唤醒检测。换言之,能够通过一级唤醒检测的音频信号不一定能够通过二级唤醒检测。

如果音频信号通过了一级唤醒检测,则表明音频信号与唤醒语音存在一定相关度。此时,再对音频信号执行更精准的二级唤醒检测。在音频信号与唤醒语音相关度足够高的情况下,音频信号将通过二级唤醒检测。与一级唤醒检测类似地,音频信号的二级唤醒检测可以获得二级检测结果。该二级检测结果也可以表示当前唤醒人的音频信号与唤醒语音相对应的概率。例如,该二级检测结果可以包括二级检测分值。

可以采用与二级唤醒检测并行的方式,同步对音频信号的声学特征进行声纹验证,以得到声纹验证结果。声纹验证用于验证当前唤醒人是否是特定的授权用户。对于电子设备来说,可以存在授权用户,例如拥有该电子设备的人。授权用户可以对于电子设备具有更大的使用权限。示例性地,声纹验证结果可以表示当前唤醒人的音频信号的声纹特征与授权用户的语音的声纹特征之间的相似度。例如,该声纹验证结果可以是声纹相似度分值。

将二级唤醒检测与声纹验证同步进行,能够加快语音唤醒的响应速度。

步骤s160,根据二级检测结果确定音频信号是否通过二级唤醒检测。在二级检测结果包括二级检测分值的示例中。在此步骤中,也可以将二级检测分值与预设的二级检测阈值相比较。如果二级检测分值大于该二级检测阈值,则认为音频信号通过了二级唤醒检测;否则,则认为音频信号未通过二级唤醒检测。对于音频信号未通过二级唤醒检测的情况,可以终止语音唤醒并返回,以继续获取新的音频信号。本步骤与步骤s140类似,为了简洁,在此不再赘述。可以理解,二级检测阈值可以比一级检测阈值更大。

步骤s170,在二级检测结果表示音频信号通过二级唤醒检测的情况下,根据一级检测结果、二级检测结果和声纹验证结果,针对当前唤醒人执行对应的唤醒操作或不执行任何操作。

在一个实施例中,如果音频信号通过二级唤醒检测,则可以根据解码策略针对当前唤醒人执行一个对应的唤醒操作或不执行任何操作。具体地,可以根据从步骤s130和步骤s150中得到的一级检测结果、二级检测结果和声纹验证结果,通过解码策略进行综合判定,最终针对当前唤醒人不执行任何操作、执行非授权用户的唤醒操作或者执行授权用户的唤醒操作。

示例性地,以电子设备为智能音箱为例,如果当前唤醒人的音频信号通过解码策略进行综合判定的结果为:执行授权用户的唤醒操作,则智能音箱可以进入工作状态并回答“主人好,我在,请您吩咐”;如果当前唤醒人的音频信号通过解码策略进行综合判定的结果为:执行非授权用户的唤醒操作,则智能音箱可以进入工作状态并回答“您好,我在”;如果当前唤醒人的音频信号通过解码策略进行综合判定的结果为:不执行任何操作,则智能音箱可以终止语音唤醒并返回,以获取新的音频信号。

本发明提供了一种能够在保证语音唤醒的响应速度的同时支持声纹验证的语音唤醒方法,实现了语音唤醒和声纹验证的结合,满足了用户的多样需求。该语音唤醒方法中,在二级唤醒检测和声纹验证过程中,均充分利用了一级唤醒检测的结果,避免了重复计算。此外,通过两级唤醒检测提高了唤醒率,极大的避免了错误唤醒的情况的出现。

在一个实施例中,方法100还包括以下步骤:

在提取音频信号的声学特征之前,对音频信号进行语音端点检测,以去除音频信号中的静音和/或噪音信号;或者

在提取音频信号的声学特征之后,对声学特征进行语音端点检测,以去除音频信号的声学特征中对应静音和/噪音信号的部分。

在前述步骤s120中,对音频信号进行声学特征的提取。在提取声学特征之前或者在提取声学特征之后,可以进行语音端点检测。语音端点检测用于从音频信号中准确的定位出语音的开始和结束点。音频信号中往往含有很长的静音,语音端点检测能够将静音和实际语音分离开来,以去除音频信号中的静音和/或噪音信号或者去除声学特征中对应静音和/噪音信号的部分。

示例性地,假设一段共计2.5秒的音频信号,其中包含语音以及非语音的部分,处理成声学特征后对应有250帧。经过语音端点检测后认定这段音频信号的前20帧以及最后的30帧是非语音,实际有效的语音部分是第21帧至第220帧,那么就会去掉前20帧以及最后的30帧对应的声学特征,最终实际250的帧的声学特征就变成了200帧的声学特征。

通过对音频信号进行语音端点检测,不仅能够可以消除非语音部分和噪音部分对语音唤醒和声纹验证的干扰,还能够减小后续的计算量从而节省资源。

在一个实施例中,如图2所示,步骤s130通过所述音频信号的声学特征对所述音频信号进行一级唤醒检测具体包括步骤s131、步骤s132以及步骤s133。

步骤s131,根据音频信号的声学特征,通过一级检测模型获得音频信号中每一帧对应的一级唤醒音素,以及每个一级唤醒音素对应的概率。

在一个实施例中,将音频信号的声学特征输入至预训练好的一级检测模型中,一级检测模型输出音频信号中每一帧对应的一级唤醒音素,以及每个一级唤醒音素对应的概率。其中,音素是根据语音的自然属性划分出来的最小语音单位,也是构成音节的最小单位或最小的语音片段。依据音节里的发音动作来分析,一个动作构成一个音素。可以理解,根据语种不同,音素可以是不同的。例如音素可以包括汉语音素和英语音素。汉语音素可以包括声母音素和韵母音素,英语音素包括元音音素和辅音音素。一级唤醒音素对应的概率是指音频信号中的该帧是该一级唤醒音素的声音的概率。

在一个实施例中,一级检测模型的结构可以包括卷积神经网络层和长短期记忆网络层。一级检测模型的输入可以是音频信号经过一阶差分和二阶差分处理后的声学特征。一级检测模型的输出是音频信号的每一帧可能对应的全部音素中每一个音素以及其概率。对于音频信号的任意一帧,可以选取其中概率最大的音素作为该帧对应的一级唤醒音素。

示例性地,对于一个200帧的音频信号,音频信号的声学特征为40维度,经过一阶差分和二阶差分处理后得到120维度的声学特征。将音频信号的声学特征输入至一级检测模型,一级检测模型输出200帧中每一帧对应的一级唤醒音素,具体包括:第1-20帧为声母音素“x”,并且对应的概率平均为0.9;第21-50帧为韵母音素“iao”,并且对应的概率平均为0.9;第51-75帧为声母音素“b”,并且对应的概率平均为0.8;第76-100帧为韵母音素“ei”,并且对应的概率平均为0.8;第101-130帧为声母音素“t”,并且对应的概率平均为0.9;第131-150帧为韵母音素“ong”,并且对应的概率平均为0.9;第151-170帧为声母音素“x”,并且对应的概率平均为0.8;第171-200帧为韵母音素“ue”并且对应的概率平均为0.8。最终得到该音频信号对应的九个一级唤醒音素(x…,iao…,b…,ei…,t…,ong…,x…,ue…)以及每个一级唤醒音素对应的概率。

步骤s132,将音频信号中各个帧对应的一级唤醒音素进行组合,以得到音频信号包含的至少一个一级唤醒音节以及每个一级唤醒音节的帧数范围。

音节是指语言中音素组合发音的语音结构基本单位,单个元音音素也可自成音节。对于汉语来说,将音频信号中每一帧对应的一级唤醒音素进行组合是指通过将声母音素和韵母音素进行组合得到汉语音节。对于英语来说,将音频信号中每一帧对应的一级唤醒音素进行组合是指通过将元音音素和辅音音素进行组合得到一个单词的英语音标。由此,可以根据每个一级唤醒音素对应的帧数范围得到每个一级唤醒音节的帧数范围。

示例性的,对于前述200帧的音频信号,其第1-20帧为一级唤醒音素“x”,第21-50帧为一级唤醒音素“iao”,第51-75帧为一级唤醒音素“b”,第76-100帧为一级唤醒音素“ei”,第101-130帧为一级唤醒音素“t”,第131-150帧为一级唤醒音素“ong”,第151-170帧为一级唤醒音素“x”,第171-200帧为一级唤醒音素“ue”。上述一级唤醒音素进行组合后可以得到四个一级唤醒音节(xiao,bei,tong,xue),进一步可以得到一级唤醒音节“xiao”的帧数范围为第1-50帧,一级唤醒音节“bei”的帧数范围为第51-100帧,一级唤醒音节“tong”的帧数范围为第101-150帧,一级唤醒音节“xue”的帧数范围为第151-200帧。

步骤s133,根据每个一级唤醒音节中的每个一级唤醒音素对应的概率,计算出音频信号的一级检测分值。

示例性地,可以将每个一级唤醒音节中的所有一级唤醒音素对应的概率相乘,以得到每个一级唤醒音节对应的概率,并根据每个一级唤醒音节对应的概率计算所有一级唤醒音节的概率的平均值并将所有一级唤醒音节的概率的平均值确定为音频信号的一级检测分值。

具体例如,对于前述200帧的音频信号,其包括四个一级唤醒音节(xiao,bei,tong,xue),并且在一级唤醒音节“xiao”中一级唤醒音素“x”的概率为0.9、一级唤醒音素“iao”的概率为0.9;在一级唤醒音节“bei”中一级唤醒音素“b”的概率为0.8、一级唤醒音素“ei”的概率为0.8;一级唤醒音节“tong”中一级唤醒音素“t”的概率为0.9、一级唤醒音素“ong”的概率为0.9;一级唤醒音节“xue”中一级唤醒音素“x”的概率为0.8、一级唤醒音素“ue”的概率为0.8,则该音频信号的四个一级唤醒音节(xiao,bei,tong,xue)对应的概率分别为0.9*0.9=0.81、0.8*0.8=0.64、0.9*0.9=0.81以及0.8*0.8=0.64。计算这些一级唤醒音节对应的概率的平均值:(0.81+0.64+0.81+0.64)/4=0.725。

计算一级唤醒音节的概率的平均值并将其作为音频信号的一级检测分值,在保证最终的唤醒准确度的同时,方案简单易实现。

上述方案中,在一级唤醒检测中,将与语音唤醒关联度较小的语音信息过滤掉,并对可能包含唤醒词的语音信息进行进一步的处理,不仅保证了唤醒检测的精准,而且保证了电子设备的整体唤醒响应速度。

与步骤s130类似地,在步骤s150中通过音频信号的声学特征对音频信号进行二级唤醒检测,具体包括步骤s151、步骤s152以及步骤s153。

步骤s151,根据音频信号的声学特征,通过二级检测模型获得音频信号中每一帧对应的二级唤醒音素,以及每个二级唤醒音素对应的概率。

步骤s152,将音频信号中每一帧对应的二级唤醒音素进行组合,以得到音频信号包含的至少一个二级唤醒音节以及每个二级唤醒音节的帧数范围。

步骤s153,根据每个二级唤醒音节中的每个二级唤醒音素对应的概率,计算出音频信号的二级检测分值。

可选地,将每个二级唤醒音节中的所有二级唤醒音素对应的概率相乘,以得到每个二级唤醒音节对应的概率,并根据每个二级唤醒音节对应的概率计算所有二级唤醒音节的概率的平均值并将所有二级唤醒音节的概率的平均值确定为音频信号的二级检测分值。

其中,步骤s151、步骤s152以及步骤s153分别与上述步骤s131、步骤s132以及步骤s133实现的功能、处理的过程和步骤相似,为了简洁,不再赘述。

如上所述,二级唤醒检测是在输入的音频信号通过一级唤醒检测的情况下,对音频信号再次重新进行检测的,即二级唤醒检测的输入与一级唤醒检测的输入完全相同。二者的输出也类似。但是,二级检测模型的计算量高于一级检测模型的计算量,也即是二级检测模型对于音频信号的唤醒检测的精确程度高于一级检测模型。示例性地,二级检测模型也可以采用与一级检测模型相同的网络结构,即也可以包括卷积神经网络层和长短期记忆网络层。其中,二级检测模型的长短期记忆网络层的节点多于一级检测模型。可选地,二级检测模型的长短期记忆网络层包括512节点,而一级检测模型的长短期记忆网络层包括128节点。从而,二级检测模型的计算量更大,检测也更加精确。

上述方案中,充分利用了一级检测模型的快速反应和二级检测模型的精准检测,从而在保证电子设备的响应时间的同时,进一步保证了唤醒检测的精度。

如前所述,一极检测结果可以包括音频信号包含的一级唤醒音节以及每个一级唤醒音节的帧数范围。示例性地,如图3所示,在步骤s150中通过音频信号的声学特征对音频信号进行声纹验证,具体包括步骤s155、步骤s156以及步骤s157。

步骤s155,将每个一级唤醒音节的帧数范围内的所有帧的声学特征对应相加并取平均值,以得到每个一级唤醒音节的声学特征。

仍以前述200帧的音频信号为例,其包括四个一级唤醒音节(xiao,bei,tong,xue),并且一级唤醒音节“xiao”的帧数范围为第1-50帧,一级唤醒音节“bei”的帧数范围为第51-100帧,一级唤醒音节“tong”的帧数范围为第101-150帧,一级唤醒音节“xue”的帧数范围为第151-200帧。可以分别将第1-50帧范围内对应的120维度的声学特征相加并取平均,从而得到表征一级唤醒音节“xiao”的声学特征。以此类推,可以依次得到一级唤醒音节“bei”的声学特征、一级唤醒音节“tong”的声学特征以及一级唤醒音节“xue”的声学特征。

步骤s156,根据每个一级唤醒音节的声学特征,获得音频信号的声纹表征向量。

在一个实施例中,图4示出了根据本发明的一个实施例利用神经网络获取声纹表征向量的示意图。如图4所示,可以通过深度神经网络(deepneuralnetworks,dnn)来获得音频信号的声纹表征向量。该深度神经网络可以包括局部连接(localconnected)层、多个全连接(fullconnected)层以及线性层。通过将所有一级唤醒音节的声学特征作为深度神经网络的输入,深度神经网络可以输出音频信号的声纹表征向量。

示例性地,前述200帧的音频信号包括4个一级唤醒音节。每个一级唤醒音节对应一个120维度的声学特征。可以将120*4=480维度的声学特征作为深度神经网络的输入,该输入经过包含4个全连接层的深度神经网络的计算后,该深度神经网络可以输出512维的声纹表征向量。

步骤s157,计算音频信号的声纹表征向量与授权用户预先设置的声纹验证向量之间的相似度,以得到的声纹相似度分值,声纹相似度分值用于确定当前唤醒人是否为授权用户。

在通过深度神经网络获取到音频信号的声纹表征向量之后,调取授权用户预先设置的声纹验证向量,可以计算声纹表征向量与声纹验证向量之间的余弦相似度,作为声纹验证的声纹验证结果即声纹相似度分值。声纹相似度分值越高,表示当前唤醒人越可能是授权用户。可以将声纹相似度分值与预设的声纹阈值进行比较,大于或等于声纹阈值则确定当前唤醒人是授权用户,小于声纹阈值则确定当前唤醒人不是授权用户。

上述技术方案通过基于各个帧的声学特征所获得的声纹表征向量对音频信号进行声纹验证,能够准确且快速的计算出当前唤醒人与授权用户之间的声纹相似度,从而对当前唤醒人是否为授权用户进行快速以及准确的判断。

示例性地,在音频信号能够通过二级唤醒检测的情况下,可以根据解码策略和上述步骤中得到的一级检测分值、二级检测分值以及声纹相似度分值进行最终的决策,针对当前唤醒人分别不执行任何操作、执行非授权用户的唤醒操作或者授权用户的唤醒操作,从而使得电子设备能够针对不同的当前唤醒人以及不同的语音信息有针对性地进行反馈,提高了用户的体验。

图5示出了根据本发明一个实施例的步骤s170根据一级检测结果、二级检测结果和声纹验证结果,针对当前唤醒人执行对应操作的示意性流程图。如图5所示,在步骤s170中可以具体包括步骤s171、步骤s172以及步骤s173。

步骤s171,在声纹相似度分值小于预设的声纹阈值并且二级检测分值与一级检测分值的差值大于预设的唤醒阈值的情况下,或者将二级检测分值与一级检测分值的差值与声纹系数相乘,在二级检测分值与一级检测分值的差值与声纹系数的乘积大于或等于唤醒阈值的情况下,则不执行任何操作。

在声纹相似度分值小于预设的声纹阈值的情况下,首先能够判定当前唤醒人不是电子设备的授权用户,此时,如果进一步发现二级检测分值与一级检测分值的差值大于预设的唤醒阈值,那么表明一级检测结果与二级检测结果之间的差距过大,最终综合上述两种情况解码策略判断不执行唤醒操作,进而电子设备就会保持静默。又或者,不考虑声纹相似度分值与预设的声纹阈值的比较结果的情况下,可以引入一个声纹系数,该声纹系数可以是0~1范围内的任意值。此时,将二级检测分值与一级检测分值的差值与该声纹系数相乘。在这种情况下,如果在二级检测分值与一级检测分值的差值与声纹系数的乘积仍然大于唤醒阈值,那么同样表明一级检测结果与二级检测结果之间的差距过大,根据上述情况解码策略同样判断不执行唤醒操作,进而电子设备就会保持静默。

上述执行步骤s171的条件通过公式可以表示为:scorevp<θvp且score2-score1>θw;或λ*(score2-score1)>θw;其中,scorevp为声纹相似度分值,θvp为声纹阈值,score2为二级检测分值,score1为一级检测分值,θw为唤醒阈值,λ为声纹系数。

步骤s172,在声纹相似度分值小于预设的声纹阈值,并且二级检测分值与一级检测分值的差值小于或等于预设的唤醒阈值的情况下,则执行非授权用户的唤醒操作。

在声纹相似度分值小于预设的声纹阈值的情况下,首先能够判定当前唤醒人不是电子设备的授权用户,此时,如果进一步发现二级检测分值与一级检测分值的差值小于或等于预设的唤醒阈值,那么表明一级检测结果与二级检测结果比较接近,最终综合上述两种情况解码策略判断执行非授权用户的唤醒操作,进而电子设备进行普通的语音唤醒,当前唤醒人由于不是授权用户而并不具有其他特殊权限。

上述执行步骤s172的条件通过公式可以表示为:scorevp<θvp且score2-score1≤θw;其中,scorevp为声纹相似度分值,θvp为声纹阈值,score2为二级检测分值,score1为一级检测分值,θw为唤醒阈值。

步骤s173,在声纹相似度分值大于预设的声纹阈值,并且将二级检测分值与一级检测分值的差值与声纹系数相乘,在二级检测分值与一级检测分值的差值与声纹系数的乘积小于或等于唤醒阈值的情况下,则执行授权用户的唤醒操作。

在声纹相似度分值大于或等于预设的声纹阈值的情况下,首先能够判定当前唤醒人是电子设备的授权用户,此时,将二级检测分值与一级检测分值的差值与声纹系数相乘,如果该乘积小于预设的唤醒阈值,那么表明一级检测结果与二级检测结果非常接近,最终综合上述两种情况解码策略判断执行授权用户的唤醒操作,进而电子设备进行全面的语音唤醒,当前唤醒人由于是授权用户而具有全部操作权限。

上述执行步骤s173的条件通过公式可以表示为:scorevp≥θvp且λ*(score2-score1)≤θw;其中,scorevp为声纹相似度分值,θvp为声纹阈值,score2为二级检测分值,score1为一级检测分值,θw为唤醒阈值,λ为声纹系数。

示例性地,声纹阈值和唤醒阈值取值范围可以是0.5~0.6。

本领域普通技术人员可以理解,上述步骤s171、步骤s172和步骤s173的执行按照图5中所示顺序,其仅为示例,不构成对本发明的限制。

上述技术方案中,公开了将两级唤醒检测结果和声纹验证结果进行结合的解码策略。由此,将语音唤醒和声纹验证进行综合判断,同步得到了是否执行唤醒操作以及是否声纹验证成功的最终结果。在保证了电子设备的响应速度的同时,给出了个性化的唤醒结果,提升了用户的使用体验。

示例性地,上述声纹系数可以根据声纹相似度分值确定,其中,声纹相似度分值越高,声纹系数越低。该方案中,声纹验证结果能够在一定程度上影响到语音唤醒的结果。声纹相似度分值越高,表示该音频信号来自授权用户的可能性越大。此时可以将声纹系数设置得更低,从而使得该音频信号通过唤醒检测的可能性越大。总之,在当前唤醒人高度可能为授权用户的情况下,通过声纹系数进一步提高了其语音唤醒的成功率,更贴心地满足了授权用户的需求,提高了用户体验。

示例性地,根据声纹验证得到的声纹相似度分值的数值范围,进一步确定出一个声纹系数。可选地,根据如下公式确定声纹系数λ:

如果scorevp>0.9,则λ=0.2~0.3;

如果0.6<scorevp≤0.9,则λ=0.5~0.6;

如果0.3<scorevp≤0.6,则λ=0.7~0.8;

如果0<scorevp≤0.3,则λ=0.9。

这里具体给出了根据声纹验证得到的声纹相似度分值进一步确定声纹系数的方案。该方案充分考虑了声纹验证结果对唤醒检测的影响,对于不同的唤醒人,唤醒检测的严苛度有所区别。既保证了非授权用户的唤醒检测的准确度,又容忍了授权用户的语音瑕疵,提升了用户的满意度。

图6示出了根据本发明另一个实施例的语音唤醒方法600的示意性流程图。如图6所示,方法600包括步骤s601、步骤s602、步骤s603、步骤s604、步骤s605、步骤s606、步骤s607、步骤s608、步骤s609以及步骤s610。其中,步骤s601、步骤s602、步骤s604、步骤s605、步骤s606、步骤s608、步骤s609以及步骤s610分别与上述步骤s110、步骤s120、步骤s130、步骤s140、步骤s150、步骤s171、步骤s172以及步骤s173实现的功能和处理的过程相似,为了简洁,不再赘述。

步骤s601,获取自当前唤醒人产生的音频信号。

步骤s602,提取音频信号的声学特征。

步骤s603,对音频信号进行语音端点检测,以去除音频信号的声学特征中对应静音和/噪音信号的部分。

步骤s604,通过音频信号的声学特征对音频信号进行一级唤醒检测,以得到一级检测分值。

步骤s605,根据一级检测分值确定音频信号是否通过一级唤醒检测;若是,则执行步骤s606;若否,则返回以获取新的音频信号。

步骤s606,通过音频信号的声学特征对音频信号进行二级唤醒检测,以得到二级检测分值,同时通过音频信号的声学特征对音频信号进行声纹验证,以得到声纹相似度分值。

步骤s607,根据二级检测分值确定音频信号是否通过二级唤醒检测;若是,则执行步骤s608;若否,则返回以获取新的音频信号。

步骤s608,根据一级检测结果、二级检测结果和声纹验证结果判断执行以下步骤s609、步骤s610和步骤s611中的任一个。

步骤s609,在声纹相似度分值小于预设的声纹阈值并且二级检测分值与一级检测分值的差值大于预设的唤醒阈值的情况下,或在将二级检测分值与一级检测分值的差值与声纹系数相乘,在二级检测分值与一级检测分值的差值与声纹系数的乘积大于唤醒阈值的情况下,则执行不执行任何操作。

步骤s610,在声纹相似度分值小于预设的声纹阈值,并且二级检测分值与一级检测分值的差值小于或等于预设的唤醒阈值的情况下,则执行非授权用户的唤醒操作。

步骤s611,在声纹相似度分值大于或等于预设的声纹阈值,并且将二级检测分值与一级检测分值的差值与声纹系数相乘,在二级检测分值与一级检测分值的差值与声纹系数的乘积小于或等于唤醒阈值的情况下,则执行授权用户的唤醒操作。

根据本发明又一方面,提供了一种语音唤醒装置700。图7示出了根据本发明一个实施例的语音唤醒装置的示意性框图。如图7所示,语音唤醒装置700包括以下模块。

信号获取模块710,用于获取自当前唤醒人产生的音频信号;

特征提取模块720,用于提取所述音频信号的声学特征;

一级检测模块730,用于通过所述音频信号的声学特征对所述音频信号进行一级唤醒检测,以得到一级检测结果;

第一判断模块740,用于根据所述一级检测结果确定所述音频信号是否通过所述一级唤醒检测;

综合检测模块750,用于在所述一级检测结果表示所述音频信号通过所述一级唤醒检测的情况下,通过所述音频信号的声学特征对所述音频信号进行二级唤醒检测,以得到二级检测结果,同时通过所述音频信号的声学特征对所述音频信号进行声纹验证,以验证所述当前唤醒人是否为授权用户;

第二判断模块760,用于根据所述二级检测结果确定所述音频信号是否通过所述二级唤醒检测;

执行模块770,用于在所述二级检测结果表示所述音频信号通过所述二级唤醒检测的情况下,根据所述一级检测结果、所述二级检测结果和声纹验证结果,针对所述当前唤醒人执行对应的唤醒操作或不执行任何操作。

需要说明的是,装置的各组成部分应当理解为实现该程序流程各步骤或该方法各步骤所建立的功能模块,各个功能模块并非实际的功能分割或者分离限定。由这样一组功能模块限定的装置应当理解为主要通过说明书记载的计算机程序实现该解决方案的功能模块构架,而不应当理解为主要通过硬件方式实现该解决方案的实体装置。

根据本发明的又一方面,还提供了一种语音唤醒设备800。图8示出了根据本发明一个实施例的语音唤醒设备的示意性框图。该语音唤醒设备800可以是诸如智能音箱、智能手机、智能手表等各种电子设备。如图8所示,该语音唤醒设备800包括,声音采集装置810、处理器820和存储器830。所述声音采集装置810用于自当前唤醒人获取音频信号,以发送给所述处理器820。所述存储器830中存储有计算机程序指令,所述计算机程序指令被所述处理器820运行时用于执行上述语音唤醒方法。

此外,根据本发明再一方面,还提供了一种存储介质,在所述存储介质上存储了程序指令,在所述程序指令被计算机或处理器运行时使得所述计算机或处理器执行本发明实施例的语音唤醒方法的相应步骤,并且用于实现根据本发明实施例的语音唤醒装置和设备中的相应模块。所述存储介质例如可以包括平板电脑的存储部件、个人计算机的硬盘、只读存储器(rom)、可擦除可编程只读存储器(eprom)、便携式紧致盘只读存储器(cd-rom)、usb存储器、或者上述存储介质的任意组合。所述计算机可读存储介质可以是一个或多个计算机可读存储介质的任意组合。

尽管这里已经参考附图描述了示例实施例,应理解上述示例实施例仅仅是示例性地,并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改,而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。

本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个设备,或一些特征可以忽略,或不执行。

在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。

类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该本发明的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如相应的权利要求书所反映的那样,其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。

本领域的技术人员可以理解,除了特征之间相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的替代特征来代替。

此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(dsp)来实现根据本发明实施例的语音唤醒装置中的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述,仅为本发明的具体实施方式或对具体实施方式的说明,本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1