语音唤醒方法及相关装置、电子设备、存储介质与流程

文档序号:33460641发布日期:2023-03-15 03:40阅读:32来源:国知局
语音唤醒方法及相关装置、电子设备、存储介质与流程

1.本技术涉及人工智能技术领域,特别是涉及一种语音唤醒方法及相关装置、电子设备、存储介质。


背景技术:

2.随着人工智能技术飞速发展,智能语音技术已经全面普及,基于声纹的唤醒方案也广泛应用于智能家居、移动设备、车载领域等各类语音产品。
3.当前,随着智能语音技术的全面普及,语音唤醒的响应速度和语音唤醒的准确性也愈发重要。有鉴于此,如何提升唤醒响应速度,同时提升唤醒准确性,成为亟待解决的问题。


技术实现要素:

4.本技术主要解决的技术问题是提供一种语音唤醒方法及相关装置、电子设备、存储介质,能够提升唤醒响应速度,同时提升唤醒准确性。
5.为了解决上述技术问题,本技术第一方面提供了一种语音唤醒方法,包括:检测用户语音的唤醒置信度,并依次分析唤醒置信度分别与第一唤醒阈值、第二唤醒阈值之间的大小关系,且第一唤醒阈值小于第二唤醒阈值;响应于唤醒置信度不小于第二唤醒阈值,开启语音交互;响应于唤醒置信度不小于第一唤醒阈值且小于第二唤醒阈值,基于从用户语音提取到的第一声纹特征和语音交互系统已经存储的若干第二声纹特征,确定是否开启语音交互。
6.为了解决上述技术问题,本技术第二方面提供了一种语音唤醒装置,包括:置信检测模块、数值分析模块、第一响应模块和第二响应模块;其中,置信检测模块用于检测用户语音的唤醒置信度;数值分析模块用于依次分析唤醒置信度分别与第一唤醒阈值、第二唤醒阈值之间的大小关系;其中,第一唤醒阈值小于第二唤醒阈值;第一响应模块用于响应于唤醒置信度不小于第二唤醒阈值,开启语音交互;第二响应模块用于响应于唤醒置信度不小于第一唤醒阈值且小于第二唤醒阈值,基于从用户语音提取到的第一声纹特征和语音交互系统已经存储的若干第二声纹特征,确定是否开启语音交互。
7.为了解决上述技术问题,本技术第三方面提供了一种电子设备,包括相互耦接的存储器和处理器,存储器中存储有程序指令,处理器用于执行程序指令以实现上述第一方面的语音唤醒方法。
8.为了解决上述技术问题,本技术第四方面提供了一种计算机可读存储介质,存储有能够被处理器运行的程序指令,程序指令用于实现上述第一方面的语音唤醒方法。
9.上述方案,检测用户语音的唤醒置信度,并依次分析唤醒置信度分别与第一唤醒阈值、第二唤醒阈值之间的大小关系,且第一唤醒阈值小于第二唤醒阈值;响应于唤醒置信度不小于第二唤醒阈值,开启语音交互;响应于唤醒置信度不小于第一唤醒阈值且小于第二唤醒阈值,基于从用户语音提取到的第一声纹特征和语音交互系统已经存储的若干第二
声纹特征,确定是否开启语音交互,一方面设置双唤醒阈值,通过差异性地唤醒阈值,进而确定是否开启语音交互,有助于降低语音误唤醒概率,另一方面在唤醒置信度不小于第一唤醒阈值且小于第二唤醒阈值,基于第一声纹特征和第二声纹特征,确定是否开启语音交互,有助于提升唤醒准确性,此外,在语音唤醒过程中,通过先进行唤醒阈值判断,再视情况进行声纹检测,进而确定是否开启语音交互,能够提升唤醒响应速度,同时提升唤醒准确性。
10.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本技术。
附图说明
11.此处的附图被并入说明书中并构成本说明书的一部分,这些附图示出了符合本技术的实施例,并与说明书一起用于说明本技术的技术方案。
12.图1是本技术语音唤醒方法一实施例的流程示意图;
13.图2是本技术语音唤醒方法另一实施例的流程示意图;
14.图3是本技术语音唤醒装置一实施例的框架示意图;
15.图4是本技术电子设备一实施例的框架示意图;
16.图5是本技术计算机可读存储介质一实施例的框架示意图。
具体实施方式
17.下面结合说明书附图,对本技术实施例的方案进行详细说明。
18.以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透彻理解本技术。
19.本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。此外,本文中的“多”表示两个或者多于两个。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括a、b、c中的至少一种,可以表示包括从a、b和c构成的集合中选择的任意一个或多个元素。“若干”表示至少一个。本文的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
20.请参阅图1,图1是本技术语音唤醒方法一实施例的流程示意图。
21.具体而言,可以包括如下步骤:
22.步骤s11:检测用户语音的唤醒置信度,并依次分析唤醒置信度分别与第一唤醒阈值、第二唤醒阈值之间的大小关系。
23.本公开实施例中,第一唤醒阈值小于第二唤醒阈值。需要说明的是,用户可能是目标用户(即常用用户),也可能是非目标用户(即非常用用户),目标用户在语音交互系统预先录制有声纹特征,而非目标用户未在语音交互系统预先录制声纹特征,故为了区分目标用户和非目标用户,从而对目标用户能够快速响应,并对非目标用户慎重响应,可以为目标用户设置一较小的唤醒阈值,即第一唤醒阈值,并为非目标用户设置一较大的唤醒阈值,即第二唤醒阈值。区别于前述方式,第一唤醒阈值和第二唤醒阈值也可以设置初始值,并在交
互过程中对初始值不断进行调整,以使第一唤醒阈值和第二唤醒阈值趋于稳定,示例性地,第一唤醒阈值可以设置为0.5、0.6等,第二唤醒阈值可以设置为0.8、0.9等,通过不断对第一唤醒阈值进行调整,得到最终第一唤醒阈值为0.7,最终第二唤醒阈值为0.9。可以理解的是,上述方式仅为实际应用中唤醒阈值可能的一种情况,并不能因此而限定实际应用中所采用的设置方式和设置数值,第一唤醒阈值和第二唤醒阈值可以根据实际情况进行设置,在此不做具体限定。
24.在一个实施场景中,唤醒置信度可以表示用户语音中含有唤醒词的可信程度,唤醒词指的是将产品从待机状态切换到工作状态的词语。可以理解的是,产品可以预先设置昵称,作为唤醒词,该昵称可以是叠词(如,“小x小x”),也可以是简称(如,“小x”),在此不做限定。
25.在一个具体实施场景中,唤醒置信度可以通过提取用户语音中基频、音高、谐波等声学参数,进一步对提取到的声学参数进行检测,进而确定唤醒置信度。当然,也可以先获取样本语音,通过样本语音训练网络模型,进而通过网络模型预测得到唤醒置信度,网络模型可以包括但不限于cnn(convolution neural network,卷积神经网络)、rnn(recurrent neural network,循环神经网络)等。唤醒置信度的检测方式可以根据实际情况进行确定,在此不做具体限定。
26.进一步地,在检测得到用户语音的唤醒置信度之后,依次分析唤醒置信度分别与第一唤醒阈值、第二唤醒阈值之间的大小关系,进而基于唤醒置信度与第一唤醒阈值、第二唤醒阈值之间的大小关系,确定是否开启语音交互。
27.步骤s12:响应于唤醒置信度不小于第二唤醒阈值,开启语音交互。
28.在一个实施场景中,如前所述,在得到唤醒置信度之后,需依次分析唤醒置信度分别与第一唤醒阈值、第二唤醒阈值之间的大小关系,而由于第一唤醒阈值小于第二唤醒阈值,故在唤醒置信度不小于第二唤醒阈值时,表征唤醒置信度也必然不小于第一唤醒置信度。示例性地,如前所述,在乘车场景中,一般可将乘车人员区分为常乘车人员和非常乘车人员,对常乘车人员设定第一唤醒阈值,对非常乘车人设定第二唤醒阈值,由于第一唤醒阈值小于第二唤醒阈值,当唤醒置信度不小于第二唤醒阈值时,可以直接开启语音交互。
29.步骤s13:响应于唤醒置信度不小于第一唤醒阈值且小于第二唤醒阈值,基于从用户语音提取到的第一声纹特征和语音交互系统已经存储的若干第二声纹特征,确定是否开启语音交互。
30.在一个实施场景中,语音交互系统可以存储若干用户的第二声纹特征,语音交互系统中的若干第二声纹特征可以是在语音交互过程中不断地获取并存储,也可以预先获取并存储。语音交互系统中若干第二声纹特征的获取方式可以根据实际情况进行确定,在此不做具体限定。
31.在一个实施场景中,当唤醒置信度不小于第一唤醒阈值且小于第二唤醒阈值时,可以进一步基于第一声纹特征和第二声纹特征进行相似度比较,进而确定是否开启语音交互。具体地,可以先获取第一声纹特征分别与若干第二声纹特征之间的特征相似度,即分别计算第一声纹特征和各第二声纹特征之间的特征相似度,示例性地,可以计算第一声纹特征与第二声纹特征之间的特征相似度,也可以计算第一声纹特征与第二声纹特征之间的特征距离,进而通过特征距离确定特征相似度。确定第一声纹特征和各第二声纹特征之间的
特征相似度的方式,可以根据实际情况进行选择,在此不做具体限定。在获取第一声纹特征与各第二声纹特征之间的特征相似度之后,可以响应于存在至少一个特征相似度大于声纹阈值,开启语音交互;响应于各特征相似度均不大于声纹阈值,不开启语音交互。当然,也可以在确定第一声纹特征与第二声纹特征之间的特征相似度之后,将当前特征相似度与声纹阈值进行比对,若当前特征相似度大于声纹阈值,开启语音交互。即每获取一个特征相似度,先确定特征相似度是否大于声纹阈值,若特征相似度大于声纹阈值,则开启语音交互,在开启语音交互之后,则无需获取第一声纹特征与其余第二声纹特征之间的特征相似度;若特征相似度不大于声纹阈值,则继续获取特征相似度并进行比较。声纹阈值可以是能够开启语音交互的最低值,也可以是最低值与最高值之间的任意值,声纹阈值可以根据实际情况进行确定,在此不做具体限定。上述方式,当唤醒置信度不小于第一唤醒阈值且小于第二唤醒阈值时,通过获取第一声纹特征与若干第二声纹特征之间的特征相似度,并将特征相似度与声纹阈值进行比较,进而确定是否开启语音交互,有助于降低语音误唤醒率,进一步提升唤醒准确性。
32.在一个实施场景中,响应于唤醒置信度小于第一唤醒阈值,不开启语音交互。
33.需要说明的是,语音唤醒过程中,基于唤醒置信度与第一唤醒阈值、第二唤醒阈值之间的大小关系,确定是否开启语音交互的步骤是基于客观情况进行执行,不限制执行顺序。
34.在一个实施场景中,在基于从用户语音提取到的第一声纹特征和语音交互系统已经存储的若干第二声纹特征,确定是否开启语音交互之后,还可以进一步判断第一唤醒阈值和第二唤醒阈值是否需要进行调整,若需要调整,则对第一唤醒阈值或第二唤醒阈值进行调整。具体地,可以判断第二唤醒阈值是否需要进行调整,可以先获取第一数值与第二数值之间的第一比值;其中,第一数值表征在唤醒置信度不小于第一唤醒阈值且小于第二唤醒阈值的情况下,确定开启语音交互的次数,即开启语音交互成功的次数;第二数值表征用户尝试语音唤醒的次数,即包括开启语音交互成功的次数和开启语音交互失败的次数。再基于第一比值与第一比例阈值之间的大小关系,确定是否调第二唤醒阈值,第一比值可以小于第一比例阈值,也可以不小于第一比例阈值。第一比例阈值可以设置为0.5、0.6等,第一比例阈值可以根据实际情况进行确定,在此不做具体限定。可以理解的是,若第一比值小于第一比例阈值时,表征通过声纹检测在降低误唤醒率的同时,提升唤醒准确性,而若第一比值不小于第一比例阈值时,即第一比值过大,则说明可能有某些客观原因造成大量本应直接进行语音交互,但是由于外界环境影响而又进行声纹检测的情况,例如,麦克风离得略远,而用户话音略小,或用户说话略急等,此时可以对第二唤醒阈值进行微调,进而提升唤醒准确性的同时提升唤醒速率。
35.进一步地,在对第二唤醒阈值进行调整过程中,可以先将第一数值个唤醒置信度聚类得到若干第一聚类集合,在此过程中,可以使用聚类方法对唤醒置信度进行聚类,聚类方法可以包括但不限于k-means(k均值)聚类、均值漂移聚类、基于密度的聚类方法、用高斯混合模型(gmm)的最大期望(em)聚类、凝聚层次聚类、图团体检测等等。再选取具有最大聚类中心的第一聚类集合,作为第一目标集合,并基于第一目标集合,调整第二唤醒阈值,具体地,可以将第一目标集合的聚类中心调整为新的第二唤醒阈值,或者,也可以将第二目标集合中最大唤醒置信度调整为第二唤醒阈值等。第二唤醒阈值的调整方式可以根据实际情
况进行选择,在此不做具体限定。上述方式,通过对第二唤醒阈值进行调整,有助于提升唤醒响应速度,同时提升唤醒准确性。
36.在另一个实施场景中,在基于从用户语音提取到的第一声纹特征和语音交互系统已经存储的若干第二声纹特征,确定是否开启语音交互之后,还可以判断第一唤醒阈值是否需要进行调整,可以先获取第三数值与第二数值之间的第二比值;其中,所述第三数值表征在所述唤醒置信度不小于所述第一唤醒阈值且小于所述第二唤醒阈值的情况下,确定不开启语音交互的次数,即开启语音交互失败的次数;所述第二数值表征用户尝试语音唤醒的次数,即包括开启语音交互成功的次数和开启语音交互失败的次数。再基于所述第二比值与第二比例阈值之间的大小关系,确定是否调整所述第一唤醒阈值,第二比值可以小于第二比例阈值,也可以不小于第二比例阈值。第二比例阈值可以设置为0.5、0.6等,第二比例阈值可以根据实际情况进行确定,在此不做具体限定。可以理解的是,若第二比值小于第二比例阈值时,表征通过声纹检测在降低误唤醒率的同时,提升唤醒准确性,而若第二比值不小于第二比例阈值时,即第二比值过大,则说明第一唤醒阈值可能设置地不合理,需要调整第一唤醒阈值,进而提升唤醒准确性的同时提升唤醒速率。
37.进一步地,在对第一唤醒阈值进行调整过程中,可以先将所述第三数值个所述唤醒置信度聚类得到若干第二聚类集合,聚类方式可以参照上述公开实施例中的方式,在此不再赘述。再选取具有最小聚类中心的第二聚类集合,作为第二目标集合,并基于所述第二目标集合,调整所述第一唤醒阈值,具体地,可以将第二目标集合的聚类中心调整为新的第一唤醒阈值,或者,将第一目标集合中最小唤醒置信度调整为第一唤醒阈值等。第一唤醒阈值的调整方式可以根据实际情况进行选择,在此不做具体限定。上述方式,通过对第一唤醒阈值进行调整,有助于提升唤醒响应速度,同时提升唤醒准确性。
38.上述方案,检测用户语音的唤醒置信度,并依次分析唤醒置信度分别与第一唤醒阈值、第二唤醒阈值之间的大小关系,且第一唤醒阈值小于第二唤醒阈值;响应于唤醒置信度不小于第二唤醒阈值,开启语音交互;响应于唤醒置信度不小于第一唤醒阈值且小于第二唤醒阈值,基于从用户语音提取到的第一声纹特征和语音交互系统已经存储的若干第二声纹特征,确定是否开启语音交互,一方面设置双唤醒阈值,通过差异性地唤醒阈值,进而确定是否开启语音交互,有助于降低语音误唤醒概率,另一方面在唤醒置信度不小于第一唤醒阈值且小于第二唤醒阈值,基于第一声纹特征和第二声纹特征,确定是否开启语音交互,有助于提升唤醒准确性,此外,在语音唤醒过程中,通过先进行唤醒阈值判断,再视情况进行声纹检测,进而确定是否开启语音交互,能够提升唤醒响应速度,同时提升唤醒准确性。
39.请参阅图2,图2是本技术语音唤醒方法另一实施例的流程示意图。
40.具体而言,可以包括如下步骤:
41.步骤s21:检测用户语音的唤醒置信度。
42.具体地,可以参照前述公开实施例中的检测方式,在此不再赘述。
43.步骤s22:判断唤醒置信度是否不小于第一唤醒阈值;若否,则执行步骤s23;否则,执行步骤s24。
44.在一个实施场景中,在检测得到用户语音的唤醒置信度之后,可以将唤醒置信度与第一唤醒阈值进行比较,进而确定是否开启语音交互。
45.步骤s23:不开启语音交互。
46.在一个实施场景中,当唤醒置信度小于第一唤醒阈值时,可以不响应用户语音,当然,也不会开启语音交互。
47.步骤s24:判断唤醒置信度是否不小于第二唤醒阈值;若是,则执行步骤s25;否则,执行步骤s26。
48.在一个实施场景中,当唤醒置信度不小于第一唤醒阈值时,还可以进一步判断唤醒置信度是否不小于第二唤醒阈值,进而确定是否开启语音交互,有助于降低误唤醒率,提升唤醒准确性。
49.步骤s25:开启语音交互。
50.步骤s26:获取第一声纹特征分别与各第二声纹特征之间的特征相似度。
51.在一个实施场景中,可以依次获取第一声纹特征与各第二声纹特征之间的特征相似度,也可以仅获取第一声纹特征与当前第二声纹特征之间的特征相似度。特征相似度的获取方式可以根据实际情况进行确定,在此不做具体限定。
52.步骤s27:判断特征相似度是否大于声纹阈值;若是,则执行步骤s28;否则,执行步骤s29。
53.在一个实施场景中,在获取第一声纹特征与若干第二声纹特征之间的特征相似度之后,可以判断是否存在至少一个特征相似度大于声纹阈值。或者,也可以在获取特征相似度之后,将特征相似度与声纹阈值进行比较。对特征相似度与声纹阈值大小关系的判断方式,可以根据实际情况进行选择,在此不做具体限定。
54.步骤s28:开启语音交互。
55.在一个实施场景中,若在获取一个特征相似度之后,将特征相似度与声纹阈值进行比较,且特征相似度大于声纹阈值,则无需获取第一声纹特征与其余第二声纹特征之间的特征相似度,直接开启语音交互。
56.步骤s29:不开启语音交互。
57.在一个实施场景中,若特征相似度不大于声纹阈值,则声纹检测中声纹权限不匹配,即第一声纹特征对应的用户无权开启语音交互。
58.上述方案,检测用户语音的唤醒置信度,并依次分析唤醒置信度分别与第一唤醒阈值、第二唤醒阈值之间的大小关系,且第一唤醒阈值小于第二唤醒阈值;响应于唤醒置信度不小于第二唤醒阈值,开启语音交互;响应于唤醒置信度不小于第一唤醒阈值且小于第二唤醒阈值,基于从用户语音提取到的第一声纹特征和语音交互系统已经存储的若干第二声纹特征,确定是否开启语音交互,一方面设置双唤醒阈值,通过差异性地唤醒阈值,进而确定是否开启语音交互,有助于降低语音误唤醒概率,另一方面在唤醒置信度不小于第一唤醒阈值且小于第二唤醒阈值,基于第一声纹特征和第二声纹特征,确定是否开启语音交互,有助于提升唤醒准确性,此外,在语音唤醒过程中,通过先进行唤醒阈值判断,再视情况进行声纹检测,进而确定是否开启语音交互,能够提升唤醒响应速度,同时提升唤醒准确性。
59.本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
60.请参阅图3,图3是本技术语音唤醒装置一实施例的框架示意图。语音唤醒装置30包括置信检测模块31、数值分析模块32、第一响应模块33和第二响应模块34。其中,置信检测模块31用于检测用户语音的唤醒置信度;数值分析模块32用于依次分析唤醒置信度分别与第一唤醒阈值、第二唤醒阈值之间的大小关系;其中,第一唤醒阈值小于第二唤醒阈值;第一响应模块33用于响应于唤醒置信度不小于第二唤醒阈值,开启语音交互;第二响应模块34用于响应于唤醒置信度不小于第一唤醒阈值且小于第二唤醒阈值,基于从用户语音提取到的第一声纹特征和语音交互系统已经存储的若干第二声纹特征,确定是否开启语音交互。
61.上述方案,一方面设置双唤醒阈值,通过差异性地唤醒阈值,进而确定是否开启语音交互,有助于降低语音误唤醒概率,另一方面在唤醒置信度不小于第一唤醒阈值且小于第二唤醒阈值,基于第一声纹特征和第二声纹特征,确定是否开启语音交互,有助于提升唤醒准确性,此外,在语音唤醒过程中,通过先进行唤醒阈值判断,再视情况进行声纹检测,进而确定是否开启语音交互,能够提升唤醒响应速度,同时提升唤醒准确性。
62.在一些公开实施例中,语音唤醒装置30包括第三响应模块,第三响应模块用于响应于唤醒置信度小于第一唤醒阈值,不开启语音交互。
63.在一些公开实施例中,第二响应模块34包括获取子模块,获取子模块用于获取第一声纹特征分别与若干第二声纹特征之间的特征相似度;第二响应模块34包括第一响应子模块,第一响应子模块用于响应于存在至少一个特征相似度大于声纹阈值,开启语音交互;第二响应模块34还包括第二响应子模块,第二响应子模块用于响应于各特征相似度均不大于声纹阈值,不开启语音交互。
64.因此,当唤醒置信度不小于第一唤醒阈值且小于第二唤醒阈值时,通过获取第一声纹特征与若干第二声纹特征之间的特征相似度,并将特征相似度与声纹阈值进行比较,进而确定是否开启语音交互,有助于降低语音误唤醒率,进一步提升唤醒准确性。
65.在一些公开实施例中,语音唤醒装置30包括第一获取模块,第一获取模块用于获取第一数值与第二数值之间的第一比值;其中,第一数值表征在唤醒置信度不小于第一唤醒阈值且小于第二唤醒阈值的情况下,确定开启语音交互的次数,第二数值表征用户尝试语音唤醒的次数;语音唤醒装置30还包括第一确定模块,第一确定模块用于基于第一比值与第一比例阈值之间的大小关系,确定是否调第二唤醒阈值。
66.因此,通过第一比值与第一比例阈值之间的大小关系,确定是否对第二唤醒阈值进行调整,进而避免由于外界环境影响而又进行声纹检测的情况,在降低误唤醒率的同时,提升唤醒准确性。
67.在一些公开实施例中,第一确定模块包括聚类子模块,聚类子模块用于将第一数值个唤醒置信度聚类得到若干第一聚类集合;第一确定模块包括选取子模块,选取子模块用于选取具有最大聚类中心的第一聚类集合,作为第一目标集合;第一确定模块还包括调整子模块,调整子模块用于基于第一目标集合,调整第二唤醒阈值。
68.因此,通过对第二唤醒阈值进行调整,有助于提升唤醒响应速度,同时提升唤醒准确性。
69.在一些公开实施例中,语音唤醒装置30包括第二获取模块,第二获取模块用于获取第三数值与第二数值之间的第二比值;其中,第三数值表征在唤醒置信度不小于第一唤
醒阈值且小于第二唤醒阈值的情况下,确定不开启语音交互的次数,第二数值表征用户尝试语音唤醒的次数;语音唤醒装置30还包括第二确定模块,第二确定模块用于基于第二比值与第二比例阈值之间的大小关系,确定是否调整第一唤醒阈值。
70.因此,通过第二比值与第二比例阈值之间的大小关系,确定是否对第一唤醒阈值进行调整,进而避免由于第一唤醒阈值设置不合理对唤醒响应速度的影响,在降低误唤醒率的同时,提升唤醒准确性。
71.在一些公开实施例中,第二确定模块包括聚类子模块,聚类子模块用于将第三数值个唤醒置信度聚类得到若干第二聚类集合;第二确定模块包括选取子模块,选取子模块用于选取具有最小聚类中心的第二聚类集合,作为第二目标集合;第二确定模块还包括调整子模块,调整子模块用于基于第二目标集合,调整第一唤醒阈值。
72.因此,通过对第一唤醒阈值进行调整,有助于提升唤醒响应速度,同时提升唤醒准确性。
73.请参阅图4,图4是本技术电子设备一实施例的框架示意图。电子设备40包括相互耦接的存储器41和处理器42,存储器41中存储有程序指令,处理器42用于执行程序指令以实现上述任一语音唤醒方法实施例中的步骤。具体地,电子设备40可以包括但不限于:台式计算机、笔记本电脑、服务器、手机、平板电脑等等,在此不做限定。此外,电子设备还可以包括麦克风,且麦克风与处理器42耦接,用于采集语音信号,麦克风可以是一个,也可以是多个。基于麦克风的指向性,麦克风可以包括但不限于:全指向麦克风、双指向型麦克风、心型指向麦克风、超心型指向麦克风、枪型指向麦克风等等。
74.具体而言,处理器42用于控制其自身以及存储器41以实现上述任一语音唤醒方法实施例中的步骤。处理器42还可以称为cpu(central processing unit,中央处理单元)。处理器42可能是一种集成电路芯片,具有信号的处理能力。处理器42还可以是通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器42可以由集成电路芯片共同实现。
75.上述方案,一方面设置双唤醒阈值,通过差异性地唤醒阈值,进而确定是否开启语音交互,有助于降低语音误唤醒概率,另一方面在唤醒置信度不小于第一唤醒阈值且小于第二唤醒阈值,基于第一声纹特征和第二声纹特征,确定是否开启语音交互,有助于提升唤醒准确性,此外,在语音唤醒过程中,通过先进行唤醒阈值判断,再视情况进行声纹检测,进而确定是否开启语音交互,能够提升唤醒响应速度,同时提升唤醒准确性。
76.请参阅图5,图5是本技术计算机可读存储介质一实施例的框架示意图。计算机可读存储介质50存储有能够被处理器运行的程序指令51,程序指令51用于实现上述任一语音唤醒方法实施例中的步骤。
77.上述方案,一方面设置双唤醒阈值,通过差异性地唤醒阈值,进而确定是否开启语音交互,有助于降低语音误唤醒概率,另一方面在唤醒置信度不小于第一唤醒阈值且小于第二唤醒阈值,基于第一声纹特征和第二声纹特征,确定是否开启语音交互,有助于提升唤醒准确性,此外,在语音唤醒过程中,通过先进行唤醒阈值判断,再视情况进行声纹检测,进
而确定是否开启语音交互,能够提升唤醒响应速度,同时提升唤醒准确性。
78.在一些实施例中,本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法,其具体实现可以参照上文方法实施例的描述,为了简洁,这里不再赘述。
79.上文对各个实施例的描述倾向于强调各个实施例之间的不同之处,其相同或相似之处可以互相参考,为了简洁,本文不再赘述。
80.在本技术所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。
81.作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
82.另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
83.集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本技术各个实施方式方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1