语音唤醒方法、系统、电子设备和存储介质与流程

文档序号:33017082发布日期:2023-01-20 16:46阅读:155来源:国知局
技术简介:
本发明针对多麦克风唤醒易误触发问题,提出半字唤醒模式与双引擎交叉验证方案。通过本地引擎识别部分唤醒词后,上传前后音频至云端或局域引擎二次校验,结合置信度阈值判断是否唤醒,有效降低误识别率,提升唤醒准确性和效率。
关键词:半字唤醒,多引擎验证

1.本发明涉及智能语音领域,尤其涉及一种语音唤醒方法、系统、电子设备和存储介质。


背景技术:

2.随着智能语音技术的发展,智能语音设备逐步进入用户家庭之中。用户在使用时,通过唤醒词触发智能语音设备的唤醒,来下达语音功能指令。为了识别环境中不同的声源,通常会为智能语音设备搭载多麦克的麦克风阵列。麦克风阵列会采集到多路音频,在唤醒词检测时,考虑到成本、启动效率等因素,通常多麦唤醒更多使用的是利用神经网络进行匹配音波,不会检测声音的识别,当出现例如电流声等外界情况会触发误唤醒。
3.在实现本发明过程中,发明人发现相关技术中至少存在如下问题:
4.为了防止误唤醒,通常会针对唤醒场景的神经网络模型进行更大规模的训练,或者是针对于特定的唤醒词进行定制化的神经网络模型的优化。然而,当前的唤醒神经网络模型已经优化到极限,以此再进行优化也难以取得更大的技术上的突破。


技术实现要素:

5.为了至少解决现有技术中多麦唤醒可能会触发误唤醒的问题。第一方面,本发明实施例提供一种语音唤醒方法,包括:
6.对实时采集的用户语音进行信号处理,确定出多路的第一波束形成音频;
7.利用第一唤醒引擎对所述第一波束形成音频进行实时唤醒识别,若识别到所述第一波束形成音频属于部分唤醒词时,触发半字唤醒模式,将所述半字唤醒模式之前用户语音的所述第一波束形成音频,以及在所述半字唤醒模式之后采集的用户语音实时信号处理确定的第二波束形成音频上传至第二唤醒引擎;
8.当所述用户语音停止输入时,利用第一唤醒引擎确定所述第一波束形成音频以及所述第二波束形成音频的唤醒置信度,若所述唤醒置信度没有达到预设唤醒阈值时,根据接收到所述第二唤醒引擎反馈的唤醒结果判断是否触发语音唤醒。
9.第二方面,本发明实施例提供一种语音唤醒系统,包括:
10.信号处理程序模块,用于对实时采集的用户语音进行信号处理,确定出多路的第一波束形成音频;
11.半字唤醒程序模块,用于利用第一唤醒引擎对所述第一波束形成音频进行实时唤醒识别,若识别到所述第一波束形成音频属于部分唤醒词时,触发半字唤醒模式,将所述半字唤醒模式之前用户语音的所述第一波束形成音频,以及在所述半字唤醒模式之后采集的用户语音实时信号处理确定的第二波束形成音频上传至第二唤醒引擎;
12.语音唤醒程序模块,用于当所述用户语音停止输入时,利用第一唤醒引擎确定所述第一波束形成音频以及所述第二波束形成音频的唤醒置信度,若所述唤醒置信度没有达到预设唤醒阈值时,根据接收到所述第二唤醒引擎反馈的唤醒结果判断是否触发语音唤
醒。
13.第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的语音唤醒方法的步骤。
14.第四方面,本发明实施例提供一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现本发明任一实施例的语音唤醒方法的步骤。
15.本发明实施例的有益效果在于:根据不同的场景结合不同功能的识别引擎交叉验证,可以将唤醒的误识别率大大降低,一定程度提升唤醒效率,并且可以满足不同场景下的唤醒需求。
附图说明
16.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
17.图1是本发明一实施例提供的一种语音唤醒方法的流程图;
18.图2是本发明一实施例提供的一种语音唤醒方法的二次校验流程图;
19.图3是本发明一实施例提供的一种语音唤醒系统的结构示意图;
20.图4为本发明一实施例提供的一种语音唤醒的电子设备的实施例的结构示意图。
具体实施方式
21.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
22.如图1所示为本发明一实施例提供的一种语音唤醒方法的流程图,包括如下步骤:
23.s11:对实时采集的用户语音进行信号处理,确定出多路的第一波束形成音频;
24.s12:利用第一唤醒引擎对所述第一波束形成音频进行实时唤醒识别,若识别到所述第一波束形成音频属于部分唤醒词时,触发半字唤醒模式,将所述半字唤醒模式之前用户语音的所述第一波束形成音频,以及在所述半字唤醒模式之后采集的用户语音实时信号处理确定的第二波束形成音频上传至第二唤醒引擎;
25.s13:当所述用户语音停止输入时,利用第一唤醒引擎确定所述第一波束形成音频以及所述第二波束形成音频的唤醒置信度,若所述唤醒置信度没有达到预设唤醒阈值时,根据接收到所述第二唤醒引擎反馈的唤醒结果判断是否触发语音唤醒。
26.在本实施方式中,可以将本方法适配在语音交互场景的智能语音设备,例如家庭场景的智能音响、智能电视机、智能遥控器等;例如也可以应用于会议场景的智能屏幕中;或者也可以应用于车辆驾驶场景的智能车机中。
27.以家庭场景为例,通常家庭场景中会有多个智能设备,例如智能音响、智能电视
机、智能遥控器等。本方法可以适用于单个智能设备,也可以适用于多个智能设备组合使用。
28.对于步骤s11,以单个智能设备为例(例如,为智能音响),智能音响为了能区分不同的声源方位,通常搭载麦克风阵列,来实时采集用户的语音,利用vad(voice activity detection,活动语音检测)确保用户一开口就可以及时采集到用户的语音。通过信号处理从采集到的用户语音分离出多路beamforming(波束形成)音频。其中,多路(多通道)波束音频相比于单通道语音可以有效的抑制干扰方向的信号,提高期望方向信号的信噪比,被用于办公会议拾音、iot智能设备远场交互、车载交互场景的远场语音通信和识别,进一步提高后续唤醒的准确率,进而边采集边确定出用户还未说完的第一波束形成音频。
29.对于步骤s12,根据智能设备的不同或智能设备的当前状态,第一唤醒引擎可以选择不同的引擎。还是继续以单个智能音响的使用为例,智能音响通常会内置本地唤醒引擎来实现一些基础的语音交互功能,此时第一唤醒引擎为本地唤醒引擎。
30.使用本地唤醒引擎对第一波束形成音频进行实时唤醒识别,如果识别到第一波束形成音频属于部分唤醒词时,触发半字唤醒模式,例如,智能音响的唤醒词为“你好小驰”,当用户说到“你好”的时候,就会触发半字唤醒,此时将触发半字唤醒模式之前缓存的多路波束音频(“你好”的音频)上传至第二唤醒引擎。同时,在触发半字唤醒模式之后,对采集的用户另一部分的语音实时信号处理确定的第二波束形成音频也要上传到第二唤醒引擎。
31.对于第二唤醒引擎的选择,通常在家庭环境中有着相对稳定的wifi,可以通过wifi与具有强大处理能力且识别准确的云端识别引擎相连接,来进行进一步的唤醒校验。
32.对于步骤s13,当用户语音停止输入时,例如用户说完“你好小驰”这几个字,此时,首先利用智能音箱内部的本地唤醒引擎对第一波束形成音频(“你好”的音频)以及第二波束形成音频(“小驰”的音频)进行唤醒置信度的确定。
33.例如在本地唤醒引擎的检测唤醒时可以使用唤醒词识别;考虑到识别效率,也可以使用匹配音波算法,但是对应的预设唤醒阈值设定得会相对较高,只要出现电流声或其他干扰音,确定的唤醒置信度都无法达到预设唤醒阈值。
34.作为一种实施方式,若根据本地唤醒引擎确定的唤醒置信度达到预设唤醒阈值时,及时触发语音唤醒,并取消对所述云端识别引擎或局域唤醒引擎的访问。
35.在本实施方式中,在本地唤醒引擎的唤醒校验中,只有未受到电流声或其他干扰音干扰,且音波高度匹配时才会认为唤醒是有效的。如果满足上述条件,认为当次的唤醒是有效的,这种情形下,及时触发语音唤醒,确保与用户的及时交互放在首位,同时后台不再需要云端识别引擎的唤醒结果,取消对云端识别引擎的访问(由于本地唤醒引擎在智能音箱本地且匹配速度相对高效,本地唤醒引擎会在云端识别引擎反馈识别结果前确定出第一次的唤醒结果)。
36.作为另一种实施方式,若根据本地唤醒引擎确定的唤醒置信度没有达到预设唤醒阈值时,等待所述云端识别引擎或局域唤醒引擎反馈唤醒结果,根据接收到的所述唤醒结果判断是否触发语音唤醒。
37.在本实施方式中,如果第一次的唤醒结果确定的唤醒置信度无法达到预设唤醒阈值,此时为了避免误唤醒,就需要等待云端识别引擎反馈的第二次唤醒判断的唤醒结果。由于云端识别引擎的唤醒结果相对准确,可以以云端识别引擎反馈的第二次唤醒判断的唤醒
结果来确定是否触发语音唤醒,如果云端识别引擎反馈的识别结果为当前的唤醒词,则认为当前唤醒是有效的,对外抛出唤醒状态。否则认为当次唤醒是“误唤醒”,取消当次唤醒,整体流程如图2所示。
38.在上述校验中,若用户准确的说出了唤醒词,且智能音箱未受到电流等干扰,智能音箱可以最高效的进行唤醒反馈。若用户说出了带有口音的唤醒词或智能音箱受到电流等干扰的场景,智能音箱在保持一定交互效率的情况下,有效的避免误唤醒,提升用户的使用体验。
39.本方法考虑到另外一些情况,例如,成本相对较低的智能遥控器、录音笔等,其由于成本、处理效率的限制,通常不具备本地唤醒引擎,接收到用户语音直接发送至云端识别引擎进行识别。然而,在家庭场景中,通常都不只有一台智能设备,例如,在客厅有智能遥控器,在卧室有智能音箱,此时客厅的智能遥控器和卧室的智能音箱构建局域组网。
40.智能遥控器可以将在客厅采集到的用户语音通过局域组网发送至智能音箱,让智能音箱的本地唤醒引擎来进行初步的唤醒校验。也就是说,当用户与智能遥控器交互,局域组网内智能音箱的本地唤醒引擎可以作为智能遥控器的局域唤醒引擎进行使用。
41.作为一种实施方式,当所述第一唤醒引擎为局域唤醒引擎,所述第二唤醒引擎为云端识别引擎时,所述利用第一唤醒引擎确定所述第一波束形成音频以及所述第二波束形成音频的唤醒置信度包括:
42.若根据局域唤醒引擎确定的唤醒置信度达到预设唤醒阈值时,触发语音唤醒,并取消对所述云端识别引擎的访问。
43.在本实施方式中,智能遥控器将实时采集到的用户语音,通过局域组网发送到了局域唤醒引擎进行实时唤醒识别,智能遥控器根据局域唤醒引擎确定出识别到第一波束形成音频属于部分唤醒词时,触发半字唤醒模式,将半字唤醒模式之前和半字唤醒模式之后的语音上传至云端识别引擎,语音传输具体不再赘述。
44.当用户语音停止输入时(也就是用户说完“你好小驰”时),利用局域唤醒引擎对第一波束形成音频以及所述第二波束形成音频的唤醒置信度,当唤醒置信度达到预设唤醒阈值时,触发语音唤醒,并取消对所述云端识别引擎的访问,也就是说,搭载本方法的不具备本地唤醒引擎的智能设备在用户准确的说出了唤醒词,且智能音箱未受到电流等干扰的情况下,相对于现有技术的云端识别,会更高效及时的对用户做出唤醒响应。也可以保证用户说出了带有口音的唤醒词或智能音箱受到电流等干扰的场景做出准确的唤醒响应。
45.本方法还考虑到其他一些情况,例如,互联网络无法使用,无法访问云端识别引擎。此时,一些智能设备就无法进行语音交互了。然而本方法考虑到家庭场景,家庭场景中会存在多个智能设备,然而这些智能设备有着性能上的差距。例如,客厅摆放着用户五年前买的甲厂家的智能音响a,甲厂家更注重音响的音色、音准的视听体验,音乐播放效果非常好,但智能交互功能仅仅维护了1年就停止了更新,唤醒准确率相对较差。卧室摆放着用户最新购买的乙厂家的智能音响b,乙厂家认为智能音箱是现代化智能居家物联网的核心,注重智能交互,内置有强大的本地唤醒引擎。通过将这两个智能设备进行局域组网。
46.智能音响a可以将在客厅采集到的用户语音先进行半字识别,触发半字唤醒模式后再将半字唤醒模式之前的第一波束形成音频和半字唤醒模式之后的第二波束形成音频发送至局域组网下的局域唤醒引擎(此时,智能音响b的本地唤醒引擎作为智能音响a的局
域唤醒引擎)。
47.若根据本地唤醒引擎确定的唤醒置信度达到预设唤醒阈值时,要注意的是预设唤醒阈值的设定还是相对较高,但只要出现电流声或其他干扰音,确定的唤醒置信度都无法达到预设唤醒阈值。如果达到预设唤醒阈值那么就认为当次的唤醒是有效的,这种情形下,不再需要局域唤醒引擎的唤醒识别结果。如果没有达到预设唤醒阈值,则根据局域唤醒引擎反馈的唤醒结果进行判断,结果为当前的唤醒词,则认为当前唤醒是有效的,对外抛出唤醒状态。否则认为当次唤醒是“误唤醒”,取消当次唤醒。
48.在局域组网中,通常会有多个智能设备,此时,用户可以指定优先选择某个智能设备的本地唤醒引擎作为其他智能设备的局域唤醒引擎,当用户购买性能更强的智能设备可以再进行适应调整。此时,使用本方法的智能设备在没有互联网的情况下,可以利用局域组网下的局域唤醒引擎得到相对准确的唤醒校验结果,结合不同功能的识别引擎交叉验证,可以将唤醒的误识别率大大降低,一定程度提升唤醒效率,并且可以满足不同场景下的唤醒需求。
49.如图3所示为本发明一实施例提供的一种语音唤醒系统的结构示意图,该系统可执行上述任意实施例所述的语音唤醒方法,并配置在终端中。
50.本实施例提供的一种语音唤醒系统10包括:信号处理程序模块11,半字唤醒程序模块12和语音唤醒程序模块13。
51.其中,信号处理程序模块11用于对实时采集的用户语音进行信号处理,确定出多路的第一波束形成音频;半字唤醒程序模块12用于利用第一唤醒引擎对所述第一波束形成音频进行实时唤醒识别,若识别到所述第一波束形成音频属于部分唤醒词时,触发半字唤醒模式,将所述半字唤醒模式之前用户语音的所述第一波束形成音频,以及在所述半字唤醒模式之后采集的用户语音实时信号处理确定的第二波束形成音频上传至第二唤醒引擎;语音唤醒程序模块13用于当所述用户语音停止输入时,利用第一唤醒引擎确定所述第一波束形成音频以及所述第二波束形成音频的唤醒置信度,若所述唤醒置信度没有达到预设唤醒阈值时,根据接收到所述第二唤醒引擎反馈的唤醒结果判断是否触发语音唤醒。
52.本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的语音唤醒方法;
53.作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
54.对实时采集的用户语音进行信号处理,确定出多路的第一波束形成音频;
55.利用第一唤醒引擎对所述第一波束形成音频进行实时唤醒识别,若识别到所述第一波束形成音频属于部分唤醒词时,触发半字唤醒模式,将所述半字唤醒模式之前用户语音的所述第一波束形成音频,以及在所述半字唤醒模式之后采集的用户语音实时信号处理确定的第二波束形成音频上传至第二唤醒引擎;
56.当所述用户语音停止输入时,利用第一唤醒引擎确定所述第一波束形成音频以及所述第二波束形成音频的唤醒置信度,若所述唤醒置信度没有达到预设唤醒阈值时,根据接收到所述第二唤醒引擎反馈的唤醒结果判断是否触发语音唤醒。
57.作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本发明实施例中的方法对应的程序指令/模块。一个或者
多个程序指令存储在非易失性计算机可读存储介质中,当被处理器执行时,执行上述任意方法实施例中的语音唤醒方法。
58.图4是本技术另一实施例提供的语音唤醒方法的电子设备的硬件结构示意图,如图4所示,该设备包括:
59.一个或多个处理器410以及存储器420,图4中以一个处理器410为例。语音唤醒方法的设备还可以包括:输入装置430和输出装置440。
60.处理器410、存储器420、输入装置430和输出装置440可以通过总线或者其他方式连接,图4中以通过总线连接为例。
61.存储器420作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本技术实施例中的语音唤醒方法对应的程序指令/模块。处理器410通过运行存储在存储器420中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例语音唤醒方法。
62.存储器420可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储数据等。此外,存储器420可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器420可选包括相对于处理器410远程设置的存储器,这些远程存储器可以通过网络连接至移动装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
63.输入装置430可接收输入的数字或字符信息。输出装置440可包括显示屏等显示设备。
64.所述一个或者多个模块存储在所述存储器420中,当被所述一个或者多个处理器410执行时,执行上述任意方法实施例中的语音唤醒方法。
65.上述产品可执行本技术实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本技术实施例所提供的方法。
66.非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据装置的使用所创建的数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
67.本发明实施例还提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的语音唤醒方法的步骤。
68.本技术实施例的电子设备以多种形式存在,包括但不限于:
69.(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机,以及低端手机等。
70.(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功
能,一般也具备移动上网特性。这类终端包括:pda、mid和umpc设备等,例如平板电脑。
71.(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器,掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
72.(4)其他具有数据处理功能的电子装置。
73.在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
74.以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
75.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
76.最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
当前第1页1 2 
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!