本发明涉及与语言无关的唤醒词检测的技术。
背景技术:
1、系统可以是支持语音的,从而使得用户能够经由语音与系统进行交互,例如,通过使得用户能够说出命令来控制系统。接入(engaging)支持语音的系统常常需要用户向支持语音的系统发信号通知用户打算通过说话来与系统进行交互。例如,支持语音的系统可以被配置为在如下情况之后开始识别语音:提供手动触发(诸如推动按钮(例如,物理设备的按钮和/或语音识别软件应用的用户界面内的按钮))、应用的启动或与系统的其它手动交互以唤醒设备或者使系统意识到紧跟手动触发之后的语音是针对该系统的。然而,手动触发使得与支持语音的系统的交互变复杂,并且在一些情况下,可能不方便或不能使用(例如,当用户的手以其它方式占用时(诸如当操作车辆时),或当用户距离系统太远而无法手动地接入系统或其界面时)。
2、当移动设备在低功率模式下(例如,在睡眠、休眠或空闲模式下)工作时,接入话音响应系统所需要的动作通常变得甚至更加广泛。具体地,在可使用手动动作或显式话音触发来接入话音响应系统之前,用户需要首先唤醒移动设备本身。例如,用户可能必须按压按钮以开启显示器和/或启用一个或更多个处理器,可能必须操纵一个或更多个控件以使移动设备为使用做好准备,和/或可能必须在移动设备已在一定时段内不活动的情况下输入密码。为了解决手动触发的不便(以及经常造成的不适用性),一些支持语音的系统使得能够通过说出话音触发来开始接入系统,从而消除至少一些(若非全部的话)手动动作并且通常促进对支持语音的系统的免提访问。话音触发可以包括指定的词或短语(例如,“hellodragon”),该指定的词或短语由用户说出,以向支持语音的系统指示用户打算与系统进行交互(例如,以向系统发出一个或更多个命令)。
3、话音触发在本文中还被称为“唤醒词(wake-up word)”或“wuw”。在已经检测到唤醒词之后,系统开始识别由用户所说的后续语音。在大多数情况下,除非且直到系统检测到唤醒词为止,否则系统将假定从环境接收到的声学输入不是针对系统的或者并不意在供系统使用,并且不会进一步处理该声学输入。如果设备(例如,诸如智能电话的移动设备)在低功率模式下工作,则该设备将保持不活动,直到该设备检测到唤醒词为止。
技术实现思路
1、一些实施方式包括一种对用户设备进行训练的方法,所述方法包括以下步骤:接收用户用目标语言说出唤醒词的第一声学输入;将从所述第一声学输入获取的第一声学特征提供给存储在所述用户设备上的声学模型,以获得与由所述用户用所述目标语言说出的所述唤醒词相对应的第一语音单元序列,所述声学模型针对与所述目标语言不同的源语言的训练数据的语料库进行了训练;接收包括所述目标语言的所述唤醒词的第二声学输入;将从所述第二声学输入获取的第二声学特征提供给所述声学模型,以获得与所述目标语言的所述唤醒词相对应的第二语音单元序列;将所述第一语音单元序列与所述第二语音单元序列进行比较,以识别所述目标语言的所述唤醒词;以及基于比较结果,使用所述第一语音单元序列和所述第二语音单元序列来使所述声学模型适应所述用户。
2、一些实施方式包括一种用户设备,所述用户设备包括:一个或更多个麦克风;计算机可读介质;以及一个或更多个处理器,所述一个或更多个处理器被编程为:响应于经由所述一个或更多个麦克风接收到用户用目标语言说出唤醒词的第一声学输入,从所述第一声学输入获取第一声学特征并将所述第一声学特征提供给存储在所述计算机可读介质中的声学模型,以获得与由所述用户用所述目标语言说出的所述唤醒词相对应的第一语音单元序列,所述声学模型针对与所述目标语言不同的源语言的训练数据的语料库进行了训练;响应于在所述用户设备处于低功率模式时经由所述一个或更多个麦克风接收到包括所述目标语言的所述唤醒词的第二声学输入,从所述第二声学输入获取第二声学特征并将所述第二声学特征提供给所述声学模型,以获得与所述目标语言的所述唤醒词相对应的第二语音单元序列;将所述第一语音单元序列与所述第二语音单元序列进行比较,以识别所述目标语言的所述唤醒词;以及基于比较结果,使用所述第一语音单元序列和所述第二语音单元序列来使所述声学模型适应所述用户。
3、一些实施方式包括一种用于用户设备的方法,所述方法包括以下步骤:接收用户用目标语言说出唤醒词的登记话语;从所述登记话语获取登记声学特征;将所述登记声学特征提供给存储在所述用户设备上的声学模型,以获得与由所述用户用所述目标语言说出的所述唤醒词相对应的登记语音单元序列,所述声学模型针对与所述目标语言不同的源语言的训练数据的语料库进行了训练;接收包括所述目标语言的所述唤醒词的命令话语;从所述命令话语获取命令声学特征;将所述命令声学特征提供给所述声学模型,以获得与所述目标语言的所述唤醒词相对应的命令语音单元序列;将所述登记语音单元序列与所述命令语音单元序列进行比较,以识别所述目标语言的所述唤醒词;以及基于比较结果,使用所述登记语音单元序列和所述命令语音单元序列来使所述声学模型适应所述用户。
1.一种对用户设备进行训练的方法,所述方法包括以下步骤:
2.根据权利要求1所述的方法,所述方法还包括以下步骤:
3.根据权利要求1所述的方法,其中,所述第一声学输入包括第一噪声,所述方法还包括以下步骤:
4.根据权利要求3所述的方法,其中,所述第二声学输入包括与所述第一噪声不同类型的第二噪声。
5.根据权利要求1所述的方法,所述方法还包括以下步骤:
6.根据权利要求1所述的方法,其中,所述第二声学输入还包括命令并且是在所述用户设备处于低功率模式时被接收的,所述方法还包括以下步骤:
7.一种用户设备,所述用户设备包括:
8.根据权利要求7所述的用户设备,其中,所述一个或更多个处理器还被编程为:
9.根据权利要求7所述的用户设备,其中,所述第一声学输入包括第一噪声,所述一个或更多个处理器还被编程为:
10.根据权利要求9所述的用户设备,其中,所述第二声学输入包括与所述第一噪声不同类型的第二噪声。
11.根据权利要求7所述的用户设备,其中,所述一个或更多个处理器还被编程为:
12.根据权利要求7所述的用户设备,其中,所述第二声学输入还包括命令,所述一个或更多个处理器还被编程为:
13.一种用于用户设备的方法,所述方法包括以下步骤:
14.根据权利要求13所述的方法,所述方法还包括以下步骤:
15.根据权利要求13所述的方法,其中,所述登记话语包括第一噪声,所述方法还包括以下步骤:
16.根据权利要求15所述的方法,其中,所述命令话语包括与所述第一噪声不同类型的第二噪声。
17.根据权利要求13所述的方法,其中,所述命令话语还包括命令并且是在所述用户设备处于低功率模式时被接收的,所述方法还包括以下步骤:
18.根据权利要求13所述的方法,所述方法还包括以下步骤:
19.根据权利要求13所述的方法,所述方法还包括以下步骤:
20.根据权利要求13所述的方法,所述方法还包括以下步骤: