基于捂嘴动作识别的语音交互唤醒电子设备、方法和介质与流程

文档序号:18515365发布日期:2019-08-24 09:25阅读:262来源:国知局
基于捂嘴动作识别的语音交互唤醒电子设备、方法和介质与流程

本发明总的来说涉及智能电子便携设备的控制及交互方法。



背景技术:

随着计算机技术的发展,语音识别算法日益成熟,语音输入因其在交互方式上的高自然性与有效性而正变得越来越重要。用户可以通过语音与移动设备(手机、手表等)进行交互,完成指令输入、信息查询、语音聊天等多种任务。

随着计算机技术的发展,智能电子便携设备日益普及,用户可以通过控制指令控制智能设备,或通过语音,图像等不同模态向智能设备输入进行交互,完成指令输入、信息查询等多种任务。

而在何时触发控制指令及语音等模态的信息输入这一点上,现有的解决方案都有一些缺陷:

1.物理按键触发

按下(或按住)移动设备的某个(或某些)物理按键后,触发特定指令或激活语音等模态的信息输入。

该方案的缺点是:需要物理按键;容易误触发;需要用户按键。

2.界面元素触发

点击(或按住)移动设备的屏幕上的界面元素(如图标),触发指令或激活语音等模态的信息输入。

该方案的缺点是:需要设备具备屏幕;触发元素占用屏幕内容;受限于软件ui限制,可能导致触发方式繁琐;容易误触发。

3.唤醒词(语音)检测

对于语音输入的触发,可以以某个特定词语(如产品昵称)为唤醒词,设备检测到对应的唤醒词后激活语音输入。

该方案的缺点是:隐私性和社会性较差;交互效率较低;用户日常交流过程中内容包含唤醒词,会引起误触发等问题



技术实现要素:

鉴于上述情况,提出了本发明:

根据本发明的一个方面,提供了一种智能电子便携设备,包括传感器系统,能够捕捉到从其能判断用户的手放在用户嘴部做出捂嘴手势的信号,智能电子便携设备包括存储器和处理器,存储器上存储有计算机可执行指令,所述计算机可执行指令被处理器执行时可操作来执行如下交互方法:处理所述信号以确定用户是否将手放在嘴部做出捂嘴手势;响应于确定用户将手放在嘴边做出捂嘴手势,将捂嘴手势作为用户交互输入控制的方式,控制智能电子设备上的程序执行,包括触发相应的控制指令或者触发其他输入方式。

优选的,捂嘴手势区分使用左手做出和使用右手做出。

优选的,捂嘴手势区分手掌相对于嘴部的不同位置,包括手掌处于嘴部到左耳之间,手掌处于嘴部到右耳之间,手掌处于嘴部正前方。

优选的,捂嘴手势区分接触脸部与不接触脸部的手势类别。

优选的,所述捂嘴手势具体手型包括但不限于以下类别:

手掌遮挡住整个嘴部的捂嘴手势;

拇指贴在嘴边,食指贴在嘴唇上方,掌心以下露出嘴部的捂嘴手势;

拇指贴在下颌,食指贴在嘴唇上方,掌心以下露出嘴部的捂嘴手势;

拇指贴在嘴边,尾指接触下颌,掌心以上露出嘴部的捂嘴手势。

优选的,当智能电子设备识别捂嘴手势为预定类别时,执行特定的控制指令。

优选的,执行的控制指令为触发除捂嘴手势外的其它输入方式,即处理其它输入方式输入的信息。

优选的,所述其他输入方式包括语音输入、非捂嘴手势输入、视线输入、眨眼输入、头动输入之一或者其组合。

优选的,处理所述信号以检测用户是否去除捂嘴手势;响应于检测到用户去除捂嘴手势,智能电子设备结束所述交互过程。

优选的,提供包括视觉、听觉任一项反馈,提示用户智能电子设备已经触发其他输入方式。

优选的,触发的其他输入方式为语音输入,智能电子设备对用户在保持捂嘴手势同时进行的语音输入进行处理。

优选的,当所述用于识别捂嘴手势的信号包括用户的语音信号时,智能电子设备将该语音信号当作语音输入进行处理。

优选的,所述智能电子设备为手机,装备有双耳蓝牙耳机,有线耳机或者摄像头中的一种传感器。

优选的,所述智能电子设备为手表、智能戒指、腕表中的一种智能穿戴设备。

优选的,所述智能电子设备为头戴式智能显示设备,装备有麦克风或者多麦克风组。

优选的,所述传感器系统包括下述项目中的一项或者多项:摄像头;红外摄像头;深度摄像头;麦克风;双麦克风组;多麦克风组;接近传感器;以及加速度计。

优选的,所述传感器系统识别所用信号包括摄像头拍摄到的脸部图像。

优选的,在所述信号包括摄像头拍摄到的脸部图像时,在用户做出捂嘴手势后,识别用户的一类或者多类捂嘴手势。

优选的,所述智能电子设备为智能手机,所述摄像头包括智能手机的前置摄像头。

优选的,所述传感器系统识别所用信号的特征包括单麦克风接收到的声音信号的时域特征、频谱特征或声音信号的声源位置特征中的一种或者多种。

优选的,所述麦克风为手机上的麦克风和/或线控耳机上的麦克风。

优选的,所述传感器系统识别所用信号的特征包括多麦克风接收到的声音信号之间的差异特征。

优选的,传感设备是无线蓝牙耳机时,通过左右耳机的信号差异来识别捂嘴手势。

优选的,所述信号为智能戒指上的接近光传感器信号。

根据本发明的另一方面,提供了一种智能电子设备的交互方法,所述智能电子设备包括传感器系统,能够捕捉到用户单手在嘴边并做捂嘴手势的信号,所述智能电子设备执行的交互方法包括:处理所述信号以确定用户单手在嘴边做出捂嘴手势;响应于确定用户将手放在嘴边持续保持捂嘴手势,根据所做捂嘴手势类别、智能设备当前应用的交互内容、用户同时通过其它模态输入的信息,对于用户的交互意图进行解析;根据解析得到的交互意图,智能设备将对于用户的输入信息进行接收,分析及做出相应的内容输出;响应用户捂嘴手势后,在用户与智能设备交互情况下,处理所述信号以确定用户去除捂嘴手势;响应于确定用户去除捂嘴手势,结束所述交互过程。

优选的,内容输出形式包括语音、图像中一种或其组合。

优选的,用户的输入信息除了捂嘴手势本身,还包含用户的其他模态信息。

优选的,所述其他模态信息包括语音或眼神。

根据本发明的另一方面,提供了一种计算机可读介质,其上存储有计算机可执行指令,计算机可执行指令被计算机执行时能够执行前述的语音交互唤醒方法。

根据本发明实施例的技术方案具有以下优势中的一点或多点:

1.交互更加自然。用户做出捂嘴手势即可进行交互,符合用户习惯与认知。

2.使用效率更高。单手即可使用。用户无需操作设备或在不同的用户界面/应用之间切换,不需按住某个按键或者重复说出唤醒词,直接抬起手到嘴边就能使用。

3.高隐私性与社会性。做出捂嘴手势,用户进行语音输入对他人的干扰较小,同时具有较好的隐私保护,降低用户语音输入时的心理负担。

附图说明

从下面结合附图对本发明实施例的详细描述中,本发明的上述和/或其它目的、特征和优势将变得更加清楚并更容易理解。其中:

图1是根据本发明实施例的语音输入交互方法的示意性流程图。

图2是根据本发明实施例的触发姿势中的右手向左捂嘴的正面示意图。

图3是根据本发明实施例的触发姿势中的右手向左捂嘴的侧面示意图。

图4是根据本发明实施例的触发姿势中的四指不超出鼻子姿势的示意图。

图5是根据本发明实施例的触发姿势中的拇指抵于下巴姿势的示意图。

具体实施方式

为了使本领域技术人员更好地理解本发明,下面结合附图和具体实施方式对本发明作进一步详细说明。

首先,对本文中使用的术语进行说明。

摄像头,除非特别指明,本文中的摄像头指普通摄像头,而不包括红外摄像头。

图1是根据本发明实施例的智能电子设备通过识别用户捂嘴手势和去除捂嘴手势来开启和结束与用户交互的交互方法的示意性流程图。智能电子便携设备,包括传感器系统,能够捕捉到从其能判断用户的手放在用户嘴部做出捂嘴手势或去除捂嘴手势的信号。所述传感器系统包括下述项目中的一项或者多项:摄像头、红外摄像头、麦克风、双麦克风组、多麦克风组、接近传感器、加速度计。

这里的交互,可以包括但不限于:语音交互、眼神交互、手势交互等等。

需要说明的是,以语音交互为例,根据本发明实施例,从用户角度,为了进行语音交互,只需要将手放在嘴部做出捂嘴手势,并同时或接着进行语音输入即可,要想结束语音交互,则只需放下手不再捂嘴即可。

如图1所示,s101,处理所述信号以确定用户将手放在嘴部做出捂嘴手势。

作为示例,捂嘴手势区分使用左手做出和使用右手做出。

作为示例,捂嘴手势区分手掌相对于嘴部的不同位置,包括手掌处于嘴部到左耳之间,手掌处于嘴部到右耳之间,手掌处于嘴部正前方。

作为示例,捂嘴手势区分接触脸部与不接触脸部的手势类别。

具体地,捂嘴手势可以包括下面项目中的一个:

用户单手向左侧或者右侧捂嘴;

用户单手接触脸部捂嘴,遮挡住整个嘴部的捂嘴手势;

用户单手接触脸部捂嘴,拇指贴在嘴边,食指接触在嘴唇上方,掌心以下露出嘴部的捂嘴手势;

用户单手接触脸部捂嘴,拇指贴在嘴边,尾指接触下颌,掌心以上露出嘴部的捂嘴手势;

用户单手不接触脸部捂嘴,遮挡住整个嘴部的捂嘴手势;

用户单不手接触脸部捂嘴,拇指贴在嘴边,食指接触在嘴唇上方,掌心以下露出嘴部的捂嘴手势;

用户单手不接触脸部捂嘴,拇指贴在嘴边,尾指接触下颌,掌心以上露出嘴部的捂嘴手势。

图2至图5显示了几例用户将单手放在嘴边并做出捂嘴手势以触发信息输入的情况。其中,图2与图3分别是触发姿势中的左手向右捂嘴的正面与侧面示意图。在这种姿势下,用户将左手放在嘴部左边,伸展手指向左捂嘴,拇指保持向上,其余四指向左在嘴唇上方,鼻子下方位置,即嘴部的上方和左方被左手挡住。根据不同用户的使用习惯,除拇指外其他四指伸展位置可以不超过鼻子右边或者超出,拇指可位于脸侧面或者抵于下巴。图4与图5分别是四指不超出鼻子和拇指抵于下巴的姿势的示意图。与前述左手向右捂嘴姿势相类似,两种姿势拇指及其他四指的位置和伸展程度不同。上述对触发姿势的说明是示例性的,并非穷尽性的,并且也不限于所披露的各姿势。

在步骤s102中,响应于确定用户将手放在嘴边做出捂嘴手势,将捂嘴手势作为用户交互输入控制的方式,控制智能电子设备上的程序执行,包括触发相应的控制指令或者触发其他输入方式。例如,当智能电子设备为智能手机时,通过智能手机的前置摄像头检测到用户将手放在嘴边做出捂嘴手势,触发的控制指令为设置手机静音;另一种设计是当检测到用户将手放在嘴边做出捂嘴手势时,智能手机通过震动方式提示用户已经进入语音输入模式,用户可以通过说话来做语音输入。又例如,智能电子设备还可以为无线耳机,通过分析耳机上的麦克风信号的差异,确定用户将手放在嘴边做出捂嘴手势。

例如,响应于确定用户将手放在嘴边持续保持捂嘴手势,根据所做捂嘴手势类别、智能设备当前应用的交互内容、用户同时通过其它模态输入的信息,对于用户的交互意图进行解析。

换句话说,智能电子设备识别用户做的是哪种捂嘴手势,然后将该捂嘴手势对应到预定的用户意图(指令)(该对应关系可以是根据人类使用习惯来限定的),从而对该指令做出响应。

具体地,当智能电子设备识别捂嘴手势为预定类别时,执行特定的控制指令。

例如,当捂嘴手势为第一预定类别例如向左侧捂嘴的手势时,确定用户意图为语音输入,智能设备对用户在保持捂嘴手势同时进行的语音输入进行接收、分析及做出相应的内容输出。

例如,当捂嘴手势为第二预定类别例如向右侧捂嘴的手势时,确定用户意图为头动输入,智能设备对用户在保持捂嘴手势同时进行的头动输入进行接收、分析及做出相应的内容输出。

例如,当捂嘴手势为第三预定类别例如单手遮挡住整个嘴部的捂嘴手势时,确定用户意图对智能设备执行特定的控制指令,即智能设备识别用户保持捂嘴时,解析为特定的控制指令。

当捂嘴手势区分不同姿势时,比如左手捂嘴、右手捂嘴,确定用户意图对智能设备执行的不同控制指令,智能设备识别用户保持捂嘴时,根据捂嘴手势的不同类别解析为不同的控制指令。

优选地,当前应用不同时,捂嘴手势触发不同的控制指令或触发不同模态类型信息的输入。

优选地,当捂嘴手势区分不同姿势时,比如左手捂嘴、右手捂嘴,每一类手势在不同应用内,触发不同的控制指令或触发不同模态类型信息的输入。所述不同模态类型信息的输入或其他输入方式包括语音输入、非捂嘴手势输入、视线输入、眨眼输入、头动输入之一或者其组合。

作为示例,可以提供包括视觉、听觉任一项反馈,提示用户智能电子设备已经触发其他输入方式。

作为示例,触发的其他输入方式为语音输入,智能电子设备对用户在保持捂嘴手势同时进行的语音输入进行处理。进一步地,当所述用于识别捂嘴手势的信号包括用户的语音信号时,智能电子设备将该语音信号当作语音输入进行处理。

可选地,在响应用户捂嘴手势用户与智能设备交互的过程中,处理所述信号以检测用户是否做出去除捂嘴手势。

响应于检测到用户做出去除捂嘴手势,结束语音所述交互过程。

当用户将单手放在嘴边并做出捂嘴手势时,智能电子便携设备通过自身的各种传感器,检测和识别手的位置及姿势。

下面以某几种智能便携设备及传感器为例进行说明,其中判断用户做出捂嘴手势等同于用户需要触发信息输入。

第一实施例智能便携设备为手机,传感器系统包括摄像头情况

此时传感器系统识别所用信号包括摄像头拍摄到的脸部图像。在所述信号包括摄像头拍摄到的脸部图像时,在用户做出捂嘴手势后,识别用户的一类或者多类捂嘴手势。

例如,手机配置有前置摄像头,拍摄到用户单手遮挡在嘴边的图像,手机处理图像识别到用户在做单手捂嘴手势,该单手捂嘴手势可被解析为对手机的控制指令,如静音。

第二实施例智能便携设备为手机,传感器系统包括摄像头,在输入前进行语音提示情况

手机前置摄像头拍摄到用户遮挡在嘴边,判断用户在做单手捂嘴手势。该捂嘴手势可被解析为用户的语音输入意图。耳机(如果用户佩戴)或者手机发出提示音,提示用户可以进行语音输入,用户听到提示音后开始语音输入。

第三实施例智能便携设备为智能手表或智能戒指或腕表等中的一种智能穿戴设备,传感器系统包括接近传感器和麦克风情况

通过检测位于智能手表或戒指上的接近传感器和麦克风,当接近传感器检测结果为接近同时麦克风接收到语音信号时,判断用户可能在做单手捂嘴手势。

第四实施例智能便携设备为手机和/或线控耳机,传感器系统包括麦克风情况

通过分析线控麦克风录制的用户语音的特征,如鼻音、语气、音量等,当用户做单手捂嘴手势时,声音经过手的遮挡传入麦克风,声音特征与非遮挡情况在以上方面存在显著区别,可以判断用户是否在做单手捂嘴手势。

传感器系统识别所用信号的特征包括单麦克风接收到的声音信号的时域特征、频谱特征或声音信号的声源位置特征中的一种或者多种

第五实施例智能便携设备为手机和双蓝牙耳机,传感器系统包括位于双耳的双麦克风组

通过比较两个麦克风接收到的声音信号差异,以左手向右捂嘴为例,由于用户左手处在嘴和左耳之间,阻挡声音从嘴向位于左边的麦克风的传播路径,因此,声音信号传播到左侧和右侧的麦克风时,两侧接收到的声音信号在音量,不同频率能量分布上存在显著差异,可用来判断用户可能在做单手捂嘴手势。

第六实施例智能便携设备为头戴式显示设备,传感器系统包括多麦克风情况

用户佩戴头戴式显示设备,该设备上在不同位置配有多个麦克风,与第五实施例类似,可通过不同位置采集到的声音信号比较差异,来判断用户是否在做单手捂嘴手势。

第七实施例,使用多传感器信号的组合

用户佩戴智能手表或者戒指等位于手部附近的可穿戴设备,该可穿戴设备配有运动传感器及方向传感器,同时头部戴有智能显示设备或者耳机,该设备或者耳机配有方向传感器。通过分析位于手部的运动传感器信号,识别用户抬手动作,之后分析位于头部及手部的方向传感器信号,计算用户头、手方向关系,当头、手方向关系满足捂嘴手势要求时,比如手掌面与脸部表面基本平行时,激活语音交互。

第八实施例:捂嘴手势与其他模态输入相结合的交互

根据此实施例,除了使用捂嘴手势执行控制指令外还可结合其他模态信息来进行交互。其他模态信息可以包括:用户的语音、头动、眼动之一或者其组合。例如,检测到捂嘴手势之后,触发语音输入,用户通过语音直接控制智能电子设备。又例如,检测到捂嘴手势之后,激活头动输入,用户通过点头动作来做确认操作。如此,捂嘴手势可便捷准确的开启其他模态输入。

在所用信号包括摄像头拍摄到的脸部附近图像时,在用户做出捂嘴手势后,未进行其他模态输入前,通过图像处理识别特定捂嘴手势而识别出用户交互意图。

在一个示例中,在用户未进行其他模态输入前,提供包括视觉、听觉任一项的提示,以确认是否激活其他模态的输入。

第九实施例使用多传感器信号的组合

其中,智能电子便携设备可使用上述传感器,同时也可包括但不限于麦克风、双/多麦克风组、摄像头、接近传感器等。使用多个传感器信号的组合,可以使得是否激活语音输入的检测与判断的准确率和召回率更高。同时,对各种传感器信号的使用,可以使得本发明能更好地应用在各种智能电子便携设备上,适应更多的使用情况。

需要说明的是,所述传感器系统识别所用信号的特征包括麦克风接收到的声音信号的时域特征、频谱特征或声音信号的声源位置特征中的一种或者多种。

根据本发明的另一实施例,提供了一种智能电子设备的交互方法,所述智能电子设备包括传感器系统,能够捕捉到用户单手在嘴边并做捂嘴手势的信号,所述智能电子设备执行的交互方法包括:处理所述信号以确定用户单手在嘴边做出捂嘴手势;响应于确定用户将手放在嘴边持续保持捂嘴手势,根据所做捂嘴手势类别、智能设备当前应用的交互内容、用户同时通过其它模态输入的信息,对于用户的交互意图进行解析;根据解析得到的交互意图,智能设备将对于用户的输入信息进行接收,分析及做出相应的内容输出;响应用户捂嘴手势后,在用户与智能设备交互情况下,处理所述信号以确定用户去除捂嘴手势;响应于确定用户去除捂嘴手势,结束所述交互过程。

作为示例,内容输出形式可以包括语音、图像中一种或其组合。

用户的输入信息除了捂嘴手势本身,还可以包含用户的其他模态信息或者说其它输入信息。

作为示例,其他模态信息或其他输入信息可以包括语音输入、非捂嘴手势输入、视线输入、眨眼输入、头动输入等或这些的组合。

下面给出一个应用场景举例,以用户携带有智能手机同时佩戴双耳蓝牙耳机同时身处公共场合为例。用户希望通过语音输入查询当天的天气情况,使用本发明,用户将单手放在嘴边做出捂嘴手势,同时说出“今天的天气怎么样?”。通过上述方法智能手机识别到用户单手捂嘴手势及语音输入内容,可以通过耳机提供天气信息的内容输出。如此,用户无需接触手机,或通过手机的界面进行信息查询;无需说出特定唤醒词以唤醒语音交互;同时,捂嘴的手势降低语音输入对于周围他人的干扰,保护用户语音输入的隐私,符合用户日常语言交流的习惯和认知,简单自然。

总结起来,根据本发明实施例的技术方案具有下面优势中的一个或多个:

1.交互更加自然。用户做出捂嘴手势即可进行交互,符合用户习惯与认知。

2.使用效率更高。单手即可使用。用户无需操作设备或在不同的用户界面/应用之间切换,不需按住某个按键或者重复说出唤醒词,直接抬起手到嘴边就能使用。

3.高隐私性与社会性。做出捂嘴手势,用户进行语音输入对他人的干扰较小,同时具有较好的隐私保护,降低用户语音输入时的心理负担。

前面的传感器类型作为示例而非作为限制,概括而言,所述传感器系统包括下述项目中的一项或者多项:摄像头;红外摄像头;深度摄像头;麦克风;双麦克风组;多麦克风组;接近传感器;以及加速度计。

以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。因此,本发明的保护范围应该以权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1