一种人机交互的方法及电子设备与流程

文档序号:31832946发布日期:2022-10-18 19:34阅读:225来源:国知局
一种人机交互的方法及电子设备与流程

1.本技术涉及电子技术领域,尤其涉及一种人机交互的方法及电子设备。


背景技术:

2.随着技术的发展,越来越多的电子设备支持“人机交互”,或者称为“语音交互”,人机交互逐渐成为用户传达意图以及控制电子设备的一种方式,人机交互主要通过用户的语音指令控制电子设备,从而解放用户的双手,方便用户操控电子设备。
3.在用户与电子设备进行人机交互之前,一般可以先通过“唤醒词”唤醒电子设备。当电子设备被唤醒后,可以为用户提供一个唤醒成功的响应,开始采集用户的语音指令并进行自动语音识别(automatic speech recognition,asr)。在电子设备被唤醒后的语音识别过程,如果获取的语音指令中包括唤醒词,该唤醒词可能会打断当前的人机交互过程,重新开始采集用户的语音指令并进行语音识别。该过程打断当前的人机交互可能并不是用户期望的,即唤醒词直接打断当前正在执行的任务,使得电子设备重新开始采集手机用户的语音指令,这样就会导致人机对话不连贯,影响了用户的使用进程,且降低了人机交互的体验。


技术实现要素:

4.本技术提供了一种人机交互的方法及电子设备,该电子设备可以包括手机、机器人、平板、电脑等具有语音识别功能的设备,该方法可以为用户提供一种连贯的沉浸式体验,提高了用户的视觉体验。
5.第一方面,提供了一种人机交互的方法,该方法包括:接收用户发出的唤醒词,响应于该唤醒词,开启电子设备的语音识别功能;获取该用户的第一语音指令,检测到该第一语音指令中包括该唤醒词时,确定该唤醒词在该第一语音指令对应时段内所占据的第一时段;去除该第一时段内的唤醒词,识别该第一语音指令中除了该唤醒词之外的目标语音指令;响应于该目标语音指令,进行应答。
6.一种可能的场景中,以用户通过唤醒词“小艺小艺”唤醒手机为例,手机被唤醒后,进入监听用于的语音指令的状态,如果用户发出的语音指令中再次包括唤醒词“小艺小艺”,该唤醒词可以打断当前的人机交互进程重新进入下一个人机交互进程,该过程可能并不是用户期望的,即唤醒词直接打断当前正在执行的任务,使得手机需要重新开始采集用户的语音指令,这样就会导致人机对话不连贯,影响了用户的使用进程,且降低了人机交互的体验。
7.通过上述方法,在用户和电子设备的语音交互过程中,用户通过唤醒词唤醒电子设备之后,如果用户发出的语音指令中再次包括唤醒词,该方法可以避免该语音指令中的唤醒词打断当前的交互流程,从而避免直接打断当前电子设备正在执行的任务,重新开始采集用户语音指令的过程,保证了人机对话的连贯性,提高了用户体验。
8.应理解,手机的自动语音识别(automatic speech recognition,asr)模块并不是
一直开启处于工作状态的,当用户发出语音指令的时候,手机的asr模块是关闭的;或者,当手机在回答用户的时候,asr模块是关闭的,避免采集了手机自己的语音,干扰用户语音指令的采集和识别。通过唤醒词,手机被唤醒后可以先检测asr模块是否处于开启状态,如果asr处于休眠或不工作的关闭状态,可以触发开启asr模块,即开启电子设备的语音识别功能。
9.可选地,当手机第一次获取并识别到唤醒词“小艺小艺”时,如果确定手机当前处于开启asr模块的状态,则可以忽略本次唤醒,继续当前的对话流程。
10.结合第一方面,在第一方面的某些实现方式中,第一时段是该第一语音指令对应时段的末尾时段、中间时段或起始时段。
11.手机被唤醒之后监测用户的第一语音指令,当检测到该第一语音指令中再次包括了该唤醒词“小艺小艺”时,可以先判断该唤醒词“小艺小艺”在该第一语音指令中的位置,该位置主要可以包括位于第一语音指令的首位、第一语音指令的中间、第一语音指令的末尾。示例性的,用户发出的第一语音指令在包括唤醒词的情况下,可能是“模仿牛的叫声,小艺小艺”(唤醒词位于第一语音指令的末尾)、“模仿动物叫声,小艺小艺,模仿牛的叫声(唤醒词位于第一语音指令的中间)”或者“小艺小艺,模仿牛的叫声”(唤醒词位于第一语音指令的首位)。
12.结合第一方面和上述实现方式,在第一方面的某些实现方式中,当该第一时段是该第一语音指令对应时段的末尾时段时,该方法还包括:检测该第一语音指令中与该唤醒词最接近的语音指令,到该唤醒词的时间间隔;当该时间间隔大于或等于第一预设值时,暂停当前的对话流程且响应于该唤醒词,重新开启该电子设备的语音识别功能,使得该电子设备获取第二语音指令。
13.应理解,该第一预设值可以用于判断当前用户是否希望中断该对话流程。示例性的,当用户发出的第一语音指令为:“模仿牛的叫声,小艺小艺”,唤醒词位于语音指令的末尾。唤醒词“小艺小艺”最接近的语音指令就是“模仿牛的叫声”,手机可以根据“模仿牛的叫声”和“小艺小艺”之间的时间间隔判断用户发出该唤醒词“小艺小艺”的母的。当“模仿牛的叫声”的“声”和“小艺小艺”的第一个“小”之间的时间间隔小于第一预设值时,可以判断用户可能仅仅把唤醒词“小艺小艺”作为口头禅一部分,希望继续当前的对话流程,不切换下一个新的对话流程。
14.可选地,手机可以根据该第一语音指令,记录唤醒词“小艺小艺”在该第一语音指令中的时间信息。本技术实施例对时间信息的记录和标示规则不作限定,示例性的,如果以最初唤醒词唤醒手机为起始时间,该唤醒词再次出现在第一语音指令中的时段为t
1-t2;如果以最初唤醒词唤醒手机为起始时间,该唤醒词再次出现在第一语音指令中的时段为t
1-t2,可以根据时间信息确定该唤醒词在第一语音指令中的位置。
15.第二方面,提供了一种人机交互的方法,该方法包括:获取用户的第一语音指令,根据该第一语音指令检测该第一语音指令的声源方向;确定该第一语音指令的声源方向与电子设备当前面向的第一视线方向之间的第一角度;当该第一角度大于或等于第一预设角度时,确定该第一语音指令的声源方向与第二语音指令的声源方向的第二角度,该第二语音指令是用户在该第一语音指令之前发出的且与该第一语音指令最接近的语音指令;当该第二角度小于或等于第二预设角度时,该电子设备响应于该第一语音指令,进行应答。
16.在另一种可能的场景中,有些电子设备可能具有声源定位的能力,或者具有摄像头的图像采集的功能,例如机器人等。当机器人被唤醒词唤醒后,可以根据声源定位功能确定用户所在方向,并转动具有图像采集功能的摄像头,直接转到根据声源定位的用户所在的方向或位置。在该过程中,用户所在方向可能会因为声音被墙壁反射等问题出现较大的判断误差,在出现这种较大的误差时,会出现设备转动后不是面对人的现象。
17.通过上述方法,使得机器人的唤醒过程更加符合人的预期,当用户的语音指令的声源方向与机器人当前面向的视线方向之间的夹角θ大于或等于第一预设角度且用户的交互意愿强烈时,机器人可以确定自动转向用户;当用户的语音指令的声源方向与机器人当前面向的视线方向之间的夹角θ大于或等于第一预设角度且用户的交互意愿较低时,机器人还可以转回来,且在该过程中不会中断用户和机器人的交互流程,带给用户更好的人机交互体验。
18.应理解,当该第一语音指令的声源方向与视线方向的之间的夹角θ大于或等于第一预设角度时,可以认为发出语音指令的用户和机器人并不是处于面对面的位置关系,或者说,发出语音指令的用户不在机器人采集图像的中心区域范围内,本技术实施例对中心区域对应的范围不作限定。
19.还应理解,这里“前一次语音指令”为第一语音指令之前的最接近的语音指令。可选地,该“前一次语音指令”可以是用户的唤醒词指令,例如:小艺小艺。或者该“前一次语音指令”是唤醒词之后的其他语音指令,例如:请模仿牛的叫声。本技术实施例对此不作限定。
20.结合第二方面,在第二方面的某些实现方式中,该方法还包括:检测该第一语音指令和该第二语音指令的时间间隔;当该时间间隔小于或等于第二预设值时,调用转向执行函数,转动该电子设备面向或无限接近与该第一语音指令的声源方向。
21.可选地,“第一语音指令的声源方向与前一次语音指令的声源方向之间的夹角大于或等于第二预设角度”和“两次语音指令的时间间隔大于或等于第二预设值”的显示条件可以满足任意一个,或者同时满足,调用转向执行函数,转换机器人方向。本技术实施例对此不作限定。
22.结合第二方面和上述实现方式,在第二方面的某些实现方式中,该方法还包括:采集该电子设备在该第一视线方向的第一图像;当该第一图像中包括该用户且该用户的视线方向和该第一语音指令的声源方向之间的第三角度小于或等于第三预设角度时,调用转向执行函数,转动该电子设备面向或无限接近该第一语音指令的声源方向。
23.可选地,机器人还可以通过摄像头采集图像,并检测采集的图像中用户的眼睛所注视的方向估计用户的交互意愿。
24.结合第二方面和上述实现方式,在第二方面的某些实现方式中,该方法还包括:该电子设备采集面向或无限接近该第一语音指令的声源方向上的第二图像;当该第二图像中不包括该用户或者该用户的视线方向和该电子设备当前的第二视线方向之间的第四角度大于第四预设角度时,转动该电子设备恢复至该第一视线方向。
25.综上所述,在用户和电子设备的语音交互过程中,用户通过唤醒词唤醒电子设备之后,如果用户发出的语音指令或者回复电子设备的答案中再次包括唤醒词,该方法可以避免该语音指令中的唤醒词打断当前的交互流程,从而避免直接打断当前电子设备正在执行的任务,重新开始采集用户语音指令的过程,保证了人机对话的连贯性,提高了用户体
验。
26.此外,对于具有声源定位的能力的机器人等电子设备,本技术实施例提供的方法可以根据语音指令的声源方向确定是否要发生偏转,并根据采集的图像等估计用户的交互意愿,进而更加精准的和用户进行语音交互。具体地,当用户的语音指令的声源方向与机器人当前面向的视线方向之间的夹角θ大于或等于第一预设角度且用户的交互意愿强烈时,机器人可以确定自动转向用户;当用户的语音指令的声源方向与机器人当前面向的视线方向之间的夹角θ大于或等于第一预设角度且用户的交互意愿较低时,机器人还可以转回来,且在该过程中不会中断用户和机器人的交互流程,带给用户更好的人机交互体验。
27.第三方面,提供了一种电子设备,包括:一个或多个处理器;一个或多个存储器;安装有多个应用程序的模块;该存储器存储有一个或多个程序,当该一个或者多个程序被该处理器执行时,使得该电子设备执行使得该电子设备执行以下步骤:接收用户发出的唤醒词,响应于该唤醒词,开启电子设备的语音识别功能;获取该用户的第一语音指令,检测到该第一语音指令中包括该唤醒词时,确定该唤醒词在该第一语音指令对应时段内所占据的第一时段;去除该第一时段内的唤醒词,识别该第一语音指令中除了该唤醒词之外的目标语音指令;响应于该目标语音指令,进行应答。
28.结合第三方面,在第三方面的某些实现方式中,第一时段是该第一语音指令对应时段的末尾时段、中间时段或起始时段。
29.结合第三方面和上述实现方式,在第三方面的某些实现方式中,当该第一时段是该第一语音指令对应时段的末尾时段时,该电子设备还可以执行以下步骤:检测该第一语音指令中与该唤醒词最接近的语音指令,到该唤醒词的时间间隔;当该时间间隔大于或等于第一预设值时,暂停当前的对话流程且响应于该唤醒词,重新开启该电子设备的语音识别功能,使得该电子设备获取第二语音指令。
30.第四方面,提供了一种电子设备,包括:摄像头;一个或多个处理器;一个或多个存储器;安装有多个应用程序的模块;该存储器存储有一个或多个程序,当该一个或者多个程序被该处理器执行时,使得该电子设备执行使得该电子设备执行以下步骤:获取用户的第一语音指令,根据该第一语音指令检测该第一语音指令的声源方向;确定该第一语音指令的声源方向与电子设备当前面向的第一视线方向之间的第一角度;当该第一角度大于或等于第一预设角度时,确定该第一语音指令的声源方向与第二语音指令的声源方向的第二角度,该第二语音指令是用户在该第一语音指令之前发出的且与该第一语音指令最接近的语音指令;当该第二角度小于或等于第二预设角度时,该电子设备响应于该第一语音指令,进行应答。
31.结合第四方面,在第四方面的某些实现方式中,当该一个或者多个程序被该处理器执行时,使得该电子设备执行使得该电子设备执行以下步骤:检测该第一语音指令和该第二语音指令的时间间隔;当该时间间隔小于或等于第二预设值时,调用转向执行函数,转动该电子设备面向或无限接近与该第一语音指令的声源方向。
32.结合第四方面和上述实现方式,在第四方面的某些实现方式中,当该一个或者多个程序被该处理器执行时,使得该电子设备执行使得该电子设备执行以下步骤:采集该电子设备在该第一视线方向的第一图像;当该第一图像中包括该用户且该用户的视线方向和该第一语音指令的声源方向之间的第三角度小于或等于第三预设角度时,调用转向执行函
数,转动该电子设备面向或无限接近该第一语音指令的声源方向。
33.结合第四方面和上述实现方式,在第四方面的某些实现方式中,当该一个或者多个程序被该处理器执行时,使得该电子设备执行使得该电子设备执行以下步骤:采集面向或无限接近该第一语音指令的声源方向上的第二图像;当该第二图像中不包括该用户或者该用户的视线方向和该电子设备当前的第二视线方向之间的第四角度大于第四预设角度时,转动该电子设备恢复至该第一视线方向。
34.第五方面,本技术提供了一种装置,该装置包含在电子设备中,该装置具有实现上述方面及上述方面的可能实现方式中电子设备行为的功能。功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块或单元。例如,显示模块或单元、检测模块或单元、处理模块或单元等。
35.第六方面,本技术提供了一种电子设备,包括:触摸显示屏,其中,触摸显示屏包括触敏表面和显示器;一个或多个音频设备;摄像头;一个或多个处理器;存储器;多个应用程序;以及一个或多个计算机程序。其中,一个或多个计算机程序被存储在存储器中,一个或多个计算机程序包括指令。当指令被电子设备执行时,使得电子设备执行上述任一方面任一项可能的实现中的人机交互的方法。
36.第七方面,本技术提供了一种电子设备,包括一个或多个处理器和一个或多个存储器。该一个或多个存储器与一个或多个处理器耦合,一个或多个存储器用于存储计算机程序代码,计算机程序代码包括计算机指令,当一个或多个处理器执行计算机指令时,使得电子设备执行上述任一方面任一项可能的实现中的人机交互的方法。
37.第八方面,本技术提供了一种计算机可读存储介质,包括计算机指令,当计算机指令在电子设备上运行时,使得电子设备执行上述任一方面任一项可能的人机交互的方法。
38.第九方面,本技术提供了一种计算机程序产品,当计算机程序产品在电子设备上运行时,使得电子设备执行上述任一方面任一项可能的人机交互的方法。
附图说明
39.图1是本技术实施例提供的一例电子设备的结构示意图。
40.图2是本技术实施例的电子设备的软件结构框图。
41.图3是一例人机交互过程的图形用户界面的示意图。
42.图4是本技术实施例提供的一例人机交互的方法的示意性流程图。
43.图5是本技术实施例提供的一例人机交互的场景示意图。
44.图6是本技术实施例提供的一例人机交互的方法的示意性流程图。
具体实施方式
45.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行描述。其中,在本技术实施例的描述中,除非另有说明,“/”表示或的意思,例如,a/b可以表示a或b;本文中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,在本技术实施例的描述中,“多个”是指两个或多于两个。
46.以下,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性
或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。
47.本技术实施例提供的人机交互的方法可以应用于手机、平板电脑、可穿戴设备、车载设备、增强现实(augmented reality,ar)/虚拟现实(virtual reality,vr)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,umpc)、上网本、个人数字助理(personal digital assistant,pda)等电子设备上,本技术实施例对电子设备的具体类型不作任何限制。
48.示例性的,图1是本技术实施例提供的一例电子设备的结构示意图。电子设备100可以包括处理器110,外部存储器接口120,内部存储器121,通用串行总线(universal serial bus,usb)接口130,充电管理模块140,电源管理模块141,电池142,天线1,天线2,移动通信模块150,无线通信模块160,音频模块170,扬声器170a,受话器170b,麦克风170c,耳机接口170d,传感器模块180,按键190,马达191,指示器192,摄像头193,显示屏194,以及用户标识模块(subscriber identification module,sim)卡接口195等。其中传感器模块180可以包括压力传感器180a,陀螺仪传感器180b,气压传感器180c,磁传感器180d,加速度传感器180e,距离传感器180f,接近光传感器180g,指纹传感器180h,温度传感器180j,触摸传感器180k,环境光传感器180l,骨传导传感器180m等。
49.可以理解的是,本技术实施例示意的结构并不构成对电子设备100的具体限定。在本技术另一些实施例中,电子设备100可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
50.处理器110可以包括一个或多个处理单元,例如:处理器110可以包括应用处理器(application processor,ap),调制解调处理器,图形处理器(graphics processing unit,gpu),图像信号处理器(image signal processor,isp),控制器,存储器,视频编解码器,数字信号处理器(digital signal processor,dsp),基带处理器,和/或神经网络处理器(neural-network processing unit,npu)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
51.其中,控制器可以是电子设备100的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
52.处理器110中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据,可从所述存储器中直接调用。避免了重复存取,减少了处理器110的等待时间,因而提高了系统的效率。
53.在一些实施例中,处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit,i2c)接口,集成电路内置音频(inter-integrated circuit sound,i2s)接口,脉冲编码调制(pulse code modulation,pcm)接口,通用异步收发传输器(universal asynchronous receiver/transmitter,uart)接口,移动产业处理器接口(mobile industry processor interface,mipi),通用输入输出(general-purpose input/output,gpio)接口,用户标识模块(subscriber identity module,sim)接口,和/或通用串行总线(universal serial bus,usb)接口等。
54.i2c接口是一种双向同步串行总线,包括一根串行数据线(serial data line,sda)和一根串行时钟线(derail clock line,scl)。在一些实施例中,处理器110可以包含多组i2c总线。处理器110可以通过不同的i2c总线接口分别耦合触摸传感器180k,充电器,闪光灯,摄像头193等。例如:处理器110可以通过i2c接口耦合触摸传感器180k,使处理器110与触摸传感器180k通过i2c总线接口通信,实现电子设备100的触摸功能。
55.i2s接口可以用于音频通信。在一些实施例中,处理器110可以包含多组i2s总线。处理器110可以通过i2s总线与音频模块170耦合,实现处理器110与音频模块170之间的通信。在一些实施例中,音频模块170可以通过i2s接口向无线通信模块160传递音频信号,实现通过蓝牙耳机接听电话的功能。
56.pcm接口也可以用于音频通信,将模拟信号抽样,量化和编码。在一些实施例中,音频模块170与无线通信模块160可以通过pcm总线接口耦合。在一些实施例中,音频模块170也可以通过pcm接口向无线通信模块160传递音频信号,实现通过蓝牙耳机接听电话的功能。所述i2s接口和所述pcm接口都可以用于音频通信。
57.uart接口是一种通用串行数据总线,用于异步通信。该总线可以为双向通信总线。它将要传输的数据在串行通信与并行通信之间转换。在一些实施例中,uart接口通常被用于连接处理器110与无线通信模块160。例如:处理器110通过uart接口与无线通信模块160中的蓝牙模块通信,实现蓝牙功能。在一些实施例中,音频模块170可以通过uart接口向无线通信模块160传递音频信号,实现通过蓝牙耳机播放音乐的功能。
58.mipi接口可以被用于连接处理器110与显示屏194,摄像头193等外围器件。mipi接口包括摄像头串行接口(camera serial interface,csi),显示屏串行接口(display serial interface,dsi)等。在一些实施例中,处理器110和摄像头193通过csi接口通信,实现电子设备100的拍摄功能。处理器110和显示屏194通过dsi接口通信,实现电子设备100的显示功能。
59.gpio接口可以通过软件配置。gpio接口可以被配置为控制信号,也可被配置为数据信号。在一些实施例中,gpio接口可以用于连接处理器110与摄像头193,显示屏194,无线通信模块160,音频模块170,传感器模块180等。gpio接口还可以被配置为i2c接口,i2s接口,uart接口,mipi接口等。
60.usb接口130是符合usb标准规范的接口,具体可以是mini usb接口,micro usb接口,usb type c接口等。usb接口130可以用于连接充电器为电子设备100充电,也可以用于电子设备100与外围设备之间传输数据。也可以用于连接耳机,通过耳机播放音频。该接口还可以用于连接其他电子设备,例如ar设备等。
61.可以理解的是,本技术实施例示意的各模块间的接口连接关系,只是示意性说明,并不构成对电子设备100的结构限定。在本技术另一些实施例中,电子设备100也可以采用上述实施例中不同的接口连接方式,或多种接口连接方式的组合。
62.充电管理模块140用于从充电器接收充电输入。其中,充电器可以是无线充电器,也可以是有线充电器。在一些有线充电的实施例中,充电管理模块140可以通过usb接口130接收有线充电器的充电输入。在一些无线充电的实施例中,充电管理模块140可以通过电子设备100的无线充电线圈接收无线充电输入。充电管理模块140为电池142充电的同时,还可以通过电源管理模块141为电子设备供电。
scdma),长期演进(long term evolution,lte),bt,gnss,wlan,nfc,fm,和/或ir技术等。所述gnss可以包括全球卫星定位系统(global positioning system,gps),全球导航卫星系统(global navigation satellite system,glonass),北斗卫星导航系统(beidou navigation satellite system,bds),准天顶卫星系统(quasi-zenith satellite system,qzss)和/或星基增强系统(satellite based augmentation systems,sbas)。
70.电子设备100通过gpu,显示屏194,以及应用处理器等实现显示功能。gpu为图像处理的微处理器,连接显示屏194和应用处理器。gpu用于执行数学和几何计算,用于图形渲染。处理器110可包括一个或多个gpu,其执行程序指令以生成或改变显示信息。
71.显示屏194用于显示图像,视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display,lcd),有机发光二极管(organic light-emitting diode,oled),有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrix organic light emitting diode的,amoled),柔性发光二极管(flex light-emitting diode,fled),miniled,microled,micro-oled,量子点发光二极管(quantum dot light emitting diodes,qled)等。在一些实施例中,电子设备100可以包括1个或n个显示屏194,n为大于1的正整数。
72.电子设备100可以通过isp,摄像头193,视频编解码器,gpu,显示屏194以及应用处理器等实现拍摄功能。
73.isp用于处理摄像头193反馈的数据。例如,拍照时,打开快门,光线通过镜头被传递到摄像头感光元件上,光信号转换为电信号,摄像头感光元件将所述电信号传递给isp处理,转化为肉眼可见的图像。isp还可以对图像的噪点,亮度,肤色进行算法优化。isp还可以对拍摄场景的曝光,色温等参数优化。在一些实施例中,isp可以设置在摄像头193中。
74.摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device,ccd)或互补金属氧化物半导体(complementary metal-oxide-semiconductor,cmos)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给isp转换成数字图像信号。isp将数字图像信号输出到dsp加工处理。dsp将数字图像信号转换成标准的rgb,yuv等格式的图像信号。在一些实施例中,电子设备100可以包括1个或n个摄像头193,n为大于1的正整数。
75.数字信号处理器用于处理数字信号,除了可以处理数字图像信号,还可以处理其他数字信号。例如,当电子设备100在频点选择时,数字信号处理器用于对频点能量进行傅里叶变换等。
76.视频编解码器用于对数字视频压缩或解压缩。电子设备100可以支持一种或多种视频编解码器。这样,电子设备100可以播放或录制多种编码格式的视频,例如:动态图像专家组(moving picture experts group,mpeg)1,mpeg2,mpeg3,mpeg4等。
77.npu为神经网络(neural-network,nn)计算处理器,通过借鉴生物神经网络结构,例如借鉴人脑神经元之间传递模式,对输入信息快速处理,还可以不断的自学习。通过npu可以实现电子设备100的智能认知等应用,例如:图像识别,人脸识别,语音识别,文本理解等。
78.外部存储器接口120可以用于连接外部存储卡,例如micro sd卡,实现扩展电子设备100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信,实现数据存储功
能。例如将音乐,视频等文件保存在外部存储卡中。
79.内部存储器121可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令,从而执行电子设备100的各种功能应用以及数据处理。内部存储器121可以包括存储程序区和存储数据区。其中,存储程序区可存储操作系统,至少一个功能所需的应用程序(比如声音播放功能,图像播放功能等)等。存储数据区可存储电子设备100使用过程中所创建的数据(比如音频数据,电话本等)等。此外,内部存储器121可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,通用闪存存储器(universal flash storage,ufs)等。
80.电子设备100可以通过音频模块170,扬声器170a,受话器170b,麦克风170c,耳机接口170d,以及应用处理器等实现音频功能。例如音乐播放,录音等。
81.音频模块170用于将数字音频信息转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中,音频模块170可以设置于处理器110中,或将音频模块170的部分功能模块设置于处理器110中。
82.扬声器170a,也称“喇叭”,用于将音频电信号转换为声音信号。电子设备100可以通过扬声器170a收听音乐,或收听免提通话。
83.受话器170b,也称“听筒”,用于将音频电信号转换成声音信号。当电子设备100接听电话或语音信息时,可以通过将受话器170b靠近人耳接听语音。
84.麦克风170c,也称“话筒”,“传声器”,用于将声音信号转换为电信号。当拨打电话或发送语音信息时,用户可以通过人嘴靠近麦克风170c发声,将声音信号输入到麦克风170c。电子设备100可以设置至少一个麦克风170c。在另一些实施例中,电子设备100可以设置两个麦克风170c,除了采集声音信号,还可以实现降噪功能。在另一些实施例中,电子设备100还可以设置三个,四个或更多麦克风170c,实现采集声音信号,降噪,还可以识别声音来源,实现定向录音功能等。
85.耳机接口170d用于连接有线耳机。耳机接口170d可以是usb接口130,也可以是3.5mm的开放移动电子设备平台(open mobile terminal platform,omtp)标准接口,美国蜂窝电信工业协会(cellular telecommunications industry association of the usa,ctia)标准接口。
86.压力传感器180a用于感受压力信号,可以将压力信号转换成电信号。在一些实施例中,压力传感器180a可以设置于显示屏194。压力传感器180a的种类很多,如电阻式压力传感器,电感式压力传感器,电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器180a,电极之间的电容改变。电子设备100根据电容的变化确定压力的强度。当有触摸操作作用于显示屏194,电子设备100根据压力传感器180a检测所述触摸操作强度。电子设备100也可以根据压力传感器180a的检测信号计算触摸的位置。在一些实施例中,作用于相同触摸位置,但不同触摸操作强度的触摸操作,可以对应不同的操作指令。例如:当有触摸操作强度小于第一压力阈值的触摸操作作用于短消息应用图标时,执行查看短消息的指令。当有触摸操作强度大于或等于第一压力阈值的触摸操作作用于短消息应用图标时,执行新建短消息的指令。
87.陀螺仪传感器180b可以用于确定电子设备100的运动姿态。在一些实施例中,可以
通过陀螺仪传感器180b确定电子设备100围绕三个轴(即,x,y和z轴)的角速度。陀螺仪传感器180b可以用于拍摄防抖。示例性的,当按下快门,陀螺仪传感器180b检测电子设备100抖动的角度,根据角度计算出镜头模组需要补偿的距离,让镜头通过反向运动抵消电子设备100的抖动,实现防抖。陀螺仪传感器180b还可以用于导航,体感游戏场景。
88.气压传感器180c用于测量气压。在一些实施例中,电子设备100通过气压传感器180c测得的气压值计算海拔高度,辅助定位和导航。
89.磁传感器180d包括霍尔传感器。电子设备100可以利用磁传感器180d检测翻盖皮套的开合。在一些实施例中,当电子设备100是翻盖机时,电子设备100可以根据磁传感器180d检测翻盖的开合。进而根据检测到的皮套的开合状态或翻盖的开合状态,设置翻盖自动解锁等特性。
90.加速度传感器180e可检测电子设备100在各个方向上(一般为三轴)加速度的大小。当电子设备100静止时可检测出重力的大小及方向。还可以用于识别电子设备姿态,应用于横竖屏切换,计步器等应用。
91.距离传感器180f,用于测量距离。电子设备100可以通过红外或激光测量距离。在一些实施例中,拍摄场景,电子设备100可以利用距离传感器180f测距以实现快速对焦。
92.接近光传感器180g可以包括例如发光二极管(led)和光检测器,例如光电二极管。发光二极管可以是红外发光二极管。电子设备100通过发光二极管向外发射红外光。电子设备100使用光电二极管检测来自附近物体的红外反射光。当检测到充分的反射光时,可以确定电子设备100附近有物体。当检测到不充分的反射光时,电子设备100可以确定电子设备100附近没有物体。电子设备100可以利用接近光传感器180g检测用户手持电子设备100贴近耳朵通话,以便自动熄灭屏幕达到省电的目的。接近光传感器180g也可用于皮套模式,口袋模式自动解锁与锁屏。
93.环境光传感器180l用于感知环境光亮度。电子设备100可以根据感知的环境光亮度自适应调节显示屏194亮度。环境光传感器180l也可用于拍照时自动调节白平衡。环境光传感器180l还可以与接近光传感器180g配合,检测电子设备100是否在口袋里,以防误触。
94.指纹传感器180h用于采集指纹。电子设备100可以利用采集的指纹特性实现指纹解锁,访问应用锁,指纹拍照,指纹接听来电等。
95.温度传感器180j用于检测温度。在一些实施例中,电子设备100利用温度传感器180j检测的温度,执行温度处理策略。例如,当温度传感器180j上报的温度超过阈值,电子设备100执行降低位于温度传感器180j附近的处理器的性能,以便降低功耗实施热保护。在另一些实施例中,当温度低于另一阈值时,电子设备100对电池142加热,以避免低温导致电子设备100异常关机。在其他一些实施例中,当温度低于又一阈值时,电子设备100对电池142的输出电压执行升压,以避免低温导致的异常关机。
96.触摸传感器180k,也称“触控面板”。触摸传感器180k可以设置于显示屏194,由触摸传感器180k与显示屏194组成触摸屏,也称“触控屏”。触摸传感器180k用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器,以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中,触摸传感器180k也可以设置于电子设备100的表面,与显示屏194所处的位置不同。
97.骨传导传感器180m可以获取振动信号。在一些实施例中,骨传导传感器180m可以
获取人体声部振动骨块的振动信号。骨传导传感器180m也可以接触人体脉搏,接收血压跳动信号。在一些实施例中,骨传导传感器180m也可以设置于耳机中,结合成骨传导耳机。音频模块170可以基于所述骨传导传感器180m获取的声部振动骨块的振动信号,解析出语音信号,实现语音功能。应用处理器可以基于所述骨传导传感器180m获取的血压跳动信号解析心率信息,实现心率检测功能。
98.按键190包括开机键,音量键等。按键190可以是机械按键。也可以是触摸式按键。电子设备100可以接收按键输入,产生与电子设备100的用户设置以及功能控制有关的键信号输入。
99.马达191可以产生振动提示。马达191可以用于来电振动提示,也可以用于触摸振动反馈。例如,作用于不同应用(例如拍照,音频播放等)的触摸操作,可以对应不同的振动反馈效果。作用于显示屏194不同区域的触摸操作,马达191也可对应不同的振动反馈效果。不同的应用场景(例如:时间提醒,接收信息,闹钟,游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。
100.指示器192可以是指示灯,可以用于指示充电状态,电量变化,也可以用于指示消息,未接来电,通知等。
101.sim卡接口195用于连接sim卡。sim卡可以通过插入sim卡接口195,或从sim卡接口195拔出,实现和电子设备100的接触和分离。电子设备100可以支持1个或n个sim卡接口,n为大于1的正整数。sim卡接口195可以支持nano sim卡,micro sim卡,sim卡等。同一个sim卡接口195可以同时插入多张卡。所述多张卡的类型可以相同,也可以不同。sim卡接口195也可以兼容不同类型的sim卡。sim卡接口195也可以兼容外部存储卡。电子设备100通过sim卡和网络交互,实现通话以及数据通信等功能。在一些实施例中,电子设备100采用esim,即:嵌入式sim卡。esim卡可以嵌在电子设备100中,不能和电子设备100分离。
102.电子设备100的软件系统可以采用分层架构,事件驱动架构,微核架构,微服务架构,或云架构。本技术实施例以分层架构的系统为例,示例性说明电子设备100的软件结构。
103.图2是本技术实施例的电子设备100的软件结构框图。分层架构将软件分成若干个层,每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中,将系统分为四层,从上至下分别为应用程序层,应用程序框架层,安卓运行时(runtime)和系统库,以及内核层。应用程序层可以包括一系列应用程序包。
104.如图2所示,应用程序包可以包括相机,图库,日历,通话,地图,导航,wlan,蓝牙,音乐,视频,短信息等应用程序。
105.应用程序框架层为应用程序层的应用程序提供应用编程接口(application programming interface,api)和编程框架。应用程序框架层包括一些预先定义的函数。
106.如图2所示,应用程序框架层可以包括窗口管理器,内容提供器,视图系统,电话管理器,资源管理器,通知管理器等。
107.窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小,判断屏幕是否有状态栏,或者参与执行锁定屏幕,截取屏幕等操作。
108.内容提供器用来存放和获取数据,并使这些数据可以被应用程序访问。存放的数据可以包括视频数据、图像数据、音频数据等,还可以包括拨打和接听的通话记录数据,用
户的浏览历史和书签等数据,此处不再赘述。
109.视图系统包括可视控件,例如显示文字的控件,显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如,包括短信通知图标的显示界面,可以包括显示文字的视图以及显示图片的视图。
110.电话管理器用于提供电子设备100的通信功能。例如通话状态的管理(包括电话的接通、挂断等)。
111.资源管理器为应用程序提供各种资源,比如本地化字符串、图标、图片、布局文件、视频文件等等。
112.通知管理器使应用程序可以在屏幕的状态栏中显示通知信息,可以用于向用户传达消息,该通知信息可以在状态栏短暂停留后自动消失,无需用户执行关闭操作等交互过程。比如通知管理器可以告知用户下载完成等消息。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知,例如后台运行的应用程序的通知;或者,通知管理器还可以是以对话窗口形式出现在屏幕上的通知,例如在状态栏提示文本信息等;又或者,通知管理器还可以控制电子设备发出提示音,电子设备的振动,电子设备的指示灯闪烁等,此处不再赘述。
113.runtime包括核心库和虚拟机。runtime负责安卓系统的调度和管理。
114.核心库包含两部分:一部分是java语言需要调用的功能函数,另一部分是安卓的核心库。
115.应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象的生命周期管理、堆栈管理、线程管理、安全和异常的管理、以及垃圾回收等功能。
116.系统库可以包括多个功能模块。例如:表面管理器(surface manager),媒体库(media libraries),三维(three dimensional,3d)图形处理库(例如:opengl es),二维(two dimensional,2d)图形引擎等。
117.表面管理器用于对电子设备的显示子系统进行管理,并且为多个应用程序提供了2d和3d图层的融合。
118.媒体库支持多种常用的音频,视频格式回放和录制,以及静态图像文件等。媒体库可以支持多种音视频编码格式,例如:mpeg4,h.264,mp3,aac,amr,jpg,png等。
119.三维图形处理库用于实现三维图形绘图,图像渲染,合成,和图层处理等。
120.二维图形引擎是二维绘图的绘图引擎。
121.内核层是硬件和软件之间的层。内核层至少包含显示驱动,摄像头驱动,音频驱动,传感器驱动。
122.为了便于理解,本技术以下实施例将以具有图1和图2所示结构的电子设备为例,结合附图和应用场景,对本技术实施例提供的人机交互的方法进行具体阐述。
123.首先,在介绍本技术实施例将提供的人机交互的方法之前,先列举几种可能的应用场景。
124.一种可能的场景中,本技术实施例提供的人机交互的方法可以应用于包括单独的电子设备的场景中。示例性的,该电子设备可以是前述结合图1所示的结构介绍的手机、平
板、智慧屏等不同的电子设备,本技术实施例对此不作限定。下面将以手机为例,详细介绍本技术提供的显示人机交互指令的提示的方法。
125.图3是一例人机交互过程的图形用户界面(graphical user interface,gui)的示意图,其中,图3中的(a)图示出了手机的解锁模式下,手机的屏幕显示系统显示了当前输出的界面内容301,该界面内容301为手机的主界面。该界面内容301显示了多款应用程序(application,app),例如邮件、计算器、设置和音乐等。应理解,界面内容301还可以包括其他更多的应用程序,本技术对此不作限定。
126.一种可能的实现方式中,在语音助手的使用过程中,用户可以通过设置应用开启手机的智慧语音的功能。示例性的,如图3中的(a)图所示,用户可以点击设置应用的图标,响应于用户的点击操作,手机显示如图3中的(b)图所示设置应用的主界面302。该设置应用的主界面302上可以包括多项菜单,例如wlan、蓝牙、桌面与壁纸、显示与亮度、声音和智慧助手等菜单。用户可以点击界面302上的智慧助手菜单,响应于用户的点击操作,手机显示如图3中的(c)图所示智慧助手界面303,该智慧助手界面303上包括智慧语音、智慧视觉、智慧识屏、情景智能、智慧搜索等选项,此外,该智慧助手界面303上还显示了唤醒词“小艺小艺”,该唤醒词“小艺小艺”可以用于用户唤醒该手机,使得手机进入监听且采集用户的语音指令的状态。
127.如图3中的(c)图所示,用户点击该智慧助手界面303上的智慧语音选项,响应于用户的点击操作,手机显示如图3中的(d)图所示的智慧语音界面304。该智慧语音界面304上可以包括语音唤醒开关、电源键换型开关、人工智能(artificial intelligence,ai)字母开关、驾驶场景开关等。在本技术实施例中,用户可以点击语音唤醒开关,开启手机的语音交互功能。换言之,开启了语音唤醒开关之后,手机可以被唤醒词“小艺小艺”唤醒,开始采集用户的语音指令并进入语音识别阶段。
128.当用户开启了手机的语音交互功能,用户如果发出“小艺小艺”的唤醒词,手机屏幕上可以显示悬浮窗口,以提示用户当前开始采集用户的语音指令,开始语音交互过程。示例性的,如图3中的(e)图所示,用户发出“小艺小艺”的唤醒词后,手机被该唤醒词唤醒,并在屏幕上可以显示悬浮窗口10,该悬浮窗口10中包括用户和手机的对话内容(例如:嗨,我在听

),以及在手机监听用户的语音指令时的监听图标10-1,该监听图标10-1可以动态闪烁显示,以表示当前正在监听用户的语音指令,本技术实施例对此不作限定。
129.如图3中的(e)图所示,手机监听到用户的语音指令:模仿牛的叫声,小艺小艺。手机可以识别该语音指令的内容,并将识别到的语音指令显示在悬浮窗口10中,在现有的方案中,手机可以根据该语音指令做出响应,例如模仿出牛的叫声。
130.但是,当该语音指令中又再次包括了唤醒词“小艺小艺”的时候,手机可能被该语音指令中的唤醒词“小艺小艺”打断,进而中断了当前的人机交互过程,重新开始采集用户的语音指令并进行语音识别。如图3中的(f)图所示,手机识别到用户的语音指令中包括了唤醒词“小艺小艺”之后,响应于包括该唤醒词“小艺小艺”的语音指令,手机会重新进入下一个人机交互流程,在悬浮窗口10中做出响应:嗨,我在听

,以及显示手机监听用户的语音指令的动态闪烁的监听图标10-1,以表示当前手机重新开始监听用户的语音指令。
131.在上述场景中,用户发出的语音指令中如果包括唤醒词“小艺小艺”,该唤醒词可以打断当前的人机交互进程重新进入下一个人机交互进程,该过程可能并不是用户期望
的,即唤醒词直接打断当前正在执行的任务,使得手机需要重新开始采集用户的语音指令,这样就会导致人机对话不连贯,影响了用户的使用进程,且降低了人机交互的体验。
132.本技术实施例提供了一种人机交互的方法,可以避免人机交互流程被语音指令中的唤醒词打断,以带给用户更好的人机交互体验。
133.图4是本技术实施例提供的一例人机交互的方法的示意性流程图,应理解,该方法400可以应用于手机、pc、车载设备等具有图1和图2所示结构的电子设备上。如图4所示,方法400包括:
134.401,获取用户的第一语音指令,检测到第一语音指令中包括唤醒词。
135.示例性的,结合图3中的(e)图所示的场景,如果用户当前期望与手机的对话是以下内容:
136.用户:小艺小艺。
137.手机:嗨,我在听

138.用户:模仿牛的叫声,小艺小艺。
139.手机:哞哞

140.当手机检测到用户第一次说出唤醒词“小艺小艺”时,唤醒手机,手机进入监听用户的语音指令的状态。
141.402,确定asr模块是否为开启状态。
142.应理解,手机的asr模块并不是一直开启处于工作状态的,当用户发出语音指令的时候,手机是关闭自动语音识别(automatic speech recognition,asr)功能的,即关闭asr模块;或者,当手机在回答用户的时候,asr模块也是关闭的,避免采集了手机自己的语音,干扰用户语音指令的采集和识别。通过步骤402,手机先检测asr模块是否处于开启状态,如果asr处于休眠或不工作的关闭状态,可以触发开启asr模块。
143.可选地,当手机第一次获取并识别到唤醒词“小艺小艺”时,如果确定手机当前处于开启asr模块的状态,则可以忽略本次唤醒,继续当前的对话流程。
144.403,当手机确定asr模块为开启状态时,确定唤醒词在该第一语音指令中的位置。
145.一种可能的实现方式中,手机被唤醒之后监测用户的第一语音指令,当检测到该第一语音指令中再次包括了该唤醒词“小艺小艺”时,可以先判断该唤醒词“小艺小艺”在该第一语音指令中的位置,该位置主要可以包括位于第一语音指令的首位、第一语音指令的中间、第一语音指令的末尾。示例性的,用户发出的第一语音指令在包括唤醒词的情况下,可能是“模仿牛的叫声,小艺小艺”(唤醒词位于第一语音指令的末尾)、“模仿动物叫声,小艺小艺,模仿牛的叫声(唤醒词位于第一语音指令的中间)”或者“小艺小艺,模仿牛的叫声”(唤醒词位于第一语音指令的首位)。
146.404-1,当唤醒词在该第一语音指令中的位置为末尾处时,执行步骤405,判断唤醒词距离最接近的语音指令的时长是否小于第一预设值。
147.406,当唤醒词距离最接近的语音指令的时间间隔小于第一预设值时,记录唤醒词对应的时间信息。
148.应理解,该第一预设值可以用于判断当前用户是否希望中断该对话流程。示例性的,当用户发出的第一语音指令为:“模仿牛的叫声,小艺小艺”,唤醒词位于语音指令的末尾。根据步骤406,唤醒词“小艺小艺”最接近的语音指令就是“模仿牛的叫声”,手机可以根
据“模仿牛的叫声”和“小艺小艺”之间的时间间隔判断用户发出该唤醒词“小艺小艺”的母的。当“模仿牛的叫声”的“声”和“小艺小艺”的第一个“小”之间的时间间隔小于第一预设值时,可以判断用户可能仅仅把唤醒词“小艺小艺”作为口头禅一部分,希望继续当前的对话流程,不切换下一个新的对话流程。
149.可选地,手机可以根据该第一语音指令,记录唤醒词“小艺小艺”在该第一语音指令中的时间信息。本技术实施例对时间信息的记录和标示规则不作限定,示例性的,如果以最初唤醒词唤醒手机为起始时间,该唤醒词再次出现在第一语音指令中的时段为t
1-t2;如果以最初唤醒词唤醒手机为起始时间,该唤醒词再次出现在第一语音指令中的时段为t
1-t2,可以根据时间信息确定该唤醒词在第一语音指令中的位置。
150.407,根据唤醒词对应的时间信息,忽略该唤醒词,并对第一语音指令进行识别。
151.408,正常应答。可选地,这里正常应答可以包括手机根据用户的提问进行的反馈,和用户持续对话,或者还可以包括“嗯”、“好的”等语音应答,本技术实施例对此不作限定。
152.409,当唤醒词距离最接近的语音指令的时长大于或者等于第一预设值时,暂停当前的对话框,开启下一个新的对话框。
153.410,开启asr,识别新的对话框的用户的第二语音指令,再次根据用户的第二语音指令进行正常应答,或者返回到步骤401,再次检测第二语音指令中是否包括该唤醒词,重复上述流程,为了简便,此处不再赘述。
154.示例性的,当用户发出的第一语音指令为:“模仿牛的叫声,小艺小艺”,唤醒词位于第一语音指令的末尾。当“模仿牛的叫声”的“声”和“小艺小艺”的第一个“小”之间的时间间隔大于或等于第一预设值时,可以判断用户可能希望中断当前的对话流程,进入下一个新的对话流程。换言之,手机可以将该第一语音指令中再次包括的唤醒词“小艺小艺”作为下一个对话流程的唤醒词,手机重新被唤醒,打断以前的“模仿牛的叫声”的对话流程。可选地,此时手机可以回复“嗨,我在听
…”
,本技术实施例对此不作限定。
155.可选地,第一预设值可以是1秒,2秒等,本技术实施例对此不作限定。
156.411,当手机确定asr模块为未开启状态时,开启asr模块,启动监听功能。且在开启了asr监听功能后,继续执行步骤401获取用户的语音指令的过程,此处不再赘述。
157.对于步骤403,当确定唤醒词位于该第一语音指令中的首位或者位于该第一语音指令中的中间时,即404-3,当唤醒词在该第一语音指令中的首位,或者404-2,当唤醒词在该第一语音指令中的中间时,执行步骤406-408,记录唤醒词对应的时间信息,根据唤醒词对应的时间信息,忽略该唤醒词,并对第一语音指令进行识别,进行正常应答,为了简便,此处不再赘述。
158.一种可能的场景中,如果在语音识别刚结束的很短时间内,重新开启语音识别,手机可以判断用户是否继续说话,如果用户没有继续说话,手机可以使用之前的语音识别结果继续和用户对话。
159.通过上述方法,在用户和电子设备的语音交互过程中,用户通过唤醒词唤醒电子设备之后,如果用户发出的语音指令中再次包括唤醒词,该方法可以避免该语音指令中的唤醒词打断当前的交互流程,从而避免直接打断当前电子设备正在执行的任务,重新开始采集用户语音指令的过程,保证了人机对话的连贯性,提高了用户体验。
160.此外,在另一种可能的场景中,有些电子设备可能具有声源定位的能力,或者具有
摄像头的图像采集的功能,例如机器人等。当机器人被唤醒词唤醒后,可以根据声源定位功能确定用户所在方向,并转动具有图像采集功能的摄像头,直接转到根据声源定位的用户所在的方向或位置。在该过程中,用户所在方向可能会因为声音被墙壁反射等问题出现较大的判断误差,在出现这种较大的误差时,会出现设备转动后不是面对人的现象。
161.应理解,机器人可以具有图1所示的部分或全部结构,或者具有图2所示的软件架构,本技术实施例对此不作限定。
162.示例性的,图5是本技术实施例提供的一例人机交互的场景示意图。如图5所示,假设机器人具有声源定位能力和图像采集功能,该机器人可以根据用户的语音指令确定声源方向,且可以根据摄像头采集的图像确定自身的视线估计(gaze estimation)方向。其中,视线方向和声源方向的夹角记作θ。
163.可选地,机器人根据摄像头采集的图像确定自身的视线估计(gaze estimation)方向的过程中,可以建立相机坐标系,基于摄像头的公开参数,将gaze目标以及用户眼睛位置坐标通过三维的六个关键点等算法变换到相机坐标下,具体可以参照现有技术的计算过程,此处不再赘述。
164.本技术实施例针对具有声源定位的能力的机器人等电子设备,还提供了一种人机交互的方法,可以避免人机交互流程被语音指令中的唤醒词打断,以带给用户更好的人机交互体验。
165.图6是本技术实施例提供的一例人机交互的方法的示意性流程图,应理解,该方法600可以应用于机器人等具有声源定位的能力的电子设备上。如图6所示,方法600包括:
166.601,机器人获取用户的第一语音指令。
167.602,机器人根据第一语音指令,检测该第一语音指令的声源方向。
168.603,机器人判断该第一语音指令的声源方向与机器人当前的视线方向之间的夹角θ是否大于或等于第一预设角度。
169.604,当该第一语音指令的声源方向与视线方向之间的夹角θ大于或等于第一预设角度时,机器人判断用户的交互意愿是否小于预设值。
170.应理解,当该第一语音指令的声源方向与视线方向的之间的夹角θ大于或等于第一预设角度时,可以认为发出语音指令的用户和机器人并不是处于面对面的位置关系,或者说,发出语音指令的用户不在机器人采集图像的中心区域范围内,本技术实施例对中心区域对应的范围不作限定。
171.可选地,步骤604中,机器人可以通过摄像头采集图像,并检测采集的图像中用户的眼睛所注视的方向估计用户的交互意愿。例如,表1列举了一例可能的用户交互意愿范围。
172.表1
173.用户注视的方向与机器人视线方向的夹角范围交互意愿预估范围0
°‑
30
°
0.8-1.030
°‑
60
°
0.5-0.860
°‑
90
°
0.1-0.5
174.如表1所示,当根据用户注视的方向与机器人视线方向的夹角范围确定交互意愿预估范围为0.8-1.0时,机器人可以判断用户当前的交互意愿强烈;当根据用户注视的方向
与机器人视线方向的夹角范围确定交互意愿预估范围为0.5-0.8时,机器人可以判断用户当前的交互意愿一般;当根据用户注视的方向与机器人视线方向的夹角范围确定交互意愿预估范围为0.1-0.5时,机器人可以判断用户当前的交互意愿较低,本技术实施例对此不作限定。
175.可选地,预设值可以设置为0.5,当估计的用户当前的交互意愿大于或等于预设值时,继续执行下述步骤605。
176.605,机器人判断该第一语音指令的声源方向与前一次语音指令的声源方向之间的夹角是否小于第二预设角度,且两次语音指令的时间间隔是否小于第二预设值。
177.606,当该第一语音指令的声源方向与前一次语音指令的声源方向之间的夹角小于第二预设角度,且两次语音指令的时间间隔小于第二预设值,机器人进行正常应答。
178.应理解,这里“前一次语音指令”为第一语音指令之前的最接近的语音指令。可选地,该“前一次语音指令”可以是用户的唤醒词指令,例如:小艺小艺。或者该“前一次语音指令”是唤醒词之后的其他语音指令,例如:请模仿牛的叫声。本技术实施例对此不作限定。
179.还应理解,这里正常应答可以理解为机器人识别用户的第一语音指令,并根据第一语音指令做出相应的反馈,此处不再赘述。
180.607,当该第一语音指令的声源方向与前一次语音指令的声源方向之间的夹角大于或等于第二预设角度,且两次语音指令的时间间隔大于或等于第二预设值时,机器人调用转向执行函数,转换机器人方向。
181.可选地,“第一语音指令的声源方向与前一次语音指令的声源方向之间的夹角大于或等于第二预设角度”和“两次语音指令的时间间隔大于或等于第二预设值”的显示条件可以满足任意一个,或者同时满足,调用转向执行函数,转换机器人方向。本技术实施例对此不作限定。
182.608,响应于转向执行函数,机器人转换方向后,确定转换方向后的用户交互意愿。可选地,该确定用户交互意愿的过程可以通过采集图像并判断图像中用户注视的方向来确定,具体请参照前述步骤604的相关介绍,此处不再赘述。
183.一种可能的实现方式中,步骤608中,当机器人响应于转向执行函数转换方向后,确定转换方向后的用户交互意愿比较低,机器人可以再转回的视线方向,同时执行步骤606,对用户的地语音指令做出相应的反馈,进行正常应答。
184.另一种可能的场景中,如果用户的第一语音指令中可能包含了唤醒词,可以结合图4所示的方法,且采集图像并根据图像中用户注视的方向来估计用户交互意愿。当机器人在图像中并没有检测到人,可以确定用户的交互意愿很低,或者中断本次的人机交互流程,换言之,这种场景可以认为是机器人被误唤醒。
185.又一种可能的场景中,如果第一语音指令就是唤醒词,唤醒词的声源方向与机器人当前面向的视线方向之间的夹角θ大于或等于第一预设角度,则机器人可以根据当前采集的图像中是否有用户并估计用户的交互意愿是否强烈来判断是否需要响应本次唤醒。
186.示例性的,如果唤醒词的声源方向与机器人当前面向的视线方向之间的夹角θ大于或等于第一预设角度,且当前用户的交互意愿较强,可以设置机器人需要连续两次在同一声源方向的唤醒词才可以唤醒机器人,即机器人才会响应于用户的唤醒词。
187.或者,如果唤醒词的声源方向与机器人当前面向的视线方向之间的夹角θ大于或
等于第一预设角度,机器人转到唤醒词的声源方向后,并没有检测到用户,可以再转回唤醒前的角度,继续与唤醒前的人进行语音交互。
188.通过上述方法,使得机器人的唤醒过程更加符合人的预期,当用户的语音指令的声源方向与机器人当前面向的视线方向之间的夹角θ大于或等于第一预设角度且用户的交互意愿强烈时,机器人可以确定自动转向用户;当用户的语音指令的声源方向与机器人当前面向的视线方向之间的夹角θ大于或等于第一预设角度且用户的交互意愿较低时,机器人还可以转回来,且在该过程中不会中断用户和机器人的交互流程,带给用户更好的人机交互体验。
189.综上所述,在用户和电子设备的语音交互过程中,用户通过唤醒词唤醒电子设备之后,如果用户发出的语音指令或者回复电子设备的答案中再次包括唤醒词,该方法可以避免该语音指令中的唤醒词打断当前的交互流程,从而避免直接打断当前电子设备正在执行的任务,重新开始采集用户语音指令的过程,保证了人机对话的连贯性,提高了用户体验。
190.此外,对于具有声源定位的能力的机器人等电子设备,本技术实施例提供的方法可以根据语音指令的声源方向确定是否要发生偏转,并根据采集的图像等估计用户的交互意愿,进而更加精准的和用户进行语音交互。具体地,当用户的语音指令的声源方向与机器人当前面向的视线方向之间的夹角θ大于或等于第一预设角度且用户的交互意愿强烈时,机器人可以确定自动转向用户;当用户的语音指令的声源方向与机器人当前面向的视线方向之间的夹角θ大于或等于第一预设角度且用户的交互意愿较低时,机器人还可以转回来,且在该过程中不会中断用户和机器人的交互流程,带给用户更好的人机交互体验。
191.可以理解的是,电子设备为了实现上述功能,其包含了执行各个功能相应的硬件和/或软件模块。结合本文中所公开的实施例描述的各示例的算法步骤,本技术能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以结合实施例对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
192.本实施例可以根据上述方法示例对电子设备进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块可以采用硬件的形式实现。需要说明的是,本实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
193.在采用对应各个功能划分各个功能模块的情况下,上述实施例中涉及的机器人、手机等电子设备或可以包括:采集单元、检测单元和处理单元。
194.其中,采集单元、检测单元和处理单元相互配合,可以用于支持机器人、手机等电子设备可以执行上述步骤等,和/或用于本文所描述的技术的其他过程。
195.需要说明的是,上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述,在此不再赘述。
196.本实施例提供的电子设备,用于执行上述视频播放的方法,因此可以达到与上述实现方法相同的效果。
197.在采用集成的单元的情况下,电子设备可以包括处理模块、存储模块和通信模块。
其中,处理模块可以用于对电子设备的动作进行控制管理,例如,可以用于支持电子设备执行上述采集单元、检测单元和处理单元执行的步骤。存储模块可以用于支持电子设备执行存储程序代码和数据等。通信模块,可以用于支持电子设备与其他设备的通信。
198.其中,处理模块可以是处理器或控制器。其可以实现或执行结合本技术公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,数字信号处理(digital signal processing,dsp)和微处理器的组合等等。存储模块可以是存储器。通信模块具体可以为射频电路、蓝牙芯片、wi-fi芯片等与其他电子设备交互的设备。
199.在一个实施例中,当处理模块为处理器,存储模块为存储器时,本实施例所涉及的电子设备可以为具有图1所示结构的设备。
200.本实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机指令,当该计算机指令在电子设备上运行时,使得电子设备执行上述相关方法步骤实现上述实施例中的人机交互的方法。
201.本实施例还提供了一种计算机程序产品,当该计算机程序产品在计算机上运行时,使得计算机执行上述相关步骤,以实现上述实施例中的人机交互的方法。
202.另外,本技术的实施例还提供一种装置,这个装置具体可以是芯片,组件或模块,该装置可包括相连的处理器和存储器;其中,存储器用于存储计算机执行指令,当装置运行时,处理器可执行存储器存储的计算机执行指令,以使芯片执行上述各方法实施例中的人机交互的方法。
203.其中,本实施例提供的电子设备、计算机可读存储介质、计算机程序产品或芯片均用于执行上文所提供的对应的方法,因此,其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果,此处不再赘述。
204.通过以上实施方式的描述,所属领域的技术人员可以了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
205.在本技术所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
206.作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是一个物理单元或多个物理单元,即可以位于一个地方,或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
207.另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
208.集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读取存储介质中。基于这样的理解,本技术实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本技术各个实施例方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
209.以上内容,仅为本技术的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应以权利要求的保护范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1