一种拾音方法及装置与流程

文档序号:17431156发布日期:2019-04-17 03:31阅读:644来源:国知局
一种拾音方法及装置与流程

本发明涉及人工智能领域,尤其涉及一种拾音方法及装置。



背景技术:

随着智能技术发展,目前,出现了很多可以进行语音交互的智能设备,例如机器人等,智能设备也越来越受关注和欢迎,如何有效高质量地拾音是非常有必要的。

现有技术中,智能设备拾音方法主要为,在拾音范围内采用波束成形(beamforming)技术拾取音频信号,但是,现有技术中心,波束成形方向是固定的,若波束成形范围幅度设置较大时,对其它方向声音抑制较小,周围噪声容易被误识别,若波束成形范围幅度设置较小时,虽然对其它方向声音抑制较厉害,但遇到多用户同时面对机器人交互的场景时,可能只识别波束成形范围内用户的声音,对其他用户声音拾音效果差,无法识别,因此,现有技术中波束成形不能满足不同场景下的语音交互需求,拾音效果较差,降低了用户体验。



技术实现要素:

本发明实施例提供一种拾音方法及装置,以解决现有技术中波束成形拾音效果较差的问题。

本发明实施例提供的具体技术方案如下:

一种拾音方法,包括:

获取在智能设备的拾音范围内检测到的用户信息;

根据所述用户信息,在所述拾音范围内确定波束成形方向;

根据确定的波束成形方向,控制所述智能设备进行波束成形。

可选的,获取在智能设备的拾音范围内检测到的用户信息,具体包括:

获取在智能设备的拾音范围内、基于智能设备的拾音传感器检测到的用户信息;和/或,获取在智能设备的拾音范围内、基于智能设备的视觉传感器检测到的用户信息。

可选的,所述用户信息具体包括用户语音、用户声源、用户唇动、用户人脸角度、用户距离中的至少一种。

可选的,根据所述用户信息,在所述拾音范围内确定波束成形方向,具体包括:

根据所述用户信息,基于预设规则,在所述拾音范围内确定语音交互意图最强的用户;

确定波束成形方向指向所述语音交互意图最强的用户。

可选的,根据所述用户信息,基于预设规则,在所述拾音范围内确定语音交互意图最强的用户,具体包括:

在所述拾音范围内,若存在一个用户声源的方向持续预设时长未发生变化,则确定所述一个用户声源对应的一个用户为语音交互意图最强的用户;若存在多个用户声源的方向持续预设时长未发生变化,则根据所述多个用户声源的波形、所述多个用户声源对应的多个用户的用户人脸角度和/或所述多个用户的用户距离,从所述多个用户中选择出语音交互意图最强的用户。

可选的,根据所述用户信息,基于预设规则,在所述拾音范围内确定语音交互意图最强的用户,具体包括:

在所述拾音范围内,若存在一个用户存在用户唇动,则确定所述一个用户为语音交互意图最强的用户;若存在多个用户存在用户唇动,则根据所述多个用户的用户声源的波形、所述多个用户的用户人脸角度和/或所述多个用户的用户距离,从所述多个用户中选择出语音交互意图最强的用户。

可选的,采用如下方式确定用户声源对应的用户:

若存在一个用户的用户方向与所述用户声源的方向偏差在预设范围内,则确定所述一个用户为所述用户声源对应的用户;

若存在多个用户的用户方向与所述用户声源的方向偏差在预设范围内,则从所述多个用户中确定出用户方向与所述用户声源的方向偏差最小的用户,确定所述方向偏差最小的用户为所述用户声源对应的用户。

可选的,根据所述用户信息,基于预设规则,在所述拾音范围内确定语音交互意图最强的用户,具体包括:

对用户语音进行语义分析,根据所述语义分析结果在所述拾音范围内确定波束成形方向。

可选的,对用户语音进行语义分析,根据所述语义分析结果在所述拾音范围内确定波束成形方向,具体包括:

对当前波束成形方向的用户的用户语音进行语义分析,若所述语义分析结果表征放弃和智能设备交互,则调整波束成形方向指向所述拾音范围内的其他用户。

可选的,在根据确定的波束成形方向,控制所述智能设备进行波束成形之前,还包括:

确定确定的波束成形方向与当前波束成形方向的偏差不在指定范围内。

可选的,获取在智能设备的拾音范围内检测到的用户信息之前,还包括:

获取智能设备的当前状态;

基于预先设置的智能设备的状态与拾音范围的对应关系,确定智能设备的当前状态对应的拾音范围,作为所述智能设备的拾音范围。

一种拾音装置,包括:

第一获取模块,用于获取在智能设备的拾音范围内检测到的用户信息;

第一确定模块,用于根据所述用户信息,在所述拾音范围内确定波束成形方向;

控制模块,用于根据确定的波束成形方向,控制所述智能设备进行波束成形。

一种电子设备,包括:

至少一个存储器,用于存储计算机程序;

至少一个处理器,用于执行存储器中存储的计算机程序时实现上述任一种拾音方法的步骤。

一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一种拾音方法的步骤。

本发明实施例中,获取在智能设备的拾音范围内检测到的用户信息;根据所述用户信息,在所述拾音范围内确定波束成形方向;根据确定的波束成形方向,控制所述智能设备进行波束成形,这样,检测在拾音范围内的用户信息,并可以根据检测到的用户信息,不断调整波束成形方向,从而随着波束成形方向的调整,不断调整波束成形范围,波束成形指向性好,可以适用于多用户交互场景,满足不同交互场景的需求,不仅可以保证智能设备和一定范围内的用户的正常交互,还可以同时有效地对周围的噪声进行抑制,提高了拾音效果,提升了用户体验。

附图说明

图1为本发明实施例中智能设备拾音参数说明示意图;

图2为本发明实施例中一种拾音方法流程图;

图3为本发明实施例中另一种拾音方法流程图;

图4为本发明实施例中拾音装置结构示意图;

图5为本发明实施例中电子设备结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,并不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

为便于对本发明实施例的理解,下面先对几个概念进行简单介绍:

拾音:就是把声音收集的过程。

拾音范围:表示智能设备能够收集声音的范围,其中,本发明实施例中拾音范围由拾音范围中心方向和拾音范围幅度表征。

拾音范围中心方向:表示拾音范围的中心所处于的位置方向。

波束成形(beamforming):在波束成形范围内拾音增强,在波束成形范围外被抑制。

具体参阅图1所示,为本发明实施例中智能设备拾音参数说明示意图,智能设备例如机器人拾音有两个参数angle_center和angle_range,其中,angle_center为拾音范围中心方向,angle_range为拾音范围幅度,如图1所示,图1中直线扇形区域为拾音范围,虚线扇形区域为波束成形范围。本发明实施例中,主要实现了可以在以angle_center为中心的angle_range范围大小内动态调节波束成形方向。

本发明实施例中,拾音方法的应用场景主要为用户与智能设备之间的交互,其中,智能设备可以是任何可以支持语音交互的智能设备,例如智能音箱、智能早教机、智能玩具等智能机器人,智能设备中还可以包括图像采集装置,例如摄像头,和音频采集装置,例如麦克风阵列等,智能设备还包括显示屏,以便可以显示更多信息,提高和用户交互效果,用户可以与智能设备进行人机交互,例如用户可以向智能设备下达指令,智能设备可以识别用户的语音、图像等信息,然后根据指令执行相应的操作。

需要说明的是,本发明实例中拾音方法可以由智能设备执行,也可以智能设备将获取到的信息上传到服务器,并由服务器进行计算,并将结果返回智能设备,来控制智能设备的波束成形方向,智能设备与服务器之间可以通过互联网相连,实现相互之间的通信,服务器可以认为是提供相应网络服务的后台服务器,对于这两种方式,本发明实施例中并不进行限制。

参阅图2所示,为本发明实施例中,一种拾音方法的流程图,该方法包括:

步骤200:获取在智能设备的拾音范围内检测到的用户信息。

执行步骤200时,具体包括以下几种情况:

第一种情况:获取在智能设备的拾音范围内、基于智能设备的拾音传感器检测到的用户信息。

其中,拾音传感器表示可以拾音、采集声音相关信息的传感器,例如音频采集装置等。

第二种情况:获取在智能设备的拾音范围内、基于智能设备的视觉传感器检测到的用户信息。

其中,视觉传感器表示可以采集图像信息的传感器,例如图像采集装置等。

具体地:首先,基于智能设备的视觉传感器,获取视觉传感器检测到的用户信息。

例如,视觉传感器为摄像头,实际中,通常摄像头是有一定的拍摄范围的,摄像头会获取到其拍摄范围内的图像,根据人脸检测算法,可以判断出图像中是否包括人脸,进而确定各人脸的位置信息。

然后,根据视觉传感器检测到的用户信息,筛选出在拾音范围内的用户信息。

这样,基于拾音传感器和视觉传感器可以获取在拾音范围内的与声音或视觉相关的用户信息。

其中,用户信息具体可以包括用户语音、用户声源、用户唇动、用户人脸角度、用户距离中的至少一种。当然,并不仅限于这几种用户信息,可以根据实际需求来获取其它更多的用户信息,目的是为了更准确地确定波束成形方向。

其中,用户语音、用户声源可以是基于拾音传感器检测到的,用户唇动、用户人脸角度和用户距离可以是基于视觉传感器检测到的。

步骤210:根据用户信息,在拾音范围内确定波束成形方向。

执行步骤210时,具体包括:

首先,根据用户信息,基于预设规则,在拾音范围内确定语音交互意图最强的用户。

然后,确定波束成形方向指向语音交互意图最强的用户。

其中,根据用户信息,基于预设规则,在拾音范围内确定语音交互意图最强的用户,具体地,可以包括但不限于以下几种方式:

第一种方式:基于声源进行初始判断,可以包括但不限于以下两种情况:

第一种情况:在拾音范围内,若存在一个用户声源的方向持续预设时长未发生变化,则确定一个用户声源对应的一个用户为语音交互意图最强的用户。

其中,用户声源的方向,可以根据声源定位算法来确定。

其中,声源定位算法,例如为基于时延估计的算法、基于高分辨率谱估计的算法等,可以采用现有技术中的声源定位算法,本发明实施例中并不进行限制。

也就是说,基于拾音传感器可能只检测到一个用户声源,并且其用户声源的方向一直未发生变化,即持续指向一个方向,则可以直接认为该用户声源对应的用户为语音交互意图最强的用户。

第二种情况:在拾音范围内,若存在多个用户声源的方向持续预设时长未发生变化,则根据多个用户声源的波形、多个用户声源对应的多个用户的用户人脸角度和/或多个用户的用户距离,从多个用户中选择出语音交互意图最强的用户。

1)根据多个用户声源的波形,从多个用户中选择波形幅值最大的用户,作为语音交互意图最强的用户。

例如,基于智能设备的麦克风阵列,实时监听周围环境声音,将监听到的环境声音进行回声消除、去噪声等处理,然后,根据多个用户声源的波形,波形幅值最大的用户,可以认为是语音交互意图最强的用户。

2)根据多个用户声源对应的多个用户的用户人脸角度,从多个用户中选择人脸最正对智能设备的用户,作为语音交互意图最强的用户。

例如,用户与智能设备人机交互时,通常该用户是正向面对智能设备的,若用户人脸朝向旁边,则可能该用户并不是与该智能设备进行交互,因此,可以根据用户人脸角度,认为用户人脸朝向智能终端的,是语音交互意图最强的用户。

3)根据多个用户的用户距离,从多个用户中选择用户距离最近的用户,作为语音交互意图最强的用户。

例如,可以通过视觉传感器检测用户图像,确定出各用户和智能终端的距离,与智能终端的距离越近,则可以认为其交互意图越强。

当然,存在多个用户声源的方向持续预设时长未发生变化时,也可以基于用户声源的波形、用户人脸角度和用户距离其中任意两种或结合这三种用户信息,进行判断,最终确定出语音交互意图最强的用户。

这样,判断用户声源的方向,基于用户声源的方向,结合其它用户信息,最终确定语音交互意图最强的用户,从而确定波束成形方向,保证目标用户的拾音增强,并对其它声音能够进行抑制。

其中,确定用户声源对应的用户时,具体包括:若存在一个用户的用户方向与用户声源的方向偏差在预设范围内,则确定一个用户为用户声源对应的用户;若存在多个用户的用户方向与用户声源的方向偏差在预设范围内,则从多个用户中确定出用户方向与用户声源的方向偏差最小的用户,确定方向偏差最小的用户为用户声源对应的用户。

其中,用户方向可以通过视觉传感器确定,例如通过图像信息,检测用户人脸,将用户人脸位置方向作为对应的用户方向。

其中,预设范围,例如为±5°以内,即(0~+5°)或(-5°~0),具体可以根据实际情况设置,本发明实施例中并不进行限制,例如,用户声源的方向在某一用户方向的位置偏差的±5°以内,则可以认为该用户声源对应的用户为该某一用户。

第二种方式:基于视觉进行初始判断,可以包括但不限于以下两种情况:

第一种情况:在拾音范围内,若存在一个用户存在用户唇动,则确定该一个用户为语音交互意图最强的用户。

例如,可以采用图像识别算法,识别用户是否存在唇动,当用户与智能终端交互时,必然会有唇动,若只有一个用户存在用户唇动,则可以直接将该用户作为语音交互意图最强的用户。

第二种情况:在拾音范围内,若存在多个用户存在用户唇动,则根据多个用户的用户声源的波形、多个用户的用户人脸角度和/或多个用户的用户距离,从多个用户中选择出语音交互意图最强的用户。

1)根据多个用户声源的波形,从多个用户中选择波形幅值最大的用户,作为语音交互意图最强的用户。

2)根据多个用户的用户人脸角度,从多个用户中选择人脸最正对智能设备的用户,作为语音交互意图最强的用户。

本发明实施例中,这种情况是认为用户与智能设备人机语音交互时,用户必定是有唇动,并且用户与智能设备人机交互时,通常该用户人脸是朝向智能设备的,因此可以认为多个用户中用户人脸朝向智能设备的,是最有可能与智能设备交互的用户。

3)根据多个用户的用户距离,从多个用户中选择用户距离最近的用户,作为语音交互意图最强的用户。

当然,若存在多个用户存在用户唇动,也可以基于用户声源的波形、用户人脸角度和用户距离其中任意两种或结合这三种用户信息,进行判断,最终确定出语音交互意图最强的用户。

这样,判断用户唇动,基于用户唇动,结合其它用户信息,最终确定语音交互意图最强的用户,从而确定波束成形方向。

第三种方式:基于语义判断,具体地:对用户语音进行语义分析,根据语义分析结果在拾音范围内确定波束成形方向。

具体可以包括:对当前波束成形方向的用户的用户语音进行语义分析,若语义分析结果表征放弃和智能设备交互,则调整波束成形方向指向拾音范围内的其他用户。

例如,若当前波束成形方向的用户的用户语音的语义为“你和它说话试试”,则表征放弃和智能设备交互。

其中,调整波束成形方向指向拾音范围内的其他用户,可以是从检测到其它用户中随机选择一个,也可以根据语义分析结果等确定出波束成形方向指向的其他方向。

例如,也可以当确定语义分析结果表征是让其他用户说话时,调整波束成形方向指向该其他用户的位置。

例如,检测到有2个用户的人脸,分别为用户1的人脸和用户2的人脸,当前波束成形方向指向用户1,对用户1的用户语音进行语义分析后,语义为“用户2,你和它说话试试”,则可以将波束成形方向指向用户2,认为接下来可能是用户2为语音交互意图最强的用户。

当然,对当前波束成形方向的用户的用户语音进行语义分析时,若存在多个其他用户,则确定语音交互意图最强的用户时,还可以根据用户人脸角度,选择人脸最正对智能设备的,或者,根据用户距离,选择用户距离最小的,或者根据用户人脸角度和用户距离结合,来最终确定语音交互意图最强的用户,本发明实施例中并不进行限制。

步骤220:根据确定的波束成形方向,控制智能设备进行波束成形。

进一步地,为避免波束成形方向不必要的调整,在执行步骤220之前,本发明实施例中还提供了一种可能的实施方式:确定确定的波束成形方向与当前波束成形方向的偏差不在指定范围内。

也就是说,基于上述步骤210,确定波束成形方向指向语音交互意图最强的用户,若确定的该波束成形方向与当前波束成形方向的方向偏差在指定范围内,则可以不需要调整,仍基于当前波束成形方向进行波束成形,若不在指定范围内,则调整当前波束成形方向,基于确定出的波束成形方向进行波束成形。

这样,根据波束成形方向,进行波束成形,该波束成形范围内拾音增强,波束成形范围外被抑制,从而可以提高对用户的语音识别,波束成形指向性较好。

实际中,通常利用beamforming技术,对波束成形范围内用户语音进行增强,对其他方向用户语音进行抑制,现有技术中心波束成形方向固定,无法自动调节,因此,也就无法保证一个合适的波束成形范围,而本发明实施例中不仅可以保证智能设备和一定范围内的用户的正常交互,同时也可以有效对周围噪声进行抑制。本发明实施例中,可以根据用户信息,在拾音范围内确定波束成形方向,可以通过不断调整波束成形方向,调整波束成形范围,波束成形方向指向性好,可以保证波束成形范围小时,也可以和一定范围内用户正常交互,包括单个用户或多用户交互,可以对多用户交互场景有较好的适应,满足不同交互场景的需求,同时可以有效对周围的环境噪声进行抑制,提高了对目标用户的拾音效果,提升了用户体验。

进一步地,本发明实施例中,在执行步骤200之前,还提供了一种确定智能设备的拾音范围的方法,包括:

1)首先,获取智能设备的当前状态。

其中,智能设备的当前状态,例如正面交互状态、非正面交互状态、运动状态和非运动状态等。

2)然后,基于预先设置的智能设备的状态与拾音范围的对应关系,确定智能设备的当前状态对应的拾音范围,作为智能设备的拾音范围。

其中,拾音范围由拾音范围中心方向和拾音范围幅度表征。

基于智能设备不同的状态,确定智能设备的当前状态对应的拾音范围,作为智能设备的拾音范围,可以包括但不限于以下几种情况:

第一种情况:与目标用户正面交互状态。

目标用户即智能设备当前需进行交互的用户,本发明实施例中可以认为发出智能设备唤醒词语音的用户为目标用户。

此时,确定智能设备的当前状态对应的拾音范围,具体可以为:若智能设备的当前状态为与目标用户正面交互状态,则确定对应的拾音范围中心方向指向智能设备正面交互组件的正前方。

其中,本发明实施例中,智能设备正面交互组件为智能设备处于与目标用户正面交互状态时,例如焦点跟随时,智能设备上需要与用户始终保持面对面的组件。

第二种情况:与目标用户非正面交互状态。

此时,确定智能设备的当前状态对应的拾音范围,具体可以为:若智能设备的当前状态为与目标用户非正面交互状态,则确定对应的拾音范围中心方向指向目标用户方向。

其中,目标用户方向具体可以为目标用户声源方向,也可以为目标用户人脸方向。

第三种情况:非运动状态。

其中,非运动状态指智能设备处于固定位置,可以原地静止或原地转动,但不存在位移。

此时,确定智能设备的当前状态对应的拾音范围,具体可以为:若智能设备的当前状态为非运动状态,则确定对应的拾音范围幅度为第一预设幅度。

进一步的,确定智能设备的当前状态对应的拾音范围,具体也可以为:若智能设备的当前状态为非运动状态,且为与目标用户的正面交互状态,则确定对应的拾音范围幅度为第一预设幅度;否则,确定对应的拾音范围幅度为第二预设幅度。其中,第一预设幅度小于第二预设幅度。

第四种情况:运动状态。

其中,运动状态指智能设备存在位移。

此时,确定智能设备的当前状态对应的拾音范围,具体可以为:若智能设备的当前状态为运动状态,则确定对应的拾音范围幅度为第二预设幅度。

本发明实施例中,设置非运动状态下的拾音范围幅度的第一预设幅度小于运动状态下的拾音范围幅度的第二预设幅度,这是因为,智能设备处于运动状态,目标用户与智能设备交互时,目标用户与智能设备的相对位置不断变化,为了能够保证智能设备仍对目标用户有较好的拾音效果,因此,在运动状态下需要将拾音范围幅度设置的稍大一些。而非运动状态较运动状态,拾音范围幅度无需设置太大,可以避免误识别,提高对噪声的抑制性。

在本发明的另一个实施例中,智能设备的状态也可以具体指智能设备的任务状态,即此时:

获取智能设备的当前状态,具体包括:获取智能设备的当前任务状态;

基于预先设置的智能设备的状态与拾音范围的对应关系,确定智能设备的当前状态对应的拾音范围,具体包括:基于预先设置的智能设备的任务状态与拾音范围的对应关系,确定智能设备的当前任务状态对应的拾音范围。

即针对智能设备的不同任务,设定不同的拾音范围。在智能设备执行不同的任务时,根据智能设备当前执行的任务,确定对应的拾音范围进行拾音。

下面采用具体的机器人应用场景进行具体说明,基于上述实施例,参阅图3所示,为本发明实施例中的另一种拾音方法的流程图,该方法包括:

步骤300:确定机器人的拾音范围。

具体地,获取机器人的当前状态,并基于预先设置的机器人的状态与拾音范围的对应关系,确定机器人的当前状态对应的拾音范围,作为机器人的拾音范围。

步骤301:获取拾音范围内检测到的用户信息。

步骤302:根据不同的用户信息,执行相应的操作,即分别转向执行步骤303、步骤304和步骤308。

步骤303:若确定存在多个用户声源的方向持续预设时长未发生变化,则分别执行步骤305、步骤306和步骤307。

即可以基于声源进行初始判断。

步骤304:若确定存在多个用户存在用户唇动,则分别执行步骤305、步骤306和步骤307。

即可以基于视觉进行初始判断。

步骤305:选择波形幅值最大的用户,作为语音交互意图最强的用户。

步骤306:选择人脸最正对机器人的用户,作为语音交互意图最强的用户。

步骤307:选择用户距离最近的用户,作为语音交互意图最强的用户。

步骤308:对当前波束成形方向的用户的用户语音进行语义分析,根据语义分析结果,确定语音交互意图最强的用户。

例如,若语义分析结果表征放弃和机器人交互,则可以将拾音范围内的其他用户作为语音交互意图最强的用户,调整波束成形方向指向拾音范围内的其他用户。

即可以基于语义进行判断。

步骤309:确定波束成形方向指向语音交互意图最强的用户。

步骤310:根据确定的波束成形方向,控制机器人进行波束成形。

基于上述实施例,参阅图4所示,本发明实施例中,拾音装置具体包括:

第一获取模块40,用于获取在智能设备的拾音范围内检测到的用户信息;

第一确定模块41,用于根据所述用户信息,在所述拾音范围内确定波束成形方向;

控制模块42,用于根据确定的波束成形方向,控制所述智能设备进行波束成形。

可选的,获取在智能设备的拾音范围内检测到的用户信息时,第一获取模块40具体包括:

获取在智能设备的拾音范围内、基于智能设备的拾音传感器检测到的用户信息;和/或,获取在智能设备的拾音范围内、基于智能设备的视觉传感器检测到的用户信息。

可选的,所述用户信息具体包括用户语音、用户声源、用户唇动、用户人脸角度、用户距离中的至少一种。

可选的,根据所述用户信息,在所述拾音范围内确定波束成形方向时,第一确定模块41具体用于:

根据所述用户信息,基于预设规则,在所述拾音范围内确定语音交互意图最强的用户;

确定波束成形方向指向所述语音交互意图最强的用户。

可选的,根据所述用户信息,基于预设规则,在所述拾音范围内确定语音交互意图最强的用户时,第一确定模块41具体用于:

在所述拾音范围内,若存在一个用户声源的方向持续预设时长未发生变化,则确定所述一个用户声源对应的一个用户为语音交互意图最强的用户;若存在多个用户声源的方向持续预设时长未发生变化,则根据所述多个用户声源的波形、所述多个用户声源对应的多个用户的用户人脸角度和/或所述多个用户的用户距离,从所述多个用户中选择出语音交互意图最强的用户。

可选的,根据所述用户信息,基于预设规则,在所述拾音范围内确定语音交互意图最强的用户时,第一确定模块41具体用于:

在所述拾音范围内,若存在一个用户存在用户唇动,则确定所述一个用户为语音交互意图最强的用户;若存在多个用户存在用户唇动,则根据所述多个用户的用户声源的波形、所述多个用户的用户人脸角度和/或所述多个用户的用户距离,从所述多个用户中选择出语音交互意图最强的用户。

可选的,采用如下方式确定用户声源对应的用户时,第一确定模块41进一步用于:

若存在一个用户的用户方向与所述用户声源的方向偏差在预设范围内,则确定所述一个用户为所述用户声源对应的用户;

若存在多个用户的用户方向与所述用户声源的方向偏差在预设范围内,则从所述多个用户中确定出用户方向与所述用户声源的方向偏差最小的用户,确定所述方向偏差最小的用户为所述用户声源对应的用户。

可选的,根据所述用户信息,基于预设规则,在所述拾音范围内确定语音交互意图最强的用户时,第一确定模块41具体用于:对用户语音进行语义分析,根据所述语义分析结果在所述拾音范围内确定波束成形方向。

可选的,对用户语音进行语义分析,根据所述语义分析结果在所述拾音范围内确定波束成形方向时,第一确定模块41具体用于:

对当前波束成形方向的用户的用户语音进行语义分析,若所述语义分析结果表征放弃和智能设备交互,则调整波束成形方向指向所述拾音范围内的其他用户。

可选的,在根据确定的波束成形方向,控制所述智能设备进行波束成形之前,还包括:

第二确定模块43,用于确定确定的波束成形方向与当前波束成形方向的偏差不在指定范围内。

可选的,获取在智能设备的拾音范围内检测到的用户信息之前,还包括:

第二获取模块44,用于获取智能设备的当前状态;

第三确定模块45,用于基于预先设置的智能设备的状态与拾音范围的对应关系,确定智能设备的当前状态对应的拾音范围,作为所述智能设备的拾音范围。

基于上述实施例,参阅图5所示,本发明实施例中,一种电子设备的结构示意图。

本发明实施例提供了一种电子设备,该电子设备可以包括处理器510(centerprocessingunit,cpu)、存储器520、输入设备530和输出设备540等,输入设备530可以包括键盘、鼠标、触摸屏等,输出设备540可以包括显示设备,如液晶显示器(liquidcrystaldisplay,lcd)、阴极射线管(cathoderaytube,crt)等。

存储器520可以包括只读存储器(rom)和随机存取存储器(ram),并向处理器510提供存储器520中存储的程序指令和数据。在本发明实施例中,存储器520可以用于存储本发明实施例中拾音方法的程序。

处理器510通过调用存储器520存储的程序指令,处理器510用于按照获得的程序指令执行:

获取在智能设备的拾音范围内检测到的用户信息;

根据所述用户信息,在所述拾音范围内确定波束成形方向;

根据确定的波束成形方向,控制所述智能设备进行波束成形。

可选的,获取在智能设备的拾音范围内检测到的用户信息时,处理器510具体用于:

获取在智能设备的拾音范围内、基于智能设备的拾音传感器检测到的用户信息;和/或,获取在智能设备的拾音范围内、基于智能设备的视觉传感器检测到的用户信息。

可选的,所述用户信息具体包括用户语音、用户声源、用户唇动、用户人脸角度、用户距离中的至少一种。

可选的,根据所述用户信息,在所述拾音范围内确定波束成形方向时,处理器510具体用于:

根据所述用户信息,基于预设规则,在所述拾音范围内确定语音交互意图最强的用户;

确定波束成形方向指向所述语音交互意图最强的用户。

可选的,根据所述用户信息,基于预设规则,在所述拾音范围内确定语音交互意图最强的用户时,处理器510具体用于:

在所述拾音范围内,若存在一个用户声源的方向持续预设时长未发生变化,则确定所述一个用户声源对应的一个用户为语音交互意图最强的用户;若存在多个用户声源的方向持续预设时长未发生变化,则根据所述多个用户声源的波形、所述多个用户声源对应的多个用户的用户人脸角度和/或所述多个用户的用户距离,从所述多个用户中选择出语音交互意图最强的用户。

可选的,根据所述用户信息,基于预设规则,在所述拾音范围内确定语音交互意图最强的用户时,处理器510具体用于:

在所述拾音范围内,若存在一个用户存在用户唇动,则确定所述一个用户为语音交互意图最强的用户;若存在多个用户存在用户唇动,则根据所述多个用户的用户声源的波形、所述多个用户的用户人脸角度和/或所述多个用户的用户距离,从所述多个用户中选择出语音交互意图最强的用户。

可选的,采用如下方式确定用户声源对应的用户时,处理器510具体用于:

若存在一个用户的用户方向与所述用户声源的方向偏差在预设范围内,则确定所述一个用户为所述用户声源对应的用户;

若存在多个用户的用户方向与所述用户声源的方向偏差在预设范围内,则从所述多个用户中确定出用户方向与所述用户声源的方向偏差最小的用户,确定所述方向偏差最小的用户为所述用户声源对应的用户。

可选的,根据所述用户信息,基于预设规则,在所述拾音范围内确定语音交互意图最强的用户时,处理器510具体用于:

对用户语音进行语义分析,根据所述语义分析结果在所述拾音范围内确定波束成形方向。

可选的,对用户语音进行语义分析,根据所述语义分析结果在所述拾音范围内确定波束成形方向时,处理器510具体用于:

对当前波束成形方向的用户的用户语音进行语义分析,若所述语义分析结果表征放弃和智能设备交互,则调整波束成形方向指向所述拾音范围内的其他用户。

可选的,在根据确定的波束成形方向,控制所述智能设备进行波束成形之前,处理器510还用于:

确定确定的波束成形方向与当前波束成形方向的偏差不在指定范围内。

可选的,获取在智能设备的拾音范围内检测到的用户信息之前,处理器510还用于:获取智能设备的当前状态;基于预先设置的智能设备的状态与拾音范围的对应关系,确定智能设备的当前状态对应的拾音范围,作为所述智能设备的拾音范围。

上述电子设备具体可以为智能设备,如机器人;也可以为与机器人通信的外部设备,如服务器。本申请对此不做具体限定。

基于上述实施例,本发明实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意方法实施例中的拾音方法。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1