声源分离信息检测装置、机器人、声源分离信息检测方法和存储介质与流程

文档序号:16507101发布日期:2019-01-05 09:06阅读:176来源:国知局
声源分离信息检测装置、机器人、声源分离信息检测方法和存储介质与流程

本申请基于在2017年06月23日递交的在先日本专利申请第2016-123643号并要求享有其优先权,通过参考将其全部内容合并于本申请中。

本发明涉及声源分离信息检测装置、机器人、声源分离信息检测方法和存储介质。



背景技术:

具有模仿人类、动物等形态并能够与人类进行会话等交流的机器人已经众所周知。这种机器人根据装载在机器人上的麦克风的输出而检测产生于机器人周围的声音,当判别该声音为对象者发出的声音时,机器人会将脸或身体转向该对象者出现的方向并向该对象者作出打招呼或挥手等动作。

为了实现该机器人的动作,需要一种声源分离技术,其通过从机器人周围产生的声音中去除作为信号声音以外声音的无用噪声声音(噪声源)而仅将对象者发出的信号声音分离,从而检测作为对象者发出声音的信号声音(信号源)的方向或者位置。

迄今为止,一种为了提高信噪比(s/n比)而进行作为声源分离技术之一的波束成形的技术已经众所周知(例如日本特开2005-253071号公报)。

但在传统的声源分离技术中存在下述问题,当信号声音和噪声声音从相同方向到来时难以分离声源,并且存在此时会同时检测信号声音和噪声声音而导致在检测对象者的信号声音(信号源)方向或者位置中产生误检的问题。

本发明用于解决以上的问题,其目的在于提供能够从噪声声音中分离信号声音并检测声源分离信息的声源分离信息检测装置、机器人、声源分离信息检测方法和存储介质。



技术实现要素:

本发明所涉及的声源分离信息检测装置的一方式包括:声音取得部,其具有规定的指向性以取得声音;第一方向检测部,其从所述声音取得部所取得的所述声音中检测作为规定对象的信号声音到来方向的第一方向;第二方向检测部,其从所述声音取得部所取得的所述声音中检测作为噪声声音到来方向的第二方向;以及检测部,其根据所述第一方向和所述第二方向,检测声源分离方向或者声源分离位置。

而且,本发明所涉及的机器人的一方式包括:所述声源分离信息检测装置;移动部,其用于移动本装置;操作部,其用于操作所述本装置;以及控制部,其用于控制所述声源分离信息检测装置、所述移动部和所述操作部。

而且,本发明所涉及的声源分离信息检测方法的一方式包括下述步骤:从具有规定指向性以取得声音的声音取得部所取得的所述声音中,检测作为规定对象的信号声音到来方向的第一方向;从所述声音取得部所取得的所述声音中,检测作为噪声声音到来方向的第二方向;根据所述第一方向和所述第二方向,检测声源分离方向或者声源分离位置。

而且,本发明所涉及的存储介质的一方式存储有使声源分离信息检测装置的计算机发挥功能的程序以便:从具有规定指向性以取得声音的声音取得部所取得的所述声音中,检测作为规定对象的信号声音到来方向的第一方向;从所述声音取得部所取得的所述声音中,检测作为噪声声音到来方向的第二方向;根据所述第一方向和所述第二方向,检测声源分离方向或者声源分离位置。

本发明可提供能够从噪声声音中分离信号声音且检测声源分离信息的声源分离信息检测装置、机器人、声源分离信息检测方法和存储介质。

本发明的其他目的和优点将会在以下的说明书中阐明,部分从说明书显而易见或者可从本发明的实施例中得出。尤其可以通过以下指出的手段和组合实现和取得本发明的目的和优点。

附图说明

并入且构成说明书一部分的附图表示本发明的实施方式,并连同上述的一般说明和下述实施方式的详细说明有助于说明本发明的原理。

图1为本发明实施方式所涉及的机器人的外观图。

图2为用于表示机器人结构的框图。

图3为用于表示机器人控制功能结构的框图。

图4为用于表示图3的框图结构处理示例的流程图。

图5为用于表示标注的脸部检测结果格式例的图。

图6为示意地表示头部旋转自由度的图。

图7为用于表示噪声声音的声源到来方向推定处理示例的流程图。

图8为用于表示暂时的声源位置和扬声器配置一示例的图。

图9为用于表示麦克风阵列指向特性示例的图。

图10为声源分离信息检测的说明图(其1)。

图11为声源分离信息检测的说明图(其2)。

图12为声源分离信息检测的说明图(其3)。

具体实施方式

下面参照附图对用于实施本发明的方式进行详细说明。图1为用于示意地表示从正面观察实施方式所涉及的机器人100时外观的图。机器人100为具有头部101和躯体102的人型互动机器人。例如,机器人100被设置在住宅内,当被作为固定对象的居民等(以下称为“对象者”)呼唤时,会与呼唤对象者进行对话。

如图1所示,在机器人100的头部101上设置有照相机104(图像取得部)、麦克风阵列103(声音取得部)、扬声器105(通知部)、传感器组106、颈部关节驱动部107和行驶驱动部108。

照相机104设置在头部101正面的下侧且在被称为人脸的鼻部位置。照相机104在后述的控制部127的控制下进行摄像。

例如,麦克风阵列103由13个麦克风构成。13个麦克风中的8个麦克风围绕头部101等间隔地配置在被称为人脸额头高度的位置。在该8个麦克风的上侧围绕头部101等间隔地配置有4个麦克风。而且,还有1个麦克风配置在头部101的顶部。麦克风阵列103检测在机器人100周围产生的声音。

扬声器105设置在照相机104的下侧,即在被称为人脸部位的口部位置。扬声器105在后述的控制部127的控制下输出各种声音。

传感器组106设置在被称为人脸部位的眼睛位置和耳朵位置。传感器组106包括加速度传感器、障碍物检测传感器等,被用于控制机器人100的姿态或确保安全性。

颈部关节驱动部107为用于连结头部101与躯体102的构件。头部101通过虚线所示的颈部关节驱动部107连结在躯体102上。颈部关节驱动部107包括多个电机。当后述的控制部127驱动该多个电机时,机器人100的头部101会旋转。颈部关节驱动部107起到脸部旋转量取得部的作用,用于使机器人100的头部101旋转并取得其旋转量。

行驶驱动部108起到移动部的作用,用于使机器人100移动。尽管未特别示出,但行驶驱动部108包括设置在躯体102下侧的四个车轮(wheel)。四个车轮中的两个配置在躯体102的前侧,其余的两个配置在后侧。例如,车轮使用全向轮或麦克纳姆轮。后述的控制部201通过使行驶驱动部108的车轮旋转而使机器人100移动。

图2为用于表示作为具有图1外观的机器人100控制系统的机器人控制系统200的框图。在图2中,标注有与图1相同附图标记的部分为与图1相同的部件。在图2中,设置在躯体102内的控制部201包括cpu(centralprocessingunit:中央处理器)、ram(randomaccessmemory:随机存储器)等。控制部201分别与头部101内的麦克风阵列103、照相机104、扬声器105、传感器组106、躯体102内的颈部关节驱动部107和行驶驱动部108电连接,ram作为工作区域,通过读取并执行存储在后述的存储部202中的控制程序205来控制所述各部。

存储部202包括固态硬盘、硬盘驱动器和闪存等,并被设置在躯体102的内部。存储部202存储由控制部201执行的控制程序205和包括由麦克风阵列103收集的声音数据、由照相机104拍摄的图像数据等各种数据。在由存储部202存储的控制程序205中含有后述的声源分离信息检测程序、移动程序和对话程序等。

操作按键203设置在躯体102的背部(在图1中未图示)。操作按键203为用于操作机器人100的各种按键,包括电源按键和扬声器105的音量调节按键等。

电源部204为内置于躯体102中的充电电池,向机器人控制系统200各部供给电力。

图3为表示作为图2中的控制部201执行存储部202内控制程序205的功能一部分所实现的对话功能结构框图。此外,图3所示的各功能部也可以由控制部201内的fpga(fieldprogrammablearray)等硬件实现。

在图3中,作为声音取得部发挥作用的声音输入部301从用于构成图1中的麦克风阵列103的各个麦克风输入声音。

作为图像取得部发挥作用的图像输入部304、脸部检测部305和嘴部件检测部306在声音输入部301取得声音时取得作为规定对象的对象者的嘴唇图像。具体而言,图像输入部304由图1的照相机104输入图像。接着,脸部检测部305例如在声音输入部301输入具有规定阈值以上音量的声音时,从输入的图像中检测脸部区域。然后,嘴部件检测部306从检测出的脸部区域中检测嘴部件,并将其作为嘴唇图像。

作为判定部发挥作用的嘴开关判定部307根据嘴部件检测部306输出的嘴唇图像来判定对象者的嘴唇张开或者嘴唇闭合。

当嘴开闭判定部307判定嘴唇张开(嘴唇张开的状态)时,声源到来方向推定部302作为第一方向检测部发挥作用,将声音输入部301输入的声音作为信号声音并根据嘴部件检测部306输出的嘴唇图像以及该信号声音的信号声音功率来推定作为信号声音到来方向的第一方向。

另一方面,当嘴开闭判定部307判定嘴唇闭合(嘴唇闭合的状态)时,声源到来方向推定部302作为第二方向检测部发挥作用,将声音输入部301输入的声音作为噪声声音并根据该噪声声音的噪声声音功率来推定作为噪声声音到来方向的第二方向。

作为第二方向检测部发挥作用时的处理例,声源到来方向推定部302通过执行基于作为声源定位手段之一的music(mutiplesignalclassification)法的处理,从对象者以外的声源来推定噪声声音的声源定位(噪声源的位置)。后面会对该处理的细节进行说明。

声源分离部303通过执行例如基于下述文献1所示的波束成形技术的运算处理,执行声源分离处理,其中,所述声源分离处理将由声源到来方向推定部302当前获得的信号声音到来方向的第一方向或者噪声声音到来方向的第二方向作为输入,强调对象者发出的信号声音或者抑制信号声音以外的噪声声音。

<文献1>

浅野太、“声源分离”、[online]、2011年11月接收、电子信息通信学会“知识的森林”、[2017年6月15日检索]、互联网

<url:http://www.ieice-hbkb.org/files/02/02gun_06hen_02.pdf>

具体而言,当嘴开闭判定部307判定嘴唇张开时,声源分离部303通过执行波束调整运算处理,获得强调的信号声音,并将其输出到音量计算部308,其中,所述波束调整运算处理利用上述波束成形的运算处理,在由声源到来方向推定部302当前获得的第一方向波束调整(强调)信号声音。

另一方面,当嘴开闭判定部307判定嘴唇闭合时,声源分离部303通过执行调零运算处理,获得抑制的噪声声音,并将其输出到音量计算部308,其中,所述调零运算处理利用上述波束成形的运算处理,在由声源到来方向推定部302当前获得的第二方向调零(抑制)噪声声音。

此外,由声源分离部303执行的所述处理也可以通过将具有规定指向性的物理指向性的麦克风用作麦克风阵列103实现。

音量计算部308分别计算由声源分离部303输出的波束调整(强调)后的信号声音或者调零(抑制)后的噪声声音的音量。

s/n比计算部309根据音量计算部308计算的信号声音音量和噪声声音音量,计算信噪比(以下称为“s/n比”),并判定该s/n比是否大于阈值。声源分离部303、音量计算部308和s/n比计算部309作为检测部发挥作用,其根据第一方向和第二方向来检测声源分离方向或者声源分离位置。

作为在s/n比计算部309中的判定结果,当s/n比为阈值以下时,判定图2的控制部201未取得用于声音识别的足够的s/n比。此时,控制部201通过控制例如图1或图2中的行驶驱动部108,例如维持与对象者的一定关系(例如一定距离或者一定角度等)的同时,使机器人100移动。

在移动机器人100之后,控制部201再次启动图3中的机器人控制功能,执行与上述同样的s/n比的判定工作。作为结果,当s/n比计算部309计算的s/n比大于阈值时,图2的控制部201判定取得用于声音识别的足够的s/n比,并且对象者相对于机器人100的位置关系已经到作为能够将信号声音从噪声声音中成功分离的最佳位置的声源分离位置(或者判定为对象者相对于机器人100的方向关系已经成为作为能够将信号声音从噪声声音中成功分离的最佳方向的声源分离方向)。此时,控制部201通过使图3的声音识别部310对由声源分离部303输出的波束调整(强调)的信号声音执行声音识别处理,理解对象者的表达内容。而且,响应该声音识别结果,控制部201按照对话算法并从图3中的发声部311经由图1或图2中的扬声器105,通过发声而与对象者进行对话。

在图3中,声音识别部310通过使用已知的声音识别技术而执行声音识别处理。而且,发声部311通过使用已知的声音合成技术并利用声音合成而执行发声处理。

图4为用于表示图3中的框图结构处理例的流程图。该流程图的处理例被实施为用于实现图3中的框图结构的控制部201的硬件执行的处理、或者被实施为用于图2中的控制部201执行的控制程序205的处理。

首先,图3中的脸部检测部305执行脸部检测处理(步骤s401)。在该脸部检测处理中,例如在声音处理部301输入具有规定阈值以上功率的声音时,从照相机104经由图像输入部304输入的图像中检测脸部区域。作为脸部检测处理可以使用已知的脸部检测技术。例如,可以应用下述文献2所述的任何一种脸部检测技术。

<文献2>

堀田一弘、“小特集脸部识别技术1.脸部识别的研究动向”、[online]、2012年3月28日公开、影像信息媒体学会誌、vol.64,no.4(2010),p.459-462、[2017年6月15日检索]、互联网

<url:https://www.jstage.jst.go.jp/article/itej/64/4/64_4_455/_pdf>

接着,图3中的嘴部件检测部306执行嘴部件检测处理(步骤s402)。作为嘴部件检测处理可以使用已知的脸部部件检测技术。例如,可以应用下述文献3所述的任何一种脸部部件检测技术。

<文献3>

littlewing、“web照相机能够利用的脸部识别技术总结-其2”、[online]、2015年4月7日公开、[2017年6月15日检索]、互联网

<url:http://littlewing.hatenablog.com/entry/2015/04/07/221856>

例如,通过步骤s402的嘴部件检测处理,首先能够获得作为标注有坐标值的脸部部件检测结果。例如作为被标注有脸部部件检测结果的格式例,如图5所示,可以采用下述文献4的图2所示的示例。

<文献4>

c.sagonas,“facialpointannotations”、[online]、[2017年6月15日检索]、互联网

<url:https://ibug.doc.ic.ac.uk/resources/facial-point-annotations/>

在步骤s402的嘴部件检测处理中,例如,自图5所示的脸部部件检测结果中,标签49至68被检测为嘴部件,标签28至36被检测为鼻部件。

接着,图3中的嘴开闭判定部307通过使用由步骤s402计算的嘴部件和鼻部件的标注坐标值(例如图5的标签49~68、标签28~36),执行用于检测嘴唇张开(嘴唇是否张开)或者嘴唇闭合(嘴唇是否闭合)的嘴开闭检测处理(步骤s403)。

在步骤s403中,首先,嘴开闭判定部307计算嘴唇的纵坐标(脸部的上下方向)的变化△y。此刻,在某一时刻的帧f(t)中,通过下述公式(1)的运算,计算y坐标量差分总计y(t)。

y(t)=yy1+yy2···(1)

在公式(1)中,yy1为上嘴唇(下侧)与下嘴唇(上侧)之间的y坐标量差分总计,根据图5的关系并通过下列公式(2)至公式(7)的累计运算进行计算。在这些公式中,运算“+=”表示将右边值加算到左边值中的运算。而且,函数“fabs()”为利用浮点计算括号内数值绝对值的函数。而且,例如,“data.y[61](t)”表示时刻t的帧图像f(t)内图5的标签第61号的y坐标数值。其他也同样。

yy1+=fabs(data.y[61](t)

-data.y[67](t))···(2)

yy1+=fabs(data.y[61](t)

-data.y[58](t))···(3)

yy1+=fabs(data.y[62](t)

-data.y[66](t))···(4)

yy1+=fabs(data.y[62](t)

-data.y[57](t))···(5)

yy1+=fabs(data.y[63](t)

-data.y[65](t))···(6)

yy1+=fabs(data.y[63](t)

-data.y[56](t))···(7)

在公式(1)中,yy2为鼻下部分与下嘴唇部分(上侧)之间的y坐标量差分总计,根据图5的关系,并通过下列公式(8)至公式(12)的运算进行计算。

yy2+=fabs(data.y[31](t)

-data.y[60](t))···(8)

yy2+=fabs(data.y[32](t)

-data.y[61](t))···(9)

yy2+=fabs(data.y[33](t)

-data.y[62](t))···(10)

yy2+=fabs(data.y[34](t)

-data.y[63](t))···(11)

yy2+=fabs(data.y[34](t)

-data.y[64](t))···(12)

在图4的步骤s403中,嘴开闭判定部307接着利用下列公式(13),求出由公式(1)的运算计算的时刻t的帧图像f(t)中y坐标量差分总计y(t)与由同公式(1)同样运算计算的1帧时刻前的时刻(t-1)的帧图像f(t-1)中y坐标量差分总计y(t-1)之间的差分绝对值△y。这里,函数“abs()”为利用整数计算括号内数值绝对值的函数。

δy=abs(y(t)-y(t-1))···(13)

由公式(13)计算的△y表示嘴唇的移动量,当上嘴唇和下嘴唇朝向分离方向或者靠近方向移动时其会变大。即,嘴开闭判定部307作为嘴唇移动量取得部进行工作。

在图4的步骤s403中,嘴开闭判定部307也利用与所述△y同样的运算计算嘴唇横坐标(脸部的左右方向)的变化△x。

即,此刻,在某一时刻的帧f(t)中,通过下列公式(14)的运算,计算x坐标量差分总计x(t)。例如,在公式(14)中,“data.x[61](t)”表示时刻t的帧图像f(t)内图5的标注第61号的x坐标数值。其他也同样。

x(t)=data.x[61](t)+data.x[62](t)

+data.x[63](t)+data.x[67](t)

+data.x[66](t)+data.x[65](t)

···(14)

接着,利用下列公式(15)计算x坐标量差分总计x(t)与x坐标量差分总计x(t-1)之间的差分绝对值△x,其中,所述x坐标量差分总计x(t)由公式(14)的运算计算时刻t的帧图像f(t),所述x坐标量差分总计x(t-1)由同公式(14)同样的运算计算1帧时刻前的时刻(t-1)的帧图像f(t-1)。

δx=abs(x(t)-x(t-1))···(15)

由公式(15)计算的△x的值与△y同样表示嘴唇移动量,并且当嘴唇朝向左右任何一方移动时会变大。此时,嘴开闭判定部307也作为嘴唇移动量取得部进行工作。

在图4的步骤s403中,嘴开闭判定部307接着进行图1的头部101的旋转判定。嘴开闭判定部307根据由图1或者图2中的颈部关节驱动部107输入到控制部201的信号,并利用下列公式(16)、公式(17)和公式(18)计算帧时刻t的帧图像f(t)与其1时刻前的帧时刻(t-1)的帧图像f(t-1)之间的头部姿态差分△roll、△yaw和△pitch。

δroll=abs(f(t)roll-f(t-1)roll)···(16)

δyaw=abs(f(t)yaw-f(t-1)yaw)···(17)

δpitch=abs(f(t)pitch-f(t-1)pitch)

···(18)

这里,例如,f(t)roll为由图1或图2中的颈部关节驱动部107输入到控制部201的翻滚角度值以便与时刻t的帧图像f(t)对应,f(t-1)roll为由图1或图2中的颈部关节驱动部107输入到控制部201的翻滚角度值以便与时刻(t-1)的帧图像f(t-1)对应。偏航角度值f(t)yaw和f(t-1)yaw、俯仰角度值f(t)pitch和f(t-1)pitch也分别同样。图6为示意表示图1中的机器人100的头部101旋转自由度的图。图1或图2中的颈部关节驱动部107能够使机器人100的头部101分别围绕俯仰轴xm、围绕翻滚轴zm、围绕偏航轴ym相对于躯体102旋转。如上所述,颈部关节驱动部107分别向控制部201输出围绕俯仰轴xm的俯仰角度值、围绕翻滚轴zm的翻滚角度值和围绕偏航轴ym的偏航角度值。

在图4的步骤s403中,作为上述公式(16)、公式(17)和公式(18)的运算结果,嘴开闭判定部307计算翻滚角度差分值△roll、偏航角度差分值△yaw和俯仰角度差分值△pitch并作为头部101的旋转角度。此时,嘴开闭判定部307作为用于取得头部101或嘴唇图像旋转量的嘴唇旋转量取得部进行工作。

此外,作为头部101旋转角度的推定方式已知有各种方法,也可以采用上述以外的技术。

在图4的步骤s403中,嘴开闭判定部307根据如上所述的作为嘴唇纵坐标的变化△y、横坐标的变化△x、机器人100的头部101旋转角度的翻滚角度差分值△roll、偏航角度差分值△yaw和俯仰角度差分值△pitch,并按照下面的规则进行嘴唇的开闭判定。即,当由下列公式(19)所示的逻辑式所示的条件被满足时,嘴开闭判定部307判定嘴唇张开(嘴唇张开的状态),而当该条件未被满足时,则判定嘴唇闭合(嘴唇闭合的状态)。此外,在公式(19)中,作为第一阈值的y_th、作为第二阈值的x_th以及作为第三阈值组的roll_th、yaw_th、pitch_th分别为△y、△x、△roll、△yaw和△pitch的判定阈值。

δy>y_th&&

δx<x_th&&

δroll<roll_th&&

δyaw<yaw_th&&

δpitch<pitch_th

···(19)

即,当上嘴唇和下嘴唇朝向分离方向或靠近方向移动时,嘴开闭判定部307判定嘴唇的横向移动量较少,而当机器人100的头部101未旋转太多时判定嘴唇张开。不仅利用△y,而且利用△x、△roll、△yaw和△pitch判定嘴唇的开闭,即使在诸如不同意(左右摆动颈部)或思考时倾斜颈部的动作中,也不容易发生误判定。

返回图4的说明,通过在上述步骤s403中的一系列处理,当嘴开闭判定部307判定嘴唇张开时,执行下述步骤s404至步骤s406的一系列处理。

首先,作为信号声音到来方向的推定处理,图3的声源到来方向推定部302根据图3中的脸部检测部305所检测的脸部图像(=嘴唇图像)的嘴唇方向,执行用于计算嘴唇方向角度s_ang相对于机器人100(的照相机104)的处理(步骤s404)。

接着,例如,图3中的声源分离部303通过执行波束调整运算处理,获得强调的信号声音(步骤s405),其中,所述波束调整运算处理通过所述文献1所述的波束成形运算处理在由步骤s404计算的嘴唇方向角度s_ang方向(第一方向)上进行波束调整(强调)。

接着,图3中的音量计算部308计算在步骤s405中获得的波束调整(强调)后的信号声音的音量spow(步骤s406)。

另一方面,当嘴开闭判定部307通过在步骤s403中的一系列的处理判定嘴唇闭合时,执行以下步骤s407至步骤s409的一系列处理。

首先,图3中的声源到来方向推定部302通过执行基于作为声源定位方法一种的music法的处理,推定来自对象者以外声源的噪声声音的声源定位(噪声源的位置),以便执行用于决定噪声方向角度n_ang的处理(步骤s407)。该处理的具体内容会在后面叙述。

接着,例如,图3中的声源分离部303通过执行调零运算处理,获得抑制的噪声声音(步骤s408),其中,所述调零运算处理通过上述文献1所述的波束成形的运算处理,在步骤s407计算的噪声方向角度n_ang的方向(第二方向)上进行调零(抑制)。

接着,图3中的音量计算部308计算在步骤s408中所获得的调零(抑制)后的噪声声音的音量npow(步骤s409)。

然后,图3中的s/n比计算部309根据在步骤s406中计算的信号声音的音量spow和在步骤s409中计算的噪声声音的音量npow并根据下列公式(20)的运算,计算s/n比。

s/n比=spow/npow···(20)

并且,s/n比计算部309根据下列公式(21)的判定运算,判定计算出的s/n比是否大于阈值sn_th(步骤s410)。

s/n比>sn_th···(21)

当步骤s410的判定为否时,图2中的控制部201判定未获得用于声音识别的足够的s/n比。此时,例如,控制部201通过控制图1或图2中的行驶驱动部108,在维持相对于对象者的一定关系(例如一定距离或一定角度等)的同时,使机器人100移动(步骤s412)。移动的具体内容会在后面叙述。

在机器人100移动之后,再次执行图4中的步骤s401至步骤s409的一系列控制处理,然后进行步骤s410的s/n比的判定。

当步骤s410的判定为是时,图2中的控制部201判定获得用于声音识别的足够的s/n比,且机器人100相对于对象者的位置关系为最能够从噪声声音中成功分离信号声音的最佳位置的声源分离位置。此时,控制部201通过使图3中的声音识别部310对由声源分离部303输出的波束调整(强调)后的信号声音执行声音识别处理,理解对象者的说话内容。而且,控制部201响应该声音识别结果,按照对话算法,从图3中的发声部311经由图1或图2的扬声器105而与对象者进行对话(以上,步骤s412)。在对话结束之后,图2中的控制部201结束由图4中的流程图所示的控制处理。

图7为用于表示下述处理的详细例的流程图,当嘴开闭判定部307通过图4中的步骤s403一系列处理而判定嘴唇闭合时,在步骤s407由图3中的声源到来方向推定部302根据music法执行的、推定来自对象者以外声源的噪声声音声源定位(噪声源的位置)并决定噪声方向角度n_ang。

首先,输入到图1或图2中的麦克风阵列103的声音被时频转换(步骤s701)。这里,例如作为时频转换运算处理执行stft(short-timefouriertransform:短时傅里叶转换)。

当声源数为n时,可以用下列公式(22)表示第n号声源的信号sn。此外,ω为角频率,f为帧号(以下的说明也同样)。

sn(ω,f)(n=1,2,…,n)···(22)

当麦克风阵列103中的扬声器数为m时,可以用下列公式(23)表示由图1或图2中的麦克风阵列103的各扬声器观测的信号。

xm(ω,f)(m=1,2,···,m)···(23)

尽管从声源发出的声音通过空气传递并由麦克风阵列103的麦克风观测,但当此时的传递函数为hnm(ω)时,通过用传递函数乘以用于表示声源信号的方程式,能够求得由麦克风阵列103的各麦克风观测的信号。可以用下列公式(24)表示由第m号的扬声器观测的信号xm(ω,f)。

【方程1】

由于机器人100的麦克风阵列103具有多个麦克风,因此,可以用下列公式(25)表示由麦克风阵列103整体观测的信号x(ω,f)。

【方程2】

同样,也可以用下列公式(26)表示全声源的信号s(ω,f)。

【方程3】

同样,可以用下列公式(27)表示第n号的声源传递函数hn(ω)。

【方程4】

下列公式(28)表示全部传递函数。

h(ω)=[h1(ω),h2(ω),…hn(ω)]···(28)

当将公式(28)所表示的传递函数应用于所述的公式(24)时,用下列公式(29)表示所述传递函数。

x(ω,f)=h(ω)s(ω,f)···(29)

hn(ω)在每个声源位置独立,由于从一定程度的帧数(例如帧数为l)角度来看,sn(ω,f)可被认为不相关,因此x(ω,f)构成以声源数n为rank的超平面。此时,分布容易向通过距离归一化后的较大音量传递函数方向延展。因此,考虑分解成部分空间和零空间。

再次参照图7。如下列公式(30)所示,计算相关矩阵(步骤s702)。这里,“*”表示复共轭变换。

【方程5】

接着,执行特征值分解(步骤s703)。这里,特征值λm(ω,f)和特征向量em(ω,f)以特征值降序的方式重排。

原则上,尽管hn(ω)能够从部分空间的特征向量em(ω,f)(m=1~n)的加权和恢复,但实际上由于恢复困难,因而通过用于构成零空间的特征向量em(ω,f)(m=n+1~m)与hn(ω)正交而实现声源定位。

但是,例如,由于噪声声音的声源可能在建筑物室内移动,因而无法预先知道声源位置,从而难以预先取得声源位置的传递函数。因此,先决定暂时的声源位置并预先准备暂时的声源位置传递函数,以便进行声源定位。

图8为用于表示暂时声源位置和扬声器配置一示例的图。在图8中,粗线圆表示机器人100的头部110,粗线上的黑圈表示麦克风阵列103的麦克风。此外,这里,方便起见未示出图1中的麦克风阵列103的全部13个麦克风。并认为在机器人100周围存在4个暂时的声源位置。

由于多个麦克风阵列103的麦克风配置在机器人100的头部110上,因而可认为其沿圆周配置。将x轴正向与分别连接各麦克风构成的圆中心(相当于机器人100的头部110的中心位置)和暂时声源1~4的线之间的角度设定为θ1、θ2、θ3、θ4,预先计算各自的传递函数hθ(ω)。

尽管在图8中示出了声源为4个的示例,但当声源数为n个时,也可以预先计算θ1、θ2、…、θn各自的传递函数hθ(ω)。或者也可以代替准备暂时的声源位置的传递函数而根据几何信息预先计算传递函数。

再次参照图7。通过使用下列公式(31)而计算每个频带的music谱(步骤s704)。

【方程6】

这里,公式(31)的分母不会因噪音、误差、stft中频带间的信号漏损的影响等而为零。而且,当声源方向接近预先决定的角度θ(θ1、θ2、…、θn)中的任何一个时,即,当hn(ω)与hθ(ω)接近时,公式(31)的值会非常大。在图8所示的示例中,由于噪声声音的声源与暂时声源的位置接近,当使用θ2的传递函数时,假设公式(31)的值会非常大。

下面,为了求得综合music的功率,通过下列公式(32)的运算,对各频带的music谱进行加权相加(步骤s705)。

【方程7】

如果特征值λm(ω,f)越大则加权系数越大,也可以根据包含于sn(ω,f)中的功率进行计算。此时,能够减少在sn(ω,f)中几乎没有功率时的负面影响。

最后,从功率谱中选择适当的峰值(极大值)(步骤s706)。具体而言,首先,计算多个峰值,并从中选择适当的峰值,将选择的峰值中的θ作为图4的步骤s407说明的噪声声音声源方向的噪声方向角度n_ang。这里,基于以下理由求得峰值。本来声源方向的θ的功率并一定为最大,但由于接近本来声源方向θ的功率通常较大,因而正确的声源方向为多个峰值中的任何一个。然后,结束图7中的流程图的处理,并结束图4中的步骤s407的噪声声音声源到来方向推定处理。

尽管在以上的说明中,通过假定平面为噪声声音声源到来方向进行了说明,但假定三维空间也适用于上述说明。

图9为用于表示图1或图2中麦克风阵列103指向特性示例的图,图10至图12为声源分离方向检测的说明图。在图9中,麦克风阵列103在120度附近并在各频率均匀地获得负增益。因此,如下列公式(33)所示且由图4的步骤s407所计算的嘴唇方向角度的对象者信号声音方向s_ang与由步骤s407所计算的噪声方向角度n_ang之间的差分绝对值为120度左右的声源分离方向是能够期待的最佳声源分离方向。

abs(s_ang-n_ang)···(33)

作为由图4中的步骤s410判定为否→s411→s401所执行处理而实现的算法,对机器人100的每个位置,由前述的公式(21)的判定运算判定由前述的公式(20)计算的信号声音相对于噪声声音的s/n比是否超过阈值sn_th,并重复前述的图4中的步骤s411的机器人100的移动处理,将s/n比被判定为超过阈值sn_th的地点作为信号声音与噪声声音之间的最佳分离位置、即声源分离位置。

此外,也可以代替s/n比超过阈值sn_th的地点而将超过阈值后s/n比成为最高的地点作为声源分离位置。

例如,图10表示被计算为s_ang=0度、n_ang=10度状态的示例。当自机器人100的照相机104(图1)观察时,噪声声源位于对象者的右10度方向。从该状态,图2的控制部201控制图1或图2中的行驶驱动部108以对象者为中心,例如朝向右方向(图10的方向a)移动机器人100。当然也可以向左方向移动。但在图10的示例的情况下,向右方向移动能够以最短距离靠近声源分离位置。图11为用于表示上述移动后的机器人100、对象者和噪声声源之间的位置关系的图。通过重复这种移动,机器人100最终移动至图12所示的声源分离位置,从而结束移动。当麦克风阵列103具有图9所示的指向特性时,该声源分离位置是由公式(33)计算的信号声音方向s_ang与噪声方向角度n_ang之间的差分绝对值为120度左右的位置。

在上述的动作中,优选,在移动开始时,图2的控制部201通过使图3的发声部311发出“将向容易听取的位置移动”等声音,说出诸如在移动中请停止对话的词句。而且,也可以构成为能够在移动中进行对话。

在由上述的图4的流程图所示的控制处理中,作为由s/n比计算部309在步骤s410的判定结果,当s/n比为阈值sn_th以下时,控制部201也可以进行下述控制,例如经由图3的发声部311并从图1或图2的扬声器105向对象者发出诸如“请以我为中心移动旋转大约…度”意思的声音,催促对象者移动。

而且,在进行上述的发声的同时,也可以进行下述控制,例如直到持续获得的噪声方向角度n_ang达到有利角度为止,通过发出“稍微多些”或“停止”等声音而指示对象者。

例如,当可以利用建筑物室内的地图信息时,也可以进行下述控制,例如在地图上推定对象者或噪声的二维或三维声源位置,并根据该推定结果向声源分离位置移动。也可以通过尽可能靠近噪声声源并确定该位置进行登录而制作声源位置的地图。

另一方面,当没有声源位置地图时,也可以根据在移动机器人100过程中获得的噪声方向、该时的位置以及机器人100本体的方向而推定噪声的声源位置。此时,如果有两个以上的观测点,则能够决定声源位置。也可以在推定方向上具有一定的误差,以便从更多的观测点进行推定。

而且,也可以根据使用上述地图信息的噪声声源位置的推定结果,进行下述控制,例如通过发出诸如“再旋转…度”的声音而指示对象者。

在上述的实施方式中,在机器人100移动至声源分离位置过程中,当机器人100朝向别的地方移动或机器人100随意移动时,由于对象者会感到奇怪,因而优选移动至声源分离位置以使对象者不感觉到奇怪。例如,优选,在与对象者进行目光接触并朝向对象者的同时移动至声源分离位置。而且,不用不停地移动至声源分离位置,也可以通过稍微移动或仅旋转而移动至声源分离位置。

按照上述的实施方式,可在最成功从噪声声音中分离信号声音的状态下检测能够使声源分离的最佳声源分离信息(声源分离方向或声源分离位置)。由此,能够通过排除对象者声音以外的其他声音而减少声音识别的误识别。

在上述的实施方式中,当图2中的控制部201通过执行存储于存储部202中或者由图4或图7的流程图处理例所示的控制程序205而实现图3所示的功能时,例如,控制程序205可以记录在外部存储装置或移动存储介质中进行分配,或者也可以经由未特别图示的无线或有线通信接口而从网络中获得。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1