信息处理装置、信息处理方法和程序与流程

文档序号:21830249发布日期:2020-08-11 21:58阅读:176来源:国知局
信息处理装置、信息处理方法和程序与流程

本公开涉及信息处理装置、信息处理方法和程序。



背景技术:

近年来,已经开发了估计诸如用户的话语的声源方向并且根据声源方向执行运动的各种设备。上述设备的示例包括基于估计的声源方向执行自主运动的自主移动体。例如,ptl1公开了一种当估计的声源方向的可靠性为低时执行预设运动的机器人。

引用列表

专利文献

ptl1:日本专利申请公开第2012-40655号



技术实现要素:

本发明要解决的问题

然而,假定ptl1中描述的机器人在非常有限的环境中操作,诸如在会议室中由扬声器围绕的情况中操作,并且因此还假定这样的情况,其中机器人在偏离上述假定的环境中可能无法获得令人满意的效果。

因此,本公开提出了新颖且改进的信息处理装置、信息处理方法和程序,并且使其能够基于估计的声源方向来实现自主移动体的更加自然和灵活的动作。

解决问题的方案

根据本公开,提供了一种信息处理装置,其包括:动作规划单元,其对基于识别处理动作的移动体进行动作规划;以及评估部,其评估所估计的声源方向的可靠性,其中,动作规划单元基于由评估部做出的对可靠性的评估结果和过去的评估成果,来规划与声源方向相对应的移动体的方向相关运动。

此外,根据本公开,提供了一种信息处理方法,其包括使处理器:对基于识别处理动作的移动体进行动作规划;以及评估所估计的声源方向的可靠性,其中,执行动作规划还包括基于对可靠性的评估结果和过去的评估成果,来规划与声源方向相对应的移动体的方向相关运动。

此外,根据本公开,提供了一种使计算机用作信息处理装置的程序,其中信息处理装置包括:动作规划单元,其对基于识别处理动作的移动体进行动作规划;以及评估部,其评估所估计的声源方向的可靠性,其中,动作规划单元基于由评估部做出的对可靠性的评估结果和过去的评估成果,来规划与声源方向相对应的移动体的方向相关运动。

本发明的效果

如上所述,根据本公开,可以基于所估计的声源方向来实现自主移动体的更加自然和灵活的动作。

应注意,上述效果不必是限制性的;除了上述效果之外或代替上述效果,可以实现本说明书中描述的任何效果或可以从本说明书掌握的其他效果。

附图说明

[图1]示出了根据本公开的实施例的自主移动体的硬件配置示例。

[图2]是包括在根据本公开的实施例的自主移动体中的致动器的配置示例。

[图3]是包括在根据本公开的实施例的自主移动体中的致动器的操作的说明图。

[图4]是包括在根据本公开的实施例的自主移动体中的致动器的操作的说明图。

[图5]是包括在根据本公开的实施例的自主移动体中的显示器的功能的说明图。

[图6]示出了根据本公开的实施例的自主移动体的运动示例。

[图7]示出了根据本公开的实施例的系统配置的示例。

[图8]示出了根据本公开的实施例的自主移动体的功能配置示例。

[图9]是集中于根据本公开的实施例的自主移动体的声源方向估计的功能框图的示例。

[图10]示出了根据本公开的实施例的信息处理服务器的功能配置示例。

[图11]是空间位置和声源方向估计的精度的关系的说明图。

[图12]是根据本公开的第一实施例的基于用户识别的可靠性评估的说明图。

[图13]是根据相同的实施例的基于障碍物地图的可靠性评估的说明图。

[图14]是根据相同的实施例的基于可靠性地图的可靠性评估的说明图。

[图15]是根据相同的实施例的基于存在概率地图的可靠性评估的说明图。

[图16]示出了根据相同的实施例的评估结果保持部保持的过去评估成果的示例。

[图17]是根据相同的实施例的基于用户指定的动作规划的说明图。

[图18]是根据相同的实施例的基于地图信息的方向权重的示例。

[图19]示出了根据相同的实施例的基于地图信息使用方向权重进行声源方向估计的示例。

[图20]示出了根据相同的实施例的基于图像信息的方向权重的示例。

[图21]示出了根据相同的实施例的基于图像信息使用方向权重进行声源方向估计的示例。

[图22]是根据相同的实施例的基于地图信息和图像信息计算方向权重的说明图。

[图23]示出了根据相同的实施例的基于地图信息和图像信息的方向权重的示例。

[图24]示出了根据相同的实施例的声源定位部计算出的各方向范围内的特征量的示例。

[图25]示出了根据相同的实施例的声源定位部对方向权重积分后的特征量的示例。

[图26]是示出根据相同的实施例的基于自主移动体进行的声源方向估计的动作规划的流程的流程图。

[图27]是根据本公开的第二实施例的基于语音识别的难度来控制麦克风孔的屏蔽状态的说明图。

[图28]示出了根据本公开的实施例的信息处理服务器的硬件配置示例。

具体实施方式

在下文中,参照附图详细描述本公开的优选实施例。应当注意,在本说明书和附图中,通过指定相同的附图标记,对于基本上具有相同功能配置的部件省略了重复的描述。

应当注意,以下面的顺序给出描述。

1.配置

1.1.自主移动体10的概述

1.2.自主移动体10的硬件配置示例

1.3.系统配置示例

1.4.自主移动体10的功能配置示例

1.5.信息处理服务器20的功能配置示例

2.第一实施例

2.1.概述

2.2.声源方向估计的可靠性评估

2.3.基于可靠性评估的动作规划

2.4.基于方向权重的声源方向估计

2.5.基于声源方向估计的动作规划流程

3.第二实施例

3.1.概述

3.2.麦克风孔屏蔽控制

4.硬件配置示例

5.结论

<1.配置>

<1.1.自主移动体10的概述>

首先,给出了根据本公开的实施例的自主移动体10的概述的描述。根据本公开的实施例的自主移动体10是信息处理装置,其基于所收集的传感器信息来估计情况,并且根据情况自主地选择和执行各种运动。自主移动体10的特征之一是自主地执行假定对于每种情况最佳的运动,这不同于简单地遵照用户指令执行运动的机器人。

根据本公开的实施例的自主移动体10能够例如估计已经发出话语的用户的方向,并且根据该方向执行各种运动(在下文中,也称为方向相关运动)。这里,例如,方向相关运动包括诸如在用户的方向上转动头部或视线,或在用户的方向上行进(移动)的运动。

此外,根据本公开的实施例的自主移动体10能够评估所估计的声源方向的可靠性,并且基于评估结果执行自主运动。例如,在声源方向的可靠性为低的情况下,自主移动体10可以采取诸如移动到使得更容易检测用户话语的方向的位置处的动作,以便提高用户的下一话语的声音定位的准确度。

以这种方式,根据本公开的实施例的自主移动体10类似于包括人的动物来全面地判断其自身的状态、周围环境等,从而确定并执行自主运动。在上述方面,根据本公开的实施例的自主移动体10明显不同于基于指令执行相应的运动或处理的被动设备。

根据本公开的实施例的自主移动体10可以是在空间中执行自主姿势控制并且执行各种运动的自主移动型机器人。自主移动体10例如可以是具有模拟人或诸如狗的动物的形状并且具有运动能力的自主移动型机器人。此外,自主移动体10可以是例如诸如具有与用户的通信能力的车辆或无人飞行器的设备。可以根据目的和角色适当地设计根据本公开的实施例的自主移动体10的形状、能力或期望水平。

<1.2.自主移动体10的硬件配置示例>

接着,给出了根据本公开的实施例的自主移动体10的硬件配置示例的描述。应当注意,在下文中,举例来说,对自主移动体10为狗型四足步行机器人的情况给出了描述。

图1示出了根据本公开的实施例的自主移动体10的硬件配置示例。如图1所示,自主移动体10是具有头部、躯干、四个腿部和尾部的狗型四足步行机器人。此外,自主移动体10在头部设有两个显示器510。

此外,自主移动体10包括各种传感器。自主移动体10包括例如麦克风515、相机520、tof(飞行时间)传感器525、人类检测传感器530、距离测量传感器535、触摸传感器540、照度传感器545、脚底按钮550和惯性传感器555。

(麦克风515)

麦克风515具有收集周围声音的功能。该声音包括例如用户的话语或周围环境的声音。自主移动体10可以包括例如头部上的4个麦克风。提供多个麦克风515使得能够以高灵敏度收集在周围环境中产生的声音并且实现声音定位。

(相机520)

相机520具有捕获用户或周围环境的图像的功能。自主移动体10可以包括例如在鼻尖和腰部的两个广角相机。在这种情况下,设置在鼻尖处的广角相机捕获与自主移动体10的前视场(即,狗的视场)相对应的图像,并且腰部处的广角相机捕获以上侧为中心的周围区域的图像。自主移动体10能够例如基于由设置在腰部的广角相机捕获的图像来提取天花板的特征点,以实现slam(同步定位与地图构建)。

(tof传感器525)

tof传感器525具有检测相对于存在于头部前方的物体的距离的功能。tof传感器525设置在头部的尖端。根据tof传感器525,可以高准确度地检测相对于各种物体的距离,从而可以实现与相对于包括用户在内的物体和障碍物的相对位置相对应的运动。

(人类检测传感器530)

人类检测传感器530具有检测用户或由用户饲养的宠物的位置的功能。人类检测传感器530例如设置在胸部。根据人类检测传感器530,检测存在于前方的动物体,使得可以实现动物体的各种运动,例如,诸如与感兴趣、恐惧和惊喜的情绪相对应的运动。

(距离测量传感器535)

距离测量传感器535具有获得自主移动体10的前方的地板表面的情况的功能。距离测量传感器535例如设置在胸部。根据距离测量传感器535,可以高精度地检测相对于存在于自主移动体10的前方的地板表面上的物体的距离,从而可以实现与相对于物体的相对位置相对应的运动。

(触摸传感器540)

触摸传感器540具有检测用户的接触的功能。触摸传感器540例如设置在用户极有可能触摸自主移动体10的位置处,诸如头部的顶部、下颌或背部。触摸传感器540可以是例如电容式或压敏触摸传感器。根据触摸传感器540,可以检测诸如用户的触摸、敲击、轻敲或推动的接触动作,从而使得可以执行与接触动作相对应的动作。

(照度传感器545)

照度传感器545检测自主移动体10所位于的空间中的照度。照度传感器545可以布置在例如头部的后表面上的尾部的根部处。根据照度传感器545,可以检测周围亮度并且执行与该亮度相对应的运动。

(脚底按钮550)

脚底按钮550具有检测自主移动体10的腿部的底表面是否与地板接触的功能。为此,脚底按钮550设置在与4个腿部的衬垫相对应的位置中的每一个处。根据脚底按钮550,可以检测自主移动体10与地板表面之间的接触或非接触,从而使得自主移动体10可以理解(grasp)例如已经被用户抬起。

(惯性传感器555)

惯性传感器555是检测诸如头部和躯干的速度、加速度和旋转的物理量的六轴传感器。即,惯性传感器555检测x轴、y轴和z轴的加速度和角速度。惯性传感器555设置在头部和躯干中的每一个处。根据惯性传感器555,可以高精度地检测自主移动体10的头部和躯干的运动,从而可以实现取决于情况的运动控制。

以上描述了包括在根据本公开的实施例的自主移动体10中的传感器的示例。应当注意,以上参照图1描述的配置仅仅是示例,可以包括在自主移动体10中的传感器的配置并不局限于这种示例。除了上述配置之外,自主移动体10还可以包括各种通信装置,其包括例如温度传感器、地磁传感器或gnss(全球导航卫星系统)信号接收器。可以根据规格和操作灵活地修改自主移动体10中所包括的传感器的配置。

随后,给出了根据本公开的实施例的自主移动体10的关节的配置示例的描述。图2是包括在根据本公开的实施例的自主移动体10中的致动器570的配置示例。根据本公开的实施例的自主移动体10除了图2所示的旋转点之外还具有总共22个旋转自由度,耳部和尾部中的每一个具有两个旋转自由度,并且嘴部具有一个旋转自由度。

例如,自主移动体10的头部具有三个自由度,从而使得能够实现俯垂和颈部倾斜运动。此外,自主移动体10利用设置在腰部的致动器570再现腰部的摆动运动,从而可以实现更接近真实狗的自然和灵活的运动。

应当注意,根据本公开的实施例的自主移动体10可以例如组合单轴致动器和双轴致动器,从而实现上述22个旋转自由度。例如,单轴致动器可以用于腿部的肘部和膝部处,双轴致动器可以用于肩部和大腿的基部处。

图3和图4分别是根据本公开的实施例的自主移动体10中包括的致动器570的运动的说明图。参照图3,致动器570使用马达575旋转输出齿轮,从而以任何旋转位置和旋转速度驱动可动臂590。

参照图4,根据本公开的实施例的致动器570包括后盖571、齿轮箱盖572、控制基板573、齿轮箱基部574、马达575、第一齿轮576、第二齿轮577、输出齿轮578、检测磁体579和两个轴承580。

根据本公开的实施例的致动器570可以是例如磁性svgmr(自旋阀巨磁阻)。控制基板573基于主处理器的控制使马达575旋转,由此经由第一齿轮576和第二齿轮577将动力传输至输出齿轮578,由此能够驱动可动臂590。

此外,包括在控制基板573中的位置传感器检测与输出齿轮578同步旋转的检测磁体579的旋转角度,从而以高精度检测可动臂590的旋转角度,即,旋转位置。

应当注意,磁性svgmr由于其非接触类型而具有优异的耐久性,并且当在gmr饱和区域中使用时,其受到由于检测磁体579和位置传感器的距离变化而引起的信号变化的影响较小。

在上文中,给出了包括在根据本公开的实施例的自主移动体10中的致动器570的配置示例的描述。根据上述配置,能够高精度地控制自主移动体10的关节的弯曲和伸展运动,并且能够精确地检测关节的旋转位置。

随后,参照图5,给出了包括在根据本公开的实施例的自主移动体10中的显示器510的功能的描述。图5是根据本公开的实施例的自主移动体10中所包括的显示器510的功能的说明图。

(显示器510)

显示器510具有可视地表示自主移动体10的眼睛的运动和情绪的功能。如图5所示,显示器510能够响应于情绪和运动来表示眼球、瞳孔和眼睑的运动。显示器510并不有意地显示与眼球等的运动无关的字母、符号、图像,从而产生接近动物(诸如真实的活狗)的自然运动。

此外,如图5所示,自主移动体10包括分别对应于右眼和左眼的两个显示器510r和510l。显示器510r和510l,例如,通过两个独立的oled(有机发光二极管)实现。根据oled,与一对眼球由一个平板显示器表示的情况或两个眼球由各自两个独立的平板显示器表示的情况相比,这可以再现眼球的弯曲表面,从而可以实现更自然的外观。

如上所述,根据显示器510r和510l,能够以高精度和灵活性来表示如图5所示的自主移动体10的视线和情绪。此外,用户可以从显示在显示器510上的眼球的运动中直观地了解自主移动体10的状态。

在上文中,给出了根据本公开的实施例的自主移动体10的硬件配置示例的描述。根据上述配置,以高精度和灵活性控制自主移动体10的关节和眼球的运动,使得能够实现更接近真实生物的运动和情绪表示,如图6所示。应当注意,图6示出了根据本公开的实施例的自主移动体10的运动示例;然而,图6以简化的方式示出了自主移动体10的外部结构,以集中描述自主移动体10的关节和眼球的运动。类似地,在以下描述中,可以在一些情况下以简化的方式示出自主移动体10的外部结构;然而,根据本公开的实施例的自主移动体10的硬件配置和外部不限于附图中所示的示例,并且可以适当地设计。

<<1.3.系统配置示例>>

接着,给出了根据本公开的实施例的系统配置示例的描述。图7示出了根据本公开的实施例的系统配置的示例。参照图7,根据本公开的实施例的信息处理系统可以包括多个自主移动体10和信息处理服务器20。应当注意,自主移动体10和信息处理服务器20以及多个自主移动体10经由网络30相互联接。

(自主移动体10)

根据本公开的实施例的自主移动体10是信息处理装置,其基于所收集的传感器信息来估计情况,并且响应于情况自主地选择并且执行各种运动。如上所述,根据本公开的实施例的自主移动体10可以是例如具有模拟人或动物(诸如狗)的形状并且具有运动能力的自主移动型机器人。

(信息处理服务器20)

根据本公开的实施例的信息处理服务器20是信息处理装置,其联接到多个自主移动体10,并且具有从自主移动体10收集各种类型的信息的功能。例如,信息处理服务器20能够累积从每个自主移动体10收集的运动历史,并且基于该运动历史执行各种分析。此外,根据本公开的实施例的信息处理服务器20可以将上述分析的结果分发到多个自主移动体10。

(网络30)

网络30具有将自主移动体10和信息处理服务器20彼此联接以及将多个自主移动体10彼此联接的功能。网络30可以包括诸如互联网的公共网络、电话网络、卫星通信网络、包括以太网(注册商标)的各种类型的lan(局域网)和wan(广域网)。此外,网络30可以包括专用网络,诸如ip-vpn(互联网协议-虚拟专用网络)。此外,网络30可以包括无线通信网络,诸如wi-fi(注册商标)或蓝牙(注册商标)。

在上文中,给出了根据本公开的实施例的系统配置示例的描述。应当注意,上述参照图7的配置仅仅是示例,并且根据本公开的实施例的信息处理系统的配置不限于这种示例。例如,除了信息处理服务器20之外,自主移动体10还可以与各种外部设备执行信息通信。上述外部设备的示例可以包括传送关于天气、新闻和其他服务的信息的服务器;用户所拥有的各种信息处理终端;家用电器等。可以根据规格和操作灵活地修改根据本公开的实施例的系统配置。

<<1.4.自主移动体10的功能配置示例>>

接着,给出了根据本公开的实施例的自主移动体10的功能配置示例的描述。图8示出了根据本公开的实施例的自主移动体10的功能配置示例。参照图8,根据本公开的实施例的自主移动体10包括输入单元110、识别单元120、学习单元130、动作规划单元140、操作控制单元150、驱动单元160、输出单元170和服务器通信单元180。

(输入单元110)

输入单元110具有收集关于用户和周围环境的各种类型的信息的功能。输入单元110收集例如用户的话语、周围环境中产生的环境声音、关于用户和周围环境的图像信息,以及各种类型的传感器信息。为此,输入单元110包括图1所示的各种传感器。

(识别单元120)

识别单元120具有基于由输入单元110收集的各种类型的信息,执行用户、周围环境和自主移动体10的状态的各种识别的功能。例如,识别单元120可以执行人类识别、面部表情和视线的识别、物体识别、颜色识别、形状识别、标记识别、障碍物识别、台阶识别、亮度识别等。

此外,识别单元120执行用户语音的情绪识别、单词理解、声音定位等。此外,识别单元120能够识别由用户等进行的接触、周围温度、动物体的存在、自主移动体10的姿势等。

此外,识别单元120具有基于上述识别信息来估计和理解自主移动体10所处的周围环境和情况的功能。此时,识别单元120可以使用预先存储的环境知识来执行情况的全面估计。

(学习单元130)

学习单元130具有学习环境(情况)和动作、以及动作对环境的影响的功能。学习单元130例如使用诸如深度学习(deeplearning)的机器学习算法来实现上述的学习。应当注意,学习单元130所采用的学习算法并不限于上述示例,也可以适当地设计。

(动作规划单元140)

动作规划单元140具有基于由识别单元120估计的情况和由学习单元130学习的知识,来规划由自主移动体10执行的动作的功能。稍后将分别描述根据本公开的实施例的动作规划单元140的功能的细节。

(操作控制单元150)

操作控制单元150具有基于由动作规划单元140执行的动作规划,来控制驱动单元160和输出单元170的操作的功能。例如,操作控制单元150基于上述动作规划,执行致动器570的旋转控制、显示器510的显示控制、扬声器的声音输出控制等。分别描述根据本公开的实施例的操作控制单元150的功能的细节。

(驱动单元160)

驱动单元160具有在操作控制单元150的控制下弯曲和伸展自主移动体10的多个关节的功能。更具体地,驱动单元160在操作控制单元150的控制下驱动包括在各自的关节中的致动器570。

(输出单元170)

输出单元170具有在操作控制单元150的控制下输出视觉信息和声音信息的功能。为此,输出单元170包括显示器510或扬声器。

(服务器通信单元180)

服务器通信单元180具有与信息处理服务器20和另一自主移动体10执行信息通信的功能。例如,服务器通信单元180向信息处理服务器20传送关于由识别单元120识别的情况的信息等。此外,例如,服务器通信单元180从信息处理服务器20接收推荐动作和关于推荐动作的控制顺序数据。

在上文中,给出了根据本公开的实施例的自主移动体10的基本配置示例的描述。随后,给出了集中于根据本公开的实施例的自主移动体10的声源方向估计的功能配置示例的详细描述。图9是集中于根据本公开的实施例的自主移动体10的声源方向估计的功能框图的示例。

参照图9,根据本公开的实施例的识别单元120包括信号处理器310、语音识别部320、开关330、评估部340、评估结果保持部350、地图信息保持部360和方向权重计算部370。

(信号处理器310)

信号处理器310基于由包括在输入单元110中的多个麦克风515收集的声音信息执行信号处理。信号处理器310包括声源定位部312和语音增强部314。

((声源定位部312))

声源定位部312基于从输入单元110输入的声音信息执行声源方向估计,即,声音定位。声源定位部312能够估计例如用户已经发出话语的方向等。

此外,声源定位部312可以基于由方向权重计算部370计算的方向权重来执行声源方向估计。对声源定位部312的上述功能的详细内容分别进行描述。

((语音增强部314))

语音增强部314对从输入单元110输入的声音信息执行噪声去除等,并且增强目标声音(例如,用户的话语)。语音增强部314可以使用例如诸如波束形成或谱减法的技术来实现语音增强。

(语音识别部320)

语音识别部320基于由语音增强部314增强的语音信息执行语音识别。此外,在确定所识别的语音是对自主移动体10的呼叫的情况下,诸如“过来”、“一起玩耍”或“可爱”,语音识别部320控制开关330以允许将由声源定位部312估计的估计声源方向输入到评估部340。

(开关330)

开关330基于由语音识别部320做出的上述确定的结果,接通和断开与从声源定位部312到评估部340的输入有关的电路。

(评估部340)

评估部340评估由声源定位部312估计的声源方向的可靠性。此时,根据本公开的实施例的评估部340的特征之一是基于过去的评估成果来评估上述可靠性。后面将分别描述评估部340的功能细节。

(评估结果保持部350)

评估结果保持部350保持由评估部340进行的声源方向的可靠性评估结果。评估结果保持部350所保持的可靠性评估(评估成果)的结果,被用于动作规划单元140执行的动作规划。

(地图信息保持部360)

地图信息保持部360保持与自主移动体10所在的空间有关的各种地图信息。上述地图信息例如包括装设有自主移动体10的用户的家的房间布局、障碍物、家具安装状态等。

(方向权重计算部370)

方向权重计算部370基于地图信息保持部360所保持的地图信息、自主移动体10所拍摄的图像的信息等、自主移动体10的姿势状态等,对声源估计执行方向权重。应当注意,本公开的姿势包括自主移动体10的三轴姿势和位置。稍后将分别描述方向权重计算部370的功能的细节。

在上文中,参照图8和图9给出了根据本公开的实施例的自主移动体10的功能配置示例的描述。应当注意,上述参照图8和图9的配置仅仅是示例,根据本公开的实施例的自主移动体10的功能配置并不限于这种示例。根据本公开的实施例的自主移动体10的功能配置可以根据规格和操作灵活地修改。

<<1.5.信息处理服务器20的功能配置示例>>

接着,给出了根据本公开的实施例的信息处理服务器20的功能配置示例。图10示出了根据本公开的实施例的信息处理服务器20的功能配置示例。参照图10,根据本公开的实施例的信息处理服务器20包括累积单元210、分析单元220和终端通信单元230。

(累积单元210)

累积单元210从多个自主移动体10收集关于声源方向估计的运动历史和评估成果,并且累积这种信息。

(分析单元220)

分析单元220基于由累积单元210累积的信息执行各种分析。分析单元220能够基于由多个自主移动体10收集和累积的关于声源方向估计的评估成果,分析例如在典型的日式公寓中的声源方向估计的可靠性的趋势等。

此外,分析单元220具有经由终端通信单元230将如上所述的分析结果、和由累积单元210累积的评估成果分发给多个自主移动体10的功能。根据分析单元220的上述功能,多个自主移动体10可以共享关于声源方向估计的可靠性的评估成果,而不限制于每个个体的评估成果,从而可以实现更加灵活和高效的动作规划。

(终端通信单元230)

终端通信单元230具有经由网络30与多个自主移动体10执行信息通信的功能。终端通信单元230例如从自主移动体10接收关于声源方向估计的评估成果。此外,终端通信单元230例如在分析单元220的控制下,向多个自主移动体10传送上述评估成果和关于评估成果的分析结果。

在上文中,给出了根据本公开的实施例的信息处理服务器20的功能配置示例。应当注意,上述参照图10描述的配置仅仅是示例,并且根据本公开的实施例的信息处理服务器20的功能配置不限于这种示例。例如,信息处理服务器20还可以包括实现与自主移动体10的动作规划单元140和评估部340的功能类似的功能的配置。根据本公开的实施例的信息处理服务器20的功能配置可以根据规格和操作灵活地修改。

<2.第一实施例>

<<2.1.概述>>

接着,给出了本公开的第一实施例的描述。如上所述,根据本公开的实施例的自主移动体10能够估计包括用户话语等的声源的方向,并且能够基于该方向执行各种自主运动。例如,自主移动体10能够执行诸如对用户对自己的呼叫进行反应以在所检测的话语的方向上转动头部或视线、或者在该方向上行进(移动)的动作。

然而,在除了用户的话语之外的声音(噪声)大的环境、在反射波的强影响下的环境、在强混响下的环境等的情况下,假定可能将错误方向检测为声源方向。在这种情况下,自主移动体10可以在与用户发出话语的方向不同的方向上转动视线或移动,从而导致用户强不适感或压力。

为了避免上述情况,例如,如ptl1中所述,假定可以评估所估计的声源方向的可靠性,并且在可靠性低的情况下,可以执行预定运动。根据该方法,即使在声源方向估计的可靠性低的情况下,也能够实现用户假定下的运动,由此能够减轻用户的不适感和压力。

然而,ptl1中描述的机器人被假定为在噪声和反射波的影响小的环境中操作,并且几乎不存在用户和机器人的任何移动(位置改变),诸如会议室中的用户所围绕的情况。同时,在如根据本公开的实施例的自主移动体10中那样在宽范围的空间中自主移动的情况下,假定反射波和噪声的影响程度在很大程度上取决于空间中自身的位置和姿势而不同。

图11是空间位置与声源方向估计的精度的关系的说明图。图11示出了自主移动体10的位置,其在用户和用户u的自己的家等的空间中执行自主移动。

这里,例如,在自主移动体10位于诸如位置p1的开放位置并且自主移动体10与用户u之间不存在障碍物的情况下,自主移动体10能够由于反射波的小影响而执行高精确的声源方向估计。

同时,在自主移动体10存在于诸如位置p2的由诸如墙壁和家具的障碍物所包围的位置处的情况下,假定由于来自障碍物的反射波的大影响,由自主移动体10估计用户u的话语方向的精度大大降低。

对于自主地在宽区域上移动的自主移动体10,这种反射波的影响难以避免,并且使用声音信号处理来消除这种影响也是困难的。此外,在装设自主移动体10的环境中,例如,诸如电视设备和洗衣机的家用电器经常处于操作中,因此噪声的影响是不可忽略的。因此,即使在自主移动体10估计错误方向的情况下,检测所估计的声源方向的可靠性低并且适当地执行不会给用户带来不适感的运动也是重要的。

已经通过集中于上述方面而构思了根据本公开的第一实施例的技术思想,并且使得能够基于所估计的声源方向来实现自主移动体的更加自然和灵活的动作。为此,作为根据本实施例的信息处理装置的示例的自主移动体10的特征之一是评估估计的声源方向的可靠性,并且基于评估结果和过去的评估成果来规划与估计的声源方向相对应的方向相关运动。

在下文中,给出了根据本实施例的自主移动体10的上述特征以及该特征所实现的效果的详细描述。

<<2.2.声源方向估计的可靠性评估>>

首先,参照具体示例给出了根据本实施例的声源方向估计的可靠性评估的描述。如上所述,根据本实施例的自主移动体10的评估部340具有评估由声源定位部312估计的声源方向的可靠性的功能。

根据本实施例的评估部340例如可以基于用户识别的结果,来评估由声源定位部312估计的声源方向的可靠性。更具体地,在由声源定位部312估计的声源方向上识别出用户的情况下,根据本实施例的评估部340能够将声源方向的可靠性评估为高。

图12是根据本实施例的基于用户识别的可靠性评估的说明图。图12示意性地示出了自主移动体10和用户u的二维姿势之间的位置关系。此外,图12示出了包括在自主移动体10中的相机520的成像范围,即,自主移动体10能够识别出用户的可识别范围r。应当注意,从图12开始,在附图中自主移动体10的头部方向被定义为0°。

这里,如图12的左侧所示,假定声源定位部312基于当用户u已经做出对自主移动体10的呼叫的话语uo1时输入的语音信息,来估计话语uo1的声源方向为270°。

此时,如图12的右侧所示,根据本实施例的动作规划单元140执行与姿势控制相关的动作规划,以允许自主移动体10的头部面向由声源定位部312估计的270°的方向。这里,在用户存在于可识别范围r中的情况下,即,在用户在估计的声源方向上被识别出的情况下,根据本实施例的评估部340可以将由声源定位部312估计的声源方向的可靠性评估为高。

应当注意,根据本实施例的评估部340例如也可以基于由识别单元120进行的面部识别的结果来执行上述评估。此外,在识别单元120在稍后描述的地图信息中不存在障碍物的位置处检测到移动物体的情况下,评估部340可以将声源方向的可靠性评估为高。

此外,根据本实施例的评估部340还能够基于用户的反馈来评估声源方向的可靠性。例如,在图12的右侧示出的示例的情况下,用户u向头部沿用户u本身的方向转动的自主移动体10发出赞许的话语uo2。在用户以这种方式对与声源方向相对应的方向相关运动给予了赞许反馈的情况下,根据本实施例的评估部340能够将声源方向的可靠性评估为高。

此外,根据本实施例的评估部340例如可以基于与自主移动体10所在的空间相关的地图信息,来评估由声源定位部312估计的声源方向的可靠性。

这里,上述地图信息例如可以是障碍物地图,其包括与自主移动体10所在的空间中的障碍物有关的信息。图13是基于根据本实施例的障碍物地图的可靠性评估的说明图。

图13示出根据本实施例的障碍物地图m1和在评估时自主移动体10以彼此关联的方式的位置。应当注意,在障碍物地图m1中,以阴影表示墙壁、家具等障碍物。

此时,在由声源定位部312估计的声源方向上的预定距离内存在障碍物的情况下,根据本实施例的评估部340可以确定为声源方向的可靠性低。例如,在图13所示的示例中,在声源定位部312将声源方向估计为90°或180°的情况下,可以认为,由于在相应的方向上存在作为障碍物的墙壁,因此用户可能存在的概率极小。以这种方式,根据本实施例的评估部340,能够基于障碍物在于空间中的信息,高精度地评估估计的声源方向。

此外,根据本实施例的地图信息可以包括例如自主移动体10空间中存在的位置,以及指示在该位置处估计的声源方向的可靠性趋势的可靠性地图。图14是基于根据本实施例的可靠性地图的可靠性评估的说明图。

图14示出了根据本实施例的可靠性地图m2的示例。应当注意,在图14所示的示例中,空间位置中的可靠性趋势由阴影集中表示。例如,图14所示的可靠性地图m2表示在阴影集中度高的位置,估计的声源方向的可靠性趋于低,在阴影集中度低的位置,估计的声源方向的可靠性趋于高。根据本实施例的地图信息保持部360,在充分累积评估部340所取得的评估成果的情况下,能够产生如图14所示的可靠性地图m2。

此时,根据本实施例的评估部340能够基于在执行声源方向估计时的时间点的自主移动体10的位置,并基于可靠性地图m2,来评估声源方向的可靠性。具体地,在表示在自主移动体10的当前位置处声源方向估计的可靠性趋于高的情况下,评估部340可以将由声源定位部312估计的声源方向的可靠性估计为高。同时,在表示在自主移动体10的当前位置处声源方向估计的可靠性趋于低的情况下,评估部340能够将由声源定位部312估计的声源方向的可靠性评估为低。以这种方式,根据本实施例的评估部340可以基于过去的评估成果来评估声源方向的可靠性。

此外,根据本实施例的地图信息可以是指示自主移动体10存在的空间中的位置与用户存在的概率之间的相关性的存在概率地图。图15是基于根据本实施例的存在概率地图的可靠性评估的说明图。

图15示出了根据本实施例的存在概率地图m3的示例。在图15所示的存在概率地图m3中,用颜色表示相对于空间二维坐标用户存在概率的高和低。根据本实施例的地图信息保持部360能够基于由识别单元120做出的用户识别的成果,来产生如图15所示的存在概率地图m3。

此时,根据本实施例的评估部340能够基于由声源定位部312估计的声源方向和可靠性地图m3,来评估声源方向的可靠性。具体地,在由声源定位部312估计的声源方向中表示用户的存在概率高的情况下,评估部340可以将声源方向的可靠性评估为高。同时,在由声源定位部312估计的声源方向中指示用户的存在概率低的情况下,评估部340能够将声源方向的可靠性评估为低。以这种方式,根据本实施例的评估部340能够基于用户在空间位置的存在概率,高精度地评估声源方向的可靠性。

在上文中,给出了根据本实施例的评估部340做出的声源方向的评估的详细描述。根据本实施例的评估部340,能够从上述的各种角度高精度地评估声源方向的可靠性。根据本实施例的评估部340的上述功能,能够基于声源方向的评估来实现适当的方向相关运动。

<<2.3.基于可靠性评估的动作规划>>

接着,给出了根据本实施例的基于声源方向的可靠性评估的动作规划的详细描述。如上所述,根据本实施例的动作规划单元140能够基于关于声源方向的可靠性的评估结果,来规划与声源方向相对应的方向相关运动。

具体地,在由评估部340评估的可靠性等于或大于阈值的情况下,根据本实施例的动作规划单元140可以规划在由声源定位部312估计的声源方向上转动头部或视线的动作、在声源方向上行进的动作等。根据本实施例的动作规划单元140执行的上述控制,能够使自主移动体10适当地执行与用户的期望一致的动作,能够提高用户的满意度。

同时,在由评估部340评估的可靠性下降到低于阈值的情况下,根据本实施例的动作规划单元140可以基于由评估部340评估的过去的评估成果,来规划与自主移动体10的姿势变化相关的动作。更具体地,在可靠性下降到低于阈值的情况下,动作规划单元140可以搜索具有高可靠性评估的过去的评估成果,并且可以基于评估成果中包括的姿势信息执行动作规划,以允许自主移动体10采取与评估成果相对应的姿势类似的姿势。

图16示出了由根据本实施例的评估结果保持部350保持的过去的评估成果的示例。参照图16,根据本实施例的评估成果包括评估结果、自身位置、自身姿势、识别的用户、时间等。应当注意,在仅使用姿势这一术语的情况下,该术语应包括上述自身位置和自身姿势。

这里,评估结果指示由评估部340做出的声源方向估计的可靠性的评估结果。评估部340可以通过例如0至1评估可靠性,如图16所示。应当注意,在图16所示的示例中,值越接近1,可靠性越高。例如,评估部340可以将面部图像检测方向与声源方向估计的估计结果的差值定义为估计误差,在0至1的范围内执行归一化,从而计算上述可靠性。

此外,上述自身位置指示由声源定位部312执行声源方向估计时的时间点的自主移动体10的空间位置坐标。应当注意,z方向上的坐标可以基于自主移动体10的头部或麦克风515在竖直方向上的位置来设置。

此外,上述自身姿势指示由声源定位部312执行声源方向估计时的时间点的自主移动体10的三轴姿势。根据本实施例的自身姿势可以由例如图16所示的四元数来表示。应当注意,图16的示例示出了将四元数q表示为q=a+bi+cj+dk的情况下的a、b、c、d的值。根据四元数,可以仅通过四个值来描述姿势旋转,从而允许高存储器效率和高速算术运算的优点。

此外,当由声源定位部312执行声源方向估计时,上述识别出的用户指示由识别单元120识别的用户。例如,识别单元120能够基于用户话语的扬声器识别或基于图像的面部识别,或基于用户账户信息来识别用户。例如,即使当自身位置和自身姿势相同或相似时,也假定关于可靠性的评估结果可以取决于发出话语的用户的特征而改变的情况。因此,当执行关于可靠性的评估时,根据本实施例的评估部340可以使评估结果保持部350将关于识别出的用户的信息连同自身位置和自身姿势一起存储。

此外,上述时间表示由声源定位部312执行声源方向估计时的时间点的时间。例如,即使当自身位置和自身姿势相同或相似时,也假定诸如来自家用电器和室外的噪声大小的环境可能根据时间而改变的情况。因此,当执行关于可靠性的评估时,根据本实施例的评估部340可以使评估结果保持部350将时间信息与自身位置和自身姿势一起存储。

在上文中,给出了根据本实施例的评估成果所包含的信息的示例的描述。应当注意,图16所示的评估成果仅仅是示例,根据本实施例的评估成果还可以包括除了图16所示的项。

随后,参照具体示例,给出了根据本实施例的基于过去的评估成果的动作规划的描述。如上所述,根据本实施例的动作规划单元140的特征之一在于,在由评估部340进行的声源方向估计的可靠性的评估结果低于阈值的情况下,获得过去的评估成果,基于该评估成果来规划与姿势变化相关的动作。

这里,例如,在获得图16所示的评估成果的情况下,动作规划单元140可以执行动作规划,用于移动到由具有最高评估结果(0.9)的第一行上的评估成果指示的自身位置(x=100、y=200和z=30),并且用于采取由评估成果指示的自身姿势(a=0.5、b=0.0、c=-0.5,和d=0.0)。

根据由动作规划单元140进行的上述控制,可以使自主移动体10采取过去获得高度可靠的声源方向的位置和姿势,从而有效地提高针对用户的下一次话语的声源方向估计的精度。

此外,例如,动作规划单元140可以基于识别出的用户或时间来确定要采用的评估成果。例如,在通过用户识别等预先发现用户b发出话语的情况下,动作规划单元可以执行动作规划,用于移动到由具有关于用户b的评估成果的更高评估的第三行(0.8)上的评估成果指示的自身位置(x=120、y=180,和z=120),并且用于采取由评估成果指示的自身姿势(a=0.8、b=-0.5、c=0.0,和d=0.0)。此外,动作规划单元140还能够在接近当前时间的评估成果中选择具有较高评估结果的评估成果。

根据本实施例的动作规划单元140进行的上述控制,可以关于考虑声源方向估计的各种因素,以更高精度地实现动作规划。

此外,例如,在与自主移动体10的当前位置一致或相似的自身位置中具有高评估结果的评估成果的情况下,动作规划单元140可以执行仅改变自身姿势而不移动的规划。

根据由本实施例的动作规划单元140进行的上述控制,可以通过具有较少运动的自然动作来提高针对用户的下一话语的声源方向估计的精度。

在上文中,参照具体示例,给出了根据本实施例的基于过去的评估成果的动作规划的描述。应当注意,根据本实施例的过去的评估成果可以作为诸如上述可靠性地图的地图信息来处理。在这种情况下,根据本实施例的动作规划单元140能够基于图14所示的可靠性地图m2执行规划,用于使自主移动体10向倾向于得到高度可靠的声源方向的位置移动。

同时,在评估成果没有充分累积的情况下,也假定没有获得高度可靠的评估成果的情况。在这种情况下,根据本实施例的动作规划单元140可以基于其他信息来规划与自主移动体10的姿势变化相关的动作。

其他信息例如包括上述存在概率地图。即,在由评估部340评估的声源方向的可靠性低于阈值,并且未获得高度可靠的过去的评估成果的情况下,根据本实施例的动作规划单元140可以基于如图15所示的存在概率地图m3执行规划,用于将自主移动体10移动到假定用户存在概率高的坐标。

此外,在没有获得高度可靠的过去的评估成果的情况下,根据本实施例的动作规划单元140也可以执行规划,用于使自主移动体10移动到用户预先指定的位置。图17是根据本实施例的基于用户指定的动作规划的说明图。

图17示出了在声源方向估计的可靠性低的情况下,用于指定自主移动体10移动到的位置的用户界面的示例。用户界面可以在例如诸如用户所拥有的智能电话的信息处理终端70上显示。这里,用户界面可以包括例如与装设有自主移动体10的空间有关的地图信息,诸如障碍物地图m1,如图17所示。在障碍物地图m1等中,在声源方向估计的可靠性低的情况下,用户能够例如通过轻敲任何位置来指定期望自主移动体10移动到的位置。

根据上述方法,在声源方向估计的可靠性低的情况下,自主移动体10每次能够移动到用户指定的固定位置,而不会移动到不同的位置,从而能够减少用户的不适感和压力。此外,在这种情况下,用户能够基于已经移动到指定的固定位置的自主移动体10,感知到声源方向估计的可靠性为低,并且因此用户能够考虑从使得更容易估计声源方向的方向发出话语。

<<2.4.基于方向权重的声源方向估计>>

接着,给出了根据本实施例的基于方向权重的声源方向的估计的描述。在上文中,给出了根据本实施例的自主移动体10评估声源方向的可靠性的情况,以及随后在可靠性为低的情况下规划提高声源方向估计的精度的动作的描述。

同时,根据本实施例的自主移动体10可以执行用于提高声源方向估计本身的精度的处理。具体地,根据本实施例的自主移动体10能够基于用户的存在概率来计算与声源方向估计相关的方向权重,并且能够使用方向权重来估计声源方向。

例如,在基于图13所示的障碍物地图m1确定自主移动体10的自身位置接近诸如墙壁的障碍物的情况下,能够基于障碍物存在的方向来限制用户的存在可能性高的方向的范围。例如,在图13所示的示例中,相对于自主移动体10,墙壁存在于90°至360°的方向将用户可能存在的范围缩小至0°至90°的范围。

此时,如图18所示,根据本实施例的方向权重计算部370可以计算与声源方向估计相关的方向权重。图18示出了根据本实施例的基于地图信息的方向权重的示例。在图18所示的示例中,方向权重计算部370通过将0°至90°处的方向权重设置为1,将90°至360°处的方向权重设置为0来执行计算。

在这种情况下,根据本实施例的声源定位部312可以使用图18所示的方向权重来估计声源方向。在典型的声源方向估计中,针对所有方向范围计算特征量,并且在许多情况下确定最合适的方向以输出声源方向估计。然而,根据本实施例的声源定位部312可以仅针对方向权重大于0的范围计算特征量,而不针对方向权重计算为0的方向计算特征量,从而估计声源方向。

图19示出了根据本实施例的使用基于地图信息的方向权重的声源方向估计的示例。在图19所示的示例中,根据本实施例的声源定位部312仅对方向权重计算为1的0°至90°范围执行特征量的计算,而将方向权重计算为0的90°至360°范围设置为不进行特征量计算的非计算部。应当注意,在图19所示的示例的情况下,声源定位部312可以将特征量最大的30°估计为声源方向。即,根据本实施例的声源定位部312能够在基于地图信息计算的方向范围中估计声源方向。

此外,根据本实施例的方向权重计算部370可以基于关于由自主移动体10捕获的图像的信息来计算方向权重。例如,在图12所示的可识别范围r中没有识别到用户的情况下,假定在该范围中没有用户存在,从而可以在用户可能存在的方向上限制范围。

图20示出了根据本实施例的基于图像信息的方向权重的示例。在图20所示的示例中,方向权重计算部370基于在可识别范围r(330°至30°)中没有识别到用户,通过将30°至330°处的方向权重设置为1并且将330°至30°处的方向权重设置为0来执行计算。

此时,如图21所示,根据本实施例的声源定位部312可以基于由方向权重计算部370计算的方向权重,仅在30°至330°的范围内计算特征量。图21是根据本实施例的使用基于图像信息的方向权重的声源方向估计的示例。在图21所示的示例的情况下,声源定位部312可以将特征量最大的150°估计为声源方向。

以这种方式,根据本实施例的声源定位部312能够基于根据用户的存在概率确定的方向权重,来限制与声源方向估计相关的方向范围。根据本实施例的声源方向估计方法,可以预先排除用户的存在概率极低的方向范围,从而实现高精度的声源方向估计,并且有效地降低特征量的计算成本。

此外,根据本实施例的方向权重计算部370可以基于地图信息和图像信息两者来计算方向权重。图22是根据本实施例基于地图信息和图像信息计算方向权重的说明图。图22示出了通过图像识别匹配而保持与诸如沙发的家具的布置有关的配件信息的地图信息。此时,根据本实施例的方向权重计算部370可以针对诸如厨房、门或沙发的用户存在概率高的方向将方向权重计算为高。

图23示出了根据本实施例的基于地图信息和图像信息的方向权重的示例。在图23所示的示例中,方向权重计算部370参照自主移动体10将图22中厨房、门和沙发所在的约40°、100°和300°的方向权重计算为高。

此时,根据本实施例的声源定位部312首先计算所有方向范围内的特征量。图24示出了由根据本实施例的声源定位部312在所有方向范围内计算的特征量的示例。在图24所示的示例的情况下,计算的特征量在100°和200°处示出两个峰值。这里,假定由于反射波和噪声的影响,200°处的峰值被计算为大于从用户的话语声音导出的原始特征量。此时,200°处的特征量大于100°处的特征量;因此,在仅基于特征量来估计声源方向的情况下,可能由于反射波和噪声的影响而将错误方向(200°)估计为声源方向。

同时,图25示出了根据本实施例的由声源定位部312整合有方向权重之后的特征量的示例。根据本实施例的声源定位部312能够例如通过针对各个方向将所有方向范围中计算的特征量的乘积来获得整合有方向权重的特征量。这里,参照图25,可以理解,在整合有方向权重之后的特征量中,在100°处的峰值保持的同时,200°处的特征量大大降低。以这种方式,根据本实施例的声源方向估计方法,使用基于用户的存在概率的方向权重来计算特征量,可以有效地消除由于反射波、噪声等引起的影响,并且可以大大提高估计正确方向的概率。

<<2.5.基于声源方向估计的动作规划流程>>

接着,给出了根据本实施例的基于声源方向估计的动作规划的流程的详细描述。图26是示出根据本实施例的基于由自主移动体10进行的声源方向估计的动作规划的流程的流程图。

参照图26,首先,输入单元110收集关于用户的话语等的声音信息(s1101)。

接着,方向权重计算部370基于地图信息和图像信息来计算方向权重(s1102)。

接着,声源定位部312使用在步骤s1102中计算的方向权重来计算特征量,并且执行声源方向的估计(s1103)。应当注意,可以与步骤s1102和s1103并行地执行语音增强部314的语音增强和语音识别部320的语音识别。

接着,评估部340基于用户识别的结果和地图信息来评估在步骤s1103中估计的声源方向的可靠性(s1104)。

接着,动作规划单元140确定在步骤s1104中评估的声源方向的可靠性是否等于或大于阈值(s1105)。

这里,在声源方向的可靠性等于或大于阈值的情况下(s1105:是),动作规划单元140规划指示估计的声源方向的可靠性为高的动作,以及操作控制单元150基于该规划来控制驱动单元160和输出单元170(s1106)。应当注意,指示高可靠性的上述动作的示例包括诸如吠叫、眨眼、抬耳、点头和摇晃等动作。

随后,动作规划单元140基于估计的声源方向来规划方向相关运动,并且操作控制单元150基于该规划来控制驱动单元160和输出单元170(s1107)。

同时,在声源方向的可靠性低于阈值的情况下(s1105:否),动作规划单元140规划指示估计的声源方向的可靠性为低的动作,并且操作控制单元150基于该规划来控制驱动单元160和输出单元170(s1108)。应当注意,指示低可靠性的上述动作的示例包括诸如吼叫、将视线向左或向右转移、颈部倾斜的动作。

接着,动作规划单元140从评估结果保持部350获得过去的评估成果(s1109)。

这里,在获得了高可靠性的评估成果(s1110:是)的情况下,动作规划单元140基于评估成果的自身位置信息和自身姿势信息,来规划与姿势变化相关的动作,并且操作控制单元150基于该规划来控制驱动单元160和输出单元170(s1111)。

同时,在不存在高度可靠的评估成果(s1110:否)的情况下,动作规划单元140基于存在概率地图的其他信息,来规划与姿势变化相关的动作,并且操作控制单元150基于该规划来控制驱动单元160和输出单元170(s1112)。

<3.第二实施例>

<<3.1.概述>>

接着,给出了本公开的第二实施例的描述。在上述第一实施例中,描述了在声源方向估计的可靠性为低的情况下提高声源方向估计的精确度和有效的动作规划的方法。同时,在诸如自主移动体10的具有语音识别功能的设备中,在某些情况下取决于操作条件,语音识别的难度可能会增加,或者语音识别变得不可行。因此,在上述情况下,向用户指示语音识别的难度和可用性并且获得理解也是重要的。

这里,指示诸如语音识别的难度或可用性的状态的方法的示例,包括使用例如字母或图标来明确地通知用户上述状态。然而,在通过语言模拟不具有通信装置的生物(诸如狗)的设备的情况下,如在根据本公开的实施例的自主移动体10中,如上所述的明示状态通知减少了生物的行为方式,导致给予用户强烈的不适感。

已经集中于上述方面构思了根据本公开的第二实施例的技术思想,并且使用户能够以更自然的运动来感知与语音识别相关的状态。为此,根据本实施例的自主移动体10的特征之一是基于与语音识别相关的状态来执行麦克风孔的屏蔽控制。

在下文中,给出了根据本实施例的自主移动体10的上述特征的详细描述。应当注意,在下文中,给出了集中于与第一实施例的不同点的描述,省略与第一实施例相同的配置和功能的详细的描述。

<<3.2.麦克风孔屏蔽控制>>

如上所述,根据本实施例的自主移动体10的特征之一是基于与语音识别相关的状态来执行屏蔽麦克风孔517的控制。这里,根据本实施例的麦克风孔517可以是设置在外表面上以允许外部声音到达设置在自主移动体10内部的麦克风515的配置。即,可以认为麦克风515通过麦克风孔517向外部开放。此外,麦克风孔517可以被配置为由用户视觉上可识别。

此时,根据本实施例的动作规划单元140和操作控制单元150可以基于语音识别的难度,通过屏蔽件519来控制麦克风孔517的屏蔽状态。图27是基于根据本实施例的语音识别的难度的麦克风孔517的屏蔽状态控制的说明图。

在图27所示的示例中,动作规划单元140和操作控制单元150使用屏蔽件519来控制麦克风孔517的屏蔽状态,屏蔽件相当于自主移动体10的耳朵的配置。以这种方式,根据本实施例的屏蔽件519可以是由自主移动体10模拟的生物体的身体部分之一。

此时,例如在语音识别的难度为低的情况下,诸如自主移动体10保持静止的情况下,根据本实施例的动作规划单元140规划通过将屏蔽件519提升预定角度或大于预定角度的动作,以减小屏蔽件519对麦克风孔517的屏蔽范围,如图27的左侧所示,并且操作控制单元150基于该规划来控制驱动屏蔽件519的致动器570。

根据上述控制,用户可以在视觉上识别自主移动体10的耳朵升高以打开麦克风孔517的状态,从而使得用户能够直观地感知语音识别难度为低的状态。

同时,在自主移动体10执行相对强烈的自主移动从而由于致动器570等的驱动声音的影响而导致语音识别的难度为高的情况下,根据本实施例的动作规划单元140,规划使屏蔽件519更接近麦克风孔517的动作,以通过屏蔽件519增加麦克风孔517的屏蔽范围,如图27的右侧所示,并且操作控制单元150基于该规划来控制驱动屏蔽件519的致动器570。

根据上述控制,用户可以在视觉上识别自主移动体10的耳朵被降低以宽范围遮蔽麦克风孔517的状态,从而使得用户能够直观地感知语音识别难度为高的状态。

如上所述,根据本实施例的自主移动体10的特征之一是基于语音识别的难度,通过模拟生物体的身体部位的屏蔽件519来控制麦克风孔517的屏蔽状态。根据本实施例的自主移动体10的上述特征,用户可以通过接近真实生物的更自然的运动来感知与语音识别相关的状态。

应当注意,在图27所示的示例中,例示了自主移动体10基于语音识别的难度通过屏蔽件519增大或减小麦克风孔的屏蔽范围的情况。然而,在语音识别的难度极高的情况下,可以控制自主移动体10完全屏蔽麦克风孔517。此外,在自主移动体10具有如图27所示的多个麦克风孔517的情况下,自主移动体10可以执行至少一个麦克风孔517的屏蔽控制。

<4.硬件配置示例>

接着,给出了根据本公开的实施例的信息处理服务器20的硬件配置示例的描述。图28是示出根据本公开的实施例的信息处理服务器20的硬件配置示例的框图。参照图28,信息处理服务器20包括例如cpu871、rom872、ram873、主机总线874、桥接器875、外部总线876、接口877、输入装置878、输出装置879、存储器880、驱动器881、联接端口882和通信装置883。应当注意,本文所示的硬件配置仅仅是示例,并且可省略一部分组件。此外,还可以包括除了本文所示的组件之外的组件。

(cpu871)

cpu871用作例如运算处理器或控制器,并且基于记录在rom872、ram873、存储器880或可移动记录介质901中的各种程序控制各个组件的全部操作或其部分。

(rom872和ram873)

rom872是存储由cpu871读取的程序和用于运算操作的数据的装置。例如,将由cpu871读取的程序,以及当执行程序时适当改变的各种参数等临时或永久地存储在ram873中。

(主机总线874、桥接器875、外部总线876和接口877)

cpu871、rom872和ram873例如经由能够进行高速数据传输的主机总线874彼此联接。同时,主机总线874例如经由桥接器875联接到具有相对低的数据传输速度的外部总线876。此外,外部总线876经由接口877联接到各种组件。

(输入装置878)

例如,使用鼠标、键盘、触摸面板、按钮、开关、控制杆等作为输入装置878。此外,在一些情况下,也可以使用能够利用红外线或其他无线电波传输控制信号的遥控器(下文中称为遥控)作为输入装置878。此外,输入装置878包括声音输入装置,诸如麦克风。

(输出装置879)

输出装置879是能够在视觉上或听觉上向用户通知所获得的信息的装置,例如,诸如crt(阴极射线管)、lcd或有机el的显示装置;诸如扬声器或耳机的音频输出装置;打印机、移动电话或传真机等。此外,根据本公开的输出装置879包括能够输出触觉刺激的各种振动装置。

(存储器880)

存储器880是用于存储各种数据的装置。作为存储器880,例如,使用诸如硬盘驱动器(hdd)、半导体存储装置、光存储装置、磁光存储装置等的磁存储装置。

(驱动器881)

驱动器881例如是读取记录在可移动记录介质901中的信息或将信息写入可移动记录介质901的装置,诸如磁盘、光盘、磁光盘或半导体存储器。

(可移动记录介质901)

可移动记录介质901例如是dvd介质、蓝光(注册商标)介质、hddvd介质、各种半导体存储媒介等。毋庸置疑,可移动记录介质901例如可以是安装有非接触式ic芯片的ic卡、电子设备等。

(联接端口882)

联接端口882例如是用于联接外部联接设备902的端口,诸如usb(通用串行总线)端口、ieee1394端口、scsi(小型计算机系统接口)、rs-232c端口或光音频终端。

(外部联接设备902)

外部联接设备902例如是打印机、便携式音乐播放器、数字相机、数字视频相机或ic记录器。

(通信装置883)

通信装置883是用于联接到网络的通信装置,并且例如是用于有线或无线lan的通信卡、蓝牙(注册商标)或wusb(无线usb)、用于光通信的路由器、adsl(非对称数字用户线路)路由器或用于各种通信的调制解调器。

<5.结论>

如上所述,根据本公开的实施例的自主移动体10包括:动作规划单元140,其对基于识别处理动作的移动体进行动作规划;以及评估部340,其评估估计的声源方向的可靠性。此外,根据本公开的实施例的动作规划单元140的特征之一是基于由评估部340做出的对可靠性的评估结果和过去的评估成果,来规划与声源方向相对应的方向相关运动。根据这种配置,可以基于估计的声源方向来实现自主移动体的更加自然和灵活的动作。

尽管,在上文中,参照附图,已经给出了本公开的优选实施例的详细描述,但是本公开的技术范围不限于这种示例。显然,本公开的领域的普通技术人员可以在权利要求中描述的技术思想的范围内找到各种改变或修改,并且应当理解,这些改变和修改自然地落入本公开的技术范围内。

此外,本文描述的效果仅仅是说明性的或示例性的,而不是限制性的。即,除了上述效果之外或代替上述效果,根据本公开的技术可以实现对本领域技术人员从本说明书的描述中显而易见的其他效果。

此外,本公开中的自主移动体10的一系列处理的各个步骤不必按流程图中所示的时间顺序进行处理。例如,可以以与流程图中所示的顺序不同的顺序来处理自主移动体10的一系列处理的各个步骤,或者可以并行地处理自主移动体10的一系列处理的各个步骤。

应当注意,本公开的技术范围还包括以下配置。

(1)信息处理装置,包括:

动作规划单元,其对基于识别处理动作的移动体进行动作规划;以及

评估部,其评估估计的声源方向的可靠性;

动作规划单元基于由评估部做出的对可靠性的评估结果和过去的评估成果,来规划与声源方向对应的移动体的方向相关运动。

(2)根据(1)的信息处理装置,其中,在可靠性低于阈值的情况下,动作规划单元基于过去的评估成果,来规划与移动体的姿势的改变相关的动作。

(3)根据(2)的信息处理装置,其中,动作规划单元基于包括在可靠性为高的过去的评估成果中的姿势信息,来规划与移动体的姿势的改变相关的动作。

(4)根据(3)的信息处理装置,其中,动作规划单元执行动作规划,以允许移动体采取与可靠性为高的过去的评估成果对应的姿势相似的姿势。

(5)根据(4)的信息处理装置,其中,

姿势信息包括关于移动体的位置信息,以及

动作规划单元执行动作规划,以允许移动体移动到与可靠性为高的过去的评估成果对应的位置。

(6)根据(1)至(5)中任一项的信息处理装置,其中,在可靠性低于阈值的情况下,动作规划单元基于假定用户存在概率为高的坐标,来规划与移动体的姿势改变相关的动作。

(7)根据(1)至(6)中任一项的信息处理装置,其中,评估部基于用户的识别结果来评估声源方向的可靠性。

(8)根据(7)的信息处理装置,其中,在估计的声源方向上识别出用户的情况下,评估部评估可靠性为高。

(9)根据(1)至(8)中任一项的信息处理装置,其中,评估部基于与移动体存在的空间相关的地图信息,来评估估计的声源方向的可靠性。

(10)根据(9)的信息处理装置,其中,

地图信息包括关于移动体存在的空间中的障碍物的信息,以及

在障碍物存在于估计的声源方向上预定距离内的情况下,评估部将声源方向的可靠性评估为低。

(11)根据(9)或(10)的信息处理装置,其中,

地图信息包括在移动体所在的空间中的位置和指示在该位置处估计的声源方向的可靠性的趋势的可靠性地图,以及

评估部根据可靠性地图评估估计的声源方向的可靠性。

(12)根据(11)的信息处理装置,其中,动作规划单元基于可靠性地图规划与移动体的姿势的改变相关的动作。

(13)根据(1)至(12)中任一项的信息处理装置,还包括声源定位部,其使用基于用户的存在概率而确定的方向权重,来估计声源方向。

(14)根据(13)的信息处理装置,其中,声源定位部基于根据关于移动体存在的空间的地图信息计算的方向权重,来估计声源方向。

(15)根据(13)或(14)的信息处理装置,其中,所述声源定位部在基于关于移动体存在的空间的地图信息而确定的方向范围内估计声源方向。

(16)根据(13)至(15)中任一项的信息处理装置,其中,声源定位部基于根据关于由移动体捕获的图像的信息而计算的方向权重来估计声源方向。

(17)根据(13)至(16)中任一项的信息处理装置,其中,声源定位部基于整合有方向权重的特征量来估计声源方向。

(18)根据(13)至(17)中任一项的信息处理装置,还包括计算方向权重的方向权重计算部。

(19)一种信息处理方法,包括使处理器:

对基于识别处理动作的移动体进行动作规划;以及

评估估计的声源方向的可靠性,

执行动作规划还包括基于可靠性的评估结果和过去的评估成果,规划与声源方向对应的移动体的方向相关运动。

(20)一种使计算机用作信息处理装置的程序,

信息处理装置包括:

动作规划单元,其对基于识别处理动作的移动体进行动作规划;以及

评估部,其评估估计的声源方向的可靠性;

动作规划单元基于由评估部做出的对可靠性的评估结果和过去的评估成果,来规划与声源方向对应的移动体的方向相关运动。

[附图标记列表]

10自主移动体

110输入单元

120识别单元

130学习单元

140动作规划单元

150操作控制单元

160驱动单元

170输出单元

312声源定位部

340评估部

350评估结果保持部

360地图信息保持部

370方向权重计算部

510显示器

570致动器

20信息处理服务器

210累积单元

220分析单元

230终端通信单元。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1