信息处理设备、控制方法以及程序与流程

文档序号:13041714阅读:150来源:国知局
信息处理设备、控制方法以及程序与流程

本公开内容涉及信息处理设备、控制方法和程序。



背景技术:

传统上已开发了对来自用户的话音进行语音识别和语义分析并通过语音进行响应的技术。具体地,由于近来语音识别算法和计算机技术的发展,在实际的时间内执行语音识别处理是可能的,并且使用语音的智能电话或平板电脑的用户界面(ui)已经变得流行。

例如,可以通过语音来响应用户通过语音提出的问题,或者可以通过使用被安装在智能手机、平板终端等中的语音ui应用,执行与用户通过语音下达的指令对应的处理。

引用列表

专利文献

专利文献1:jp2014-132396a



技术实现要素:

技术问题

然而,语音ui的可用性在说话不可取的环境或具有很大的噪声的环境中变差。例如,专利文献1提出了一种在电话上建立伪对话的移动终端系统。在该系统中,当设置成静音模式的移动终端接收到来电时,对方的语音被转换成文本,转换的文本被呈现给用户,并且当用户以文本回复时,文本被转换成语音并且被传送给对方。因此,可以提高移动终端的可用性,该移动终端即使在说话不可取的环境或具有很大噪声的环境中也能在电话上建立对话。

然而,根据该移动终端系统,在当移动终端被提前设置成静音模式时通过使用语音-文本对话在电话上建立伪对话,但是不能根据当时的情况或用户环境自动地在电话上建立伪对话。

因此,本公开内容提出了一种信息处理设备、控制方法和程序,其可以通过根据当前周围环境确定适当的响应输出方法来提高语音识别系统的便利性。

问题的解决方案

根据本公开内容,提供了一种信息处理设备,其包括:响应生成单元,其被配置成生成对来自用户的话音的响应;确定单元,其被配置成根据当前周围环境确定响应输出方法;以及输出控制单元,其被配置成执行控制,以使得通过使用所确定的响应输出方法来输出生成的响应。

根据本公开内容,提供了一种控制方法,其包括:生成对来自用户的话音的响应;根据当前周围环境确定响应输出方法;以及由输出控制单元执行控制,以使得通过使用所确定的响应输出方法来输出生成的响应。

根据本公开内容,提供了一种程序,其使得计算机工作为下列单元:响应生成单元,其被配置成生成对来自用户的话音的响应;确定单元,其被配置成根据当前周围环境确定响应输出方法;以及输出控制单元,其被配置成执行控制,以使得通过使用所确定的响应输出方法来输出生成的响应。

本发明的有益效果

如上述,根据本公开内容,通过根据当前周围环境确定适当的响应输出方法,可以提高语音识别系统的便利性。

应注意的是,上述效果不一定是限制性的。与上述效果一同或替代上述效果,可以实现本说明书中描述的任何一种效果或可从本说明书中理解的其它效果。

附图说明

图1是示出了根据本公开内容的实施方式的语音识别系统的概况的图。

图2是示出了根据实施方式的信息处理设备的配置的示例的图。

图3是示出了根据实施方式的语音识别系统的操作处理的流程图。

图4是示出了根据实施方式的设置有辅显示器的信息处理设备的示例的图。

图5是示出了根据实施方式的辅显示器通知通信终端输出响应的情况的图。

图6是示出了根据实施方式的指示允许输出水平的显示示例的图。

图7是示出了根据实施方式的另一示例的信息处理设备的配置示例的图。

图8是示出了根据实施方式的另一示例的通知处理的流程图。

图9a是示出了根据实施方式的另一示例的公开(public)通知方法的图。

图9b是示出了根据实施方式的另一示例的私人(private)通知方法的图。

具体实施方法

下文中,将参考附图详细描述本公开内容的优选实施方式。在本说明书和附图中,具有基本上相同的功能和结构的结构元件使用相同的附图标记来表示,并且省略了对这些结构元件的重复说明。

应注意的是,以下列顺序给出描述:

1.根据本公开内容的实施方式的语音识别系统的概况

2.配置

3.操作处理

4.响应输出示例

4-1.使用语音的响应输出

4-2.使用显示的响应输出

4-3.与装置协作的响应输出

4-4.动态响应输出

4-5.允许输出水平的通知

5.多用户环境中的输出

6.结论

《1.根据本公开内容的实施方式的语音识别系统的概况》

根据本公开内容的实施方式的语音识别系统包括对来自用户的话音进行语音识别和的语义分析以及通过语音进行响应的基本功能。首先,参考图1,将描述根据本公开内容的实施方式的语音识别系统的概况。

图1是示出了根据本公开内容的实施方式的语音识别系统的概况的图。图1所示的信息处理设备1具有能够对来自用户的话音进行语音识别和语义分析并且通过语音向用户输出响应的语音ui代理功能。信息处理设备1的外观并不被具体限制。例如,如图1所示,信息处理设备1的外观可以为圆柱形,并且该设备可以被放置在房间中的地板上或桌子上。另外,信息处理设备1包括由发光元件(例如,发光二极管(led))组成的带状发光单元18,以使得发光单元18包围信息处理设备1的侧表面的水平方向上的中心区域。通过使得发光单元18的一部分或整体发光,信息处理设备1能向用户通知信息处理设备1的状态。例如,在与用户对话期间通过使得发光单元18在用户方向上(即,说话者方向)的一部分发光,信息处理设备1可以如图1所示仿佛信息处理设备1看着用户那样操作。另外,通过控制发光单元18使得在生成响应或搜索数据期间光围绕侧表面旋转,信息处理设备1可以向用户通知处理正在进行。

在这里,所有的传统语音ui都通过语音输出响应。然而,有时在夜晚或在儿童在用户附近睡觉的情况下使用语音输出响应并不好。另外,使用语音输出响应在具有很大噪声的环境中也不好。

因此,可以通过根据用户的当前状态确定适当的响应输出方法来提高根据本公开内容的实施方式的语音识别系统的便利性。

例如,具体地,如图1所示,信息处理设备1具有将图像投影且显示于墙20上的功能。在夜晚情况下或婴儿在用户附近睡觉的情况下,输出方法自动地切换成将响应转换成文本且将文本投影于墙20上的输出方法。这可以禁止使用语音输出响应,并且使得在使用语音输出响应不合适的环境中适当地进行响应变得可行。在图1所示的示例中,信息处理设备1响应于来自用户的话音“明天的天气怎样?”,将话音内容图像21a、响应图像21b以及响应相关图像21c投影于墙20上。话音内容图像21a指示所识别的话音的内容,响应图像21b指示被转换成文本的响应“明天是晴天”,并且响应相关图像21c与响应的内容相关联。因此,用户可以理解的是,信息处理设备1正确地识别了来自用户的话音,并且用户可以在视觉上识别对话音的响应。

已描述了根据本公开内容的语音识别系统的概况。应注意的是,信息处理设备1的形状并不限制于如图1所示的圆柱形。例如,信息处理设备1的形状可以为立方体、球体、多面体等。下面将描述根据本公开内容的实施方式的、实现语音识别系统的信息处理设备1的基本配置和操作处理。

《2.基本配置》

图2是示出了根据实施方式的信息处理设备1的配置的示例的图。如图2所示,信息处理设备1包括控制单元10、通信单元11、麦克风12、扬声器13、摄像装置14、测距传感器15、投影单元16、存储单元17和发光单元18。

(控制单元10)

控制单元10控制信息处理设备1的各个结构元件。控制单元10由微控制器来实现,微控制器包括中央处理单元(cpu)、只读存储器(rom)、随机存取存储器(ram)和非易失性存储器。另外,如图2所示,根据实施方式的控制单元10还用作为语音识别单元10a、语义识别单元10b、响应生成单元10c、水平计算单元10d、确定单元10e以及输出控制单元10f。

语音识别单元10a识别由信息处理设备1的麦克风12采集的用户的语音,将该语音转换成字符串,并且获取话音文本。另外,语音识别单元10a还可以基于语音的特征来识别正在说话的人,或者估计语音源(换言之,说话者的方向)。

通过使用自然语言处理等,语义分析单元10b对由语音识别单元10a获取的话音文本进行语义分析。语义分析的结果被输出到响应生成单元10c。

响应生成单元10c基于语义分析结果生成对来自用户的话音的响应。例如,在来自用户的话音请求“明天的天气”的情况下,响应生成单元10c从在网络上的天气预报服务器获取关于“明天的天气”的信息,并且生成响应。

水平计算单元10d基于当前周围环境计算响应的允许输出水平。在本说明书中,响应的允许输出水平指示用户允许的响应输出的程度(对用户有利的响应输出的程度)。例如,在使用语音输出更可取的环境中允许输出水平被计算为高,并且在使用语音输出不可取而是使用显示输出更可取的环境中允许输出水平被计算为低。另外,在使用显示输出更可取的环境中,如果希望根据用户的周围环境限制显示内容、选择显示设备或限制亮度,则允许输入水平被计算为更低。另一方面,同样在使用语音输出更可取的环境中,如果音量需要根据用户的周围环境降低,则允许输出水平被计算为低。另一方面,如果音量需要升高,则允许输出水平被计算为高。应注意的是,根据实施方式的“允许输出水平”可以被称为所谓的静音模式水平。在这种情况下,静音模式水平在使用语音输出更可取的环境中被计算为低,并且静音模式水平在使用语音输出不可取而是使用显示输出更可取的环境中被计算为高。

另外,各种因素被用于确定周围环境(换言之,系统使用环境)。因此,水平计算单元10d根据各种因素(下面将描述)中的至少一个或多个来确定当前周围环境,并且计算适当的允许输出水平。

时段

水平计算单元10d可以根据时段计算允许输出水平。例如,在夜晚的情况下,有必要尊重邻居和正在睡觉的人。因此,水平计算单元10d计算出低允许输出水平。根据时段的允许输出水平可以由用户或系统提前设置。另外,可以从被嵌入于信息处理设备1中的时钟单元(未示出)获取时段,或者从在网络上的预定的服务器获取时段。

外部声源的存在

水平计算单元10d可以根据外部声源的存在来计算允许输出水平。例如,在外部声源(例如,电视机、收音机、音乐扬声器、建筑噪声等)存在的环境中,由于使用语音输出响应受到外部声源的存在的干扰,因此使用语音输出响应是不可取的。因此,水平计算单元10d计算出低允许输出水平,以致输出方法被切换成“显示”。另外,在重要的响应的情况下,尽管存在外部声源,水平计算单元10d也可以计算出高允许输出水平,以使得响应输出的音量提升以防止响应被外部声源淹没。应注意的是,外部声源包括不使用语音ui的人之间的对话以及电话中的对话。基于设置在信息处理设备1上的麦克风12采集的声音信号来检测外部声源的存在。另外,有时信息处理设备1自身的声音(自己的声音)被输入到麦克风12。然而,自己的声音可以通过回声消除器等消除,并且控制单元10可以仅检测真正的外部声源。

用户环境

水平计算单元10d可以根据作为目标的用户的周围环境(换言之,用户环境)来计算允许输出水平。例如,当某人(包括婴儿)在用户附近睡觉时,该情况则是使用语音输出不可取的环境。因此,水平计算单元10d计算出低允许输出水平,以使得输出方法被切换成“显示”。另外,水平计算单元10d可以计算出更低的允许输出水平,以使得显示设备的亮度降低,以便睡觉的人在输出显示时不会被显示设备的光打扰。应注意的是,水平计算单元10d可以获取由信息处理设备1的亮度传感器(未示出)检测的房间中的亮度作为用户的周围环境,并且可以计算允许输出水平。

替选地,在信息处理设备1安装在家庭空间中且未注册用户(例如,客人)在用户附近的情况下,考虑到关于响应内容的隐私,水平计算单元10d计算出低允许输出水平,以便执行使用显示输出来替代使用语音输出。另外,在关注隐私保护的情况下,水平计算单元10d计算出更低的允许输出水平,以使得输出方法被切换成使得通信终端(例如,由用户持有的智能电话)执行显示而不是通过投影于墙20上进行显示的输出方法。设置在信息处理设备1上的麦克风12、摄像装置14等可以获取用户的周围环境。

用户表现

水平计算单元10d可以根据用户的表现来计算允许输出水平。例如,当用户低声说话时,所期望的是语音ui也低声响应,并且确定用户处于不适合大声说话的环境中。因此,水平计算单元10d计算出低允许输出水平。应注意的是,可以通过与来自用户的话音的平常音量进行比较或者基于诸如他/她使用手遮盖嘴巴的行为来确定声音是否低。设置在信息处理设备1上的麦克风12、摄像装置14等可以获取用户的表现。另外,在用户自己通过语音命令、手势、设备操作(诸如,硬件按钮(未示出)的操作)、遥控器(未示出)的操作等来明确地指定允许输出水平的情况下,水平计算单元10d可以基于所指定的允许输出水平来计算允许输出水平。

用户位置

水平计算单元10d可以根据用户相对于信息处理设备1的位置来计算允许输出水平。例如,在用户在信息处理设备1附近的情况下,由于即使当输出响应的音量降低时用户也可以听到输出响应,因此水平计算单元10d可以计算出低允许输出水平。通过降低音量,在远处的其他人变得难以听到输出响应,而在设备附近的目标用户可以听到输出响应,因此,可以抑制响应声音的泄漏。例如,可以由设置在信息处理设备1中的测距传感器15来获取用户相对于信息处理设备1的位置。

可及性(accessibility)的考虑

水平计算单元10d可以考虑可及性来计算允许输出水平。例如,在听力受损用户、老年人或者多次发问的人的情况下,水平计算单元10d计算出低允许输出水平,以便通过显示替代语音来输出响应。因此,用户可以没有压力地使用语音ui。另一方面,在视力不佳的用户或没有戴通常佩戴的眼镜的用户的情况下,水平计算单元10d可以计算出高允许输出水平,以便通过语音替代显示来输出响应。例如,在考虑可及性的情况下使用的关于用户的身体特征的信息可以从存储单元17获取。

已在上面描述了当确定周围环境时所使用的因素。水平计算单元10d基于上述因素中的至少一个或多个来计算适合于当前周围环境的允许输出水平。替选地,水平计算单元10d可以通过对针对各个因素所计算的加权允许输出水平进行求和来计算最终允许输出水平。

确定单元10e根据当前周围环境确定响应输出方法。例如,确定单元10e基于由水平计算单元10d计算的允许输出水平来确定响应输出方法。例如,响应输出方法被假定为使用语音的输出方法或者通过图像显示(包括通过投影的图像显示)的输出方法。另外,还确定在语音输出的情况下的音量、方向性或者在显示输出的情况下的显示设备的选择(投影单元16(主显示器)/辅显示器/协作的外部显示设备)、亮度调节等。

输出控制单元10f执行控制,以便根据由确定单元10e确定的响应输出方法来输出由响应生成单元10c生成的响应。后面将描述根据实施方式的具体的响应输出示例。

(通信单元11)

通信单元11与外部设备交换数据。例如,通信单元11与在网络上的预定服务器连接,并且接收响应生成单元10c生成响应所需要的信息。另外,通信单元11与外围设备协作,并且在输出控制单元10f的控制下将响应数据发送给目标设备。

(麦克风12)

麦克风12具有采集周边的声音且将所采集的声音作为声音信号输出到控制单元10的功能。另外,麦克风12可以由阵列麦克风来实现。

(扬声器13)

扬声器13具有在输出控制单元10f的控制下将声音信号转换成语音且输出语音的功能。

(摄像装置14)

摄像装置14具有通过使用设置在信息处理设备1上的成像镜头捕获周边的图像并且将捕获的图像输出到控制单元10的功能。摄像装置14可以由360度摄像装置、广角摄像装置等实现。

(测距传感器15)

测距传感器15具有测量用户和信息处理设备1之间的距离以及用户周围的人和信息处理设备1之间的距离的功能。例如,测距传感器15可由光学传感器(被配置成基于关于发射光的时间和接收光的时间之间的相位差的信息来测量距目标对象的距离的传感器)实现。

(投影单元16)

投影单元16是显示设备的示例,并且具有将(放大的)图像投影且显示于墙上或屏幕上的功能。

(存储单元17)

存储单元17存储使得信息处理设备1中的各个结构元件起作用的程序。另外,存储单元17存储各种参数和各种阈值。在水平计算单元10d计算允许输出水平时使用各种参数。在确定单元10e根据允许输出水平确定输出方法时使用各种阈值。另外,存储单元17存储用户注册信息。用户注册信息包括个人识别信息(语音特征、面部图像、人像(包括身体图像)的特征、名字、证件号等)、年龄、性别、兴趣/偏好、属性(家庭主妇、上班族、学生等)、与由用户持有的通信终端相关的特征(视力受损、听力受损等)关联信息等。

(发光单元18)

发光单元18可以由发光元件(例如,led)实现,并且发光单元18的发光方式和发光位置能被控制为使得所有的灯都接通、一部分灯接通或灯在闪烁。例如,在控制单元10的控制下,在语音识别单元10a识别的说话者的方向上的一部分发光单元18被接通。这使得信息处理设备1能够如同信息处理设备1看着说话者的方向一样进行操作。

上面已经描述了根据实施方式的信息处理设备1的详细配置。应注意的是,图2中所示的配置仅为示例。实施方式并不限制于此。例如,信息处理设备1可进一步包括红外(ir)摄像装置、深度摄像装置、立体摄像装置、运动检测器等,以获取周围环境的信息。另外,麦克风12、扬声器13、摄像装置14、发光单元18等在信息处理设备1中的安装位置并未被具体限制。另外,根据实施方式的控制单元10的各个功能可以在通过通信单元11连接的云端中。

《3.操作处理》

下面,参考图3,将描述根据实施方式的语音识别系统中的操作处理细节。

图3是示出了根据实施方式的语音识别系统的操作处理的流程图。如图3所示,在步骤s103中,信息处理系统1首先通过使用各种传感器感测周围环境。具体地,信息处理设备1可以通过使用麦克风12、摄像装置14或测距传感器15来获取外部声源的存在、信息处理设备1附近的人(包括用户)的位置、状态等。另外,信息处理设备1可以从嵌入信息处理设备1中的时钟单元(未示出)或网络上的预定服务器获取当前时间。应注意的是,在s103中的周围环境的感测可以与下面描述的处理并行进行。

下面,在步骤s106中,信息处理设备1的控制单元10通过对由麦克风12采集的声音信号执行语音识别和语义分析来检测来自用户的话音。换言之,在控制单元10中,语音识别单元10a识别由麦克风12采集的声音信号,语义分析单元10b对转换的字符串执行语义分析,检测话音,并且对所检测的话音执行的语义分析的结果被输出到响应生成单元10c。

下面,在步骤s109中,水平计算单元10d基于当前周围环境计算允许输出水平。具体地,水平计算单元10d基于在系统使用环境中的各种因素(例如,外部声源的存在、用户环境、用户行为或用户的位置),计算指示是否是使用语音输出响应更可取(被允许)的环境的允许输出水平。

下面,在步骤s112中,确定单元10e基于由水平计算单元10d计算的允许输出水平来确定响应输出方法。例如,在计算出指示这是使用语音输出响应不可取的环境的允许输出水平的情况下,确定单元10e确定使用显示的输出方法。

下面,在步骤s115中,输出控制单元10f执行控制,以使得通过使用由确定单元10e确定的输出方法输出由响应生成单元10c响应于由语义分析单元10b对话音执行的语义分析的结果而生成的对来自用户的话音的响应。因此,通过使用根据实施方式的语音ui系统,可以通过根据环境自动地确定最优输出方法(例如,显示输出)进行响应,而不将对来自用户的话音的响应限制为语音响应。例如,在夜晚条件下或在婴儿在用户附近睡觉的情况下,语音响应并不可取。因此,信息处理设备1通过经由投影单元16投影响应图像来显示响应,以便通过使用最优输出方式输出响应。下面将详细地描述该响应输出示例的细节。

《4.响应输出示例》

<4-1.使用语音的响应输出>

如上述,根据实施方式的信息处理设备1(语音ui代理功能)在高允许输出水平的情况下通过语音输出响应。例如,在允许输出水平比第一阈值更高的情况下,信息处理设备1的确定单元10e确定使用通过具有平常音量的语音从扬声器13朝向每个方向输出响应的输出方法。

替选地,在允许输出水平比第一阈值更低的情况下,确定单元10e确定使用具有比平常音量更小的音量的语音从扬声器13输出响应的输出方法。此时,在信息处理设备1通过测距传感器15等识别用户的位置且用户处于远离信息处理设备1的位置的情况下,可以通过声音或显示指示用户靠近设备。另外,在扬声器13是定向扬声器的情况下,确定单元10e可以确定使用如下使用语音的输出方法:该输出方法控制方向性,以致语音仅被传递给目标用户。通过使用上述输出方法,可以防止响应被除了目标用户之外的人听到。

<4-2.使用显示的响应输出>

另外,在低允许输出水平的情况下,根据实施方式的语音ui将响应输出切换成使用显示的响应输出,而避免使用语音的响应输出。例如,在允许输出水平比第二阈值更低的情况下,信息处理设备1的确定单元10e确定通过显示代替语音来输出响应。具体地,确定单元10e确定使用通过投影单元16(见图1)将响应图像21b或指示响应的响应相关图像21c投影于墙20上的显示方法。

(亮度调节)

另外,在允许输出水平比第三阈值更低的情况下,确定单元10e确定使用在降低显示设备的亮度之后输出响应的方法。这能够避免如下情形:在夜晚情况下或在某人在设备附近睡觉的情况下,显示设备响应于来自用户的话音被突然打开且点亮(或开始投影)且唤醒睡觉的人。应注意的是,关于第一至第三阈值,第二阈值比第一阈值低,并且第三阈值比第二阈值低。

(辅显示器)

另外,在辅显示器设置在信息处理设备1上的情况下,确定单元10e还可以使用根据允许输出水平使用辅显示器的输出方法。在这里,图4示出了设置有辅显示器19的信息处理设备1x的示例。如图4所示,辅显示器19设置在具有圆柱形状的信息处理设备1x的侧表面上。与由投影单元16生成的显示相比,辅显示器19具有更小的显示区域,并且假定辅显示器的显示被限制,诸如低分辨率。然而,通过显示作为简单文本的响应句子,可以通过辅显示器19输出响应。另外,通过经由该小显示区域进行响应,可以防止响应的内容被除了用户之外的人看到,这可以保护隐私。

<4-3.与装置协作的响应输出>

另外,在根据实施方式的信息处理设备1可以与外部设备协作的情况下,信息处理设备1还可以确定使用根据允许输出水平从外部设备输出响应的方法。例如,确定单元10e可以确定使用从被安装在信息处理设备1附近的显示屏幕(例如,电视机、个人计算机(pc)等)输出显示的方法,或者使用通过预定的应用或电子邮件将推送通知发送给由用户持有的通信终端(例如,移动电话终端、智能电话、可穿戴终端等)的方法。应注意的是,在电视机或个人计算机正被其他人使用的情况下,响应不会被输出到这些设备,以便不会打扰到其他人。另外,在从用户持有的通信终端输出响应的情况下,输出控制单元10f可以在辅显示器19上显示响应从通信终端输出的信息,并且可以向用户通知该信息。在下文中,将参考图5给出以下描述。

图5是示出了根据实施方式的辅显示器19通知由通信终端3输出响应的情况的图。例如,在如图5所示信息处理设备1将响应信息发送到由用户持有的通信终端3且通信终端3输出响应的情况下,辅显示器19显示指示响应信息被发送到通信终端3的图标等。因此,用户能直观地认识到响应从他自己的/她自己的通信终端3输出。

另外,确定单元10e可以确定使用如下方法:该方法与安装在其他房间中的显示设备协作,从其他房间(用户的私人房间)中的显示设备(例如,电视机)输出响应,其他房间是除安装信息处理设备1的房间之外的房间。因此,可以防止用户周围的人看到响应的内容,并且防止在用户附近睡觉的人被吵醒。另外,在这种情况下,输出控制单元10f通过将该信息显示于辅显示器19上通知用户响应从其他房间中的显示设备输出。

另外,在用户正使用声音输出设备(例如,耳机或头戴式耳机)的情况下,确定单元10e可以确定使用从声音输出设备输出响应的方法。在这种情况下,输出控制单元10f经由通信单元11将用于响应的声音信号发送至声音输出设备。另外,确定单元10e可以确定使用如下方法:该方法还从用户持有的移动电话终端、智能电话、可穿戴终端等的显示屏幕输出响应,这使得能够通过语音和显示两者输出响应。

<4-4.动态响应输出>

另外,根据实施方式的确定单元10e可以根据允许输出水平改变在对话期间的响应输出方法,该允许输出水平随着持续观察的周围环境变化而变化。

例如,在允许输出水平在平常的语音对话期间由于特定因素被降低的情况下,确定单元10e可以在对话期间切换成使用显示输出。此时,在对话被中途切断的情况下,输出控制单元10f显示最后对话的内容,以便用户和语音ui之间的对话顺畅地继续。另一方面,在允许输出水平在通过使用语音和显示进行输出的对话期间由于特定因素被升高的情况下,确定单元10e可在对话期间切换成使用语音输出。此时,在对话被中途切断的情况下,输出控制单元10f通过显示和语音并行地输出响应直到当前对话结束,这样能够顺畅地切换响应输出方法。

<4-5.允许输出水平的通知>

另外,根据实施方式,还可以通过将图标等显示于辅显示器19上或将图标等投影于墙20上来通知用户当前的允许输出水平。因此,用户可以直观地认识到输出根据允许输出水平的设置而受限制。下面,图6示出了根据实施方式的指示允许输出水平的显示示例。

如图6中的显示示例30a至30e所示,允许输出水平由图标31、图标32和图标33表示。图标31指示语音输出状态,图标32指示显示输出状态,并且图标33指示在显示输出期间的亮度状态。

例如,在图6的第一行的左侧的显示示例30a中,指示显示输出状态的图标32a和指示亮度状态的图标33a上有十字标记,并且图标31a上没有十字标记。这意味着设备处于语音输出状态。另外,在指示语音输出状态的图标31a下面显示用语“音量:2”,这清楚地表示了语音输出状态的细节。例如,在正常音量是5的情况下,可以理解音量根据允许输出水平被控制为低。

在图6中的第二行的左侧的显示示例30b中,在指示语音输出状态的图标31b上有十字标记,并且图标32b和33b上没有十字标记。这意味着设备处于显示输出状态。

在图6中的第三行的左侧中的显示示例30c中,在指示语音输出状态的图标31c上有十字标记,并且图标32c和33c上没有十字标记。这意味着设备处于显示输出状态。另外,在指示亮度状态的图标33c下面显示用语“40%”,这表示显示设备的亮度根据允许输出水平被限制。

在图6中的第一行的右侧的显示示例30d中,在指示语音输出状态的图标31d上有十字标记,并且图标32d和33d上没有十字标记。这意味着设备处于显示输出状态。另外,在指示显示输出状态的图标33d下面显示用语“辅”,这表示根据允许输出水平其显示区域等被限制的辅显示器19输出响应。

在图6中的第二行的右侧中的显示示例30e中,指示语音输出状态的图标31e上有十字标记,并且图标32e和33e上没有十字标记。这意味着设备处于显示输出状态。另外,在指示显示输出状态的图标32e下面显示用语“终端”,这表示根据允许输出水平从通信终端(例如,由用户拥有的智能电话、移动电话、平板终端或可穿戴终端)输出响应。

在上面已参考图6描述了允许输出水平的显示示例。然而,图6中的显示示例仅为示例,并且根据实施方式的允许输出水平的通知并不被限制于此。例如,信息处理设备1可以显示量化的允许输出水平,或者在允许输出水平包括级别的情况下可以显示级别。另外,信息处理设备1可以控制发光单元18,以使得发光单元18发出指示允许输出水平的级别的预定颜色的光,或者信息处理设备1可以通过降低发光单元18的亮度间接地指示设备处于输出限制模式(其中,根据允许输出水平输出受到限制)。

《5.多用户环境中的输出》

<5-1.概况>

下面,作为另一示例实施方式,将描述多用户环境中的输出。在上述实施方式中,基于仅存在一个用户的假定给出了描述。然而,还可假定,在家庭空间等中存在多个用户。

例如,jp2015-18502a描述了向整个家庭通知在家用设备中发生的错误的信息处理设备,并且通过使用整个家庭可以交换消息的sns系统根据各个用户的态度提供了适当的解决方案。该专利文献是基于存在多个用户的前提,并且根据各个用户的态度提供解决方案。然而,该专利文献没有考虑到作为通知的属性来说匿名(隐藏通知的目的地)以及保密(隐藏通知的内容)是必要的。

例如,在信息处理设备1被放置于家庭成员放松的起居室等中的情况下,在另一家庭成员面前通知特定的用户使得该另一家庭成员知道通知的内容。然而,可假定的是,根据通知的内容,用户有时不想让其他人知道通知的内容。

因此,作为实施方式的另一示例,将描述在由多个用户使用设备的前提下向特定的用户进行输出(进行通知)的系统。

根据实施方式的另一示例的信息处理设备1a的形状并不被具体限制。例如,信息处理设备1a的可以以与参考图1所描述的信息处理设备1相似的方式具有圆柱形状,或者可以具有立方体形状、球体形状、多面体形状等。另外,信息处理设备1a被放置在在房间中的地板、桌子等上。另外,信息处理设备1a可以是自推进式机器人。下面,参考图7,将描述信息处理设备1a的配置。

<5-2.配置>

图7是示出了根据实施方式的另一示例的信息处理设备1a的配置的示例的图。如图7所示,信息处理设备1a包括控制单元100、通信单元11、麦克风12、扬声器13、摄像装置14、测距传感器15、投影单元16、存储单元17和发光单元18。具有与参考图2描述的配置相同的附图标记的结构元件的描述将被省略。

控制单元100控制信息处理设备1a的各个结构元件。控制单元100由包括cpu、rom、ram和非易失性存储器的微控制器实现。另外,如图7所示,根据实施方式的控制单元100也用作为语音识别单元10a、语义分析单元10b、响应生成单元10c、通知信息获取单元10g、通知类型确定单元10h、环境识别单元10i和输出控制单元10j。

语音识别单元10a、语义分析单元10b和响应生成单元10c具有与参考图2使用相同的附图标记描述的配置相似的功能。

通知信息获取单元10g获取对用户的通知信息。例如,通知信息获取单元10g获取通过系统自动发送的通知信息。通知信息的示例包括基于用户的日程安排信息的提醒通知、一般通知信息(例如,天气、交通信息和新闻)、对特定用户的消息通知等。该通知信息可以从存储单元17获取,或者也可以通过通信单元11从网络获取。

通知类型确定单元10h确定由通知信息获取单元10g获取的通知信息的类型(换言之,种类)。基于通知的开放性和通知的目标用户如下设置根据实施方式的通知类型。

公开全部(publicall):对所有用户的通知。所有的用户都可以识别该通知。该通知被假定为一般信息通知、对整个家庭的通知等。

公开个人(publicperson):所有的用户都能识别该通知,但该通知是针对特定用户。例如,该通知被假定为对家庭中的特定人的通知(例如,对母亲的提醒通知)。

私人组(privategroup):仅在特定组中的人可以识别该通知。组的示例包括“成人”、“父母”、“妇女”、“儿童”、“亲属”等。组设置可以由用户预先定制。

私人个人(privateperson):仅特定用户可以识别该通知,并且该通知针对特定用户。

通知类型确定单元10h根据通知的内容来确定所获取的通知信息的类型(种类)。例如,通知类型确定单元10h根据通知的类型和目的地来确定通知类型是否是“公开全部”、“公开个人”、“私人组”或“私人个人”。另外,通知类型可以由用户预先任意地设定。另外,在用户预先明确指定通知目标的情况下,通知类型确定单元10h将通知确定为“私人”通知。可选地,可以针对作为通知信息的源的每个应用设置通知类型。例如,关于日程表的对个体的日程安排通知可以被设置为私人个人。

环境识别单元10i识别周围环境。例如,环境识别单元10i基于由摄像装置14捕获的周围环境的图像和由测距传感器15获得的传感器数据,识别周围用户的位置以及在设备周围的用户(例如,面部识别)。另外,环境识别单元10i还可以从捕获的图像等获取属性(例如,性别或年龄),并且识别周围人的组。例如。基于捕获的图像,环境识别单元10i识别父母组、儿童组、妇女组、客人组(家庭之外的人)以及定制组(父亲和a-chan)。

输出控制单元10j执行控制,以使得由响应生成单元10c生成的响应从扬声器13、投影单元16或发光单元18输出。

另外,输出控制单元10j根据由环境识别单元10i进行的环境识别的结果和由通知类型确定单元10h确定的通知类型,从扬声器13、投影单元16或发光单元18执行适合的输出(用户通知)。例如,在公开通知(“公开全部”或“公开个人”)的情况下,输出控制单元10j执行控制,以使得通过使用所有用户都可以识别通知的方法来输出通知。在私人通知(“私人组”或“私人个人”)的情况下,输出控制单元10j执行控制,以使得通过使用仅目标用户可以识别通知的方法来输出通知。此时,输出控制单元10j可以根据周围环境改变通知方法。稍后将参考图9a和图9b描述通知方法的细节。

<5-3.操作处理>

下面,参考图8,将描述根据本实施方式的另一示例的操作处理。图8是示出了根据实施方式的另一示例的通知处理的流程图。

如图8所示,首先确定通知信息是否是对用户的(步骤s203)。

下面,在存在通知信息的情况下(换言之,在通知信息获取单元10g获取到对用户的通知信息的情况下)(在步骤s203中为是),通知类型确定单元10h确定通知信息的通知类型(步骤s206)。

下面,环境识别单元10i获取周围环境信息(步骤s209),并且识别周围环境(步骤s212)。例如,环境识别单元10i通过使用测距传感器15识别用户的方向(位置),或者通过使用摄像装置14识别周围用户的面部。

下面,输出控制单元10j根据通知的类型和当前环境确定通知是否可行(步骤s218)。例如,在通知类型是私人的情况下,输出控制单元10j在设备周围存在多个用户时确定通知不可行,并且在设备周围仅存在目标用户时确定通知可行。替选地,在通知类型是公开的情况下,输出控制单元10j在设备周围存在多个用户时确定通知可行。

在确定通知不可行的情况下(在步骤s218中为否),输出控制单元10j例如可以将通知信息添加到在存储单元17中存储的通知队列并且推迟通知。在这种情况下,以预定的时间间隔重复上述操作处理,并且在步骤s203中,通知信息获取单元10g还从通知队列获取通知信息。

另一方面,在确定通知可行(在步骤s218中为是)的情况下,输出控制单元10j执行控制,以便通过使用适当的通知方法发出通知。

上面已描述了根据实施方式的另一示例的通知处理。下面将参考图9a和9b描述根据通知类型和环境的通知方法的细节。

<5-4.通知示例>

(5-4-1.公开通知)

图9a是示出了公开通知的方法的视图。图9a的左侧示出了公开全部类型的通知示例。假定公开全部类型包括对整个家庭的一般信息通知(天气、交通信息、新闻或家庭成员的日程安排)以及对家庭成员的推荐信息(照片、音乐等)。具体地,例如,如图9a所示,信息处理设备1a从扬声器13输出话音(例如,“今天,在晚上可能会有雨”),或者从发光单元18发出光(根据通知的内容预先设置的光(颜色、闪烁等))。另外,在信息处理设备1a上设置有显示单元的情况下,通知信息可以显示于显示单元上,或者可以通过使用投影单元16被投影于墙等上。替选地,在信息处理设备1a具有输出香气(气味)的功能的情况下,信息处理设备1a可以在输出香气以使得所有的用户都意识到将发出通知信息并且吸引用户的注意之后,通过话音、发光、显示、投影等发出通知。

图9a的右侧示出了公开个人类型的通知示例。可假定的是,公开个人类型包括允许整个家庭识别通知的内容(非保密通知)的、对特定用户的通知(例如,家庭内的消息通知)。具体地,例如,如图9a所示,信息处理设备1a关于来自父亲的消息通过语音输出“父亲说他今天不需要晚餐”。在消息的目的地是母亲的情况下,发光单元18发出指示母亲的颜色的光。当通过语音发出消息时,可以从发光单元18的颜色、从扬声器13输出的音乐(背景音乐(bgm))、话音的语调、香气等识别消息的目的地。替选地,当通过显示或投影发出消息时,可以通过诸如“妈妈,父亲说他今天不需要晚餐”的文本来指示消息的目的地。

(5-4-2.私人通知)

图9b是示出了私人通知的方法的视图。图9b的左侧示出了私人组类型的通知示例。假定私人组类型包括对特定组的通知,该通知包括秘密,例如,应该对他们的孩子保密的对父母的通知(关于给他们的孩子的礼物的通知、关于与他们的孩子的朋友的麻烦的通知或者关于学费的告知)。在这种情况下,如图9b所示,信息处理设备1a仅对特定组(例如,父母组)发出通知。具体地,例如,信息处理设备1a将特定组中的用户召集到信息处理设备1a附近,并且低声告诉他们“abc玩偶到货”(关于给他们的孩子的礼物的信息),或者将语音输出到以有线/无线方式(例如,蓝牙(注册商标))连接的耳机。通过将特定组中的通知目标用户召集到信息处理设备1a附近,可以对通知信息进行保密。

将用户召集到设备附近的方法的示例包括:

直接对特定组中的用户说话,例如,“父母们,请向我靠近”;

对特定组中的用户发射空气漩涡,并且仅将特定组中的用户召集到设备附近;

从发光单元18发出代表特定组中的用户的特定光(特定的颜色、闪烁模式等),以使得用户意识到通知;

通过显示或投影示出特定组的名字,以使得用户意识到通知,或者通过显示或投影示出指示在特定组中的用户的特定光(颜色、闪烁模式等);

输出与特定组相对应的声音效果(se)或bgm,以使得用户意识到通知;

在特定组中的用户正看着信息处理设备1a时,通过发光单元18、显示或投影提供特定的反馈(例如,点头或如看着彼此的同时眨眼的眼神接触),以使得用户意识到通知;以及

使在特定组中的各个用户所持有的设备(例如,智能电话和可穿戴终端)振动,以使得用户意识到通知。

替选地,信息处理设备1a可以通过使用扬声器阵列允许在特定组的方向上的用户听到语音。可选地,信息处理设备1a告诉特定组的用户你们已经获得通知信息,并且将通知信息的详细内容发送给由在特定组中的各个用户持有的设备(例如,智能电话、可穿戴终端、在他们自己的房间里的电视机)。

另外,图9b的右侧示出了私人个人类型的通知示例。假定私人个人类型包括对特定用户的通知,该通知包括秘密,例如,根据用户的兴趣/偏好的推荐(音乐、电影、书、活动等)或者关于商务电子邮件的内容的通知。在这种情况下,如图9b所示,信息处理设备1a仅对特定用户发出通知。具体地,例如,通知处理设备1a将特定用户召集到信息处理设备1a附近,并且低声告诉她“dd的相册已发行”(根据个体的兴趣/偏好所推荐的项目的信息),或者将语音输出到以有线/无线的方式(例如,蓝牙(注册商标))连接的耳机。通过将通知目标用户召集到信息处理设备1a附近,可以对通知信息进行保密。

将用户召集到设备附近的方法的示例包括:

直接对特定用户说话,例如,“小姐,请向我靠近”;

对特定用户发射空气漩涡,并且仅将特定用户召集到设备附近;

从发光单元18发出代表特定用户的特定光(特定的颜色、闪烁模式等),以使得特定用户意识到通知;

通过显示或投影示出特定用户的名字,以使得特定用户意识到通知,或者通过显示或投影示出指示特定用户的特定光(颜色、闪烁模式等);

输出与特定用户相对应的声音效果(se)或bgm,以使得特定用户意识到通知;

仅在特定用户正看着信息处理设备1a时,通过发光单元18、显示或投影提供特定的反馈(例如,点头或如看着彼此的同时眨眼的眼神接触),以使得特定用户意识到通知;以及

使由特定用户所持有的设备(例如,智能电话和可穿戴终端)振动,以使得特定用户意识到通知。

替选地,信息处理设备1a可以通过使用扬声器阵列允许特定用户的方向上的用户听到语音。可选地,信息处理设备1a可以告诉特定用户你已经获得通知信息,并且将通知信息的详细内容发送给由特定用户持有的设备(例如,智能电话、可穿戴终端、在他们自己的房间里的电视机)。

应注意的是,对特定组或特定用户发出私人组类型或私人个人类型的通知的其他方法的示例还包括:

在信息处理设备1a是自推进式设备的情况下,信息处理设备1a还可以自己接近特定组或特定用户来通知信息。替选地,信息处理设备1a尽可能地接近特定组或特定用户,并且随后如上述地将用户召集到信息处理设备1a附近;

在特定组或特定用户靠近信息处理设备1a的安装位置时,信息处理设备1a发出通知。

尽管通过使用上述方法其他用户可以识别通知的目的地,但是信息处理设备1a可以保持通知的匿名性(隐藏通知信息的目的地)。

具体地,例如,信息处理设备1a可以通过使用摄像装置14(例如,rgb摄像装置)或感测设备(例如,测距传感器15或红外(ir)传感器)确认通知范围中不存在除了特定用户之外的用户,随后通过语音、显示或投影发出通知。尽管期望仅存在特定用户的情况,但是甚至在其他用户离信息处理设备1a足够远的情况下也可以通过语音、显示或投影发出通知。在通过语音将通知信息发送到以有线/无线方式连接的特定用户的耳机的情况下或在将通知信息传输到由特定用户持有的设备的情况下,不需要使用这些感测设备。

另外,信息处理设备1a还可以基于由各个用户持有的设备的gps信息或者基于各个用户的日常行为习惯(例如,用户工作日通常在外工作)来识别特定用户(目标用户)和除了特定用户之外的用户(非目标用户)的位置。例如,信息处理设备1a可以通过使用特定用户的行为习惯的信息来判断通知时机。

另外,在不能保持匿名的情况下,通知方法被切换成可以保持匿名的方法(例如,通过耳机连接的直接语音输出或者将通知发送到特定用户持有的设备)。

替选地,在提前进行与特定用户的对话(语音响应)的情况下,信息处理设备1a通过使用它的上下文来发出通知,这使得即使存在其他用户也能够发出通知以便不让其他用户知晓通知的内容。

例如,在特定的用户已预先对信息处理设备1a提出“请让我知道作为圣诞节礼物的abc玩偶何时到货”的请求的情况下,信息处理设备1a通过语音通知特定用户“你之前问我的项目已经到货”。其他用户(非目标用户)不知道过去的对话,并且不会理解该对话的含义。因此,可以保持通知信息的秘密性。使用上下文的这种通知方法的示例包括:

使用日期,诸如“你昨天问我的事情已经解决”;

仅指示涉及的人,例如,“b女士之前问我的事情已经解决”;

使用代词,例如,“我在说这个”或“我在说它”;

使用唯一id,例如,“我在说a103”或“我在说任务13”;

使用秘密语言,例如,“我在说松树”或“我在说这本书”;以及

显示密码或说出密码(例如,“○□δ#%”)。

应注意的是,信息处理设备1a可以根据通知信息的重要水平切换告知方法。例如,在通知信息具有高重要水平的情况下,通过语音、发光、投影等来发出通知。另一方面,在通知信息具有低重要水平的情况下,通过根据上述通知类型使用适当的方法来发出通知。

《6.结论》

如上述,根据本公开内容的实施方式,当语音ui输出响应时,通过根据当前周围环境确定适当的响应输出方法,可以提高语音识别系统的便利性。

已在上面参考附图描述了本公开内容的优选实施方式,然而本公开内容并不限制于上述示例。本领域的技术人员可以在所附权利要求的范围内找到各种替选方案和修改,并且应理解的是,这些替选方案和修改自然属于本公开内容的技术范围。

例如,还可以创建计算机程序,该计算机程序用于使得嵌入在上述信息处理设备1中的硬件(例如,cpu、rom和ram)执行信息处理设备1的上述功能。而且,可以提供其中存储有计算机程序的计算机可读记录介质。

进一步,本说明书中描述的效果仅是说明性或示例效果,并且是非限制性的。即是,与上述效果一起或替代上述效果,根据本公开内容的技术可以实现其他效果,这些效果根据本说明的描述对本领域的技术人员来说是清楚的。

另外,本技术还可以如下地配置。

(1)一种信息处理设备,其包括:

响应生成单元,其被配置成生成对来自用户的话音的响应;

确定单元,其被配置成根据当前周围环境确定响应输出方法;以及

输出控制单元,其被配置成执行控制,以使得通过使用所确定的响应输出方法来输出生成的响应。

(2)根据(1)所述的信息处理设备,其中,所述确定单元确定使用语音输出响应或者使用显示输出响应。

(3)根据(2)所述的信息处理设备,其中,所述确定单元根据所述当前周围环境,确定在使用语音输出响应时的音量控制或者方向控制。

(4)根据(2)所述的信息处理设备,其中,所述确定单元根据所述当前周围环境,确定在使用显示输出响应时的显示设备的选择或亮度的调节。

(5)根据(4)所述的信息处理设备,其中,所述显示设备选自主显示器、辅显示器和协作的外部显示设备。

(6)根据(2)至(5)中任一项所述的信息处理设备,还包括:

计算单元,其被配置成基于所述当前周围环境计算允许输出水平,

其中,所述确定单元根据所计算的允许输出水平来确定所述响应输出方法。

(7)根据(6)所述的信息处理设备,其中,所述当前周围环境包括时段、外部声源的存在、用户环境、用户表现、用户位置和用户的身体特征中的至少任意一个或多个。

(8)根据(6)或(7)所述的信息处理设备,其中,所述确定单元根据所述允许输出水平是否超过预定的阈值来确定所述响应输出方法。

(9)根据(6)至(8)中任一项所述的信息处理设备,其中,在所述允许输出水平在对话期间随着周围环境改变的情况下,所述确定单元根据已改变的所述允许输出水平来改变所述响应输出方法。

(10)根据(6)至(9)中任一项所述的信息处理设备,其中,所述输出控制单元执行控制,以便向用户通知所述允许输出水平。

(11)一种控制方法,其包括:

生成对来自用户的话音的响应;

根据当前周围环境确定响应输出方法;以及

由输出控制单元执行控制,以使得通过使用所确定的响应输出方法来输出生成的响应。

(12)一种程序,其使得计算机工作为下列单元:

响应生成单元,其被配置成生成对来自用户的话音的响应;

确定单元,其被配置成根据当前周围环境确定响应输出方法;以及输出控制单元,其被配置成执行控制,以使得通过使用所确定的响应输出方法来输出生成的响应。

附图标记列表

1信息处理设备

3通信终端

10控制单元

10a语音识别单元

10b语义分析单元

10c响应生产单元

10d水平计算单元

10e确定单元

10f输出控制单元

11通信单元

12麦克风

13扬声器

14摄像装置

15测距传感器

16投影单元

17存储单元

18发光单元

19辅显示器

20墙

21a话音内容图像

21b响应图像

21c响应相关图像

30a至30e显示示例

31至33图标

权利要求书(按照条约第19条的修改)

1.(修改)一种信息处理设备,其包括:

确定单元,其被配置成确定获取的通知信息的通知类型;以及

输出控制单元,其被配置成执行控制,以便基于当前周围用户环境以及所述通知信息的通知类型来确定输出方法以及是否允许对所述通知信息进行通知,并且在允许进行通知的情况下,通过使用所确定的输出方法输出所述通知信息。

2.(修改)根据权利要求1所述的信息处理设备,其中,所述确定单元确定所述通知信息的通知类型是公开全部、公开个人、私人组和私人个人中的哪一个。

3.(修改)根据权利要求2所述的信息处理设备,其中,所述确定单元基于所述通知信息的通知内容来确定所述通知信息的通知类型。

4.(修改)根据权利要求2所述的信息处理设备,其中,所述确定单元基于所述通知信息的通知目标来确定所述通知信息的通知类型。

5.(修改)根据权利要求2所述的信息处理设备,其中,所述确定单元基于作为所述通知信息的来源的应用来确定所述通知信息的通知类型。

6.(修改)根据权利要求2所述的信息处理设备,其中,所述输出控制单元根据所述通知信息的通知类型是公开还是私人以及周围用户环境是否适合于所述通知类型,确定是否允许进行通知。

7.(修改)根据权利要求2所述的信息处理设备,其中,在所述通知类型是私人并且周围用户环境是不能确保保密的环境的情况下,所述输出控制单元执行特定的输出控制以便确保保密。

8.(修改)根据权利要求1所述的信息处理设备,其中,在外部显示设备输出信息的情况下,所述输出控制单元执行控制,以使得设置在所述信息处理设备上的显示器输出指示所述外部显示设备的显示。

9.(修改)一种由处理器执行的控制方法,所述控制方法包括:

确定获取的通知信息的通知类型;以及

执行控制,以便基于当前周围用户环境以及所述通知信息的通知类型来确定输出方法以及是否允许对所述通知信息进行通知,并且在允许进行通知的情况下,通过使用所确定的输出方法输出所述通知信息。

10.(修改)一种程序,其使得计算机工作为下列单元:

确定单元,其被配置成确定获取的通知信息的通知类型;以及

输出控制单元,其被配置成执行控制,以便基于当前周围用户环境以及所述通知信息的通知类型来确定输出方法以及是否允许对所述通知信息进行通知,并且在允许进行通知的情况下,通过使用所确定的输出方法输出所述通知信息。

11.(删除)

12.(删除)

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1