信息处理设备、控制方法及程序与流程

文档序号：12288461阅读：465来源：国知局

导航： X技术> 最新专利>乐器;声学设备的制造及制作,分析技术

本公开内容涉及信息处理设备、控制方法及程序。

背景技术：

已经常规地开发出了对用户的语音执行语音识别/语义分析并通过输出话音进行响应的技术。特别地，语音识别算法的最新发展和计算机技术的最新进步已经使得能够在实用时处理语音识别，因此，使用话音的用户接口(UI)已经广泛用于智能电话、平板终端等。

例如，安装在智能电话、平板终端等中的话音UI应用可以以话音响应通过用户的话音做出的查询或者执行与通过用户的话音发出的指令相对应的过程。

引用列表

专利文献

专利文献1：JP 2012-181358A

技术实现要素：

技术问题

然而，在使用语音识别的典型话音UI中，对于用户的话音输入，仅返回最终确定的一种响应方法。因此，用户必须等到系统完成了该过程。在等待时间期间，系统不向用户给出反馈，使得用户可能担心他们的话音输入没有被适当地处理。

此外，上述专利文献1提出了一种自动将输入语音转换成文本的技术，具体地，提出了一种用于将输入话音转换成文本并实时地显示该文本的系统。在该系统中，没有采用上面的话音UI。具体地，与话音交互不同，仅显示通过转换输入话音而获得的文本，并且不反馈语义分析或基于语义分析的响应(也被称为响应行动)。因此，系统开始行动之前用户不能观察到由他们的语音引起的特定行动。

鉴于以上，本公开内容提出能够从语音期间通过话音UI向用户通知响应候选的信息处理设备、控制方法及程序。

问题的解决方案

根据本公开内容，提供了一种信息处理设备，其包括：语义分析单元，被配置成在语音期间对由语音识别单元识别的语音文本执行语义分析；得分计算单元，被配置成基于由语义分析单元执行的分析的结果来计算响应候选的得分；以及通知控制单元，被配置成执行控制以在语音期间根据由得分计算单元计算的得分来通知响应候选。

根据本公开内容，提供了一种控制方法，其包括：在语音期间对由语音识别单元识别的语音文本执行语义分析；由得分计算单元基于语义分析的结果来计算响应候选的得分；以及执行控制以在语音期间根据所计算的得分来通知响应候选。

根据本公开内容，提供了一种程序，其用于使计算机用作：被配置成在语音期间对由语音识别单元识别的语音文本执行语义分析的语义分析单元；被配置成基于由语义分析单元执行的分析的结果来计算响应候选的得分的得分计算单元；以及被配置成执行控制以在语音期间根据由得分计算单元计算的得分来通知响应候选的通知控制单元。

发明的有益效果

如上所述，根据本公开内容，能够从语音期间通过话音UI向用户通知响应候选。

注意，上述效果不一定是限制性的。与上述效果一起或代替上述效果，可以达到本说明书中描述的效果中的任意一种效果或者根据本说明书可以领会的其他效果。

附图说明

图1是用于描述根据本公开内容的一种实施方式的语音识别系统的概况的图。

图2是用于描述通过典型的话音UI的语音和响应的定时的图。

图3是用于描述根据这种实施方式的通过话音UI的语音和响应的定时的图。

图4是示出根据这种实施方式的信息处理设备的配置的示例的图。

图5是示出根据这种实施方式的根据得分显示响应行动候选的示例的图。

图6是示出根据这种实施方式的语音识别系统的操作过程的流程图。

图7是示出根据这种实施方式的语音文本连同响应行动候选的显示一起被显示的情况的图。

图8是用于描述通过改变显示点的大小来反馈每个响应行动候选之间得分的差异的显示方法的图。

图9是用于描述用于根据响应行动候选的得分来显示显示面积和信息量的方法的图。

图10是用于描述根据这种实施方式的响应行动候选的变灰显示的图。

图11是用于描述根据这种实施方式的用于当存在多个用户时显示响应行动候选的方法的图。

图12是用于描述根据这种实施方式的用于根据屏幕的状态来显示响应行动候选的方法的图。

图13是示出根据这种实施方式的指示应用中涉及的更多特定行动的图标的示例的图。

图14是示出根据这种实施方式的指示音量调节中涉及的行动的图标的示例的图。

具体实施方式

在下文中，(a)将参照附图详细描述本公开内容的优选实施方式。在本说明书和附图中，用相同的附图标记表示功能和结构基本相同的结构元素，并省略对这些结构元素的重复说明。

此外，将按以下顺序提供描述。

1.根据本公开内容的一种实施方式的语音识别系统的概述

2.配置

3.操作过程

4.响应行动候选的显示示例

4-1.语音文本的显示

4-2.根据得分的显示方法

4-3.存在多个讲话者的情况下的显示方法

4-4.在除了主显示区域之外的区域中的显示方法

4-5.针对不同屏幕状态的不同显示方法

4-6.其他图标显示示例

5.总结

<<1.根据本公开内容的一种实施方式的语音识别系统的概述>>

根据本公开内容的一种实施方式的语音识别系统具有以下基本功能：对用户的语音执行语音识别/语义分析以及通过输出话音进行响应。现在将参照图1描述根据本公开内容的一种实施方式的语音识别系统的概况。

图1是用于描述根据本公开内容的一种实施方式的语音识别系统的概况的图。图1所示的信息处理设备1具有话音UI代理功能，该话音UI代理功能能够对用户的语音执行语音识别/语义分析，并且使用话音将响应输出给用户。信息处理设备1的外观没有特别限制，而且可以具有例如图1所示的圆柱形状。信息处理设备1被放置在房间中的地板、桌子等上面。此外，信息处理设备1设置有光发射单元18，光发射单元18呈以下形状：围绕信息处理设备1的侧表面的水平中间区域延伸的带。光发射单元18包括光发射装置如发光二极管(LED)等。信息处理设备1可以通过使光发射单元18从其全部或一部分发出光来给用户通知信息处理设备1的状态。例如，当与用户交互时，信息处理设备1可以通过使光发射单元18从其一部分沿用户即讲话者的方向发出光而如图1所示那样看起来如同注视着用户。此外，信息处理设备1可以控制光发射单元18使得在响应的产生或数据的搜索期间光绕侧表面旋转，从而向用户通知信息处理设备1正在执行处理。

在此，在使用语音识别的典型话音UI中，对于用户的话音输入，仅返回最终确定的一种响应方法。因此，用户必须等到系统完成了处理。在等待时间期间，系统不向用户给出反馈，使得用户可能担心其话音输入没有被适当地处理。图2是用于描述通过典型话音UI的语音和响应的定时的图。如图2所示，在用户正发出语音100“今天的天气怎么样”的语音部分中，系统不执行语音识别或语义分析，而在语音结束之后，系统才执行该过程。此外，在该过程结束之后，系统输出响应话音102“今天天气好”或者指示天气信息的响应图像104作为最终所确定的响应。在这种情况下，总的系统处理时间是用户的等待时间，在用户的等待时间期间，系统不给出反馈。

鉴于以上，在根据本公开内容的一种实施方式的语音识别系统中，能够从语音期间通过话音UI向用户通知响应候选。

具体地，信息处理设备1在语音期间顺序地执行语音识别和语义分析，并且基于结果，获取响应候选，产生代表所获取的响应候选的图标(或文本)并向用户通知该图标。图3是用于描述根据这种实施方式的通过话音UI的语音和响应的定时的图。如图3所示，在用户正发出语音200“今天的天气怎么样”的语音部分中，系统顺序地执行语音识别过程和语义分析过程，并且基于识别结果向用户通知响应候选。例如，基于对一部分语音“今天的天气”的语音识别来显示指示天气应用的图标201。在语音结束之后，系统输出响应话音202“今天天气好”或指示天气信息的响应图像204作为最终确定的响应。因而，尽管语音结束与最终响应的确定之间的时间段与图2所示的典型话音UI的系统处理时间相同，但是在该时间段期间系统给出反馈如图标201的显示等。因此，在最终确定了响应之前，用户不会担心并且不会觉得等待时间长。

在图1所示的示例中，在由用户做出的语音30“本周的天气)……”的期间，信息处理设备1对“本周的天气”执行语音识别和语义分析，并且基于结果，获取对运动图像应用、天气预报应用和日历应用的激活来作为响应行动。此后，信息处理设备1将用于运动图像应用的图标21a、用于天气预报应用的图标21b以及用于日历应用的图标21c投影到墙20上，从而向用户通知响应候选。

因此，用户能够知道其话音输入在语音期间被识别，并且能够实时了解响应候选。

前面已经描述了根据本公开内容的语音识别系统的概况。注意，信息处理设备1的形状不限于图1所示的圆柱形状，并且可以是例如立方体的、球形的、多面体的等。接下来，将顺序地描述用于实现根据本公开内容的一种实施方式的语音识别系统的信息处理设备1的基本配置和操作过程。

<<2.配置>>

图4是示出根据这种实施方式的信息处理设备1的配置的示例的图。如图4所示，信息处理设备1包括控制单元10、通信单元11、麦克风12、扬声器13、摄像机14、距离测量传感器15、投影单元16、存储单元17和光发射单元18。

(控制单元10)

控制单元10控制信息处理设备1的每个部件。控制单元10在包括中央处理单元(CPU)、只读存储器(ROM)、随机存取存储器(RAM)和非易失性存储器的微计算机中实现。此外，如图4所示，根据这种实施方式的控制单元10还用作语音识别单元10a、语义分析单元10b、响应行动获取单元10c、得分计算单元10d、显示控制单元10e和执行单元10f。

语音识别单元10a识别由信息处理设备1的麦克风12收集的用户的话音，并且将话音转换成字符串以获取语音文本。此外，语音识别单元10a可以基于话音的特征来识别发出话音的人，或者估计话音的源即讲话者的方向。

此外，根据这种实施方式的语音识别单元10a从用户的语音的开始顺序地执行实时语音识别，并且在语音期间将语音识别的结果输出至语义分析单元10b。

语义分析单元10b对由语音识别单元10a获取的语音文本执行自然语言处理等以用于语义分析。语义分析的结果输出至响应行动获取单元10c。

此外，根据这种实施方式的语义分析单元10b可以在语音的期间基于从语音识别单元10a输出的语音识别的结果顺序地执行语义分析。语义分析单元10b将顺序执行的语义分析的结果输出至响应行动获取单元10c。

响应行动获取单元10c基于语义分析的结果获取关于用户的语音的响应行动。在此，响应行动获取单元10c可以在语音期间基于语义分析的结果来获取当前时刻的响应行动候选。例如，响应行动获取单元10c基于由语音识别单元10a所识别的语音文本与为了语义分析的学习而记录的示例句子的比较来获取与具有高相似性水平的示例句子相对应的行动作为候选。在这种情况下，因为要比较的语音文本是不完整的，所以响应行动获取单元10c可以根据语音的长度将语音文本与每个示例句子的前半部分进行比较。此外，响应行动获取单元10c可以通过利用包含在语音文本中的每个词的出现概率来获取响应行动候选。在此，可以以基于学习的方式产生使用自然语言处理的语义分析引擎。具体地，系统中采用的大量语音示例先前被收集，并且每个语音示例与(即作为数据集所学习的)系统的响应行动正确地关联(也称为“被标记”)。因此，通过将数据集与通过语音识别获得的语音文本进行比较，可以获得感兴趣的响应行动。注意，这种实施方式不取决于语义分析引擎的类型。此外，由语义分析引擎学习的数据集可以针对每个用户而个人化。

响应行动获取单元10c将所获取的响应行动候选输出至得分计算单元10d。

此外，当响应行动基于语音结束之后的语义分析结果时，响应行动获取单元10c确定响应行动是最终的响应行动，并且将该最终的响应行动输出至执行单元10f。

得分计算单元10d计算由响应行动获取单元10c获取的响应行动候选的得分，并且将针对每个响应行动候选计算的得分输出至显示控制单元10e。例如，得分计算单元10d根据相似性水平来计算得分，该相似性水平是通过与为了在响应行动候选的获取期间执行的语义分析学习而记录的示例句子进行比较获得的。

此外，得分计算单元10d可以考虑用户环境来计算得分。例如，在根据这种实施方式的话音UI的操作期间，可以连续获取用户环境并将其存储为用户历史。当可以识别出用户时，可以考虑用户操作的历史和当前情形来计算得分。可以获取例如时区、周中的一天、与用户一起出现的人、用户周围的外部设备的状态(例如，电视的打开状态等)、噪声环境、房间的亮度(即，照明环境)等作为用户环境。因此，当可以识别出用户时，得分计算单元10d可以考虑用户操作的历史和当前情况来计算得分。基本上，可以在以上响应行动候选的获取期间与根据关于示例句子的相似性水平计算的得分相结合地根据用户环境来执行加权。

可以存在操作历史和当前情况的各种示例，并且下面将描述一部分示例。在下面描述的数据集的学习之后，信息处理设备1可以根据当前用户环境对得分进行加权。

[表1]

因此，例如，如果用户具有在周末晚上独自使用运动图像应用的历史，则当用户处于用户周末晚上独自在房间的用户环境中时，得分计算单元10d通过对作为运动图像应用的激活的行动候选进行加权来计算得分。注意，在这种实施方式中，可以根据操作历史和当前用户环境来为用户呈现推荐的响应行动候选。

此外，如上所述，语音识别单元10a顺序地获取语音文本，结合语义分析单元10b顺序地执行语义分析，从而响应行动获取单元10c顺序地更新响应行动候选的获取。得分计算单元10d根据响应行动候选的获取和更新顺序地更新每个响应行动候选的得分，并将得分输出至显示控制单元10e。

显示控制单元10e用作通知控制单元，该通知控制单元执行控制以在语音期间根据由得分计算单元10d计算的每个响应行动候选的得分向用户通知每个响应行动候选。例如，显示控制单元10e对投影单元16进行控制，使得投影单元16在墙20上投影并显示指示每个响应行动候选的图标。此外，当得分计算单元10d更新得分时，显示控制单元10e根据新得分更新显示以向用户通知每个响应行动候选。

在此，将参照图5描述与得分相对应的响应行动候选的显示。图5是示出根据这种实施方式的根据得分的响应行动候选的显示示例的图。例如，如图5的左侧部分所示，当用户已经发出了语音30“本周中天气……”时，如得分表40所指示的，计算出天气应用的得分为“0.5”，运动图像应用的得分为“0.3”，日历应用的得分为“0.2”。在这种情况下，如图5的左侧部分所示，显示控制单元10e进行控制使得指示天气应用的图标21a、指示运动图像应用的图标21b以及指示日历应用的图标21c被投影和显示。显示控制单元10e可以显示动画，使得图标21a至21c从显示区域外部滑入显示区域。因此，用户可以在语音期间直观地了解系统正执行语音识别过程以及由系统当前获取的响应行动候选。此外，在这种情况下，显示控制单元10e可以使投影的图标的图像区(区域)与其得分相关联。

接下来，如图5的中间部分所示，当用户已经发出了语音31“本周中天气好的一天的日程安排……”时，如得分表41所示，天气应用的得分更新为“0.05”，运动图像应用的得分更新为“0.15”，日历应用的得分更新为“0.8”。在这种情况下，显示控制单元10e更新投影屏幕使得例如不显示低于预定阈值的响应行动并且增大剩余的响应行动的显示图标的大小。具体地，如图5的中间部分所示，显示控制单元10e进行控制使得仅指示日历应用的图标21c-1被投影和显示。注意，当对图标进行控制使得不显示该图标时，可以使该图标滑入显示区域的外部或淡出。

此后，如图5的右侧部分所示，当用户已经发出了语音32“本周中天气好的一天的日程安排显示给我！”且语音结束时，如得分表42所示，天气应用的得分更新为“0.00”，运动图像应用的得分更新为“0.02”，日历应用的得分更新为“0.98”。在这种情况下，因为已经确定了最终的响应行动，所以显示控制单元10e执行显示控制使得已经被显示的指示日历应用的图标21c-2不显示(例如，通过淡出移除显示)。此后，响应行动获取单元10c基于语音结束之后所确定的最终语音文本以及语义分析的结果来将激活日历应用确定为响应行动，并且执行单元10f激活日历应用。此外，显示控制单元10e显示由执行单元10f激活的日历应用生成的月度日程安排图像22。

因而，从语音期间顺序地执行语音识别，并且将响应行动候选反馈给用户。此外，随着语音进行，对响应行动候选进行更新，并且在语音结束之后，执行最终确定的响应行动。

前面已经描述了通过显示控制单元10e的响应行动候选的显示示例。

当语音结束之后确定了最终的语音文本(即，语音识别结束)时，执行单元10f执行由响应行动获取单元10c最终确定的响应行动。本文中采用的响应行动例如如下。

[表2]

(通信单元11)

通信单元11将数据发送至外部设备以及从外部设备接收数据。例如，通信单元11连接至网络上的预定服务器，并且在由执行单元10f执行响应行动期间接收需要的各项信息。

(麦克风12)

麦克风12具有以下功能：收集其周围的声音，并且将声音作为音频信号输出至控制单元10。此外，麦克风12可以以阵列麦克风来实现。

(扬声器13)

扬声器13具有以下功能：在控制单元10的控制下，将音频信号转换成声音并且输出声音。

(摄像机14)

摄像机14具有以下功能：使用布置在信息处理设备1中的成像镜头来拍摄周围区域的图像，并且将所拍摄的图像输出至控制单元10。此外，摄像机14可以以全方位摄像机或广角摄像机来实现。

(距离测量传感器15)

距离测量传感器15具有以下功能：测量信息处理设备1与用户或用户周围的人之间的距离。距离测量传感器15以例如光传感器(基于关于光发射定时/光接收定时中的相位差的信息来测量至感兴趣的对象的距离的传感器)来实现。

(投影单元16)

作为显示设备的示例的投影单元16具有在墙或屏幕上投影(并放大)和显示图像的功能。

(存储单元17)

存储单元17存储用于使信息处理设备1的每个部件运行的程序。存储单元17还存储被得分计算单元10d用来计算响应行动候选的得分各种参数以及能够由执行单元10f执行的应用程序。存储单元17还存储用户的注册信息。用户的注册信息包括个人可识别信息(话音的特征量、面部图像的特征量或人的图像(包括身体图像)的特征量、姓名、身份证号码等)、年龄、性别、兴趣爱好、属性(家庭主妇、职员、学生等)、关于用户所拥有的通信终端的信息等。

(光发射单元18)

以光发射装置如LED等实现的光发射单元18可以执行全部发射、部分发射、闪烁、发射位置控制等。例如，光发射单元18可以在控制单元10的控制下从光发射单元18的一部分朝沿语音识别单元10a所识别的讲话者的方向发出光，从而看起来好像光发射单元18注视着讲话者。

前面已经具体描述了根据这种实施方式的信息处理设备1的配置。注意，图4所示的配置仅是说明性的，并且这种实施方式不限于此。例如，信息处理设备1还可以包括红外(IR)摄像机、深度摄像机、立体摄像机、运动传感器等以获取关于周围环境的信息。此外，设置在信息处理设备1中的麦克风12、扬声器13、摄像机14、光发射单元18等的安装位置没有特别限制。此外，投影单元16是显示设备的示例，但是信息处理设备1还可以使用其他手段来执行显示。例如，信息处理设备1可以连接至显示预定屏幕的外部显示设备。此外，可以将根据这种实施方式的控制单元10的功能设置在云中，控制单元10通过通信单元11连接至云。

<<3.操作过程>>

接下来，将参照图6具体地描述根据这种实施方式的语音识别系统的操作过程。

图6是示出根据这种实施方式的语音识别系统的操作过程的流程图。如图6所示，最初在步骤S103中，信息处理设备1的控制单元10确定是否存在用户语音。具体地，控制单元10使用语音识别单元10a对麦克风12所收集的音频信号执行语音识别以确定是否存在定向至系统的用户语音。

接下来，在步骤S106中，语音识别单元10a通过语音识别过程获取语音文本。

接下来，在步骤S109中，控制单元10确定是否已经完成了语音识别，即，是否已经最终确定了语音文本。语音持续的情形(语音期间)表示尚未完成语音识别，即还没有最终确定语音文本。

接下来，如果尚未完成语音识别(S109/否)，则在步骤S112中语义分析单元10b从语音识别单元10a获取到当前时刻为止已经发出的语音文本。

接下来，在步骤S115中，语义分析单元10b在语音期间基于到某个时间点为止已经发出的语音文本来执行语义分析过程。

接下来，在步骤S118中，响应行动获取单元10c基于由语义分析单元10b执行的语义分析的结果来获取对用户的语音的响应行动候选，得分计算单元10d计算当前响应行动候选的得分。

接下来，在步骤S121中，显示控制单元10e确定用于显示响应行动候选的方法。用于显示响应行动候选的方法的示例包括：显示表示响应行动候选的图标、显示表示响应行动候选的文本、在次显示区中显示、当用户正在主显示区中观看电影时在主显示区下方设置的特定页脚区域中显示等。下面将参照图7至图14来描述用于显示响应行动候选的具体方法。此外，显示控制单元10e可以根据响应行动候选的数目或每个响应行动候选的得分来确定显示方法。

接下来，在步骤S124中，显示控制单元10e执行控制以显示排名最高的N个响应行动候选。例如，显示控制单元10e控制投影单元16，使得投影单元16将表示响应行动候选的图标投影到墙20上。

顺序地执行上述S112至S124中的过程直到语音已经完成。当响应行动候选或响应行动候选的得分更新时，显示控制单元10e根据该更新来改变所显示的信息。

同时，如果语音已经结束并且已经完成语音识别(已经确定最终的语音文本)(S109/是)，则在步骤S127中语义分析单元10b基于最终的语音文本来执行语义分析过程。

接下来，在步骤S130中，响应行动获取单元10c基于由语义分析单元10b执行的语义分析的结果来最终确定关于用户的语音的响应行动。注意，当用户明确地选择了响应行动时，响应行动获取单元10c可以确定最终的响应行动是用户所选择的响应行动。

此后，在步骤S133中，执行单元10f执行由响应行动获取单元10c确定的最终的响应行动。

前面已经具体描述了根据这种实施方式的语音识别系统的操作过程。注意，当由用户执行的操作的历史累积时，在步骤S133之后可以执行对语音期间感测用户环境的结果的数据集进行存储以及最终确定响应行动的过程。接下来，将参照图7至图14来描述根据这种实施方式的响应行动候选的显示示例。

<<4.响应行动候选的显示示例>>

<4-1.语音文本的显示>

图7是示出根据这种实施方式的与响应行动候选的显示一起显示语音文本的情况的图。尽管在图1和图5所示的示例中仅显示了响应行动候选，但这种实施方式不限于此，可替选地，可以另外显示所识别的语音文本。具体地，如图7所示，在语音期间识别的语音文本300“本周中的天气……”与表示响应行动候选的图标21b一起显示。因此，用户可以识别出语音识别如何处理了他们的语音。此外，所显示的语音文本与语音关联地顺序变化。

<4-2.根据得分的显示方法>

在上面图5所示的示例中，通过使显示表示响应行动候选的每个图标的区域与相应的得分相关联，反馈每个响应行动候选之间得分差。这种实施方式不限于此。例如，即使当图标图像具有相同的显示面积时，仍然可以反馈每个响应行动候选之间的得分差。这将参照图8来具体描述。

图8是用于描述通过改变显示点大小来反馈每个响应行动候选之间得分差的显示方法的图。例如，如图8的左侧部分所示，当作为响应行动候选的天气应用得分为低于预定阈值(例如，“0.5”)的“0.3”时，仅显示图标21b。同时，如图8的右侧部分所示，当与语音关联地更新得分时，使得作为响应行动候选的天气应用的得分为“0.8”，该得分超过了预定阈值，显示包括当执行响应行动时将呈现的信息(例如，日期和最高气温/最低气温)的图标21b-1。可以根据得分值来改变显示点大小。

此外，在这种实施方式中，可以根据得分动态地改变显示响应行动候选的区域以及信息的数量。这将参照图9来描述。

图9是用于描述根据响应行动候选的得分来显示显示面积和信息量的方法的图。如使用图9中示出的图标23所指示的，可以根据得分增大显示区域和信息量，从而可以将更多信息呈现给用户。

此外，在这种实施方式中，可以使用其他显示方法如例如变灰来显示得分低的响应行动候选，而不是不显示得分低的响应行动候选，从而可以明确地指示得分低于预定值。这将参照图10来描述。

图10是用于描述根据这种实施方式的响应行动候选的变灰显示的图。如图10的左侧部分所示，显示具有相同显示面积的在用户语音期间通过语音识别/语义分析获得的响应行动候选的图标24a至24e，然后与语音的进行关联地更新这些图标，使得如图10的中间部分所示，图标24b’和24e’被显示为变灰。因此，用户可以直观地了解由图标24b’和24e’表示的响应行动的得分低于预定值。

接下来，如图10的右侧部分所示，当语音结束之后，确定最终的响应行动是由图标24c表示的日历应用，其他图标24a’、24b’、24d’和24e’消失，并且当日历应用被激活时图标24c淡出，使得使用淡入效果来显示月度日程安排图像22。

在上述显示方法中，显示响应行动候选的列表，因此用户甚至可以在语音期间立即选择期望的响应行动。具体地，所显示的响应行动候选可以用作行动的快捷方式。在这种情况下，用户还可以选择被变灰显示的响应行动候选。

例如，当在语音期间显示的响应行动候选中存在期望的行动时，用户可以通过说“左边的图标！”、“第三个图标！”等来选择期望的行动。此外，不但可以通过使用话音而且可以通过使用姿势、触摸操作、遥控器等来执行选择。此外，由用户执行的这样的选择不但可以用于确定要激活什么行动的功能而且可以用于取消功能。例如，当发出语音“本周中的天气……，哎呀，不是这样”时，可以取消(不显示)已经与“本周中的天气……”关联的以较大大小(较高得分)显示的响应行动候选，并且可以减小得分。

<4-3.存在多个讲话者的情况下的显示方法>

此外，也可以由多个用户使用根据这种实施方式的语音识别系统。例如，假定通过使用阵列麦克风或摄像机来识别用户(讲话者)的位置，则根据用户的位置来划分显示区域，并且为每个用户显示行动候选。在这种情况下，针对多个用户并行执行图6的流程中所示的实时语音识别过程、语义分析过程和响应行动获取过程等。这将参照图11来具体描述。

图11是用于描述根据这种实施方式的当多个用户使用系统时显示响应行动候选的方法的图。如图11所示，根据用户AA关于显示区域的相对位置在显示区域的左侧部分中显示关于用户AA的语音33“本周中的天气……”的响应行动候选。例如，图标25a至25c被显示。此外，根据用户BB关于显示区域的相对位置在显示区域的右侧部分中显示关于用户BB的语音34“音乐会的……”的响应行动候选。例如，图标26被显示。

注意，当多个用户使用系统时，根据这种实施方式的信息处理设备1可以以不针对用户划分显示区域的整合方式执行实时语音识别过程、语义分析过程、响应行动获取过程等，并且反馈单个结果。

<4-4.除了主显示区域以外的区域中的显示方法>

此外，根据这种实施方式的语音识别系统可以在语音期间在除了主显示区域以外的区域中通知响应行动候选。在此，主显示区域指由投影单元16执行投影和显示的区域。信息处理设备1可以将响应行动候选显示在作为除了主显示区域以外的显示区域例如设置在信息处理设备1的侧表面上的由液晶显示器等形成的次显示器(未示出)上或者外部显示设备如在用户周围的TV、智能电话或平板终端、由用户穿戴的可穿戴终端等上。

当在除了主显示区域以外的区域中执行显示时，代替图5所示的显示方法，可以仅显示具有最高得分的响应行动候选的图标或文本。此外，根据这种实施方式的语音识别系统可以使用LED的光等作为反馈。例如，信息处理设备1可以通过使光发射单元18发出具有先前分配给每个响应行动的颜色的光来实时地进行反馈。

<4-5.不同屏幕状态的不同显示方法>

此外，根据这种实施方式的语音识别系统可以根据显示区域的当前屏幕状态来改变用于显示响应行动候选的方法。这将参照图12来具体描述。

图12是用于描述根据这种实施方式的用于根据屏幕的状态来显示响应行动候选的方法的图。例如，甚至当用户正在观看电影等时，用户可以向语音识别系统发出语音并且从而使用话音UI。因此，例如，用户可以仅使用话音指示例如调节音量。在这种情况下，如果响应于用户的语音而将响应行动候选的大图标显示并重叠在屏幕上，则图标妨碍电影的观看。

鉴于以上，例如，当如图12的左侧部分所示的那样显示运动图像50时，根据这种实施方式的信息处理设备1的显示控制单元10e在显示区域下方提供特定页脚区域45，并且在该区域中显示响应行动候选的图标(例如，图标27a至27c)。此外，如图12的右侧部分所示，当不期望显示被叠加在运动图像的一部分上时，显示控制单元10e可以显示与用于显示响应行动候选的显示区域(页脚区域45)不交叠的缩小的运动图像屏幕51。

此外，当在页脚区域45中显示响应行动候选的图标时，信息处理设备1可以调整所显示的图标的数量或大小以不妨碍运动图像的观看。

因此，根据这种实施方式的信息处理设备1的显示控制单元10e可以根据屏幕状态(例如，所显示的信息的数量、显示区域的大小等)或所显示的响应行动候选的显示状态(图标、文本、显示量等)通过使用预定的显示布局模式来执行最佳显示控制。此外，信息处理设备1可以在运动图像的回放期间使用在除了主显示区域以外的区域中显示的方法，例如上面所述的那些方法。因此，可以向用户通知响应行动候选，但响应行动候选与在主显示区域中回放的运动图像屏幕一点也不交叠。

<4-6.其他图标显示示例>

在上面显示屏幕示例中，指示各种应用的激活行动的图标显示为响应行动候选的图标。这种实施方式不限于此。现在将参照图13和图14来描述响应行动候选的其他显示示例。

图13是示出指示应用中涉及的更多具体行动的图标的示例的图。例如，图13示出了指示朗读邮件的图标28a、指示卸载天气应用的图标28b、指示显示日历应用中的月度日程安排的图标28c、以及指示将事件或活动添加至日历应用中的日程安排的图标28d。

图14是示出指示在音量调节中涉及的行动的图标的示例的图。如图14的左侧部分所示，例如，当用户在观看运动图像52期间发出语音“音量……”时，在设置在显示区域下方的页脚区域中显示指示音量调节的图标28e。接下来，如图14的右上部分所示，当用户发出语音“音量增大……”时，显示指示要将音量调节成增大的图标28e-1。另外，如图14的右下部分所示，当用户发出语音“音量减小……”时，显示指示要将音量调节成减小的图标28e-2。

<<5.总结>>

如上所述，在根据本公开内容的实施方式的语音识别系统中，可以从语音期间通过话音UI向用户通知响应候选(响应行动候选)，即，实时地顺序执行语义分析，并且可以将响应候选反馈给用户。

上面已经参照附图描述了本公开内容的优选实施方式，然而本公开内容不限于上面的示例。本领域的技术人员可以发现所附权利要求范围内的各种变更和修改，还应当理解，这些变更和修改将自然地落入本公开内容的技术范围内。

例如，可以提供计算机程序，该计算机程序使包括在信息处理设备1中的硬件(包括CPU、ROM、RAM等)提供信息处理设备1的功能。此外，提供了存储计算机程序的计算机可读存储介质。

此外，显示控制单元10e可以显示至少预定数量的响应行动候选、得分超过预定阈值的所有响应行动候选或者在得分超过预定阈值之前显示至少预定数量的响应行动候选。

此外，显示控制单元10e可以将响应行动候选连同其得分一起显示。

另外，本说明书中描述的效果仅仅是说明性的或示例性效果而非限制性的。也就是说，连同上述效果一起或者代替上述效果，根据本公开内容的技术可以基于本说明书的描述达到对本领域技术人员而言显而易见的其他效果。

另外，还可以如下配置本技术。

(1)一种信息处理设备，包括：

语义分析单元，被配置成在语音期间对由语音识别单元识别的语音文本执行语义分析；

得分计算单元，被配置成基于由所述语义分析单元所执行的分析的结果来计算响应候选的得分；以及

通知控制单元，被配置成执行控制以在所述语音期间根据由所述得分计算单元所计算的得分来通知所述响应候选。

(2)根据(1)所述的信息处理设备，

其中，所述得分计算单元根据由所述语义分析单元对所述语音顺序执行的所述语义分析来更新所述得分，以及

所述通知控制单元执行控制以与所述得分的所述更新相关联地更新所述响应候选的显示。

(3)根据(1)所述的信息处理设备，

其中，所述通知控制单元执行控制来以与所述得分对应的显示形式通知多个所述响应候选。

(4)根据(3)所述的信息处理设备，

其中，所述通知控制单元执行控制以基于所述得分显示预定数量的具有最高得分的所述响应候选。

(5)根据(3)或(4)所述的信息处理设备，

其中，所述通知控制单元执行控制以显示得分超过预定值的所述响应候选。

(6)根据(3)至(4)中任一项所述的信息处理设备，

其中，所述通知控制单元执行控制以使用与所述得分的值对应的显示面积来显示所述响应候选。

(7)根据(3)至(5)中任一项所述的信息处理设备，

其中，所述通知控制单元执行控制以显示所述响应候选的图标，每个图标包括关于与所述得分对应的显示点大小的信息。

(8)根据(3)至(6)中任一项所述的信息处理设备，

其中，所述通知控制单元执行控制来以变灰方式显示得分低于预定值的所述响应候选。

(9)根据(3)至(8)中任一项所述的信息处理设备，

其中，所述通知控制单元执行控制以显示所识别的语音文本连同所述响应候选。

(10)根据(1)至(8)中任一项所述的信息处理设备，

其中，所述得分计算单元另外考虑当前用户环境来计算所述得分。

(11)根据(1)至(10)中任一项所述的信息处理设备，还包括：

执行控制单元，被配置成执行控制以执行最终响应。

(12)根据(11)所述的信息处理设备，

其中，执行控制使得执行基于对在所述语音结束之后最终确定的语音文本的语义分析的结果而确定的最终响应。

(13)根据(11)所述的信息处理设备，

其中，执行控制使得执行由用户选择的最终响应。

(14)一种控制方法，包括：

在语音期间对由语音识别单元识别的语音文本执行语义分析；

由得分计算单元基于所述语义分析的结果计算响应候选的得分；以及

执行控制以在所述语音期间根据所计算的得分来通知所响应候选。

(15)一种程序，所述程序用于使计算机用作：

被配置成在语音期间对由语音识别单元识别的语音文本执行语义分析的语义分析单元；

被配置成基于由所述语义分析单元所执行的分析的结果来计算响应候选的得分的得分计算单元；以及

被配置成执行控制以在所述语音期间根据由所述得分计算单元所计算的得分通知所述响应候选的通知控制单元。

附图标记列表

1 信息处理设备

10 控制单元

10a 语音识别单元

10b 语义分析单元

10c 响应行动获取单元

10d 得分计算单元

10e 显示控制单元

10f 执行单元

11 通信单元

12 麦克风

13 扬声器

14 摄像机

15 距离测量传感器

16 投影单元

17 存储单元

18 光发射单元

20 墙

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：大村淳己;桐原丽子;须木康之;小笠原好一;
技术所有人：索尼公司;
我是此专利的发明人