信息处理设备、信息处理方法和程序的制作方法

文档序号：6425664阅读：135来源：国知局

专利名称：信息处理设备、信息处理方法和程序的制作方法
技术领域：
本公开涉及信息处理设备、信息处理方法和程序，并且更加具体地涉及基于用户等的发声来执行各种过程的信息处理设备、信息处理方法和程序。
背景技术：
当使用个人计算机(PC)、电视机、记录/重放装置或其它家用电器时，用户操作针对每个设备设置的输入单元或遥控器，以便使设备执行期望的过程。例如，当使用PC时，键盘和鼠标典型地用作输入装置。另外，在电视机或记录/重放装置等的情况下，使用遥控器来使设备执行各种过程如切换频道和选择将要重放的内容。对下述系统已实施了各种研究，在所述系统中，用户可以通过进行发声或者通过动作来命令各种设备。更加具体地，存在比如这样一种系统，在所述系统中，通过使用语音识别过程来识别用户的发声，还存在比如这样一种系统，在所述系统中，通过使用图像识别过程来识别用户的动作或姿势。使用普通输入装置如遥控器、键盘或鼠标以及各种通信模式如语音识别和图像识别来执行与用户的通信所通过的界面被称为“多模界面”。其中记载了多模界面的现有技术的例子是美国专利第6，988，072号。然而，与多模界面等一起使用的语音识别设备和图像识别设备在其处理能力方面受到限制，并且只能理解有限数目的用户发声和动作的类型。因此目前存在许多其中用户的意图未被系统确切地理解的情形。特别是在采用语音识别的系统中，尽管当用户可以讲的命令类型数目增加时他/她可以感受自然的互动，但是就接下来讲什么而言用户有时会有困难，因为他/她难以得知可以被系统接收的可用命令。

发明内容
因此，希望在其中信息处理设备通过接收语音信息和图像信息如用户的发声和动作来执行过程的多模交互系统中，提供一种信息处理设备、信息处理方法和程序，其可以例如根据用户的存在、用户的脸的方向、用户的状态、系统的状态和过去响应的历史向用户提供最佳帮助信息。根据本公开的第一实施例的信息处理设备包括图像分析单元，其执行用于分析通过摄影机捕捉的图像的过程；语音分析单元，其执行用于分析从麦克风输入的语音的过程；以及数据处理单元，其接收通过所述图像分析单元实施的分析的结果和通过所述语音分析单元实施的分析的结果，并且执行用于用户的帮助信息的输出控制。数据处理单元至少基于图像分析的结果或语音分析的结果计算用户的困难度，并且如果计算出的困难度等于或大于预定阈值，则执行用于向用户输出帮助信息的过程。进而，在根据本公开的第一实施例的信息处理设备中，数据处理单元可以基于图像分析的结果判断用户的脸是否面对信息处理设备，并且可以通过使用关于判断的信息来计算困难度。
进而，在根据本公开的第一实施例的信息处理设备中，数据处理单元可以基于图像分析的结果判断用户的脸面对特定方向所经历的持续时间，并且可以通过使用关于判断的信息来计算困难度。进而，在根据本公开的第一实施例的信息处理设备中，数据处理单元可以通过使用关于与用户做出的请求相对应的过程是否已被执行的判断的信息来计算困难度。进而，在根据本公开的第一实施例的信息处理设备中，数据处理单元可以基于关于用户做出的请求已被拒绝的次数的信息来判断用户等级，并且可以通过使用关于判断的信息来计算困难度。进而，在根据本公开的第一实施例的信息处理设备中，数据处理单元可以基于关于自从信息处理设备执行用于对用户做出响应的过程以来所经过的时间的信息来计算困难度。进而，根据本公开的第一实施例的信息处理设备进一步可以包括系统状态控制单元，其获得并可以存储信息处理设备的状态转移。数据处理单元可以执行用于输出与系统状态控制单元中存储的系统状态相对应的帮助信息的过程。进而，在信息处理设备中使用的根据本公开的第二实施例的信息处理方法包括使用图像分析单元执行用于分析通过摄影机捕捉的图像的过程；使用语音分析单元执行用于分析从麦克风输入的语音的过程；以及使用数据处理单元接收通过所述图像分析单元实施的分析的结果和通过所述语音分析单元实施的分析的结果，并且执行用于用户的帮助信息的输出控制。在接收时，至少基于图像分析的结果或语音分析的结果计算用户的困难度，并且如果计算出的困难度等于或大于预定阈值，则执行用于向用户输出帮助信息的过程。进而，使信息过程在信息处理设备中执行的根据本公开的第三实施例的程序包括使图像分析单元执行用于分析通过摄影机捕捉的图像的过程；使语音分析单元执行用于分析从麦克风输入的语音的过程；以及使数据处理单元接收通过所述图像分析单元实施的分析的结果和通过所述语音分析单元实施的分析的结果，并且执行向用户的帮助信息的输出控制。在使数据处理单元接收结果时，至少基于图像分析的结果或语音分析的结果计算用户的困难度，并且如果计算出的困难度等于或大于预定阈值，则执行用于向用户输出帮助信息的过程。要注意的是，根据本公开的第三实施例的程序例如是可以从存储介质或通信介质提供的程序，所述存储介质或通信介质将程序作为计算机可读程序提供给能够执行各种程序代码的信息处理设备或计算机系统。通过提供作为计算机可读程序的程序，可以在信息处理设备或计算机系统上实现对应于程序的过程。基于稍后将会参考的附图和本公开的实施例，将会通过详细的描述来阐明本技术的其它特性和优点。可以理解的是，此处的“系统”指的是包括一组多个设备的逻辑构造，因此不限于这样一种构造，在所述构造中，在同样的情况下提供具有各个构造的设备。在根据本公开实施例的构造中，实现了下述设备和方法，所述设备和方法分析用户的状态，判断用户的困难度，并且根据判断的结果提供帮助信息。更加具体地，数据处理单元接收通过图像分析单元实施的分析的结果和通过语音分析单元实施的分析的结果，并且执行用于用户的帮助信息的输出控制，其中，所述图像分析单元执行用于分析通过摄影机捕捉的图像的过程，并且所述语音分析单元执行用于分析从麦克风输入的语音的过程。作为图像分析的结果，数据处理单元例如获得用户信息如用户的脸是否面对设备，并且基于获得的用户信息来计算用户的困难度。如果计算出的困难度等于或大于预定阈值，则数据处理单元执行用于向用户输出帮助信息的过程。

图1是图示根据本公开实施例的信息处理设备的使用的例子的示图；图2是图示根据本公开实施例的信息处理设备的构造的例子的框图；图3是图示根据本公开实施例的信息处理设备的详细构造的例子的框图；图4是图示根据本公开实施例的信息处理设备所执行的过程的例子的流程图；图5是图示根据本公开实施例的信息处理设备所执行的过程的例子的流程图；图6是图示根据本公开实施例的信息处理设备所执行的过程的例子的流程图；图7是图示根据本公开实施例的信息处理设备所执行的过程的例子的流程图；图8是图示根据本公开实施例的信息处理设备所执行的过程的例子的示图；图9是图示根据本公开实施例的信息处理设备所执行的过程的例子的示图；以及图10是图示根据本公开实施例的信息处理设备的硬件构造的例子的示图。
具体实施例方式在下文中参考附图来描述根据本公开实施例的信息处理设备、信息处理方法和程序的细节。要注意的是，描述分成以下几项1.由根据本公开实施例的信息处理设备执行的过程概述2.根据本公开实施例的信息处理设备的构造的例子3.用于输出用于用户的帮助信息的过程的特定例子4.信息处理设备的硬件构造的例子1.由根据本公开实施例的信息处理设备执行的过程概述首先，参考图1来描述根据本公开实施例的信息处理设备所执行的过程的概述。在图1中，电视机被图示为根据本公开实施例的信息处理设备的例子。信息处理设备100例如执行用于显示广播内容的过程以及用于重放记录在内置的记录/重放装置如硬盘、数字通用盘(DVD)或蓝光盘上的内容的过程和用于将节目记录在记录/重放装置上的过程等。在信息处理设备100前面有多个用户。在图1所示的例子中，有用户a 11、用户b 12和用户c 13。这些用户向信息处理设备100做出各种请求。请求例如包括切换频道、调整音量、开始记录过程、显示记录内容列表、选择并重放来自列表的内容、停止重放以及快进。用户a 11至c 13用语音亦即用发声来做出这些请求。信息处理设备100包括摄影机101和具有麦克风和扬声器的语音输入/输出单元102。通过具有麦克风和扬声器的语音输入/输出单元102将用户a 11至c 13说出的话输入到信息处理设备100。另外，通过摄影机101将用户a 11至c 13的图像输入到信息处理设备100。信息处理设备100分析这些输入的信息，然后确定由此将要执行的行为，并且执行所述行为。如果信息处理设备100可以理解用户做出的请求，则执行与请求相对应的过程。过程例如可以是切换频道或选择并重放内容等。
信息处理设备100例如分析用户在过去几个步骤中的脸的方向、用户注视的方向、在先前发声之后所经过的时间、自从系统输出上次响应以来所经过的时间、在过去几个步骤中响应于用户做出的语音命令而执行的系统的行为以及系统的当前状态等。根据分析的结果，信息处理设备100估计用户是否想要来自系统的帮助。如果已估计用户正经历困难，则例如通过呈现用于显示帮助的一个或多个可用命令的例子来输出帮助信息。稍后会描述这个操作的特定过程。2.根据本公开实施例的信息处理设备的构造的例子根据本公开实施例的信息处理设备包括图像分析单元，其执行用于分析通过摄影机捕捉的图像的过程；语音分析单元，其执行用于分析从麦克风输入的语音的过程；以及数据处理单元，其接收通过所述图像分析单元实施的分析的结果和通过所述语音分析单元实施的分析的结果，并且执行用于用户的帮助信息的输出控制，其中，所述数据处理单元至少基于图像分析的结果或语音分析的结果计算所述用户的困难度，并且如果计算出的困难度等于或大于预定阈值，则执行用于向所述用户输出帮助信息的过程。接下来，参考图2来描述根据本公开实施例的信息处理设备的构造的例子。图2 所示的信息处理设备100例如对应于图1所示的信息处理设备100。要注意的是，根据本公开实施例的信息处理设备不仅可以实现为电视机，而且还可以实现为PC、记录/重放装置或各种其它家用电器。亦即，根据本公开实施例的信息处理设备是根据用户做出的请求执行各种过程的信息处理设备。如图2所示，信息处理设备100包括图像输入单元(摄影机)201、图像分析单元 202、语音输入单元(麦克风)203、语音分析单元204、数据处理单元205、语音输出单元(扬声器)206和图像输出单元(显示器)207。图像输入单元(摄影机)201接收信息处理设备100的周围的图像，例如接收用户的图像。将图像输入单元(摄影机)201捕捉的图像输入到图像分析单元202。图像分析单元202执行下述过程例如使用预先存储在存储单元中的登记信息如用户的脸信息，识别捕捉的图像中包括的用户。更加具体地，分析诸如用户的位置和用户的身份等之类的信息。将这个分析信息输入到数据处理单元205。语音输入单元(麦克风)203接收信息处理设备100周围的语音信息，例如接收用户的发声。将语音输入单元(麦克风)203接收的语音信息输入到语音分析单元204。语音分析单元204在存储单元中具有用于语音分析的词典，并且使用该词典分析由用户说出的话，然后将分析信息输入到数据处理单元205。数据处理单元205接收来自语音分析单元204的语音分析信息和来自图像分析单元202的图像分析信息。根据输入的信息，数据处理单元205确定将要由信息处理设备100 执行的过程(行为)。亦即，如上所述，如果信息处理设备100可以理解用户做出的请求，则执行与请求相对应的过程。过程例如可以是切换频道或选择并重放内容。进而，数据处理单元205例如分析用户在过去几个步骤中的脸的方向、用户注视的方向、在先前发声之后所经过的时间、自从系统输出上次响应以来所经过的时间、在过去几个步骤中响应于用户做出的语音命令而执行的系统的行为以及系统的当前状态等。根据分析的结果，数据处理单元205估计用户是否想要来自系统的帮助。如果已估计用户正经历困难，则例如通过呈现用于显示帮助的一个或多个可用命令的例子来输出帮助信息。
通过语音输出单元(扬声器)206作为语音输出，或者通过图像输出单元(显示器)207作为图像输出，或者通过这两者的组合，执行用于输出帮助信息的过程。稍后将会描述这个操作的特定内容。图3是图示图2所示的信息处理设备100的详细构造的示图。图像分析单元202具有脸/脸方向识别单元311和个人识别单元312。语音分析单元204具有语音检测单元321和意义检测单元322。数据处理单元205具有用户信息管理单元331、用户交互状态估计单元332、系统状态控制单元333、系统响应生成单元334和系统响应输出单元335。在以预定帧间隔设置的每个采样时间，图像分析单元202中的脸/脸方向识别单元311和个人识别单元312基于从图像输入单元(摄影机)201输入的捕捉图像来判断在帧图像中是否有脸或人。如果已判断在帧图像中有脸或人，则脸/脸方向识别单元311和个人识别单元312例如估计脸的属性(脸的角度、估计年龄和性别等)，分析脸的方向，并且识别脸。对于这个过程所必须的词典数据和脸图像信息登记在图像分析单元202中包括的存储器中。例如，通过执行下述过程来执行诸如用于识别脸的过程之类的过程将从图像输入单元(摄影机)201输入的图像中识别的人脸与预先登记的脸图像数据相匹配。基于从语音输入单元(麦克风)203输入的语音数据，语音分析单元204中的语音检测单元321和意义检测单元322例如估计语音来源的方向，检测音帧，识别意义，并且提供可靠性。语音分析单元204在存储单元中具有用于语音分析的词典，并且使用该词典来分析由用户说出的话，然后将分析信息输入到数据处理单元205。在语音分析过程期间，执行用于拒绝除了语音之外的声音而只获得人话音的过程。进而，基于获得的语音信息执行用于提取意义的过程。这个过程例如基于下述过程来执行将获得的语音信息与语音分析单元204中存储的词典数据相匹配。在这个过程期间，在其中例如不存在与获得的语音信息相匹配的登记话语的情况下，获得的语音信息的数据被作为无意义的发声而拒绝。进而，计算语音识别的可靠性。例如基于与语音分析单元204 等中存储的词典数据相关的匹配比率来计算可靠性。作为与预定阈值等相比较的结果而已被判断为具有低可靠性的发声会被拒绝。如图3所示，数据处理单元205具有用户信息管理单元331、用户交互状态估计单元332、系统状态控制单元333、系统响应生成单元334和系统响应输出单元335。用户信息管理单元331接收从脸/脸方向识别单元311和个人识别单元312输出的信息比如在图像中是否包括脸，并且如果在图像中包括脸，则接收信息比如脸属性估计结果(脸的角度、估计年龄和性别等)、脸方向分析结果和脸识别结果。进而，用户信息管理单元331从语音分析单元204中的意义检测单元322接收关于发声内容的信息。用户信息管理单元331存储并管理这些输入的信息作为用户管理信息。要注意的是，随着时间过去相继更新这些信息，并且用户信息管理单元331在存储器上记录并管理这些信息，作为对应于每个采样时间(t，t+l，t+2等等)的用户信息。将用户信息管理单元331中存储的用户信息提供给用户交互状态估计单元332。用户交互状态估计单元332例如执行以下过程过程A 用于分析到当前时间为止的预定时间段(一定采样时间段)内的用户脸的方向、用户注视的方向和用户的脸面对方向所经历的持续时间等的过程。
过程B 用于分析到当前时间为止的预定时间段(一定采样时间段)内的系统(信息处理设备100)的操作历史(是否音帧检测失败和域外发声)和用户的学习等级的过程。过程C 用于根据自从系统(信息处理设备100)向用户输出上次响应以来所经过的时间来估计用户正经历困难的概率(困难度)的过程，以及用于如果已判断用户正经历困难则呈现最佳帮助信息的过程。用户交互状态估计单元332通过使用以下信息中的任何一个来计算困难度(1) 关于脸方向的信息；(2)关于脸方向持续时间的信息；(3)用户等级信息；(4)错误等级信息；以及(5)关于自从系统已执行用于做出响应的过程以来所经过的时间的信息。在下文中将会对此详细描述。系统状态控制单元333获得并存储系统(信息处理设备100)内部的状态转移。系统响应生成单元334判断用户的发声是否有模糊性，并且根据用户的状态确定如何输出系统的响应。系统响应输出单元335向用户输出响应如帮助信息。从语音输出单元(扬声器)206或者从图像输出单元(显示器)207输出响应。3.用于输出用于用户的帮助信息的过程的特定例子接下来，作为由根据本公开实施例的信息处理设备执行的过程的例子，描述用于输出用于用户的帮助信息的过程的特定例子。如上所述，采用语音识别和图像识别的多模界面在将要使用的语音识别设备和图像识别设备的处理能力方面受到限制，这不希望地限制了可以理解的用户的发声和动作类型的数目。结果，造成的问题在于可能存在下述情况用户的意图未被系统识别，因此与用户的意图相对应的过程未被执行。下面描述的过程的例子就是解决这种问题的过程的例子。在过程的这个例子中，分析用户是否正经历困难，并且计算用户的困难度，然后根据计算出的困难度执行帮助信息的呈现。如上所述，数据处理单元205中的用户交互状态估计单元332执行以下过程过程A 用于分析到当前时间为止的预定时间段(一定采样时间段)内的用户脸的方向、用户注视的方向和用户的脸面对方向所经历的持续时间等的过程。过程B 用于分析到当前时间为止的预定时间段(一定采样时间段)内的系统(信息处理设备100)的操作历史(是否音帧检测失败和域外发声)和用户的学习等级的过程。过程C 用于根据自从系统(信息处理设备100)向用户输出上次响应以来所经过的时间来估计用户正经历困难的概率(困难度)的过程，以及用于如果已判断用户正经历困难则呈现最佳帮助信息的过程。参考图4以及随后的附图的流程图来描述这些过程A至C的特定处理序列。首先，参考图4来描述过程A的序列。过程A是以下过程过程A 用于分析到当前时间为止的预定时间段(一定采样时间段)内的用户脸的方向、用户注视的方向和用户的脸面对方向所经历的持续时间等的过程。在步骤SlOl中，输入用户信息。用户信息是从图像分析单元202和语音分析单元 204输入到用户信息管理单元331的信息。亦即，用户信息包括在图像中是否包括脸，并且如果在图像中包括脸，则包括信息比如脸属性估计结果(脸的角度、估计年龄和性别等)、脸方向分析结果、脸识别结果以及关于发声内容的信息。要注意的是，随着时间过去相继更新这些信息，并且用户交互状态估计单元332从用户信息管理单元331接收对应于每个采样时间(t，t+1，t+2等等)的信息。在步骤S102中，根据从用户信息管理单元331输入的用户信息判断用户的脸在时间t是否面对系统(信息处理设备100)。数据处理单元205中的用户交互状态估计单元332具有水平方向上的角度阈值 (Θ_ΜΙΝ和Θ_ΜΑΧ)以及垂直方向上的角度阈值(Φ_ΜΙΝ* Φ_ΜΑΧ)，作为用于判断用户的脸是否面对系统(信息处理设备100)的阈值。如果用户的脸的方向处在这些角度的范围之内，则判断用户面对系统(信息处理设备100)。亦即，在步骤S102中，判断脸在时间t的方向(θ，Φ)是否满足条件θ_ MIN 彡 θ 彡 θ _ΜΑΧ 和 Φ_ΜΙΝ 彡 Φ 彡 Φ_ΜΑΧ。如果已满足了上述条件，则判断用户的脸面对系统(信息处理设备100)，因此判断步骤S102为“是”，并且处理前进到步骤S103。另一方面，如果上述条件未被满足，则判断用户的脸没有面对系统(信息处理设备100)，因此判断步骤S102为“否”，并且处理前进到步骤S104。在步骤S103中，判断脸面对系统，并且指示用户的脸在时间t的方向的参数 (FaceDirection (t))被设置如下FaceDirection (t)=针对系统上述数据是这样的数据，所述数据指示用户的脸在时间t的方向表明用户的脸面对系统。另一方面，在步骤S104中，判断脸没有面对系统，并且指示用户的脸在时间t的方向的参数(FaceDirection (t))被设置如下FaceDirection (t)=针对其它上述数据是这样的数据，所述数据指示用户的脸在时间t的方向表明用户的脸没有面对系统。如在步骤SllO中描述的那样，在步骤S103和S104中设置的数据存储在存储器中。存储的数据被存储为对应于时间的数据。在步骤S103和S104中的过程之后，处理前进到步骤S105。在步骤S105中，判断用户的脸在时间t的方向(FaceDirectionU))是否匹配用户的脸在先前采样时间t-Ι的方向(FaceDirectiona-l))。亦即，判断用户是否持续面对同一方向。如果用户的脸在时间t的方向(FaceDirectionU))匹配用户的脸在先前采样时间t-Ι的方向PaceDirecti0n(t-Ι))，则处理前进到步骤S106，并且用户的脸的方向 (FaceDirection (t))的持续时间被更新并存储在存储器中。如果不匹配，则省略步骤S106中的过程。接下来，在步骤S107中，基于用户的脸的方向(FaceDirectionU))的持续时间 (tfd)，根据预定阈值将脸的方向的持续时间(FaceDirDur)分成⑴短期时间Ghort)、(2) 中期时间(Medium)或(3)长期时间(Long)。将类别存储在存储器中。接下来，参考图5的流程图来描述过程B的序列。过程B是以下过程过程B 用于分析到当前时间为止的预定时间段(一定采样时间段)内的系统(信息处理设备100)的操作历史(是否音帧检测失败和域外发声)和用户的学习等级的过程。在步骤S201，判断系统(信息处理设备100)是否已接收到用户的发声并执行了过程。这个过程中的判断是基于从系统状态控制单元333输入到用户交互状态估计单元332的系统处理信息来进行的。如果在步骤S201中已判断系统(信息处理设备100)已接收到用户的发声并执行了过程，则处理前进到步骤S202。如果已判断系统(信息处理设备100)尚未执行过程，则处理前进到步骤S211。当系统(信息处理设备100)已接收到用户的发声并执行了过程时，处理前进到步骤S202。在步骤S202中，用户的发声已被拒绝的次数、亦即过程尚未根据用户的发声而被执行的次数存储在存储器中作为会话信息。接下来，在步骤S203中，对关于过去几次会话中拒绝次数的预定阈值和特征量进行比较。“特征量”在此例如指的是关于拒绝的原因等的信息。拒绝的原因例如包括音帧检测失败、判断在领域之外进行发声以及语音分析的结果被判断为具有低可靠性。接下来，在步骤S204中，基于用于比较拒绝的次数、特征量和预定阈值的过程，将用户分成以下用户等级(User Level)之一 (a)初学者(Beginner)、(b)受训者(Trained) 和(c)专家(Expert)。“会话”在此例如指的是直到与用户的发声相对应的过程被估计为已执行为止的一段时间。如果用户的发声是请求改变频道，则“会话”指的是直到系统根据用户做出的请求执行正确的频道改变为止的一段时间。如果在该段时间期间用户已进行了多次(例如n+1 次)发声，并且响应于第(n+1)次发声执行了用于改变频道的正确过程，则拒绝的次数为η。在步骤S204中，根据拒绝的次数和预定阈值将用户分成以下用户等级之一 (a) 已造成很多拒绝次数的用户=初学者(Beginner) ； (b)已造成中等拒绝次数的用户=受训者(Trained)；以及(c)已造成很少拒绝次数的用户=专家(Expert)。要注意的是，可以采用这样的构造，在所述构造中，取决于作为拒绝原因的特征量是否相同而改变上述等级设置。另一方面，在步骤S201中，如果已判断系统(信息处理设备100)已接收到用户的发声但尚未执行过程，亦即如果用户的发声被拒绝，则处理前进到步骤S211。在步骤S211中，更新存储在存储器中的用户的发声已被拒绝的次数。要注意的是，在为什么未响应于用户的发声而执行过程的原因方面，亦即在为什么用户的发声被拒绝的原因方面，存在各种因素，比如音帧检测失败、在领域之外进行的发声以及语音分析的结果被判断为具有低可靠性。接下来，在步骤S212中，对已被拒绝的过去几次会话中的拒绝次数和预定阈值进行比较。接下来，在步骤S213中，基于用于比较拒绝次数和阈值的过程，将错误等级分成以下等级(a)低(Low)、(b)中(Mid)和(c)高(High)。接下来，参考图6的流程图来描述过程C的第一半的序列(过程C-1)。过程C是以下过程
11
过程C 用于根据自从系统(信息处理设备100)向用户输出上次响应以来所经过的时间来估计用户正经历困难的概率(困难度)的过程，以及用于如果已判断用户正经历困难则呈现最佳帮助信息的过程。图6所示的过程是在过程C的第一半中执行的过程(过程C-1)，并且是用于计算自从系统(信息处理设备100)向用户做出上次响应以来所经过的时间的过程。在步骤S301中，判断系统(信息处理设备100)是否正在等待来自用户的响应。这个过程中的判断是基于从系统状态控制单元333输入到用户交互状态估计单元332的系统处理信息来进行的。如果在步骤S301中已判断系统(信息处理设备100)正在等待来自用户的响应，则处理前进到步骤S302。在步骤S302中，自从系统执行用于对用户做出响应的过程以来所经过的时间被更新。系统状态控制单元333记录自从系统执行用于对用户做出响应的过程以来所经过的时间，并且相继更新数据。在步骤S303中，根据预定阈值，将自从系统做出响应以来所经过的时间分成(a) 短期时间(Short)、(b)中期时间(Medium)或(c)长期时间(Long)。接下来，在步骤S304中，将经过的时间(RT)作为(a)短期时间(Short)、(b)中期时间(Medium)或(c)长期时间(Long)存储在存储器中。图6的流程示了在过程C的第一半中执行的过程(过程C-1)。在过程C的第二半中执行的过程(过程C-幻是下述过程通过使用从上述过程 A、B和C-I中获得的结果来计算用户的困难度，根据计算出的困难度确定是否要向用户呈现帮助信息，以及如果已确定要呈现帮助信息则呈现帮助信息。参考图7的流程图来描述这个过程。在图7的流程图中，从步骤S501至步骤S545的过程对应于在上述过程A、B和C_1 中执行的过程。步骤S551和随后步骤中的过程对应于在过程C的第二半中执行的过程(过程 C-2)。步骤S501中的图像事件输入是下述过程基于从图像输入单元(摄影机)201输入的图像信息，将由图像分析单元202执行的分析过程的结果输入到数据处理单元205。更加具体地，例如在图像中是否包括脸，以及如果在图像中包括脸则信息如脸属性估计结果(脸的角度、估计年龄和性别等)、脸方向分析结果和脸识别结果被输入，作为由图像分析单元202执行的分析过程的结果。步骤S502中的语音事件输入是下述过程基于从语音输入单元(麦克风)203输入的语音信息，将由语音分析单元204执行的分析过程的结果输入到数据处理单元205。更加具体地，例如关于发声内容等的信息被输入，作为由语音分析单元204执行的分析过程的结果。步骤S521中的过程A是已参考图4的流程图描述的过程。亦即，在步骤S521中，执行以下过程过程A 用于分析到当前时间为止的预定时间段(一定采样时间段)内的用户脸的方向、用户注视的方向和用户的脸面对方向所经历的持续时间等的过程。在步骤S531、SMI、S532和S542中执行用于获得步骤S521中的过程A的执行结果并将结果存储在存储器中的过程。步骤S531和S541中的过程如下。在步骤S531中，作为过程A的结果获得关于脸在每个采样时间(t，t+1，t+2等等) 的方向的信息(FaceDir)，亦即(a)脸面对系统(信息处理设备100)(针对系统)或(b)脸没有面对系统(信息处理设备100)(针对其它)。在步骤S541中将获得的信息存储在存储器中。步骤S532和S542中的过程如下。在步骤S532中，作为过程A的结果获得关于脸的方向在每个采样时间(t，t+1, t+2等等)的持续时间的信息(FaceDirDur)，亦即(a)脸面对特定方向所经历的持续时间短(Short)、(b)脸面对特定方向所经历的持续时间中等(Medium)或(c)脸面对特定方向所经历的持续时间长(Long)。在步骤S502中的语音事件输入之后，执行步骤S511中的系统操作，然后执行步骤 S522中的过程B和步骤S523中的过程C。步骤S502中的语音事件输入例如是由用户做出的对系统(信息处理设备100)的操作请求。更加具体地，语音事件输入例如包括频道改变请求。在步骤S502中的语音事件输入之后执行的步骤S511中的系统操作是系统(信息处理设备100)响应于用户做出的请求而执行的过程。要注意的是，系统操作可以是也可以不是响应于用户做出的请求而被正确地执行。另外，例如由于音帧检测失败、判断在领域之外进行发声或者语音分析的结果被判断为具有低可靠性，用户的发声可能被拒绝。步骤 S511中的系统操作包括所有这些操作。在步骤S511中的系统操作之后，在步骤S522中执行已参考图5的流程图描述的过程B，并且在步骤S523中执行已参考图6的流程图描述的过程C-1。步骤S522中的过程B是已参考图5的流程图描述的过程。亦即，在步骤S522中，执行以下过程过程B 用于分析到当前时间为止的预定时间段(一定采样时间段)内的系统(信息处理设备100)的操作历史(是否音帧检测失败和域外发声)和用户的学习等级的过程。在步骤S533、S543, S534和S544中执行用于获得步骤S522中的过程B的执行结果并将结果存储在存储器中的过程。步骤S533和S543中的过程如下。在步骤S533中，作为过程B的结果获得用户等级信息(User Level)，亦即(a)初学者(Beginner)、(b)受训者(Trained)或(c)专家(Expert)。在步骤S543中将获得的信息存储在存储器中。要注意的是，用户等级信息也作为对应于每个采样时间(t，t+l，t+2等等)的信息记录在存储器上。步骤S534和S544中的过程如下。在步骤S534中，作为过程B的结果获得错误等级信息(Error)如(a)低(Low)、 (b)中(Mid)或(c)高(High)。要注意的是，如参考图5的流程图描述的那样，基于用户的发声已被拒绝的次数获得错误等级信息。
在步骤S544中将错误等级信息存储在存储器中。要注意的是，错误等级信息也作为对应于每个采样时间(t，t+l，t+2等等)的信息记录在存储器上。进而，在步骤S511中的系统操作之后，在步骤S523中执行已参考图6的流程图描述的过程C-I。亦即，执行以下过程过程C 用于根据自从系统(信息处理设备100)向用户输出上次响应以来所经过的时间来估计用户正经历困难的概率(困难度)的过程，以及用于如果已判断用户正经历困难则呈现最佳帮助信息的过程。在步骤S523中执行的过程是在过程C的第一半中执行的过程(过程C_l)。用于计算自从系统(信息处理设备100)向用户做出上次响应以来所经过的时间的过程被执行。在步骤S535和S545中执行用于获得步骤S523中的过程C的执行结果并将结果存储在存储器中的过程。步骤S535和S545中的过程如下。在步骤S535中，作为过程C的结果，任何的以下信息被获得作为关于经过时间 (RT)的信息，这是根据预定阈值对自从系统执行用于对用户做出响应的过程以来所经过的时间进行分类的结果(a)经过时间(RT)=短期时间(Short)、(b)经过时间(RT)=中期时间(Medium)或(c)经过时间(RT)=长期时间(Long)。在步骤S545中将获得的信息存储在存储器中。要注意的是，关于经过时间(RT) 的信息也作为对应于每个采样时间(t，t+l，t+2等等)的信息记录在存储器中。作为在上述步骤S521至S523中的过程A至C的结果而获得的以下信息记录在存储器上。在图8中图示了将要记录在存储器上的数据的例子。在图8中，图示了针对三个用户(Ul至U3)中的每一个获得的与两个连续采样时间点t-Ι和t相对应的数据的例子。例如，下面描述的(1)至(5)的值记录在存储器上。(1)关于脸方向的信息(FaceDir)(Ia)脸面对系统(信息处理设备100)(针对系统)=1(Ib)脸没有面对系统(针对其它)=2(2)关于脸方向持续时间的信息(FaceDirDur)(2a)脸面对特定方向所经历的持续时间短(Short) = 1(2b)脸面对特定方向所经历的持续时间中等(Medium) = 2(2c)脸面对特定方向所经历的持续时间长(Long) = 3(3)用户等级信息(User Level)(3a)初学者(Beginner) = 1(3b)受训者(Trained) = 2(3c)专家(Expert) = 3(4)错误等级信息(Error)(4a)低(Low) = 1(4b)中(Mid) = 2(4c)高(High) = 3
(5)关于在系统已执行用于做出响应的过程之后所经过的时间(RT)的信息(5a)经过时间(RT)=短期时间(Short) = 1(5b)经过时间(RT)=中期时间(Medium) = 2(5c)经过时间(RT)=长期时间(Long) = 3这样一来，就在步骤S541至S545中将作为步骤S521至S523中的过程A至C的结果而获得的上述信息(1)至(5)记录在存储器上。在过程C的第二半中执行与过程(过程C-幻相对应的步骤S551和随后步骤中的过程。如上所述，过程C是以下过程过程C 用于根据自从系统(信息处理设备100)向用户输出上次响应以来所经过的时间来估计用户正经历困难的概率(困难度)的过程，以及用于如果已判断用户正经历困难则呈现最佳帮助信息的过程。在步骤S551和随后步骤中执行的过程是在过程C的第二半中执行的过程(过程 C-2)，并且是下述过程估计用户正经历困难的概率(困难度)，并且如果已判断用户正经历困难，则呈现最佳帮助信息。在下文中描述步骤S551和随后步骤中的过程的细节。在步骤S551中，判断已在步骤S541至S545中存储在存储器中的值是否已改变。如上所述，作为步骤S521至S523中的过程A至C的结果而获得的上述信息(1)至(5)在每个预定采样时间(t，t+l，t+2等等)获得，并且作为对应于时间的数据存储在存储器中。更加具体地，已参考图8描述的对应于时间的数据相继记录在存储器上。在步骤S551中，判断在记录在存储器上的于先前采样时间获得的数据和于上次采样时间获得的数据之间是否存在不同。如果通过比较记录在存储器上的上次采样时间的数据和先前采样时间的数据已判断在任何的上述数据(1)至(5)中存在变化，则执行步骤S552和随后步骤中的过程。在步骤S552中，开始下述过程基于最新获得的数据计算估计值。更加具体地，估计值在此是指示用户正在经历多大困难的困难度(H)。开始用于计算困难度(H)的过程。更加具体地，通过使用预定函数和存储在存储器中的上述信息中的每个值来计算困难度(H)，存储在存储器中的上述信息亦即(1)关于脸方向的信息(FaceDir) = 1或2; ⑵关于脸方向持续时间的信息(FaceDirDur) = 1，2或3 ； (3)用户等级信息(User Level) =1,2 ^ 3； (4)错误等级信息(Error) = 1，2或3;以及(5)关于自从系统已执行用于做出响应的过程以来所经过的时间(RT)的信息=1，2或3。更加具体地，例如通过使用以下函数来计算困难度(H)H = p((l)的值)+q((2)的值)+r((3)的值)+s(⑷的值)+t((5)的值)要注意的是，P、q、r、s和t是预定系数。通过使用信息(1)至(5)，根据上述表达式来计算用户的困难度(H)。在步骤S553中将在步骤S552中计算的困难度(H)存储在存储器(数据库)中。在图8的右端图示的数据就是困难度(H)。例如在0至100的范围内计算困难度(H)。较大的值表明用户正经历困难的概率较高。
在步骤S5M中，开始基于新近计算的困难度(H)的最新更新值的过程。在步骤S555中，对更新的困难度(H)和预定阈值(TH)进行比较。如果在步骤S555中已判断满足用于判断的表达式“困难度(H)彡TH”，则处理前进到步骤S556，并且从语音输出单元(扬声器)206或图像输出单元(显示器)207输出帮助信息。要注意的是，根据系统(信息处理设备100)的状态改变将要呈现的帮助信息。另一方面，如果在步骤S555中已判断没有满足上述用于判断的表达式，则处理前进到步骤S557，并且不输出帮助信息。在图9中图示了在步骤S556中呈现给用户的帮助信息的例子。如上所述，根据系统(信息处理设备100)的状态改变将要呈现的帮助信息。系统状态由图3所示的系统状态控制单元333监视。如图9所示，当系统状态例如是“显示推荐节目”时，从语音输出单元(扬声器)206 或图像输出单元(显示器)207向用户呈现帮助信息如“请从推荐节目中选择您想要观看的节目，或者使用搜索关键词搜索节目”。另外，当系统状态是“显示指定的频道或日期”时，从语音输出单元(扬声器)206 或图像输出单元(显示器)207向用户呈现帮助信息如“您可以用名称或类型如戏剧、体育、杂技、音乐和电影来改进您的搜索”。另外，当系统状态是“显示指定的类型”时，从语音输出单元(扬声器)206或图像输出单元(显示器)207向用户呈现帮助信息如“您可以用名称或频道等改进您的搜索”。当在步骤S551中存储在存储器中的值已发生变化时，相继执行步骤S552和随后步骤中的过程。因此，信息处理设备100可以根据时间识别用户的最新困难度(H)，所以可以根据最新的困难度(H)在最佳时间向用户呈现帮助信息。因此，根据本公开实施例的信息处理设备100通过使用预定函数和已在上述过程 A至C中获得并且已存储在存储器中的以下信息中的每个值来计算用户的困难度(H) (1) 关于脸方向的信息(FaceDir) = 1或2 ； (2)关于脸方向持续时间的信息(FaceDirDur)= 1，2或3 ;(3)用户等级信息(User Level) = 1，2或3 ;(4)错误等级信息(Error) = 1,2 或3 ；以及( 关于自从系统已执行用于做出响应的过程以来所经过的时间(RT)的信息= 1，2或3。信息处理设备100然后根据计算出的困难度(H)和系统状态向用户提供帮助信肩、ο接下来描述用于获得用户状态的过程、用于计算困难度(H)的过程以及用于呈现帮助信息的过程的特定例子。特定例子1例如，当即使用户面对系统前方并且专注于系统也没有来自用户的响应时，判断用户正经历困难或者正在困扰，因为用户不知道要说的命令，此时呈现帮助信息(提示)如 “请从推荐节目中选择您想要观看的节目，或者使用搜索关键词搜索节目”。这种情况下的用户状态信息例如是以下信息(1)关于脸方向的信息O^aceDir)=脸面对系统(信息处理设备100)(针对系统) =1(2)关于脸方向持续时间的信息(FaceDirDur)=脸面对特定方向所经历的持续时间长(Long) = 3
16
(3)用户等级信息(User Level)=初学者(Beginner) = 1(4)错误等级信息(Error)=低(Low) = 1(5)关于自从系统已执行用于做出响应的过程以来所经过的时间(RT)的信息= 长期时间(Long) = 3通过使用这些值和以下函数来计算困难度(H)H = p((l)的值)+q((2)的值)+r((3)的值)+s(⑷的值)+t((5)的值)例如，根据用于计算困难度(H)的上述表达式，计算诸如“困难度(H) = 80”之类的值。如果预定阈值假定为20，那么由于困难度(H)80彡20，所以向用户呈现如上所述那样的帮助信息。特定例子2当用户没有专注于系统并且系统正在等待来自用户的响应时，系统例如通过以下来执行帮助输出向用户呈现可用命令，或者通知用户系统操作的临时停止或终止将会在几分钟之后执行。更加具体地，呈现帮助信息(提示)如“请搜索您想要观看的节目，或者用类型改进您的搜索”。这种情况下的用户状态信息例如是以下信息(1)关于脸方向的信息(FaceDir)=脸没有面对系统(针对其它)=2(2)关于脸方向持续时间的信息(FaceDirDur)=脸面对特定方向所经历的持续时间中等(Medium) = 2(3)用户等级信息(User Level)=受训者(Trained) = 2(4)错误等级信息(Error)=低(Low) = 1(5)关于自从系统已执行用于做出响应的过程以来所经过的时间(RT)的信息= 长期时间(Long) = 3通过使用这些值和以下函数来计算困难度(H)H = ρ ((1)的值)+q (⑵的值)+r ((3)的值)+s ((4)的值)+t ((5)的值)例如，根据用于计算困难度(H)的上述表达式，计算诸如“困难度(H) = 20”之类的值。如果预定阈值假定为20，那么由于困难度(H) 20彡20，所以向用户呈现如上所述那样的帮助信息。特定例子3如果已存在几个连续的事件，其中，即使当用户对系统重复地做出发声时，也由于音帧检测失败或意义理解失败(在领域之外进行的发声)等，而没有生成系统的行为，那么就向用户呈现帮助信息(提示)如“将会在引导视窗上显示可用命令”。这种情况下的用户状态信息例如是以下信息(1)关于脸方向的信息O^aceDir)=脸面对系统(信息处理设备100)(针对系统) =1(2)关于脸方向持续时间的信息(FaceDirDur)=脸面对特定方向所经历的持续时间长(Long) = 3(3)用户等级信息(User Level)=初学者(Beginner) = 1(4)错误等级信息(Error)=高(High) = 3(5)关于自从系统已执行用于做出响应的过程以来所经过的时间(RT)的信息=短期时间(Short) = 1通过使用这些值和以下函数来计算困难度(H)H = p((l)的值)+q((2)的值)+r((3)的值)+s(⑷的值)+t((5)的值)例如，根据用于计算困难度(H)的上述表达式，计算诸如“困难度(H) = 90”之类的值。如果预定阈值假定为20，那么由于困难度(H)90彡20，所以向用户呈现如上所述那样的帮助信息。4.信息处理设备的硬件构造的例子最后，参考图10来描述执行上述过程的信息处理设备100的硬件构造。中央处理单元(CPU) 701根据只读存储器(ROM) 702或存储单元708中存储的程序来执行各种过程。例如，执行图2所示的信息处理设备100的构造中的语音分析单元204、图像分析单元202和数据处理单元205的过程。CPU 701所执行的程序和数据等在必要时存储在随机存取存储器(RAM) 703中。CPU 701、ROM 702和RAM 703通过总线704彼此连接。CPU 701通过总线704连接到输入/输出接口 705。包括摄影机、麦克风、遥控器、键盘和鼠标的输入单元706以及包括显示器和扬声器的输出单元707连接到输入/输出接口 705。CPU 701执行与从输入单元706输入的信息相对应的各种过程，并且将过程的结果例如输出到输出单元707。连接到输入/输出接口 705的存储单元708例如由硬件形成，并且存储由CPU 701 执行的程序和各种数据。进而，记录对于语音识别过程而言所必须的各种语音信息和词典数据以及对于用户识别过程而言所必须的用户图像数据等等。通信单元709通过网络如因特网或局域网 (LAN)与外部设备通信。连接到输入/输出接口 705的驱动器710驱动可移动介质711如磁盘、光盘、磁光盘或半导体存储器，以便获得记录的程序和数据。获得的程序和数据必要时被发送到存储单元708并被存储。已参考具体的实施例详细地描述了本技术。然而，明显的是，本领域技术人员可以在不偏离本公开的范围的情况下修改和改变这些实施例。亦即，本技术已以例子的形式进行了公开，因此上述描述不应当被解释为限制本技术。为了评价本公开的范围，可以参考权利要求书。另外，在此描述的系列过程可以通过硬件或软件来执行，或者可以通过从这两者的组合中获得的构造来执行。当过程通过软件来执行时，过程可以通过以下来执行将上面记录了处理序列的程序安装在结合在专用硬件中的计算机内部的存储器中，或者将该程序安装在可以执行各种过程的通用计算机中。例如，程序可以预先记录在记录介质中。与从记录介质安装在计算机中一样，程序可以通过网络如LAN或因特网接收，并且安装在内置记录介质如硬盘中。要理解的是，在此描述的各种过程不仅可以根据描述的顺序按时间顺序执行，而且还可以根据执行过程的设备的处理能力或必要时彼此并行地或者单独地执行。另外，此处的“系统”指的是包括一组多个设备的逻辑构造，因此不限于这样一种构造，在所述构造中，在同样的情况下提供具有各个构造的设备。本公开包含与2010年6月2日向日本专利局申请的日本优先权专利申请JP2010-127110中公开的主题相关的主题，该专利申请的整体内容通过引用结合于此。
权利要求
1.一种信息处理设备，包括图像分析单元，其执行用于分析通过摄影机捕捉的图像的过程；语音分析单元，其执行用于分析从麦克风输入的语音的过程；以及数据处理单元，其接收通过所述图像分析单元实施的分析的结果和通过所述语音分析单元实施的分析的结果，并且执行用于用户的帮助信息的输出控制，其中，所述数据处理单元至少基于图像分析的结果或语音分析的结果计算所述用户的困难度，并且如果计算出的困难度等于或大于预定阈值，则执行用于向所述用户输出帮助信息的过程。
2.根据权利要求1所述的信息处理设备，其中，所述数据处理单元基于图像分析的结果判断所述用户的脸是否面对所述信息处理设备，并且通过使用关于所述判断的信息来计算所述困难度。
3.根据权利要求1所述的信息处理设备，其中，所述数据处理单元基于图像分析的结果判断所述用户的脸面对特定方向所经历的持续时间，并且通过使用关于所述判断的信息来计算所述困难度。
4.根据权利要求1所述的信息处理设备，其中，所述数据处理单元通过使用关于与所述用户做出的请求相对应的过程是否已被执行的判断的信息来计算所述困难度。
5.根据权利要求1所述的信息处理设备，其中，所述数据处理单元基于关于所述用户做出的请求已被拒绝的次数的信息来判断用户等级，并且通过使用关于所述判断的信息来计算所述困难度。
6.根据权利要求1所述的信息处理设备，其中，所述数据处理单元基于关于自从所述信息处理设备执行用于对所述用户做出响应的过程以来所经过的时间的信息来计算所述困难度。
7.根据权利要求1所述的信息处理设备，进一步包括系统状态控制单元，其获得并存储所述信息处理设备的状态转移，其中，所述数据处理单元执行用于输出与所述系统状态控制单元中存储的系统状态相对应的帮助信息的过程。
8.根据权利要求7所述的信息处理设备，其中，所述数据处理单元进一步包括用户信息管理单元，其接收从所述图像分析单元和所述语音分析单元输入的信息，并且存储并管理输入的信息作为用户管理信息。
9.根据权利要求8所述的信息处理设备，其中，所述数据处理单元进一步包括用户交互状态估计单元，其基于所述用户信息管理单元中存储的用户管理信息和所述系统状态控制单元中存储的系统状态来计算所述困难度。
10.一种在信息处理设备中使用的信息处理方法，所述信息处理方法包括使用图像分析单元执行用于分析通过摄影机捕捉的图像的过程；使用语音分析单元执行用于分析从麦克风输入的语音的过程；以及使用数据处理单元接收通过所述图像分析单元实施的分析的结果和通过所述语音分析单元实施的分析的结果，并且执行用于用户的帮助信息的输出控制，其中，在接收时，至少基于图像分析的结果或语音分析的结果计算所述用户的困难度，并且如果计算出的困难度等于或大于预定阈值，则执行用于向所述用户输出帮助信息的过程。
11. 一种使信息过程在信息处理设备中执行的程序，所述程序包括使图像分析单元执行用于分析通过摄影机捕捉的图像的过程；使语音分析单元执行用于分析从麦克风输入的语音的过程；以及使数据处理单元接收通过所述图像分析单元实施的分析的结果和通过所述语音分析单元实施的分析的结果，并且执行向用户的帮助信息的输出控制，其中，在使所述数据处理单元接收结果时，至少基于图像分析的结果或语音分析的结果计算所述用户的困难度，并且如果计算出的困难度等于或大于预定阈值，则执行用于向所述用户输出帮助信息的过程。
全文摘要
本发明公开了一种信息处理设备、信息处理方法和程序。根据本发明的信息处理设备包括图像分析单元，其执行用于分析通过摄影机捕捉的图像的过程；语音分析单元，其执行用于分析从麦克风输入的语音的过程；以及数据处理单元，其接收通过所述图像分析单元实施的分析的结果和通过所述语音分析单元实施的分析的结果，并且执行用于用户的帮助信息的输出控制。数据处理单元至少基于图像分析的结果或语音分析的结果计算用户的困难度，并且如果计算出的困难度等于或大于预定阈值，则执行用于向用户输出帮助信息的过程。
文档编号G06F3/16GK102270042SQ20111015118
公开日2011年12月7日申请日期2011年5月26日优先权日2010年6月2日
发明者佐野茜申请人:索尼公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：佐野茜
技术所有人：索尼公司
我是此专利的发明人

上一篇：一种用于对用户设备进行状态锁定的方法与设备的制作方法
上一篇：一种分析Linux内核动态执行的方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。