信息处理装置、信息处理方法及程序的制作方法_2

文档序号：8548051阅读：来源：国知局

程控制信号(红外信号或其他无线信号)的接口。当检测到远程控制信号时，远程控制I/F 110生成与所检测到的远程控制信号对应的输入信号。
[0096](11)总线
[0097]总线111使摄像机101、麦克风102、输入设备103、通信I/F 104、存储器105、调谐器106、解码器107、显示器108、扬声器109、远程控制I/F 110以及处理器112互相连接。
[0098](12)处理器
[0099]作为示例，处理器112可以是CPU(中央处理单元)或DSP (数字信号处理器)。通过执行存储在存储器105中的程序或在另一存储介质上的程序，处理器112使得信息处理装置100以后面描述的各种方式运行。
[0100]〈2-2.示例功能配置〉
[0101]图4是示出了由图3中所示的信息处理装置100的存储器105和处理器112所实现的逻辑功能的示例配置的框图。如在图4中所示，信息处理装置100包括图像获取单元120、语音获取单元130、应用单元140、识别单元150、特征数据库(DB) 160、控制单元170以及操作DB 180。识别单元150包括图像识别单元152和语音识别单元154。控制单元170包括操作控制单元172和优先级设置单元174。
[0102](I)图像获取单元
[0103]图像获取单元120获取由摄像机101收集的图像作为输入图像。输入图像通常是构成用户出现的视频的一系列帧中的单个帧。图像获取单元120然后将所获取的图像输出至识别单元150及控制单元170。
[0104](2)语音获取单元
[0105]语音获取单元130获取由麦克风102生成的语音信号作为输入语音。语音获取单元130然后将所获取的输入语音输出至识别单元150。要注意的是，根据本实施方式可以省略输入语音的处理。
[0106](3)应用单元
[0107]应用单元140执行信息处理装置100的各种应用功能。作为示例，可以由应用单元140执行电视节目再现功能、电子节目指南显示功能、记录设置功能、内容再现功能、内容搜索功能以及因特网浏览功能。应用单元140将经由应用功能生成的应用图像(应用图像可以包括内容图像)和音频输出至控制单元170。
[0108]在本实施方式中，由应用单元140执行的至少一些处理与在UI图像上布置的UI对象关联。可以响应于涉及所关联的UI对象的操作事件来执行这样的处理。可以经由UI对象执行的处理可以包括任意的处理，例如针对电视节目再现功能设置频道和音量，针对电子节目指南显示功能设置频道和时间段，针对内容再现功能选择内容，以及针对内容搜索功能指定搜索关键字并且执行搜索。
[0109](4)图像识别单元
[0110]图像识别单元152在从图像获取单元120输入的输入图像中识别用户使用的操作对象。在本实施方式中，操作对象是用户的手。做出指定形状(例如用户的手是展开形状、抓握形状或用手指指示的形状)的用户的手可以被用作操作对象。在其他实施方式中，作为用户的手的替代，用户的脚或由用户持有的已知的实际对象可以被用作操作对象。作为一个示例，图像识别单元152可以通过将从输入图像提取的图像特征值与特征DB 160预先存储的操作对象的图像特征值进行匹配来识别输入图像中的手区域。用相同的方式，图像识别单元152可以识别输入图像中的脸区域。
[0111]图5是有助于解释图像识别单元152的图像识别结果的一个示例的图。如在图5中所示，用户Ua出现在输入图像W03中。用户Ua面对摄像机101并且举起他的左手。通过匹配图像特征值或通过使用其它已知方法，图像识别单元152能够识别在输入图像W03中的手区域AOl和脸区域A02。图像识别单元152然后将示出这样的识别区域在图像中的位置的位置数据输出至控制单元170。
[0112]作为一个示例，图像识别单元152可以通过将在输入图像中识别的脸区域的图像部分(脸部图像)与特征DB 160预先存储的已知的脸部图像数据进行匹配来识别用户。作为示例，由图像识别单元152产生的用户识别结果可以用于对Π图像中显示的菜单进行个性化，或者被应用单元140用于推荐内容，以及用于对语音识别进行调整。
[0113]在本实施方式中，图像识别单元152也识别在输入图像中出现的用户的姿势。在图5的示例中，图像识别单元152通过监测用户的手区域AOl的运动来识别姿势G0。姿势GO是举起手的姿势(“举手”)。要注意的是，在本说明书中，词语“姿势”被认为也包括静态“姿态”(形态)，静态“姿态”不包含用户身体的动态运动。识别用户姿势时，图像识别单元152将示出所识别的姿势类型的姿势数据输出至控制单元170。
[0114]现在将参照图6至图12描述可以由图像识别单元152识别的姿势的示例。
[0115]在图6中，示出了手区域AU。手区域All以短的间隔被左右挥动。根据用户手的这样的运动，图像识别单元152可以识别姿势G1。姿势Gl是挥动手的姿势(“挥动”)。
[0116]在图7中，示出了手区域A12。手区域A12在特定的时间长度内在输入图像中基本上是静止的。根据用户手的这样静止的状态，图像识别单元152可以识别姿势G2。姿势G2( “保持不动”)是保持手不动的姿势。
[0117]在图8中，示出了手区域A13。在手区域A13中出现的用户手以逆时针方向绕着手腕附近的中心点旋转。根据用户手的这样的运动，图像识别单元152可以识别姿势G3a。姿势G3a( “旋转”)是旋转手的姿势。
[0118]在图9中，示出了手区域A14。在手区域A14中出现的用户手是除了食指以外的手指被弯曲的形状，并且手以逆时针方向绕着手腕附近的中心点旋转。根据用户手的这样的运动，图像识别单元152可以识别姿势G3b。姿势G3b( “旋转”)也是旋转手的姿势。
[0119]在图10中，示出了手区域A15。在手区域A15中出现的用户的手在运动，以将手腕向右弯曲。根据用户手的这样的运动，图像识别单元152可以识别姿势G4a。姿势G4a(“触摸”)是触摸对象的姿势。
[0120]在图11中，示出了手区域A16。在手区域A16中出现的用户的手在运动，以将手腕向前弯曲，同时手处于除了食指以外的所有手指被弯曲的形状。根据用户手的这样的运动，图像识别单元152可以识别姿势G4b。姿势G4b( “触摸”)也是触摸对象的姿势。
[0121]在图12中，示出了手区域A17。在手区域A17中出现的用户手从手掌展开的形状改变至手掌闭合的形状。根据用户手的这样的运动，图像识别单元152可以识别姿势G5。姿势G5( “抓握”)也是抓握对象的姿势。
[0122]要注意的是，在本文中描述的姿势只是示例。图像识别单元152不需要识别许多这样的姿势，和/或图像识别单元152可以另外地识别其他类型的姿势。
[0123](5)语音识别单元
[0124]语音识别单元154基于从语音获取单元130输入的输入语音对用户的语音执行语音识别。如果，例如所执行的应用程序或UI接收语音命令的输入，则语音识别单元154根据用户的语音来识别语音命令，并且将识别的语音命令的标识符输出至应用单元140或控制单元170。
[0125](6)特征 DB
[0126]特征DB 160预先存储由图像识别单元152在图像识别中使用的图像特征数据。作为一个示例，图像特征数据可以包括用户使用的操作对象(例如手)和用户脸的已知的图像特征值。图像特征数据也可以包括每个用户的脸部图像数据。图像特征数据也可以包括定义要由图像识别单元152识别的姿势的姿势定义数据。特征DB 160也可以预先存储要由语音识别单元154用于语音识别的语音特征数据。
[0127](7)操作控制单元
[0128]操作控制单元172通过将至少一个Π对象叠加在输入图像上来生成Π图像，并且在显示器108的屏幕上显示生成的UI图像(与输入图像对应的输出图像)。用于生成UI图像的输入图像可以与要由图像识别单元152用来识别操作对象的输入图像(作为一个示例，具有降低的分辨率的图像可以用于识别操作对象)不同。操作控制单元172然后基于从图像识别单元152输入的操作对象的识别结果来控制至少一个Π对象的显示和操作。
[0129]图13是有助于解释Π对象的第一示例的图。在第一示例中，Π对象是应用菜单的菜单项。如在图13中所示，UI图像W04包括Π对象Bll至Π对象B16。Π对象Bll是用于当再现电视节目时设置音量的菜单项(音量)。UI对象B12是用于设置要再现的频道的菜单项(频道)。UI对象B13是用于启动电子节目指南显示功能的菜单项(TV指南)。UI对象B14是用于启动其他应用程序功能的菜单项(应用程序)。UI对象B15是用于启动因特网浏览功能的菜单项(因特网)。UI对象B16是用于启动信息处理装置100的装置设置功能的菜单项(设置)。这样的菜单项可以分层来定义，作为一个示例，子项“增加音量”以及“减少音量”可以呈现在用于设置音量的菜单项的UI对象Bll的下面。如果使用输入图像识别各个用户，则可以显示针对各个用户个性化的一组Π对象。
[0130]图14是有助于解释Π对象的第二示例的图。在该第二示例中，Π对象是内容项。如在图14中所示，UI图像W05包括Π对象B21至Π对象B26。Π对象B21至Π对象B26分别表示照相内容的缩略图。要注意的是，Π对象可以是替代照相内容的其他类型的内容项，例如视频内容、音乐内容或文本内容。
[0131]如在图13和图14中所示，在操作对象还没有被识别的情况下，操作控制单元172在默认显示位置布置UI对象。默认显示位置可以是被设置为固定的位置，或者可以是根据一些类型的算法而移动(作为一个示例，为了浮动而移动)的位置。操作控制单元172然后使得在操作对象识别之前显示的至少一个Π对象的显示位置在操作对象识别之后朝向用户靠近。操作控制单元172可以使得Π对象的显示位置朝向所识别的操作对象靠近或者朝向与所识别的操作对象不同的用户的身体部分靠近。因此，由于UI对象的位置朝向所识别的操作对象(例如用户的手)移动，所以Π对象的位置在空间上与所识别的操作对象有关。
[0132]在某些场景下，UI对象朝向用户靠近的模式是统一的。也就是说，操作控制单元172将要进行靠近的Π对象的靠近速度设置为相同值，使得这样的Π对象都以相同的靠近速度朝向用户靠近。
[0133]在另一场景下，UI对象朝向用户靠近的模式是不统一的。也就是说，操作控制单元172将要进行靠近的UI对象的靠近速度设置为不同值，使得UI对象以不同的靠近速度朝向用户靠近。除了(或替代于)靠近速度，Π对象的其他属性可以不统一地来设置。作为示例，这样的其他属性可以包括靠近开始定时、靠近后显示位置(在下文中称为“目标位置”)、显示大小、透明度和深度中至少之一。
[0134]作为一个示例，当使得Π对象的显示位置朝向用户靠近时，操作控制单元172可以根据针对相应对象设置的优先级来改变相应对象的靠近模式。这样的优先级由优先级设置单元174根据特定的优先级设置标准来预先设置，并且由操作DB 180存储。优先级设置标准的第一示例是与UI对象的操作历史有关的标准。作为一个示例，针对具有较高操作频率(每特定时间段的过去的操作次数)的Π对象可以将优先级设置为较高，以及针对具有较低操作频率的UI对象可以将优先级设置为较低。针对在过去的较近定时处被操作的UI对象可以将优先级设置为较高。优先级设置标准的第二示例是与用户属性有关的标准。作为一个示例，在多个内容项中，与以下内容项对应的Π对象的优先级可以设置为较高值:该内容项具有基于用户属性根据已知推荐技术计算的高推荐得分。操作控制单元172可以提供给用户用于在多个候选者之间在期望的定时处切换优先级设置标准的Π。这样的Π可以通过任何方法(例如用户姿势或语音命令)来实现。
[0135]通常，操作控制单元172设置Π对象的靠近速度和其他属性，以便使用户更容易对具有较高优先级的对象进行操作。更具体地，作为一个示例，操作控制单元172将具有较高优先级的对象朝向用户的靠近速度设置为较高。操作控制单元172也可以将具有较高优先级的对象的靠近开始定时设置为较早。此外，针对具有较高优先级的对象，操作控制单元172可以将目标位置设置为更接近用户，将显示大小设置为更大，将透明度设置为更低或将深度设置为更浅。
[0136]无论Π对象朝向用户靠近的模式是统一的还是不统一的，操作控制单元172响应于预先定义的多个操作事件来控制用户对UI对象的操作。操作事件通常包括可以用来完成这样的识别的用户姿势识别以及语音命令识别。至少一个操作事件是新操作对象的识另IJ。新操作对象的识别可以触发UI对象朝向用户靠近。另一操作事件可以触发与UI对象关联的处理的执行(启动)。在本说明书中后面描述了可以在本实施方式中使用的操作事件的一些特定示例。
[0137]操作控制单元172也控制经由显示器108对Π图像的显示。作为一个示例，操作控制单元172可以在显示器108的屏幕上显示仅叠加有Π对象的Π图像。可替代地，操作控制单元172可以在屏幕上显示通过结合应用单元140所生成的应用图像和UI图像而生成的单个输出图像。后面描述了可以在本公开内容中使用的输出图像的窗口组成的一些示例。
[0138](8)优先级设置单元
[0139]优先级设置单元174根据在前面描述的优先级设置标准来设置每个Π对象的优先级。作为一个示例，根据与Π对象的操作历史有关的优先级设置标准，优先级设置单元174可以将具有较高操作频率的Π对象的优先级设置为较高。此外，根据与用户属性有关的优先级设置标准，优先级设置单元174可以将与具有较高推荐得分的内容项对应的Π对象的优先级设置为较高。优先级设置单元174也可以随机地设置Π对象的优先级以向UI增加令人惊讶的元素。优先级设置单元174可以例如当UI对象已被操作时或者当用户属性已改变时更新优先级数据。
[0140](9)操作 DB
[0141]操作DB 180存储由操作控制单元172使用以控制UI对象的显示和操作的数据。由操作DB 180存储的数据包括示出了每个Π对象的默认显示位置和其他属性的默认值的对象数据。由操作DB 180存储的数

完整全部详细技术资料下载

当前第2页1 2 3 4 5 6