用于人类自然命令控制的多模态行为感知的制作方法

文档序号：6534091阅读：536来源：国知局

用于人类自然命令控制的多模态行为感知的制作方法
【专利摘要】通过使用以多模态的自然命令来控制计算机系统。在一个示例中，一种方法包括：接收以第一模态的第一命令，接收以第二模态的第二命令，确定第二命令是否证实第一命令，并且如果第二命令证实第一命令则执行第一命令。
【专利说明】用于人类自然命令控制的多模态行为感知

【技术领域】
[0001] 本公开涉及通过使用自然命令来控制计算机系统，并且具体地涉及检测多个模式的人类行为W作为命令。

【背景技术】
[0002] 语音和姿势命令已经在各种各样的领域中被开发用于人机交互。已经开发了识别语音命令的软件应用。语音命令可W由计算机或者更最近地在远程服务器处被解释，所述远程服务器然后将命令提供回到本地设备。还已经开发了识别姿势命令的各种系统。该些最近对于游戏已经变得商业上流行起来，但是还已经被开发用于呈现软件和其它目的。
[0003] 在将语音或姿势用作人机接口时，总是存在该样的风险：用户可能正在与另一个人或甚至另一个机器交谈，但是机器将人类行为解释为命令。对于可靠的操作，计算机应当知道何时命令真的旨在作为用于计算机执行的指令或仅仅是正常人类活动的部分。口头命令可W例如碰巧是某人正在视频会议呼叫中讲述的故事的一部分。为了避免用户命令或姿势的误解，一些系统使用一种机制，用户利用所述机制可W寻址机器。为了向机器指示用户意图语音命令、姿势或其它类型的输入，一些地址或键盘命令首先被提供。
[0004] 为了完全避免误解命令，机器操作者可W使用键盘和鼠标设备。该些允许命令被精确地做出并且精确地指向特定机器。然而，它们对于人机交互而言不是自然的并且是非直观的。在使用姿势或语音命令的一些系统中，用户约束他们的行为W适应于机器。例如，用户可W在任何命令之前插入代词或恰当的名称作为主体，诸如在每个命令之前呼叫"计算机"。该允许计算机听取其声音的地址或名称并且避免执行在正常对话或呈现中所包含的命令。另一途径是要求用户在延长的时间内保持姿势。该是非正常的姿势，因此计算机将不把它与其它正常姿势混淆。该些途径需要用户做一些特别的事W从正常人类行动中区分计算机命令。结果，在平常的行动或言语之外，使得计算机交互感觉不自然并且不直观。

【专利附图】

【附图说明】
[0005] 作为示例并且不是作为限制地在附图的各图中图示了本发明的实施例，其中同样的参考标号指代类似的元件。
[0006] 图1是根据本发明的第一实施例的本发明的硬件实现的框图。
[0007] 图2是根据本发明的第二实施例的本发明的硬件实现的框图。
[0008] 图3是根据本发明的实施例的用于通过使用第二命令来确认第一命令的过程流程图。
[0009] 图4是根据本发明的实施例的适合于实现本公开的过程的计算机系统的框图。

【具体实施方式】
[0010] 在下述一些示例中，计算机将多个模态组合在一起W便计算机具有更好和更准确的基础来确定何时用户想要陈述或姿势成为用于计算机的命令。该可W使得系统适配于用户，而不是让用户适配于系统。结果，整个人机接口体验对于用户而言更自然并且直观。在一个示例中，该可W通过使用用户意图感知组件来进行，所述用户意图感知组件过滤掉可能对计算机而言看起来像命令信号但不是的非故意信号。
[0011] 本发明的实施例可W应用于使用相机作为主输入设备的任何无键盘PC(个人计算机)设计或无键盘用户接口设计，并且其中导航或应用命令由多个模态控制。它还可W应用于从用户感知的视角来看涉及多层通电策略的任何PC设计。虽然在PC的上下文中描述了实施例，但是所描述的实施例可W应用于接收用户命令的任何设备，包括计算机、演示系统或娱乐系统。
[0012] 命令结构典型地具有若干层操作。如图1中所示，命令结构系统100具有某种类型的传感器110,典型地为键盘、鼠标、触摸板或触摸屏。另外，还可W使用相机和麦克风。通过监控器112、针对命令来监控传感器。在一些情况下，传感器生成被转发给中断检测器 116的中断113。监控器112经由传感器110来连续并恒定地或者W间隔而监控环境。它基于传感器的类型而生成不同类型的警告或中断信号。对于键盘，存在针对不同键的不同信号。对于触摸板，可W存在针对不同水平的按压和速度的不同水平。在其它情况下，传感器可W是电容或电阻测量电路、水位计量仪、温度计、湿度计、质谱仪等等。
[0013] 在报告层级，如果所监控的传感器生成事件，该样的对轮询信号的响应或中断，那么该被检测116并且被指示给报告系统114。报告层级处理所监控的信号并且生成对应的命令。在PC的情况下，敲击特定键被解释为字母或命令符号。转化器118接收报告并且将那些指令转化成可行动的控制信号。命令控制装置120然后根据命令的性质和特定系统的配置来履行或执行所期望的行动。
[0014] 该系统100允许一种使用场景，其中，例如用户正在键入文档。用户然后通过说 "删除上一个字"或"将光标往后移动两行"而使用语音命令来编辑文档。该可W大大地改善使用系统的便利性。该样的结构针对命令而监控112单个传感器110。系统具有单个模态，或者是键盘和鼠标、或是触摸屏、或是姿势、或是语音等。一些系统可W允许不同的模态被用作可替换方案。结果，存在该样的风险：命令可能被误解或者并非意图作为命令的某事物可能被解释为命令。该可W通过使用模态的组合来避免。可W通过将附加传感器禪合到监控器112或者通过重复命令结构系统来支持每种附加传感器类型而支持附加的模态。
[0015] 模态的组合允许系统消除非故意的命令指令的执行。可W在演示幻灯片展示或混合媒体演示的上下文中考虑多个模态的简单使用示例。用户可W组合例如卷动手势与短语 "下一张幻灯片"，而不是仅仅陈述"下一张幻灯片"。手势例如易于执行并且防止演示系统在非意图的时候改变幻灯片。在该种情况下，手的卷动姿势可W是在演示期间或在正常对话期间使用的常见自然姿势。类似地，短语"下一张幻灯片"可能在讨论幻灯片而没有意图所显示的幻灯片改变到下一张幻灯片时使用。通过要求大约同时做出姿势和陈述二者，系统允许用户在非常小的误解机会的情况下容易地移到下一张幻灯片。
[0016] 另一使用场景还组合了接收口头命令的麦克风与观察操作者的相机。对于任何应用，用户可W告诉计算机"关闭窗口！"。该可W是对计算机的命令，但它可能代替地是向房间中位于打开的窗户附近的某人说的。相机可W用于人脸检测。相机可W用于确保说话者正看着具有打开的窗口的计算机屏幕，而不是移开目光看着房间的另一部分或者看向另一监控器上的不同窗口。相机可W不仅用于注意力的方向，而且还用于确保当接收到"关闭窗口 "音频时，看着计算机屏幕的人也正在讲话。
[0017] 除了使用多于一个模态之外，系统可W此外通过使用证实来确保发出了命令。在 W上示例中，两个不同的传感器模式被组合W确保发出了命令。传感器、麦克风和相机在典型系统中总是活动的。作为可替换方案，可W使用证实，其在用信号通知候选命令控制之后被激活。
[0018] 证实可W是隐式或显式的。隐式证实得到关于用户的主动意图的信息而不需要来自用户的任何特定行动。可WW该样的方式来查看"关闭窗口 "示例。如果主动意图证实失败，于是接收命令的应用可W具有丢弃该命令的选项。可替换地，可W使用其它隐式证实或发起的显式证实。
[0019] 显式证实需要来自用户的一些行动。该样的显式证实的示例是由系统发起的提示 W证实命令。简单的示例将是系统呈现是或否的问题。作为示例，计算机可W生成音频信号来重复它从用户陈述中推断的命令。在该样的情况下，计算机陈述"你真的想关闭当前窗口吗？巧日果用户回答是，那么命令得到证实。使用对用户意图的隐式和显式证实的智能实现避免侵扰用户体验并且还消除了在非故意的命令被执行的情况下的用户挫败。
[0020] 图2示出了命令结构系统200的示例，其中所观察的W-个模态的命令可W由所观察的W另一模态的命令来证实。在210处，一个或多个传感器用于检测话语姿势、眼睛追踪、W及W-个或多个模态的其它类型的命令输入。传感器数据被应用于监控器212、222、 232。监控器中的每一个被示出为禪合到相同的传感器数据，然而，不同的传感器数据可W 专用于每个监控器，该取决于特定实现。
[0021] 每个监控器将输出提供给判定框213、223、233,其注意看监控器是否已产生了中断。当发现中断时，那么中断被馈送到队列242中，所述队列242将所述中断馈送到报告模块214。定序队列基于何时生成了中断来为中断定序。在一些实现中，定序队列可W将一些类型的中断定序在其它类型的中断之前，W使得该些中断接收更快的注意。例如，键盘输入可W被提供有更高的优先级。对于一种系统，如上所述，其中W不同的模态提供命令，首先使用的模态可W被给予更高的优先级。如果系统被配置成接收伴随有手势的有声或话语命令"下一张幻灯片"，那么麦克风传感器可W被定序成第一。W该种方式，系统当它接收到用于手势的中断时对手势的证实有所准备。可替换地，判定框可W并入到监控器中或者定序队列中。
[0022] 定序队列W特定的次序将中断发送到报告模块214。报告模块接收中断并且处理中断W向系统生成命令。话语命令"下一张幻灯片"被转换成去往演示程序中的命令来W 向下翻页、向下箭头或鼠标按压将会是的相同方式移到下一张幻灯片。报告模块将命令供应到转化器218,其将该更高层级的命令转化成控制信号。
[0023] 控制信号然后触发隐式证实模块246。正当话语命令"下一张幻灯片"已被报告并转化时，伴随的手势也将导致对定序尾接指令（cue)的中断，W及来自报告模块的命令，W 及然后来自转化器的对应控制信号。隐式证实，在接收到"下一张幻灯片"时将等待直到它接收到手势为止。如果它接收到该隐式证实，那么在248处，"下一张幻灯片"控制信号被提供给命令控制装置220 W供执行。因此，隐式证实模块246中断对所接收命令的执行直到它接收到那些命令的证实为止。
[0024] 如果隐式证实模块246没有接收到隐式证实，那么第一命令或W第一模态的命令被发送到显式证实模块250。证实判定可W被定时。换言之，可W存在用于隐式证实的定时器(未示出），W使得必须在所选时间间隔内接收到证实，否则命令要么被拒绝要么被发送到显式证实模块250。对于将会几乎同时被提供的两个模态，时间间隔可W非常短，也许少于一砂。对于用户W特定顺序执行的两个模态，那么可W提供几砂。
[00巧]显式证实模块250将向用户提供提示，诸如视频或屏幕提示或音频提示。显式证实模块250于是将等待答复在传感器210处被检测、通过监控器212被发送，并且通过报告被馈送，转化，W及监控器阶段在显式证实模块250处被接收。如果显式证实被接收252,那么W第一模态的命令被提供作为控制信号W供执行220。否则命令被拒绝。用户可能发现所意图的命令尚未被执行并且于是可W再次尝试。然而，更频繁地，并非意图成为命令的用户行动将被系统丢弃并且不作为命令而执行。该提供了更好的总体用户体验。
[0026] 虽然口头命令"下一张幻灯片"和手势被用作示例，但是本文所提供的其它示例中的任一个可W W相同或类似的方式处置。作为示例，用户可W做出由相机观察的用于"下一页"的挥手姿势并且然后系统将通过使用相机用于眼睛追踪来搜寻隐式证实。如果没有接收到隐式证实，于是系统可W在显示装置上提供提示，诸如"你是意指下一页吗？如果是的话就举起一根手指。"相机监控器然后将搜寻一根手指W用于显式证实。可W使用多种多样的不同命令组合，该取决于特定实现W及系统所意图的用途。
[0027] 图3是由上述系统100、200所执行的操作的过程流程图。可W为每个接收的命令 W及为每个命令的解释重复该过程流程。在310处，第一命令W第一模态被接收。如W上提及的，命令可W是有声命令、姿势、外围设备的激活或者各种其它命令模态中的任一种。命令可W由麦克风、相机或任何其它用户输入设备来检测。在312处，第二命令W第二模态被接收。
[0028] 在314处，确定第二命令是否证实第一命令。如果不是，那么在318处针对显式证实来提示用户，或者在另一实施例中，在322处，第一命令被拒绝。可替换地，第二命令可W 与第一命令无关，而代替地是需要证实的另一第一命令。
[0029] 存在各种不同方式来评估第一和第二命令。在一个示例中，系统具有经认可命令及其相关联的经认可证实的列表。可W在接收到第一命令时或之后访问该列表。所接收的第一命令然后可W用于确定第一命令如何可W被证实。所接收的第二命令然后可W与所访问的经认可的命令证实的列表进行比较。如果存在与列表上的证实的匹配，那么在316处执行第一命令。如果所接收的第二命令不与经认可的证实相匹配，那么它可W被应用于所述列表作为第一命令来看看它是否已由稍后接收的命令证实。
[0030] 可替换地，如果在314处第二命令没有被确定为是经认可的命令证实，那么在318 处，针对第一命令的显式证实来提示用户。如果在320处，响应于提示而从用户接收到显式证实，那么在316处执行第一命令。如果既不存在隐式也不存在显式证实，那么第一命令被拒绝322。
[0031] 如图3中所示，系统在执行命令之前使用W不同模态的命令来证实用户的意图。与需要W相同模态的两个命令相比，该提供了对命令的更自然的感受。W第一模态的命令例如可W是口头命令并且W第二模态的命令可W是手势。该对应于伴随有手势的说"下一张幻灯片"的示例。在该样的情况下，第一模态是话语并且第二命令的第二模态是所观察的用户行为。类似的示例是在挥手姿势的情况下说"下一页"或者说"下一页"的同时看着监控器。在另一示例中，第一模态是手势并且第二模态是对提示的响应。
[0032] 提示可W是来自系统的视觉提示或者来自系统的音频提示或者各种其它提示中的任一种。响应于提示的显式证实可W是口头命令、姿势、用户输入外围设备的操作或者任何其它期望的响应。响应可W由提示来建议，如W上示例中那样，或者它可W从提示的性质中理解到。
[0033] 注意到，虽然图3可能暗示了在第二命令之前接收第一命令，但是可W在第一命令之前接收第二命令。命令可W是在定时上的第一和第二，但是在本示例中它们是在优先级上的第一和第二。第一命令是主要命令，因为它指示要执行的命令。第二命令是次要的，因为它证实第一命令。在手势的情况下说"下一张幻灯片"的示例中，用户可W开始姿势并且甚至在说"下一张幻灯片"之前完成姿势。如果要么话语要么姿势都可W被首先提供并且将发生相同的结果，则系统将会感觉起来更自然。在该样的实现中，哪个首先进行或完成并不重要，而重要的仅仅是两个命令都被接收到。
[0034] 为了提高系统的准确性并且因此改善用户体验，加权系统可W用于分析所接收的命令。在W上示例中，通过使用用于每个模态的二进制判定来测量命令。使用加权系统的命令控制可W用于仅仅在过程中的最终步骤或其它步骤切割阔值，该取决于实现。
[00巧]在每种情况下，将存在某个数量的不同模态，N，对于每一个模态n，可W指派两个状态参数： P(n，0)是特定模态n未被检测到的概率。没有命令已被接收。换言之，该是模态n具有状态0的概率。
[0036] P (n，1)是模态n与命令控制相关联并且完全被检测到的概率。命令已被接收。换言之，是模态n具有状态1的概率。
[0037] 为每个命令预定义概率。因此，在任何时刻r接收到命令的总体概率P(T)可W被给出为：

【权利要求】
1. 一种方法，包括：接收以第一模态的第一命令；接收以第二模态的第二命令；确定第二命令是否证实第一命令；以及如果第二命令证实第一命令则执行第一命令。
2. 根据权利要求1所述的方法，其中第二命令是所观察的用户行为。
3. 根据权利要求1所述的方法，其中第二命令是响应于来自系统的视觉提示。
4. 根据权利要求1所述的方法，其中第二命令是响应于来自系统的音频提示。
5. 根据权利要求1所述的方法，其中第二命令在第一命令之前接收。
6. 根据权利要求1所述的方法，其中第一模态是口头命令并且第二模态是手势。
7. 根据权利要求1所述的方法，其中第一模态是手势并且第二模态是对提示的响应。
8. 根据权利要求7所述的方法，其中对提示的响应是口头命令。
9. 根据权利要求1所述的方法，此外包括：在接收到第一命令之后访问经认可的命令证实的列表；将所接收的第二命令与所访问的经认可命令证实的列表进行比较；以及如果基于比较第二命令被确定成是经认可的命令证实，则执行第一命令。
10. 根据权利要求9所述的方法，此外包括如果第二命令没有被确定成是经认可的命令证实，则针对第一命令的显式证实来提示用户。
11. 根据权利要求10所述的方法，此外包括如果响应于提示从用户接收到显式证实，则执行第一命令。
12. -种包括非暂时性计算机可读介质的制品，所述非暂时性计算机可读介质具有指令，所述指令当由计算机操作时，使得计算机执行包括以下各项的操作：接收以第一模态的第一命令；接收以第二模态的第二命令；确定第二命令是否证实第一命令；以及如果第二命令证实第一命令，则执行第一命令。
13. 根据权利要求12所述的介质，其中第二命令是响应于来自系统的视觉和音频提示中的至少一个。
14. 根据权利要求12所述的介质，所述操作此外包括：在接收到第一命令之后访问经认可的命令证实的列表；将所接收的第二命令与所访问的经认可命令证实的列表进行比较；以及如果基于比较第二命令被确定成是经认可的命令证实，则执行第一命令。
15. 根据权利要求14所述的介质，所述操作此外包括：如果第二命令没有被确定成是经认可的命令证实，则针对第一命令的显式证实来提示用户；以及如果响应于提示从用户接收到显式证实，则执行第一命令。
16. -种装置,包括：第一监控器，用以接收以第一模态的第一命令；第二监控器，用以接收以第二模态的第二命令；以及处理器，用以确定第二命令是否证实第一命令并且如果第二命令证实第一命令则执行第一命令。
17. 根据权利要求16所述的装置，其中第一监控器耦合到麦克风，并且其中第一模态是来自用户的口头命令。
18. 根据权利要求16所述的装置，其中第二监控器耦合到相机，并且其中第二模态是视觉模态，包括姿势、眼睛追踪、和手部信号中的至少一个。
19. 根据权利要求16所述的装置，此外包括显示装置，用以响应于第一命令而将视觉提示呈现给用户，所述提示用以提示用户提供第二命令。
20. 根据权利要求19所述的装置，其中所述提示是在显示装置上被呈现给用户的问题。
【文档编号】G06F3/01GK104321718SQ201380028066
【公开日】2015年1月28日申请日期:2013年5月31日优先权日:2012年6月29日
【发明者】N.卢, A.K.鲍夫米克申请人:英特尔公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：N.卢;A.K.鲍夫米克
技术所有人：英特尔公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。