用于虚拟个人助理系统的自然人-计算机交互的制作方法_3

文档序号：9402041阅读：来源：国知局

器300可再用或参考在预处理音频输入时创建的语音识别结果，并在块520，仅对失真的音频变化执行语音识别。语音识别过程产生多个语音识别结果；也就是，捕获的音频输入的多个潜在解释。在一些实施例中，语音识别过程可产生大量语音识别结果；例如，可产生数百或数千的语音识别结果。在一些实施例中，可使用重复或并行提供有音频输入的多个变化的常规语音识别引擎生成语音识别结果。
[0043]在块522，在一些实施例中，语音识别服务器300可从在块520中产生的全语音识别结果当中确定语义相关的语音识别结果。换句话说，语音识别服务器300可分析语音识别结果以找到它“理解”的结果，并拒绝没“有意义”的结果。例如，计算装置100的应用诸如虚拟个人助理208可包含语音识别语法。语音识别语法可包含应用理解的一组动作、数据对象和其它命令。语音识别服务器300可通过仅接受满足虚拟个人助理208的语音识别语法的那些结果来确定语义相关语音识别结果。
[0044]在块524，在一些实施例中，语音识别服务器300可基于上下文信息从语音识别结果中选择结果。例如，在一些实施例中，可从在块522中确定的一组较小的语义相关语音识别结果中选择结果。选择的结果可以是与用户和/或计算装置100的当前上下文最相关的语音识别结果。最相关的语音识别结果最有可能是用户预计的结果。上下文信息可包含可揭示用户意图的任何信息，并且可包含当前正在计算装置100上执行的任何应用(诸如万维网浏览器、生产力应用或虚拟个人助理208)的状态。上下文信息还可包含与用户关联的上下文信息，诸如日历、联系人列表、电子邮件账户或其它个性化数据。上下文信息可还包含计算装置100的基本上下文信息，诸如数据、时间或位置。尽管图示为从语音识别结果中选择单个结果，但在一些实施例中，语音识别服务器302可产生语音识别结果的列表，该列表可基于上下文信息分类。
[0045]在块526，语音识别服务器302将语音识别结果或多个语音识别结果传送回到计算装置100。计算装置100然后可使用语音识别结果或多个语音识别结果控制应用，诸如虚拟个人助理208。在传送之后，方法500循环回到块502，以侦听来自计算装置100的另外语音识别请求。
[0046]现在参考图6A，在使用中，计算装置100可执行用于与虚拟个人助理208自然交互的方法600。方法600开始于块602，其中虚拟个人助理208的化身在不参与状态(disengaged state)被显示在计算装置100的显示器128上。如上面所描述的，化身是虚拟个人助理208的视觉表示。化身包含可便于与用户自然交互的类人或拟人特征。例如，化身可包含包括眼睛或一对眼睛的动画人物或类人脸。当处于不参与状态时，以指示虚拟个人助理208空闲和/或不主动侦听指令的方式显示化身。例如，化身可表示为休眠或将视线从用户身上移开。
[0047]在一些实施例中，在块604中，化身可在不参与状态被显示为半透明，允许计算装置100的后台应用透过化身。当半透明时，化身可保持对用户可见，同时仍允许所有显示器128由其它应用可用，并且至少对用户部分可见。半透明的外观可通过α混合化身和其它应用，合成场景，或者由用于半透明的任何其它可比拟技术来实现。在一些实施例中，在块606，可在不参与状态以相对小的大小或者在远离计算装置100的当前活动的应用的位置显示化身。例如，可在显示器128的角落以较小大小再现化身，允许用户继续工作在活动应用中，没有分心。在其它实施例中，计算装置100可在不参与状态将化身再现为完全不可见。在那些实施例中，所有显示器128都可对于其它应用可用；然而，可能没给用户呈现任何视觉提示，指示虚拟个人助理208可用。
[0048]在块608，计算装置100监视用户对虚拟个人助理208的激活。在一些实施例中，在块610，计算装置100可从眼睛跟踪传感器132接收眼睛跟踪数据。计算装置100解释眼睛跟踪数据，以确定显示器128上用户的注视位置。用户可通过聚焦在当前在不参与状态显示的化身位置来指示虚拟个人助理208的激活。计算装置100可对眼睛跟踪数据进行滤波，以移除在化身处的简短或虚假注视。在一些实施例中，在块612，计算装置100可从音频传感器130接收音频输入。计算装置100解释音频输入以确定用户是否已经说出用于激活虚拟个人助理208的码字。例如，码字可实施为虚拟个人助理208的名称，或诸如“助理”或“计算机”的常用词。
[0049]在块614，计算装置100确定用户是否已经请求激活虚拟个人助理208。如上面所描述的，当用户的注视已经聚焦在化身上比某一阈值更长的时间长度时，或者当已经检测到码字时，可请求激活。如果用户未请求激活，则方法600循环回到块602，使化身保持在不参与状态，并且继续监视激活。如果用户已经请求激活，则方法600前进到块616。
[0050]在块616，计算装置100在准备状态显示化身。准备状态向用户指示虚拟个人助理208可用，并准备好对用户输入进行响应。在块618，在一些实施例中，计算装置100可将化身再现为与用户进行目光接触。目光接触是可向用户自然传达虚拟个人助理208为输入做好准备的有力提示。在一些实施例中，计算装置100可将化身简单地再现为直接面对显示器128，因为用户通常位于显示器128的前面。在一些实施例中，计算装置100可使用从眼睛跟踪传感器132接收的眼睛跟踪数据来确定用户的眼睛的位置，并将化身再现为看用户的眼睛。计算装置100可使用拟人提示来再现目光接触以模拟自然交互；例如，计算装置100可将化身再现为定期将视线从用户身上移开，这可使用户不太可能将化身解释为起始于用户。在一些实施例中，在块620，可通过减小化身的透明度，也就是，通过使化身看起来更坚实，来在准备状态显示化身。虽然仍允许后台应用透过，但化身的越来越坚实的外观可指示虚拟个人助理208准备好接收命令。在块622，在一些实施例中，计算装置100可通过调整化身的位置、大小和/或可见度来在准备状态显示化身。例如，化身可朝显示器128上的活动应用移动，并且可在大小上增大，或者可变得可见。
[0051]虽然在准备状态显示化身，但在块624，计算装置100确定用户的参与级别，也就是，用户在化身中表现出的兴趣度。通过确定用户的参与级别，计算装置100可以自然方式确定用户是否打算激活虚拟个人助理208。在一些实施例中，在块626，计算装置100可从眼睛跟踪传感器132接收眼睛跟踪数据。计算装置100可分析眼睛跟踪数据以确定用户是否已经在视觉上聚焦在化身上。在视觉上聚焦在化身上可指示相对高的参与级别，而远离化身聚焦可指示相对低的参与级别。计算装置100可要求用户在视觉上聚焦在化身上比阈值时间更大的时间段，以便过滤出虚假注视。类似地，计算装置100可忽略从化身移开的短期注视，以改进识别性能，实质上向眼睛跟踪数据施加低通滤波器。在一些实施例中，在块628，计算装置100可从音频传感器130接收音频输入。计算装置100可分析音频输入以确定用户是否正在寻址虚拟个人助理208。在一些实施例中，计算装置100可对音频输入执行语音识别。
[0052]在块630，计算装置100确定用户是否与化身参与。计算装置100可通过将在624中确定的用户参与级别与阈值参与级别相比较来确定是否参与用户。如果否，即确定未参与用户，则方法600循环回到602，以在不参与状态再现化身。为了概况那个交互，化身已经不引人注意地向用户指示它准备好交互，确定用户未与化身参与，并且然后从用户的注意中撤退。从而，那个交互可模拟自然人交互。再次回头参考块630，如果用户与化身参与，则方法600前进到块632，在图6B中图示。
[0053]现在参考图6B，在块632，计算装置100在参与状态(engaged state)显示化身。参与状态向用户指示虚拟个人助理208主动解释用户发出的命令。例如，在一些实施例中，在块634，计算装置100可将化身再现为与用户进行目光接触。如上面结合块618所描述的，计算装置100可从眼睛跟踪传感器132接收眼睛跟踪数据，并将化身再现为朝用户的眼睛看。附加地或备选地，在一些实施例中，在块636，计算装置100可减小化身的透明度。例如，在一些实施例中，计算装置100可将化身再现为完全不透明。另外，在一些实施例中，在块638，计算装置100可调整化身的大小和/或位置。例如，可在显示器128上靠近当前活动的应用或在其前面再现化身，或者可增大化身大小。在一些实施例中，尽管化身被显示为不透明，并且在显示器128上在其它应用前面，但化身不拦截或以别的方式干扰用户输入，允许用户继续与计算装置100工作。
[0054]虽然在参与状态显示化身，但方法600的执行并行进行到块640和644。在块640，当化身处于参与状态时，计算装置100对从音频传感器130接收的音频输入执行语音识别。在一些实施例中，计算装置100可当处于参与状态时执行更准确或者计算上更密集的语音识别方法，因为有可能用户直接寻址虚拟个人助理208。例如，计算装置100可执行上面结合图4描述的引入失真的语音识别方法，或者任何其它语音识别技术。
[0055]在块642，计算装置100确定是否已经接收到可由虚拟个人助理208执行的命令。计算装置100可向虚拟个人助理208的语音识别语法施加在块640中确定的语音识别的结果，以确定是否已经发出有效命令。如果未接收到命令，则方法600循环回到块640，以继续执行语音识别。如果已经接收到命令，则方法600前进到块652，如下面所描述的。
[0056]如上面所描述的，方法600将块644与块640并行执行。在块644，计算装置100监视当处于参与状态时用户参与级别。如上面结合块624所描述的，计算装置100确定用户在化身中表现出的兴趣度，这可允许有更多的自然交互。在一些实施例中，在块646，计算装置100可从眼睛跟踪传感器132接收眼睛跟踪数据。如上面相对于块626所描述的，计算装置100可基于用户的眼睛是否聚焦在化身上来确定参与级别。在一些实施例中，在块648，计算装置100可从音频传感器130接收音频输入。如上面结合块628所描述的，计算装置100可分析音频输入以确定用户是否正在寻址虚拟个人助理208。在一些实施例中，计算装置100可使用来自块640的语音识别结果来确定用户是否正在寻址虚拟个人助理208。
[0057]在块650，计算装置100确定用户是否与化身参与。如上面结合块630所描述的，计算装置100可将在块644确定的用户参与级别与阈值参与级别相比较。如果用户与化身参与，则方法600循环回到块644以继续监视用户参与级别。为了概况那个交互，如果用户保持主动与化身参与，例如通过从事与化身的目光接触，化身也保持在参与状态。当保持对话时，那个交互可模拟自然交互。如果在块650计算装置100确定用户不参与，则方法600循环回到图6A的块602，以在不参与状态再现化身。为了概况那个交互，如果在参与的某一时间之后不再参与用户，例如通过转回到其它工作，则化身也离开或者开始离开参与状态。当一个人完成对话时，那个交互可模拟自然交互。
[0058]当方法600从块642前进到块652或者从块650循环回到块602时，计算装置100遇到任务同步边界，在图6B中由粗线图示。任务同步边界确保仅方法600的一个任务在计算装置100中保持活动。例如，当基于接收的语音命令从块642前进到块652时，计算装置100可终止任务执行块644，使计算装

完整全部详细技术资料下载

当前第3页1 2 3 4 5 6