用于虚拟个人助理系统的自然人-计算机交互的制作方法_2

文档序号：9402041阅读：来源：国知局

或输入手势。
[0022]参与模块214基于从眼睛跟踪传感器132和/或音频传感器130接收的传感器数据确定用户与虚拟个人助理208的参与级别。例如，参与模块214可基于用户的眼睛聚焦在化身上多久或多久一次来确定参与级别。在一些实施例中，参与模块214也可分析来自语音识别模块202的语音识别结果，以确定用户的参与级别。参与模块214向虚拟个人助理208提供参与级别，允许虚拟个人助理208相应地修改化身。
[0023]现在参考图3，在一些实施例中，语音识别模块202和/或失真模块206可实施在远程语音识别服务器300中。语音识别服务器300配置成提供服务，包含对在网络302上从计算装置100传送的音频输入执行语音识别分析。语音识别服务器300可实施为能够执行本文描述的功能的任何类型的服务器计算装置或装置集合。像这样，语音识别服务器300可包含类似于计算装置100的组件和特征，诸如处理器、I/O子系统、存储器、数据存储装置、通信电路和各种外围装置，为了本描述的清晰，未在图3中图示它们。另外，语音识别服务器300可实施为单个服务器计算装置或服务器和关联装置的集合。例如，在一些实施例中，语音识别服务器300可实施为从分布在网络上并操作在公用或私用云中的多个计算装置形成的“虚拟服务器”。相应地，尽管语音识别服务器300在图3中图示，并在下面被描述为单个服务器计算装置，但应该认识到，语音识别服务器300可实施为多个装置一起合作来实现下面描述的功能性。
[0024]如上面所讨论的，语音识别模块202，在一些实施例中还有音频失真模块206，被建立在语音识别服务器300 (S卩，而不是计算装置100，或除此之外)上。计算装置100包含音频输入模块204、虚拟个人助理208、参与模块214，在一些实施例中还有失真模块206。语音识别服务器300和计算装置100的各种模块执行与上面结合图2描述的模块相同的功能，并且可实施为硬件、固件、软件或它们的组合。
[0025]图3的说明性计算装置100还包含语音分析模块304。语音分析模块304配置成向语音识别服务器300传送音频输入，在一些实施例中还有失真的音频变化。语音分析模块304还配置成从语音识别服务器300接收语音识别结果，并可基于上下文信息从语音识别结果中选择结果。
[0026]在语音识别模块202和失真模块206位于语音识别服务器300上的实施例中，计算装置100的音频输入模块204从音频传感器130捕获音频输入，并且语音分析模块304向语音识别服务器300发送音频输入。在此类实施例中，语音识别服务器300的失真模块206接收音频输入，并向音频输入施加音频失真以产生音频输入的多个变化，如上面相对于计算装置100所描述的。音频输入和失真的音频变化被提供给语音识别服务器300的语音识别模块202，其执行上面所描述的语音识别。语音识别模块202随后将语音识别结果传送回到计算装置100。语音识别模块202可传送语音识别结果列表，或者可传送单个结果。
[0027]备选地，在仅语音识别模块202位于语音识别服务器300上的实施例中，计算装置100的音频输入模块204从音频传感器130捕获音频输入，并且计算装置100的失真模块206向音频输入数据施加音频失真，以产生音频输入的多个变化，如上面所描述的。在此类实施例中，计算装置100向语音识别服务器300传送音频输入和失真的音频变化。音频输入和失真的音频变化由语音识别服务器300的语音识别模块202接收，其执行上面所描述的语音识别。语音识别模块202将语音识别结果传送回到计算装置100。语音识别模块202可传送语音识别结果列表，或者可传送单个结果。
[0028]现在参考图4，在使用中，计算装置100可执行用于引入音频失真以改进语音识别的方法400。方法400开始于块402，其中计算装置100使用音频传感器130捕获音频输入。音频输入可以适合于进一步分析和操纵的任何格式存储，包含压缩格式或未压缩格式。音频捕获可基于来自用户的请求或基于来自计算装置100的组件的请求发起。例如，当用户激活或参与虚拟个人助理208时，可发起音频捕获，如下面进一步所描述的。
[0029]在块404，在一些实施例中，计算装置100可预处理捕获的音频输入。作为预处理的一部分，计算装置100可对捕获的音频输入执行语音识别。来自预处理的语音识别结果可用于控制音频输入的失真，如下面所描述的。
[0030]在块406，计算装置100使音频输入失真以产生音频输入的多个失真的变化。以可产生音频输入的不同且语义上变化的版本的方式使音频输入失真。失真例如可修改音频输入的幅度、定时、音调或任何其它突出特性。计算装置100可单独或以各种组合施加失真。每个变化可被存储为单独音频数据，或者计算装置100可根据需要向原始音频输入施加失真。
[0031]例如，在一些实施例中，在块408，计算装置100可从音频输入中移除安静的音频片段。为了这么做，计算装置100可标识具有在阈值幅度以下的幅度的音频输入的内部片段(也就是，不在音频输入的开始或结尾的片段)，并从音频输入中删除那些内部片段。在移除安静片段之后，在安静片段任一侧上形成的音频输入的片段都被附加在一起，或者以别的方式在一起运行。因此，这个失真可消除用户所说的话语之间的暂停，这可将话语组合成单个单词。
[0032]在一些实施例中，在块410，计算装置100可扩大音频输入中的安静音频片段。为了这么做，计算装置100可标识具有在阈值幅度以下的幅度的音频输入的片段，并增大那些片段的持续时间。在扩大安静片段之后，进一步分隔开音频输入的相邻片段。因此，这个失真可增大用户所说的话语之间的暂停持续时间，这可将话语分割成两个截然不同的单
Τ.κ| ο
[0033]在一些实施例中，在块412，计算装置100可在预处理中标识的音频输入中的一个或多个语音分割点插入暂停。与安静语音片段扩大一样，这个失真可将用户的话语分割成截然不同的单词。不像安静的音频扩大，这个失真不需要现有暂停或安静音频片段。
[0034]在一些实施例中，在块414，计算装置100可修改音频输入的回放速度；也就是，计算装置100可加速或减慢音频输入。在一些实施例中，在块416，计算装置100可向音频输入施加其它音频变换。例如，计算装置100可更改音频输入的音调，或将音频输入与随机噪声混合。此类失真可在语音识别结果中产生变化。当然，计算装置100可向音频输入施加附加或其它失真。
[0035]在块418，在语音识别模块202位于远程语音识别服务器300上的实施例中，计算装置100可向语音识别服务器302传送音频输入和多个失真的音频变化。如上面所描述的，语音识别服务器可提供语音识别服务。将语音识别任务卸载到语音识别服务器302可改进具有有限计算能力的计算装置100 (例如智能电话)的效率。
[0036]在施加各种失真以产生音频输入的多个变化之后，在块420，计算装置100基于音频输入和所有多个失真的音频变化获得语音识别结果。例如，在语音识别模块202位于移动计算装置100上的实施例中，装置100可本地执行语音识别。在那些实施例中，在块404，计算装置100可再用或参考在预处理音频输入时创建的语音识别结果，并在块420，仅对失真的音频变化执行语音识别。在语音识别模块202位于语音识别服务器300上的实施例中，计算装置100可从语音识别服务器300接收语音识别结果。然而，获得语音识别结果，语音识别过程产生多个语音识别结果；也就是，捕获的音频输入的多个潜在解释。在一些实施例中，语音识别过程可产生大量语音识别结果；例如，可产生数百或数千的语音识别结果。在一些实施例中，可使用重复或并行提供有音频输入的多个变化的常规语音识别引擎生成语音识别结果。
[0037]在块422，在一些实施例中，计算装置100可从在块420中产生的全语音识别结果当中确定语义相关的语音识别结果。换句话说，计算装置100可分析语音识别结果以找到它“理解”的结果，并拒绝没“有意义”的结果。例如，计算装置100的应用诸如虚拟个人助理208可包含语音识别语法。语音识别语法可包含应用理解的一组动作、数据对象和其它命令。计算装置100可通过仅接受满足语音识别语法的那些结果来确定语义相关语音识别结果。
[0038]在块424，计算装置100基于上下文信息从语音识别结果中选择结果。在一些实施例中，可从在块422中确定的一组较小的语义相关语音识别结果中选择结果。选择的结果可以是与用户和/或计算装置100的当前上下文最相关的语音识别结果。最相关的语音识别结果最有可能是用户预计的结果。上下文信息包含可揭示用户意图的任何信息，并且可包含当前正在计算装置100上执行的任何应用(诸如万维网浏览器、生产力应用或虚拟个人助理208)的状态。上下文信息还可包含与用户关联的上下文信息，诸如日历、联系人列表、电子邮件账户或其它个性化数据。上下文信息可还包含计算装置100的基本上下文信息，诸如数据、时间或位置。尽管图示为从语音识别结果中选择单个结果，但在一些实施例中，计算装置100可产生语音识别结果的列表，该列表可基于上下文信息分类。在选择结果之后，方法400完成，并且控制可被传递到可在语音识别结果上操作的调用方法。例如，如下面所描述的，虚拟个人助理208可对语音识别结果起作用。
[0039]现在参考图5，在语音识别模块202和/或失真模块206位于语音识别服务器300上的实施例中，语音识别服务器300可执行用于引入音频失真以改进语音识别的方法500。方法500开始于块502，其中语音识别服务器302确定是否已经从计算装置100接收到对于语音识别的请求。如果否，则方法500循环回到块502，以继续侦听语音识别请求。然而，如果已经接收到请求，则方法500前进到块504，在此语音识别服务器300从计算装置100接收音频输入。音频输入之前由计算装置100使用音频传感器130捕获。音频输入可以适合于进一步分析和操纵的任何格式存储，包含压缩格式或未压缩格式。
[0040]在块506，在一些实施例中，语音识别服务器300可预处理接收的音频输入。作为预处理的一部分，语音识别服务器300可参与收的音频输入执行语音识别。来自预处理的语音识别结果可用于控制音频输入的失真，如下面所描述的。
[0041]在块508，语音识别服务器300使音频输入失真以产生音频输入的多个失真的变化。以可产生音频输入的不同且语义上变化的版本的方式使音频输入失真。失真例如可修改音频输入的幅度、定时、音调或任何其它突出特性。语音识别服务器300可单独或以各种组合施加失真。每个变化可被存储为单独音频数据，或者语音识别服务器300可根据需要向原始音频输入施加失真。
[0042]例如，在一些实施例中，在块510，语音识别服务器300可从音频输入中移除安静的音频片段，在块512，扩大音频输入中的安静的音频片段，在块514，在预处理中标识的音频输入中的一个或多个语音分割点插入暂停，在块516，修改音频输入的回放速度，和/或在块518，向音频输入施加其它音频变换，如上面相对于计算装置100和方法400的块406所详细描述的。当然，语音识别服务器300可向音频输入施加附加或其它失真。不管怎样，在施加各种失真以产生音频输入的多个变化之后，在块520，语音识别服务器300对音频输入和所有多个失真的音频变化执行语音识别。在一些实施例中，在块506，语音识别服务

完整全部详细技术资料下载

当前第2页1 2 3 4 5 6