使用分类器将音频话语映射至动作的制作方法

文档序号：8385998阅读：472来源：国知局

使用分类器将音频话语映射至动作的制作方法
【专利说明】使用分类器将音频话语映射至动作
【背景技术】
[0001] 除非这里以其它方式指出，该部分中所描述的素材针对本申请的权利要求而言并非现有技术，也并不由于包括在该部分之中而被承认其构成现有技术。
[0002] 诸如移动电话和平板电脑之类的计算设备在近年来已经越来越流行。对于用户而言，计算设备提供了各种服务，包括由诸如媒体播放器、个人信息管理器和web浏览器之类的软件应用所提供的那些服务。为了向用户提供有所提升的益处，一些计算设备可以基于从用户所接收的音频话语（话语）而发起与这些服务或其它服务相关的动作。

【发明内容】

[0003] 在一个方面，一种说明性计算设备包括具有输入组件的用户接口。该计算设备进一步包括处理器和具有存储于其上的程序指令的计算机可读存储介质，当该程序指令被该处理器所执行时使得该计算设备执行操作的集合，该集合包括经由该输入组件接收话语；基于该话语确定文本串；基于该文本串确定串特征矢量；从分类器集合中选择目标分类器，其中基于确定该目标分类器的串特征标准对应于该串特征矢量的至少一个串特征而选择该目标分类器；以及发起对应于该目标分类器的目标动作。
[0004] 在另一个方面，一种说明性方法包括由计算设备接收音频话语；基于该话语确定文本串；基于该文本串确定串特征矢量；接收传感器数据；基于该传感器数据确定传感器特征矢量；从分类器集合中选择目标分类器，其中基于确定该目标分类器的串特征标准对应于该串特征矢量的至少一个串特征并且该目标分类器的传感器特征标准对应于该传感器特征矢量中的至少一个传感器特征而选择该目标分类器；以及发起对应于该目标分类器的目标动作。
[0005] 在另一个方面，一种说明性计算机可读存储介质具有存储于其上的程序指令，当该程序指令由计算设备所执行时使得该计算设备执行以下操作集合，该操作集合包括接收音频话语；基于该话语确定文本串；基于该文本串确定串特征矢量；接收传感器数据；基于该传感器数据确定传感器特征矢量；从分类器集合中选择目标分类器，其中基于确定该目标分类器的串特征标准对应于该串特征矢量的至少一个串特征并且该目标分类器的传感器特征标准对应于该传感器特征矢量中的至少一个传感器特征而选择该目标分类器；并且发起对应于该目标分类器的目标动作。
[0006] 在另一个方面，一种说明性方法包括接收话语；基于该话语确定文本串；基于该文本串确定串特征矢量；接收传感器数据；基于该传感器数据确定传感器特征矢量；确定所识别的动作；并且生成分类器，其中该分类器具有对应于该串特征矢量中的至少一个串特征的串特征标准，具有对应于该传感器特征矢量中的至少一个传感器特征的传感器特征标准，并且对应于所识别的动作。
【附图说明】
[0007] 图1是说明性计算设备的简化框图。
[0008] 图2是示出说明性方法的训练功能组件的流程图。
[0009] 图3是示出说明性方法的运行时间功能组件的流程图。
【具体实施方式】
[0010] 除非以其它方式所指出，否则，贯穿本公开，术语"一"或"一个"是指"至少一个"，并且术语"该"是指"该至少一个"。
[0011] 这里所描述的计算设备和方法的说明性实施例并非意在作为限制。将容易理解的是，所公开的计算设备和方法的某些方面可以以各种不同配置进行布置和组合，所有这些都在这里得以被预期。
[0012] 在以下详细描述中，对形成其一部分的附图加以参考。详细描述、附图和权利要求中所描述的说明性实施例并非意在作为限制。可以采用其它实施例，可以进行其它变化，而并不背离本文所给出的主题的精神或范围。将容易理解的是，本公开的方面可以以各种不同配置进行布置、替换、组合、划分和设计，所有这些都在这里得以被预期。
[0013] I?概述
[0014] 在基于计算机的话音识别的环境中，将话语（例如，"呼叫妈妈"）映射至特定动作 (例如，向被指定为"妈妈"的联系人进行电话呼叫）可能涉及到两个阶段。在第一阶段，该话语被映射至文本串。在第二阶段，该文本串被映射至动作。由于这些阶段中的每一个中所涉及到的计算复杂度，在经常被称作"云"计算的布置中，一些计算设备可能把每个阶段中所涉及到的一个或多个功能外包给可能更适于应对这样的复杂计算的服务器计算设备 (服务器）。然而，除其它之外，在第二阶段中使用基于特征的分类器（分类器）可以降低计算复杂度和/或可以减少或消除计算设备将所选择功能外包给服务器的需求。
[0015] 对于诸如移动电话的计算设备而言，可能期望在没有基于云的服务器的支持情况下提供话音识别特征。因此，示例实施例可以包括一种能够连同准确的结果一起自动提供这样的话音识别功能但是没有来自基于云的服务器的支持的移动电话。
[0016] 在支持计算设备上的话音识别功能的服务器的环境中，在第一阶段，话语被映射至文本串。在该阶段，计算设备可以对所接收的话语进行编码并且将经编码的话语发送至服务器。随后，服务器可以确定表示经编码的话语的文本串。该服务器可以使用自动话音识别（ASR)模块来进行该确定，该ASR模块接收经编码的话语作为输入，并且提供表示该经编码的话语的文本串作为输出。作为简单的示例，该ASR模块可以接收话语"呼叫妈妈"的编码作为输入，并且可以（在这种示例下是准确地）提供相对应的文本串"呼叫妈妈"作为输出。该ASR模块可以使用目前已知或随后研发的任何ASR技术。典型地，ASR模块采用高度复杂且资源密集的分析技术，并且除其它之外，可能涉及声音、字典和语言模型的使用。
[0017] 在第二阶段，该文本串被映射至动作。在该第二阶段，服务器可以使用语法和语义分析（PSA)模块对该文本串进行分析。PSA模块寻求获得对该文本串的语法和语义的深度理解，并且像ASR模块一样，经常涉及高度复杂和资源密集的分析技术。
[0018] 由于这两个阶段中的每一个的复杂度，每个阶段中所涉及到的功能通常从（最初接收该话语的）计算设备卸载到服务器，后者可以具有相对更大的计算能力和/或其它系统资源。然而，在一些示例下，这可能并非是可能的、实际的或者所期望的。例如，计算设备可能针对服务器具有有限访问或者无法对其进行访问。例如，计算设备可以被配置为使用蜂窝无线网络连接至服务器，但是可能会缺少充分的蜂窝无线覆盖来进行该连接。另外，即使当服务器能够被访问时，蜂窝设备与服务器的数据交换也可能在将话语映射至动作的过程中提供所不期望的延迟。
[0019] 在该方法的一个实施例中，在以上所描述的第二阶段中使用分类器而不是PSA模块。分类器提供了相对较不复杂的将文本串映射至动作的解决方案。在一些实施例中，计算设备可以基于文本串的各种串特征来选择分类器。分类器以这种方式的使用减少或消除了对文本串的语义进行深度理解的需求。这允许计算设备以高的准确度水平基于文本串确定适当动作，但是例如与使用PSA模块相比，计算复杂度有所下降。
[0020] 在其它实施例中，计算设备可以进一步基于各种传感器特征来选择分类器。传感器特征可以基于计算设备所接收的传感器数据来确定。通过进一步考虑这些传感器特征，计算设备可以利用甚至更高的准确性水平来确定适当动作，而且计算复杂度同样有所下降。
[0021] 另外，由于实施基于分类器的第二阶段的方式，可能出现ASR模块的精简版本在第一阶段中适宜并切合实际的示例。虽然精简ASR模块可能在将话语映射至文本串时较不准确，但是由于在第二阶段中使用基于分类器的技术的方式，其对于将话语映射至动作的整体准确性的影响则可能很小或者甚至不存在。另外，精简ASR模块通常具有较低的计算复杂度。结果，第一阶段可以完全在计算设备上执行。这样，在一些实施例中，该计算设备可以在并不将任何相关功能外包给服务器的情况下将话语映射至动作并且随后发起该动作。
[0022] 该方法可以被描述为具有两个功能组件，也就是其中计算设备生成一个或多个分类器的"训练"组件，以及其中计算设备基于一个或多个所生成的分类器发起动作的"运行时间"组件。
[0023] II.说明性计算设备
[0024]现在参考图1，示出了说明性计算设备102的简化框图。作为示例而非限制，计算设备102可以采取游戏设备、便携式媒体播放器、蜂窝移动电话、平板电脑、台式或膝上计算机、电视和/或对这些或其它设备中的一个或多个进行控制的设备（例如，对电视、视频录制系统和音频系统进行控制的设备）的形式。
[0025] 计算设备102可以包括用户接口104、通信接口106、传感器108、处理器110和数据存储112,

完整全部详细技术资料下载

当前第1页1 2 3 4 5

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：P·J·莫雷诺门吉巴;M·詹舍;F·比亚迪;
技术所有人：谷歌公司;
我是此专利的发明人

上一篇：用于在空间音频对象编码中适配音频信息的设备和方法
上一篇：多层多孔吸声器的制造方法