唤醒词检测的制作方法

文档序号：17686501发布日期：2019-05-17 20:40阅读：412来源：国知局

本公开一般涉及语音识别和语音合成，并且更具体地涉及唤醒词检测。

语音识别(或“自动语音识别”(asr))使计算设备能够识别口语并将口语翻译成文本或意图。支持asr的计算设备可以从用户接收口语输入并将口语输入翻译成计算设备可以理解的文本。这使得例如当接收到口语输入时计算设备能够实现动作。例如，如果用户说“呼叫家庭”，则支持asr的计算设备可以识别并翻译该短语并发起呼叫。可以通过检测称为“唤醒词”(wuw)的单个词或短语来触发asr，当其被用户说出时，其由支持asr的计算设备检测来触发asr。

技术实现要素：

在一个示例性实施例中，用于唤醒词(wuw)检测的计算机实现的方法包括由处理设备从用户接收话语。该方法进一步包括由处理设备将话语流式传输到多个数字助理中的每一个。该方法进一步包括由处理设备监控多个数字助理中的至少一个的活动，以确定多个数字助理中的任何一个是否将该话语识别为唤醒词。该方法进一步包括，响应于确定多个数字助理中的一个将该话语识别为唤醒词，由处理设备禁止将另外的话语流式传输到未将该话语识别为唤醒词的多个数字助理的子集。

在一些示例中，多个数字助理中的至少一个是基于电话的数字助理。在一些示例中，多个数字助理中的至少一个是基于车辆的数字助理。在一些示例中，基于车辆的数字助理可以控制车辆的远程信息处理系统、车辆的信息娱乐系统和车辆的通信系统中的至少一个。在一些示例中，监控多个数字助理中的至少一个的活动进一步包含检测多个数字助理中的至少一个是否正在执行语音活动。在一些示例中，监控多个数字助理中的至少一个的活动进一步包含检测多个数字助理中的至少一个是否正在执行音乐活动。在一些示例中，至少部分地基于将该话语识别为唤醒词的多个数字助理中的一个的活动分类来禁止将另外的话语流式传输到多个数字助理的子集。在一些示例中，当活动分类为第一活动分类时，禁止将另外的话语流式传输到多个数字助理的子集，并且当活动分类为第二活动分类时，启用将另外的话语流式传输到多个数字助理的子集。在一些示例中，第一活动分类是电话呼叫或文本叙述，并且其中第二活动分类是播放音乐。根据本公开的方面，该方法进一步包括，响应于确定将该话语识别为唤醒词的多个数字助理中的一个不再活动，由处理设备启用到多个数字助理的另外的话语的流式传输。在一些示例中，由多个数字助理中的至少一个提供多个数字助理中的至少一个的活动，并且其中该活动包含活动状态和活动类型。

在另一个示例性实施例中，一种用于唤醒词(wuw)检测的系统包括包含计算机可读指令的存储器，以及用于执行用于进行一种方法的计算机可读指令的处理设备。在示例中，该方法包括由处理设备从用户接收话语。该方法进一步包括由处理设备将话语流式传输到多个数字助理中的每一个。该方法进一步包括由处理设备监控多个数字助理中的至少一个的活动，以确定多个数字助理中的任何一个是否将该话语识别为唤醒词。该方法进一步包括，响应于确定多个数字助理中的一个将该话语识别为唤醒词，由处理设备禁止将另外的话语流式传输到未将该话语识别为唤醒词的多个数字助理的子集。

在一些示例中，多个数字助理中的至少一个是基于电话的数字助理。在一些示例中，多个数字助理中的至少一个是基于车辆的数字助理。在一些示例中，基于车辆的数字助理可以控制车辆的远程信息处理系统、车辆的信息娱乐系统和车辆的通信系统中的至少一个。在一些示例中，监控多个数字助理中的至少一个的活动进一步包含检测多个数字助理中的至少一个是否正在执行语音活动。在一些示例中，监控多个数字助理中的至少一个的活动进一步包含检测多个数字助理中的至少一个是否正在执行音乐活动。在一些示例中，至少部分地基于将该话语识别为唤醒词的多个数字助理中的一个的活动分类来禁止将另外的话语流式传输到多个数字助理的子集。在一些示例中，当活动分类为第一活动分类时，禁止将另外的话语流式传输到多个数字助理的子集，并且当活动分类为第二活动分类时，启用将另外的话语流式传输到多个数字助理的子集，并且第一活动分类是电话呼叫或文本叙述，并且其中第二活动分类是播放音乐。

在又另一个示例性实施例中，一种用于唤醒词(wuw)检测的计算机程序产品包括具有与其一起实施的程序指令的计算机可读存储介质，该程序指令可由处理设备执行以使处理设备执行方法。在示例中，该方法包括由处理设备从用户接收话语。该方法进一步包括由处理设备将话语流式传输到多个数字助理中的每一个。该方法进一步包括由处理设备监控多个数字助理中的至少一个的活动，以确定多个数字助理中的任何一个是否将该话语识别为唤醒词。该方法进一步包括，响应于确定多个数字助理中的一个将该话语识别为唤醒词，由处理设备禁止将另外的话语流式传输到未将该话语识别为唤醒词的多个数字助理的子集。

从以下结合附图的具体实施方式中，本公开的上述特征和优点以及其他特征和优点将变得显而易见。

附图说明

仅通过示例的方式，在以下参考附图的具体实施方式中，出现了其他特征、优点和细节，其中：

图1描绘了根据本公开的方面的用于唤醒词(wuw)检测的处理系统；

图2描绘了根据本公开的方面的用于唤醒词(wuw)检测的嗅探器引擎的框图；

图3描绘了根据本公开的方面的用于唤醒词(wuw)检测的方法的流程图；

图4描绘了根据本公开的方面的用于唤醒词(wuw)检测的方法的流程图；并且

图5描绘了根据本公开的方面的用于实现本文描述的技术的处理系统的框图。

从以下结合附图的具体实施方式中，本公开的上述特征和优点以及其他特征和优点将变得显而易见。

具体实施方式

以下描述本质上仅是示例性的，并不旨在限制本公开、其应用或用途。应当理解在整个附图中，相应的附图标记表示相同或相应的零件和特征。如本文所用的，术语模块指的是处理电路，其可以包括专用集成电路(asic)、电子电路、执行一个或多个软件或固件程序的处理器(共享、专用或集群)和存储器、组合逻辑电路和/或提供所述功能的其他合适部件。

本文描述的技术方案提供了唤醒词(wuw)检测。特别地，本文提供的技术方案使得用户能够使用唤醒词访问期望的数字助理(例如，智能手机助理、车辆助理等)。例如，在车辆中，用户可以访问电话助理、嵌入式车辆助理或其他助理。唤醒词可用于访问各种数字助理。在某些情况下，可以通过用户向该助理说出唤醒词来激活每个数字助理。

在现有实施方式中，可能要求用户选择默认数字助理，并且对于用户来说在数字助理之间进行切换可能很麻烦。在车辆设置中，一种可能的实施方式包括车辆的自动语音识别(asr)系统检测来自用户的话语并确定话语是否是wuw。如果确定是wuw，则asr系统基于wuw将wuw(以及随后的命令，如果有的话)导向适当的数字助理。然而，wuw检测技术可能导致多个数字助理之间的不一致和/或各个数字助理会执行它自己的wuw检测。因此，这些当前技术可能导致数字助理之间的混淆。asr系统未能检测到wuw或未能激活正确的数字助理的失误可能导致性能变差、用户体验变差以及用户对系统价值感受不佳。

尝试协调和纠正这些不一致的另一种选项需要用户按下按钮来触发助理而不是使用wuw。例如，短按按钮触发一个数字助理(例如，智能手机的数字助理)，长按按钮触发另一个数字助理(例如，车辆的数字助理)。

本文描述的技术通过将话语连续地流式传输到多个数字助理，以利用助理的经优化以获得最佳性能的wuw检测器并避免与车辆asr系统中的wuw检测不一致来解决这些缺点。本技术还智能地监控助理活动以实现其他数字助理的互斥。应当理解，本文描述的技术可以应用于或实现在任何合适的技术或设备中，诸如物联网对象(例如，智能电话、智能电视、家用音箱、恒温器等)。

术语物联网(iot)对象在本文中用于指代具有可寻址接口(例如，互联网协议(ip)地址、蓝牙标识符(id)、近场通信(nfc)id等)并且可以通过有线或无线连接向一个或多个其他对象发送信息的任何对象(例如，装置、传感器等)。iot对象可以具有被动通信接口，诸如快速响应(qr)码、射频识别(rfid)标签、近场通信(nfc)标签等，或者主动通信接口，诸如调制解调器、收发器、发送-接收机等。iot对象可以具有特定一组属性(例如，设备状态，诸如iot对象是启动还是停止的、打开还是关闭的、空闲还是活动的、可用于执行任务还是忙碌的等；冷却或加热功能；环境监控或记录功能；发光功能；发声功能等)，其可嵌入到和/或可由中央处理单元(cpu)、微处理器、asic等控制/监控，并且配置为用于连接到诸如本地ad-hoc网络或因特网的iot网络。例如，iot对象可以包括但不限于车辆、车辆部件、车辆系统和子系统、冰箱、烤面包机、烤箱、微波炉、冰柜、洗碗机、餐具、手动工具、洗衣机、干衣机、暖炉、暖气、通风设备、空调和制冷(hvacr)系统、空调、恒温器、智能电视、火灾报警和保护系统、火/烟和二氧化碳探测器、访问/视频安全系统、电梯和扶梯系统、燃烧器和锅炉控制、建筑物管理控制、电视、灯具、真空吸尘器、洒水器、电表、气表等，只要设备配备了用于与iot网络通信的可寻址的通信接口。iot对象还可以包括手机、台式电脑、笔记本电脑、平板电脑、个人数字助理(pda)等。因此，除了通常不具有因特网连接的设备(例如，洗碗机等)之外，iot网络可以包括“传统的”因特网可访问设备(例如，笔记本或台式计算机、蜂窝电话等)的组合。

根据本公开的示例，提供了唤醒词检测。从用户接收话语并将其流式传输到多个数字助理。监控数字助理的活动以确定数字助理是否将话语识别为唤醒词(并且如果是，是哪一个)。响应于数字助理中的一个识别wuw，禁止到其他数字助理的流式传输。

本公开的示例实施例包括或产生各种技术特征、技术效果和/或技术改进。本公开的示例实施例提供了通过将话语流式传输到多个数字助理，监控数字助理的活动以确定是否有任何一个助理将话语识别为唤醒词，并且然后在数字助理中的一个活动时(即，识别了唤醒词)禁止到其他数字助理的流式传输，来用于唤醒词检测的技术。本公开的这些方面构成了技术特征，它们产生了使得能够使用多个数字助理同时减少多个数字助理之间的混淆、提供在对数字助理使用唤醒词时的用户体验、防止激活不正确的数字助理等的技术效果。本技术还有助于防止诸如通过车辆的asr系统的对唤醒词的错误检测，其改善了整体的数字助理交互。作为这些技术特征和技术效果的结果，根据本公开的示例实施例的唤醒词检测代表了对现有数字助理、唤醒词和asr技术的改进。此外，通过减少唤醒词的错误检测并且禁止或停用多个流式传输，从而通过使用较少的存储器和处理资源来改进实现本技术的计算系统。应当理解，本公开的示例实施例的技术特征、技术效果和技术改进的上述示例仅仅是说明性的而非穷举。

图1描绘了根据本公开的方面的用于唤醒词(wuw)检测的处理系统100。处理系统100包括处理设备102、存储器104、音频桥接引擎106、第一助理客户端110、第二助理客户端112、第三助理客户端114和嗅探器引擎108。

关于图1(以及本文描述的图2)描述的各种部件、模块、引擎等可以实现为存储在计算机可读存储介质上的指令、硬件模块、特定用途硬件(例如，专用硬件、专用集成电路(asic)、嵌入式控制器、硬连线电路等)，或者这些的一些组合。

在示例中，本文描述的引擎可以是硬件和程序的组合。程序可以是存储在有形存储器上的处理器可执行指令，并且硬件可以包括用于执行这些指令的处理设备102。因此，系统存储器(例如，存储器104)可以存储程序指令，在由处理设备102执行该程序指令时实现本文描述的引擎。也可利用其他引擎来包括本文其他示例中描述的其他特征和功能。替代地或另外地，处理系统100可以包括专用硬件，诸如一个或多个集成电路、asic、专用特殊处理器(assp)、现场可编程门阵列(fpga)，或者专用硬件前述示例的任何组合，用于执行本文描述的技术。

音频桥接引擎106从用户101接收话语。话语可以是单词、短语或其他检测到的语音，诸如通过处理系统100的麦克风(未示出)。音频桥接引擎106将话语流式传输到第一、第二和第三助理客户端110、112、114。助理客户端110、112、114可以与各种数字助理交互，诸如电话助理111、汽车助理113、其他助理115或任何其他合适的数字助理。通过流式传输可能是或可能不是wuw的话语，音频桥接引擎106可以充分利用助理111、113、115的wuw检测并避免wuw检测中的不一致。

助理客户端110、112、114中的每一个都接收话语109。然而，应当理解，话语可以是也可以不是wuw。在每个助理客户端110、112、114处从音频桥接引擎106接收话语109，并且将话语109发送到相应的数字助理111、113、115。例如，第一助理客户端110将话语109发送给电话助理111，第二助理客户端112将话语109发送给汽车助理113，第三助理客户端114将话语109发送给助理115。

一旦数字助理111、113、115接收到话语109，则数字助理111、113、115中的每一个各自确定话语109是否是wuw。确定该话语109是针对自己的wuw的数字助理111、113、115中的一个被称为“活动”助理，并且活动助理可以基于wuw采取行动。例如，活动助理可以向用户101提供视觉/听觉/触觉回复，可以等待可包括命令的其他话语等。

嗅探器引擎108可以位于音频桥接引擎106和相应的助理客户端之间。在图1的示例中，嗅探器引擎108位于音频桥接引擎106和第一助理客户端110之间，以及音频桥接引擎106和第三助理客户端114之间。在图1的示例中，嗅探器引擎不位于音频桥接引擎106和第二助理客户端112之间，因为，例如第二助理客户端112可以在没有嗅探器引擎的情况下直接向音频桥接引擎106指示其活动。然而，在其他示例中，可以在音频桥接引擎106和第二助理客户端112之间实现嗅探器引擎。

嗅探器引擎108监控助理活动以使得能够排除其他助理，使得一次只有单个数字助理是活动的。例如，嗅探器引擎108可以在智能手机助理111变为活动时从第一助理客户端110接收响应，并且嗅探器108可以向音频桥接引擎106指示电话助理111是活动的。这使得音频桥接引擎106经由逻辑107停用音频桥接和其他助理客户端(例如，第二助理客户端112和第三助理客户端114)之间的通信连接。因此，来自用户101的任何将来的话语仅被传递给活动助理(例如，电话助理111)。这防止了其他停用的助理(例如，汽车助理113或助理115)干扰或实施任何动作。在一些示例中，音频桥接引擎106中用于停用的助理的通信连接可以保持不活动，直到活动助理不再活动、经过预定的时间段、在特定活动类型期间等。

图2描绘了根据本公开的方面的用于唤醒词(wuw)检测的嗅探器引擎108的框图。嗅探器引擎108从数字助理(例如，数字助理111、113、115中的一个)接收音频202。嗅探器引擎108还可以从数字助理接收其他形态信息204，诸如文本或图形用户界面窗口构件动作或图像。嗅探器引擎108可以使用音频202和/或其他形态信息204来确定助理活动206，助理活动被发送到音频桥接引擎106，其向音频桥接引擎106指示了与嗅探器引擎108相关联的数字助理为活动或未活动。

嗅探器108包括活动分类引擎214以确定助理活动206。例如，活动分类引擎214可以从语音检测引擎210和/或音乐检测引擎212接收信息。语音检测引擎210检测来自助理的语音活动(例如，驾驶方向、文本叙述等)，并且音乐检测引擎212检测是否正在执行音乐活动(例如，助理是否正在播放音乐)。在示例中，如果检测到语音活动，则嗅探器108可以指示相关联的助理是活动的，这将关闭到其他助理的音频桥接引擎106。在另一个示例中，如果检测到音乐活动，则嗅探器108可以指示相关联的助理是不活动的，这将使得到其他助理的音频桥接引擎106保持开启。这使得用户101能够例如由一个设备(运行一个助理)播放音乐，而其他设备(运行其他助理)保持警觉并预备好从用户101接收唤醒词。

图3描绘了根据本公开的方面的用于唤醒词(wuw)检测的方法的流程图。方法300可以例如由图1的处理系统100、由图5的处理系统500，或者由其他合适的处理系统或设备(例如，处理设备102、处理器521等)实现。

在框302处，音频桥接引擎106从用户101接收话语。在框304处，音频桥接引擎106将话语流式传输到多个数字助理(例如，电话助理111、汽车助理113、助理115)等中的每一个。在一个示例中，数字助理中的至少一个是诸如电话助理111的基于电话的数字助理(即，在诸如智能电话的电话上运行或集成到其中的数字助理)。在另一个示例中，数字助理中的至少一个是基于车辆的数字助理(即，嵌入到车辆中的数字助理)，诸如汽车助理113。基于车辆的数字助理(例如，汽车助理113)可以控制车辆中的各种系统。例如，基于车辆的数字助理可以控制远程信息处理系统(例如，来打开灯、改变气候控制设置等)、信息娱乐系统(例如，来打开广播、输入导航命令等)，和/或通信系统(例如，来连接到远程通信中心)。

在框306处，嗅探器引擎108监控多个数字助理中的至少一个的活动，以确定多个数字助理中的任何一个是否将该话语识别为唤醒词。当数字助理中的一个将该话语识别为wuw时，该助理被认为是活动的。在示例中，监控多个数字助理中的至少一个的活动包括检测多个数字助理中的至少一个是否正在执行语音活动、音乐活动等。在一些示例中，由多个数字助理中的至少一个直接提供多个数字助理中的至少一个的活动。活动可以包括活动状态(例如，活动、不活动等)和活动类型(例如，播放音乐、叙述语音、促进电话呼叫等)。

当多个数字助理中的一个将话语识别为wuw时，音频桥接引擎106可以在框308处禁止将另外的话语的流式传输到未将该话语识别为wuw的其他数字助理。然而，在一些示例中，可以基于活动的助理的活动分类来进行禁止。例如，如果活动分类器214确定该助理(例如，电话助理111)正在播放音乐，则在用户101希望通过说出其他助理的wuw中的一个来激活那些助理中的一个的情况下(例如，汽车助理113、助理115)，可能希望不停用其他助理。例如，这允许即使在已经活动的助理正在播放音乐时，其他助理也能变为活动。

还可以包括另外的过程，并且应当理解，图3中描绘的过程表示说明，并且在不脱离本公开的范围和精神的情况下，可以添加其他过程或者可以删除、修改或重新安排现有过程。

图4描绘了根据本公开的方面的用于唤醒词(wuw)检测的方法的流程图。方法400可以例如由图1的处理系统100、由图5的处理系统500，或者由其他合适的处理系统或设备实现。

在框402处，音频桥接引擎106是活动的。在判定框404处，确定话语(即，唤醒词)是否触发了第一助理。如果否，则在判定框406处，确定话语是否触发第二助理。如果否，则在判定框408处，确定话语是否触发第三助理。如果否，则方法400返回到框402。然而，在其他示例中，可以确定话语是否触发了另外的助理。

如果在判定框404、406、408中的任何一个处确定触发了相应的助理，则音频桥接引擎106关闭(或停用)到其他助理的通信连接，使得只有由话语触发的助理是活动的。例如，如果在判定框406处确定话语触发了第二助理，则在框410处关闭到助理1和3的音频桥接。方法400继续到判定框412，其中确定当前助理是否是活动的(例如，播放音乐、叙述文本、提供导航信息等)。如果是，则音频桥接引擎106对其他助理保持关闭。然而，如果在判定框412处确定触发的助理不再活动，则方法400返回到框402，并且音频桥接引擎106对所有助理打开。

还可以包括另外的过程，并且应当理解，图4中描绘的过程表示说明，并且在不脱离本公开的范围和精神的情况下，可以添加其他过程或者可以删除、修改或重新安排现有过程。

如本文所述，可以由各种处理设备和/或处理系统实现本技术。例如，图5示出了用于实现本文所述技术的处理系统500的框图。在示例中，处理系统500具有一个或多个中央处理单元(处理器)521a、521b、521c等(统称或一般称为处理器521和/或处理设备)。在本公开的方面中，每个处理器521可以包括精简指令集计算机(risc)的微处理器。处理器521经由系统总线533耦接到系统存储器(例如，随机存取存储器(ram)524)和各种其他部件。只读存储器(rom)522耦接到系统总线533，并且可以包括基本输入/输出系统(bios)，其控制处理系统500的某些基本功能。

进一步示出了输入/输出(i/o)适配器527和耦接到系统总线533的网络适配器526。i/o适配器527可以是小型计算机系统接口(scsi)适配器，其与硬盘523和/或其他存储驱动器525或任何其他类似部件通信。i/o适配器527、硬盘523和存储设备525在此统称为大容量存储器534。用于在处理系统500上执行的操作系统540可以存储在大容量存储器534中。网络适配器526将系统总线533与外部网络536进行互连，使得处理系统500能够与其他这样的系统通信。

显示器(例如，显示监视器)535通过显示适配器532连接到系统总线533，显示适配器可以包括图形适配器(以改善图形和通用计算密集型应用程序的性能)以及视频控制器。在本公开的一个方面中，适配器526、527和/或532可以连接到一个或多个i/o总线，这些总线经由中间总线桥(未示出)连接到系统总线533。用于连接诸如硬盘控制器、网络适配器和图形适配器的外围设备的合适的i/o总线通常包括通用协议，诸如外围部件互连(pci)协议。另外的输入/输出设备被示出为经由用户接口适配器528和显示适配器532连接到系统总线533。键盘529、鼠标530和扬声器531可以经由用户接口适配器528与系统总线533互连，用户接口适配器可以包括例如将多个设备适配器集成到单个集成电路中的超级i/o芯片。

在本公开的一些方面中，处理系统500包括图形处理单元537。图形处理单元537是专用电子电路，其设计为用于操纵和改变存储器以加速创建用于输出到显示器的帧缓冲器中的图像。通常，图形处理单元537在操纵计算机图形和图像处理方面非常有效，并且具有高度并行的结构，使得其比通用cpu对于并行完成大块数据处理的算法更有效。

因此，如本文所配置的，处理系统500包括处理器521形式的处理能力、包括系统存储器(例如，ram524)和大容量存储器534的存储能力、诸如键盘529和鼠标530的输入装置，以及包括扬声器531和显示器535的输出能力。在本公开的一些方面，系统存储器(例如，ram524)和大容量存储器534的一部分共同存储操作系统以协调处理系统500中示出的各种部件的功能。

已经出于说明的目的给出了对本公开的各种示例的描述，但是并不旨在穷举或限制于所公开的实施例。在不脱离所描述技术的范围和精神的情况下，许多修改和变化对于本领域普通技术人员来说是显而易见的。选择本文使用的术语是为了最好地解释本技术的原理、实际应用或对市场中出现的技术进行技术改进，或者使本领域普通技术人员能够理解本文公开的技术。

虽然已经参考示例性实施例描述了以上公开，但是本领域技术人员将理解，在不脱离其范围的情况下，可以进行各种改变并且可以用等同物替换其元件。另外，在不脱离其实质范围的情况下，可以进行许多修改以使特定情况或材料适应本公开的教导。因此，旨在使本公开不限于所公开的特定实施例，而是将包括落入其范围内的所有实施例。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：E·蒂泽凯尔-汉考克;O·西迪
技术所有人：通用汽车环球科技运作有限责任公司
我是此专利的发明人

上一篇：一种高效低能耗屠宰废水处理设备的制作方法
上一篇：一种海底四分量节点地震仪器系统的制作方法