用于检测语音命令的方法和装置的制造方法

文档序号：9291751阅读：249来源：国知局

用于检测语音命令的方法和装置的制造方法
【专利说明】用于检测语音命令的方法和装置
【背景技术】
[0001] 诸如智能电话的许多移动通信设备都装备有语音应答系统（例如，虚拟助理或代理），其可以识别讲话并响应语音命令来执行期望的任务（执行因特网搜索、打电话、提供导航、回答问题、做出建议、安排预约，等等）。但是，在系统被接合并准备好响应来自用户的讲话输入之前，接合语音应答系统常规地需要用户的一个或多个手动动作。例如，用户可能必须激活图标（例如，通过触摸）来启动虚拟助理应用，或者操纵移动设备上的软件或硬件接口控制部来接合语音应答系统（例如，激活麦克风显示图标、按下按钮、激活开关，等等）。
[0002] 在本文被称为"手动触发"的这种需要用户手的手动动作使与移动设备的交互复杂化，并且在一些情况下，可能是被禁止的（例如，当用户的手被其它事情占用时）。已经实现了语音触发来减少至少一些激活语音应答系统所需的手动动作，以试图一般地提供对语音应答系统的免提（hands-free)访问。但是，常规的语音应答系统在有限的上下文中响应语音触发，例如，当移动设备是活动的（即，醒着的）并且需要显式触发单词或短语来接合移动设备的语音响应能力时。因此，用户必须说出被称为显式语音触发的特定和预定的单词或短语来接合语音应答系统并且常规地只可以当移动设备是活动的时才这样做。即，常规的语音应答系统在移动设备睡眠时是非响应的。
[0003]当移动设备在低功率模式下（例如，在睡眠、休眠或空闲模式下）操作时，接合语音应答系统所需的动作通常变得甚至更加广泛。具体地，在语音应答系统可以利用手动动作或显式语音触发被接合之前用户首先需要唤醒移动设备本身。例如，用户可能必须按下按钮来打开显示器和/或启用一个或多个处理器，可能必须操纵一个或多个控制部来使移动设备准备好以供使用，和/或如果移动设备已经在某个时间段不活动那么可能必须输入密码。
[0004]因此，唤醒动作会进一步妨碍语音应答系统的使用，妨碍的方式是在正常情况下会很不方便或者恼人并且在其它情况下会是禁止的（例如，当驾驶车辆时，或从事占用用户手的其它任务时）。常规地，这些唤醒动作是不可避免的。而且，为了从低功率模式中接合语音应答系统，一个或多个唤醒动作后面接着必须跟着一个或多个手动和/或显式语音触发来接合语音应答系统以准备好响应用户的讲话。

【发明内容】

[0005]-些实施例包括监视移动设备的声学环境的方法，该方法包括通过移动设备接收来自移动设备的环境的声学输入，在无需接收来自用户的显式触发的情况下检测声学输入是否包括来自用户的语音命令，及发起对检测到的语音命令的响应。
[0006]-些实施例包括用指令编码的至少一个计算机可读介质，当指令在该至少一个处理器上被执行时，执行监视移动设备的声学环境以接收来自移动设备的环境的声学输入的方法，该方法包括在无需接收来自用户的显式触发的情况下检测声学输入是否包括来自用户的语音命令，及发起对检测到的语音命令的响应。
[0007] -些实施例包括移动设备，该移动设备包括用于接收来自移动设备的环境的声学输入的至少一个输入部、及至少一个处理器，该处理器被配置为在无需接收来自用户的显式触发的情况下检测声学输入是否包括来自用户的语音命令，及发起对检测到的语音命令的响应。
[0008] -些实施例包括当移动设备在低功率模式下操作时对移动设备的声学环境监视语音命令的方法，该方法包括当移动设备在低功率模式下操作时接收来自移动设备的环境的声学输入，基于在声学输入上执行多个处理阶段检测声学输入是否包括语音命令，其中多个处理阶段中的至少一个阶段是当移动设备在低功率模式下操作时执行的，并且该方法包括利用至少一个上下文线索来帮助检测声学输入是否包括语音命令。
[0009] -些实施例包括用指令编码的至少一个计算机可读介质，当指令在该至少一个处理器上被执行时，执行监视移动设备的声学环境以当移动设备在低功率模式下操作时接收来自移动设备的环境的声学输入的方法，该方法包括基于在声学输入上执行多个处理阶段检测声学输入是否包括语音命令，其中多个处理阶段中的至少一个阶段是当移动设备在低功率模式下操作时执行的，并且该方法包括利用至少一个上下文线索来帮助检测声学输入是否包括语音命令。
[0010] 一些实施例包括移动设备，该移动设备包括当移动设备在低功率模式下操作时接收来自移动设备的环境的声学输入的至少一个输入部，被配置为基于在声学输入上执行多个处理阶段检测声学输入是否包括语音命令及利用至少一个上下文线索来帮助检测声学输入是否包括语音命令的至少一个处理器，其中多个处理阶段中的至少一个阶段是当移动设备在低功率模式下操作时执行的。
[0011] -些实施例包括当移动设备在低功率模式下操作时对移动设备的声学环境监视语音命令的方法，该移动设备具有第一处理器和第二处理器，该方法包括当移动设备在低功率模式下操作时接收声学输入，在接合第二处理器来处理声学输入之前利用第一处理器在声学输入上执行至少一个第一处理阶段以评估声学输入是否包括语音命令，如果需要进一步的处理来确定声学输入是否包括语音命令，则利用第二处理器在声学输入上执行至少一个第二处理阶段以评估声学输入是否包括语音命令，及当或者该至少一个第一处理阶段或者该至少一个第二处理阶段确定声学输入包括语音命令时发起对语音命令的响应。
[0012] -些实施例包括存储有指令的至少一个计算机可读介质，当指令在至少一个处理器上被执行时，执行当移动设备在低功率模式下操作时监视移动设备的声学环境以接收来自移动设备的环境的声学输入的方法，该移动设备具有第一处理器和第二处理器，该方法包括在接合第二处理器来处理声学输入之前利用第一处理器在声学输入上执行至少一个第一处理阶段以评估声学输入是否包括语音命令，如果需要进一步的处理来确定声学输入是否包括语音命令，则利用第二处理器在声学输入上执行至少一个第二处理阶段以评估声学输入是否包括语音命令，及当或者该至少一个第一处理阶段或者该至少一个第二处理阶段确定声学输入包括语音命令时发起对语音命令的响应。
[0013] -些实施例包括移动设备，该移动设备包括当移动设备在低功率模式下操作时接收来自移动设备的环境的声学输入的至少一个输入部、在声学输入上执行至少一个第一处理阶段来评估声学输入是否包括语音命令的第一处理器、在声学输入上执行至少一个第二处理阶段来评估声学输入是否包括语音命令的第二处理器，其中该至少一个第一处理阶段是在接合第二处理器之前执行的，其中如果需要进一步处理来确定声学输入是否包括语音命令则执行该至少一个第二处理阶段，并且其中当或者该至少一个第一处理阶段或者该至少一个第二处理阶段确定声学输入包括语音命令时发起对语音命令的响应。
【附图说明】
[0014] 本申请的各个方面和实施例将参考以下附图进行描述。
[0015] 图1A示出了其上可以实现语音应答技术的示例性移动设备；
[0016] 图1B示出了其上可以实现语音应答技术的说明性移动设备的示例性系统组件；
[0017] 图2是示出根据一些实施例的在不利用显式触发的情况下确定从移动设备的环境中接收到的声学输入是否包括语音命令的方法的流程图；
[0018] 图3是示出根据一些实施例的用于确定从移动设备的环境中接收到的声学输入是否包括语音命令的多阶段处理方法的流程图；
[0019] 图4是示出根据一些实施例的用于利用至少一个第一处理阶段、后面跟着至少一个第二处理阶段来确定从移动设备的环境中接收到的声学输入是否包括语音命令的多阶段处理方法的流程图；
[0020] 图5是示出根据一些实施例的用于利用至少一个上下文线索确定从移动设备的环境中接收到的声学输入是否包括语音命令的方法的流程图；
[0021] 图6是示出根据一些实施例的用于利用多个处理器确定从移动设备的环境中接收到的声学输入是否包括语音命令的方法的流程图；
[0022] 图7A和7B示出根据一些实施例的用于在无需显式触发的情况下确定从移动设备的环境中接收到的声学输入是否包括语音命令的语音应答系统的例子；
[0023] 图8A和8B示出根据一些实施例的用于当移动设备在低功率模式下操作时确定从移动设备的环境中接收到的声学输入是否包括语音命令的语音应答系统的例子；
[0024] 图9示出根据一些实施例的包括能够访问一个或多个网络资源以帮助评定声学输入是否包括语音命令的移动设备的系统；及
[0025] 图10示出其上可以实现本文所描述技术的示例性计算机系统。
【具体实施方式】
[0026] 如以上所讨论的，常规的语音应答系统需要一个或多个显式触发来接合语音应答系统。"显式触发"在本文指接合语音应答系统所需的一个或多个特定的、指定的和预定的动作，并且包括手动触发（即，通过用户的手在移动设备上执行的动作）和显式的语音触发 (即，说出特定的，指定的单词或短语来接合语音应答系统）。
[0027] 发明人已认识到，如果用户可以简单地通过说出一个或多个期望的语音命令而无需发出一个或多个显式触发来与移动设备的语音应答系统交互，那么用户与移动设备的交互可以得到改善。术语"语音命令"在本文指从用户到语音应答系统的任何类型的可执行 (actionable)语音输入，包括但不限于语音请求（例如，"将我的医生预约安排在明天上午9点"、"给Tom打电话"、"提醒我今晚接孩子"、"请推荐附近的中国餐馆"、"搜索波士顿的景点"、"开始记录"，等等）、语音查询（例如，"最近的加油站在哪？"、"波士顿的温度是多少？ "、"我从这怎么到Mass Pike ? "、"我今天都安排了什么预约？"、"杯子里有多少个勺子？"，等等）、以及接合语音应答系统的显式语音触发（例如，"你好，Dragon"）。
[0028] 移动设备一般是电力受限的，因为人们常常期望它们用电池电源工作相对延长的时间段。为了节省电力，移动设备在一段时间不活动之后经常进入低功率模式（例如，睡眠或休眠模式）。低功率模式一般地指进入以节省电力的任何模式或状态，其通常需要一个或多个手动唤醒动作来退出（例如，来激活移动设备）。移动设备可以具有多于一个的低功率模式并且不同的移动设备在进入低功率模式时可以把不同的组件断电。但是，移动设备通常将具有低功率模式的一些变化，其常规地需要手动动作来退出低功率模式并转换到活动模式。
[0029] 进入低功率模式可以包括关闭显示屏、关闭一个或多个处理器（例如，禁用与一个或多个处理器相关联的时钟树）和/或去激活否则如果保持操作将会汲取电力的组件。在指定的时间间隔之后自动进入低功率模式可以显著地延长移动设备在需要充电之前可以用电池电源操作的时间段。鉴于在移动设备中节省电力的相对重要性，许多移动设备缺省为在关闭电源和进入睡眠之前有相对短的不活动持续时间，使得当用户想要访问移动设备上的功能时，移动设备会经常处于低功率模式。
[0030] 如以上所讨论的，在设备可以被使用之前，必须执行一个或多个手动动作来唤醒移动设备。常规的唤醒触发是手动的，因为它们需要用户的手来激活移动设备。虽然许多移动设备被设计为当某些事件发生时（例如，当接收到到来的电话呼叫时、当提醒或闹钟被设置并执行时）至少部分地唤醒，但是如果用户想要接合语音应答系统，用户一般必须执行适当的手动触发来实现用户发起的移动设备唤醒。这种手动触发会很不方便、恼人，并且/或者在一些情况下是禁止的（例如，当用户正在驾驶或用户的手被其它事情占用）。
[0031] 发明人已认识到，如果即使当移动设备在低功率模式下操作时用户也可以通过语音激活与移动设备接合，那么会得到用户体验改善。此外，发明人已认识到，语音激活功能在几乎任何情况下都可以便利与移动设备的免提交互，而与移动设备是正在活动模式或正在低功率模式（例如，睡眠模式）下操作无关。即，从移动设备的响应性角度来看，发明人已认识到提供语音激活功能的实用性，其通过监视声学环境使得移动设备看起来像是"永远开启（always-on)"（例如，无论设备是处于活动模式还是处于低功率模式，移动设备的语首应答系统都可以被语首启动或激活）。
[0032] 本文使用术语"永远开启"来描述当移动设备处于活动时和当设备已进入低功率模式时这两种情况下移动设备的语音应答系统对语音的一般响应能力（例如，当语音命令被说出时能够检测到）。为了实现这种"永远开启"功能，移动设备的声学环境可能需要在活动和低功率模式下都被监视以获得声学输入并确定声学输入是否包括语音命令或声音输入是否由于乱真声活动（spurious acoustic activity)导致。术语"乱真声活动"一般地指在移动设备的声学环境中检测到的、不对应于语音命令的任何声学活动（包括讲话），其中语音应答系统可以或者应该根据语音命令行动。
[0033] 根据一些实施例，移动设备的声学环境被监视，以当移动设备处于低功率模式时接收声学输入并检测声学输入何时包括语音命令。当移动设备被断电在低功率模式下时 (例如，当移动设备在睡眠或以其它方式处于常规地需要一个或多个唤醒动作的非活动状态时），使移动设备对语音响应存在挑战，尤其鉴于移动设备的相对严格的电力消耗约束。移动设备通常寄居在与其用户相同的嘈杂环境中。每当声学输入被移动设备接收到时（例如，当麦克风检测到声学活动时）就征用移动设备的相对功率密集型资源来评定是否已说出语音命令会使用足够大量的处理功率，从而抵消了最初将移动设备断电到低功率模式中所做的努力。
[0034] 发明人已认识到，当在接收到的声学输入上执行处理以确定声学输入是否包括语音命令时将电力消耗最小化到合理程度的重要性。为此，一些实施例利用分层级的方法来监视和处理声学输入，其首先对接收到的声学信息应用相对低功率的处理，并且根据需要应用通常较高功率的处理来评估声学信息包括语音命令的可能性。根据一些实施例，评估声学输入是否包括语音命令的多个处理阶段被执行，其中所述多个处理阶段中的至少一个后续阶段只有在一个或多个之前处理阶段不能断定声学输入对应于乱真声活动时才执行。
[0035] 实现可行的"永远开启"操作可以涉及试图一般地优化假阳性和假阴性率，同时在合理的程度上使功率保持在最小。根据一些实施例，对用于确定声学输入是否包括语音命令的这一个或多个处理阶段进行选择以试图避免过度包含，过度包含会导致可察觉到的电池寿命减少和/或移动设备响应于乱真声活动而频繁唤醒的滋扰，其中这两种结果中的任何一种都会使用户不满意。另一方面，过度排除会导致语音应答系统太频繁地丢失语音命令，使得移动设备被用户感觉到是不响应的。一些实施例包括设计为在这点上达到可接受的平衡的技术。
[0036] 发明人已认识到，考虑一个或多个上下文线索可以便于改善对声学信息是否包括语音命令的评定。术语"上下文线索"一般地指除了被评估为包含语音命令的特定声学输入的属性或特性之外的信息。例如，当用户准备说出语音命令时，用户会拿起其移动设备或使移动设备更靠近用户的嘴巴。因此，运动可以被用作上下文线索来影响声学输入是否可能包括语音命令的评估。可以被单独或以任何组合形式考虑的其它上下文线索包括（但不限于）移动设备的位置、一天中的时间、移动设备的电力状态、移动设备上发生的事件、移动设备上的最近活动、声学环境，等等。可以使用上下文线索来偏向一个或多个处理阶段、帮助选择和/或省略一个或多个处理阶段、作为处理阶段本身来操作，或以其它方式帮助确定声学输入是否包括语音命令，如下面进一步详细讨论的。
[0037] 如以上所讨论的，节省电力会是实现"永远开启"功能的重要组成部分。发明人已认识到，移动设备上的相对低功率的处理器（诸如辅助、专用和/或低功率处理器）可被用于执行一个或多个初始处理阶段来确定接收到的声学输入是否对应于乱真声活动，或者是否需要更高级别（并且通常更高功率）的处理来断定声学信息包括语音命令。如果一个或多个初始处理阶段不可以将声学输入作为乱真声活动丢弃，则可以接合移动设备的主处理器（例如，主中央处理单元（CPU))来执行一个或多个后续处理阶段。因此，由移动设备接收到的相对大量的声学输入可以被评估并识别为乱真声活动（并在其后被忽略），而无需激活主处理器，如下面进一步详细讨论的。
[0038] 本文描述了用于处理从监视移动电话的声学环境中获得的"声学输入"的多种示例性技术。不同的技术可以在声学输入被转换、减少、补充或以其它方式修改之前和之后的不同阶段处理声学输入。例如，一些处理阶段可以将技术应用到模拟形式的声学输入，而其它阶段可以处理以数字形式的声学输入。一些处理阶段可以在作为音频信号的声学输入上操作，而其它阶段可以在已至少部分地被识别为其构成单词的声学输入上操作。
[0039] 因此，"声学输入"一般地指从声学环境中接收到的信息或从中推导出的信息。当多个处理阶段被描述为处理给定的声学输入时，应当理解，由每个处理阶段操作的声学输入可以是不同的形式并包含不同的信息（或者可以是相同的形式并包含基本上相同的信息），因为当各个处理阶段在给定的声学输入上操作时，该给定的声学输入可能已经历了不同数量和类型的修改和处理。因此，除非另外明确地说明，否则声学输入一般地指它可以采取的任何形式。
[0040] 下面跟着的是关于用于实现接合语音应答系统的技术的方法和装置的各种概念及其实施例的更详细描述。应该理解，本文所描述的各个方面可以以任何多种方式来实现。本文提供的具体实现的例子仅仅用于说明的目的。此外，下面实施例中描述的各个方面可以被单独使用或以任意组合使用，并且不限于本文明确描述的组合。
[0041] 图1A示出了其上可以实现一个或多个语音激活技术的示例性移动设备。移动设备100被示为具有"智能电话"的若干组件特性，但是应当理解，移动设备100可以是能够无线通信和包括能够接收声学输入的输入部（例如，一个或多个麦克风）的任何一般的便携式设备。移动设备100包括一个或多个换能器130,用于将声能转换为电能，反之亦然。例如，换能器130可以包括布置在移动设备上的一个或多个扬声器和/或一个或多个麦克风，以允许声学信息的输入/输出（I/O)。不同的移动设备可以包括不同数量和布置的换能器，其中任何一个都可以适于便利声学I/O。
[0042] 移动设备100还可以包括一个或多个无线通信组件160。例如，诸如蜂窝电话的移动通信设备通常将具有能够与一个或多个蜂窝网络通信的无线收发器。另选地或附加地，无线通信组件160可以包括能够与一个或多个其它网络或外部设备通信的无线收发器。例如，无线通信组件160可以包括被配置为经IEEE 802. 11标准（Wi-Fi)通信的组件以连接到局域网（LAN)、诸如因特网的广域网（WAN)，和/或可以包括:||牙?:收发器以连接到兼容蓝牙?的设备。无线通信组件160还可以包括全球定位系统（GPS)来与卫星网络通信以确定移动设备的位置，或者可以包括一个或多个其它的无线通信收发器。
[0043] 为了简化示例性移动设备100的图示，无线通信组件160被用来表示在移动设备 100上实现的任何无线通信组件 160,并且可以包括一个或多个组件，这些组件可以是单独的或集成的组件、可以是独立的系统组件、或者可以是与一个或多个其它无线组件通信的不同系统组件。即，无线通信组件160表示可以在移动设备上实现的、允许移动设备100与一个或多个网络、系统和/或其它设备无线通信的组件中的一个或任意组合。
[0044] 移动设备100还可以包括用于向用户可视地呈现信息的显示器110。显示器110 也可以被配置为输入设备，例如通过响应触摸、笔输入等。移动设备100可以包括允许用户与移动设备交互的一个或多个其它输入组件120。例如，按钮120a可以用来当移动设备已进入诸如睡眠模式的低功率模式时发起对移动设备的唤醒和/或当移动设备活动时可以用作选择按钮或可以包括任何其它功能。按钮120b可以是电源按钮、音量按钮、或具有任何期望功能的任何其它输入组件。取决于移动设备的设计，不同的移动设备可以具有不同数量和布置的输入组件120。
[0045] 移动设备100还可以包括其它组件，诸如一个或多个相机150、一个或多个发光二极管（LED) 170、一个或多个运动检测器（在下面进一步详细讨论）和/或任何其它组件。移动设备100还可以包括用于将移动设备连接到电源（例如，墙上电源）的电源端口 190 和/或用于向/从经数据电缆连接的另一个设备提供/接收数据的数据端口。根据一些移动设备设计

完整全部详细技术资料下载

当前第1页1 2 3 4 5 6

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：V·塞吉诺哈;P·A·范马尔伯戈特;G·E·威尔逊;W·F·伽侬;
技术所有人：纽昂斯通讯公司;
我是此专利的发明人