经由间歇采样的低功率音频触发器的制造方法

文档序号：7799023阅读：147来源：国知局

经由间歇采样的低功率音频触发器的制造方法
【专利摘要】本发明涉及经由间歇采样的低功率音频触发器。系统和方法可提供在定期检测窗口的第一部分期间使用移动装置的音频前端从音频信号获得采样音频，并且在该定期检测窗口的第二部分期间降低音频前端的一个或多个部件的功耗。另外，可至少部分基于采样音频做出关于在音频信号中是否存在语音活动的确定。在一个示例中，第一部分的长度和第二部分的长度由定期检测窗口的占空比限定。
【专利说明】经由间歇采样的低功率音频触发器

【技术领域】
[0001]实施例大体上涉及移动装置。更特定地，实施例涉及使用低功率语音触发器来发起与移动装置的交互。

【背景技术】
[0002]移动装置的免提操作在例如车载操作和与残疾相关的使用场景等多种背景下可有关。然而，在免提设置中发起移动装置交互可提出许多挑战。例如，常规技术方案可指定预先设置的激活短语(例如，“喂计算机”)，其实现基于话语的用户界面用于进一步交互，其中可对音频连续采样以供短语识别器分析直到检测到激活短语。这样的方法可增加功耗并且对电池寿命具有负面影响。

【专利附图】

【附图说明】
[0003]实施例的各种优势将通过阅读下列说明书和附上的权利要求并且通过参考下列图而对本领域内技术人员变得明显，其中:
图1是根据实施例的语音触发器架构的示例的框图；
图2是根据实施例对于多种帧大小的语音触发器准确性vs.语音活动检测器始发持续时间的示例的标绘图；
图3是根据实施例发起与移动装置的交互的方法的示例的流程图；
图4是根据实施例的移动装置的示例的框图。

【具体实施方式】
[0004]现在转向图1，示出低功率语音触发器架构24。该架构24大体上可用于在免提设置中(例如，在用户不按压按钮或用别的方式触碰移动装置的情况下)实现与移动装置的语音交互始发的检测。在图示的示例中，音频前端10包括麦克风12、模数(A/D)转换器14、存储器16、语音活动检测器(VAD) 18和短语识别器20。如将更详细论述的，例如定期检测窗口等窗口可由对于架构24的功率管理模块22 (例如，其包括功率管理逻辑)建立，其中该定期检测窗口具有占空比，其限定定期检测窗口的活跃部分(例如，采样帧)和定期检测窗口的不活跃部分(例如，丢弃帧)。特别要注意的是，不活跃部分可对移动装置实现很大的功率节省和延长的电池寿命。
[0005]更特定地，在定期检测窗口的活跃部分期间，音频前端10可用于从麦克风12捕获的音频信号获得采样音频。在这样的情况下，A/D转换器14可以特定采样速率(例如，每秒X个样本)对音频信号采样来获得对于定期检测窗口的每个活跃部分/采样帧的采样音频(例如，N毫秒的音频数据)。
[0006]另一方面，在定期检测窗口的不活跃部分期间，音频前端10可放弃音频信号的任何采样并且功率管理模块22可降低音频前端10的一个或多个部件的功耗。例如，在定期检测窗口的不活跃部分期间，功率管理模块22可对麦克风12、A/D转换器14、语音活动检测器18和/或短语识别器20断电，使存储器16处于自刷新模式，等。从而，前端10可持续奇数N毫秒地对音频信号采样，然后持续偶数N毫秒地“睡眠”(在每个定期检测窗口期间)。特别要注意的是，降低在定期检测窗口的不活跃部分期间音频前端10的部件的功耗可明显延长移动装置的电池寿命。
[0007]在一个示例中，可在确定采样帧(S卩，定期检测窗口的活跃部分)和丢弃帧(S卩，定期检测窗口的不活跃部分)的长度时考虑与加电和掉电操作关联的开销。例如，采样帧的长度(例如，采样帧长度)可选为充分地大于与音频前端10的加电操作关联的任何开销持续时间以便确保能量节省不被本文描述的占空循环方法所无效。相似地，丢弃帧的长度(例如，丢弃帧长度)可选为充分大于与音频前端10的掉电操作关联的任何开销持续时间。在这方面，根据情况，定期检测窗口的占空比可以是50%，或某其他值。例如，如果掉电开销相对于加电开销是低的，占空比可能增加到大于50%的值以便增加采样帧长度并且进一步优化功率节省。
[0008]采样音频可在存储器16中缓冲，其中图示的语音活动检测器18至少部分基于采样音频来确定在音频信号中是否存在语音活动。从而，图示的语音活动检测器18可基于在定期检测窗口的活跃部分期间获得的奇数N毫秒帧来做出活动决策。如果检测到语音活动，短语识别器20可分析采样音频来确定在音频信号中是否存在预先设置的激活短语。
[0009]图2示出对于多种采样帧大小的语音触发器准确性vs.VAD始发持续时间的标绘图26。VAD始发持续时间可对应于缓冲存储器的大小，例如用于存储根据如本文描述的占空比获得的采样音频的存储器16 (例如，缓冲量)。在图示的示例中，标绘图26证明对于多至40毫秒的采样帧大小以及多至160毫秒的始发持续时间，准确性下降可以是能接受的(例如，在2%内)。
[0010]现在转向图3，示出发起与移动装置交互的方法30。该方法30可在移动装置中实现为一组逻辑指令，其存储在例如随机存取存储器(RAM)、只读存储器(ROM)、可编程ROM(PR0M)、固件、闪速存储器等机器或计算机可读存储介质中，在例如可编程逻辑阵列(PLA)、现场可编程门阵列(FPGA)、复杂可编程逻辑装置(CPLD)等可配置逻辑中，在使用例如专用集成电路(ASIC)、互补金属氧化物半导体(CMOS)或晶体管-晶体管逻辑(TTL)技术等电路技术的固定功能性逻辑硬件中，或其任何组合。例如，用于实施在方法30中示出的操作的计算机程序代码可用一个或多个编程语言的任何组合来编写，包括例如Java、Smalltalk、C++或类似物等面向对象编程语言以及例如“C”编程语言或相似的编程语言等常规的程序化编程语目。
[0011]图示的处理框32在定期检测窗口的第一部分期间使用移动装置的音频前端从音频信号获得采样音频。音频前端的一个或多个部件的功耗可在框34在定期检测窗口的第二部分期间降低，其中可在框36至少部分基于采样音频做出关于在音频信号中是否存在语音活动的确定。如果是这样的话，图示的框38继续对音频信号采样(例如，中止占空比采样)以便提高短语检测目的的准确性。否则，过程可重复直到检测到语音活动。
[0012]图4示出移动装置40。该移动装置40可以是具有计算功能性(例如，个人数字助理/PDA、膝上型电脑、智能平板电脑)、通信功能性(例如，无线智能电话)、成像功能性、媒体播放功能性(例如，智能电视/TV)或其任何组合(例如，移动互联网装置/MID)的平台的部分。在图示的示例中，装置40包括用于向装置40提供电力的电池58和具有集成存储器控制器aMC) 44的处理器42，该集成存储器控制器aMC) 44可与系统存储器46通信。系统存储器46可包括例如动态随机存取存储器(DRAM)，其配置为一个或多个存储器模块，例如双直列存储器模块(DIMM)、小型DIMM (SODIMM)，等。
[0013]图示的装置40还包括输入输出(1)模块48，有时称为芯片集的南桥，其起到主机装置的作用并且可与例如音频编解码器50、麦克风52、一个或多个扬声器54以及大容量存储56 (例如，硬盘驱动器/HDD、光盘、闪速存储器，等)通信。音频编解码器50、麦克风52、1模块48等可以是例如已经论述的音频前端10(图1)等音频前端的部分。图示的处理器62 (其可起到与例如功率管理模块22 (图1)等功率管理模块相似的作用)可执行逻辑60，其配置成在定期检测窗口的第一部分期间使用音频前端从音频信号获得采样音频。该逻辑60还可在定期检测窗口的第二部分期间降低音频前端的一个或多个部件的功耗，并且至少部分基于采样音频确定在音频信号中是否存在语音活动。逻辑60可备选地在处理器42外部实现。另外，处理器42和1模块48可共同在相同的半导体晶片上实现为芯片上系统(SoC)。
[0014]额外的注意和示例:
示例一可包括移动装置，其具有用于对该移动装置供电的电池、音频前端和用于在定期检测窗口的第一部分期间使用该音频前端从音频信号获得采样音频的逻辑。该逻辑还可在定期检测窗口的第二部分期间降低音频前端的一个或多个部件的功耗，并且至少部分基于采样音频确定在音频信号中是否存在语音活动。
[0015]另外，示例一的移动装置可包括功率管理模块，其至少部分包括该逻辑。
[0016]示例二可包括这样的设备，其具有在定期检测窗口的第一部分期间使用移动装置的音频前端从音频信号获得采样音频的逻辑。该逻辑还可在定期检测窗口的第二部分期间降低音频前端的一个或多个部件的功耗，并且至少部分基于采样音频确定在音频信号中是否存在语音活动。
[0017]另外，第一部分的长度和第二部分长度要由示例一或二中的窗口的占空比限定。另外，第一部分大于与音频前端的一个或多个加电操作关联的第一开销持续时间并且第二部分大于与音频前端的一个或多个掉电操作关联的第二开销持续时间。另外，示例一或二的逻辑可以一定采样速率对音频信号采样来获得采样音频。另外，示例一或二的逻辑可将采样音频存储到音频前端的存储器。另外，如果在音频信号中存在语音活动，示例一或二的逻辑可持续对音频信号采样。另外，在示例一或二中，可在窗口的第二部分期间降低麦克风、语音活动检测器、模数转换器、存储器和短语识别器中的一个或多个的功耗。
[0018]示例三可包括非暂时性计算机可读存储介质，其具有指令集，指令如果被处理器执行则促使移动装置在定期检测窗口的第一部分期间使用移动装置的音频前端从音频信号获得采样音频。指令如果被执行还可促使移动装置在定期检测窗口的第二部分期间降低音频前端的一个或多个部件的功耗，并且至少部分基于采样音频确定在音频信号中是否存在语音活动。
[0019]另外，第一部分的长度和第二部分的长度可由示例三中的窗口的占空比限定。另夕卜，示例三的第一部分可大于与音频前端的一个或多个加电操作关联的第一开销持续时间并且示例三的第二部分可大于与音频前端的一个或多个掉电操作关联的第二开销持续时间。另外，示例三的指令如果被执行则可促使移动装置以一定采样速率对音频信号采样来获得采样音频。另外，示例三的指令如果被执行则可促使移动装置将采样音频存储到音频前端的存储器。另外，如果在音频信号中存在语音活动，示例三的指令如果被执行则可促使移动装置持续对音频信号采样。另外，在示例三中，麦克风、语音活动检测器、模数转换器、存储器和短语识别器中的一个或多个的功耗可在窗口的第二部分期间被降低。
[0020]示例四可牵涉计算机实现的方法，其中移动装置的音频前端用于在定期检测窗口的第一部分期间从音频信号对音频采样。该方法还可提供在定期检测窗口的第二部分期间降低音频前端的一个或多个部件的功耗，并且至少部分基于采样音频确定在音频信号中是否存在语音活动。
[0021]另外，在示例四的方法中，第一部分的长度和第二部分的长度可由窗口的占空比限定。另外，在示例四的方法中，第一部分可大于与音频前端的一个或多个加电操作关联的第一开销持续时间并且第二部分可大于与音频前端的一个或多个掉电操作关联的第二开销持续时间。另外，示例四的方法可进一步包括以一定采样速率对音频信号采样来获得采样音频。另外，在示例四的方法中，麦克风、语音活动检测器、模数转换器、存储器和短语识别器中的一个或多个的功耗可在窗口的第二部分期间降低。
[0022]从而，本文描述的技术可对针对语音触发检测采用待命模式操作的移动装置实现更长的电池寿命。因此，免提操作在例如车载操作(例如，更大的安全性)和与残疾相关的使用场景等多种背景下得到明显增强。
[0023]实施例能适用于与所有类型的半导体集成电路(“1C”)芯片一起使用。这些IC芯片的示例包括但不限于处理器、控制器、芯片集部件、可编程逻辑阵列(PLA)、存储器芯片、网络芯片/芯片上系统(SoC)、SSD/NAND控制器ASIC及类似物。另外，在图中的一些中，信号导线用线表示。一些可以不同来指示更多的组成信号路径、具有数字标签来指示许多组成信号路径和/或在一个或多个端处具有箭头来指示主要的信息流方向。然而，这不应以限制性的方式解释。相反，这样的附加细节可连同一个或多个示范性实施例一起使用以便于更容易地理解电路。任何表示的信号线，无论是否具有额外的信息，实际上可包括可在多个方向上行进并且可用任何适合类型的信号方案(例如用差分对、光纤线和/或单端线实现的数字或模拟线)实现的一个或多个信号。
[0024]可已经给出示例尺寸/模型/值/范围，但本发明的实施例不限于此。当制造技术(例如光刻)随时间而成熟时，预期可以制造具有较小尺寸的设备。另外，为了简化说明和论述，并且为了不掩盖实施例的某些方面，众所周知的到IC芯片和其他部件的电力/接地连接可在或可不在图内示出。此外，设置可采用框图形式示出以便避免掩盖实施例，并且还基于的事实是，关于这样的框图设置的实现的细节高度取决于实现实施例所在平台(即，这样的细节应该完全在本领域内技术人员的视野内)。在阐述特定细节(例如，电路)以便描述示例实施例的情况下，可以在没有这些特定细节或具有这些特定细节的变化形式的情况下实践实施例，这对本领域内技术人员应该是明显的。从而本描述被视为说明性而非限制性的。
[0025]术语“耦合”可在本文中用于指谈论的部件之间的任何类型的关系(直接或间接)，并可适用于电、机械、流体、光、电磁、机电或其他连接。另外，术语“第一”、“第二”等在本文中仅用于便于论述，并且不具有特定时间或时间顺序的意义，除非另外指出。
[0026]本领域内技术人员将从前面的描述意识到实施例的广泛技术可以以多种形式实现。因此，尽管实施例已经连同其特定示例描述，实施例的真正范围不应这样受限制，因为当研究图、说明书和下面的权利要求时其他修改将对技术人员变得明显。
【权利要求】
1.一种用于发起交互的移动装置，其包括: 电池，用于对所述移动装置供电；音频前端；以及逻辑，用于在窗口的第一部分期间使用所述音频前端从音频信号获得采样音频；在所述窗口的第二部分期间降低所述音频前端的一个或多个部件的功耗；以及至少部分基于采样音频确定在所述音频信号中是否存在语音活动。
2.如权利要求1所述的移动装置，其中所述第一部分的长度和所述第二部分的长度由所述窗口的占空比限定。
3.如权利要求1所述的移动装置，其中所述第一部分大于与所述音频前端的一个或多个加电操作关联的第一开销持续时间，并且所述第二部分大于与所述音频前端的一个或多个掉电操作关联的第二开销持续时间。
4.如权利要求1所述的移动装置，其中所述逻辑用于以一定采样速率对所述音频信号采样来获得采样音频。
5.如权利要求1-4中任一项所述的移动装置，其中所述音频前端包括麦克风、语音活动检测器、模数转换器、存储器和短语识别器中的一个或多个。
6.一种用于发起交互的设备，其包括: 逻辑，用于在窗口的第一部分期间使用移动装置的音频前端从音频信号获得采样音频；在所述窗口的第二部分期间降低所述音频前端的一个或多个部件的功耗；以及至少部分基于采样音频确定在所述音频信号中是否存在语音活动。
7.如权利要求6所述的设备，其中所述第一部分的长度和所述第二部分的长度由所述窗口的占空比限定。
8.如权利要求6所述的设备，其中所述第一部分大于与所述音频前端的一个或多个加电操作关联的第一开销持续时间，并且所述第二部分大于与所述音频前端的一个或多个掉电操作关联的第二开销持续时间。
9.如权利要求6所述的设备，其中所述逻辑用于以一定采样速率对所述音频信号采样来获得采样音频。
10.如权利要求6所述的设备，其中所述逻辑用于将所述采样音频存储到所述音频前端的存储器。
11.如权利要求6所述的设备，其中如果在所述音频信号中存在语音活动则所述逻辑连续对所述音频信号采样。
12.如权利要求6-11中任一项所述的设备，其中在所述窗口的第二部分期间降低麦克风、语音活动检测器、模数转换器、存储器和短语识别器中的一个或多个的功耗。
13.一种用于发起交互的移动装置，其包括: 用于在窗口的第一部分期间使用所述移动装置的音频前端从音频信号获得采样音频的部件；用于在所述窗口的第二部分期间降低所述音频前端的一个或多个部件的功耗的部件；以及用于至少部分基于采样音频确定在所述音频信号中是否存在语音活动的部件。
14.如权利要求13所述的移动装置，其中所述第一部分的长度和所述第二部分的长度由所述窗口的占空比限定。
15.如权利要求13所述的移动装置，其中所述第一部分大于与所述音频前端的一个或多个加电操作关联的第一开销持续时间，并且所述第二部分大于与所述音频前端的一个或多个掉电操作关联的第二开销持续时间。
16.如权利要求13所述的移动装置，其进一步包括用于以一定采样速率对所述音频信号采样来获得采样音频的部件。
17.如权利要求13所述的移动装置，其进一步包括用于将所述采样音频存储到所述音频前端的存储器的部件。
18.如权利要求13所述的移动装置，其进一步包括用于如果在所述音频信号中存在语音活动则连续对所述音频信号采样的部件。
19.如权利要求13-18中任一项所述的移动装置，其中在所述窗口的第二部分期间降低麦克风、语音活动检测器、模数转换器、存储器和短语识别器中的一个或多个的功耗。
20.一种用于发起交互的计算机实现的方法，其包括: 在窗口的第一部分期间使用移动装置的音频前端从音频信号对音频采样；在所述窗口的第二部分期间降低音频前端的一个或多个部件的功耗；以及至少部分基于采样音频确定在所述音频信号中是否存在语音活动。
21.如权利要求20所述的方法，其中所述第一部分的长度和所述第二部分的长度由所述窗口的占空比限定。
22.如权利要求20所述的方法，其中所述第一部分大于与所述音频前端的一个或多个加电操作关联的第一开销持续时间，并且所述第二部分大于与所述音频前端的一个或多个掉电操作关联的第二开销持续时间。
23.如权利要求20所述的方法，其进一步包括以一定采样速率对所述音频信号采样来获得采样音频。
24.如权利要求20-23中任一项所述的方法，其中在所述窗口的第二部分期间降低麦克风、语音活动检测器、模数转换器、存储器和短语识别器中的一个或多个的功耗。
【文档编号】H04M1/60GK104050973SQ201410096722
【公开日】2014年9月17日申请日期:2014年3月17日优先权日:2013年3月15日
【发明者】L.克里斯纳默斯, M.E.戴舍尔, F.M.塔拉佩, P.R.达特塔申请人:英特尔公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：L.克里斯纳默斯;M.E.戴舍尔;F.M.塔拉佩;P.R.达特塔
技术所有人：英特尔公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。