从低功率始终侦听模式到高功率语音识别模式的转换的制作方法

文档序号：9932713阅读：626来源：国知局

从低功率始终侦听模式到高功率语音识别模式的转换的制作方法
【技术领域】
[0001 ]本文所描述的实施例一般涉及将计算设备从低功率和/或低功能状态转换到较高功率和/或较高功能状态。更特别地，所公开的实施例涉及使用低功率语音触发来无缝地发起主处理器从低功率和/或低功能状态到其中可以执行多通道语音识别的较高功率状态和/或较高功能状态的转换。
【背景技术】
[0002]语音识别一般地在计算设备中，并且特别地在诸如智能电话、平板电脑和膝上型计算机之类的移动计算设备中正在变得普遍。目前，发起语音识别应用通常要求用户操纵致动器(例如按动按钮)并且在用户能够说出命令(诸如“今天天气如何?”)之前等待指示计算设备准备好侦听的提示(例如音频音调和/或用户接口显示麦克风)。换言之，当前语音识别是多步过程，包括由用户的发起步骤，接着是由计算设备的提示步骤之前的停顿。只有在提示步骤之后用户才能够继续进行以提供命令和/或以其它方式与计算设备的语音识别应用对接。
【附图说明】
[0003]图1是根据一个实施例的计算设备的示意图。
[0004]图2是根据一个实施例的数字信号处理器的示意图。
[0005]图3是根据一个实施例的计算设备的关系图。
[0006]图4A和4B是根据一个实施例的将计算设备从低功率模式转换到较高功率模式的方法的流程图。
【具体实施方式】
[0007]目前，为了发起计算设备上的语音识别应用，利用多步过程。例如，首先，要求用户操纵致动器(例如按动按钮)或说出触发短语以警告和/或唤醒主处理器语音识别功能，并且其次，在用户能够说出命令或以其它方式与计算设备的语音识别功能对接之前，用户必须等待计算设备提供指示计算设备准备好侦听的提示。此示例过程至少包括由用户的发起步骤，接着是由计算设备的提示步骤。在提示步骤之后，用户可以继续进行以提供命令和/或以其它方式与计算设备的语音识别功能对接。
[0008]本发明人已经认识到，语音识别的多步发起是麻烦且不自然的。用户体验受等待计算设备转换到较高功能模式并且提供提示以指示准备好施行语音识别的时间所影响。所公开的实施例提供主处理器和/或计算设备从低功能模式(其可以是低功率模式和/或有限特征模式)到高功能模式(其可以是其中可以完成单通道和/或多通道音频处理和完整词汇语音识别的较高功率模式和/或较高特征模式)的无缝、单步和语音触发的转换。所公开的实施例通过使得实现系统从低功能模式到高功能模式的单步(或“一次性(one-shot)”)无缝转换来使得实现更加自然的语音交互。
[0009]在某些实施例中，低功能模式是低功率模式。低功率模式可以包括低功率始终侦听功能。在某些这样的实施例中，低功能模式还可以是有限特征模式，其中主处理器的某些特征是不活动的或者以其它方式是不可用的。在其它实施例中，低功能模式是有限特征模式，其中主处理器的某些特征是不活动的或者以其它方式是不可用的。在某些实施例中，高功能模式是高(或较高)功率模式和/或较高特征模式，其中相比于在低功能模式中，主处理器的更多特征是活动的或者以其它方式可操作。高功能模式可以包括大词汇语音识别功會K。
[0010]所公开的实施例可以在主处理器处于低功能模式中时通过低功率音频处理器来捕获第一音频样本。低功率音频处理器可以识别第一音频样本中的预定的音频模式(pattern)(例如唤醒短语，诸如“嗨助理”)。低功率音频处理器可以在识别到预定的音频模式时，触发主处理器转换到高功能模式。跟随预定的音频模式的端点的第一音频样本的端部可以被拷贝或以其它方式被存储在主处理器可访问的系统存储器中。后续音频样本或第二音频样本被捕获并且被与第一音频样本的端部一起存储在系统存储器中。一旦主处理器唤醒并且从低功能模式转换到高功能模式，则第一音频样本和第二音频样本的端部可以由主处理器在高功能模式中处理。高功能模式中的主处理器可以执行完整词汇语音识别以识别命令并且基于所检测的命令执行功能并且以其它方式能够实现语音交互。
[0011]图1是根据一个实施例的计算设备100的示意图。计算设备100包括主处理器102、低功率音频处理器104或其它专用硬件、一个或多个音频输入106(例如麦克风或麦克风端口)、音频输出108(例如扬声器或扬声器端口)和存储器110。计算设备100可以是移动设备，诸如智能电话、平板电脑、膝上型电脑、超极本?、个人数字助理等。在其它实施例中，计算设备100还可以是台式计算机、多合一或可穿戴设备(例如手表)。在又一实施例中，计算设备100可以是机动车的仪表盘单元或其它处理单元。计算设备100可以被配置成使得在处于低功率和/或低功能状态中的时实现语音识别应用的无缝或一步激活。
[0012]主处理器102可以是计算设备100的中央处理单元(CPU)或应用处理器，或者可以是任何类型的处理器，诸如微处理器、嵌入式处理器、数字信号处理器(DSP)、网络处理器或执行代码的其它设备。主处理器102可以包括一个或多个处理元件或核。主处理器102具有低功能模式(例如低功率模式或状态和/或低功能模式或状态)，诸如待机模式、休眠模式、或睡眠模式，其可以在例如主处理器102未被使用时节省功率和电池寿命。主处理器102还可以具有一个或多个较高功能模式(例如较高功率模式或状态和/或较高功能模式或状态)，诸如操作模式或全功率模式，其中主处理器102可以执行指令以执行例如计算和/或数据处理任务。例如，主处理器102可以被激活或触发以从低功能模式醒来(或“唤醒”)并且可以能够执行大词汇语音识别。如可以被认识到的，主处理器102可以能够执行其它计算任务，诸如媒体内容回放。
[0013]低功率音频处理器104可以是第二处理器(或其它硬件)，其以比主处理器102的(多个)高功能模式更少的功率进行操作。低功率音频处理器104可以是数字信号处理器。低功率音频处理器104可以检测预定的音频模式的说出并且触发主处理器102从低功能模式转换到高功能模式。低功率音频处理器104可以使得实现从低功能模式和低功率小词汇语音识别到高功能模式和完整词汇语音识别的单个步骤和/或无缝转换。
[0014]低功率音频处理器104可以配置成对通过音频输入106接收(诸如经由麦克风)的音频信号进行采样。麦克风可以是板载麦克风(例如板载计算设备100)或可以是经由音频输入端口 106耦合到计算设备100的另一设备(诸如耳机)的麦克风。
[0015]低功率音频处理器104可以存储来自音频信号的音频样本。音频样本可以被存储在低功率音频处理器104的存储设备(例如缓冲器)中。例如，低功率音频处理器104可以包括紧密耦合的静态随机存取存储器(SRAM)。作为另一示例，低功率音频处理器104的存储设备可以是数据紧密耦合存储器(DCCM)。循环缓冲器(circular buffer)可以被配置在存储设备中并且可以在低功率音频处理器104对音频信号进行采样时恒定地写入和盖写有音频样本。在其它实施例中，音频样本可以被存储在低功率音频处理器104外部和/或以其它方式对主处理器102可访问的存储器110中。
[0016]—检测到噪声，低功率音频处理器104就可以发起低功率语音识别模式以分析或以其它方式处理音频样本以识别预定的音频模式。预定的音频模式可以是语音触发或者预配置的唤醒短语。例如，语音触发或唤醒短语可以是“嗨助理”。预定的音频模式可以由用户可配置。系统可以识别的预定的音频模式的数目可能是有限的，使得低功率音频处理器104仅需要执行小词汇语音识别并且不需要执行大词汇语音识别。例如，低功率音频处理器104可以能够识别预定的音频模式的小集合，诸如五个语音触发。识别此小集合的预定音频模式之一的小词汇语音识别可以利用有限量的处理和/或功率来完成。除了限制预定音频模式的数目之外或者作为对其的替换，预定的音频模式可以消耗的时间量可以例如被限制到大约两秒。可以在应用层处强加限制以确保到达硬件的音频样本可用来完成低功率语音识另O。例如，当终端用户说道“嗨助理”作为唤醒短语时，音频样本的第一集合的持续时间可以被限制到两秒。
[0017]一旦检测到预定的音频模式，低功率音频处理器104就可以触发主处理器102以唤醒或者从低功能模式转换到高功能模式。低功率音频处理器104继续捕获音频样本。可以激活另外的音频输入106，诸如另外的板载麦克风。在主处理器102和/或计算设备100唤醒并且从低功能模式转换到高功能模式所花费的时段期间，可以发生预处理。预处理可以包括声学回波消除、噪声抑制等以净化音频样本并且从而增强大词汇语音识别。在预定音频模式的端点之后的第一音频样本的部分和第二音频样本可以被冲刷(flush)到系统存储器110。例如，第二音频样本和第一音频样本的端部可以被拷贝到系统存储器110中的环形缓冲器。
[0018]存储器110对主处理器102可访问。根据一个实施例，系统存储器110可以包括双数据速率同步动态随机存取存储器(DDR SDRAD0
[0019]一旦主处理器102已经转换到高功能模式，预定音频模式被低功率音频处理器104检测到的通知就可以被主处理器接收。通知可以经由中断、过程间通信(IPC)、门铃寄存器或

完整全部详细技术资料下载

当前第1页1 2 3 4

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：S.夏;B.R.皮布勒;F.M.萨拉佩尔;S.达杜;P-L.博萨;D.沃雷尔;E.贾姆萨拉根;I.L.辛;R.A.尤雷加;S.纳拉塞兰;M.S.乔世;O.法利克;
技术所有人：英特尔公司;
我是此专利的发明人

上一篇：音频信号的频谱的频谱系数的编码的制作方法
上一篇：用于话语检测的包络比较的制作方法