一种低功耗语音唤醒方法及装置与流程

文档序号：19178996发布日期：2019-11-20 00:48阅读：581来源：国知局

本发明涉及语音技术领域，尤其涉及一种低功耗语音唤醒方法及装置。

背景技术：

随着技术的不断进步和发展，能源的可再生逐步为人们所重视。为了减少对能源的消耗，通常很多设备都会设置一种功耗较低的待机模式，或休眠模式，当用户不使用该设备时，设备便可进入到待机模式或休眠模式中。不同于普通的工作模式，在这类模式下，设备仅保持较低的功耗，当用户需要使用设备时，设备会从上述模式中进行唤醒进入到正常的工作模式中。

目前，随着语音唤醒技术的兴起，越来越多的设备都搭载了语音唤醒装置或语音唤醒模块，当用户需要对设备进行唤醒时，仅需发出对应的语音，由语音唤醒装置或模块接收该语音信息，并根据语音信息对设备进行唤醒操作。然而，在实际应用中，为了及时接收用户的语音对设备进行唤醒，语音唤醒装置需要一直保持工作状态，功耗较大。这样，就导致用户在进行语音唤醒的过程中，搭载了语音唤醒装置的设备实际功耗较大。

中国专利201510549435.6，提供一种语音唤醒方法及装置。该方法包括：对音频信号进行周期性采样，其中，在ti时刻采样得到采样信号；计算采样信号的音频能量；在音频能量大于或等于ti时刻的第一阈值时，唤醒dsp进行语音激活检测vad；当vad检测失败，且在ti时刻之前已连续n次检测失败，以及第一噪声能量与ti时刻的第一阈值的差值大于预设的第一门限值时，根据第一噪声能量生成第二阈值，并将第二阈值作为ti+1时刻的第一阈值，其中，第一噪声能量是通过以第一抽取率1/x对采样信号进行抽取，并对抽取出的采样点进行慢速跟踪滤波得到。本发明实施例可以减少进行vad的次数，实现终端在嘈杂环境下功耗的降低。

中国专利201910118663.6，公开了一种用语音直接唤醒处于深度休眠状态的系统一种解决方案。在电池供电的系统或是有低功耗需求的应用系统中，在主控系统没有处于工作状态时，需要主控系统处于低功耗待机状态，尽可能的降低系统的待机功耗电流，如是电池供电系统可以极大的延长系统待机时间；如是其它低功耗要求的系统，在系统待机时尽可能减少系统待机对系统其它功能或性能的影响。当他们需要语音唤醒时，需要直接用语音信号唤醒系统，然后让系统进入正常的工作状态。

上述现有技术存在技术过于复杂、制造成本高，或技术过于简单、难以实施等问题，因此提供一种易于实施、成本低的低功耗语音唤醒方法及装置，是待以解决的技术问题。

技术实现要素：

为了解决实现上述语音唤醒功能功耗较大的问题，本发明提供一种低功耗语音唤醒方法及装置，主要目的在于减少智能设备的非工作模式的实际功耗。

为解决上述技术问题，本发明提供一种低功耗语音唤醒方法，具体为：

设置采集模块、判断模块和输出模块；采集模块和判断模块、判断模块和输出模块分别电相连，采集模块包含两颗高灵敏度麦克风；

语音唤醒方法的步骤为：

1)在智能主机非工作状态，实时监听环境声音，当用户说话时，采集模块采集用户说出的语音信息，并输入到判断模块；

2)判断模块对采集的语音信息与预置的唤醒指令进行比较，判断是否包含唤醒指令；

3)如果包含指令，则向输出模块发送唤醒信号，输出模块通过硬件接口发送唤醒信号到智能主机，唤醒主机。

进一步，采集模块及判断模块采用低功耗专用数字信号处理芯片。

进一步，所述低功耗专用数字信号处理芯片，是专用的人机交互/音频处理芯片，芯片集成高性能低功耗的audiocodecip核、电源管理模块，codecip是一个低功耗、灵活和高度集成的立体声音频编解码器ip。ip支持立体声adc与麦克风或线输入，立体声dac与耳机播放。

进一步，所述电源管理模块，采用了基于多电源域和多时钟域的低功耗设计技术，保证了soc芯片的低功耗。

进一步，预置的所述的唤醒指令为默认唤醒指令或用户自定义唤醒指令。

进一步，所述用户自定义唤醒指令设置的具体步骤为：

1)在智能主机安装上安装控制app；

2)在智能主机工作状态，将语音唤醒装置连接到智能主机，主机端自动调出控制app；

3)根据app界面提示，输入唤醒指令保存。

进一步，唤醒智能主机后，语音唤醒指令接受智能主机软件命令，持续采集并对声音进行消噪等语音增强处理后发送给智能主机进行进一步识别处理。

本发明一种低功耗语音唤醒装置，为实施上述任一低功耗语音唤醒方法的装置。

进一步，所述语音唤醒装置与智能主机的通信是通过智能主机的硬件接口，硬件接口支持usb接口、type-c接口、lightning接口。

进一步，所述语音唤醒装置采用智能主机硬件接口或者内置电池供电，不依赖于联网的智能主机的任何功能或者能力，离线工作，采集的语音信息不需要上传到智能主机，以保护用户的隐私。

消噪采用双麦克风降噪算法，具体步骤为：

1）设置前、后放置的2颗麦克风进行语音采集；前置麦克的为主麦克，主要负责语音的采集和喷麦噪声的检测；后置麦克为辅助麦克，主要负责喷麦噪声补偿和背景噪声的采集；

2）语音输入时，前置麦克和后置麦克同时拾音，分别获取时域语音数据t1和t2；

3）分别对前置麦克风和后置麦克风的时域语音数据进行频域加窗和傅里叶变换处理，获取频域语音数据f1和f2：

4）对前置麦克和后置麦克的频域语音数据计算自相关谱psd和互相关谱cpsd；

5）采用自相关谱psd和互相关谱cpsd运算相关性函数，用来判断前置麦克的频域语音数据和后置麦克的频域语音数据的相关性；

6）采用相关性函数估计信噪比函数snr，当相关性高时，气质和后置麦克的相关性高、估计信噪比函数的值高；而当相关性函数相关性低，估计信噪比函数估计值低；并用估计信噪比函数计算增益函数；

7）采用增益函数对前置麦克风的频域语音数据进行增益调整，获得降噪后的前置麦克风的频域语音数据；降噪后的频域语音数据进行逆傅里叶变换，将频域语音数据变换成时域语音数据；最终输出降噪后的时域语音数据；

8）分析步骤3）前置麦克的频域语音数据f1，如其属于20-4000hz频段频域、量大而且均匀无衰减的类型，则确定频域语音数据f1属于喷麦噪声；用后置麦克的频域语音数据f2替换原前置麦克的喷麦语音数据，完成对前置麦克喷麦噪声的修复。

本发明硬件结构简单，非工作状态时智能主机可以深度休眠，降低了功耗，节约了能源。

附图说明

图1为本发明应用实施例结构示意图；

图2为低功耗语音唤醒方法工作流程图；

图3为本发明低功耗语音唤醒装置结构框架图。

具体实施方式

下面，参考附图，对本发明进行更全面的说明，附图中示出了本发明的示例性实施例。然而，本发明可以体现为多种不同形式，并不应理解为局限于这里叙述的示例性实施例。而是，提供这些实施例，从而使本发明全面和完整，并将本发明的范围完全地传达给本领域的普通技术人员。

为了易于说明，在这里可以使用诸如“上”、“下”“左”“右”等空间相对术语，用于说明图中示出的一个元件或特征相对于另一个元件或特征的关系。应该理解的是，除了图中示出的方位之外，空间术语意在于包括装置在使用或操作中的不同方位。例如，如果图中的装置被倒置，被叙述为位于其他元件或特征“下”的元件将定位在其他元件或特征“上”。因此，示例性术语“下”可以包含上和下方位两者。装置可以以其他方式定位（旋转90度或位于其他方位），这里所用的空间相对说明可相应地解释。

如图1、图2所示，本发明一种低功耗语音唤醒方法，包括以下步骤；

1、在智能主机非工作状态，采集模块监听环境声音，实时监听环境声音，持续录音，采集环境音频信号。当用户说话时，采集模块采集用户说出的语音信息，并输入到判断模块。

采用双麦克风降噪方法采集周围环境音频信号，以获得较为精准的可识别语音。

该步骤中，同时采用消噪采用双麦克风降噪算法，具体步骤为：

2）语音输入时，前置麦克和后置麦克同时拾音，分别获取时域语音数据t1和t2；

3）分别对前置麦克风和后置麦克风的时域语音数据进行频域加窗和傅里叶变换处理，获取频域语音数据f1和f2：

4）对前置麦克和后置麦克的频域语音数据计算自相关谱psd和互相关谱cpsd；

5）采用自相关谱psd和互相关谱cpsd运算相关性函数，用来判断前置麦克的频域语音数据和后置麦克的频域语音数据的相关性；

具体实施时，我们准备20000条音频文件来对本发明中采集模块的神经网络进行训练。分别提取10000条人声音频文件、非人声音频文件作为训练的基础音频文件，这些20000条音频文件均是2-10秒的音频文件。

10000条人声音频文件包括音频相对稳定的人声、包含情绪等音频波动较大的人声。10000条非人声音频文件为日常生活中常见的声音，如野外环境声、嘈杂的城市环境声、超市环境声、暴雨环境声、鸟叫环境声、拥挤的交通环境声、建筑工地环境声等等。所有的音频文件的采样率都是16000hz。

2、判断模块对采集的语音信息与预置的唤醒指令进行比较，判断是否包含唤醒指令。

唤醒指令为人声信号，因此，根据预设规则，判断音频信号是否为人声信号。其中，根据预设规则，判断音频信号是否为人声信号，包括以下步骤；

（1）通过前、后放置的2颗麦克风采集第一音频信号。

前置麦克风和后置麦克风分别获取时域语音数据，采样率为16000hz，即每秒16000个时域语音数据，我们分每帧128个语音数据进行处理，即每次取128个时域语音数据进行背景噪声降噪。该部分获得输出是时域语音数据t1和t2，分别对t1和t2进行延迟相加和延迟相减获得t_add和t_sub，其中t_add用于主信号增强，而t_sub用于参考噪声估计。对音频信号进行频谱分析或者提取声学特征，获取第一音频信号的第一特征值。例如。人说出的语音信号中大于800hz的部分会按大约6db/倍频的程度衰减，该特征值可作为识别人声的一个技术参数。

（2）对第一音频信号进行分帧处理，获得至少3个单帧音频信号。

对第一音频信号进行分帧。将语音信号在时间域上被分为若干个小段，每一小段称为一帧。对于每一帧内的语音信号，可以看作是较为平稳的信号。通常一帧语音的长度为10毫秒到30毫秒。分别对每一帧内的语音信号的时域语音数据进行频域加窗和傅里叶变换处理，获取频域语音数据。加窗运算选择的是汉宁窗，对每帧128个乘以汉宁窗系数，用来防止后面时频转换时发生频谱混叠，傅里叶变换是时域数据到频域数据的转换，具体算法实现中我们采用快速傅里叶变换(fft)，以减少硬件的负担。

（3）通过前、后放置的2颗麦克风采集第二音频信号。

第二音频信号对第一音频信号的频域增益进行修正。采用增益函数对麦克风的频域语音数据进行增益调整，获得降噪后的主信号麦克风的频域语音数据。该部分的输入是主信号频域语音数据和增益函数，输出是降噪后的频域语音数据。

上述预置的唤醒指令可以是默认的指令，也可以用户自定义。如果采用用户自定义预置唤醒指令具体步骤为：

（1）在智能主机安装上安装控制app；

（2）在智能主机工作状态，将语音唤醒装置连接到智能主机，主机端自动调出控制app；

（3）根据app界面提示，输入唤醒指令保存。

3、如果包含指令，则向输出模块发送唤醒信号，输出模块通过硬件接口发送唤醒信号到智能主机，唤醒主机。

检测单帧音频信号频谱与人声信号的频谱是否一致，若一致，则音频信号为人声信号。

将上述单帧信号的频谱与人声信号的频谱进行比较，检测单帧信号频谱是否在人声信号的频谱范围之内，若在这一范围内，则包含该单帧信号的音频信号为人声。如：人声频谱为6-10，当检测的单帧音频信号频谱为9时，则确定相应的语音信号为人声信号。

本发明中，采集模块及判断模块采用低功耗专用数字信号处理芯片。该低功耗专用数字信号处理芯片，是专用的人机交互/音频处理芯片，芯片集成高性能低功耗的audiocodecip核、电源管理模块，codecip是一个低功耗、灵活和高度集成的立体声音频编解码器ip。立体声音频编解码器ip支持立体声adc与麦克风或线输入，立体声dac与耳机播放。所述的电源管理模块，采用了基于多电源域和多时钟域的低功耗设计技术，保证了soc芯片的低功耗。

如图3所示，一种实施上述低功耗语音唤醒方法的低功耗语音唤醒装置，包括包含采集模块300、判断模块310和输出模块320；采集模块和判断模块、判断模块和输出模块分别电相连，采集模块包含两颗高灵敏度麦克风。本发明低功耗语音唤醒装置与智能主机的通信是通过智能主机的硬件接口，接口支持usb接口，type-c接口，lightning接口等类型。进一步，唤醒智能主机后，语音唤醒指令接受智能主机软件命令，持续采集并对声音进行消噪等语音增强处理后发送给智能主机进行进一步识别处理。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：姚嘉;高永泽;任金平;马琪
技术所有人：杭州微纳科技股份有限公司
我是此专利的发明人