对带麦克风阵列的设备进行语音控制的方法及设备与流程

文档序号：12787774阅读：228来源：国知局

导航： X技术> 最新专利>乐器;声学设备的制造及制作,分析技术

本发明涉及语音交互技术领域，特别涉及一种对带麦克风阵列的设备进行语音控制的方法和一种带麦克风阵列的设备。

背景技术：

随着智能技术的发展，很多厂商开始考虑在智能产品上设置语音识别功能等，例如，要求电脑、手机、音响、家电等产品支持无线连接、远程控制和语音交互等。

然而，在语音交互上，由于产品设计缺陷，回声干扰以及远场使用场景下的环境噪声和混响的干扰等，导致产品对语音指令识别率低下，不能及时响应用户的指令，交互体验差。

技术实现要素：

本发明实施例提供了一种对带麦克风阵列的设备进行语音控制的方法和一种带麦克风阵列的设备，以解决现有方案造成的语音指令正确识别率差、交互体验差问题。

为达到上述目的，本发明实施例的技术方案是这样实现的：

一方面，本发明实施例提供了一种对带麦克风阵列的设备进行语音控制的方法，该方法包括：

确认设备处于音频播放状态；

判断音频播放状态下对设备造成干扰的干扰声，根据该干扰声的特征选取设备采用的语音增强方式；

实时检测用户的语音，当检测到唤醒词时，控制设备停止音频播放；

判断音频停止后对设备造成干扰的干扰声，根据该干扰声的特征调整设备采用的语音增强方式；以及

获取来自用户的命令词，控制设备执行相应功能，对用户作出应答。

又一方面，本发明实施例提供了一种带麦克风阵列的设备，该设备包括：

状态确认单元，用于确认设备处于音频播放状态；

语音增强单元，用于判断音频播放状态下对设备造成干扰的干扰声，根据该干扰声的特征选取设备采用的语音增强方式；

检测控制单元，用于实时检测用户的语音，当检测到唤醒词时，控制设备停止音频播放；

所述语音增强单元，还用于判断音频停止后对设备造成干扰的干扰声，根据该干扰声的特征调整设备采用的语音增强方式；以及

功能执行单元，用于获取来自用户的命令词，控制设备执行相应功能，对用户作出应答。

由上，本发明实施例的技术方案，一方面对设备的语音环境和使用特点进行分析，将语音增强分为两个阶段，以唤醒词为分界点，在检测到唤醒词之前和检测到唤醒词之后针对不同的声音环境分别采用不同的语音增强方式，提高语音增强的效果，从而能更准确、及时地检测到用户的语音指令；又一方面本实施例在检测到唤醒词时，判断出用户此时有了新的需求，控制设备停止当前音频，等待用户的新指令，不但有助于进一步提高新指令的识别率，而且符合用户的使用习惯，产品设计更加人性化，具有较佳的用户体验。

附图说明

图1为本发明一个实施例提供的一种对带麦克风阵列的设备进行语音控制的方法流程示意图；

图2为本发明又一个实施例提供的一种带麦克风阵列的设备的结构示意图；

图3为本发明又一个实施例提供的又一种带麦克风阵列的设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

本发明一个实施例提供了一种对带麦克风阵列的设备进行语音控制的方法，参见图1，该方法包括如下步骤：

S100：确认设备处于音频播放状态。

示例性的，当检测到设备当前正在播放音乐时，可以确认设备处于音频播放状态

S101：判断音频播放状态下对设备造成干扰的干扰声，根据该干扰声的特征选取设备采用的语音增强方式。

S102：实时检测用户的语音，当检测到唤醒词时，控制设备停止音频播放。例如，通过设备中的麦克风阵列采集用户的语音，对采集到的语音进行分析和特征提取，判断是否存在唤醒词。

S103：判断音频停止后对设备造成干扰的干扰声，根据该干扰声的特征调整设备采用的语音增强方式。

S104：获取来自用户的命令词，控制设备执行相应功能，对用户作出应答。

图1中示出的步骤执行次序只是一种示例，本实施例并不局限于图1，例如，步骤S102和S103可以同时进行，而步骤S102中的实时检测用户的语音，可以在执行步骤S100至S104的同时持续进行。

在图1所示实施例的基础上，进一步的，步骤S101和S103中可以根据干扰声的类型和干扰声的方向来选取设备采用的语音增强方式。

上述步骤S100至S104可以由设置在设备中的内部装置执行，也可以由设置在设备外部的独立装置执行。

对本发明又一实施例提供的技术方案进行说明，包括下述步骤：

S200：确认设备处于音频播放状态。

示例性的，当检测到设备当前正在播放音乐时，可以确认设备处于音频播放状态

S201：判断音频播放状态下对设备造成干扰的干扰声，根据该干扰声的特征选取设备采用的语音增强方式。

当设备在播放音频时，考虑对语音识别造成较大干扰的因素是回声，回声的存在导致语音被淹没。

在确认干扰声的类型为语音后，通过消除回声来提高语音识别率；则本实施例先计算回声的方向，如通过计算回声在麦克风阵列中各个麦克风间的延时来获取回声的方向，选取波束成形(Beamforming)方式，并按照回声的方向调整麦克风阵列的参数来消除回声带来的干扰。对如何利用波束成形消除回声的具体方法本实施例不作具体限定。

进一步的，本实施例还提供了波束成形和自适应消除两级联合消除回声干扰的方案，这种级联的处理方式至少包括如下两种：

第一种方式：

在确认干扰声为回声后，首先采用波束成形方式消除回声，即计算回声的方向，按照回声的方向调整麦克风阵列的参数，利用调整后的参数对设备采集到声音的执行波束成形处理得到第一级处理信号；

然后，对第一级处理信号执行自适应回声消除处理，得到最后的消除回声后的语音信号。

第二种方式：

在确认干扰声为回声后，首先对设备采集到的声音信号采用自适应回声消除方式消除回声，得到第一级处理信号；然后，再采用波束成形方式，按照回声的方向调整麦克风阵列的参数，利用调整后的参数对第一级处理信号执行波束成形处理得到最后的消除回声后的语音信号。

S202：实时检测用户的语音，当检测到唤醒词时，控制设备停止音频播放。

通过设备上的麦克风实时采集用户的语音信号，对语音信号进行检测，判断是否存在唤醒词，这种对用户语音的检测操作可以在设备运行的过程始终进行。

本实施例中的唤醒词，或称之为热词，用于唤醒设备以执行相应功能。通过预先将唤醒词(以及命令词)设置在设备中，并告知用户，使用户能够通过唤醒词发送语音命令控制设备；也可以由用户自行设定唤醒词(以及命令词)，设备接收用户输入的信息，获知所使用的唤醒词(以及命令词)。

本实施例中会建立唤醒词与相应控制逻辑的对应关系，例如，该控制逻辑包括控制设备停止音频播放，这种控制方式是由于当检测到唤醒词时，判断用户产生了新的需求，将音频停掉不仅有助于清晰采集到后续用户即将发出的命令词，且停止音频本身即是对用户指令的一种响应，符合人类交流的一般习惯，能产生较好的用户体验。另外，在停止音频时，还可以控制设备上作出其他响应，例如控制设备的朝向用户的指示灯闪烁，或对可移动设备，控制设备正面转动至朝向用户的方向，控制设备向用户移动等等。

上述控制逻辑还包括当确认检测到唤醒词时，在控制设备停止音频播放之前，不再识别其他命令，不对来自用户的语音命令进行识别和处理。音频停止后，再启动语音的识别和处理操作，等待接收用户的命令。这种处理方式进一步保证了有效地语音识别。

S103：判断音频停止后对设备造成干扰的干扰声，根据该干扰声的特征调整设备采用的语音增强方式。

在设备停止音频播放后，考虑对语音识别造成较大干扰的因素是环境噪声和混响，即确认这时的干扰声类型为环境噪声和混响，通过消除环境噪声和混响来提高语音识别率，则本实施例先计算环境噪声的方向，如通过计算环境噪声在麦克风阵列的各个麦克风间的延时来获取环境噪声的方向，将设备采用的语音增强方式调整为噪声和混响消除模式，并按环境噪声的方向调整麦克风阵列的参数，来消除环境噪声和混响带来的干扰。对于如何在噪声和混响消除模式下消除干扰，可以采用现有的方案，本实施例不进行严格限定。

需要说明的是，混响的方向是不能计算出的，本实施例通过抑制环境噪声的方向的波束成形，能够达到同时抑制混响的技术效果

S104：获取来自用户的命令词，控制设备执行相应功能，对用户作出应答。

命令词包括控制设备自带功能的命令，如控制设备中喇叭的音量播放大小的命令，控制设备移动的命令，还可以包括控制设备中安装的应用程序的命令，但不局限于此。

由于相对于唤醒词，命令词数目多，内容复杂，为了降低设备负担，提高识别精度，本实施例对命令词采用云端处理的方式。在设备停止音频后，采集用户在唤醒词之后发出的语音信号；将语音信号传输至云端服务器，由云端服务器对该语音信号进行特征匹配，由匹配成功的语音信号得到命令词；接收云端服务器返回的命令词，根据该命令词控制设备执行相应功能，以对用户进行相应应答。

由上，本实施例根据对唤醒词的识别，将语音增强分为两个处理阶段,设备中的麦克风阵列分别采用不同的处理方式，提高了语音命令的识别率。

本发明又一个实施例提供了一种带麦克风阵列的设备200，参见图2，该设备200包括：

状态确认单元211，用于确认设备处于音频播放状态；

语音增强单元212，用于判断音频播放状态下对设备造成干扰的干扰声，根据该干扰声的特征选取设备采用的语音增强方式；

检测控制单元213，用于实时检测用户的语音，当检测到唤醒词时，控制设备停止音频播放；

语音增强单元212，还用于判断音频停止后对设备造成干扰的干扰声，根据该干扰声的特征调整设备采用的语音增强方式；以及

功能执行单元214，用于获取来自用户的命令词，控制设备执行相应功能，对用户作出应答。

在图2所示实施例的基础上，语音增强单元212根据干扰声的类型和干扰声的方向来选取设备采用的语音增强方式。具体地，语音增强单元212判断音频播放状态下对设备造成干扰的干扰声为回声；获取回声的方向；选取波束成形方式，并按照回声的方向调整麦克风阵列的参数来消除回声带来的干扰；具体的，语音增强单元212获取干扰声的方向时，通过计算干扰声在麦克风阵列的各麦克风间的延时来计算干扰声(如回声或环境噪声)的方向。

在此操作的基础上，当采用波束成形和自适应滤波联合消除回声的方案时，语音增强单元212还用于在选取波束成形方式，并按照回声的方向调整麦克风阵列的参数来消除回声带来的干扰得到第一级处理信号后，对第一级处理信号执行自适应回声消除；或者，在选取波束成形方式，并按照回声的方向调整麦克风阵列的参数来消除回声带来的干扰之前，对干扰声执行自适应回声消除得到第一级处理信号，再根据回声的方向调整麦克风阵列的参数消除第一级处理信号中的干扰。

以及，语音增强单元212判断音频停止后对设备造成干扰的干扰声为环境噪声和混响；获取环境噪声的方向；将设备采用的语音增强方式调整为噪声和混响消除模式，并按环境噪声的方向调整麦克风阵列的参数，来消除环境噪声和混响带来的干扰。

参见图3，功能执行单元214包括采集模块2141，传输模块2142和执行模块2143。

采集模块2141采集用户在唤醒词之后发出的语音信号。在功能执行单元214中可以单独设置采集模块2141，或者，功能执行单元214可以调用检测控制单元213中的检测功能来采集用于的语音信号。

传输模块2142将所述语音信号传输至云端服务器，由云端服务器对该语音信号进行特征匹配，由匹配成功的语音信号得到命令词，并接收云端服务器返回的命令词；

执行模块2142根据该命令词控制设备执行相应功能，以对用户进行相应应答。

带麦克风阵列的设备200可以为智能便携终端或智能家电，智能便携终端至少包括智能手表、智能手机或智能音响；智能家电至少包括智能电视、智能空调或智能充电插座，但并不局限于此。

本发明设备实施例中各单元的具体工作方式，可以参见本发明方法实施例的相关内容，在此不再赘述。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李波;楼厦厦
技术所有人：北京第九实验室科技有限公司
我是此专利的发明人