嘈杂环境下电子设备的语音唤醒方法与流程

文档序号：17973048发布日期：2019-06-21 23:37阅读：380来源：国知局

本发明涉及语音识别技术领域，具体地，涉及一种嘈杂环境下电子设备的语音唤醒方法，尤其涉及一种提高双麦克风阵列设备在嘈杂环境下语音唤醒率的方法。

背景技术：

语音唤醒是指用户通过说出唤醒词来唤醒电子设备，使电子设备进入到等待语音指令的状态。比如语音唤醒应用于家电上，这样用户不需要手动操作即可控制家电了。

目前双麦阵列的语音智能家电，语音唤醒是这样实现的，待唤醒时，180度拾音，不做波束形成，用户说唤醒词后，通过双麦麦阵计算出说话者角度，然后对此角度做增强波束计算，对波束内的声音做语音增强，并对波束以外的声音进行抑制，再将增强波束计算后的录音送到语音识别引擎计算，语音识别后，释放波束角度，等待再次唤醒。例如专利文献cn108389587a公开的一种基于语音唤醒技术的语音增强器，包括由两个以上麦克风组成的麦克风阵列、用于将所述麦克风阵列拾取的语音进行信号放大处理的放大模块、用于将所述放大后的语音信号进行取样处理的动态信号取样模块；还包括用于将动态信号取样的语音信号进行设定音框的线性差异处理模块、用于将经过线性差异处理后的语音信号进行滤波处理的自适应滤波模块、用于增强滤波后的语音信号的语音增强模块、用于确定音源位置的tdoa计算模块及网络通信模块。

此方法虽然可以对唤醒后的录音做波束降噪，但是待唤醒时由于释放了波束角度，并没有做波束降噪，所以周围有一些噪音或者有人说话时，会大幅降低语音唤醒率。另外由于双麦声源定位的角度不够准确，会导致唤醒后波束降噪反而会抑制说话者的声音，语音识别计算准确率反而下降。

技术实现要素：

针对现有技术中的缺陷，本发明的目的是提供一种嘈杂环境下电子设备的语音唤醒方法。

根据本发明提供的一种嘈杂环境下电子设备的语音唤醒方法，利用带有n组语音输入组件的电子设备，包括录音步骤、录音处理步骤、唤醒判断步骤以及语音识别步骤；

录音步骤：利用本地的语音输入组件，接收并录制设定的音频作为第一信号；

声学处理步骤：对第一信号进行声学预处理，并将声学预处理得到的结果作为第二信号；

唤醒判断步骤：根据第二信号按照设定的方法计算唤醒参数，并判断唤醒参数是否属于设定唤醒集合，若唤醒参数属于设定唤醒集合，则进入语音识别步骤，若唤醒参数不属于设定唤醒集合，则返回录音步骤；

语音识别步骤：将属于设定唤醒集合的唤醒参数对应的第二信号发送至语音识别模块，并按照设定的方法进行语音识别；

其中，n为不小于2的整数；所述预处理包括增强波束计算；所述增强波束计算是指在某个指定角度，形成定向拾音波束，即对指定角度的波束内的声音做语音增强，并对波束以外的声音进行抑制。

优选地，所述语音输入组件包括麦克风阵列；所述语音识别模块设置在本地和/或云端。

优选地，所述录音步骤还包括使用者角度计算子步骤；

使用者角度计算子步骤：n组语音输入组件分别采集n组录音，并将这n组录音分别记为mi，i＝1,2…n，根据mi录音的时间差和相位差计算使用者角度a0。

优选地，所述声学处理步骤还包括增强计算子步骤；

增强计算子步骤：将设定的拾音区域分为l个波束区域，并将这l个波束区域分别记为dj，j＝1,2…l，分别选取dj范围内的中心角度值dj′作为dj的代表角度，n组录音mi分别对l个波束区域代表角度dj′做指定角度增强波束计算，得到对应于l个波束区域代表角度dj′的l个增强信号sj。

优选地，所述唤醒判断步骤还包括唤醒识别子步骤；

唤醒识别子步骤：根据对应于l个波束区域代表角度dj′的l个增强信号sj，通过设定的方法分别求出l个唤醒识别计算时的识别分值fj，取fj的最大值fmax作为唤醒参数，若fmax≥f，则判断为已唤醒并进入语音识别步骤，若fmax<f，则判断结果为未唤醒并返回录音步骤；

其中，f为设定的唤醒识别阈值。

优选地，所述语音识别步骤还包括使用者角度确定子步骤；

使用者角度确定子步骤；判断使用者角度a0是否属于fj的最大值fmax所对应的波束区域djmax，如果a0∈djmax，则输出a0作为确定的使用者角度a，否则，则将波束区域djmax的代表角度djmax′作为更新后确定的使用者角度a。

优选地，所述语音识别步骤还包括识别语音预优化子步骤；

识别语音预优化子步骤：将n组语音输入组件分别采集的n组录音mi，针对确定的使用者角度a做指定角度的增强波束，得到第三信号，并将第三信号发送至语音识别模块按照设定的方法进行语音识别。

根据本发明提供的一种嘈杂环境下电子设备的语音唤醒系统，利用带有n组语音输入组件的电子设备，包括录音模块、录音处理模块、唤醒判断模块以及语音识别模块；

录音模块：利用本地的语音输入组件，接收并录制设定的音频作为第一信号；

声学处理模块：对第一信号进行声学预处理，并将声学预处理得到的结果作为第二信号；

唤醒判断模块：根据第二信号按照设定的方法计算唤醒参数，并判断唤醒参数是否属于设定唤醒集合，若唤醒参数属于设定唤醒集合，则进入语音识别模块，若唤醒参数不属于设定唤醒集合，则返回录音模块；

语音识别模块：将属于设定唤醒集合的唤醒参数对应的第二信号发送至语音识别模块，并按照设定的方法进行语音识别；

其中，n为不小于2的整数；所述预处理包括增强波束计算；所述增强波束计算是指在某个指定角度，形成定向拾音波束，即对指定角度的波束内的声音做语音增强，并对波束以外的声音进行抑制)。

优选地，所述语音输入组件包括麦克风阵列；所述语音识别模块设置在本地和/或云端；

所述录音模块还包括使用者角度计算子模块；

使用者角度计算子模块：n组语音输入组件分别采集n组录音，并将这n组录音分别记为mi，i＝1,2…n，根据mi录音的时间差和相位差计算使用者角度a0；

所述声学处理模块还包括增强计算子模块；

增强计算子模块：将设定的拾音区域分为l个波束区域，并将这l个波束区域分别记为dj，j＝1,2…l，分别选取dj范围内的中心角度值d′j作为dj的代表角度，n组录音mi分别对l个波束区域代表角度d′j做指定角度增强波束计算，得到对应于l个波束区域代表角度d′j的l个增强信号sj；

所述唤醒判断模块还包括唤醒识别子模块；

唤醒识别子模块：根据对应于l个波束区域代表角度dj′的l个增强信号sj，通过设定的方法分别求出l个唤醒识别计算时的识别分值fj，取fj的最大值fmax作为唤醒参数，若fmax≥f，则判断为已唤醒并进入语音识别模块，若fmax<f，则判断结果为未唤醒并返回录音模块；

其中，f为设定的唤醒识别阈值；

所述语音识别模块还包括使用者角度确定子模块；

使用者角度确定子模块；判断使用者角度a0是否属于fj的最大值fmax所对应的波束区域djmax，如果a0∈djmax，则输出a0作为确定的使用者角度a，否则，则将波束区域djmax的代表角度d′jmax作为更新后确定的使用者角度a；

所述语音识别模块还包括识别语音预优化子模块；

识别语音预优化子模块：将n组语音输入组件分别采集的n组录音mi，针对确定的使用者角度a做指定角度的增强波束，得到第三信号，并将第三信号发送至语音识别模块按照设定的方法进行语音识别。

根据本发明提供的一种存储有计算机程序的计算机可读存储介质，所述计算机程序被处理器执行时实现上述的嘈杂环境下电子设备的语音唤醒方法的步骤。

与现有技术相比，本发明具有如下的有益效果：

1、本发明提供的嘈杂环境下电子设备的语音唤醒方法，具有步骤简便、计算量小、唤醒率高的优点；

2、本发明提供的嘈杂环境下电子设备的语音唤醒方法，能够解决嘈杂环境下、或者多人说话时语音唤醒率过低的问题；

3、本发明提供的嘈杂环境下电子设备的语音唤醒方法，能够解决双麦声源定位角度不够准确，唤醒后波束降噪抑制说话者的声音，使得语音识别计算准确率反而下降的问题。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明提供的嘈杂环境下电子设备的语音唤醒方法优选例的第一流程示意图；

图2为本发明提供的嘈杂环境下电子设备的语音唤醒方法优选例的波束区域分解示意图；

图3为本发明提供的嘈杂环境下电子设备的语音唤醒方法优选例的第二流程示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

录音步骤：利用本地的语音输入组件，接收并录制设定的音频作为第一信号；

声学处理步骤：对第一信号进行声学预处理，并将声学预处理得到的结果作为第二信号；

语音识别步骤：将属于设定唤醒集合的唤醒参数对应的第二信号发送至语音识别模块，并按照设定的方法进行语音识别；

具体地，所述语音输入组件包括麦克风阵列；所述语音识别模块设置在本地和/或云端。所述录音步骤还包括使用者角度计算子步骤；

使用者角度计算子步骤：n组语音输入组件分别采集n组录音，并将这n组录音分别记为mi，i＝1,2…n，根据mi录音的时间差和相位差计算使用者角度a0。

所述声学处理步骤还包括增强计算子步骤；

所述唤醒判断步骤还包括唤醒识别子步骤；

其中，f为设定的唤醒识别阈值。

所述语音识别步骤还包括使用者角度确定子步骤；

更具体地，所述语音识别步骤还包括识别语音预优化子步骤；

录音模块：利用本地的语音输入组件，接收并录制设定的音频作为第一信号；

声学处理模块：对第一信号进行声学预处理，并将声学预处理得到的结果作为第二信号；

语音识别模块：将属于设定唤醒集合的唤醒参数对应的第二信号发送至语音识别模块，并按照设定的方法进行语音识别；

所述语音输入组件包括麦克风阵列；所述语音识别模块设置在本地和/或云端；

所述录音模块还包括使用者角度计算子模块；

使用者角度计算子模块：n组语音输入组件分别采集n组录音，并将这n组录音分别记为mi，i＝1,2…n，根据mi录音的时间差和相位差计算使用者角度a0；

所述声学处理模块还包括增强计算子模块；

所述唤醒判断模块还包括唤醒识别子模块；

其中，f为设定的唤醒识别阈值；

所述语音识别模块还包括使用者角度确定子模块；

所述语音识别模块还包括识别语音预优化子模块；

进一步地，本发明的优选例涉及到语音处理领域，针对上述语音唤醒时出现的两个问题，在待唤醒时的语音唤醒的录音也做波束降噪，同时修正双麦声源定位时角度不准，从而大幅提高双麦克风阵列设备在嘈杂环境下的语音唤醒率。本发明优选例的技术方案中，双麦麦阵180度拾音，180度分为三个波束区域，分别为波束区域d1、d2、d3，每个拾音波束区域对应60°的范围。指定角度增强波束是指在某个指定角度，形成定向拾音波束，对波束内的声音做语音增强，并对波束以外的声音进行抑制，可以大幅提升远场拾音质量，抑制周围的噪音。

更进一步地，本发明的优选例技术方案包括如下步骤：

1、将双麦180度拾音区域，分为3个波束区域(如图2所示，对应的角度范围：d1为0～60度，d2为60～120度，d3为120～180度)，将3个波束中心角度(即30度、90度、150度)分别作为d1、d2、d3对应的代表角度d1′、d2′、d3′。

2、说话者说出语音唤醒词时，双麦阵列计算出说话者角度a0，并将两路录音分别去做3个波束中心角度(30度、90度、150度)的增强波束计算，输出的3个增强信号s1、s2以及s3，再送到语音唤醒引擎计算，输出3个唤醒识别分值f1、f2、f3，取出最高的那个唤醒识别分值fmax。

3、如果最高唤醒识别分值大于等于唤醒识别阈值，则判为唤醒，如果此最高唤醒识别分值低于唤醒识别阈值，则判为未唤醒。判为唤醒时。如果说话者角度a0在此唤醒识别分值对应的波束区域的角度范围内，则输出a0角度，如果a0不在此唤醒识别分值对应的波束区域的角度范围内，则输出唤醒识别分值对应的波束中心角度。

4、双麦的两路录音对输出的角度做增强波束计算，将处理后的录音送到语音识别引擎计算。语音识别计算后，再释放波束角度，进入待唤醒状态。

上述第2点，比如说话者在波束区域d2，周围噪音或者有人说话在波束区域d1，说话者的唤醒录音做说话者所在波束区域d2中心角度(90度)的增加波束计算后，周围噪音基本可以被抑制，说话者的声音会被增强，在唤醒识别计算中，唤醒识别分值肯定是三个增加波束计算后录音中最高的，确保能被唤醒。

如果双麦麦阵做声源定位时的说话者角度a0不够准确，比如说话者在波束区域d2，声源定位到波束区域d1，在上述第3点，说话者角度a0不在唤醒识别分值对应的波束区域的角度范围(60～120度)内，系统会舍弃掉a0角度，输出说话者所在波束区域d2中心角度90度。

在本申请的描述中，需要理解的是，术语“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请的限制。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：朱建强
技术所有人：上海华镇电子科技有限公司
我是此专利的发明人

上一篇：灾害信息支援系统以及灾害信息支援方法与流程
上一篇：一种复合防身智能系统及其工作方法与流程