一种语音唤醒方法及装置与流程

文档序号：12475906阅读：208来源：国知局

导航： X技术> 最新专利>乐器;声学设备的制造及制作,分析技术

本发明涉及语音识别技术领域，尤其涉及一种语音唤醒方法及装置。

背景技术：

目前，在对语音唤醒功能的唤醒词进行识别时，是采用深度学习算法对用户输入的整个语音信息进行识别，计算量比较大，耗时长。

技术实现要素：

本发明实施例提供一种语音唤醒方法及装置，用以减少语音唤醒的计算量，从而使语音唤醒方法能应用于存在低计算资源限制的语音设备中。

根据本发明实施例的第一方面，提供一种语音唤醒方法，包括：

获取输入的当前语音信息对应的当前音频帧特征序列信息；

将所述当前音频帧序列信息与目标唤醒词对应的目标声学模型序列信息进行强制对齐处理，以从所述当前音频帧序列信息中定位出与所述目标声学模型序列信息中的每个音素对应的音频帧的范围；

计算每个音频帧的范围中每个音频帧的声学似然评分，并从所述每个音频帧的范围中选取出符合预设要求的预设数量的目标音频帧；

根据使用深度神经网络建模的声学模型和目标音频帧对应的特征信息，确定所述当前语音信息属于所述目标唤醒词的置信度；

根据所述置信度确定是否允许唤醒所述语音唤醒功能。

在该实施例中，将当前语音帧特征序列信息与目标唤醒词对应的目标声学模型序列进行对齐强制处理，进而从所述当前音频帧序列信息中定位出与所述目标声学模型序列信息中的每个音素对应的音频帧的范围，并从该范围中选取出预设数量的目标音频帧，通过使用深度神经网络建模的声学模型和目标音频帧的特征信息确定当前语音信息属于目标唤醒词的置信度，进而确定是否唤醒语音唤醒功能。这样，有效地减少了语音唤醒的计算量，从而能应用于存在低计算资源限制的语音设备中。

在一个实施例中，将所述当前音频帧序列信息与目标唤醒词对应的目标声学模型序列信息进行强制对齐处理，以从所述当前音频帧序列信息中定位出与所述目标声学模型序列信息中的每个音素对应的音频帧的范围，包括：

将所述当前音频帧序列信息与使用子空间聚类高斯混合方法对所述目标唤醒词进行建模得到的目标声学模型序列信息进行强制对齐处理，以确定所述目标声学模型序列信息中每个音节的每个音素与所述当前语音帧特征序列信息中音频帧的范围之间的对应关系。

在该实施例中，利用子空间聚类高斯混合方法确定当前语音信息中与目标唤醒词的每个音素对应的音频帧的范围，从而缩小语音唤醒的计算量。

在一个实施例中，所述从所述音频帧的范围中选取出符合预设要求的预设数量的目标音频帧，包括：

从与每个音素对应的音频帧的范围中选取出声学似然评分大于或者等于预设评分和/或物理位置满足预设物理位置的预设数量的目标音频帧。

在该实施例中，预设数量可以远小于音频帧的范围的数量，例如，某个音素对应的音频帧的范围为0至30帧，假设预设数量为5帧，则可以从0至30帧的音频帧中选择出声学似然评分高的5帧音频帧，还可以选择同时根据声学似然评分和物理位置进行选择，如选择出3帧音频帧高的帧，其他2帧按照物理位置进行选择，如选择处于中间位置的第10帧和第20帧，从而保证选取出的目标音频帧的准确性。

在一个实施例中，所述根据使用深度神经网络建模的声学模型和目标音频帧对应的特征信息，确定所述当前语音信息属于所述目标唤醒词的置信度，包括：

使用深度神经网络建模的声学模型计算与每个音素对应的多个目标音频帧中每个目标音频帧的声学后验得分；

从与每个音素对应的多个声学后验得分中选取出最大声学后验得分；

根据所有音素的最大声学后验得分计算所述当前语音信息属于所述目标唤醒词的置信度。

在该实施例中，将选出的全部目标语音帧对应的特征信息使用深度神经网络建模的声学模型计算对应的声学后验得分，对每个音素的多个声学后验得分选择其中的最大后验得分，并使用全部音素的最大后验得分计算得到当前语音信息属于目标唤醒词的置信度，这样，只需要计算目标音频帧的声学后验得分，无需计算所有的音频帧的得分，在保证识别结果的准确性的基础上，大大减少了计算量，缩短了识别当前语音信息所需的时长，提升了用户的使用体验。

在一个实施例中，所述根据所述置信度确定是否允许唤醒所述语音唤醒功能，包括：

当所述置信度大于或者等于预设置信度时，确定允许唤醒所述语音唤醒功能；

当所述置信度小于所述预设置信度时，确定不允许唤醒所述语音唤醒功能。

在该实施例中，在当前语音信息属于目标唤醒词的置信度大于或者等于预设置信度时，才允许唤醒语音唤醒功能，从而避免语音唤醒功能误唤醒。

根据本发明实施例的第二方面，提供一种语音唤醒装置，包括：

获取模块，用于获取输入的当前语音信息对应的当前音频帧特征序列信息；

对齐模块，用于将所述当前音频帧序列信息与目标唤醒词对应的目标声学模型序列信息进行强制对齐处理，以从所述当前音频帧序列信息中定位出与所述目标声学模型序列信息中的每个音素对应的音频帧的范围；

选取模块，用于计算每个音频帧的范围中每个音频帧的声学似然评分，并从所述每个音频帧的范围中选取出符合预设要求的预设数量的目标音频帧；

确定模块，用于根据使用深度神经网络建模的声学模型和目标音频帧对应的特征信息，确定所述当前语音信息属于所述目标唤醒词的置信度；

唤醒模块，用于根据所述置信度确定是否允许唤醒所述语音唤醒功能。

在一个实施例中，所述对齐模块用于：

在一个实施例中，所述选取模块用于：

从与每个音素对应的音频帧的范围中选取出声学似然评分大于或者等于预设评分和/或物理位置满足预设物理位置的预设数量的目标音频帧。

在一个实施例中，所述确定模块包括：

第一计算子模块，用于使用深度神经网络建模的声学模型计算与每个音素对应的多个目标音频帧中每个目标音频帧的声学后验得分；

选取子模块，用于从与每个音素对应的多个声学后验得分中选取出最大声学后验得分；

第二计算子模块，用于根据所有音素的最大声学后验得分计算所述当前语音信息属于所述目标唤醒词的置信度。

在一个实施例中，所述唤醒模块包括：

第一处理子模块，用于当所述置信度大于或者等于预设置信度时，确定允许唤醒所述语音唤醒功能；

第二处理子模块，用于当所述置信度小于所述预设置信度时，确定不允许唤醒所述语音唤醒功能。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种语音唤醒方法的流程图。

图2是根据一示例性实施例示出的另一种语音唤醒方法的流程图。

图3是根据一示例性实施例示出的又一种语音唤醒方法的流程图。

图4是根据一示例性实施例示出的一种语音唤醒方法中步骤S104的流程图。

图5是根据一示例性实施例示出的一种语音唤醒方法中步骤S105的流程图。

图6是根据一示例性实施例示出的一种语音唤醒装置的框图。

图7是根据一示例性实施例示出的一种语音唤醒装置中确定模块的框图。

图8是根据一示例性实施例示出的一种语音唤醒装置中唤醒模块的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种语音唤醒方法的流程图。该语音唤醒方法应用于低计算资源的终端设备中，该终端设备可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等任一具有语音控制功能的设备。如图1所示，该方法包括步骤S101-S105：

在步骤S101中，获取输入的当前语音信息对应的当前音频帧特征序列信息；

在步骤S102中，将当前音频帧序列信息与目标唤醒词对应的目标声学模型序列信息进行强制对齐处理，以从当前音频帧序列信息中定位出与目标声学模型序列信息中的每个音素对应的音频帧的范围；

在步骤S103中，计算每个音频帧的范围中每个音频帧的声学似然评分，并从每个音频帧的范围中选取出符合预设要求的预设数量的目标音频帧；

在步骤S104中，根据使用深度神经网络建模的声学模型和目标音频帧对应的特征信息，确定当前语音信息属于目标唤醒词的置信度；

在步骤S105中，根据置信度确定是否允许唤醒语音唤醒功能。

在该实施例中，将当前语音帧特征序列信息与目标唤醒词对应的目标声学模型序列进行对齐强制处理，进而从当前音频帧序列信息中定位出与目标声学模型序列信息中的每个音素对应的音频帧的范围，并从该范围中选取出预设数量的目标音频帧，通过使用深度神经网络建模的声学模型和目标音频帧的特征信息确定当前语音信息属于目标唤醒词的置信度，进而确定是否唤醒语音唤醒功能。这样，有效地减少了语音唤醒的计算量，从而能应用于存在低计算资源限制的语音设备中。

图2是根据一示例性实施例示出的另一种语音唤醒方法的流程图。

在一个实施例中，上述步骤S102包括步骤S201：

在步骤S201中，将当前音频帧序列信息与使用子空间聚类高斯混合方法对目标唤醒词进行建模得到的目标声学模型序列信息进行强制对齐处理，以确定目标声学模型序列信息中每个音节的每个音素与当前语音帧特征序列信息中音频帧的范围之间的对应关系。

在该实施例中，利用子空间聚类高斯混合方法确定当前语音信息中与目标唤醒词的每个音素对应的音频帧的范围，从而缩小语音唤醒的计算量。

图3是根据一示例性实施例示出的又一种语音唤醒方法的流程图。

如图3所示，在一个实施例中，上述步骤S103包括步骤S301：

在步骤S301中，从与每个音素对应的音频帧的范围中选取出声学似然评分大于或者等于预设评分和/或物理位置满足预设物理位置的预设数量的目标音频帧。

图4是根据一示例性实施例示出的一种语音唤醒方法中步骤S104的流程图。

如图4所示，在一个实施例中，上述步骤S104包括步骤S401-S403：

在步骤S401中，使用深度神经网络建模的声学模型计算与每个音素对应的多个目标音频帧中每个目标音频帧的声学后验得分；

在步骤S402中，从与每个音素对应的多个声学后验得分中选取出最大声学后验得分；

在步骤S403中，根据所有音素的最大声学后验得分计算当前语音信息属于目标唤醒词的置信度。

图5是根据一示例性实施例示出的一种语音唤醒方法中步骤S105的流程图。

如图5所示，在一个实施例中，上述步骤S105包括步骤S501-S502：

在步骤S501中，当置信度大于或者等于预设置信度时，确定允许唤醒语音唤醒功能；

在步骤S502中，当置信度小于预设置信度时，确定不允许唤醒语音唤醒功能。

在该实施例中，在当前语音信息属于目标唤醒词的置信度大于或者等于预设置信度时，才允许唤醒语音唤醒功能，从而避免语音唤醒功能误唤醒。

下面以一个具体实施例详细说明本发明的技术方案。

例如，目标唤醒词为“打开手机”，则利用子空间聚类高斯混合方法对目标唤醒词进行建模得到的目标声学模型序列信息，如果用户输入语音信息，如“开启手机”，则获取“开启手机”对应的当前音频帧序列信息，并将其与目标声学模型序列信息强制对齐，强制对齐即从当前音频帧序列信息中定位出与目标声学模型序列信息中的每个音素对应的音频帧的范围，其中，目标声学模型序列信息中的音素包括“d”“a”“k”“ai”“sh”“ou”“j”“i”，假设强制对齐结果为：“d”对应当前语音帧序列中的0-30帧，“a”对应当前语音帧序列中的30-50帧，“k”对应当前语音帧序列中的50-80帧，“ai”对应当前语音帧序列中的80-120帧，“sh”对应当前语音帧序列中的120-150帧，“ou”对应当前语音帧序列中的150-180帧，“j”对应当前语音帧序列中的180-200帧，“i”对应当前语音帧序列中的200-220帧，其中，可以计算0-220帧中每个音频帧的的声学似然评分，根据声学似然评分和在音频帧范围中的物理位置，在每个音频帧的范围中选取出预设数量的目标音频帧，假设预设数量为5帧，则可以从每个音频帧的范围中选取出声学似然评分高和排列在中间位置的5帧目标音频帧，这样，8个音素就选取出40帧目标音频帧，使用深度神经网络建模的声学模型计算每个音素对应的5帧目标音频帧中每个目标音频帧的声学后验得分，并选取出其中声学后验得分最高的声学后验得分，8个音素就得到8个最大声学后验得分，根据这8个最大声学后验得分计算当前语音信息属于目标唤醒词的置信度，如将8个最大声学后验求平均值等，进而根据当前语音信息属于目标唤醒词的置信度的高低，确定是否进行语音唤醒。

下述为本发明装置实施例，可以用于执行本发明方法实施例。

图6是根据一示例性实施例示出的一种语音唤醒装置的框图，该装置可以通过软件、硬件或者两者的结合实现成为终端设备的部分或者全部。如图6所示，该语音唤醒装置包括：

获取模块61，用于获取输入的当前语音信息对应的当前音频帧特征序列信息；

对齐模块62，用于将所述当前音频帧序列信息与目标唤醒词对应的目标声学模型序列信息进行强制对齐处理，以从所述当前音频帧序列信息中定位出与所述目标声学模型序列信息中的每个音素对应的音频帧的范围；

选取模块63，用于计算每个音频帧的范围中每个音频帧的声学似然评分，并从所述每个音频帧的范围中选取出符合预设要求的预设数量的目标音频帧；

确定模块64，用于根据使用深度神经网络建模的声学模型和目标音频帧对应的特征信息，确定所述当前语音信息属于所述目标唤醒词的置信度；

唤醒模块65，用于根据所述置信度确定是否允许唤醒所述语音唤醒功能。

在一个实施例中，所述对齐模块62用于：

在该实施例中，利用子空间聚类高斯混合方法确定当前语音信息中与目标唤醒词的每个音素对应的音频帧的范围，从而缩小语音唤醒的计算量。

例如，用户说“打开空调”，这4个字可能是总时长2秒。其中，每个字的时长大概是200毫秒，字与字之间有停顿，因此，可以确定出“打开空调”这4个字对应的800毫秒的音频帧，进而对这800毫秒的音频帧进行识别处理，而不是对整体的2秒音频帧进行识别处理。

在一个实施例中，所述选取模块63用于：

从与每个音素对应的音频帧的范围中选取出声学似然评分大于或者等于预设评分和/或物理位置满足预设物理位置的预设数量的目标音频帧。

图7是根据一示例性实施例示出的一种语音唤醒装置中确定模块的框图。

如图7所示，在一个实施例中，所述确定模块64包括：

第一计算子模块71，用于使用深度神经网络建模的声学模型计算与每个音素对应的多个目标音频帧中每个目标音频帧的声学后验得分；

选取子模块72，用于从与每个音素对应的多个声学后验得分中选取出最大声学后验得分；

第二计算子模块73，用于根据所有音素的最大声学后验得分计算所述当前语音信息属于所述目标唤醒词的置信度。

图8是根据一示例性实施例示出的一种语音唤醒装置中唤醒模块的框图。

如图8所示，在一个实施例中，所述唤醒模块65包括：

第一处理子模块81，用于当所述置信度大于或者等于预设置信度时，确定允许唤醒所述语音唤醒功能；

第二处理子模块82，用于当所述置信度小于所述预设置信度时，确定不允许唤醒所述语音唤醒功能。

在该实施例中，在当前语音信息属于目标唤醒词的置信度大于或者等于预设置信度时，才允许唤醒语音唤醒功能，从而避免语音唤醒功能误唤醒。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张军;苏牧;梁家恩
技术所有人：北京云知声信息技术有限公司
我是此专利的发明人

上一篇：一种基于二次谐波混合有源滤波装置的控制策略的制作方法
上一篇：一种谐波处理方法以及一种电网系统与流程