语音识别的唤醒词选择方法及装置与流程

文档序号：12475893阅读：455来源：国知局

本发明涉及语音识别技术领域，尤其涉及一种语音识别的唤醒词选择方法及装置。

背景技术：

目前，相关技术中可以通过语音对设备进行控制，设备不是实时录音并识别语音命令的，而是先识别是否收到唤醒词，如果收到唤醒词则激活，然后识别语音命令。唤醒效果的好坏依赖唤醒词的选择，唤醒词应具有较高的可区分性，从而能提高与非唤醒词语音以及环境音之间区分的正确性。

技术实现要素：

本发明实施例提供一种语音识别的唤醒词选择方法及装置，用以选择可区分性高的唤醒词，从而提高唤醒词与非唤醒词以及环境音之间区分的正确性。

根据本发明实施例的第一方面，提供一种语音识别的唤醒词选择方法，包括：

获取多个候选唤醒词；

根据每个候选唤醒词对应的音频频谱，计算出所述每个候选唤醒词对应的可区分性得分；

根据所述每个候选唤醒词对应的可区分性得分确定目标唤醒词。

在该实施例中，在选择唤醒词时，根据唤醒词的音频频谱计算每个候选唤醒词的可区分性得分，并根据可区分性得分确定目标唤醒词，这样，可以保证目标唤醒词具有良好的可区分性，从而可以提高唤醒词与非唤醒词语音以及环境音之间区分的正确性。

在一个实施例中，所述根据每个候选唤醒词对应的音频频谱，计算出所述每个候选唤醒词对应的可区分性得分，包括：

将所述每个候选唤醒词对应的音频频谱划分成预设数量的频带；

计算所述每个候选唤醒词在对应的每个频带内的能量；

根据所述每个候选唤醒词在对应的每个频带内的能量，计算出所述每个候选唤醒词对应的可区分性得分。

在该实施例中，在该实施例中，对于唤醒词来说，其在频谱范围分布越广，其被某一频段噪音混淆的可能性越小，因此，可以通过候选唤醒词的频谱分布来判断其可区分性，进而选择目标唤醒词，从而提高唤醒词与非唤醒词语音以及环境音之间区分的正确性。

在一个实施例中，所述根据所述每个候选唤醒词在对应的每个频带内的能量，计算出所述每个候选唤醒词对应的可区分性得分，包括：

根据预设计算公式，计算出所述每个候选唤醒词对应的可区分性得分，其中，所述预设计算公式包括：

其中，wuw表示候选唤醒词，discriP(wuw)表示候选唤醒词的可区分性得分，N表示将所述音频频谱划分成频带的数量，E_i表示所述候选唤醒词在每个频带内的能量，表示频带的能量的平均值。

wuw为唤醒词，其区分性discriP(wuw)越大代表总能量越大并且各频带能量分布越均匀，可区分性越好。

在一个实施例中，将可区分性得分最高的候选唤醒词确定为目标唤醒词。

在该实施例中，在选择唤醒词时，根据每个候选唤醒词的频谱分布计算每个候选唤醒词的可区分性得分，并从中选择可区分性得分最高的唤醒词为目标唤醒词，这样，可以保证目标唤醒词具有良好的可区分性，从而可以提高唤醒词与非唤醒词语音以及环境音之间区分的正确性。

在一个实施例中，所述方法还包括：

接收用户输入的语音信息；

对所述语音信息进行识别，得到对应的文字信息及所述文字信息的可信程度分数；

将所述可信程度分数与预设的阈值分数进行比较；

当所述可信程度分数大于所述预设的阈值分数时，开启所述终端设备的语音识别功能。

在该实施例中，如果用户输入的语音信息对应的文字信息的可信程度分数大于所述预设的阈值分数，则可以开启终端设备的语音识别功能，从而开始识别语音命令。

根据本发明实施例的第二方面，提供一种语音识别的唤醒词选择装置，包括：

获取模块，用于获取多个候选唤醒词；

计算模块，用于根据每个候选唤醒词对应的音频频谱，计算出所述每个候选唤醒词对应的可区分性得分；

确定模块，用于根据所述每个候选唤醒词对应的可区分性得分确定目标唤醒词。

在一个实施例中，所述计算模块包括：

划分子模块，用于将所述每个候选唤醒词对应的音频频谱划分成预设数量的频带；

第一计算子模块，用于计算所述每个候选唤醒词在对应的每个频带内的能量；

第二计算子模块，用于根据所述每个候选唤醒词在对应的每个频带内的能量，计算出所述每个候选唤醒词对应的可区分性得分。

在一个实施例中，所述第二计算子模块用于：

根据预设计算公式，计算出所述每个候选唤醒词对应的可区分性得分，其中，所述预设计算公式包括：

在一个实施例中，所述确定模块用于：

将可区分性得分最高的候选唤醒词确定为目标唤醒词。

在一个实施例中，所述装置还包括：

接收模块，用于接收用户输入的语音信息；

识别模块，用于对所述语音信息进行识别，得到对应的文字信息及所述文字信息的可信程度分数；

对比模块，用于将所述可信程度分数与预设的阈值分数进行比较；

处理模块，用于当所述可信程度分数大于所述预设的阈值分数时，开启所述终端设备的语音识别功能。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种语音识别的唤醒词选择方法的流程图。

图2是根据一示例性实施例示出的一种语音识别的唤醒词选择方法中步骤S102的流程图。

图3是根据一示例性实施例示出的又一种语音识别的唤醒词选择方法的流程图。

图4是根据一示例性实施例示出的另一种语音识别的唤醒词选择方法的流程图。

图5是根据一示例性实施例示出的一种语音识别的唤醒词选择装置的框图。

图6是根据一示例性实施例示出的一种语音识别的唤醒词选择装置中计算模块的框图。

图7是根据一示例性实施例示出的另一种语音识别的唤醒词选择装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种语音识别的唤醒词选择方法的流程图。该一种语音识别的唤醒词选择方法应用于终端设备中，该终端设备可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等任一具有语音控制功能的设备。如图1所示，该方法包括步骤S101-S103：

在步骤S101中，获取多个候选唤醒词；

在步骤S102中，根据每个候选唤醒词对应的音频频谱，计算出每个候选唤醒词对应的可区分性得分；

在步骤S103中，根据每个候选唤醒词对应的可区分性得分确定目标唤醒词。

图2是根据一示例性实施例示出的一种语音识别的唤醒词选择方法中步骤S102的流程图。

如图2所示，在一个实施例中，上述步骤S102包括步骤S201-S203：

在步骤S201中，将每个候选唤醒词对应的音频频谱划分成预设数量的频带；

在步骤S202中，计算每个候选唤醒词在对应的每个频带内的能量；

在步骤S203中，根据每个候选唤醒词在对应的每个频带内的能量，计算出每个候选唤醒词对应的可区分性得分。

在一个实施例中，上述步骤S203包括：

根据预设计算公式，计算出每个候选唤醒词对应的可区分性得分，其中，预设计算公式包括：

其中，wuw表示候选唤醒词，discriP(wuw)表示候选唤醒词的可区分性得分，N表示将音频频谱划分成频带的数量，E_i表示候选唤醒词在每个频带内的能量，表示频带的能量的平均值。

wuw为唤醒词，其区分性discriP(wuw)越大代表总能量越大并且各频带能量分布越均匀，可区分性越好。

图3是根据一示例性实施例示出的又一种语音识别的唤醒词选择方法的流程图。

如图3所示，在一个实施例中，上述步骤S103包括步骤S301：

在步骤S301中，将可区分性得分最高的候选唤醒词确定为目标唤醒词。

在该实施例中，在选择唤醒词时，根据每个候选唤醒词的发音计算每个候选唤醒词的可区分性得分，并从中选择可区分性得分最高的唤醒词为目标唤醒词，这样，可以保证目标唤醒词具有良好的可区分性，从而可以提高唤醒词与非唤醒词语音以及环境音之间区分的正确性。

图4是根据一示例性实施例示出的另一种语音识别的唤醒词选择方法的流程图。

如图4所示，在一个实施例中，上述方法还包括步骤S401-S404：

在步骤S401中，接收用户输入的语音信息；

在步骤S402中，对语音信息进行识别，得到对应的文字信息及文字信息的可信程度分数；

在步骤S403中，将可信程度分数与预设的阈值分数进行比较；

在步骤S404中，当可信程度分数大于预设的阈值分数时，开启终端设备的语音识别功能。

下述为本发明装置实施例，可以用于执行本发明方法实施例。

图5是根据一示例性实施例示出的一种语音识别的唤醒词选择装置的框图，该装置可以通过软件、硬件或者两者的结合实现成为终端设备的部分或者全部。如图5所示，该语音识别的唤醒词选择装置包括：

获取模块51，用于获取多个候选唤醒词；

计算模块52，用于根据每个候选唤醒词对应的音频频谱，计算出所述每个候选唤醒词对应的可区分性得分；

确定模块53，用于根据所述每个候选唤醒词对应的可区分性得分确定目标唤醒词。

图6是根据一示例性实施例示出的一种语音识别的唤醒词选择装置中计算模块的框图。

如图6所示，在一个实施例中，所述计算模块52包括：

划分子模块61，用于将所述每个候选唤醒词对应的音频频谱划分成预设数量的频带；

第一计算子模块62，用于计算所述每个候选唤醒词在对应的每个频带内的能量；

第二计算子模块63，用于根据所述每个候选唤醒词在对应的每个频带内的能量，计算出所述每个候选唤醒词对应的可区分性得分。

在一个实施例中，所述第二计算子模块63用于：

根据预设计算公式，计算出所述每个候选唤醒词对应的可区分性得分，其中，所述预设计算公式包括：

wuw为唤醒词，其区分性discriP(wuw)越大代表总能量越大并且各频带能量分布越均匀，可区分性越好。

在一个实施例中，所述确定模块53用于：

将可区分性得分最高的候选唤醒词确定为目标唤醒词。

图7是根据一示例性实施例示出的另一种语音识别的唤醒词选择装置的框图。

如图7所示，在一个实施例中，上述装置还包括：

接收模块71，用于接收用户输入的语音信息；

识别模块72，用于对所述语音信息进行识别，得到对应的文字信息及所述文字信息的可信程度分数；

对比模块73，用于将所述可信程度分数与预设的阈值分数进行比较；

处理模块74，用于当所述可信程度分数大于所述预设的阈值分数时，开启所述终端设备的语音识别功能。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：朱辉;闫子魁;王明明
技术所有人：北京云知声信息技术有限公司
我是此专利的发明人