语音唤醒方法、装置、电子设备及存储介质与流程

文档序号：19422417发布日期：2019-12-14 01:41阅读：来源：国知局

技术特征：

1.一种语音唤醒方法，其特征在于，包括：

构建wfst解码图，所述wfst解码图包括唤醒词解码图和基本解码图；

当接收到待解码的语音信号后，分别利用所述唤醒词解码图和所述基本解码图对所述待解码的语音信号进行解码，得到所述待解码的语音信号分别基于所述唤醒词解码图的第一得分和基于所述基本解码图的第二得分；

利用所述第一得分与所述第二得分，判断是否进入唤醒状态。

2.根据权利要求1所述的语音唤醒方法，其特征在于，所述分别利用所述唤醒词解码图和所述基本解码图对所述待解码的语音信号进行解码，得到所述待解码的语音信号分别基于所述唤醒词解码图的第一得分和基于所述基本解码图的第二得分包括：

从所述待解码的语音信号中获取当前语音帧；

提取所述当前语音帧的声学特征；

将所述声学特征输入至预先构建的声学模型，得到所述当前语音帧内各声学单元的后验概率；

遍历所述唤醒词解码图和所述基本解码图中所有活跃节点的出边；

获取所述出边的输入标签对应的声学单元对应的后验概率，将所述后验概率表示为所述出边的分数；

将所述出边的分数和所述出边对应的源节点上的分数进行累计，得到累计分数，将所述累计分数作为所述出边的到达节点的分数；

判断所述待解码的语音信号是否已到达最后语音帧；

若否，则将所述待解码的语音信号的下一帧作为当前语音帧，将当前的活跃节点和所述当前的活跃节点的出边的到达节点作为所述当前语音帧的活跃节点，执行所述提取所述当前语音帧的声学特征的步骤；

若是，则将所述唤醒词解码图的终止节点上的累计分数作为所述第一得分，以及，将所述基本解码图的终止节点上的累计分数作为所述第二得分。

3.根据权利要求2所述的语音唤醒方法，其特征在于，所述将所述累计分数作为所述出边的到达节点的分数时，若所述到达节点上存在已有分数，则比较所述累计分数与所述已有分数的大小，将数值大的分数作为所述出边的到达节点的分数。

4.根据权利要求2或3所述的语音唤醒方法，其特征在于，所述唤醒词解码图和所述基本解码图具有同一起始节点；

当所述当前语音帧为所述待解码语音信号的首个语音帧时，将所述起始节点设置为活跃节点。

5.根据权利要求1所述的语音唤醒方法，其特征在于，所述利用所述第一得分与所述第二得分，判断是否进入唤醒状态包括：

计算所述第一得分和所述第二得分之间的差值；

判断所述差值是否小于预设阈值；

若所述差值小于所述预设阈值，则进入唤醒状态。

6.根据权利要求1所述的语音唤醒方法，其特征在于，所述构建wfst解码图包括：

获取用户上传的唤醒词；

在所述唤醒词解码图中设置所述唤醒词的解码路径。

7.一种语音唤醒装置，其特征在于，包括：

构建模块，用于构建wfst解码图，所述wfst解码图包括唤醒词解码图和基本解码图；

解码模块，用于当接收到待解码的语音信号后，分别利用所述唤醒词解码图和所述基本解码图对所述待解码的语音信号进行解码，得到所述待解码的语音信号分别基于所述唤醒词解码图的第一得分和基于所述基本解码图的第二得分；

判断模块，用于利用所述第一得分与所述第二得分，判断是否进入唤醒状态。

8.根据权利要求7所述的语音唤醒装置，其特征在于，所述解码模块包括：

第一获取子模块，用于从所述待解码的语音信号中获取当前语音帧；

提取子模块，用于提取所述当前语音帧的声学特征；

输入子模块，用于将所述声学特征输入至预先构建的声学模型，得到所述当前语音帧内各声学单元的后验概率；

遍历子模块，用于遍历所述唤醒词解码图和所述基本解码图中所有活跃节点的出边；

第二获取子模块，用于获取所述出边的输入标签对应的声学单元对应的后验概率，将所述后验概率表示为所述出边的分数；

累计子模块，用于将所述出边的分数和所述出边对应的源节点上的分数进行累计，得到累计分数，将所述累计分数作为所述出边的到达节点的分数；

判断子模块，用于判断所述待解码的语音信号是否已到达最后语音帧；

第一执行子模块，用于若否，则将所述待解码的语音信号的下一帧作为当前语音帧，将当前的活跃节点和所述当前的活跃节点的出边的到达节点作为所述当前语音帧的活跃节点，执行所述提取所述当前语音帧的声学特征的步骤；

第二执行子模块，用于若是，则将所述唤醒词解码图的终止节点上的累计分数作为所述第一得分，以及，将所述基本解码图的终止节点上的累计分数作为所述第二得分。

9.一种电子设备，包括：存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时，实现权利要求1至6中的任一项所述的语音唤醒方法中的各个步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现权利要求1至6中的任一项所述的语音唤醒方法中的各个步骤。

技术总结
一种语音唤醒，应用于语音交互技术领域，包括：构建WFST解码图，该WFST解码图包括唤醒词解码图和基本解码图，当接收到待解码的语音信号后，分别利用该唤醒词解码图和该基本解码图对待解码的语音信号进行解码，得到待解码的语音信号分别基于该唤醒词解码图的第一得分和基于该基本解码图的第二得分，利用第一得分与第二得分，判断是否进入唤醒状态。本申请还公开了一种语音唤醒装置、电子设备及存储介质。可提高语音唤醒识别效果，有效避免仅使用基本解码图进行语音识别导致的唤醒准确率低的技术问题，同时，采用唤醒词解码图可支持多个唤醒词唤醒。

技术研发人员：陈孝良;焦伟;冯大航
受保护的技术使用者：北京声智科技有限公司
技术研发日：2019.09.06
技术公布日：2019.12.13

完整全部详细技术资料下载

当前第2页1 2