基于人工智能的语音唤醒方法和装置与流程

文档序号：11097796阅读：来源：国知局

技术特征：

1.一种基于人工智能的语音唤醒方法，其特征在于，包括以下步骤：

对各音素进行聚类，以选取出用于指代全部音素的垃圾音素；

根据预先设定的唤醒词，构建与所述唤醒词相似的反唤醒词；

根据所述垃圾音素、所述反唤醒词和所述唤醒词构建解码网络；

利用所述解码网络进行语音唤醒。

2.根据权利要求1所述的基于人工智能的语音唤醒方法，其特征在于，所述对各音素进行聚类，以选取出用于指代全部音素的垃圾音素，包括：

获取各个音素和各个音素对应的状态；

在各个音素中随机选取目标音素，并将所述目标音素添加到垃圾音素集合中；

以所述目标音素作为起点，在各个音素中查询与所述目标音素距离最远的音素，并将所查询到的音素添加到所述垃圾音素集合中；

将所查询到的音素作为所述目标音素，循环执行所述以所述目标音素作为起点，在各个音素中查询与所述目标音素距离最远的音素，并将所查询到的音素添加到所述垃圾音素集合中的过程，直至所述垃圾音素集合中的音素数量为预设的第一数量。

3.根据权利要求2所述的基于人工智能的语音唤醒方法，其特征在于，所述获取各个音素和各个音素对应的状态包括：

针对每一个音素，利用混合高斯模型对所述音素的各状态进行拟合，得到所述音素的混合高斯模型；

采用多个语音的样本和语音的标注对所得到的各音素的混合高斯模型进行参数优化；

根据各混合高斯模型之间，优化后参数的相似度，对各音素的混合高斯模型进行排序，得到对应的所述各个音素，以及各个音素的状态。

4.根据权利要求2所述的基于人工智能的语音唤醒方法，其特征在于，所述以所述目标音素作为起点，在各个音素中查询与所述目标音素距离最远的音素，包括：

根据公式S＝(SM₁-SN₁)²+(SM₂-SN₂)²+(SM₃-SN₃)²计算所述目标音素PM与各音素PN之间的距离S；其中，SM₁、SM₂和SM₃分别为所述目标音素PM的三个状态，SN₁、SN₂和SN₃分别为所述音素PN的三个状态；

根据所计算出的距离S，选取S取值最大的音素。

5.根据权利要求1-4任一项所述的基于人工智能的语音唤醒方法，其特征在于，所述对各音素进行聚类，以选取出用于指代全部音素的垃圾音素之后，还包括：

利用各个音素，对多个样本语音分别进行识别，以得到匹配中的音素；

从匹配中的音素中，选取匹配数量排序为前第二数量的音素，作为筛选集合；

根据所述筛选集合对所述垃圾音素进行筛选，保留处于所述筛选集合中的垃圾音素。

6.根据权利要求1-4任一项所述的基于人工智能的语音唤醒方法，其特征在于，所述根据预先设定的唤醒词，构建与所述唤醒词相似的反唤醒词，包括：

从与所述唤醒词发音相似的词语列表中，选取字数少于所述唤醒词字数的音近词；

将所述唤醒词中的部分字与所述音近词组合，以构建所述反唤醒词。

7.根据权利要求1-4任一项所述的基于人工智能的语音唤醒方法，其特征在于，所述利用所述解码网络进行语音唤醒，包括：

对输入的用户语音提取声学特征；

将所提取到的声学特征输入所述解码网络，以采用动态规划算法，在所述解码网络中计算得到为最优路径的识别结果；

根据识别结果，对终端进行唤醒。

8.根据权利要求7所述的基于人工智能的语音唤醒方法，其特征在于，所述解码网络中计算得到为最优路径的识别结果之后，还包括：

根据用户语音中的每一帧在所述解码网络中计算得到的最优路径的得分，计算所述用户语音的平均分值；

根据所述唤醒词中的每一帧在所述解码网络中计算得到的最优路径的得分，计算所述唤醒词的平均分值；

若所述唤醒词的平均分值减去所述用户语音的平均分值所获得的差值大于预设阈值，判定所述识别结果有效。

9.一种基于人工智能的语音唤醒装置，其特征在于，包括：

第一选取模块，用于对各音素进行聚类，以选取出用于指代全部音素的垃圾音素；

第二选取模块，用于根据预先设定的唤醒词，构建与所述唤醒词相似的反唤醒词；

构建模块，用于根据所述垃圾音素、所述反唤醒词和所述唤醒词构建解码网络；

唤醒模块，用于利用所述解码网络进行语音唤醒。

10.根据权利要求9所述的基于人工智能的语音唤醒装置，其特征在于，所述第一选取模块，包括：

获取单元，用于获取各个音素和各个音素对应的状态；

选取单元，用于在各个音素中随机选取目标音素，并将所述目标音素添加到垃圾音素集合中；

计算单元，用于以所述目标音素作为起点，在各个音素中查询与所述目标音素距离最远的音素，并将所查询到的音素添加到所述垃圾音素集合中；

生成单元，用于将所查询到的音素作为所述目标音素，循环执行所述以所述目标音素作为起点，在各个音素中查询与所述目标音素距离最远的音素，并将所查询到的音素添加到所述垃圾音素集合中的过程，直至所述垃圾音素集合中的音素数量为预设的第一数量。

11.根据权利要求10所述的基于人工智能的语音唤醒装置，其特征在于，

所述获取单元，具体用于针对每一个音素，利用混合高斯模型对所述音素的各状态进行拟合，得到所述音素的混合高斯模型；采用多个语音的样本和语音的标注对所得到的各音素的混合高斯模型进行参数优化；根据各混合高斯模型之间，优化后参数的相似度，对各音素的混合高斯模型进行排序，得到对应的所述各个音素，以及各个音素的状态。

12.根据权利要求10所述的基于人工智能的语音唤醒装置，其特征在于，

所述计算单元，具体用于根据公式S＝(SM₁-SN₁)²+(SM₂-SN₂)²+(SM₃-SN₃)²计算所述目标音素PM与各音素PN之间的距离S；其中，SM₁、SM₂和SM₃分别为所述目标音素PM的三个状态，SN₁、SN₂和SN₃分别为所述音素PN的三个状态；根据所计算出的距离S，选取S取值最大的音素。

13.根据权利要求9-12任一项所述的基于人工智能的语音唤醒装置，其特征在于，所述装置，还包括：

筛选模块，用于利用各个音素，对多个样本语音分别进行识别，以得到匹配中的音素；从匹配中的音素中，选取匹配数量排序为前第二数量的音素，作为筛选集合；根据所述筛选集合对所述垃圾音素进行筛选，保留处于所述筛选集合中的垃圾音素。

14.根据权利要求9-12任一项所述的基于人工智能的语音唤醒装置，其特征在于，

所述第二选取模块，具体用于从与所述唤醒词发音相似的词语列表中，选取字数少于所述唤醒词字数的音近词；将所述唤醒词中的部分字与所述音近词组合，以构建所述反唤醒词。

15.根据权利要求9-12任一项所述的基于人工智能的语音唤醒装置，其特征在于，所述唤醒模块，包括：

提取单元，用于对输入的用户语音提取声学特征；

识别单元，用于将所提取到的声学特征输入所述解码网络，以采用动态规划算法，在所述解码网络中计算得到为最优路径的识别结果；

唤醒单元，用于根据识别结果，对终端进行唤醒。

16.根据权利要求15所述的基于人工智能的语音唤醒装置，其特征在于，所述唤醒模块，还包括：

置信单元，用于根据用户语音中的每一帧在所述解码网络中计算得到的最优路径的得分，计算所述用户语音的平均分值；根据所述唤醒词中的每一帧在所述解码网络中计算得到的最优路径的得分，计算所述唤醒词的平均分值；若所述唤醒词的平均分值减去所述用户语音的平均分值所获得的差值大于预设阈值，判定所述识别结果有效。

完整全部详细技术资料下载

当前第2页1 2 3