本申请涉及人机交互,特别是涉及一种唤醒词处理方法,唤醒词处理装置以及计算机存储介质。
背景技术:
1、随着智能音箱、手机语音助手等语音交互产品的大规模普及,为满足用户多样化的使用习惯和灵活度,允许用户自行定义唤醒词的开放式方案成为主流趋势。然而,传统的固定关键词模型在规模、适配性和鲁棒性方面均难以应对不断增长的个性化需求。为解决此问题,研究者提出了各种多模态融合技术,将语音与文本信息结合,以提升关键词检测的准确度和可定制能力。同时,云端算力的高速发展和端侧设备算力的有限性在关键词识别系统中形成了鲜明对比。
2、端侧设备的算力的有限性导致用户在使用设备进行人机交互时,唤醒词的检测效果和效率均不高。
技术实现思路
1、为解决上述技术问题,本申请提出了一种唤醒词处理方法,唤醒词处理装置以及计算机存储介质。
2、为解决上述技术问题,本申请提出了一种唤醒词处理方法,所述唤醒词处理方法应用于云端侧,所述唤醒词处理方法包括:
3、响应于用户注册指令,将用户注册信息输入端到端声学模型获取注册词元序列;
4、将所述注册词元序列映射为注册嵌入向量;
5、利用所述注册词元序列定位所述端到端声学模型的相关核心网络;
6、利用所述相关核心网络生成声学编码器模型,其中,所述声学编码器模型的模型计算量小于所述端到端声学模型的模型计算量;
7、将所述注册嵌入向量和所述声学编码器模型下发到端侧设备进行唤醒词识别。
8、其中,所述用户注册信息为语音注册信息或者文本注册信息;
9、所述将用户注册信息输入端到端声学模型获取注册词元序列,包括:
10、将所述文本注册信息输入所述端到端声学模型的文本建模单元,获取所述文本注册信息中每一文本的文本词元,并组合成为所述注册词元序列;
11、或者,将所述语音注册信息输入所述端到端声学模型进行识别,得到所述注册词元序列。
12、其中,所述利用所述注册词元序列定位所述端到端声学模型的相关核心网络,包括;
13、获取所述端到端声学模型中各词元的声学单元激活路径;
14、基于所述注册词元序列提取相关声学单元激活路径,将其余词元的声学单元激活路径进行剪枝或者权重置零,得到所述注册词元序列对应的相关核心网络。
15、其中,所述利用所述注册词元序列定位所述端到端声学模型的相关核心网络之后,所述唤醒词处理方法还包括:
16、降低所述相关核心网络的网络层深,和/或参数维度。
17、为解决上述技术问题,本申请还提出另一种唤醒词处理方法,所述唤醒词处理方法应用于唤醒词处理系统,其中,所述唤醒词处理系统包括云端侧和端侧设备;所述唤醒词处理方法包括:
18、所述端侧设备将用户注册指令和用户注册信息上传至所述云端侧;
19、所述云端侧将所述用户注册信息输入端到端声学模型获取注册词元序列;
20、所述云端侧将所述注册词元序列映射为注册嵌入向量;
21、所述云端侧利用所述注册词元序列定位所述端到端声学模型的相关核心网络;
22、所述云端侧利用所述相关核心网络生成声学编码器模型,其中,所述声学编码器模型的模型计算量小于所述端到端声学模型的模型计算量;
23、所述云端侧将所述注册嵌入向量和所述声学编码器模型下发到所述端侧设备;
24、所述端侧设备利用所述声学编码器模型对用户实时输入进行编码,获取实时嵌入向量,将所述注册嵌入向量与所述实时嵌入向量进行比对;
25、所述端侧设备在向量比对成功时,进行所述用户实时输入对应的唤醒词唤醒相应设备。
26、其中,所述用户实时输入为实时语音输入;
27、所述端侧设备利用所述声学编码器模型对用户实时输入进行编码,获取实时嵌入向量,包括:
28、所述端侧设备基于所述实时语音输入,获取若干音频切片;
29、所述端侧设备将所述若干音频切片输入所述声学编码器模型,提取音频特征矩阵;
30、所述端侧设备将所述音频特征矩阵输入声学发音分类分支,以获取文本词元的发音后验概率;
31、所述端侧设备按照每一音频切片的发音后验概率最大值,对所述实时语音输入切分为若干发音段落,以及各文本词元的发音持续时间;
32、所述端侧设备按照所述若干发音段落以及所述发音持续时间对所述实时语音输入进行嵌入,以提取所述实时语音输入的音频文本嵌入向量。
33、其中,所述端侧设备按照所述若干发音段落以及所述发音持续时间对所述实时语音输入进行嵌入,以提取所述实时语音输入的音频文本嵌入向量,包括:
34、所述端侧设备按照所述若干发音段落以及所述发音持续时间,获取每一文本词元所覆盖的帧序列;
35、所述端侧设备将所述实时语音输入在所述帧序列的语音帧进行向量聚合,得到所述每一文本词元对应的集中语音特征;
36、所述端侧设备将所述文本词元与对应的集中语音特征进行关联,生成所述音频文本嵌入向量。
37、其中,所述云端侧将所述注册嵌入向量和所述声学编码器模型下发到所述端侧设备之后,所述唤醒词处理方法还包括:
38、所述端侧设备根据设备性能降低所述声学编码器模型的网络层深,和/或参数维度。
39、为解决上述技术问题,本申请还提出一种唤醒词处理装置,所述唤醒词处理装置包括存储器以及与所述存储器耦接的处理器;其中,所述存储器用于存储程序数据,所述处理器用于执行所述程序数据以实现如上述的唤醒词处理方法。
40、为解决上述技术问题,本申请还提出一种计算机存储介质,所述计算机存储介质用于存储程序数据,所述程序数据在被计算机执行时,用以实现上述的唤醒词处理方法。
41、与现有技术相比,本申请的有益效果是:云端侧响应于用户注册指令,将用户注册信息输入端到端声学模型获取注册词元序列;将所述注册词元序列映射为注册嵌入向量;利用所述注册词元序列定位所述端到端声学模型的相关核心网络;利用所述相关核心网络生成声学编码器模型,其中,所述声学编码器模型的模型计算量小于所述端到端声学模型的模型计算量;将所述注册嵌入向量和所述声学编码器模型下发到端侧设备进行唤醒词识别。通过上述唤醒词处理方法,云端侧根据用户注册信息对声学模型进行裁剪后下发给端侧设备,提高端侧设备的唤醒词检测效率和识别精度。
1.一种唤醒词处理方法,其特征在于,所述唤醒词处理方法应用于云端侧,所述唤醒词处理方法包括:
2.根据权利要求1所述的唤醒词处理方法,其特征在于,
3.根据权利要求1所述的唤醒词处理方法,其特征在于,
4.根据权利要求3所述的唤醒词处理方法,其特征在于,
5.一种唤醒词处理方法,其特征在于,所述唤醒词处理方法应用于唤醒词处理系统,其中,所述唤醒词处理系统包括云端侧和端侧设备;所述唤醒词处理方法包括:
6.根据权利要求5所述的唤醒词处理方法,其特征在于,
7.根据权利要求6所述的唤醒词处理方法,其特征在于,
8.根据权利要求5所述的唤醒词处理方法,其特征在于,
9.一种唤醒词处理装置,其特征在于,所述唤醒词处理装置包括存储器以及与所述存储器耦接的处理器;
10.一种计算机存储介质,其特征在于,所述计算机存储介质用于存储程序数据,所述程序数据在被计算机执行时,用以实现如权利要求1至8任一项所述的唤醒词处理方法。