本发明属于关键词检测模型训练,尤其涉及关键词检测模型训练方法、电子设备和存储介质。
背景技术:
1、相关技术中,各大语音提供商的唤醒词检测系统;移动设备端的唤醒系统,如某度“小度小度”、某米“小爱同学”、某果“hey,siri”,都是通过关键词检测系统实现地,该系统通过一个24h不间断运行的唤醒词检测模型,对用户的指令进行响应。
2、而这些关键词通常是出厂预设好的,用户一般不能随意修改,diy属性较差,可以进一步提高用户个性化的程度。性能仍然有提升空间。
3、因此,尽管上述在关键词发现任务中的努力大大改善了某些特定条件下的性能,但一些未解决的问题限制了这些方法的通用性。
4、发明人在实现本申请的过程中发现,1)传统的关键词发现管道很复杂。独特的非神经搜索过程导致额外的开销,并造成训练和测试之间的不匹配。而且在检测阶段通常需要许多可调整的超参数来减少误报率。2)大多数方法都是针对预设的关键词场景,不适用于支持用户任意定制关键词。在可定制的关键词场景中,它们的性能通常会急剧下降,甚至变得完全不适用。尽管一些工作已经致力于可定制的关键词发现任务,但仍然存在实际的挑战,如适应性检测的额外计算成本,模型的流式工作,数据不足等。
技术实现思路
1、本发明实施例提供一种关键词检测模型训练方法、电子设备和存储介质,用于至少解决上述技术问题之一。
2、第一方面,本发明实施例提供一种关键词检测模型训练方法,包括:利用通用数据构建音频片段和文本关键词的匹配对,以使所述关键词检测模型学习音频片段中是否含有关键词的能力;构造正例音频的匹配对和反例音频的匹配对,利用对比学习的方式使得所述正例音频的匹配对在表征空间中距离更近,以及使得所述反例音频的匹配对在所述表征空间中距离更远。
3、第二方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例关键词检测模型训练方法的步骤。
4、第三方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行本发明任一实施例的关键词检测模型训练方法的步骤。
5、本申请实施例的方法,通过从自动语音识别(asr)数据集中构建大量的音频-音频和音频-文本对来学习有效的关键词表示,从而缓解了数据不足的问题。不仅能充分利用到大量的已有数据,大大提高了模型的鲁棒性。此外,本申请实施例能随机自定义各种唤醒词,通过对比学习学的较好的唤醒词表征。
1.一种关键词检测模型训练方法,包括:
2.根据权利要求1所述的方法,其中,所述构造正例音频的匹配对和反例音频的匹配对包括:
3.根据权利要求2所述的方法,其中,所述对比学习的损失函数为infonce损失,在所述infonce损失中,不仅计算音频和文本关键词的匹配对的损失,还计算音频和音频关键词的损失。
4.根据权利要求3所述的方法,其中,所述关键词检测模型包括声学模型,所述利用通用数据构建音频片段和文本关键词的匹配对包括:
5.根据权利要求4所述的方法,所述关键词检测模型还包括声学嵌入编码器、关键词采样器、文本嵌入编码器和相似度计算模块。
6.根据权利要求5所述的方法,其中,所述利用对比学习的方式包括:
7.根据权利要求1-6中任一项所述的方法,其中,所述关键词为唤醒词,所述关键词检测模型为唤醒词检测模型。
8.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至7任一项所述方法的步骤。
9.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。