本公开涉及语音唤醒领域,尤其涉及语音唤醒数据的处理方法、装置及存储介质。
背景技术:
1、智能设备的语音唤醒一般包括一级唤醒和二级唤醒,一级唤醒为关键词检测,二级唤醒为声纹检测,二者分别对应不同的语音唤醒模型。唤醒通过一级后才能通过二级,一级唤醒的误唤醒率,会影响整个唤醒流程的误唤醒率。
2、相关技术中,训练一级唤醒的语音唤醒模型时,从模型特征中优化相关的参数,从而让模型学习到一般训练模型过程中忽略特征,忽略的特征会造成的特征逃逸,从而提高了一级唤醒的语音误唤醒率,并间接提高了整个唤醒流程的误唤醒率。
技术实现思路
1、为克服相关技术中存在的问题,本公开提供一种语音唤醒数据的处理方法、装置及存储介质。
2、根据本公开实施例的第一方面,提供一种语音唤醒数据的处理方法,包括:采集第一误唤醒数据,并将所述第一误唤醒数据转化为第一频谱图;通过生成对抗网络处理所述第一频谱图,生成第二频谱图,所述第二频谱图中包含第二误唤醒数据,所述第二误唤醒数据的数量高于所述第一误唤醒数据的数量。
3、一种实施方式中,所述方法还包括:基于所述第二误唤醒数据训练第一唤醒网络。
4、一种实施方式中,所述通过生成对抗网络处理所述第一频谱图,生成第二频谱图,包括:通过所述生成对抗网络的编码路径,基于损失函数逐层提取所述第一频谱图的特征,获取不同深度层级的频谱特征图;通过生成对抗网络的解码路径,处理所述不同深度层级的频谱特征图中的最深层特征图,获取所述第二频谱图。
5、一种实施方式中,所述方法还包括:获取所述不同深度层级的频谱特征图中最深层频谱特征图之外的其他频谱特征图的细节信息;基于语义增强机制,处理所述不同深度层级的频谱特征图中层级最深的多张频谱特征图,获取语义信息。
6、一种实施方式中,所述通过生成对抗网络的解码路径,处理所述不同深度层级的频谱特征图中的最深层特征图,包括:基于所述生成对抗网络的上采样机制将所述细节信息逐层补充至所述最深层特征图中,并基于所述生成对抗网络的语义机制将语义信息逐层补充至所述最深层特征图中。
7、一种实施方式中,所述损失函数包括逐像素损失、自感应损失和相对对抗损失,所述逐像素损失、自感应损失和相对对抗损失分别对应不同的权重,所述损失函数采用如下方式确定:将所述逐像素损失与对应权重的乘积、自感应损失对应权重的乘积、相对对抗损失对应权重的乘积之和确定为所述损失函数。
8、根据本公开实施例的第二方面,提供一种语音唤醒数据的处理装置,包括:采集单元,用于采集第一误唤醒数据,并将所述第一误唤醒数据转化为第一频谱图;处理单元,用于通过生成对抗网络处理所述第一频谱图,生成第二频谱图,所述第二频谱图中包含第二误唤醒数据,所述第二误唤醒数据的数量高于所述第一误唤醒数据的数量。
9、一种实施方式中,所述处理单元还用于:基于所述第二误唤醒数据训练第一唤醒网络。
10、一种实施方式中,所述处理单元采用如下方式通过生成对抗网络处理所述第一频谱图,生成第二频谱图:通过所述生成对抗网络的编码路径,基于损失函数逐层提取所述第一频谱图的特征,获取不同深度层级的频谱特征图;通过生成对抗网络的解码路径,处理所述不同深度层级的频谱特征图中的最深层特征图,获取所述第二频谱图。
11、一种实施方式中,所述处理单元还用于:获取所述不同深度层级的频谱特征图中最深层频谱特征图之外的其他频谱特征图的细节信息;基于语义增强机制,处理所述不同深度层级的频谱特征图中层级最深的多张频谱特征图,获取语义信息。
12、一种实施方式中,所述处理单元采用如下方式通过生成对抗网络的解码路径,处理所述不同深度层级的频谱特征图中的最深层特征图:基于所述生成对抗网络的上采样机制将所述细节信息逐层补充至所述最深层特征图中,并基于所述生成对抗网络的语义机制将语义信息逐层补充至所述最深层特征图中。
13、一种实施方式中,所述损失函数包括逐像素损失、自感应损失和相对对抗损失,所述逐像素损失、自感应损失和相对对抗损失分别对应不同的权重,所述损失函数通过所述处理单元采用如下方式确定:将所述逐像素损失与对应权重的乘积、自感应损失对应权重的乘积、相对对抗损失对应权重的乘积之和确定为所述损失函数。
14、根据本公开实施例的第三方面,提供一种音唤醒数据的处理装置,包括:处理器:用于存储处理器可执行指令的存储器;其中,所述处理器被配置为:执行第一方面或者第以方面任意一种实施方式中所述的语音唤醒数据的处理方法。
15、根据本公开实施例的第四方面,提供一种存储介质,所述存储介质中存储有指令,当所述存储介质中的指令由处理器执行时,使得处理器能够执行第一方面或者第以方面任意一种实施方式中所述的语音唤醒数据的处理方法。
16、本公开的实施例提供的技术方案可以包括以下有益效果:采集实际场景中的误唤醒数据,通过生成对抗网络处理误唤醒数据,生成满足唤醒模型训练要求,训练一级唤醒网络的误唤醒数据。通过本公开,降低整个唤醒流程的误唤醒率。
17、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
1.一种语音唤醒数据的处理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
3.根据权利要求1所述的方法,其特征在于,所述通过生成对抗网络处理所述第一频谱图,生成第二频谱图,包括:
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
5.根据权利要求4所述的方法,其特征在于,所述通过生成对抗网络的解码路径,处理所述不同深度层级的频谱特征图中的最深层特征图,包括:
6.根据权利要求3所述的方法,其特征在于,所述损失函数包括逐像素损失、自感应损失和相对对抗损失,所述逐像素损失、自感应损失和相对对抗损失分别对应不同的权重,
7.一种语音唤醒数据的处理装置,其特征在于,包括:
8.根据权利要求7所述的装置,其特征在于,所述处理单元还用于:
9.根据权利要求7所述的装置,其特征在于,所述处理单元采用如下方式通过生成对抗网络处理所述第一频谱图,生成第二频谱图:
10.根据权利要求9所述的装置,其特征在于,所述处理单元还用于:
11.根据权利要求10所述的装置,其特征在于,所述处理单元采用如下方式通过生成对抗网络的解码路径,处理所述不同深度层级的频谱特征图中的最深层特征图:
12.根据权利要求9所述的装置,其特征在于,所述损失函数包括逐像素损失、自感应损失和相对对抗损失,所述逐像素损失、自感应损失和相对对抗损失分别对应不同的权重,
13.一种语音唤醒数据的处理装置,其特征在于,包括:
14.一种存储介质,其特征在于,所述存储介质中存储有指令,当所述存储介质中的指令由处理器执行时,使得处理器能够执行权利要求1至6中任一项所述的语音唤醒数据的处理方法。