本公开涉及语音控制,尤其涉及一种训练数据生成方法、装置、电子设备及存储介质。
背景技术:
1、在智能语音控制场景中,为了使得智能设备能够准确执行用户指令,经常需要结合下达语音指令的用户的位置,以及语音指令的内容,确定用户控制意图,进行执行与该语音指令对应的控制操作。
2、在实际中,可以利用神经网络模型进行声源定位。这就要求神经网络模型对声源定位具有较高的精度。若用于训练神经网络模型的训练数据较少,这会导致所训练出的神经网络模型泛化能力有限,声源定位的精度较低,不能满足使用需求。因此如何大量地得到可用于训练神经网络模型的训练数据尤为关键。
技术实现思路
1、为了解决上述技术问题,本公开提供了一种训练数据生成方法、装置、电子设备及存储介质。
2、第一方面,本公开提供了一种训练数据生成方法,包括:
3、获取n个源样本语音信息和n个目标声音传递特性信息,所述n个目标声音传递特性信息分别对应不同的声源位置信息;n为大于或等于1的正整数;
4、将所述n个源样本语音信息中的每一个分别和所述n个目标声音传递特性信息中的每一个进行对应,得到具有对应关系的所述目标声音传递特性信息和所述源样本语音信息;
5、将所述目标声音传递特性信息对应的所述声源位置信息作为与其对应的所述源样本语音信息的发音位置信息;
6、将具有对应关系的所述声音传递特性信息与所述源样本语音信息进行耦合,得到单路样本语音信息;
7、将所有所述单路样本语音信息进行叠加,得到多路样本语音信息;
8、将所述多路样本语音信息进行处理,确定所述训练数据的输入量;将各所述源样本语音信息以及各所述源样本语音信息的发音位置信息进行处理,确定所述训练数据的输出量。
9、第二方面,本公开还提供了一种训练数据生成装置,包括:
10、获取模块,用于获取n个源样本语音信息和n个目标声音传递特性信息,所述n个目标声音传递特性信息分别对应不同的声源位置信息;n为大于或等于1的正整数;
11、对应模块,用于将所述n个源样本语音信息中的每一个分别和所述n个目标声音传递特性信息中的每一个进行对应,得到具有对应关系的所述目标声音传递特性信息和所述源样本语音信息;
12、确定模块,用于将所述目标声音传递特性信息对应的所述声源位置信息作为与其对应的所述源样本语音信息的发音位置信息;
13、耦合模块,用于将具有对应关系的所述声音传递特性信息与所述源样本语音信息进行耦合,得到单路样本语音信息;
14、叠加模块,用于将所有所述单路样本语音信息进行叠加,得到多路样本语音信息;
15、生成模块,用于将所述多路样本语音信息进行处理,确定所述训练数据的输入量;将各所述源样本语音信息以及各所述源样本语音信息的发音位置信息进行处理,确定所述训练数据的输出量。
16、第三方面,本公开还提供了一种电子设备,包括:处理器和存储器;
17、处理器通过调用存储器存储的程序或指令,用于执行上述任一方法的步骤。
18、第四方面,本公开还提供了一种计算机可读存储介质,计算机可读存储介质存储程序或指令,程序或指令使计算机执行上述任一方法的步骤。
19、本公开实施例提供的技术方案与现有技术相比具有如下优点:
20、本公开实施例提供的技术方案通过设置获取n个源样本语音信息和n个目标声音传递特性信息,n个目标声音传递特性信息分别对应不同的声源位置信息;n为大于或等于1的正整数;将n个源样本语音信息中的每一个分别和n个目标声音传递特性信息中的每一个进行对应,得到具有对应关系的目标声音传递特性信息和源样本语音信息;将目标声音传递特性信息对应的声源位置信息作为与其对应的源样本语音信息的发音位置信息;将具有对应关系的声音传递特性信息与源样本语音信息进行耦合,得到单路样本语音信息;将所有单路样本语音信息进行叠加,得到多路样本语音信息;将多路样本语音信息进行处理,确定训练数据的输入量;将各源样本语音信息以及各源样本语音信息的发音位置信息进行处理,确定训练数据的输出量。其实质是完全通过计算机仿真的方式,生成训练数据,整个训练数据生成过程不需要工作人员参与,尤其不需要工作人员在实地播放源样本语音信息,也不需要实地采集多路样本语音信息,其可以实现在短时间内生成大量训练数据的目的,有利于提高所训练出的神经网络模型的泛化能力,有利于提高神经网络模型的声源定位精度。
1.一种训练数据生成方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述获取n个目标声音传递特性信息,包括:
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
4.根据权利要求2所述的方法,其特征在于,所述获取目标空间的声音传递特性信息集,还包括:
5.根据权利要求4所述的方法,其特征在于,所述对比所述第一测试信息和所述第二测试信息,得到所述声音传递特性信息,包括:
6.根据权利要求4所述的方法,其特征在于,所述将各所述源样本语音信息的发音位置信息进行处理,确定所述训练数据的输出量,包括:
7.根据权利要求1所述的方法,其特征在于,所述将所述多路样本语音信息进行处理,确定所述训练数据的输入量;将各所述源样本语音信息以及与各所述源样本语音信息的发音位置信息进行处理,确定训练数据的输出量,包括:
8.根据权利要求1所述的方法,其特征在于,所述将所述多路样本语音信息进行处理,确定所述训练数据的输入量,包括:
9.根据权利要求1所述的方法,其特征在于,当n为大于1的正整数时,n个源样本语音信息中任意两个由不同的对象发声形成。
10.一种训练数据生成装置,其特征在于,包括:
11.一种电子设备,其特征在于,包括:处理器和存储器;
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行如权利要求1至9任一项所述方法的步骤。