本公开涉及语音控制,尤其涉及一种语音处理方法、装置、电子设备及存储介质。
背景技术:
1、在智能语音控制场景中,为了使得智能设备能够准确执行用户指令,需要基于下达语音指令的用户的位置,以及语音指令的内容,确定用户控制意图,进而执行与该语音指令对应的控制操作。
2、现有技术中,通过波束形成方法,对待处理语音信息进行处理,进行声源定位。在实际中,对于分布式麦克风阵列,中高频段波束形成难以实现,同时,由于受到背向拾音的影响,声音的衰减规律不同于自由场,会导致声源定位算法出现偏差,最终得到的声源定位结果不准确。
技术实现思路
1、为了解决上述技术问题,本公开提供了一种语音处理方法、装置、电子设备及存储介质。
2、第一方面,本公开提供了一种语音处理方法,包括:
3、获取待处理语音信息;所述待处理语音信息为由一个或多个源语音信息形成的语音数据信息;
4、将所述待处理语音信息输入到神经网络模型中进行声源定位及语音区分处理,得到一个或多个所述源语音信息以及各所述源语音信息对应的发音位置。
5、第二方面,本公开还提供了一种语音处理装置,包括:
6、获取模块,用于获取待处理语音信息;所述待处理语音信息为由一个或多个源语音信息形成的语音数据信息;
7、处理模块,用于将所述待处理语音信息输入到神经网络模型中进行声源定位及语音区分处理,得到一个或多个所述源语音信息以及各所述源语音信息对应的发音位置。
8、第三方面,本公开还提供了一种电子设备,包括:处理器和存储器;
9、处理器通过调用存储器存储的程序或指令,用于执行上述任一方法的步骤。
10、第四方面,本公开还提供了一种计算机可读存储介质,计算机可读存储介质存储程序或指令,程序或指令使计算机执行上述任一方法的步骤。
11、本公开实施例提供的技术方案与现有技术相比具有如下优点:
12、本公开实施例提供的技术方案通过将所述待处理语音信息输入到神经网络模型中进行声源定位及语音区分处理,得到一个或多个所述源语音信息以及各所述源语音信息对应的发音位置,实质是借助神经网络模型,代替波束形成方法,进行语音区分以及声源定位。由于其不使用波束形成方法,也就不会受到中高频段波束形成难以实现以及背向拾音的影响,因此可以确保声源定位准确。
1.一种语音处理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述获取待处理语音信息,包括:
3.根据权利要求2所述的方法,其特征在于,所述目标空间包括多个检测位置;所述将所述待处理语音信息输入到神经网络模型中进行声源定位及语音区分处理,得到一个或多个所述源语音信息以及各所述源语音信息对应的发音位置,包括:
4.根据权利要求3所述的方法,其特征在于,所述对于任一所述源语音信息,确定第一形成概率最大的检测位置为所述源语音信息对应的发音位置之前,还包括:
5.根据权利要求2所述的方法,其特征在于,所述目标空间包括多个检测位置;所述将所述待处理语音信息输入到神经网络模型中进行声源定位及语音区分处理,得到一个或多个所述源语音信息以及各所述源语音信息对应的发音位置,包括:
6.根据权利要求5所述的方法,其特征在于,所述对于任一源语音信息,确定第一形成概率最大的所述检测位置为所述源语音信息对应的发音位置,确定第二形成概率最大的所述朝向为所述源语音信息对应的发音朝向之前,还包括:
7.根据权利要求1所述的方法,其特征在于,还包括:
8.根据权利要求7所述的方法,其特征在于,若确定多个待执行指令;所述方法还包括:
9.根据权利要求8所述的方法,其特征在于,所述确定各所述待执行指令的优先级,包括:
10.根据权利要求1所述的方法,其特征在于,所述将所述待处理语音信息输入到神经网络模型中进行声源定位及语音区分处理之前,还包括:
11.根据权利要求10所述的方法,其特征在于,所述获取具有声源定位功能及语音区分功能的神经网络模型,包括:
12.一种语音处理装置,其特征在于,包括:
13.一种电子设备,其特征在于,包括:处理器和存储器;
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行如权利要求1至11任一项所述方法的步骤。