本公开涉及语音,尤其涉及一种语音信号处理方法及装置、电子设备、存储介质。
背景技术:
1、线上会议、线上游戏和虚拟现实(virtual reality,vr)游戏等场景中均会涉及多人线上通话。通常,每个参与人大多使用耳机或简单的扬声器与单传声器等较为简单的音频硬件进行上行与下行通话。这种情况下,对每个收听者来说,其收听到其他人的声音并不能带来方向感,特别是在其他人同时说话时候声像还会发生重叠,导致听觉疲劳,听感混乱等,影响沟通效率。
技术实现思路
1、本公开提供一种语音信号处理方法及装置、电子设备、存储介质。
2、根据本公开实施例的第一方面,提供一种语音信号处理方法,包括:
3、在接收到语音信号的情况下,基于声学特征识别所述语音信号中的发声对象;
4、响应于所述语音信号中包括不同的发声对象,将所述不同的发声对象的语音进行声像定位后输出;其中,不同发声对象的语音的声像方位不同。
5、在一些实施例中,所述基于声学特征识别所述语音信号中的发声对象,包括:
6、基于声学特征对所述语音信号进行语音分离;
7、响应于在所述语音信号中分离出不同的语音,确定所述语音信号中包括不同的发声对象。
8、在一些实施例中,所述基于声学特征对所述语音信号进行语音分离,包括:
9、基于声学特征检测所述语音信号中发声对象发生变化的时刻;
10、基于发声对象发生变化的时刻,将所述语音信号分割成不同的语音片段;
11、提取各语音片段的声纹,并将不同语音片段的声纹进行比对;
12、将声纹差异小于预设差异阈值的语音片段,确定为所述语音信号中的同一语音;
13、将声纹差异大于或等于所述预设差异阈值的语音片段,确定为所述语音信号中的不同语音。
14、在一些实施例中,各发声对象对应设置有方位角,不同发声对象的方位角不同;所述响应于所述语音信号中包括不同的发声对象,将所述不同的发声对象的语音进行声像定位后输出,包括:
15、响应于所述语音信号中包括不同的发声对象,基于头相关传递函数以及各发声对象对应的方位角将各发声对象的语音进行声像定位后输出。
16、在一些实施例中,所述基于头相关传递函数以及各发声对象对应的方位角将各发声对象的语音进行声像定位后输出,包括:
17、针对每一发声对象的语音,将语音转换为频域信号;
18、基于发声对象对应的方位角以及所述头相关传递函数对频域信号进行渲染,得到渲染后的频域信号;
19、将渲染后的每一频域信号转换为时域信号并输出。
20、在一些实施例中,所述头相关传递函数包括不同声道对应的传递函数,所述基于发声对象对应的方位角以及所述头相关传递函数对频域信号进行渲染,得到渲染后的频域信号,包括:
21、基于发声对象对应的方位角以及各声道对应的传递函数对频域信号进行渲染,得到各声道渲染后的频域信号;
22、所述将渲染后的每一频域信号转换为时域信号并输出,包括:
23、将每一声道渲染后的频域信号转换为时域信号并输出。
24、在一些实施例中,所述方法还包括:
25、接收对各发声对象的方位角的设置指令;
26、根据所述设置指令,设置各发声对象对应的方位角。
27、根据本公开实施例的第二方面,提供一种语音信号处理装置,所述装置包括:
28、识别模块,配置为在接收到语音信号的情况下,基于声学特征识别所述语音信号中的发声对象;
29、声像定位模块,配置为响应于所述语音信号中包括不同的发声对象,将所述不同的发声对象的语音进行声像定位后输出;其中,不同发声对象的语音的声像方位不同。
30、在一些实施例中,所述识别模块,还配置为基于声学特征对所述语音信号进行语音分离;响应于在所述语音信号中分离出不同的语音,确定所述语音信号中包括不同的发声对象。
31、在一些实施例中,所述识别模块,还配置为基于声学特征检测所述语音信号中发声对象发生变化的时刻;基于发声对象发生变化的时刻,将所述语音信号分割成不同的语音片段;提取各语音片段的声纹,并将不同语音片段的声纹进行比对;将声纹差异小于预设差异阈值的语音片段,确定为所述语音信号中的同一语音;将声纹差异大于或等于所述预设差异阈值的语音片段,确定为所述语音信号中的不同语音。
32、在一些实施例中,各发声对象对应设置有方位角,不同发声对象的方位角不同;所述声像定位模块,还配置为响应于所述语音信号中包括不同的发声对象,基于头相关传递函数以及各发声对象对应的方位角将各发声对象的语音进行声像定位后输出。
33、在一些实施例中,所述声像定位模块,还配置为针对每一发声对象的语音,将语音转换为频域信号;基于发声对象对应的方位角以及所述头相关传递函数对频域信号进行渲染,得到渲染后的频域信号;将渲染后的每一频域信号转换为时域信号并输出。
34、在一些实施例中,所述头相关传递函数包括不同声道对应的传递函数,所述声像定位模块,还配置为基于发声对象对应的方位角以及各声道对应的传递函数对频域信号进行渲染,得到各声道渲染后的频域信号;将每一声道渲染后的频域信号转换为时域信号并输出。
35、在一些实施例中,所述装置还包括:
36、接收模块,配置为接收对各发声对象的方位角的设置指令;
37、设置模块,配置为根据所述设置指令,设置各发声对象对应的方位角。
38、根据本公开实施例的第三方面,提供一种电子设备,所述电子设备包括:
39、处理器;
40、用于存储处理器可执行指令的存储器;
41、其中,所述处理器被配置为执行如上述第一方面所述的语音信号处理方法。
42、根据本公开实施例的第四方面,提供一种存储介质,包括:
43、当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如上述第一方面中所述的语音信号处理方法。
44、本公开的实施例提供的技术方案可以包括以下有益效果:
45、在本公开的实施例中,电子设备基于声学特征识别语音信号中的发声对象,并对不同发声对象的语音进行声像方位不同的定位以提升用户听音体验,而无需依赖于语音软件对发声对象进行区分以进行声像定位,适用于例如无法获得会议软件ip从而区分语音信号来自不同发声对象的场景,或接收到同一设备输出的包括多个发声对象的语音信号的场景,由此可见,本公开实施例的方案适用性更广,智能性较高。
46、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
1.一种语音信号处理方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述基于声学特征识别所述语音信号中的发声对象,包括:
3.根据权利要求2所述的方法,其特征在于,所述基于声学特征对所述语音信号进行语音分离,包括:
4.根据权利要求1所述的方法,其特征在于,各发声对象对应设置有方位角,不同发声对象的方位角不同;所述响应于所述语音信号中包括不同的发声对象,将所述不同的发声对象的语音进行声像定位后输出,包括:
5.根据权利要求4所述的方法,其特征在于,所述基于头相关传递函数以及各发声对象对应的方位角将各发声对象的语音进行声像定位后输出,包括:
6.根据权利要求5所述的方法,其特征在于,所述头相关传递函数包括不同声道对应的传递函数,所述基于发声对象对应的方位角以及所述头相关传递函数对频域信号进行渲染,得到渲染后的频域信号,包括:
7.根据权利要求4所述的方法,其特征在于,所述方法还包括:
8.一种语音信号处理装置,其特征在于,所述装置包括:
9.一种电子设备,其特征在于,包括:
10.一种非临时性计算机可读存储介质,其特征在于,当所述存储介质中的指令由电子设备中的处理器执行时,使得电子设备能够执行如权利要求1至7中任一项所述的语音信号处理方法。