音频资源的回声消除方法和装置、存储介质及电子装置与流程

文档序号:32519979发布日期:2022-12-13 18:58阅读:61来源:国知局

1.本技术涉及智慧家庭技术领域,具体而言,涉及一种音频资源的回声消除方法和装置、存储介质及电子装置。


背景技术:

2.随着科技的发展推动了音频采集技术的广泛应用,比如应用在网络电话、视频会议、人机语音交互等领域,在这些领域中都对采集到的音频资源的质量有一定的要求,干扰音频(如回声、噪声、混响等)作为影响音频采集质量的重要因素,影响音频资源的质量,比如回声的影响,即设备播放的音频资源又被自身采集到,从而形成回声,进而严重影响音频资源采集质量,如何消除采集到的音频资源中的干扰音频已经成为本领域技术人员的研究重点。
3.当前,对于干扰音频的消除常用的方式是构建音频消除网络模型的方式,即通过对初始音频消除网络模型进行训练,使得训练后的音频消除网络模型,进而把设备采集到的音频资源和设备同时播放的音频资源输入到训练后的音频消除网络模型中,从而得到消除干扰音频后的干净的音频资源。但是,这种方法虽然消除了干扰音频,但是存在的问题是模型高度复杂,参数量庞大,会消耗很高的运算资源,使得这些方法不能在计算资源有限的平台上运行。
4.针对相关技术中对音频资源的回声消除效率较低等问题,尚未提出有效的解决方案。


技术实现要素:

5.本技术实施例提供了一种音频资源的回声消除方法和装置、存储介质及电子装置,以至少解决相关技术中对音频资源的回声消除效率较低等问题。
6.根据本技术实施例的一个实施例,提供了一种音频资源的回声消除方法,包括:获取第一音频资源和第二音频资源,其中,所述第一音频资源为目标设备在播放所述第二音频资源的过程中采集到的音频资源;将所述第一音频资源和所述第二音频资源输入至目标参数生成网络,得到所述目标参数生成网络输出的目标滤波参数,其中,所述目标参数生成网络是使用标注了回声消除音频的训练样本对回声消除模型进行训练得到的,所述回声消除模型包括依次连接的初始参数生成网络和目标滤波器,所述训练样本包括第一音频样本和第二音频样本,所述第一音频样本为所述目标设备在播放所述第二音频样本的过程中采集到的音频资源,所述回声消除音频是从所述第一音频样本中消除了所述第二音频样本的音频资源;使用所述目标滤波参数和所述目标滤波器对所述第一音频资源进行滤波,得到目标音频资源。
7.可选的,所述将所述第一音频资源和所述第二音频资源输入至目标参数生成网络,得到所述目标参数生成网络输出的目标滤波参数,包括:将所述第一音频资源和所述第二音频资源输入至所述目标参数生成网络;获取所述目标参数生成网络的第一分支输出的
第一滤波参数,以及所述目标参数生成网络的第二分支输出的第二滤波参数,其中,所述第一滤波参数为所述目标滤波器的运行参数,所述第二滤波参数用于表征所述第一音频资源中所携带的由所述第二音频资源造成的回声成份的特征。
8.可选的,在所述将所述第一音频资源和所述第二音频资源输入至目标参数生成网络,得到所述目标参数生成网络输出的目标滤波参数之前,所述方法还包括:将所述训练样本输入所述初始参数生成网络,得到所述初始参数生成网络输出的滤波参数结果;使用所述滤波参数结果和所述目标滤波器对所述第一音频样本进行滤波,得到音频资源结果;根据所述音频资源结果与所述回声消除音频之间的损失值对所述初始参数生成网络的网络参数进行调整,直至网络收敛,得到所述目标参数生成网络。
9.可选的,所述将所述训练样本输入所述初始参数生成网络,得到所述初始参数生成网络输出的滤波参数结果,包括:将所述训练样本输入所述初始参数生成网络;获取所述初始参数生成网络的第一分支输出的第一结果和所述初始参数生成网络的第二分支输出的第二结果作为所述滤波参数结果,其中,所述初始参数生成网络的第一分支用于估计所述目标滤波器的噪声方差,所述初始参数生成网络的第二分支用于估计所述第一音频样本中所携带的由所述第二音频样本造成的回声成份。
10.可选的,所述使用所述滤波参数结果和所述目标滤波器对所述第一音频样本进行滤波,得到音频资源结果,包括:使用所述第二结果提取所述第一音频样本中携带的参考回声成份,其中,所述参考回声成份是由所述第二音频样本造成的;使用以所述第一结果为运行参数的所述目标滤波器对所述参考回声成份进行滤波,得到所述音频资源结果。
11.可选的,所述使用所述目标滤波参数和所述目标滤波器对所述第一音频资源进行滤波,得到目标音频资源,包括:使用所述目标滤波参数中包括的第二滤波参数提取所述第一音频资源中的目标音频特征,其中,所述第二滤波参数用于表征所述第一音频资源中所携带的由所述第二音频资源造成的回声成份的特征;将所述目标音频特征输入以第一滤波参数为运行参数的所述目标滤波器,得到所述目标音频。
12.可选的,所述使用所述目标滤波参数中包括的第二滤波参数提取所述第一音频资源中的目标音频特征,包括:计算图像掩膜和所述第一音频资源的频谱图的乘积,得到特征频谱图,其中,所述第二滤波参数包括所述图像掩膜,所述图像掩膜用于表征所述频谱图中包括所述目标音频特征的区域;将所述特征频谱图所记载的频谱特征确定为所述目标音频特征。
13.根据本技术实施例的另一个实施例,还提供了一种音频资源的回声消除装置,包括:获取模块,用于获取第一音频资源和第二音频资源,其中,所述第一音频资源为目标设备在播放所述第二音频资源的过程中采集到的音频资源;第一输入模块,用于将所述第一音频资源和所述第二音频资源输入至目标参数生成网络,得到所述目标参数生成网络输出的目标滤波参数,其中,所述目标参数生成网络是使用标注了回声消除音频的训练样本对回声消除模型进行训练得到的,所述回声消除模型包括依次连接的初始参数生成网络和目标滤波器,所述训练样本包括第一音频样本和第二音频样本,所述第一音频样本为所述目标设备在播放所述第二音频样本的过程中采集到的音频资源,所述回声消除音频是从所述第一音频样本中消除了所述第二音频样本的音频资源;第一滤波模块,用于使用所述目标滤波参数和所述目标滤波器对所述第一音频资源进行滤波,得到目标音频资源。
14.根据本技术实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述音频资源的回声消除方法。
15.根据本技术实施例的又一方面,还提供了一种电子装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,上述处理器通过计算机程序执行上述音频资源的回声消除方法。
16.在本技术实施例中获取第一音频资源和第二音频资源,其中,第一音频资源为目标设备在播放第二音频资源的过程中采集到的音频资源;将第一音频资源和第二音频资源输入至目标参数生成网络,得到目标参数生成网络输出的目标滤波参数,其中,目标参数生成网络是使用标注了回声消除音频的训练样本对回声消除模型进行训练得到的,回声消除模型包括依次连接的初始参数生成网络和目标滤波器,训练样本包括第一音频样本和第二音频样本,第一音频样本为目标设备在播放第二音频样本的过程中采集到的音频资源,回声消除音频是从第一音频样本中消除了第二音频样本的音频资源;使用目标滤波参数和目标滤波器对第一音频资源进行滤波,得到目标音频资源,即回声消除模型中包括依次连接的初始参数生成网络和目标滤波器,通过使用标注了回声消除音频的训练样本对回声消除模型进行训练,从而得到了训练后的目标参数生成网络,进而在进行回声消除时,将采集到的第一音频资源和播放的第二音频资源输入到目标参数生成网络中,该目标参数输出网络输出的是目标滤波器使用的目标滤波参数,进而使用目标滤波参数和目标滤波器能够对第一音频资源进行滤波,得到消除回声后的目标音频资源,也就是说通过使用训练样本对回声消除模型中的初始参数生成网络进行训练,从而得到目标参数生成网络,使得该网络能够输出目标滤波器所使用的目标滤波参数,而不是使训练后的网络模型能够直接输出滤波后的目标音频资源,从而降低了模型的复杂度,以及降低了模型构建过程中的数据处理量,实现通过有限的运算资源完成对第一音频资源进行回声消除的操作。采用上述技术方案,解决了相关技术中对音频资源的回声消除效率较低等问题,实现了提高对音频资源的回声消除效率的技术效果。
附图说明
17.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本技术的实施例,并与说明书一起用于解释本技术的原理。
18.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
19.图1是根据本技术实施例的一种音频资源的回声消除方法的硬件环境示意图;
20.图2是根据本技术实施例的一种音频资源的回声消除方法的流程图;
21.图3是根据本技术实施例的一种可选的目标回声消除流程图;
22.图4是根据本技术实施例的一种可选的初始参数生成网络结构示意图;
23.图5是根据本技术实施例的一种音频资源的回声消除装置的结构框图。
具体实施方式
24.为了使本技术领域的人员更好地理解本技术方案,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分的实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本技术保护的范围。
25.需要说明的是,本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
26.根据本技术实施例的一个方面,提供了一种音频资源的回声消除方法。该方法广泛应用于智慧家庭(smart home)、智能家居、智能家用设备生态、智慧住宅(intelligence house)生态等全屋智能数字化控制应用场景。可选地,在本实施例中,图1是根据本技术实施例的一种音频资源的回声消除方法的硬件环境示意图,上述方法可以应用于如图1所示的由终端设备102和服务器104所构成的硬件环境中。如图1所示,服务器104通过网络与终端设备102进行连接,可用于为终端或终端上安装的客户端提供服务(如应用服务等),可在服务器上或独立于服务器设置数据库,用于为服务器104提供数据存储服务,可在服务器上或独立于服务器配置云计算和/或边缘计算服务,用于为服务器104提供数据运算服务。
27.上述网络可以包括但不限于以下至少之一:有线网络,无线网络。上述有线网络可以包括但不限于以下至少之一:广域网,城域网,局域网,上述无线网络可以包括但不限于以下至少之一:wifi(wireless fidelity,无线保真),蓝牙。终端设备102可以并不限定于为pc、手机、平板电脑、智能空调、智能烟机、智能冰箱、智能烤箱、智能炉灶、智能洗衣机、智能热水器、智能洗涤设备、智能洗碗机、智能投影设备、智能电视、智能晾衣架、智能窗帘、智能影音、智能插座、智能音响、智能音箱、智能新风设备、智能厨卫设备、智能卫浴设备、智能扫地机器人、智能擦窗机器人、智能拖地机器人、智能空气净化设备、智能蒸箱、智能微波炉、智能厨宝、智能净化器、智能饮水机、智能门锁等。
28.在本实施例中提供了一种音频资源的回声消除方法,应用于上述设备终端,图2是根据本技术实施例的一种音频资源的回声消除方法的流程图,如图2所示,该流程包括如下步骤:
29.步骤s202,获取第一音频资源和第二音频资源,其中,所述第一音频资源为目标设备在播放所述第二音频资源的过程中采集到的音频资源;
30.步骤s204,将所述第一音频资源和所述第二音频资源输入至目标参数生成网络,得到所述目标参数生成网络输出的目标滤波参数,其中,所述目标参数生成网络是使用标注了回声消除音频的训练样本对回声消除模型进行训练得到的,所述回声消除模型包括依次连接的初始参数生成网络和目标滤波器,所述训练样本包括第一音频样本和第二音频样本,所述第一音频样本为所述目标设备在播放所述第二音频样本的过程中采集到的音频资
源,所述回声消除音频是从所述第一音频样本中消除了所述第二音频样本的音频资源;
31.步骤s206,使用所述目标滤波参数和所述目标滤波器对所述第一音频资源进行滤波,得到目标音频资源。
32.通过上述步骤,回声消除模型中包括依次连接的初始参数生成网络和目标滤波器,通过使用标注了回声消除音频的训练样本对回声消除模型进行训练,从而得到了训练后的目标参数生成网络,进而在进行回声消除时,将采集到的第一音频资源和播放的第二音频资源输入到目标参数生成网络中,该目标参数输出网络输出的是目标滤波器使用的目标滤波参数,进而使用目标滤波参数和目标滤波器能够对第一音频资源进行滤波,得到消除回声后的目标音频资源,也就是说通过使用训练样本对回声消除模型中的初始参数生成网络进行训练,从而得到目标参数生成网络,使得该网络能够输出目标滤波器所使用的目标滤波参数,而不是使训练后的网络模型能够直接输出滤波后的目标音频资源,从而降低了模型的复杂度,以及降低了模型构建过程中的数据处理量,实现通过有限的运算资源完成对第一音频资源进行回声消除的操作。采用上述技术方案,解决了相关技术中对音频资源的回声消除效率较低等问题,实现了提高对音频资源的回声消除效率的技术效果。
33.在上述步骤s202提供的技术方案中,第二音频资源是在目标设备播放的音频。
34.可选地,在本实施例中,音频资源为表示音频内容的数据,音频资源可以但不限于包括音频本身、音频的频谱图等。
35.可选地,在本实施例中,目标设备为具有音频播放功能和音频采集功能的设备,比如,目标设备可以是电话、智能电视、智能音响等等。
36.在上述步骤s204提供的技术方案中,目标滤波参数为使用目标滤波器滤除第一音频资源中回声的过程中目标滤波器所使用的参数,可以但不限于包括用于指示滤波器运行状态的参数、用于表征第一音频中回声成份特征的参数。
37.可选地,在本实施例中,使用训练样本对回声消除模型进行训练可以但不限于是将第一音频样本和第二音频样本输入回声消除模型中的初始参数生成网络中,得到初始参数生成网络输出的滤波参数结果,该滤波参数结果用于滤除由第二音频样本造成的回声成份的音频,进而将滤波参数结果输入到目标滤波器,使用目标滤波器和滤波参数结果对第一音频样本进行过滤,得到消除第一音频样本中由二音频样本后的音频资源结果,进而根据目标滤波器输出的音频资源结果和回声消除音频对初始参数生成网络的网络参数进行调整,比如,根据音频资源结果和回声消除音频计算初始参数生成网络的损失值,根据损失值对初始参数生成网络的参数进行梯度更新,在损失值小于目标阈值的情况下,停止对初始参数生成网络的网络参数的更新,得到目标参数生成网络。
38.在上述步骤s206提供的技术方案中,目标滤波器可以但不限于根据目标滤波参数模拟真实场景的回声路径,然后结合第二音频资源估计出由第二音频资源造成的回声成份的音频,再从第一音频资源中减去回声成份的音频从而实现对第一音频资源进行滤波的目的。
39.可选地,在本实施例中,目标滤波器可以但不限于是卡尔曼滤波器、维纳滤波器等自适应滤波器。
40.作为一种可选的实施例,所述将所述第一音频资源和所述第二音频资源输入至目标参数生成网络,得到所述目标参数生成网络输出的目标滤波参数,包括:
41.将所述第一音频资源和所述第二音频资源输入至所述目标参数生成网络;
42.获取所述目标参数生成网络的第一分支输出的第一滤波参数,以及所述目标参数生成网络的第二分支输出的第二滤波参数,其中,所述第一滤波参数为所述目标滤波器的运行参数,所述第二滤波参数用于表征所述第一音频资源中所携带的由所述第二音频资源造成的回声成份的特征。
43.可选地,在本实施例中,由第二音频资源造成的回声成份是第二音频资源播放在空间中传播后形成的音频,可以但不限于包括音频传播形成的回声、混响、噪声等等。
44.可选地,在本实施例中,回声成份的特征可以是回声成份对应的音频的频谱特征,或者还可以是回声成份对应的音频在第一音频资源中的位置、回声成份对应的音频的频谱在第一音频资源的频谱中的位置等特征,进而能够根据第二滤波参数确定第一音频资源中的回声成份。
45.可选地,在本实施例中,目标滤波器可以但不限于用于使用第一滤波参数和回声成份模拟真实场景的回声路径,进而再结合第二音频资源能够估计出回声音频,从而可以过滤出第一音频资源中的回声音频。图3是根据本技术实施例的一种可选的目标回声消除流程图,如图3所示,可以但不限于包括如下步骤:
46.s301,获取目标设备播放的第二音频资源;
47.s302,在目标设备播放第二音频资源的情况下,获取目标设备采集到的环境中的第一音频资源;
48.s303,对第一音频资源和第二音频资源进行分帧、加窗和短时傅里叶变化,并将变换后的结果输入到回声消除模型中的目标参数生成网络;
49.s304,获取目标参数生成网络的第一分支输出的用于指示目标滤波器运行的第一滤波参数,该第一滤波参数可以但不限于是根据第一音频资源和第二音频资源估计出的噪声方差(协方差矩阵),估计出的第一滤波参数不同,目标滤波器使用该第一滤波参数后的滤波功能也是不同的;
50.s305,获取目标参数生成网络的第二分支输出的用于表征所述第一音频资源中所携带的由所述第二音频资源造成的回声成份(可以但不限于包括第二音频资源传输造成的回声、噪声、混响等)的特征的第二滤波参数,该第二滤波参数可以但不限于是用于指示回声成份的图像掩膜;
51.s306,计算图像掩膜和第一音频资源的乘积,从而得到回声成份,该回声成份可以后续被目标滤波器用来估计无回声成份的干净音频与回声音频之间的线性转移函数;
52.s307,将回声成份和第一滤波参数输入到目标滤波器中,目标滤波器可以但不限于用于使用第一滤波参数和回声成份模拟真实场景的回声路径,进而再结合第二音频资源能够估计出回声音频,从而可以过滤出第一音频资源中的回声音频;
53.s308,获取目标滤波器输出的目标音频资源。
54.通过上述实施例,通过目标参数生成网络和目标滤波器的结合,目标参数说生成网络输出目标滤波器使用的目标滤波参数,从而目标滤波器使用目标滤波参数对采集到的音频资源进行滤波,而不是相关技术中直接通过训练好的网络模型直接输出滤波后的音频,上述实施例简化了目标参数生成网络的估计任务,来达到削减参数量的目的,同时保持良好的降噪性能,降低了模型构建和使用过程中数据运算资源的占用量,并且该方法只需
要用到过去一帧的音频,使得在系统的时间延迟低。
55.在上述实施例中,目标参数生成网络是使用标注了回声消除音频的训练样本对回声消除模型进行训练得到的,该回声消除模型包括依次连接的初始参数生成网络和目标滤波器,训练样本输入值初始参数生成网络中,并根据初始参数生成网络输出的滤波参数结果和滤波器对训练样本进行滤波,得到目标滤波器输出的音频资源结果,进而根据音频资源结果和回声消除音频对初始参数生成网络的网络参数进行调整,即整个训练过程中调整的是初始参数生成模网络的网络参数,使得初始参数生成网络能够输出目标滤波器使用的滤波参数,从而降低了模型训练过程中存在的参数庞大,数据运算量较高等问题,图4是根据本技术实施例的一种可选的初始参数生成网络结构示意图,如图4所示,初始参数生成模型包括由三个门控循环单元为隐层的循环神经网络,以及两路参数输出分支(每一路分支包括一层全连接层和西格玛激活函数),标注了回声消除音频的训练样本中包括第一音频样本和第二音频样本(第一音频样本为目标设备在播放第二音频样本的过程中采集到的音频资源,回声消除音频是从第一音频样本中消除了第二音频样本的音频资源),将训练样本输入到包括由三个门控循环单元为隐层的循环神经网络,在通过循环神经网络后,输入到两个不同的分支,这两个分支都由一层全连接层和西格玛激活函数构成,不同的是,初始参数生成网络的第一分支用于估计目标滤波器的噪声方差,初始参数生成网络的第二分支用于估计第一音频样本中所携带的由第二音频样本造成的回声成份,估计出的回声成份与噪声方差经过目标滤波器,得到估计出的干净语音,用估计出的干净语音频和用作标签的回声消除音频来计算网络的损失,损失函数采用最小均方误差的方法,估计出的损失随着可导的卡尔曼滤波回传到初始参数生产网络进行梯度更新,从而完成对初始参数生成网络的训练。
56.作为一种可选的实施例,在所述将所述第一音频资源和所述第二音频资源输入至目标参数生成网络,得到所述目标参数生成网络输出的目标滤波参数之前,所述方法还包括:
57.将所述训练样本输入所述初始参数生成网络,得到所述初始参数生成网络输出的滤波参数结果;
58.使用所述滤波参数结果和所述目标滤波器对所述第一音频样本进行滤波,得到音频资源结果;
59.根据所述音频资源结果与所述回声消除音频之间的损失值对所述初始参数生成网络的网络参数进行调整,直至网络收敛,得到所述目标参数生成网络。
60.可选地,在本实施例中,音频资源结果可以但不限于是滤除回声成份的音频、滤除回声成份的音频的对应的频谱图。
61.可选地,在本实施例中,音频资源结果与回声消除音频之间的损失值可以但不限于是使用损失函数对音频资源结果和回声消除音频进行计算得到的,损失函数可以但不限于是均方误差损失函数。
62.可选地,在本实施例中,当音频资源结果和回声消除音频之间的损失值小于或者等于目标数值的情况下,网络收敛。
63.作为一种可选的实施例,所述将所述训练样本输入所述初始参数生成网络,得到所述初始参数生成网络输出的滤波参数结果,包括:
64.将所述训练样本输入所述初始参数生成网络;
65.获取所述初始参数生成网络的第一分支输出的第一结果和所述初始参数生成网络的第二分支输出的第二结果作为所述滤波参数结果,其中,所述初始参数生成网络的第一分支用于估计所述目标滤波器的噪声方差,所述初始参数生成网络的第二分支用于估计所述第一音频样本中所携带的由所述第二音频样本造成的回声成份。
66.可选地,在本实施例中,初参数生成网络的第二分支可以直接估计出由第二音频样本造成的回声成份,或者是估计出在第一音频样本中提取第二音频造成的回声成份所使用的参数,该参数可以但不限于用于指示回声成份在第一音频样本中的特征,比如回声成份在第一音频样本中的位置、回声成份的频谱特征等等,进而能够根据该参数在第一音频样本中确定出回声成份。
67.可选地,在本实施例中,初始参数生成网络的第一分支用于估计出与目标滤波器匹配的噪声方差,使用的目标滤波器的种类不同,估计出的噪声方差不同,比如,该噪声方差可以是根据第一音频资源和第二音频资源的音频特征估计出的协方差矩阵,使用不同的滤波器,估计出的协方差矩阵中的矩阵参数是不同的。
68.作为一种可选的实施例,所述使用所述滤波参数结果和所述目标滤波器对所述第一音频样本进行滤波,得到音频资源结果,包括:
69.使用所述第二结果提取所述第一音频样本中携带的参考回声成份,其中,所述参考回声成份是由所述第二音频样本造成的;
70.使用以所述第一结果为运行参数的所述目标滤波器对所述参考回声成份进行滤波,得到所述音频资源结果。
71.可选地,在本实施例中,参考回声成分可以但不限于包括由第二音频样本传播造成的回声、混响、噪声等等。
72.可选地,在本实施例中,第二结果可以是使用初始参数生成网络估计出的图像掩膜,该图像掩膜可以但不限于用于指示第二音频样本造成的回声成份的特征,使用第二结果提取第一音频样本中携带的参考回声成分可以是通过计算第二结果和第一音频样本的乘积的方式,比如,第二结果可以是指示回声成份的频谱特征、回声成份在第一音频中的位置信息等等,进而计算第二结果和第一音频样本的乘积,从而得到回声成份。
73.作为一种可选的实施例,所述使用所述目标滤波参数和所述目标滤波器对所述第一音频资源进行滤波,得到目标音频资源,包括:
74.使用所述目标滤波参数中包括的第二滤波参数提取所述第一音频资源中的目标音频特征,其中,所述第二滤波参数用于表征所述第一音频资源中所携带的由所述第二音频资源造成的回声成份的特征;
75.将所述目标音频特征输入以第一滤波参数为运行参数的所述目标滤波器,得到所述目标音频。
76.可选地,在本实施例中,目标音频特征为由所述第二音频资源造成的回声成份的特征。
77.可选地,在本实施例中,将目标音频特征输入到以第一滤波参数为运行参数的目标滤波器中后,目标滤波器能够从第一音频资源中滤除目标音频特征的音频,从而得到目标音频。
78.作为一种可选的实施例,所述使用所述目标滤波参数中包括的第二滤波参数提取所述第一音频资源中的目标音频特征,包括:
79.计算图像掩膜和所述第一音频资源的频谱图的乘积,得到特征频谱图,其中,所述第二滤波参数包括所述图像掩膜,所述图像掩膜用于表征所述频谱图中包括所述目标音频特征的区域;
80.将所述特征频谱图所记载的频谱特征确定为所述目标音频特征。
81.可选地,在本实施例中,图像掩膜可以是用于将第一音频资源的频谱图中出目标音频特征以外的区域进行遮盖,或者还可以用于从第一音频资源的频谱图中将目标音频特征所述的区域提取出来。
82.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本技术各个实施例的方法。
83.图5是根据本技术实施例的一种音频资源的回声消除装置的结构框图;如图5所示,包括:获取模块52,用于获取第一音频资源和第二音频资源,其中,所述第一音频资源为目标设备在播放所述第二音频资源的过程中采集到的音频资源;第一输入模块54,用于将所述第一音频资源和所述第二音频资源输入至目标参数生成网络,得到所述目标参数生成网络输出的目标滤波参数,其中,所述目标参数生成网络是使用标注了回声消除音频的训练样本对回声消除模型进行训练得到的,所述回声消除模型包括依次连接的初始参数生成网络和目标滤波器,所述训练样本包括第一音频样本和第二音频样本,所述第一音频样本为所述目标设备在播放所述第二音频样本的过程中采集到的音频资源,所述回声消除音频是从所述第一音频样本中消除了所述第二音频样本的音频资源;第一滤波模块56,用于使用所述目标滤波参数和所述目标滤波器对所述第一音频资源进行滤波,得到目标音频资源。
84.通过上述实施例,回声消除模型中包括依次连接的初始参数生成网络和目标滤波器,通过使用标注了回声消除音频的训练样本对回声消除模型进行训练,从而得到了训练后的目标参数生成网络,进而在进行回声消除时,将采集到的第一音频资源和播放的第二音频资源输入到目标参数生成网络中,该目标参数输出网络输出的是目标滤波器使用的目标滤波参数,进而使用目标滤波参数和目标滤波器能够对第一音频资源进行滤波,得到消除回声后的目标音频资源,也就是说通过使用训练样本对回声消除模型中的初始参数生成网络进行训练,从而得到目标参数生成网络,使得该网络能够输出目标滤波器所使用的目标滤波参数,而不是使训练后的网络模型能够直接输出滤波后的目标音频资源,从而降低了模型的复杂度,以及降低了模型构建过程中的数据处理量,实现通过有限的运算资源完成对第一音频资源进行回声消除的操作。采用上述技术方案,解决了相关技术中对音频资源的回声消除效率较低等问题,实现了提高对音频资源的回声消除效率的技术效果。
85.可选的,所述第一输入模块,包括:第一输入单元,用于将所述第一音频资源和所述第二音频资源输入至所述目标参数生成网络;第一获取单元,用于获取所述目标参数生
成网络的第一分支输出的第一滤波参数,以及所述目标参数生成网络的第二分支输出的第二滤波参数,其中,所述第一滤波参数为所述目标滤波器的运行参数,所述第二滤波参数用于表征所述第一音频资源中所携带的由所述第二音频资源造成的回声成份的特征。
86.可选的,所述装置还包括:第二输入模块,用于在所述将所述第一音频资源和所述第二音频资源输入至目标参数生成网络,得到所述目标参数生成网络输出的目标滤波参数之前,将所述训练样本输入所述初始参数生成网络,得到所述初始参数生成网络输出的滤波参数结果;第二滤波模块,用于使用所述滤波参数结果和所述目标滤波器对所述第一音频样本进行滤波,得到音频资源结果;调整模块,用于根据所述音频资源结果与所述回声消除音频之间的损失值对所述初始参数生成网络的网络参数进行调整,直至网络收敛,得到所述目标参数生成网络。
87.可选的,所述第二输入模块,包括:第二输入单元,用于将所述训练样本输入所述初始参数生成网络;第二获取单元,用于获取所述初始参数生成网络的第一分支输出的第一结果和所述初始参数生成网络的第二分支输出的第二结果作为所述滤波参数结果,其中,所述初始参数生成网络的第一分支用于估计所述目标滤波器的噪声方差,所述初始参数生成网络的第二分支用于估计所述第一音频样本中所携带的由所述第二音频样本造成的回声成份。
88.可选的,所述第二滤波模块,包括:运算单元,用于将所述第二结果和所述第一音频样本进行运算,得到运算结果;滤波单元,用于使用以所述第一结果为运行参数的所述目标滤波器对所述运算结果进行滤波,得到所述音频资源结果。
89.可选的,所述第一滤波模块,包括:提取单元,用于使用所述目标滤波参数中包括的第二滤波参数提取所述第一音频资源中的目标音频特征,其中,所述第二滤波参数用于表征所述第一音频资源中所携带的由所述第二音频资源造成的回声成份的特征;第三输入单元,用于将所述目标音频特征输入以第一滤波参数为运行参数的所述目标滤波器,得到所述目标音频。
90.可选的,所述所述提取单元,用于:计算图像掩膜和所述第一音频资源的频谱图的乘积,得到特征频谱图,其中,所述第二滤波参数包括所述图像掩膜,所述图像掩膜用于表征所述频谱图中包括所述目标音频特征的区域;将所述特征频谱图所记载的频谱特征确定为所述目标音频特征。
91.本技术的实施例还提供了一种存储介质,该存储介质包括存储的程序,其中,上述程序运行时执行上述任一项的音频资源的回声消除方法。
92.可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的程序代码:获取第一音频资源和第二音频资源,其中,第一音频资源为目标设备在播放第二音频资源的过程中采集到的音频资源;将第一音频资源和第二音频资源输入至目标参数生成网络,得到目标参数生成网络输出的目标滤波参数,其中,目标参数生成网络是使用标注了回声消除音频的训练样本对回声消除模型进行训练得到的,回声消除模型包括依次连接的初始参数生成网络和目标滤波器,训练样本包括第一音频样本和第二音频样本,第一音频样本为目标设备在播放第二音频样本的过程中采集到的音频资源,回声消除音频是从第一音频样本中消除了第二音频样本的音频资源;使用目标滤波参数和目标滤波器对第一音频资源进行滤波,得到目标音频资源。
93.本技术的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项音频资源的回声消除方法实施例中的步骤。
94.可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
95.可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:获取第一音频资源和第二音频资源,其中,第一音频资源为目标设备在播放第二音频资源的过程中采集到的音频资源;将第一音频资源和第二音频资源输入至目标参数生成网络,得到目标参数生成网络输出的目标滤波参数,其中,目标参数生成网络是使用标注了回声消除音频的训练样本对回声消除模型进行训练得到的,回声消除模型包括依次连接的初始参数生成网络和目标滤波器,训练样本包括第一音频样本和第二音频样本,第一音频样本为目标设备在播放第二音频样本的过程中采集到的音频资源,回声消除音频是从第一音频样本中消除了第二音频样本的音频资源;使用目标滤波参数和目标滤波器对第一音频资源进行滤波,得到目标音频资源。
96.可选地,在本实施例中,上述存储介质可以包括但不限于:u盘、只读存储器(read-only memory,简称为rom)、随机存取存储器(random access memory,简称为ram)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
97.可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
98.显然,本领域的技术人员应该明白,上述的本技术的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本技术不限制于任何特定的硬件和软件结合。
99.以上所述仅是本技术的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本技术原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本技术的保护范围。
当前第1页1 2 
当前第1页1 2 
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!
1