使用协作网络的噪声抑制的制作方法

文档序号:37231744发布日期:2024-03-05 15:43阅读:35来源:国知局
使用协作网络的噪声抑制的制作方法

本公开内容总体上涉及噪声抑制。


背景技术:

1、技术的进步已经导致了更小且更强大的计算设备。例如,目前存在各种便携式个人计算设备,包括无线电话(例如,移动电话和智能电话)、小型、轻量且容易被用户携带的平板计算机和膝上型计算机。这些设备可以通过无线网络传送语音和数据分组。此外,许多此类设备并入了额外的功能,例如,数字相机、数字摄像机、数字记录器和音频文件播放器。此外,此类设备可以处理可执行指令,包括软件应用,例如网络浏览器应用,其可以用于访问互联网。照此,这些设备可以包括重要的计算能力。

2、这样的计算设备经常合并有从一个或多个麦克风接收音频信号的功能。例如,音频信号可以表示由麦克风捕获的用户语音、由麦克风捕获的外部声音或其组合。可以使用不同的技术来处理由麦克风捕获的音频信号并抑制与音频信号相关联的噪声。作为非限制性示例,一种技术可以利用波束成形技术来抑制噪声。虽然波束成形技术相对良好地工作以抑制来自固定位置中的噪声源的噪声,但使用波束成形技术来抑制来自移动噪声源的噪声可能存在缺点。作为另一非限制性实例,另一技术可以利用语音生成技术(诸如,多麦克风语音生成网络)来抑制噪声。虽然语音生成技术相对良好地工作以抑制具有高信噪比(snr)的信号中的噪声,但在一些实现方式中,语音生成技术可能抑制具有低snr的信号中的语音。


技术实现思路

1、根据本公开内容的一种实现方式,一种设备包括:被配置为存储指令的存储器、以及被配置为执行所述指令的一个或多个处理器。所述一个或多个处理器被配置为执行所述指令以进行如下操作:接收音频数据,所述音频数据包括与第一麦克风的第一输出相对应的第一音频帧和与第二麦克风的第二输出相对应的第二音频帧。所述一个或多个处理器进一步被配置为执行所述指令以:将所述音频数据提供给第一噪声抑制网络和第二噪声抑制网络。所述第一噪声抑制网络被配置为:基于所述音频数据生成第一经噪声抑制音频帧。所述第二噪声抑制网络被配置为:基于所述音频数据生成第二经噪声抑制音频帧。所述一个或多个处理器进一步被配置为执行所述指令以:将所述第一经噪声抑制音频帧和所述第二经噪声抑制音频帧提供给注意力池化网络(attention-pooling network)。所述注意力池化网络被配置为:至少基于所述第一经噪声抑制音频帧和所述第二经噪声抑制音频帧来生成输出经噪声抑制音频帧。

2、根据本公开内容的另一种实现方式,一种方法包括:在一个或多个处理器处接收音频数据,所述音频数据包括与第一麦克风的第一输出相对应的第一音频帧和与第二麦克风的第二输出相对应的第二音频帧。所述方法进一步包括:在与所述一个或多个处理器相关联的第一噪声抑制网络处,基于所述第一音频帧和所述第二音频帧生成第一经噪声抑制音频帧。所述方法进一步包括:在与所述一个或多个处理器相关联的第二噪声抑制网络处,基于所述第一音频帧和所述第二音频帧生成第二经噪声抑制音频帧。所述方法进一步包括:在与所述一个或多个处理器相关联的注意力池化网络处,对至少所述第一经噪声抑制音频帧和第二经噪声抑制音频帧执行注意力池化操作,以生成输出经噪声抑制音频帧。

3、根据本公开内容的另一实现方式,一种包括指令的非暂时性计算机可读介质,当所述指令由一个或多个处理器执行时,使得所述一个或多个处理器进行如下操作:接收音频数据,所述音频数据包括与第一麦克风的第一输出相对应的第一音频帧和与第二麦克风的第二输出相对应的第二音频帧。所述指令在由所述一个或多个处理器执行时进一步使得所述一个或多个处理器:在第一噪声抑制网络处,基于所述第一音频帧和所述第二音频帧生成第一经噪声抑制音频帧。所述指令在由所述一个或多个处理器执行时还使得所述一个或多个处理器:在第二噪声抑制网络处,基于所述第一音频帧和所述第二音频帧生成第二经噪声抑制音频帧。所述指令在由所述一个或多个处理器执行时进一步使得所述一个或多个处理器:在注意力池化网络处,对至少所述第一经噪声抑制音频帧和所述第二经噪声抑制音频帧执行注意力池化操作,以生成输出经噪声抑制音频帧。

4、根据本公开内容的另一实现方式,一种装置包括:用于接收音频数据的单元,所述音频数据包括与第一麦克风的第一输出相对应的第一音频帧和与第二麦克风的第二输出相对应的第二音频帧。所述装置进一步包括:用于基于所述第一音频帧和所述第二音频帧生成第一经噪声抑制音频帧的单元。所述装置进一步包括:用于基于所述第一音频帧和所述第二音频帧生成第二经噪声抑制音频帧的单元。所述装置还包括:用于对至少所述第一经噪声抑制音频帧和所述第二经噪声抑制音频帧执行注意力池化操作以生成输出经噪声抑制音频帧的单元。

5、本公开内容的其他方面、优点和特征在阅读整个申请之后将变得显而易见,整个申请包括以下部分:附图说明、具体实现方式和权利要求书。



技术特征:

1.一种设备,包括:

2.根据权利要求1所述的设备,进一步包括:所述第一麦克风和所述第二麦克风,其中,所述第一麦克风和所述第二麦克风耦合到所述一个或多个处理器。

3.根据权利要求1所述的设备,其中,所述一个或多个处理器进一步被配置为:

4.根据权利要求3所述的设备,其中,所述分类任务对应于关键词发现任务、自动语音识别任务或话语验证任务中的至少一者。

5.根据权利要求3所述的设备,其中,所述一个或多个处理器进一步被配置为:

6.根据权利要求3所述的设备,其中,所述一个或多个处理器进一步包括:

7.根据权利要求6所述的设备,其中,响应于确定所述推理结果指示肯定结果,激活所述第二功率域以验证所述推理结果。

8.根据权利要求6所述的设备,其中,所述第二功率域包括:

9.根据权利要求6所述的设备,其中,所述第一功率域被集成在辅助设备中,并且其中,所述第二功率域被集成到与所述辅助设备配对的计算设备中。

10.根据权利要求9所述的设备,其中,所述辅助设备包括头戴式设备。

11.根据权利要求1所述的设备,其中,所述一个或多个处理器进一步被配置为:

12.根据权利要求11所述的设备,其中,所述第一噪声抑制网络对应于语音生成网络,其中,所述第二噪声抑制网络对应于广义特征值网络,并且其中,所述第三噪声抑制网络对应于自适应波束成形网络。

13.根据权利要求12所述的设备,其中,所述语音生成网络被配置为生成语音活动检测信号,所述语音活动检测信号指示与所述音频数据相关联的语音主导的第一频率范围集合或指示与所述音频数据相关联的噪声主导的第二频率范围集合。

14.根据权利要求12所述的设备,其中,所述语音生成网络或所述特征值网络中的至少一个被配置为:执行到达方向处理以确定传入语音的到达方向和传入噪声的到达方向,并且其中,基于所述到达方向处理的输出来调整所述自适应波束成形网络的参数。

15.根据权利要求1所述的设备,其中,所述一个或多个处理器进一步被配置为:

16.根据权利要求1所述的设备,进一步包括:耦合到所述一个或多个处理器的调制解调器,所述调制解调器被配置为将所述输出经噪声抑制音频帧发送到第二设备。

17.根据权利要求1所述的设备,其中,所述一个或多个处理器被集成在包括所述第一麦克风和所述第二麦克风的头戴式设备中,并且其中,所述头戴式设备被配置为:当被用户佩戴时,将所述第一麦克风定位为比所述第二麦克风更靠近所述用户的嘴部,以捕获所述用户在所述第一麦克风处的与在所述第二麦克风处相比具有更大强度和更小时延的话语。

18.根据权利要求1所述的设备,其中,所述一个或多个处理器被集成在移动电话、平板计算机设备、可穿戴电子设备、相机设备、虚拟现实头戴式设备、混合现实头戴式设备或增强现实头戴式设备中的至少一者中。

19.根据权利要求1所述的设备,其中,所述一个或多个处理器被集成在运载工具中,所述运载工具进一步包括所述第一麦克风和所述第二麦克风,并且其中,所述第一麦克风被定位为捕获所述运载工具的操作者的话语。

20.一种抑制音频帧中的噪声的方法,所述方法包括:

21.根据权利要求20所述的方法,进一步包括:在与所述一个或多个处理器相关联的推理网络处对所述输出经噪声抑制音频帧执行分类任务以生成推理结果。

22.根据权利要求21所述的方法,进一步包括:基于所述分类任务来调谐所述第一噪声抑制网络、所述第二噪声抑制网络或所述注意力池化网络中的至少一者。

23.根据权利要求22所述的方法,进一步包括:

24.根据权利要求21所述的方法,进一步包括:

25.一种包括指令的非暂时性计算机可读介质,所述指令在由一个或多个处理器执行时使所述一个或多个处理器进行如下操作:

26.根据权利要求25所述的非暂时性计算机可读介质,其中,所述指令还使所述一个或多个处理器进行如下操作:在推理网络处对所述输出经噪声抑制音频帧执行分类任务以生成推理结果。

27.根据权利要求26所述的非暂时性计算机可读介质,其中,所述指令还使所述一个或多个处理器进行如下操作:基于所述分类任务来训练所述第一噪声抑制网络、所述第二噪声抑制网络或所述注意力池化网络中的至少一者。

28.一种装置,包括:

29.根据权利要求28所述的装置,进一步包括:用于对所述输出经噪声抑制音频帧执行分类任务以生成推理结果的单元。

30.根据权利要求29所述的装置,其中,所述分类任务对应于关键词发现任务、自动语音识别任务或话语验证任务中的至少一者。


技术总结
一种设备包括被配置为存储指令的存储器和被配置为执行指令的一个或多个处理器。所述一个或多个处理器被配置为执行所述指令以:接收音频数据,所述音频数据包括与第一麦克风的第一输出相对应的第一音频帧和与第二麦克风的第二输出相对应的第二音频帧。所述一个或多个处理器进一步被配置为执行指令以将音频数据提供给第一噪声抑制网络和第二噪声抑制网络。第一噪声抑制网络被配置为生成第一经噪声抑制音频帧,并且第二噪声抑制网络被配置为生成第二经噪声抑制音频帧。所述一个或多个处理器进一步被配置为执行指令以将经噪声抑制音频帧提供给注意力池化网络。注意力池化网络被配置为生成输出经噪声抑制音频帧。

技术研发人员:V·蒙塔泽里,V·阮,H·佩森泰内尔,金莱轩,E·维瑟,R·G·阿尔维斯
受保护的技术使用者:高通股份有限公司
技术研发日:
技术公布日:2024/3/4
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1