可切换降噪配置文件的制作方法

文档序号:42098543发布日期:2025-06-06 19:20阅读:24来源:国知局


背景技术:

1、本公开涉及音频信号中噪声分量的抑制(例如减弱或去除)。

2、传统的噪声抑制系统通常可以成功地抑制(至少在一定程度上)音频信号中存在的平稳噪声(即具有时不变噪声统计特性的随机噪声)。另一方面,这种抑制系统在抑制(减弱或完全消除)如人类背景声音(由要执行声音增强滤波的对话中的非参与者产生)等非随机噪声分量方面通常不太成功。


技术实现思路

1、抑制噪声的要求可能取决于不同的情况,例如,具有不同的语境(contextual)属性。例如,在随意的通话中(例如,家庭通话)的背景噪声(诸如孩子们的闲聊或宠物发出的声音等)可能是可以容忍的,不需要抑制(或者至少不需要积极地减弱)。另一方面,在商务通话中,尽可能地抑制噪音污染,以保持职业素养,并以尽可能接近面对面会议的互动质量进行通话,这可能很重要。在语境属性上配置噪声抑制可以提高感知质量和适当性。噪声抑制系统可以包括降噪配置文件,根据该配置文件配置系统,并且优选地,可以在操作期间改变该配置文件以适应情况的变化。

2、本公开涉及一种机器学习系统(例如,实现为人工神经网络(artificial neuralnetwork,ann),例如深度神经网络(deep neural network,dnn)、递归神经网络(recurrentneural network,rnn))降噪方法,该方法在多个不同语境中的每一个语境中,对成对的清洁语音信号和有噪声的语音信号进行训练,每个语境对应于不同的降噪配置文件(profile)。例如,该系统被配置为使用通过成对信号及其对应的噪声配置文件训练的机器学习系统来确定滤波器系数。这些基于ann的噪声抑制方法适于根据训练阶段使用的训练数据(即成对的语音信号和对应的配置文件)去除噪声分量。例如,如果儿童声音出现在训练语料库中,但没有出现在特定配置文件的目标清洁语音中,网络将学习抑制儿童声音(诸如婴儿哭泣声或孩子玩耍声)。类似地,网络可以学习抑制成年人的大笑声或咯咯笑声,以及其他非语音(non-speech)声音,这些非语音声音可以用于在另一个配置文件的非正式交流中表达兴奋。儿童的声音应该在通话中听到还是从通话中消失的偏好可能在很大程度上取决于使用情况。在与家庭成员通话时,可能需要明确地包括孩子的声音(例如,这样祖父母才能真正听到他们的孙子)。相反,在商务通话中,最好抑制/减弱孩子们的声音和其他与通话无关的音频。

3、根据所提出的方法,最终用户可以通过使用可切换和动态可调的噪声抑制参数(诸如控制减弱或抑制积极水平(aggressiveness level))来动态改变他们的噪声抑制偏好。这种方法是通过使用单个的、通用的、经过训练的机器学习模型来处理不同的情况和配置文件所需的所有不同的噪声抑制行为来实现的。因此,训练后的模型可以基于它接收到的配置文件信息(由用户直接指定,或基于语境信息自动检测)来识别所需噪声抑制行为的变化,从而向机器学习系统提供适当的信号信息以指示情况和/或配置文件的变化,这使得训练后的模型调整其输出以反映噪声抑制配置文件或情境情况的变化。因为只有单个的、通用的模型用于所有不同的噪声抑制行为(抑制非平稳噪声和/或平稳噪声),所以不需要为不同的情况下载不同的模型(例如,使用第一机器学习模型来实现商务通话的噪声抑制行为,并使用第二模型来实现随意通话噪声抑制行为)。因此,可以立即实现对噪声抑制行为的更改,并且在下载和/或激活新模型时不需要暂停。本解决方案还避免了昂贵的存储要求,如果使用多个机器学习噪声抑制/降低配置文件来处理不同的情况,则将需要这些昂贵的存储要求。

4、使用可切换的抑制配置文件可以通过以下方式实现:a)将训练语料库拆分为与不同配置文件相对应的部分,b)将配置文件指定为降噪网络的额外输入参数。如前所述,噪声抑制配置文件的一个示例是“商务通话”配置文件,其中儿童声音和诸如歌声、咯咯笑声等嘈杂声音(可能还伴有一些外部嘈杂声音,诸如纸张沙沙声、咀嚼声和吞咽声等)被抑制。另一个配置文件示例是“家庭通话”配置文件,其中某些声音(例如,商务通话配置文件中被认为嘈杂的声音,诸如儿童的嗓音和声音)作为输出的一部分被包括在内,而其他不受欢迎的噪音(例如,警报器或其他非人背景噪声)被抑制。在另外的示例中,其他配置文件可以专注于在正在使用的设备类型,例如,对手机、汽车、智能扬声器和电梯等的定制,而不需要为这些设备中的每一个单独保存经过训练的降噪模型。其他示例可以包括配置为抑制其他环境噪声声源的配置文件。因此,在所提出的方法下,机器学习系统(例如,使用基于神经网络的架构实现的机器学习系统)被馈送参数,该参数包含有关要使用的期望降噪配置文件的信息。该参数也在训练阶段呈现给网络。配置文件信息(至少部分由参数表示)也可用于准备训练数据。

5、因此,在一些变型中,提供了一种降噪方法,该方法包括获取声音信号样本,从多个降噪配置文件中确定用于处理所获取的声音信号样本的降噪配置文件;以及通过机器学习系统处理声音信号样本以产生噪声抑制信号。机器学习系统实现/执行单个机器学习模型,该单个机器学习模型被训练为根据多个降噪配置文件可控地抑制输入声音信号中的噪声。根据所确定的降噪配置文件来执行声音信号样本处理。

6、该方法的实施例可以包括本公开中描述的至少一些特征,包括以下特征中的一个或更多个。

7、通过机器学习系统处理声音信号可以包括:通过机器学习系统基于声音信号样本的至少一部分和所确定的降噪配置文件来确定时变线性滤波器的滤波器系数,并将所确定的滤波器系数应用于声音信号样本的至少一部分,以产生噪声抑制信号。

8、机器学习系统可以包括人工神经网络。

9、降噪配置文件可以包括至少一个标识符,该标识符具有从值的离散集中选择的值,每个值表示要求不同降噪行为的多个配置文件类型中不同的一个配置文件类型。

10、多个降噪配置文件可以包括以下中的一个或更多个,例如,商务通话配置文件,其被配置为抑制与商务通话的预期说话者不同的源产生的声音;家庭通话配置文件,其被配置为包括由位于家庭相关通话一端的多个参与者产生的声音;免提通话配置文件;单个说话者配置文件(single-speakerprofile);多个说话者配置文件(multi-speakerprofile);在汽车中进行通话的配置文件;在会议室进行通话的配置文件;以及语音识别配置文件,该语音识别配置文件被配置为抑制噪声,以允许对要识别的通话中的一个或更多参与者进行语音识别。

11、确定降噪配置文件可以包括,根据提供给机器学习系统的、指定降噪配置文件的输入参数,从多个降噪配置文件中选择降噪配置文件。

12、降噪配置文件可以包括,表示期望噪声抑制水平的特征的至少一个噪声抑制属性标识符。

13、至少一个噪声抑制属性标识符可以被设置为值,该值来自表示要执行噪声抑制处理的积极水平的值范围。

14、确定降噪配置文件可以包括,确定与声源相关联的语境信息,并且至少部分地基于所确定的与声源相关联的语境信息来确定降噪配置文件。

15、确定语境信息可以包括,例如基于由一个或更多个传感器测量的传感器数据导出语境信息的一个或更多个元素,和/或经由用户界面设备接收表示语境信息的一个或更多个其他元素的用户信息。

16、获取声音信号样本可以包括,通过声学换能器设备将原始声音样本转换为时域声音信号,将输入处理应用于时域声音信号以产生结果处理表示,以及从结果处理表示中提取特征以产生由机器学习系统处理的声音信号样本。

17、将输入处理应用于时域声音信号可以包括以下中的一个或更多个,例如,对时域声音信号执行信号调节,将时域声音信号变换为变换域表示,对时域声信号执行回声消除,和/或对时域声音信号执行波束成形或阵列信号处理。

18、将时域声音信号变换为变换域表示可以包括,将时域声信号变换为频域表示,在该频域表示上应用由机器学习系统生成的频域降噪滤波。

19、提取特征可以包括导出以下中的一个或更多个,例如,复合信号谱特征、谱幅度特征、对数谱幅度特征,对数梅尔谱特征(log mel spectra feature)和/或梅尔频率倒谱系数(mel-frequency cepstral coefficient)。

20、通过根据输入噪声训练样本、与输入噪声训练样本对应的各自的输入降噪配置文件以及对应的输出训练样本来配置机器学习系统的系数,以将机器学习系统可以被训练为可控地抑制噪声,其中,输入噪声培训样本的至少一些噪声分量已经根据对应的输入降噪配置文件被抑制。

21、输入噪声训练样本中的至少一个可以根据与相应的单独的独立噪声信号组合的清洁输入声音样本来合成,并且,对应的输出训练样本可以包括清洁输入声音样本。

22、该方法还可以包括,在稍后的时间从多个降噪配置文件中确定用于处理随后获取的一个或更多个声音信号样本的不同的降噪配置文件,并根据不同的降噪配置文件,通过机器学习系统处理随后获取的一个或者多个声音信号样本,其中,机器学习系统配置有对机器学习系统的操作进行限定的通用参数集,参数用于多个降噪配置文件中的全部。

23、在一些变型中,提供了一种降噪系统,其包括:用于获取声音信号样本的音频采集部分、配置为对音频样本执行降噪操作的机器学习引擎,以及与音频采集部分电通信的降噪控制器。降噪控制器被配置为:从多个降噪配置文件中确定用于处理获取的一个或更多个声音信号样本的降噪配置文件,并通过机器学习引擎处理声音信号样本。机器学习引擎执行/实现单个机器学习模型,该单个机器学习模型被训练为根据多个降噪配置文件可控地抑制输入声音信号中的噪声。根据所确定的降噪配置文件执行声音信号样本处理。

24、在一些变型中,提供了一种非暂态计算机可读介质,其包括:可以在基于处理器的设备上运行的计算机指令,以获取声音信号样本,从多个降噪配置文件中确定用于处理所获取的声音信号样本的降噪配置文件,并通过机器学习系统处理声音信号样本以产生噪声抑制信号,该机器学习系统运行单个机器学习模型,该单个机器学习模型被训练为根据多个降噪配置文件可控地抑制输入声音信号中的噪声。根据所确定的降噪配置文件来执行对声音信号的处理。

25、系统和非暂态计算机可读介质的实施例可以包括本公开中描述的至少一些特征,包括第一种方法的上述特征。

26、在一些变型中,提供了另一种方法,该方法包括确定多个降噪配置文件,并为多个降噪配置文件生成多个训练数据集,多个训练数据集中的每一个包括:输入噪声训练样本,其具有各自的一个或更多个噪声分量;配置文件数据,其表示待应用于输入噪声训练样本的各自的降噪配置文件,以及在各自的输出训练样本,其中,各自的输出训练样本的至少一部分噪声分量被减弱。该方法还包括,使用多个训练数据集配置执行单个机器学习模型的机器学习系统,以根据来自多个降噪配置文件的输入降噪配置文件来可控制地抑制输入声音样本中包括的噪声分量。

27、另一种方法的实施例可以包括本公开中描述的至少一些特征,包括第一方法、第一系统和第一计算机可读介质的上述特征中的任何一个,以及以下特征中的一个或更多个。

28、生成多个训练数据集可以包括:获取初始清洁声音样本,并通过将初始清洁声音采样与从噪声分量数据库中选择的噪声信号组合来合成输入的有噪声训练样本,以用于多个训练数据集中的至少一个,所选择的噪声信号对应于多个训练数据集中的至少一个中的配置文件数据。多个训练数据集中的至少一个所对应的输出训练样本可以是所获取的初始清洁声音样本。

29、该方法还可以包括:将表示不同环境中的噪声特性的多个脉冲响应滤波器中的一个应用于初始清洁声音样本,以产生滤波后的声音样本。合成输入噪声训练样本可以包括将滤波后的声音样本与所选择的噪声信号组合。

30、获取初始清洁声音样本可以包括记录音频片段,并用一个或更多个滤波器对所记录的音频片段进行滤波,以减弱所记录的音频片段中包含的一个或更多个平稳噪声分量。

31、多个降噪配置文件可以包括一个或更多个,例如,商务通话配置文件,其被配置为抑制由与商务通话的预期说话者不同的源产生的声音;家庭通话配置文件,其被配置为包括由位于家庭相关通话一端的多个参与者产生的声音;免提通话配置文件;单个说话者配置文件;多个说话者配置文件;在汽车中进行通话的配置文件;在会议室进行通话的配置文件和/或语音识别配置文件,该语音识别配置文件被配置为抑制噪声以允许对待识别的通话中的一个或更多个参与者进行语音识别。

32、被配置为可控地抑制输入声音样本中包括的噪声分量的机器学习系统可以被配置为:基于输入声音样本的至少一部分和输入降噪配置文件中的一个或更多个来确定时变线性滤波器的滤波器系数,并将所确定的滤波器系数应用于输入声音样本的至少一部分,以产生噪声抑制信号。

33、在一些变型中,提供了一种机器学习训练系统,其包括用于存储音频样本训练数据的一个或更多个内存存储设备、配置为对音频样本执行降噪操作的机器学习引擎和控制器。该控制器被配置为确定多个降噪配置文件,并为多个降噪配置文件生成多个训练数据集,多个训练数据集中的每一个包括:输入噪声训练样本,其具有各自的一个或更多个噪声分量;配置文件数据,其表示待应用于所述输入噪声训练样本的各自的降噪配置文件;以及各自的输出训练样本,其中,在各自的输出训练样本的至少一部分噪声分量被减弱。控制器还被配置/适于使用多个训练数据集来配置机器学习引擎,以实现单个机器学习模型,从而根据来自多个降噪配置文件的输入降噪配置文件,可控地抑制输入声音样本中包括的噪声分量。

34、在一些变型中,提供了另一种非暂态计算机可读介质,其包括可以在基于处理器的设备上运行的计算机指令,以确定多个降噪配置文件,并为多个降噪配置文件生成多个训练数据集,多个训练数据集中的每一个包括:输入噪声训练样本,其具有各自的一个或更多个噪声分量;配置文件数据,其表示待应用于所述输入噪声训练样本的各自的降噪配置文件,以及各自的输出训练样本,其中,在各自的输出训练样本的至少一部分噪声分量被减弱。计算机指令还使基于处理器的设备使用多个训练数据集来配置机器学习系统,该机器学习系统执行/实现单个机器学习模型,以根据来自多个降噪配置文件的输入降噪配置文件来可控地抑制输入声音样本中包括的噪声分量。

35、机器学习训练系统和其他计算机可读介质的实施例可以包括本公开中描述的至少一些特征,包括第一方法和第二方法、第一系统和第一计算机可读介质中的上述特征。

36、本发明的其他特征和优点从以下描述和权利要求中是显而易见的。

当前第1页1 2 
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!