音频混响方法及系统与流程

文档序号:36789181发布日期:2024-01-23 12:07阅读:11来源:国知局
音频混响方法及系统与流程

本公开涉及音频混响,特别涉及一种音频混响方法及系统。


背景技术:

1、在音效设计中,现有技术通常会通过在原始音频中叠加特定的混响信号,虚拟在不同声学场景的听音效果。

2、常见的混响生成方法包括卷积混响方法即卷积混响方法以及人工混响方法。卷积混响方法,是指通过在实际场景测量该场景的房间冲击响应(room impulse response,rir),然后在音效生成时将目标音频和rir进行卷积操作,重现对应的混响效果。卷积混响方法可以生成真实的混淆效果,但其复杂度较高。人工混响方法,是指通过模型的方法来模拟混响的生成,包括早期放射、晚期混响、时间延迟和频率衰减特性等,仿真目标场景的混响效果。人工混响方法较为灵活且复杂度低。

3、不同音乐内容叠加混响后效果会存在差异,部分曲风的音频如包含快节奏鼓声的音乐叠加大量混响后容易产生混乱的效果。另外,部分音频内容自身存在混响,在此基础上叠加混响也会导致混响量比预期过多。

4、现有技术提出了车内环境的虚拟声学场景解决方案,该方案中,输入麦克风信号和音乐信号经过前处理模块(包括提取干声信号)处理后得到人工混响所需输入信号,再利用混响生成算法对该输入信号进行处理得到多通道人工混响信号,最后通过时延、增益控制和干湿声比例混合等后处理模块对该多通道人工混响信号进行处理,得到最后的虚拟场景音频输出。

5、然而,现有技术中的上述解决方案虽然通过干声提取能够保证不会对输入信号的混响成分叠加双重混响,但其直接提取干声信号的算法一般存在失真问题,在此基础上的混响生成和干湿声混合可能导致最终输出的混响信号也存在失真问题。并且,上述解决方案并没有考虑不同音乐风格的混响效果问题。


技术实现思路

1、本公开旨在至少解决现有技术中存在的问题之一,提供一种音频混响方法及系统。

2、本公开的一个方面,提供了一种音频混响方法,所述音频混响方法包括:

3、对输入音频信号进行前处理,得到混响输入信号;

4、对所述混响输入信号进行混响处理,生成目标场景的初始混响音频信号;

5、对所述输入音频信号进行音频内容分析,得到所述输入音频信号的音频内容特征;

6、基于所述音频内容特征,确定内容自适应掩蔽矩阵;

7、将所述内容自适应掩蔽矩阵与所述初始混响音频信号进行加权混合,得到内容自适应混响信号;

8、将所述内容自适应混响信号和所述混响输入信号按照预设比例进行加权混合,得到最终混响音频信号。

9、可选地,所述音频内容特征包括音乐风格;所述对所述输入音频信号进行音频内容分析,得到所述输入音频信号的音频内容特征,包括:

10、基于所述输入音频信号的音频标签,得到所述输入音频信号的所述音乐风格;或,

11、基于所述输入音频信号的音乐频谱得到音频特征,将所述音频特征输入预先训练的音乐分类模型,得到所述输入音频信号的所述音乐风格;其中,所述音乐分类模型采用音频特征和对应的分类标签训练得到。

12、可选地,所述音频内容特征包括鼓点密集程度;所述对所述输入音频信号进行音频内容分析,得到所述输入音频信号的音频内容特征,包括:

13、基于音符起始点检测方案,利用能量或者频谱变化信息确定所述输入音频信号的突变点,将突变程度大于预设突变门限的所述突变点作为鼓点,基于预设时长内的所述鼓点的数量,得到所述输入音频信号的所述鼓点密集程度;或,

14、将所述输入音频信号的多帧频谱输入预先训练的鼓点检测模型,得到各个时间点对应鼓声的概率,将所述概率大于预设概率门限的所述时间点作为鼓点,基于预设时长内的所述鼓点的数量,得到所述输入音频信号的所述鼓点密集程度。

15、可选地,所述音频内容特征包括混响程度;所述对所述输入音频信号进行音频内容分析,得到所述输入音频信号的音频内容特征,包括:

16、将所述输入音频信号的信号频谱输入预先训练好的解混响模型,得到解混响对应的时频掩蔽矩阵;或,

17、对所述输入音频信号的信号频谱进行干声和湿声分离,将分离得到的干声的信号频谱与所述输入音频信号的信号频谱的比值作为时频掩蔽矩阵;

18、其中,所述时频掩蔽矩阵用于表征每个时频点的所述混响程度。

19、可选地,所述预先训练好的解混响模型根据以下步骤训练得到:

20、获取干净音频及其混响音频,将所述混响音频的混响音频频谱作为所述解混响模型的输入,将解混响对应的时频掩蔽矩阵作为所述解混响模型的输出,对所述解混响模型进行训练;或,

21、获取干净音频及其混响音频,基于所述干净音频生成第一目标人工混响音频,基于所述混响音频生成第二目标人工混响音频;将所述混响音频作为所述解混响模型的输入,将所述第一目标人工混响音频与所述第二目标人工混响音频的比值对应的时频掩蔽矩阵作为所述解混响模型的输出,训练所述解混响模型。

22、可选地,所述音频内容特征包括音乐风格;所述基于所述音频内容特征,确定内容自适应掩蔽矩阵,包括:

23、基于当前时间点的音乐风格检测概率及不同频率下的抑制系数,确定所述当前时间点的音乐风格相关的混响加权权重。

24、可选地,所述音频内容特征包括鼓点密集程度;所述基于所述音频内容特征,确定内容自适应掩蔽矩阵,包括:

25、基于当前时间点的所述鼓点密集程度及对应的频率,利用单调递减的混响权重计算函数,确定所述当前时间点的鼓点相关的混响加权权重。

26、可选地,所述音频内容特征包括混响程度,所述混响程度用时频掩蔽矩阵表征;所述基于所述音频内容特征,确定内容自适应掩蔽矩阵,包括:

27、基于当前时频点对应的所述时频掩蔽矩阵中的掩蔽值,利用单调递增的混响权重计算函数,确定所述当前时频点的混响程度相关的混响加权权重。

28、可选地,在所述输入音频信号包括多个所述音频内容特征时,所述基于所述音频内容特征,确定内容自适应掩蔽矩阵,包括:

29、分别确定每个所述音频内容特征对应的混响掩蔽矩阵;

30、将各个所述音频内容特征对应的所述混响掩蔽矩阵进行组合,得到所述输入音频信号的所述内容自适应掩蔽矩阵。

31、本公开的另一个方面,提供了一种音频混响系统,所述音频混响系统包括:

32、前处理模块,用于对输入音频信号进行前处理,得到混响输入信号;

33、混响生成模块,用于对所述混响输入信号进行混响处理,生成目标场景的初始混响音频信号;

34、音频内容分析模块,用于对所述输入音频信号进行音频内容分析,得到所述输入音频信号对应的音频内容特征;

35、内容自适应掩蔽模块,用于基于所述音频内容特征,确定内容自适应掩蔽矩阵;

36、内容自适应混响模块,用于将所述内容自适应掩蔽矩阵与所述初始混响音频信号进行加权混合,得到内容自适应混响信号;

37、混合模块,用于将所述内容自适应混响信号和所述混响输入信号按照预设比例进行加权混合,得到最终混响音频信号。

38、可选地,所述音频内容特征包括音乐风格;所述音频内容分析模块,用于对所述输入音频信号进行音频内容分析,得到所述输入音频信号的音频内容特征,包括:

39、所述音频内容分析模块,具体用于:

40、基于所述输入音频信号的音频标签,得到所述输入音频信号的所述音乐风格;或,

41、基于所述输入音频信号的音乐频谱得到音频特征,将所述音频特征输入预先训练的音乐分类模型,得到所述输入音频信号的所述音乐风格;其中,所述音乐分类模型采用音频特征和对应的分类标签训练得到。

42、可选地,所述音频内容特征包括鼓点密集程度;所述音频内容分析模块,用于对所述输入音频信号进行音频内容分析,得到所述输入音频信号的音频内容特征,包括:

43、所述音频内容分析模块,具体用于:

44、基于音符起始点检测方案,利用能量或者频谱变化信息确定所述输入音频信号的突变点,将突变程度大于预设突变门限的所述突变点作为鼓点,基于预设时长内的所述鼓点的数量,得到所述输入音频信号的所述鼓点密集程度;或,

45、将所述输入音频信号的多帧频谱输入预先训练的鼓点检测模型,得到各个时间点对应鼓声的概率,将所述概率大于预设概率门限的所述时间点作为鼓点,基于预设时长内的所述鼓点的数量,得到所述输入音频信号的所述鼓点密集程度。

46、可选地,所述音频内容特征包括混响程度;所述音频内容分析模块,用于对所述输入音频信号进行音频内容分析,得到所述输入音频信号的音频内容特征,包括:

47、所述音频内容分析模块,具体用于:

48、将所述输入音频信号的信号频谱输入预先训练好的解混响模型,得到解混响对应的时频掩蔽矩阵;或,

49、对所述输入音频信号的信号频谱进行干声和湿声分离,将分离得到的干声的信号频谱与所述输入音频信号的信号频谱的比值作为时频掩蔽矩阵;

50、其中,所述时频掩蔽矩阵用于表征每个时频点的所述混响程度。

51、可选地,所述音频混响系统还包括:

52、模型训练模块,用于根据以下步骤训练所述解混响模型:

53、获取干净音频及其混响音频,将所述混响音频的混响音频频谱作为所述解混响模型的输入,将解混响对应的时频掩蔽矩阵作为所述解混响模型的输出,对所述解混响模型进行训练;或,

54、获取干净音频及其混响音频,基于所述干净音频生成第一目标人工混响音频,基于所述混响音频生成第二目标人工混响音频;将所述混响音频作为所述解混响模型的输入,将所述第一目标人工混响音频与所述第二目标人工混响音频的比值对应的时频掩蔽矩阵作为所述解混响模型的输出,训练所述解混响模型。

55、可选地,所述音频内容特征包括音乐风格;所述内容自适应掩蔽模块,用于基于所述音频内容特征,确定内容自适应掩蔽矩阵,包括:

56、所述内容自适应掩蔽模块,具体用于:

57、基于当前时间点的音乐风格检测概率及不同频率下的抑制系数,确定所述当前时间点的音乐风格相关的混响加权权重。

58、可选地,所述音频内容特征包括鼓点密集程度;所述内容自适应掩蔽模块,用于基于所述音频内容特征,确定内容自适应掩蔽矩阵,包括:

59、所述内容自适应掩蔽模块,具体用于:

60、基于当前时间点的所述鼓点密集程度及对应的频率,利用单调递减的混响权重计算函数,确定所述当前时间点的鼓点相关的混响加权权重。

61、可选地,所述音频内容特征包括混响程度,所述混响程度用时频掩蔽矩阵表征;所述内容自适应掩蔽模块,用于基于所述音频内容特征,确定内容自适应掩蔽矩阵,包括:

62、所述内容自适应掩蔽模块,具体用于:

63、基于当前时频点对应的所述时频掩蔽矩阵中的掩蔽值,利用单调递增的混响权重计算函数,确定所述当前时频点的混响程度相关的混响加权权重。

64、可选地,在所述输入音频信号包括多个所述音频内容特征时,所述内容自适应掩蔽模块,用于基于所述音频内容特征,确定内容自适应掩蔽矩阵,包括:

65、所述内容自适应掩蔽模块,具体用于:

66、分别确定每个所述音频内容特征对应的混响掩蔽矩阵;

67、将各个所述音频内容特征对应的所述混响掩蔽矩阵进行组合,得到所述输入音频信号的所述内容自适应掩蔽矩阵。

68、本公开相对于现有技术而言,通过对输入音频信号进行前处理得到混响输入信号,对混响输入信号进行混响处理生成目标场景的初始混响音频信号,对输入音频信号进行音频内容分析得到对应的音频内容特征,基于音频内容特征确定内容自适应掩蔽矩阵,将内容自适应掩蔽矩阵与初始混响音频信号进行加权混合得到内容自适应混响信号,将内容自适应混响信号和混响输入信号按照预设比例进行加权混合,得到最终混响音频信号,实现了为不同音频内容的音频信号适配不同的混响效果,避免了最终混响音频信号的失真问题。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1