模拟混音音频处理方法及系统与流程

文档序号:12724114阅读:1056来源:国知局
模拟混音音频处理方法及系统与流程

本发明涉及数字信号处理技术领域,具体地说,涉及一种模拟混音音频处理方法及系统。



背景技术:

声波在特定空间内传播,被墙壁、天花板等障碍物来回反射,即便当声源停止之后,声音信号仍会在空间中残留一段时间消失的现象叫做混响。自然的物理混响依赖于空间的大小、空间的形状、障碍物反射面的形状和材质、空气的湿度等非常多的条件。所以要取得一种特定的混响效果,就需要特别设计的建筑,往往还是规模特别大的建筑,比如音乐厅、歌剧院等场所。

混响产生的声场体验能给人一种置身某种环境现场的效果,不论在各种游戏还是各种K歌秀场,用户都非常追求完全的沉浸式体验,所以符合画面环境的混响效果能很大程度上加强用户的体验。

但是,在普通的商业KTV包厢、家庭的卡拉ok唱机、乘用轿车、个人的手机和户外的拉杆音响等场合和设备上是不具备自然物理混响所要求的空间条件。因此,便有了使用计算设备模拟声音混响现象的需求,特别是在声音的数字化处理的理论基础完善之后,专用的混响算法是必不可少的。



技术实现要素:

为解决上述问题,本发明提供了一种可模拟各种环境的混响效果的模拟混音音频处理方法。所述音频处理方法包括:

分别对所输入的第一声道初始音频信号和第二声道初始音频信号进行低通滤波,并延迟预定时间段之后,形成模拟通过空气媒介传播后的第一声道模拟早期反射音频信号和第二声道模拟早期反射音频信号;

将所述第一声道模拟早期反射音频信号和第二声道模拟早期反射音频信号进行叠加后经过多个串联的FIR滤波器组,形成模拟障碍物对模拟的早期反射音频信号进行影响后的第一声道模拟早期混响音频信号和第二声道模拟早期混响音频信号;

将所述第一声道模拟早期反射音频信号和第二声道模拟早期反射音频信号分别通过多个级联的IIR全通滤波器组,形成第一声道模拟后期混响音频信号和第二声道模拟后期混响音频信号;

将第一声道初始音频信号和第二声道初始音频信号对应地分别与第一声道模拟早期混响音频信号、第二声道模拟早期混响音频信号、第一声道模拟后期混响音频信号和第二声道模拟后期混响音频信号按比例混合,形成最终的模拟混响音频信号。

在一个实施例中,根据本发明的模拟混音音频处理方法,优选的是,所述FIR滤波器组包括多个串联连接的单极点低通滤波器,单极点低通滤波器的传输函数如下:

其中,系数band的值为可调节的,且其绝对值小于1。

在一个实施例中,根据本发明的模拟混音音频处理方法,优选的是,所述系数band的值通过以下公式来确定:

其中

fc=e[-0.595435*log(d)+10.5189]

fs为系统的采样率,d为给定的传播距离。

在一个实施例中,根据本发明的模拟混音音频处理方法,优选的是,所述IIR全通滤波器组包括至少四个IIR全通滤波器。

在一个实施例中,根据本发明的模拟混音音频处理方法,优选的是,所述全通滤波器的传输函数为:

在一个实施例中,根据本发明的模拟混音音频处理方法,优选的是,经过级联的全通滤波器组后的信号进一步叠加到模拟早期反射音频信号上来作为产生模拟后期混响音频信号的一部分输入信号。

在一个实施例中,根据本发明的模拟混音音频处理方法,优选的是,在所述全通滤波器组中,将经过单个滤波器滤波后的各个音频信号再次通过增益放大器进行比例输出,其中,增益因子是可调节的。

在一个实施例中,根据本发明的模拟混音音频处理方法,优选的是,在所述FIR滤波器组中,将经过各个延时器后的各个音频信号再次通过增益放大器进行比例输出,其中,增益因子和延时参数是可调节的。

根据本发明的另一个方面,还提供了一种模拟混音音频处理系统。该系统包括:

音频装置,其用以产生并提供初始音频信号,并根据到达聆听对象的左右耳分成第一声道音频信号和第二声道音频信号;

模拟混响音频处理装置,其用以将接收的初始的第一声道音频信号和第二声道音频信号通过早期反射模拟路径、后期散射模拟路径以及后期混响模拟单元进行音频混音处理形成模拟混响音频信号;以及

音频输出装置,其用以将所形成的模拟混响音频信号输出;

在一个实施例中,根据本发明的模拟混音音频处理系统,优选的是,所述模拟混响音频处理装置还包括环境参数调节接口,其用以根据所选择的需要模拟的环境来调节所述模拟混响音频处理装置中的各个参数。

本发明的有益之处在于,本发明所提供的模拟混音音频处理方法及系统可以实现对模拟混响空间大小进行调节,对所模拟的障碍物参数进行调节。此外,混响密度和时长以及混响音色均可调。

更重要的是,本发明的方法的实现既可以用在附加操作系统的设备中作为应用程序使用,也适合在嵌入式设备中使用DSP实现,以实现高实时性,比如各种卡拉OK设备、声卡等。

本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要的附图做简单的介绍:

图1是现有技术中常用的混响算法实现的结构框图;

图2显示了采用现有技术进行混响后的脉冲响应图;

图3显示了根据本发明原理设计的混响算法实现的流程图;

图4显示了根据本发明一个实施例的单极点低通滤波器的结构框图;

图5和图6分别显示了不同参数下低通滤波器的频率响应图;

图7显示了根据本发明一个实施例的可调节的早期反射音色的FIR滤波器结构框图;

图8显示了一种简单的全通滤波器的结构框图;

图9显示了如图8所示的全通滤波器的单位脉冲响应图;

图10显示了一种在全通滤波器中嵌套其他系统的结构框图;

图11显示了一种实用的全通滤波器中嵌套其他系统的结构框图;

图12显示了如图11所示的全通滤波器的单位脉冲响应图;

图13显示了根据本发明的一个实施例的全通滤波器的级联结构示意图;

图14显示了如图13所示的级联的全通滤波器的单位脉冲响应图;

图15显示了根据本发明的一个实施例进行混响模拟音频算法的结构框图;

图16显示了如图15所示的混响模拟算法的单位脉冲响应图,以及

图17显示了本发明所提供的用以调节算法结构参数以模拟不同环境混响效果的界面示意图。

具体实施方式

以下将结合附图及实施例来详细说明本发明的实施方式,借此对本发明如何应用技术手段来解决技术问题,并达成技术效果的实现过程能充分理解并据以实施。需要说明的是,只要不构成冲突,本发明中的各个实施例以及各实施例中的各个特征可以相互结合,所形成的技术方案均在本发明的保护范围之内。

同时,在以下说明中,出于解释的目的而阐述了许多具体细节,以提供对本发明实施例的彻底理解。然而,对本领域的技术人员来说显而易见的是,本发明可以不用这里的具体细节或者所描述的特定方式来实施。

另外,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

图1显示了现有技术中常用的混响算法实现的结构框图。如图1所示,左右声道的初始音频信号分别输入到第一延迟滤波器101和第二延迟滤波器102中进行处理。同时将已经过延迟输出的左声道音频信号反馈给第一延迟滤波器的输入以及第二延迟滤波器的输入。一般会根据调试的结果,将这些反馈信号进行比例放大或缩小,从而确定它们对模拟的音频信号的影响。同样原理,将已经过延迟输出的右声道音频信号反馈给第一延迟滤波器的输入以及第二延迟滤波器的输入。

如图1所示,可以将左声道初始音频信号经过一个例如176ms的延迟器,然后同比例放大后作为一路模拟混响的音频信号输出。同时左声道初始音频信号经过一个例如具有更长延迟时间246ms的延迟器,然后直接输出。

在将自身反馈回来对模拟音频信号进行影响时,可以选择0.5的增益因子。之后分别将模拟的左右声道音频信号通过低通滤波器(例如0-6kHz的信号)和高通滤波器(例如6kHz以上的信号)。在通过高通滤波器时,增益因子可以选择小于1的参数,例如选择增益因子为0.4,以减弱高频信号对混音的影响。

图1所示的这种结构的好处是需要的计算能力和存储空间不大,便于各种计算设备实现。但是,这种结构在混响模拟的效果上仍存在很大不足。

图2显示了这种结构的混响算法的脉冲响应图。由图可以看出,其混响效果密度低、颗粒感强烈、金属声很大。而且该算法并不具备音色调整的接口,不能模拟空间中的各种障碍物材质对声波的吸收能力的不同。

为此,本发明提供了一种可模拟各种环境的音响效果的模拟混音音频处理方法。如图3所示,其中显示了根据本发明原理设计的混响算法实现的流程图。

在图3中,其中显示了整个算法的工作流程。该算法采用双声道立体声音频作为激励输入。在步骤S301中,分别对所输入的第一声道初始音频信号和第二声道初始音频信号进行低通滤波,并延迟预定时间段之后,形成模拟通过空气媒介传播后的第一声道模拟早期反射音频信号和第二声道模拟早期反射音频信号。

这一步骤主要用来模拟空气传播过程中的早期反射信号。早期反射信号路径是:首先音频信号会经过单极点低通滤波器,该滤波器是一个低通滤波器可以模拟信号在空气中传播时的强度衰减。然后经过预延迟缓冲空间之后输入到加法器。该路径表示了左声道的第一次声波反射,也是强度最大的一次反射信号。同样右声道也会经历一次同样结构的处理,但是右声道的路径参数可以和左声道不一致,从而区别出左右声道不同的空间位置和传播路径。

接下来,在步骤S302中模拟空间中的障碍物分布对早期反射的影响。具体地说,将第一声道模拟早期反射音频信号和第二声道模拟早期反射音频信号进行叠加后经过多个串联的FIR滤波器组,形成模拟障碍物对模拟的早期反射音频信号进行影响后的第一声道模拟早期混响音频信号和第二声道模拟早期混响音频信号。

将左右声道经过第一次空间反射后会叠加在一起传播,在传播路径上串联FIR滤波器。通过调节该滤波器的参数便可以模拟空间中的障碍物分布组合和不同的障碍物对声波信号的吸收能力。通过调节该FIR滤波器组的各个参数,还可以对混响的音色做出调整。

然后,在步骤S303中,对余音的绵延回荡进行模拟。具体地,将第一声道模拟早期反射音频信号和第二声道模拟早期反射音频信号分别通过多个级联的IIR全通滤波器组,形成第一声道模拟后期混响音频信号和第二声道模拟后期混响音频信号。

由于声音经过早期反射之后,已经分成了许多份。在对早期反射回来的信号再经过以级联方式组成的IIR全通滤波器组,从而将声音以类似裂变的方式以指数方式倍增,从而大大增强混响的密度和衰减的均匀性。IIR全通滤波器级联的个数可以根据选用的计算平台计算能力不同做适当增减,原则是保持4个以上。当然,串联的滤波器越多混响越密集。

最后,在步骤S304中,模拟空间中的障碍物分布对余音回荡的影响。具体地,将第一声道初始音频信号和第二声道初始音频信号对应地分别与第一声道模拟早期混响音频信号、第二声道模拟早期混响音频信号、第一声道模拟后期混响音频信号和第二声道模拟后期混响音频信号按比例混合,形成最终的模拟混响音频信号。

空间中的障碍物其实是针对每一次的传播路径都会产生影响。前面已经介绍了怎样对早期反射产生影响。本发明中对余音的影响也是通过类似FIR滤波器的结构实现的,每一级的IIR全通滤波器的输出都会经过一个系数缩放而汇总到最终输出,多个IIR全通滤波器级联起来,其输出和对应的系数也会形成一个时间延迟跨度更大的FIR滤波器,通过改变这组系统,可以改变余音的音色和空间的封闭程度等参数。

下面来详细介绍各个模拟阶段的实现方案。如图4所示,通过单极点滤波器结构来模拟声音在空气中传播的衰减。单极点低通滤波器的传输函数如下:

其中,系数band的值为可调节的,且其绝对值小于1。从上式可以看出,该滤波器有一个零点和一个极点,为了系统的稳定性,必须保证band参数的绝对值小于1。在此条件下可以通过调整band的值来产生不同的低通特性,从而模拟不同的空间条件对声音信号的吸收。

图5和图6分别显示了当band等于0.2和0.8时的频响曲线。

经过大量实验总结,得出传播距离和band系数之间的经验公式,如下式。这样就可以根据要模拟的空间大小和发生源位置来确定band系数,fs为系统的采样率,通常我们使用48kHz。这里,d表示给定的距离。

其中fc=e[-0.595435*log(d)+10.5189] (3)

接下来,开始模拟早期反射。早期反射为空间中比较大的反射体对声源的反射,在每一次反射过程中既有因果关系(在结构中表现为级联关系),又有并行关系(在图中表现为FIR抽头),如图7所示。优选的是,FIR滤波器组包括多个串联连接的单极点低通滤波器。每路的信号强弱由FIR抽头系数TAP的大小确定。设第N级的信号为s[N],它的衰减模型的脉冲响应为h(n),脉冲响应可以由前面的传输函数求得。n级的抽头系数用An表示,则总的输出可以表示为如下公式:

然后模拟后期散射。后期散射影响了尾音的音色,后期散射越密集,幅度包络单调性越好则听感越好,在产生后期散射的做法上使用的是全通滤波器。简单的全通滤波器的结构如图8所示。

在图8中,若W-n是k个采样的延时,它的Z变换(传输函数)如下所示,它的单位脉冲响应如图9所示,|H(z)|的模等于1。由此可知,它的频率响应是平直的,所以叫全通滤波器,但是它会在时域上扩展出来很多信号的副本。

然而,上述简单的全通滤波器并不足以产生足够真实的散射信号。在实际使用时,用到的是在基本的全通滤波器基础上改进的全通滤波器。如图10所示,在全通滤波器中嵌套其他系统G(z)。

嵌套之后整体的传输函数变为下面的公式所示。由于是全通滤波器,所以频响特性由内部的G(z)确定:

根据本发明的模拟混音音频处理方法,优选的是,IIR全通滤波器组包括至少四个IIR全通滤波器。如图11所示,经过上述结构的嵌套后,在散射过程中不仅可以建立更为密集的声音副本,而且可以模拟后期散射过程中的空气造成的低通衰减,上述结构的传输函数H(z)如下,

它的单位脉冲响应如图12所示。

同样散射信号也会经历多次反射,而且越到最后信号经历的路径越多,会越密集,这些散射信号之间有因果关系有并列关系,也会让这些信号经过一个FIR滤波器进行音色调整。如图13所示。

设第N级的信号为s[N],它的衰减模型的脉冲响应为h(n),脉冲响应可以由前面的传输函数求得。n级的抽头系数用tapn表示,则总的输出可以表示为如下公式:

其中符号·表示卷积。

如果激励源为单位脉冲信号,则S2_Out的输出,也就是级联结构的脉冲响应如图14所示。

设原始输入的信号是SignaIN,最终输出的信号是SignalOut,则最终的输出入可用下面的公式表示:

SignalOut=q0*Signal+q1*S1out+q2*S2out (9)

q0表示最终输出信号中原始信号的比例,当模拟声音的接受者同时也是声音的发出者这种情况,q0不为0,因为有一部分信号是通过身体传导的,其他情况该值为0。q1表示早期混响的比例,q2表示后期散射信号的比例。

如图15所示,其中显示了根据本发明的原理进行模拟混音音频处理的详细算法结构框图。

图16显示了图15的算法结构的脉冲响应图,它是采用了六个IIR全通滤波器的混响算法的单位脉冲响应。由该仿真效果图可知,与现有技术对比而言,本发明的混响效果密度高、颗粒感弱小以及减弱的金属声,因此模拟的混响效果更为逼真且舒适。

此外,由图15可知,根据本发明的模拟混音音频处理方法,经过级联的全通滤波器组后的信号进一步也叠加到模拟早期反射音频信号上来作为产生模拟后期混响音频信号的一部分输入信号。

而且,在全通滤波器组中,将经过单个滤波器滤波后的各个音频信号再次通过增益放大器进行比例输出,其中的增益因子是可调节的参数。

在一个实施例中,根据本发明的模拟混音音频处理方法,优选的是,在所述FIR滤波器组中,将经过各个延时器后的各个音频信号再次通过增益放大器进行比例输出,其中,增益因子和延时参数是可调节的。

本发明还提供了用来修改这些参数以改变所模拟的环境的界面,如图17所示。其中提供了例如小房间、浴室、大房间、体育馆、大礼堂、教堂、峡谷等多种环境下的模拟参数选择。因此,根据本发明可以实现对模拟混响空间大小进行调节,对所模拟的障碍物参数进行调节。此外,混响密度和时长以及混响音色均可调。

由于本发明的方法描述的是在计算机系统中实现的。该计算机系统例如可以设置在控制核心处理器中。例如,本文所述的方法可以实现为能以控制逻辑来执行的软件,其由控制系统中的CPU来执行。本文所述的功能可以实现为存储在非暂时性有形计算机可读介质中的程序指令集合。当以这种方式实现时,该计算机程序包括一组指令,当该组指令由计算机运行时其促使计算机执行能实施上述功能的方法。可编程逻辑可以暂时或永久地安装在非暂时性有形计算机可读介质中,例如只读存储器芯片、计算机存储器、磁盘或其他存储介质。除了以软件来实现之外,本文所述的逻辑可利用分立部件、集成电路、与可编程逻辑设备(诸如,现场可编程门阵列(FPGA)或微处理器)结合使用的可编程逻辑,或者包括它们任意组合的任何其他设备来体现。所有此类实施例旨在落入本发明的范围之内。

根据本发明的另一个方面,还提供了一种模拟混音音频处理系统。该系统包括:

音频装置,其用以产生并提供初始音频信号,并根据到达聆听对象的左右耳分成第一声道音频信号和第二声道音频信号;

模拟混响音频处理装置,其用以将接收的初始的第一声道音频信号和第二声道音频信号通过早期反射模拟路径、后期散射模拟路径以及后期混响模拟单元进行音频混音处理形成模拟混响音频信号;以及

音频输出装置,其用以将所形成的模拟混响音频信号输出;

在一个实施例中,根据本发明的模拟混音音频处理系统,优选的是,所述模拟混响音频处理装置还包括环境参数调节接口,其用以根据所选择的需要模拟的环境来调节所述模拟混响音频处理装置中的各个参数。

本发明的有益之处在于,本发明所提供的模拟混音音频处理方法及系统可以实现对模拟混响空间大小进行调节,对所模拟的障碍物参数进行调节。此外,混响密度和时长以及混响音色均可调。

更为重要的是,本发明的方法的实现既可以用在附加操作系统的设备中作为应用程序使用,也适合在嵌入式设备中使用DSP实现,以实现高实时性,比如各种卡拉OK设备、声卡等。

应该理解的是,本发明所公开的实施例不限于这里所公开的特定结构或处理步骤,而应当延伸到相关领域的普通技术人员所理解的这些特征的等同替代。还应当理解的是,在此使用的术语仅用于描述特定实施例的目的,而并不意味着限制。

说明书中提到的“一个实施例”或“实施例”意指结合实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中。因此,说明书通篇各个地方出现的短语“一个实施例”或“实施例”并不一定均指同一个实施例。

虽然上述示例用于说明本发明在一个或多个应用中的原理,但对于本领域的技术人员来说,在不背离本发明的原理和思想的情况下,明显可以在形式上、用法及实施的细节上作各种修改而不用付出创造性劳动。因此,本发明由所附的权利要求书来限定。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1