音乐音效处理的限制器控制方法、装置、设备及介质与流程

文档序号：29466203发布日期：2022-04-02 03:26阅读：260来源：国知局

1.本发明涉及音频处理技术领域，尤其涉及一种音乐音效处理的限制器控制方法、装置、计算机设备及存储介质。

背景技术：

2.音乐是音视频剪辑中重要的一环内容，对于音乐音效的处理可以增强视频的沉浸效果，表达剪辑者视频创作的想法。在音乐音效处理中，动态范围控制是极为重要的一块，压缩器限制器扩展器可以赋予音乐以一种神奇的韵味，常用于音乐混音中。算法可以让音乐在频率和响度上做出一些变化，或让音乐变得低沉，或让音乐变得激昂，用户则可以根据自己的需求，对音乐进行混音特效处理。其中限制器是最常用的算法，主要用于抑制响度超于阈值的部分，并平滑抑制处的衔接，常用于背景音限制和音乐最大响度限度，满足用户在不同应用场景下的需求。
3.目前限制器控制算法在视频剪辑软件中都没有应用，而常见于专业的音频处理软件中，如adobe audition、audiodirector等。这并不意味视频剪辑中不需要音频混音特效处理，而是混音特效需要有一定的音乐基础和专业知识，所以让普通用户可以快速调整一种自己满意的效果是值得探索的方向。
4.现有软件设计的限制器控制算法虽然可以实现预期逻辑效果，也就是让小声的地方音量不要太弱，大声的地方音量不要太强，让整个音乐都处在一个合理的音量范围，保证音频处理后不会时大时小，但现有的限制器控制算法仍然存在诸多难点：
5.1、限制器控制算法是由多个参数组成的，参数决定着音乐音频能够变化的方式，导致在使用限制器时则无法保证参数变化引起响度超越阈值设定的限制。
6.2、对于目前常见的信息增益补偿流程，并没有提出一个很好的规避响度越界的算法，导致在进行限制器控制之后，音乐的响度超越了响度合理的范围而导致音乐变成了噪声。

技术实现要素：

7.本发明实施例提供了一种音乐音效处理的限制器控制方法、装置、计算机设备及存储介质，旨在解决现有技术中在使用限制器时则无法保证参数变化引起响度超越阈值设定的限制，且没有提出一个很好的规避响度越界的算法的问题。
8.第一方面，本发明实施例提供了一种音乐音效处理的限制器控制方法，其包括：
9.响应于音频处理指令，获取与所述音频处理指令对应的待处理音频帧；
10.获取所述待处理音频帧的声音响度序列；
11.获取预设的输入提升增益量，将所述声音响度序列根据所述输入提升增益量进行增益量提升，得到增益声音响度序列；
12.获取预设的限制器，根据所述增益声音响度序列与所述限制器之差获取增益曲线；
13.根据预设的平滑增益策略对所述增益曲线进行平滑处理，得到平滑增益曲线；
14.将所述平滑增益曲线根据预设的自动输出增益补偿策略进行增益补偿，得到补偿增益曲线；以及
15.将所述增益曲线转换到线性域得到转换结果，将所述待处理音频帧与所述转换结果求和得到输出结果。
16.第二方面，本发明实施例提供了一种音乐音效处理的限制器控制装置，其包括：
17.初始音频获取单元，用于响应于音频处理指令，获取与所述音频处理指令对应的待处理音频帧；
18.响度获取单元，用于获取所述待处理音频帧的声音响度序列；
19.输入提升单元，用于获取预设的输入提升增益量，将所述声音响度序列根据所述输入提升增益量进行增益量提升，得到增益声音响度序列；
20.增益曲线获取单元，用于获取预设的限制器，根据所述增益声音响度序列与所述限制器之差获取增益曲线；
21.曲线平滑单元，用于根据预设的平滑增益策略对所述增益曲线进行平滑处理，得到平滑增益曲线；
22.增益补偿单元，用于将所述平滑增益曲线根据预设的自动输出增益补偿策略进行增益补偿，得到补偿增益曲线；以及
23.输出单元，用于将所述增益曲线转换到线性域得到转换结果，将所述待处理音频帧与所述转换结果求和得到输出结果。
24.第三方面，本发明实施例又提供了一种计算机设备，其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的音乐音效处理的限制器控制方法。
25.第四方面，本发明实施例还提供了一种计算机可读存储介质，其中所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的音乐音效处理的限制器控制方法。
26.本发明实施例提供了一种音乐音效处理的限制器控制方法、装置、计算机设备及存储介质，先对待处理音频帧获取声音响度序列，然后增加输入提升增益量得到增益声音响度序列，之后基于限制器对增益声音响度序列获取增益曲线，对增益曲线进行平滑处理得到平滑增益曲线，对平滑增益曲线进行增益补偿得到补偿增益曲线，最后将增益曲线转换到线性域得到转换结果，将待处理音频帧与转换结果求和得到输出结果。实现了强化一般范围算法的效果，提供了更多的参数选择，方便用户调整出更好的音频特效，并且保证音频的最大响度与设定最大响度阈值基本齐平。
附图说明
27.为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
28.图1为本发明实施例提供的音乐音效处理的限制器控制方法的应用场景示意图；
29.图2为本发明实施例提供的音乐音效处理的限制器控制方法的流程示意图；
30.图3a为本发明实施例提供的音乐音效处理的限制器控制方法中限制器的控制效果示意图；
31.图3b为本发明实施例提供的音乐音效处理的限制器控制方法中平滑增益处理的原理示意图；
32.图4为本发明实施例提供的音乐音效处理的限制器控制装置的示意性框图；
33.图5为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
34.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
35.应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
36.还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。
37.还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。
38.其中，为了更清楚的理解本技术的技术方案，下面对所涉及的基本概念进行介绍。
39.声音信号，其由用户端的声音采集模块(声音采集模块具体如麦克风)采集得到，其是一种模拟音频信号。
40.音频帧，其是由原始的模拟信号形式的声音信号经过采样得到。在采样过程中涉及到采样频率、采样位数、脉冲编码调制(即pcm，其全称是pulse code modulation)等概念。采样频率是单位时间内对模拟信号的采样次数，采样频率越高声音的还原就越真实越自然，当然数据量就越大；采样频率一般共分为22.05khz、44.1khz和48khz三个等级。采样位数是指每个采样点能够表示的数据范围，且采样位数通常有8bits或16bits两种，采样位数越大，所能记录声音的变化度就越细腻，相应的数据量就越大。脉冲编码调制是指对声音进行采样、量化过程，未经过任何编码和压缩处理，量化又是指将采样后离散声音信号的幅度用二进制数表示。可见对模拟信号形式的声音信号经过采样可得到音频帧。
41.请参阅图1和图2，图1为本发明实施例提供的音乐音效处理的限制器控制方法的应用场景示意图；图2为本发明实施例提供的音乐音效处理的限制器控制方法的流程示意图，该音乐音效处理的限制器控制方法应用于服务器中，该方法通过安装于服务器中的应用软件进行执行。
42.如图2所示，该方法包括步骤s101～s107。
43.s101、响应于音频处理指令，获取与所述音频处理指令对应的待处理音频帧。
44.在本实施例中，是以服务器为执行主体描述技术方案。服务器在接收到用户端(也可理解为上传端)发送的待处理音频数据时，可以先将其存储在服务器中，之后再对其进行
各种处理得到最终的输出数据。
45.s102、获取所述待处理音频帧的声音响度序列。
46.在本实施例中，当在服务器中获取了待处理音频帧后，是先获取其对应的声音响度序列。声音响度是描述声音在一个瞬间点的声音强度的一种表达方式，其范围大小为(-∞,0)，且声音响度的一般公式表达为x
db
＝20*log10(data)。但是上述声音响度的公式存在着比较大的问题，主要是音频数据常常会伴随着较多的0点，导致使用x
db
＝20*log10(data)这一公式计算时会存在较多的inf值(inf值值得是无穷大或无穷小的取值)。
47.在一实施例中，步骤s102包括：
48.获取预设第一数值，将所述待处理音频帧中每一帧音频数据根据预设的响度计算模型进行运算，得到所述待处理音频帧中每一帧音频数据的声音响度，以组成所述声音响度序列；所述响度计算模型的公式为表示所述待处理音频帧中第i帧音频数据的声音响度，datai表示所述待处理音频帧中第i帧音频数据，eps表示预设第一数值，且abs()表示取绝对值运算。
49.在本实施例中，预设第一数值用eps表示，且具体实施时eps＝2-52
，对双精度数值而言eps表示从1.0到下一个最大双精度数的距离，对单精度数值而言eps表示从1.0到下一个最大单精度数的距离。使用max()函数来确定所述待处理音频帧中每一帧音频数据的绝对值与eps之间的最大值，然后将每一最大值进行以10为底数的对数运算后乘以20，既可以得到所述待处理音频帧中每一帧音频数据的声音响度，从而组成声音响度。可见，通过改进后的声音响度计算方式，可以保证最小响度接近于-330db而不是inf，既而不会在后续操作中产生奇异值的情况，而且-330db对原始音频0值的在后续的影响依然是0。
50.s103、获取预设的输入提升增益量，将所述声音响度序列根据所述输入提升增益量进行增益量提升，得到增益声音响度序列。
51.在本实施例中，预设的输入提升增益量(定义为inputupgain，大小可以任意，但不能让增益后的音频的响度值超越[-330,0]范围)可用于调整音频中响度较低的时间段，保证基于限制器算法处理后的音频最高最低响度在响度值上差距不大，也就避免出现响度过低无法被人耳识别，从而不会使用户感觉到有音频断断续续的情况。其中，也就是将所述待处理音频帧中第i帧音频数据的声音响度增加输入提升增益量inputupgain，以更新述待处理音频帧中第i帧音频数据的声音响度
[0052]
在一实施例中，步骤s103之后还包括：
[0053]
所述待处理音频帧根据所述输入提升增益量及预设的音频时域数据调整模型进行增益调整，得到增益音频帧；其中，所述音频时域数据调整模型的公式为change_datai＝datai/(10∧inputupgain/20)，change_datai表示所述增益音频帧中第i帧增益音频数据，datai表示所述待处理音频帧中第i帧音频数据，inputupgain表示输入提升增益量。
[0054]
在本实施例中，由于对声音响度序列根据所述输入提升增益量进行增益量提升，得到增益声音响度序列，此时还需对原始的待处理音频帧的时域数据同步基于输入提升增益量inputupgain进行调整，从而实现一致性调整。
[0055]
s104、获取预设的限制器，根据所述增益声音响度序列与所述限制器之差获取增益曲线。
[0056]
在本实施例中，预设的限制器可以实现增益计算，增益计算提供了限制器控制增益信号的第一个粗略估计值。限制器控制具有不同的静态特性，如图3a所示，具有不同的可调性能。限制器中涉及拐点边界范围，压缩比和基本响度阈值等重要参数。
[0057]
其中，拐点边界范围(即knee width，也可以理解为拐点宽度，在本文中拐点边界范围用w表示)是一个比较重要的参数，它可以让限制器控制算法展现出两种不同的方式，具体为柔和拐点方式(即soft knee)和坚硬拐点方式(即hard knee)。拐点边界范围主要用于优化一个接近基本响度阈值的值，使其在一段范围内是一条变化比较缓的曲线。
[0058]
基本响度阈值，用threshold阈值表示且简记为t，用来使限制器在具体应用中将声音的响度控制在基本响度最大范围内(实际处理中是保证绝大多数的声音的响度不超出这个基本响度阈值)。
[0059]
压缩比，用ratio表示且且简记为r，压缩比是对超出基本响度阈值的响度值进行压缩，将超越基本响度阈值的响度值以r:1的方式进行压缩，比如设置的阈值为-10db，当前点的响度为-6，压缩比为4:1，则该点压缩后的响度为-9db。
[0060]
在一实施例中，步骤s104包括：
[0061]
若确定所述限制器为柔和拐点类型限制器，获取所述柔和拐点类型限制器的第一模型，将所述增益声音响度序列与所述第一模型相减求差值，得到增益曲线；
[0062]
若确定所述限制器为坚硬拐点类型限制器，获取所述坚硬拐点类型限制器的第二模型，将所述增益声音响度序列与所述第二模型相减求差值，得到增益曲线。
[0063]
其中，所述第一模型的公式为：
[0064][0065]
其中，表示所述待处理音频帧中第i帧音频数据的声音响度对应的限制值，表示所述待处理音频帧中第i帧音频数据的声音响度，t表示所述限制器的基本响度阈值，w表示所述限制器的拐点边界范围，r表示所述限制器对超出基本响度阈值的响度值进行压缩的压缩比。
[0066]
所述第二模型的公式为：
[0067][0068]
其中，表示所述待处理音频帧中第i帧音频数据的声音响度对应的限制
值，表示所述待处理音频帧中第i帧音频数据的声音响度，t表示所述限制器的基本响度阈值，r表示所述限制器对超出基本响度阈值的响度值进行压缩的压缩比。
[0069]
在本实施例中，对限制器为柔和拐点类型限制器对应的第一模型，和限制器为坚硬拐点类型限制器对应的第二模型均进行了改进，引入压缩比来对限制器算法进行微调。在第一模型和第二模型中，r定义范围为[30,60]，代表超出基本响度阈值的响度以范围为[30,60]之间的压缩比进行压缩。若基于拐点类型限制器对应的第一模型或坚硬拐点类型限制器对应的第二模型对所述增益声音响度序列进行调整后，得到的增益曲线表示为gc＝x
db-x
sc
。
[0070]
s105、根据预设的平滑增益策略对所述增益曲线进行平滑处理，得到平滑增益曲线。
[0071]
其中，步骤s105包括：
[0072]
获取所述平滑增益策略对应的攻击时间区间和释放时间区间，并获取所述平滑增益策略与所述攻击时间区间对应的第一曲线平滑方式和与所述释放时间区间对应的第二曲线平滑方式；
[0073]
将所述增益曲线中所述攻击时间区间的相应曲线根据所述第一曲线平滑方式进行平滑处理，并将所述增益曲线中所述释放时间区间的相应曲线根据所述第二曲线平滑方式进行平滑处理，得到平滑增益曲线。
[0074]
在本实施例中，对所述增益曲线进行平滑处理，可减少所施加增益中的急剧跳跃，减少导致伪像和不自然的声音的生成的可能。在预设的平滑增益策略中涉及攻击时间区间(即attack phase)，和释放时间区间(即release phase)。攻击时间区间主要用于降低增益以响应输入电平增加以达到由该比率确定的输出增益；释放时间区间则刚好相反，释放时间区间增加增益以响应输入电平降低以达到由该比率确定的输出增益。例如如图3b所示，如果限制器的基本响度阈值t为-3db，压缩比r为2:1时，即在attack phase段内，输出增益不会在一瞬间从9db达到6db，而是以慢慢的速度达到经压缩比压缩后的响度(参照图3b中output level，若未采用限制器则输出增益会在一瞬间从9db达到6db且具体参照图3b中input level)；而在释放时间区间段，该段是小于基本响度阈值要求的，所以再次降低3db的响度，然后到达原始的输出增益。
[0075]
现有的限制器中的攻击时间区间和释放时间区间是一个线性的操作，对于增益的平滑在时间结束点上时仍会存在不自然的声音生成，对此在本技术中改进原本的平滑增益方程，改进后的平滑增益方程如下公式(1)：
[0076][0077]
在公式(1)中gc表示步骤s104中得到的增益曲线，gs表示平滑增益曲线，fs为待处理音频帧对应的采样率，ta表示限制器中设置的攻击时间区间，tr表示限制器中设置的释放时间区间。
[0078]
s106、将所述平滑增益曲线根据预设的自动输出增益补偿策略进行增益补偿，得到补偿增益曲线。
[0079]
在本实施例中，自动输出增益补偿实际上是对输出响度补偿的操作，但是无任何限制的输出响度补偿会破坏声音的音质，对此在原本的直接补偿基础上设置了一个逻辑，即当一半以上的响度值在一次增益后为0值时，输出增益将会以压缩比的方式进行增益。由于之前对声音响度序列进行输入提升增益量的输入增益，是用于提高原始音频的响度值，让限制范围内的音频的较低响度的音频可以得到一个补偿，使整体的音频的响度保持一个均衡的状态，保持音频的柔和感。与输入增益相类似，自动输出增益同样也起着类似的作用，但是此时对所述平滑增益曲线根据预设的自动输出增益补偿策略进行增益补偿时，不同的是，在输入增益中响度的提升默认是没有限制的，无论提升多少响度值都可以被限制在一个限定范围内(最极限的情况是使限制器的每一个点的响度可以保持一致)，而自动输出增益补偿则不能进行无止境的响度扩张，因为音频数据的值跟响度存在着一个转换关系，响度值在(-∞，0)对应的音频响度(-1，1)的值，因此当增益的补充大于响度界限值，需要进行一个二次压缩，使音频不至于产生噪声和不可预知的模糊声。自动输出增益补偿策略如下：当平滑增益曲线中存在有音频的声音响度超过0时，则进行二次限制；二次限制的规则是先计算平滑增益曲线gs中音频的当前声音响度和0db的之间差值δdb，再和预设的增益补充值outputgain进行比较，如果增益补充值outputgain小于或等于差值δdb，则直接在平滑增益曲线gc上直接增加增益补充值outputgain；如果增益补充值outputgain大于差值δdb，则平滑增益曲线gs上增加即自动输出增益补偿策略对应公式(2)如下：
[0080][0081]
其中，gm[n]代表增益补充后的响度值，gs[n]代表平滑增益曲线对应的响度值，δdb为平滑增益曲线gs中音频的当前声音响度和0db的之间差值，outputgain为预设的增益补充值。
[0082]
s107、将所述增益曲线转换到线性域得到转换结果，将所述待处理音频帧与所述转换结果求和得到输出结果。
[0083]
在本实施例中，先将所述增益曲线转换到线性域得到转换结果，具体是其中gm表示补偿增益曲线且g
lin
表示转换结果。在得到转换结果后，将其与所述待处理音频帧进行求和即可得到输出结果。解决音频混音后出现的各种噪声情况，让混音后的音质依然可以保持一个比较好的质感。而且本技术额外扩充了更多的参数来满足用户对音频进行更深层次的混音效果，并且给与用户一些较好混音效果的预设值，帮助用户快速进行微调。
[0084]
该方法实现了强化一般范围算法的效果，提供了更多的参数选择，方便用户调整出更好的音频特效，并且保证音频的最大响度与设定最大响度阈值基本齐平。
[0085]
本发明实施例还提供一种音乐音效处理的限制器控制装置，该音乐音效处理的限制器控制装置用于执行前述音乐音效处理的限制器控制方法的任一实施例。具体地，请参阅图4，图4是本发明实施例提供的音乐音效处理的限制器控制装置100的示意性框图。
[0086]
其中，如图4所示，音乐音效处理的限制器控制装置100包括初始音频获取单元101、响度获取单元102、输入提升单元103、增益曲线获取单元104、曲线平滑单元105、增益补偿单元106和输出单元107。
[0087]
初始音频获取单元101，用于响应于音频处理指令，获取与所述音频处理指令对应的待处理音频帧。
[0088]
在本实施例中，是以服务器为执行主体描述技术方案。服务器在接收到用户端(也可理解为上传端)发送的待处理音频数据时，可以先将其存储在服务器中，之后再对其进行各种处理得到最终的输出数据。
[0089]
响度获取单元102，用于获取所述待处理音频帧的声音响度序列。
[0090]
在本实施例中，当在服务器中获取了待处理音频帧后，是先获取其对应的声音响度序列。声音响度是描述声音在一个瞬间点的声音强度的一种表达方式，其范围大小为(-∞,0)，且声音响度的一般公式表达为x
db
＝20*log10(data)。但是上述声音响度的公式存在着比较大的问题，主要是音频数据常常会伴随着较多的0点，导致使用x
db
＝20*log10(data)这一公式计算时会存在较多的inf值(inf值值得是无穷大或无穷小的取值)。
[0091]
在一实施例中，响度获取单元102具体用于：
[0092]
获取预设第一数值，将所述待处理音频帧中每一帧音频数据根据预设的响度计算模型进行运算，得到所述待处理音频帧中每一帧音频数据的声音响度，以组成所述声音响度序列；所述响度计算模型的公式为表示所述待处理音频帧中第i帧音频数据的声音响度，datai表示所述待处理音频帧中第i帧音频数据，eps表示预设第一数值，且abs()表示取绝对值运算。
[0093]
在本实施例中，预设第一数值用eps表示，且具体实施时eps＝2-52
，对双精度数值而言eps表示从1.0到下一个最大双精度数的距离，对单精度数值而言eps表示从1.0到下一个最大单精度数的距离。使用max()函数来确定所述待处理音频帧中每一帧音频数据的绝对值与eps之间的最大值，然后将每一最大值进行以10为底数的对数运算后乘以20，既可以得到所述待处理音频帧中每一帧音频数据的声音响度，从而组成声音响度。可见，通过改进后的声音响度计算方式，可以保证最小响度接近于-330db而不是inf，既而不会在后续操作中产生奇异值的情况，而且-330db对原始音频0值的在后续的影响依然是0。
[0094]
输入提升单元103，用于获取预设的输入提升增益量，将所述声音响度序列根据所述输入提升增益量进行增益量提升，得到增益声音响度序列。
[0095]
在本实施例中，预设的输入提升增益量(定义为inputupgain，大小可以任意，但不能让增益后的音频的响度值超越[-330,0]范围)可用于调整音频中响度较低的时间段，保证基于限制器算法处理后的音频最高最低响度在响度值上差距不大，也就避免出现响度过低无法被人耳识别，从而不会使用户感觉到有音频断断续续的情况。其中，也就是将所述待处理音频帧中第i帧音频数据的声音响度增加输入提升增益量inputupgain，以更新述待处理音频帧中第i帧音频数据的声音响度
[0096]
在一实施例中，音乐音效处理的限制器控制装置100还包括：
[0097]
时域数据调整单元，用于所述待处理音频帧根据所述输入提升增益量及预设的音
频时域数据调整模型进行增益调整，得到增益音频帧；其中，所述音频时域数据调整模型的公式为change_datai＝datai/(10∧inputupgain/20)，change_datai表示所述增益音频帧中第i帧增益音频数据，datai表示所述待处理音频帧中第i帧音频数据，inputupgain表示输入提升增益量。
[0098]
在本实施例中，由于对声音响度序列根据所述输入提升增益量进行增益量提升，得到增益声音响度序列，此时还需对原始的待处理音频帧的时域数据同步基于输入提升增益量inputupgain进行调整，从而实现一致性调整。
[0099]
增益曲线获取单元104，用于获取预设的限制器，根据所述增益声音响度序列与所述限制器之差获取增益曲线。
[0100]
在本实施例中，预设的限制器可以实现增益计算，增益计算提供了限制器控制增益信号的第一个粗略估计值。限制器控制具有不同的静态特性，如图3a所示，具有不同的可调性能。限制器中涉及拐点边界范围，压缩比和基本响度阈值等重要参数。
[0101]
其中，拐点边界范围(即knee width，也可以理解为拐点宽度，在本文中拐点边界范围用w表示)是一个比较重要的参数，它可以让限制器控制算法展现出两种不同的方式，具体为柔和拐点方式(即soft knee)和坚硬拐点方式(即hard knee)。拐点边界范围主要用于优化一个接近基本响度阈值的值，使其在一段范围内是一条变化比较缓的曲线。
[0102]
基本响度阈值，用threshold阈值表示且简记为t，用来使限制器在具体应用中将声音的响度控制在基本响度最大范围内(实际处理中是保证绝大多数的声音的响度不超出这个基本响度阈值)。
[0103]
压缩比，用ratio表示且简记为r，压缩比是对超出基本响度阈值的响度值进行压缩，将超越基本响度阈值的响度值以r:1的方式进行压缩，比如设置的阈值为-10db，当前点的响度为-6，压缩比为4:1，则该点压缩后的响度为-9db。
[0104]
在一实施例中，增益曲线获取单元104具体用于：
[0105]
若确定所述限制器为柔和拐点类型限制器，获取所述柔和拐点类型限制器的第一模型，将所述增益声音响度序列与所述第一模型相减求差值，得到增益曲线；
[0106]
若确定所述限制器为坚硬拐点类型限制器，获取所述坚硬拐点类型限制器的第二模型，将所述增益声音响度序列与所述第二模型相减求差值，得到增益曲线。
[0107]
其中，所述第一模型的公式为：
[0108][0109]
其中，表示所述待处理音频帧中第i帧音频数据的声音响度对应的限制值，表示所述待处理音频帧中第i帧音频数据的声音响度，t表示所述限制器的基本响度阈值，w表示所述限制器的拐点边界范围，r表示所述限制器对超出基本响度阈值的响度
值进行压缩的压缩比。
[0110]
所述第二模型的公式为：
[0111][0112]
其中，表示所述待处理音频帧中第i帧音频数据的声音响度对应的限制值，表示所述待处理音频帧中第i帧音频数据的声音响度，t表示所述限制器的基本响度阈值，r表示所述限制器对超出基本响度阈值的响度值进行压缩的压缩比。
[0113]
在本实施例中，对限制器为柔和拐点类型限制器对应的第一模型，和限制器为坚硬拐点类型限制器对应的第二模型均进行了改进，引入压缩比来对限制器算法进行微调。在第一模型和第二模型中，r定义范围为[30,60]，代表超出基本响度阈值的响度以范围为[30,60]之间的压缩比进行压缩。若基于拐点类型限制器对应的第一模型或坚硬拐点类型限制器对应的第二模型对所述增益声音响度序列进行调整后，得到的增益曲线表示为gc＝x
db-x
sc
。
[0114]
曲线平滑单元105，用于根据预设的平滑增益策略对所述增益曲线进行平滑处理，得到平滑增益曲线。
[0115]
其中，曲线平滑单元105具体用于：
[0116]
获取所述平滑增益策略对应的攻击时间区间和释放时间区间，并获取所述平滑增益策略与所述攻击时间区间对应的第一曲线平滑方式和与所述释放时间区间对应的第二曲线平滑方式；
[0117]
将所述增益曲线中所述攻击时间区间的相应曲线根据所述第一曲线平滑方式进行平滑处理，并将所述增益曲线中所述释放时间区间的相应曲线根据所述第二曲线平滑方式进行平滑处理，得到平滑增益曲线。
[0118]
在本实施例中，对所述增益曲线进行平滑处理，可减少所施加增益中的急剧跳跃，减少导致伪像和不自然的声音的生成的可能。在预设的平滑增益策略中涉及攻击时间区间(即attack phase)，和释放时间区间(即release phase)。攻击时间区间主要用于降低增益以响应输入电平增加以达到由该比率确定的输出增益；释放时间区间则刚好相反，释放时间区间增加增益以响应输入电平降低以达到由该比率确定的输出增益。例如如图3b所示，如果限制器的基本响度阈值t为-3db，压缩比r为2:1时，即在attack phase段内，输出增益不会在一瞬间从9db达到6db，而是以慢慢的速度达到经压缩比压缩后的响度(参照图3b中output level，若未采用限制器则输出增益会在一瞬间从9db达到6db且具体参照图3b中input level)；而在释放时间区间段，该段是小于基本响度阈值要求的，所以再次降低3db的响度，然后到达原始的输出增益。
[0119]
现有的限制器中的攻击时间区间和释放时间区间是一个线性的操作，对于增益的平滑在时间结束点上时仍会存在不自然的声音生成，对此在本技术中改进原本的平滑增益方程，改进后的平滑增益方程如上公式(1)。
[0120]
增益补偿单元106，用于将所述平滑增益曲线根据预设的自动输出增益补偿策略进行增益补偿，得到补偿增益曲线。
[0121]
在本实施例中，自动输出增益补偿实际上是对输出响度补偿的操作，但是无任何限制的输出响度补偿会破坏声音的音质，对此在原本的直接补偿基础上设置了一个逻辑，即当一半以上的响度值在一次增益后为0值时，输出增益将会以压缩比的方式进行增益。由于之前对声音响度序列进行输入提升增益量的输入增益，是用于提高原始音频的响度值，让限制范围内的音频的较低响度的音频可以得到一个补偿，使整体的音频的响度保持一个均衡的状态，保持音频的柔和感。与输入增益相类似，自动输出增益同样也起着类似的作用，但是此时对所述平滑增益曲线根据预设的自动输出增益补偿策略进行增益补偿时，不同的是，在输入增益中响度的提升默认是没有限制的，无论提升多少响度值都可以被限制在一个限定范围内(最极限的情况是使限制器的每一个点的响度可以保持一致)，而自动输出增益补偿则不能进行无止境的响度扩张，因为音频数据的值跟响度存在着一个转换关系，响度值在(-∞，0)对应的音频响度(-1，1)的值，因此当增益的补充大于响度界限值，需要进行一个二次压缩，使音频不至于产生噪声和不可预知的模糊声。自动输出增益补偿策略如下：当平滑增益曲线中存在有音频的声音响度超过0时，则进行二次限制；二次限制的规则是先计算平滑增益曲线gs中音频的当前声音响度和0db的之间差值δdb，再和预设的增益补充值outputgain进行比较，如果增益补充值outputgain小于或等于差值δdb，则直接在平滑增益曲线gc上直接增加增益补充值outputgain；如果增益补充值outputgain大于差值δdb，则平滑增益曲线gs上增加即自动输出增益补偿策略对应如上公式(2)。
[0122]
输出单元107，用于将所述增益曲线转换到线性域得到转换结果，将所述待处理音频帧与所述转换结果求和得到输出结果。
[0123]
在本实施例中，先将所述增益曲线转换到线性域得到转换结果，具体是其中gm表示补偿增益曲线且g
lin
表示转换结果。在得到转换结果后，将其与所述待处理音频帧进行求和即可得到输出结果。解决音频混音后出现的各种噪声情况，让混音后的音质依然可以保持一个比较好的质感。而且本技术额外扩充了更多的参数来满足用户对音频进行更深层次的混音效果，并且给与用户一些较好混音效果的预设值，帮助用户快速进行微调。
[0124]
该装置实现了强化一般范围算法的效果，提供了更多的参数选择，方便用户调整出更好的音频特效，并且保证音频的最大响度与设定最大响度阈值基本齐平。
[0125]
上述音乐音效处理的限制器控制装置可以实现为计算机程序的形式，该计算机程序可以在如图5所示的计算机设备上运行。
[0126]
请参阅图5，图5是本发明实施例提供的计算机设备的示意性框图。该计算机设备500是服务器，也可以是服务器集群。服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network，cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。
[0127]
参阅图5，该计算机设备500包括通过装置总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括存储介质503和内存储器504。
[0128]
该存储介质503可存储操作装置5031和计算机程序5032。该计算机程序5032被执
行时，可使得处理器502执行音乐音效处理的限制器控制方法。
[0129]
该处理器502用于提供计算和控制能力，支撑整个计算机设备500的运行。
[0130]
该内存储器504为存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行音乐音效处理的限制器控制方法。
[0131]
该网络接口505用于进行网络通信，如提供数据信息的传输等。本领域技术人员可以理解，图5中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。
[0132]
其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现本发明实施例公开的音乐音效处理的限制器控制方法。
[0133]
本领域技术人员可以理解，图5中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定，在其他实施例中，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，计算机设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图5所示实施例一致，在此不再赘述。
[0134]
应当理解，在本发明实施例中，处理器502可以是中央处理单元(central processing unit，cpu)，该处理器502还可以是其他通用处理器、数字信号处理器(digital signal processor，dsp)、专用集成电路(application specific integrated circuit，asic)、现成可编程门阵列(field-programmable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0135]
在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质，也可以为易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序，其中计算机程序被处理器执行时实现本发明实施例公开的音乐音效处理的限制器控制方法。
[0136]
所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。
[0137]
在本发明所提供的几个实施例中，应该理解到，所揭露的设备、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为逻辑功能划分，实际实现时可以有另外的划分方式，也可以将具有相同功能的单元集合成一个单元，例如多个单元或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形
式连接。
[0138]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
[0139]
另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
[0140]
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，后台服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0141]
以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：戚成杰
技术所有人：深圳万兴软件有限公司
我是此专利的发明人

上一篇：一种潜水电机机壳收紧装置的制作方法
上一篇：控制设备、显示设备及信息发送方法和信息接收方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、毕老师：机构动力学与控制
2、袁老师：1.计算机视觉 2.无线网络及物联网
3、王老师：1.计算机网络安全 2.计算机仿真技术
4、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
5、张老师：1.机械设计的应力分析、强度校核的计算机仿真 2.生物反应器研制 3.生物力学
如您是高校老师，可以点此联系我们加入专家库。