本说明书涉及音频处理技术领域,特别涉及音频处理方法及装置。
背景技术:
随着互联网技术的发展,音频的噪声处理被应用到越来越多的场景中,如在直播场景、通话场景、语音播报场景等,都需要实时或离线的完成对音频中的噪声进行消除,从而使得用户能够收听到较为优质的音频。然而,现有技术在实现噪声消除时,大多数实现方案都是对音频中的主要声源和次要声源进行分辨,通过保留主要声源删除次要声源的方式实现消除不需要的噪声,然而因为喷麦是由主要声源在发声过程中产生的噪声,所以该种方式并不能够消除喷麦噪声产生的影响,导致优化后的音频还存在部分不利于收听的其他声音内容,故亟需一种有效的方案以解决该问题。
技术实现要素:
有鉴于此,本说明书实施例提供了一种音频处理方法。本说明书同时涉及一种音频处理装置,一种计算设备,以及一种计算机可读存储介质,以解决现有技术中存在的技术缺陷。
根据本说明书实施例的第一方面,提供了一种音频处理方法,包括:
获取待检测音频文件;
对所述待检测音频文件进行分帧处理获得多个音频帧,并在所述多个音频帧中筛选出满足喷麦检测条件的目标音频帧;
根据所述目标音频帧和所述目标音频帧的下一音频帧生成频率幅度谱,以及根据所述目标音频帧的上一音频帧和上二音频帧生成参考频率幅度谱;
将所述频率幅度谱和所述参考频率幅度谱进行比对,根据比对结果确定所述待检测音频文件的喷麦音频帧。
可选的,所述在所述多个音频帧中筛选出满足喷麦检测条件的目标音频帧,包括:
确定所述多个音频帧分别对应的音量幅度特征,并选择所述音量幅度特征满足预设音量幅度特征条件的音频帧确定为初始音频帧;
基于预设的降采样策略或幅度异常策略对所述初始音频帧进行筛选,获得中间音频帧;
构建所述中间音频帧对应的中间频率幅度谱;
基于所述中间频率幅度谱确定所述中间音频帧满足预设幅度谱分布条件的情况下,将所述中间音频帧作为所述目标音频帧。
可选的,所述确定所述多个音频帧分别对应的音量幅度特征,包括:
获取所述多个音频帧分别对应的时域信号幅度;
根据所述时域信号幅度计算所述多个音频帧分别对应的平均时域信号幅度,作为所述多个音频帧分别对应的音量幅度特征,或者
根据所述时域信号幅度确定所述多个音频帧分别对应的峰值时域信号幅度,作为所述多个音频帧分别对应的音量幅度特征。
可选的,所述基于预设的降采样策略对所述初始音频帧进行筛选,获得中间音频帧,包括:
确定所述初始音频帧对应的第一幅度峰值,并根据所述第一幅度峰值对所述初始音频帧进行降采样处理,获得所述初始音频帧对应的第二幅度峰值;
在所述第二幅度峰值大于第一预设峰值阈值的情况下,基于所述第一幅度峰值和所述第二幅度峰值计算所述初始音频帧对应的目标幅度峰值;
在所述目标幅度峰值大于第二预设峰值阈值的情况下,将所述初始音频帧确定为所述中间音频帧。
可选的,所述基于预设的幅度异常策略对所述初始音频帧进行筛选,获得中间音频帧,包括:
确定所述初始音频帧对应的第一幅度值;
在所述第一幅度值大于第一预设幅度值阈值的情况下,确定所述初始音频帧相邻的相邻音频帧;
确定所述相邻音频帧对应的第二幅度值,并基于所述第一幅度值和所述第二幅度值计算所述初始音频帧对应的目标幅度值;
在所述目标幅度值大于第二预设幅度值阈值的情况下,将所述初始音频帧确定为所述中间音频帧。
可选的,所述构建所述中间音频帧对应的中间频率幅度谱,包括:
确定所述中间音频帧的前一中间音频帧,并对所述中间音频帧和所述前一中间音频帧进行变换;
根据变换结果构建所述中间音频帧对应的所述中间频率幅度谱。
可选的,所述基于所述中间频率幅度谱确定所述中间音频帧满足预设幅度谱分布条件的情况下,将所述中间音频帧作为所述目标音频帧,包括:
在所述中间频率幅度谱的峰值位于低频区域,且所述中间频率幅度谱的峰值大于预设峰值阈值的情况下,将所述中间音频帧作为所述目标音频帧。
可选的,所述根据所述目标音频帧和所述目标音频帧的下一音频帧生成频率幅度谱,包括:
在所述多个音频帧中确定所述目标音频帧的下一音频帧,并对所述目标音频帧和所述目标音频帧的下一音频帧进行变换;
根据变换结果构建所述频率幅度谱。
可选的,所述根据所述目标音频帧的上一音频帧和上二音频帧生成参考频率幅度谱,包括:
在所述多个音频帧中确定所述目标音频帧的上一音频帧和上二音频帧;
对所述目标音频帧的上一音频帧和上二音频帧进行变换,根据变化结果构建所述参考频率幅度谱。
可选的,所述将所述频率幅度谱和所述参考频率幅度谱进行比对,根据比对结果确定所述待检测音频文件的喷麦音频帧,包括:
确定所述频率幅度谱的第一低频区间取值,以及所述参考频率幅度谱的第二低频区间取值;
在所述第一低频区间取值大于所述第二低频区间取值情况下,计算所述第一低频区间取值与所述第二低频区间取值之间差值的平均值;
在所述平均值大于预设低频阈值的情况下,将所述目标音频帧确定为所述待检测音频文件的所述喷麦音频帧。
可选的,所述根据比对结果确定所述待检测音频文件的喷麦音频帧步骤执行之后,还包括:
根据所述喷麦音频帧对所述待检测音频文件进行处理,获得目标音频文件;
将所述目标音频文件进行播放。
根据本说明书实施例的第二方面,提供了一种音频处理装置,包括:
获取模块,被配置为获取待检测音频文件;
分帧模块,被配置为对所述待检测音频文件进行分帧处理获得多个音频帧,并在所述多个音频帧中筛选出满足喷麦检测条件的目标音频帧;
生成模块,被配置为根据所述目标音频帧和所述目标音频帧的下一音频帧生成频率幅度谱,以及根据所述目标音频帧的上一音频帧和上二音频帧生成参考频率幅度谱;
确定模块,被配置为将所述频率幅度谱和所述参考频率幅度谱进行比对,根据比对结果确定所述待检测音频文件的喷麦音频帧。
根据本说明书实施例的第三方面,提供了一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令:
获取待检测音频文件;
对所述待检测音频文件进行分帧处理获得多个音频帧,并在所述多个音频帧中筛选出满足喷麦检测条件的目标音频帧;
根据所述目标音频帧和所述目标音频帧的下一音频帧生成频率幅度谱,以及根据所述目标音频帧的上一音频帧和上二音频帧生成参考频率幅度谱;
将所述频率幅度谱和所述参考频率幅度谱进行比对,根据比对结果确定所述待检测音频文件的喷麦音频帧。
根据本说明书实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现所述音频处理方法的步骤。
本说明书提供的音频处理方法,在获取到待检测音频文件后,将对所述待检测音频文件进行分帧处理获得多个音频帧,同时从所述多个音频帧中筛选出满足喷麦检测条件的目标音频帧,之后基于目标音频帧和其下一音频帧生成频率幅度谱,以及根据目标音频帧的上一音频帧和上二音频帧生成参考频率幅度谱,最后将频率幅度谱和参考频率幅度谱进行比对,根据比对结果确定所述待检测音频文件中的喷麦音频帧,实现采用时域、频域结合的方式对喷麦音频帧进行检测,可以精准的定位喷麦音频帧在待检测音频文件中的位置,有效的减少了喷麦现象对待检测音频文件音质的影响,从而使得用户可以收听到更加优质的音频。
附图说明
图1是本说明书一实施例提供的一种音频处理方法的流程图;
图2是本说明书一实施例提供的一种应用于音频播放场景中的音频处理方法的处理流程图;
图3是本说明书一实施例提供的一种音频处理装置的结构示意图;
图4是本说明书一实施例提供的一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本说明书内涵的情况下做类似推广,因此本说明书不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
首先,对本说明书一个或多个实施例涉及的名词术语进行解释。
喷麦:是指呼吸或发声时鼻腔、口腔产生的气流直接作用到麦克风而被录制到突发较大气流声的现象。
在本说明书中,提供了一种音频处理方法,本说明书同时涉及一种音频处理装置,一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
实际应用中,用户在使用麦克风录音或者说话时,喷麦问题是一个常见的困扰。针对喷麦现象,常用的消除处理方式主要包括人为控制或者后期审核实现;人为控制是指用户在使用麦克风时,控制嘴巴和麦克风之间的距离、角度、在麦克风上放置海绵等附加装置,以尽量减少气流对麦克风的直接影响,从而减少喷麦现象的发生;后期审核实现是指由技术人员从录制的音频中找出喷麦音频帧,通过对音频帧进行处理实现消除喷麦的影响。然而上述两种方式都存在时效性差、效率低且精准度不高的问题,喷麦现象在音频文件中的消除显得尤为重要。
图1示出了根据本说明书一实施例提供的一种音频处理方法的流程图,具体包括以下步骤:
步骤s102,获取待检测音频文件。
本说明书提供的音频处理方法,为了能够适用更多场景,且提高喷麦现象消除的效率和精准度,在获取到待检测音频文件后,将对所述待检测音频文件进行分帧处理获得多个音频帧,同时从所述多个音频帧中筛选出满足喷麦检测条件的目标音频帧,之后基于目标音频帧和其下一音频帧生成频率幅度谱,以及根据目标音频帧的上一音频帧和上二音频帧生成参考频率幅度谱,最后将频率幅度谱和参考频率幅度谱进行比对,根据比对结果确定所述待检测音频文件中的喷麦音频帧,实现采用时域、频域结合的方式对喷麦音频帧进行检测,可以精准的定位喷麦音频帧在待检测音频文件中的位置,有效的减少了喷麦现象对待检测音频文件音质的影响,从而使得用户可以收听到更加优质的音频。
具体实施时,所述待检测音频文件是指需要进行喷麦音频帧检测的音频,所述待检测音频包括但不限于通过麦克风录制的文件,或者通过客户端上传的文件。
实际应用中,喷麦现象不仅会对收听该音频的用户带来较差的体验,还可能会对后续的音频产生影响;如在录制学生学习使用的课件时,就需要对课件相匹配的音频文件进行喷麦音频帧的消除;或者在直播课中,也需要对直播用户说出的语音进行喷麦音频帧的消除,从而提高观看用户的体验,而在消除喷麦音频帧之前,如何快速、精准的对喷麦音频帧进行定位显着尤为重要。
本实施例将以待检测音频文件为客户端录入的音频文件为例,对所述音频处理方法进行描述,其它定位音频文件中的喷麦音频帧的过程均可参见本实施例相应的描述内容,本实施例在此不作过多赘述。
步骤s104,对所述待检测音频文件进行分帧处理获得多个音频帧,并在所述多个音频帧中筛选出满足喷麦检测条件的目标音频帧。
具体的,在上述获取到所述待检测音频文件的基础上,进一步的,将对所述待检测音频文件进行喷麦音频帧的确定,此时为了能够精准的确定所述喷麦音频帧,可以对所述待检测音频文件进行分帧处理,获得所述多个音频帧,之后从所述多个音频帧中筛选出满足喷麦检测条件的音频帧作为所述目标音频帧。
其中,所述多个音频帧具体是指对所述待检测音频文件进行分帧处理后的得到的音频帧,所述多个音频帧的长度可以根据实际需求进行设定,如待检测音频文件过长,则可以将待检测音频文件分帧处理为较少的音频帧,或者待检测音频文件过短,则可以将待检测音频文件分帧处理为较多的音频帧,本实施例在此不作任何限定,以实现提高处理效率的同时保证喷麦音频帧的定位精准度;所述喷麦检测条件具体是指初步筛选喷麦音频帧的条件,即从所述多个音频帧中确定可能存在喷麦的音频帧;相应的,所述目标音频帧具体是指初步筛选出的存在喷麦概率较大的音频帧;需要说明的是,从所述多个音频帧中筛选出满足喷麦检测条件的目标音频帧可以是一个或多个音频帧。
实际应用中,在对所述待检测音频文件进行分帧处理的过程中,可以根据实际需求设置帧长和帧移对所述待处理文件进行分帧处理,从而获得能够用于后续使用的所述多个音频帧。通常情况下可以将帧长设置在10~50ms,帧移设置在10ms,实现分出来的多个音频帧不会过长或过短,更加方便精准的定位所述喷麦音频帧。
具体实施时,为了能够精准的定位所述喷麦音频帧,以及节省计算机消耗的资源,可以采用分段式的初筛方式实现确定所述目标音频帧,从而提高筛选目标音频帧的精准度,本实施例中,具体实现方式如下所述:
(1)确定所述多个音频帧分别对应的音量幅度特征,并选择所述音量幅度特征满足预设音量幅度特征条件的音频帧确定为初始音频帧。
具体的,所述音量幅度特征具体是指音频帧的时域信号幅度特征,所述初始音频帧具体是指从所述多个音频帧中第一次筛选出的音频帧,其中,所述预设音量幅度特征条件可以根据实际需求进行设定,或者遍历所述待检测音频文件生成,生成过程是指分析各个音频帧的时域信号幅度,通过计算平均值、最大值和最小值的差值等方式确定所述预设音量幅度特征条件,本实施例在此不作任何限定。
实际应用中,由于所述待检测音频文件中可能存在静默音频帧(主要声源并未发出声音),该类音频帧包含喷麦的可能性较低,为了能够节省计算资源,以及提高定位喷麦音频帧的效率,可以通过预设音量幅度特征条件从所述多个音频帧中剔除静默音频帧,剔除方式即为选择不满足预设音量幅度特征条件的音频帧剔除,即将满足预设音量幅度特征条件的音频帧作为所述初始音频帧。
基于此,在获得分帧处理后得到的多个音频帧的基础上,进一步的,将从所述多个音频帧中筛选出所述目标音频帧,以用于后续定位所述待检测音频文件中的喷麦音频帧,而为了能够提高定位所述喷麦音频帧的精准度,就需要保证对所述目标音频帧的筛选精准度,也就是说只有所述喷麦检测条件设置的合理且精准,即可获得满足需求的所述目标音频帧,因此本实施例提供的音频处理方法将对所述多个音频帧进行多次精准的筛选,以保证筛选出的目标音频帧足够精准,需要说明的是,所述初始音频帧可以是一个或多个音频帧。
第一次筛选的过程是为了筛选出初始音频帧,具体是指确定所述多个音频帧分别对应的音量幅度特征,之后选择满足预设音量幅度特征条件的音频帧作为所述初始音频帧,本实施例中,具体实现过程如下所述:
获取所述多个音频帧分别对应的时域信号幅度;
根据所述时域信号幅度计算所述多个音频帧分别对应的平均时域信号幅度,作为所述多个音频帧分别对应的音量幅度特征,或者
根据所述时域信号幅度确定所述多个音频帧分别对应的峰值时域信号幅度,作为所述多个音频帧分别对应的音量幅度特征。
具体的,所述时域信号幅度具体是指对采集到的音频信号进行量化后,各采样时刻点数值的绝对值;基于此,在获得多个音频帧后,在时域维度确定各个音频帧的能量大小,即音量幅度特征。之后计算所述时域信号幅度值的平均值即可确定所述各个音频帧对应的平均时域信号幅度,将所述平均时域信号幅度作为所述音频帧的音量幅度特征即可;或者根据所述时域信号幅度确定各个音频帧对应的峰值时域信号幅度(音频帧对应的最大时域信号幅度值),将所述峰值时域信号幅度作为所述音频帧的音量幅度特征即可。
基于此,在确定所述各个音频帧分别对应的音量幅度特征之后,通过与预设音量幅度特征条件进行比对,即可从所述多个音频帧中筛选出初始音频帧(非静默音频帧),以用于后续筛选所述目标音频帧进行使用。
例如,对待检测音频文件进行分帧处理后,获得8个音频帧,此时将需要对8个音频帧进行分析处理,从而实现定位喷麦所属的音频帧,其中,待检测音频帧中的采样点使用16bit量化;基于此,首先获取8个音频帧分别对应的时域信号幅度,确定第一个音频帧的时域信号幅度值包括{10000,24005,13001,1440,146,……},第二个音频帧的时域信号幅度值包括{1002,18008,10034,1440,10050,……}……第八个音频帧的时域信号幅度值包括{121,1220,16700,22150,1166,……}。
当需要根据平均音量幅度确定各个音频帧对应的音量幅度特征的情况下,则根据各个音频帧包含的时域信号幅度值进行平均时域信号幅度的计算,确定第一个音频帧的平均时域信号幅度是1532,第二个音频帧的平均时域信号幅度是14336……第八个音频帧的平均时域信号幅度是5145,预设的时域信号平均幅度阈值为100,通过比较确定第三个音频帧的平均时域信号幅度小于预设时域信号幅度阈值,表明第三个音频帧所包含的声音音量较小,存在喷麦的可能性较低,从多个音频帧中剔除即可,将剩余的7个音频帧作为初始音频帧,以用于后续定位喷麦音频帧。
当需要根据峰值音量幅度确定各个音频帧对应的音量幅度特征的情况下,则通过分析各个音频帧对应的峰值时域信号幅度,确定第一个音频帧的峰值时域信号幅度是24005,第二个音频帧的峰值时域信号幅度是18008……第八个音频帧的峰值时域信号幅度是22150,预设的时域信号峰值幅度阈值为500,通过比较确定第三个音频帧的峰值时域信号幅度小于预设时域信号幅度阈值,表明第三个音频帧所包含的声音音量较小,存在喷麦的可能性较低,从多个音频帧中剔除即可,将剩余的7个音频帧作为初始音频帧,以用于后续定位喷麦音频帧。
综上,通过对所述多个音频帧进行第一次的筛选,从中获得所述初始音频帧,实现将所述多个音频帧中的静默音频帧进行剔除,无需对未发声或声音过小的音频帧进行后续的筛选处理,有效的提高了定位所述喷麦音频帧的效率。
(2)基于预设的降采样策略或幅度异常策略对所述初始音频帧进行筛选,获得中间音频帧。
具体的,在上述对所述多个音频帧进行第一次筛选获得所述初始音频帧的基础上,进一步的,将根据预设的降采样策略或幅度异常策略对所述初始音频帧进行第二次筛选,以进一步提高确定所述目标音频帧的精准度。
实际应用中,通过所述降采样策略或所述幅度异常策略对所述初始音频帧进行第二次筛选,是为了能够初步的筛选出具有喷麦可能的音频帧,即中间音频帧,从而为后续定位喷麦音频帧打下基础,保证定位的精准度。
基于此,所述降采样策略具体是指通过时域维度对初始音频帧进行初步筛选喷麦音频帧的第一种判据策略,所述幅度异常策略具体是指通过时域维度对初始音频帧进行初步筛选喷麦音频帧的第二种判据策略,从而实现从所述初始音频帧中筛选出喷麦可能性较高的中间音频帧,以用于后续筛选出目标音频帧,需要说明的是,所述中间音频帧可以是一个或多个音频帧。
进一步的,降采样策略是为了快速直观的获取所述音频帧的低频信号特征,本实施例中,具体实现方式如下所述:
确定所述初始音频帧对应的第一幅度峰值,并根据所述第一幅度峰值对所述初始音频帧进行降采样处理,获得所述初始音频帧对应的第二幅度峰值;
在所述第二幅度峰值大于第一预设峰值阈值的情况下,基于所述第一幅度峰值和所述第二幅度峰值计算所述初始音频帧对应的目标幅度峰值;
在所述目标幅度峰值大于第二预设峰值阈值的情况下,将所述初始音频帧确定为所述中间音频帧。
具体的,所述第一幅度峰值具体是指所述初始音频帧对应的音量幅度峰值,所述第二幅度峰值具体是指所述初始音频帧经过降采样处理后对应的音量幅度峰值,所述目标幅度峰值具体是指根据所述第一幅度峰值和所述第二幅度峰值经过计算确定的幅度峰值,所述中间音频帧具体是指存在喷麦概率较高的音频帧。
基于此,在获得所述初始音频帧之后,此时将确定所述初始音频帧对应的第一幅度峰值,同时对所述初始音频帧进行降采样处理,获得所述初始音频帧降采样之后对应的所述第二幅度峰值,其中,降采样的采样率包括但不限于400hz至2khz;之后判断所述第二幅度峰值是否大于第一预设峰值阈值,若否,说明所述初始音频帧并不满足喷麦条件,则不处理即可;若是,说明所述初始音频帧可能初步满足喷麦条件,则计算所述第二幅度峰值和所述第一幅度峰值的比值,确定所述初始音频帧对应的目标幅度峰值,再判断所述目标幅度峰值是否大于第二预设峰值阈值,若否,说明所述初始音频帧并不满足喷麦条件,则不处理即可;若是,说明所述初始音频帧进一步满足喷麦条件,则将所述初始音频帧确定为所述中间音频帧,以用于后续确定所述目标音频帧。
其中,所述第一预设峰值阈值和所述第二预设峰值阈值可以是根据实际需求设定的阈值,也可以是遍历所述待检测音频文件后生成的阈值,生成过程具体是指遍历所述待检测音频文件获得的时域信号幅度峰值,之后按照设定的需求采用该幅度峰值的1/2至1/5作为所述第一预设峰值阈值,同理,所述第二预设峰值阈值可以按照预设的需求采用全部音频帧的幅度峰值的平均值的2至5倍确定,具体设定方式本实施例在此不作过多限定。
沿用上例,在确定初始音频帧由7个音频帧确定的情况下,分别将各帧进行降采样处理,并确定各帧降采样后的第二幅度峰值。确定第一个音频帧对应的第二幅度峰值为20045,第二个音频帧对应的第二幅度峰值为10088,第四个音频帧对应的第二幅度峰值为……第八个音频帧对应的第二幅度峰值为16167,之后将各个音频帧对应的第二幅度峰值与预设的第一预设峰值阈值9000进行比较(第一预设峰值阈值根据所有音频帧的第二幅度峰值的相关量(1/20至1/3)确定),确定第四个音频帧的第二幅度峰值小于第一预设峰值阈值,则将第四个音频帧从初始音频帧中剔除。
基于此,分别计算剩余6个音频帧分别对应的第二幅度峰值和第一幅度峰值的比值,将计算结果作为各个音频帧对应的目标幅度峰值,此时将6个音频帧的目标幅度峰值分别与第二预设峰值阈值进行比较(第二预设峰值阈值根据所有音频帧的幅度峰值比值平均值的2至5倍确定),确定第五个音频帧的目标幅度峰值小于第二预设峰值阈值,则将第五个音频帧从初始音频帧中剔除,最后将剩余的5个音频帧作为中间音频帧,说明这5个音频帧存在喷麦的概率较大,以用于后续定位喷麦音频帧。
综上,采用降采样策略对所述初始音频帧进行处理,获得所述中间音频帧,可以重点对比信号中低频能量的占比,提高从时域维度准确的定位存在喷麦概率较高的中间音频帧。
更进一步的,幅度异常策略是为了能够更精准的从所述初始音频帧中筛选出所述中间音频帧,从而提高定位存在喷麦可能的音频帧的概率,以保证筛选所述目标音频帧的精准度,本实施例中,具体实现方式如下所述:
确定所述初始音频帧对应的第一幅度值;
在所述第一幅度值大于第一预设幅度值阈值的情况下,确定所述初始音频帧相邻的相邻音频帧;
确定所述相邻音频帧对应的第二幅度值,并基于所述第一幅度值和所述第二幅度值计算所述初始音频帧对应的目标幅度值;
在所述目标幅度值大于第二预设幅度值阈值的情况下,将所述初始音频帧确定为所述中间音频帧。
具体的,所述第一幅度值可以是所述初始音频帧的时域信号的平均值的绝对值,或者所述初始音频帧的时域信号的最大值和最小值差值的绝对值;所述相邻音频帧具体是指由所述初始音频帧相邻的音频帧组成,可以是初始音频帧的前后n帧音频组成,n为正整数,且n≥1;相应的,所述第二幅度值可以是相邻音频帧(初始音频帧的前后n帧音频组成的相邻音频帧)的时域信号的最小值之和乘以第一比例系数的结果,或者是相邻音频帧(初始音频帧的前后n帧音频组成的相邻音频帧)的时域信号的最大值之和乘以第一比例系数的结果;或者是邻近音频帧(初始音频帧的前后m帧音频组成的相邻音频帧,m为正整数,m≥2)的时域信号最大值之和乘以第二比例系数的结果,或者是相邻音频帧(初始音频帧的前后m帧音频组成的相邻音频帧)的时域信号最小值之和乘以第二比例系数的结果。
基于此,由于所述第一幅度值的确定过程可以采用上述两种方式确定,因此可以通过两种方式确定所述相邻音频帧,并且采用不同的方式确定所述相邻音频帧,也需要采用不同的方式确定所述第一预设幅度值阈值;所述第二幅度值的确定过程可以采用上述四种方式确定,因此可以通过四种方式确定所述中间音频帧,并且采用不同的方式确定所述中间音频帧,也需要采用不同的规则确定所述第二预设幅度值阈值。
进一步的,第一种确定所述相邻音频帧的过程是指:统计所述初始音频帧的时域信号,计算所述时域信号的平均值,并取平均值的绝对值作为所述初始音频帧的第一幅度值;相应的,所述第一预设幅度值阈值的设定可以根据需求进行设定,如200至1000等,或者通过遍历待检测音频文件确定;基于此,判断时域信号的平均值的绝对值是否大于第一预设幅度值阈值,若否,说明初始音频帧存在喷麦的概率较小,则不做任何处理,若是,说明初始音频帧存在喷麦的概率较大,则确定初始音频帧的相邻音频帧。
第二种确定所述相邻音频帧的过程是指:统计所述初始音频帧的时域信号,并从中选择时域信号的最大值和时域信号的最小值,计算二者的差值作为所述初始音频帧的第一幅度值;相应的,所述第一预设幅度值阈值的设定可以根据需求进行设定,如(30000至40000)等,或者通过遍历所述待检测音频文件确定;基于此,判断时域信号的差值是否大于第一预设幅度值阈值,若否,说明初始音频帧存在喷麦的概率较小,则不做任何处理,若是,说明初始音频帧存在喷麦的概率较大,则确定初始音频帧的相邻音频帧。
更进一步的,第一种确定所述中间音频帧的过程是指:确定初始音频帧的前一帧音频和后一帧音频,并作为初始音频帧的相邻音频帧,之后采集初始音频帧的时域信号最大值作为目标幅度值;前一帧音频的时域信号最大值和后一帧音频的时域信号最大值,将二者的时域信号最大值进行求和并乘以第一比例系数,获得所述初始音频帧对应的第二预设幅度值阈值;基于此,判断目标幅度值是否大于第二预设幅度值阈值,若否,说明初始音频帧存在喷麦的概率较小,则不做任何处理;若是,说明初始音频帧存在喷麦的概率较大,则将所述初始音频帧确定为所述中间音频帧。
第二种确定所述中间音频帧的过程是指:确定初始音频帧的前一帧音频和后一帧音频,并作为初始音频帧的相邻音频帧,之后采集初始音频帧的时域信号最小值作为目标幅度值;前一帧音频的时域信号最小值和后一帧音频的时域信号最小值,将二者的时域信号最小值进行求和并乘以第一比例系数,获得所述初始音频帧对应的第二预设幅度值阈值;基于此,判断目标幅度值是否小于第二预设幅度值阈值,若否,说明初始音频帧存在喷麦的概率较小,则不做任何处理;若是,说明初始音频帧存在喷麦的概率较大,则将所述初始音频帧确定为所述中间音频帧。
第三种确定所述中间音频帧的过程是指:确定初始音频帧的前n帧音频和后n帧音频,并作为初始音频帧的相邻音频帧,之后采集初始音频帧的时域信号最大值作为目标幅度值;前n帧音频的时域信号最大值和后n帧音频的时域信号最大值,将二者的时域信号最大值进行求和并乘以第二比例系数,获得所述初始音频帧对应的第二预设幅度值阈值,n取2-5的正整数;基于此,判断目标幅度值是否大于第二预设幅度值阈值,若否,说明初始音频帧存在喷麦的概率较小,则不做任何处理;若是,说明初始音频帧存在喷麦的概率较大,则将所述初始音频帧确定为所述中间音频帧。
第四种确定所述中间音频帧的过程是指:确定初始音频帧的前n帧音频和后n帧音频,并作为初始音频帧的相邻音频帧,之后采集初始音频帧的时域信号最小值作为目标幅度值;前n帧音频的时域信号最小值和后n帧音频的时域信号最小值,将二者的时域信号最小值进行求和并乘以第二比例系数,获得所述初始音频帧对应的第二预设幅度值阈值,n取2-5的正整数;基于此,判断目标幅度值是否小于第二预设幅度值阈值,若否,说明初始音频帧存在喷麦的概率较小,则不做任何处理;若是,说明初始音频帧存在喷麦的概率较大,则将所述初始音频帧确定为所述中间音频帧。
需要说明的是,上述第一比例系数和第二比例系数可以根据实际需求设定,具体实施时,也可以通过遍历所述待检测音频文件后,设置所述第一比例系数和所述第二比例系数,如待检测音频文件的音量幅度最大值高于20000,则可以将所述第一比例系数设置为0.65至0.85,第二比例系数设置为0.9至1.2,待检测音频文件的最大值小于20000,则可以将所述第一比例系数设置为0.45至0.65,第二比例系数设置为0.7至0.9,实际应用中,可以根据实际应用场景进行设定,本实施例在此不作任何限定。
综上,采用幅度异常策略确定所述中间音频帧,不仅可以减少定位所述喷麦音频帧的资源消耗,还能够提高精准度,进一步保证了确定所述目标音频帧的准确度,从而能够准确的确定所述待检测音频文件中的喷麦音频帧位置。
此外,在确定所述中间音频帧的过程中,可以根据实际需求选择所述降采样策略或幅度异常策略,本实施例在此不作任何限定。
(3)构建所述中间音频帧对应的中间频率幅度谱。
具体的,在上述确定所述中间音频帧的基础上,进一步的,将根据所述中间音频帧进行目标音频帧的确定,而在此过程中,为了能够精准的确定所述目标音频帧,即精准的确定存在喷麦概率较高的音频帧为所述目标音频帧,可以根据所述中间音频帧构建所述中间频率幅度谱,所述中间频率幅度谱具体是指表达所述中间音频帧的频谱,可以通过所述中间频率幅度谱确定所述中间音频帧的能量分布情况,从而更加方便确定所述目标音频帧。
进一步的,构建所述中间音频帧对应的中间频率幅度谱的过程中,由于音频帧是以信号形式的表达,因此需要对所述中间音频帧进行变换,从而能够更加方便目标音频帧的确定,本实施例中,具体实现方式如下所述:
确定所述中间音频帧的前一中间音频帧,并对所述中间音频帧和所述前一中间音频帧进行变换;
根据变换结果构建所述中间音频帧对应的所述中间频率幅度谱。
具体的,所述前一中间音频帧具体是指所述中间音频帧的之前的一帧音频,所述变换包括但不限于傅里叶变换,还可以是小波变换;即在通过时域维度确定所述中间音频帧之后,此时将转换到频域维度对存在喷麦可能的音频帧(中间音频帧)及前后几帧范围内的音频帧进行频域特征的检测,从而确定存在喷麦可能较高的音频帧作为所述目标音频帧。
基于此,在确定所述中间音频帧的前一中间音频帧之前,首先需要构建所述中间音频帧的频域信号,之后判断所述中间音频帧的频域信号的低频能量是否超过预设低频能量阈值;若否,说明所述中间音频帧在频域维度不符合喷麦的条件,则不作任何处理即可;若是,说明所述中间音频帧存在喷麦的可能,则此时确定所述中间音频帧n的前一中间音频帧n-1,之后使用所述中间音频帧n和所述前一中间音频帧n-1进行傅里叶变换,此时即可根据所述变换结构构建出所述中间音频帧对应的所述中间频率幅度谱,以用于确定所述目标音频帧进行使用。
沿用上例,在确定中间音频帧由剩余的5个音频帧组成的情况下,此时将从时域维度转换到频域维度进行低频能量的分析,从而提高确定目标音频帧的精准度;基于此,首先构建5个音频帧分别对应的频域信号,并确定各个频域信号的低频能量,此时确定第一个音频帧的低频能量小于预设低频能量阈值,则将第一个音频帧从中间音频帧中剔除,进一步说明剩余的4个音频帧(第二个音频帧、第六个音频帧、第七个音频帧和第八个音频帧)存在喷麦的概率较大;之后分别确定各个音频帧的前一音频帧,并使用各个音频帧及其对应的前一音频帧进行傅里叶变换,以确定各个音频帧对应的中间频率幅度谱。
即确定第二个音频帧和第一个音频帧后,使用第二个音频帧和第一个音频帧进行傅里叶变换,根据变换结果构建第二音频帧对应的中间频率幅度谱;确定第六个音频帧和第五个音频帧后,使用第六个音频帧和第五个音频帧进行傅里叶变换,根据变换结果构建第六音频帧对应的中间频率幅度谱;确定第七个音频帧和第六个音频帧后,使用第七个音频帧和第六个音频帧进行傅里叶变换,根据变换结果构建第七音频帧对应的中间频率幅度谱;确定第八个音频帧和第七个音频帧后,使用第八个音频帧和第七个音频帧进行傅里叶变换,根据变换结果构建第八音频帧对应的中间频率幅度谱;在确定各个音频帧对应的中间频率幅度谱之后再进行后续的分析处理确定目标音频帧即可。
综上,在通过时域维度进行初筛之后,在转换到频域维度进行进一步的筛选,实现更加精准的确定所述目标音频帧,从而提高定位所述喷麦音频帧的精准度。
(4)基于所述中间频率幅度谱确定所述中间音频帧满足预设幅度谱分布条件的情况下,将所述中间音频帧作为所述目标音频帧。
具体的,在上述构建完成所述中间音频帧对应的中间频率幅度谱之后,进一步的,将根据所述中间频率幅度谱分析所述中间音频帧是否满足预设的幅度谱分布条件,若是,说明所述中间音频帧存在喷麦的概率较高,则将所述中间音频帧确定为所述目标音频帧,再进行后续的定位喷麦音频帧即可;若否,说明所述中间音频帧存在喷麦的概率较低,则不作任何处理即可。
其中,所述预设幅度谱分布条件具体是指在多个维度检测中间频率幅度谱是否满足将所述中间音频帧确定为所述目标音频帧的条件,从而能够提高确定所述目标音频帧的精准度。
本实施例中,确定所述目标音频帧的过程如下所述:
在所述中间频率幅度谱的峰值位于低频区域,且所述中间频率幅度谱的峰值大于预设峰值阈值的情况下,将所述中间音频帧作为所述目标音频帧。
具体的,在构建完成所述中间音频帧对应的中间频率幅度谱之后,检测所述中间频率幅度谱的峰值是否位于预设的低频区间,同时检测所述中间频率幅度谱的峰值是否大于预设峰值阈值,若所述中间音频帧满足上述条件,说明所述中间音频帧存在喷麦的概率较高,将其确定为所述目标音频帧即可,若所述中间音频帧未满足上述条件,说明所述中间音频帧存在喷麦的概率较低,则不作任何处理即可;其中,所述低频区间优选为500hz以下,所述预设峰值阈值优选为48db,需要说明的是,所述低频区间和所述预设峰值阈值可以根据实际需求进行设定,本实施例在此不作任何限定。
沿用上例,在确定第二个音频帧、第六个音频帧、第七个音频帧和第八个音频帧分别对应的中间频率幅度谱的基础上,进一步的,基于中间频率幅度谱检测各个音频帧对应的幅度峰值是否位于低频区间,同时检测各个音频帧对应的幅度峰值是否大于预设峰值阈值;经过比对确定第二个音频帧、第六个音频帧和第八个音频帧均满足上述条件,则说明第二个音频帧、第六个音频帧和第八个音频帧存在喷麦的可能性较高,则将第二个音频帧、第六个音频帧和第八个音频帧确定为目标音频帧,以用于后续进一步定位喷麦音频帧使用。
综上,在通过时域维度初步筛选出存在喷麦可能的音频帧之后,再转换到频域维度进行进一步的筛选,从而提高确定存在喷麦可能性较高的目标音频帧的精准度,进一步提高了定位所述喷麦音频帧的准确度。
步骤s106,根据所述目标音频帧和所述目标音频帧的下一音频帧生成频率幅度谱,以及根据所述目标音频帧的上一音频帧和上二音频帧生成参考频率幅度谱。
具体的,在上述经过喷麦检测条件从所述多个音频帧中筛选出目标音频帧的基础上,进一步的,说明所述目标音频帧是存在喷麦概率较高的音频帧,但是并不能够完全确定,故需要对所述目标音频帧进行进一步检测。
基于此,由于喷麦的形成是基于声源发声后的爆破音、或者气流所产生,因此喷麦对应的音频帧在待检测音频文件中位于正常音频帧首尾或独立存在的概率较高,故可以将所述目标音频帧与其之前的相邻的音频帧进行比对,本实施例为了能够提高喷麦音频帧的定位精准度,将选择目标音频帧以及所述目标音频帧的下一音频帧组成待检测音频帧对,并生成所述待检测音频帧对对应的频率幅度谱,同时将选择目标音频帧的上一音频帧和上二音频帧组成参考音频帧对,并生成所述参考音频帧对对应的参考频率幅度谱,以用于后续分析所述喷麦音频帧。
需要说明的是,生成的参考频率幅度谱是在频域维度实现,通过结合时域维度和频域维度双结合的方式提高定位所述喷麦音频帧的精准度。
进一步的,由于音频帧的确定都是在时域维度确定,因此构建频率幅度谱的过程需要转换到频域维度实现,同时所述参考频率幅度谱的构建也需要进行转换到频域维度实现,本实施例中,具体实现方式如下所述:
本实施例中,具体实现方式如下所述:
在所述多个音频帧中确定所述目标音频帧的下一音频帧,并对所述目标音频帧和所述目标音频帧的下一音频帧进行变换;根据变换结果构建所述频率幅度谱;
在所述多个音频帧中确定所述目标音频帧的上一音频帧和上二音频帧;对所述目标音频帧的上一音频帧和上二音频帧进行变换,根据变化结果构建所述参考频率幅度谱。
具体的,所述变换过程包括但不限于傅里叶变换,还可以是小波变换或dct变换,基于此,以所述目标音频帧为第n帧音频描述构建所述频率幅度谱和所述参考频率幅度谱的过程,在确定所述目标音频帧n之后,确定所述目标音频帧的下一音频帧n+1,同时使用目标音频帧n和下一音频帧n+1进行傅里叶变换,构建所述频率幅度谱,以及确定所述目标音频帧的上一音频帧n-1和上二音频帧n-2,同时使用所述上一音频帧n-1和上二音频帧n-2进行傅里叶变换,构建所述参考频率幅度谱,以用于后续定位所述待检测音频文件中的喷麦音频帧。
沿用上例,在确定第二个音频帧、第六个音频帧和第八个音频帧为目标音频帧的基础上,进一步的,选择第二个音频帧和第三个音频帧组成第一待检测音频帧,选择第六个音频帧和第七个音频帧组成第二待检测音频帧,选择第八个音频帧和第九个音频帧(表示空集,补充作用)组成第三待检测音频帧,之后构建第一待检测音频帧对应的第一频率幅度谱,构建第二待检测音频帧对应的第二频率幅度谱,构建第三待检测音频帧对应的第三频率幅度谱。
基于此,选择空集音频帧(因为第一个音频帧之前不存在音频帧,因此选择空集音频帧补充,即选择并未发声的音频帧作为空集音频帧)和第一个音频帧组成第一参考音频帧,选择第四个音频帧和第五个音频帧生成组成第二参考音频帧,选择第六个音频帧和第七个音频帧组成第三参考音频帧,之后构建第一参考音频帧对应的第一参考频率幅度谱,构建第二参考音频帧对应的第二参考频率幅度谱,构建第三参考音频帧对应的第三参考频率幅度谱,以用于后续分析定位喷麦音频帧,实现对待检测音频文件的喷麦消除即可。
综上,为了能够分析出所述喷麦音频帧可能存在的位置,将采用相邻音频帧比较的方式进行喷麦音频帧的分析,以此来提高所述喷麦音频帧的定位精准度,进一步保证所述待检测音频文件的音质优异性。
步骤s108,将所述频率幅度谱和所述参考频率幅度谱进行比对,根据比对结果确定所述待检测音频文件的喷麦音频帧。
具体的,在上述分别构建所述频率幅度谱和所述参考频率幅度谱之后,此时即可将所述频率幅度谱和所述参考频率幅度谱进行比对,通过比对的方式即可确定二者存在的差异,由于语音的短时平稳特性,因此用户正常讲话的相邻音频帧在频域维度的频率幅度谱变化相对缓慢,故将相邻音频帧对应的频率幅度谱进行比对,如果特定区域差异明显,就说明存在喷麦的概率较大,即可确定所述待检测音频文件中的喷麦音频帧;需要说明的是,信号能量过低时的差异检测结果可信度低,通过上述实施例相应的实现方式,可以将声音过小的音频帧进行排除,从而确保目标音频帧是存在喷麦概率较大的音频帧,可以通过构建频域维度的频率幅度谱的方式对比出是否为待检测音频文件的喷麦音频帧。本实施例中,具体实现方式如下所述:
确定所述频率幅度谱的第一低频区间取值,以及所述参考频率幅度谱的第二低频区间取值;
在所述第一低频区间取值大于所述第二低频区间取值的情况下,计算所述第一低频区间取值与所述第二低频区间取值之间差值的平均值;
在所述平均值大于预设低频阈值的情况下,将所述目标音频帧确定为所述待检测音频文件的所述喷麦音频帧。
具体的,首先确定所述频率幅度谱的第一低频区间取值,以及所述参考频率幅度谱的第二低频区间取值,之后比较所述第一低频区间取值和所述第二低频区间取值的大小关系,若所述第一低频区间取值大于所述第二低频区间取值的情况下,说明所述目标音频帧为喷麦音频帧的概率进一步增加,此时将计算所述第一低频区间取值与所述第二低频区间取值之间差值的平均值,并将所述平均值与预设低频阈值进行比较,在所述平均值大于预设低频阈值的情况下,即可确定所述目标音频帧为所述待检测音频文件的所述喷麦音频帧。
实际应用中,低频区间可以根据实际需求进行设定,相应的所述频率幅度谱和所述参考频率幅度谱的低频区间的取值也是随着设定进行确定的,优先的取60-200hz为低频区间,相应的,所述预设低频阈值也需要按照所述低频区间的设定进行确定,优先的设置为10db。
沿用上例,将低频区间设置为80-200hz,预设低频阈值为10db,此时确定第一频率幅度谱在低频区间的取值为{35,55……45},第一参考频率幅度谱在低频区间的取值为{40,47……50},第二频率幅度谱在低频区间的取值为{50,75……60},第二参考频率幅度谱在低频区间的取值为{60,80……60},第三频率幅度谱在低频区间的取值为{60,70……60},第三参考频率幅度谱在低频区间的取值为{40,46……48};通过比较确定第一频率幅度谱和第二频率幅度谱在低频区间的取值存在小于参考频率幅度谱的取值,则说明第二个音频帧和第六个音频帧存在喷麦可能小较低,则将第二个音频帧和第六个音频帧排除,进一步对第八个音频帧进行进一步的检查。
基于此,此时选择第三个频率幅度谱在低频区间的全部取值,和第三个参考频率幅度谱在低频区间的全部取值,并计算两者差值的平均值为15db,高于预设低频阈值10db,确定第八个音频帧满足喷麦检测的频率条件,即可确定第八个音频帧为待检测音频文件中的喷麦音频帧,可以用于后续对待检测音频文件进行噪声处理时,对第八个音频帧进行消除或降低音量处理,从而避免喷麦音频帧对待检测音频文件的影响。
综上,为了能够精准的定位所述喷麦音频帧的位置,将采用相邻音频帧在频域维度的低频区间比对的方式进行筛查,不仅能够保证喷麦音频帧的定位精准度,还能够提高定位所述喷麦音频帧的处理效率。
此外,在完成所述待检测音频文件中的喷麦音频帧的确定之后,可以根据所述喷麦音频帧对所述待检测音频文件进行处理,从而生成不具有喷麦音频帧的目标音频文件进行播放,本实施例中,具体实现方式如下所述:
根据所述喷麦音频帧对所述待检测音频文件进行处理,获得目标音频文件;将所述目标音频文件进行播放。
例如,某老师在直播课上进行语文拼音课程的教学,由于拼音“t”、“p”、“k”等都会产生气流较大的现象,从而引发喷麦的情况发生,为了避免喷麦现象对听课的学生带来不好的影响,此时将对老师录入的音频文件进行喷麦检测,并在检测到喷麦音频帧之后,对喷麦音频帧进行消除处理,从而生成不具有喷麦音频帧的目标音频文件并进行播放,使得学生可以听到播放效果较好的音频。
实际应用中,对所述待检测音频文件中的喷麦音频帧进行处理包括但不限于消除喷麦音频帧、降低喷麦音频帧的音量等,本实施例在此不作过多限定。
本说明书提供的音频处理方法,在获取到待检测音频文件后,将对所述待检测音频文件进行分帧处理获得多个音频帧,同时从所述多个音频帧中筛选出满足喷麦检测条件的目标音频帧,之后基于目标音频帧和其下一音频帧生成频率幅度谱,以及根据目标音频帧的上一音频帧和上二音频帧生成参考频率幅度谱,最后将频率幅度谱和参考频率幅度谱进行比对,根据比对结果确定所述待检测音频文件中的喷麦音频帧,实现采用时域、频域结合的方式对喷麦音频帧进行检测,可以精准的定位喷麦音频帧在待检测音频文件中的位置,有效的减少了喷麦现象对待检测音频文件音质的影响,从而使得用户可以收听到更加优质的音频。
下述结合附图2,以本说明书提供的音频处理方法在音频播放场景中的应用为例,对所述音频处理方法进行进一步说明。其中,图2示出了本说明书一实施例提供的一种应用于音频播放场景中的音频处理方法的处理流程图,具体包括以下步骤:
步骤s202,获取待检测音频文件。
实际应用中,由于待检测音频文件中存在喷麦的音频帧,将会造成不利于用户收听的问题,为了避免这一问题对用户的收听体验产生影响,将对待检测音频文件中的喷麦音频帧进行检测并消除,从而实现播放便于用户收听的音频文件。
步骤s204,对待检测音频文件进行分帧处理,获得多个音频帧。
步骤s206,确定多个音频帧分别对应的音量幅度特征,并选择音量幅度特征满足预设音量幅度特征条件的音频帧确定为初始音频帧。
步骤s208,确定初始音频帧对应的第一幅度峰值,并对初始音频帧进行降采样处理,获得初始音频帧对应的第二幅度峰值。
步骤s210,在第二幅度峰值大于第一预设峰值阈值的情况下,计算第一幅度峰值和第二幅度峰值的比值,获得目标幅度峰值。
步骤s212,在目标幅度峰值大于第二预设峰值阈值的情况下,将初始音频帧确定为中间音频帧n。
步骤s214,确定中间音频帧n的后一音频帧n+1,并利用中间音频帧n和后一音频帧n+1进行变换。
步骤s216,根据变换结果构建中间频率幅度谱,并确定中间频率幅度谱的幅度峰值。
步骤s218,在幅度峰值位于预设低频区域且大于幅度峰值阈值的情况下,将中间音频帧n确定为目标音频帧n。
步骤s220,确定目标音频帧n的上一音频帧n-1和上二音频帧n-2,并利用上一音频帧n-1和上二音频帧n-2进行变换。
步骤s222,根据变换结构构建参考频率幅度谱,并确定参考频率幅度谱在低频区域内参考幅度的取值和参考幅度平均值。
步骤s224,确定中间频率幅度谱在低频区域内幅度的取值和幅度平均值。
步骤s226,在低频区域内幅度的取值均大于参考幅度的取值,以及幅度平均值大于参考幅度平均值的情况下,将目标音频帧确定为待检测音频文件的喷麦音频帧。
步骤s228,根据喷麦音频帧对待检测音频文件进行处理,并将处理结果进行播放。
本实施例提供的音频处理方法均可参见上述实施例相应的描述内容,在此不作过多赘述。
本说明书提供的音频处理方法,在获取到待检测音频文件后,将对所述待检测音频文件进行分帧处理获得多个音频帧,同时从所述多个音频帧中筛选出满足喷麦检测条件的目标音频帧,之后基于目标音频帧和其下一音频帧生成频率幅度谱,以及根据目标音频帧的上一音频帧和上二音频帧生成参考频率幅度谱,最后将频率幅度谱和参考频率幅度谱进行比对,根据比对结果确定所述待检测音频文件中的喷麦音频帧,实现采用时域、频域结合的方式对喷麦音频帧进行检测,可以精准的定位喷麦音频帧在待检测音频文件中的位置,有效的减少了喷麦现象对待检测音频文件音质的影响,从而使得用户可以收听到更加优质的音频。
与上述方法实施例相对应,本说明书还提供了音频处理装置实施例,图3示出了本说明书一实施例提供的一种音频处理装置的结构示意图。如图3所示,该装置包括:
获取模块302,被配置为获取待检测音频文件;
分帧模块304,被配置为对所述待检测音频文件进行分帧处理获得多个音频帧,并在所述多个音频帧中筛选出满足喷麦检测条件的目标音频帧;
生成模块306,被配置为根据所述目标音频帧和所述目标音频帧的下一音频帧生成频率幅度谱,以及根据所述目标音频帧的上一音频帧和上二音频帧生成参考频率幅度谱;
确定模块308,被配置为将所述频率幅度谱和所述参考频率幅度谱进行比对,根据比对结果确定所述待检测音频文件的喷麦音频帧。
一个可选的实施例中,所述分帧模块304,包括:
确定音量幅度单元,被配置为确定所述多个音频帧分别对应的音量幅度特征,并选择所述音量幅度特征满足预设音量幅度特征条件的音频帧确定为初始音频帧;
策略处理单元,被配置为基于预设的降采样策略或幅度异常策略对所述初始音频帧进行筛选,获得中间音频帧;
构建中间频率幅度谱单元,被配置为构建所述中间音频帧对应的中间频率幅度谱;
确定目标音频帧单元,被配置为基于所述中间频率幅度谱确定所述中间音频帧满足预设幅度谱分布条件的情况下,将所述中间音频帧作为所述目标音频帧。
一个可选的实施例中,所述确定音量幅度单元,包括:
获取音量幅度谱子单元,被配置为获取所述多个音频帧分别对应的时域信号幅度;
计算平均音量幅度子单元,被配置为根据所述时域信号幅度计算所述多个音频帧分别对应的平均时域信号幅度,作为所述多个音频帧分别对应的音量幅度特征,或者
确定峰值音量幅度子单元,被配置为根据所述时域信号幅度确定所述多个音频帧分别对应的峰值时域信号幅度,作为所述多个音频帧分别对应的音量幅度特征。
一个可选的实施例中,所述策略处理单元,包括:
确定幅度峰值子单元,被配置为确定所述初始音频帧对应的第一幅度峰值,并根据所述第一幅度峰值对所述初始音频帧进行降采样处理,获得所述初始音频帧对应的第二幅度峰值;
计算目标幅度峰值子单元,被配置为在所述第二幅度峰值大于第一预设峰值阈值的情况下,基于所述第一幅度峰值和所述第二幅度峰值计算所述初始音频帧对应的目标幅度峰值;
第一确定中间音频帧子单元,被配置为在所述目标幅度峰值大于第二预设峰值阈值的情况下,将所述初始音频帧确定为所述中间音频帧。
一个可选的实施例中,所述策略处理单元,包括:
确定幅度值子单元,被配置为确定所述初始音频帧对应的第一幅度值;
确定相邻音频帧子单元,被配置为在所述第一幅度值大于第一预设幅度值阈值的情况下,确定所述初始音频帧相邻的相邻音频帧;
确定目标幅度值子单元,被配置为确定所述相邻音频帧对应的第二幅度值,并基于所述第一幅度值和所述第二幅度值计算所述初始音频帧对应的目标幅度值;
第二确定中间音频帧子单元,被配置为在所述目标幅度值大于第二预设幅度值阈值的情况下,将所述初始音频帧确定为所述中间音频帧。
一个可选的实施例中,所述构建中间频率幅度谱单元,包括:
变换子单元,被配置为确定所述中间音频帧的前一中间音频帧,并对所述中间音频帧和所述前一中间音频帧进行变换;
构建中间频率幅度谱子单元,被配置为根据变换结果构建所述中间音频帧对应的所述中间频率幅度谱。
一个可选的实施例中,所述确定目标音频帧单元进一步被配置为:
在所述中间频率幅度谱的峰值位于低频区域,且所述中间频率幅度谱的峰值大于预设峰值阈值的情况下,将所述中间音频帧作为所述目标音频帧。
一个可选的实施例中,所述生成模块306,包括:
第一变换单元,被配置为在所述多个音频帧中确定所述目标音频帧的下一音频帧,并对所述目标音频帧和所述目标音频帧的下一音频帧进行变换;
构建单元,被配置为根据变换结果构建所述频率幅度谱。
一个可选的实施例中,所述生成模块306,包括:
确定单元,被配置为在所述多个音频帧中确定所述目标音频帧的上一音频帧和上二音频帧;
第二变换单元,被配置为对所述目标音频帧的上一音频帧和上二音频帧进行变换,根据变化结果构建所述参考频率幅度谱。
一个可选的实施例中,所述确定模块308,包括:
确定取值单元,被配置为确定所述频率幅度谱的第一低频区间取值,以及所述参考频率幅度谱的第二低频区间取值;
计算平均值单元,被配置为在所述第一低频区间取值大于所述第二低频区间取值的情况下,计算所述第一低频区间取值与所述第二低频区间取值之间差值的平均值;
确定喷麦音频帧单元,被配置为在所述平均值大于预设低频阈值的情况下,将所述目标音频帧确定为所述待检测音频文件的所述喷麦音频帧。
一个可选的实施例中,所述音频处理装置,还包括:
处理模块,被配置为根据所述喷麦音频帧对所述待检测音频文件进行处理,获得目标音频文件;
播放模块,被配置为将所述目标音频文件进行播放。
本实施例提供的音频处理装置,在获取到待检测音频文件后,将对所述待检测音频文件进行分帧处理获得多个音频帧,同时从所述多个音频帧中筛选出满足喷麦检测条件的目标音频帧,之后基于目标音频帧和其下一音频帧生成频率幅度谱,以及根据目标音频帧的上一音频帧和上二音频帧生成参考频率幅度谱,最后将频率幅度谱和参考频率幅度谱进行比对,根据比对结果确定所述待检测音频文件中的喷麦音频帧,实现采用时域、频域结合的方式对喷麦音频帧进行检测,可以精准的定位喷麦音频帧在待检测音频文件中的位置,有效的减少了喷麦现象对待检测音频文件音质的影响,从而使得用户可以收听到更加优质的音频。
上述为本实施例的一种音频处理装置的示意性方案。需要说明的是,该音频处理装置的技术方案与上述的音频处理方法的技术方案属于同一构思,音频处理装置的技术方案未详细描述的细节内容,均可以参见上述音频处理方法的技术方案的描述。
图4示出了根据本说明书一实施例提供的一种计算设备400的结构框图。该计算设备400的部件包括但不限于存储器410和处理器420。处理器420与存储器410通过总线430相连接,数据库450用于保存数据。
计算设备400还包括接入设备440,接入设备440使得计算设备400能够经由一个或多个网络460通信。这些网络的示例包括公用交换电话网(pstn)、局域网(lan)、广域网(wan)、个域网(pan)或诸如因特网的通信网络的组合。接入设备440可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(nic))中的一个或多个,诸如ieee802.11无线局域网(wlan)无线接口、全球微波互联接入(wi-max)接口、以太网接口、通用串行总线(usb)接口、蜂窝网络接口、蓝牙接口、近场通信(nfc)接口,等等。
在本说明书的一个实施例中,计算设备400的上述部件以及图4中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图4所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备400可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或pc的静止计算设备。计算设备400还可以是移动式或静止式的服务器。
其中,处理器420用于执行如下计算机可执行指令:
获取待检测音频文件;
对所述待检测音频文件进行分帧处理获得多个音频帧,并在所述多个音频帧中筛选出满足喷麦检测条件的目标音频帧;
根据所述目标音频帧和所述目标音频帧的下一音频帧生成频率幅度谱,以及根据所述目标音频帧的上一音频帧和上二音频帧生成参考频率幅度谱;
将所述频率幅度谱和所述参考频率幅度谱进行比对,根据比对结果确定所述待检测音频文件的喷麦音频帧。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的音频处理方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述音频处理方法的技术方案的描述。
本说明书一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时以用于:
获取待检测音频文件;
对所述待检测音频文件进行分帧处理获得多个音频帧,并在所述多个音频帧中筛选出满足喷麦检测条件的目标音频帧;
根据所述目标音频帧和所述目标音频帧的下一音频帧生成频率幅度谱,以及根据所述目标音频帧的上一音频帧和上二音频帧生成参考频率幅度谱;
将所述频率幅度谱和所述参考频率幅度谱进行比对,根据比对结果确定所述待检测音频文件的喷麦音频帧。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的音频处理方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述音频处理方法的技术方案的描述。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本说明书并不受所描述的动作顺序的限制,因为依据本说明书,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本说明书所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本说明书的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。