噪声检测的方法和装置与流程

文档序号:24562146发布日期:2021-04-06 12:11阅读:431来源:国知局
噪声检测的方法和装置与流程

本申请涉及音频处理技术领域,特别涉及一种噪声检测的方法和装置。



背景技术:

随着互联网的发展,数字音乐迅速流行。对音频进行噪声检测是一种非常常见的处理,例如,音乐平台会对存入音频库的歌曲音频进行噪声检测,k歌应用程序在对录制的歌曲音频进行去噪处理之前需要进行噪声检测。

相关技术中噪声检测方法是:将音频划分为若干固定时长的音频段,根据噪声判定模型判定每个音频段是否存在噪声。

上述的噪声检测方法,需要对音频的每个音频段都进行复杂的模型处理,需要消耗较长的时间,处理效率较低。



技术实现要素:

本申请实施例提供了一种噪声检测的方法,能够解决相关技术中噪声检测时需要对音频的每个音频段都进行复杂的模型处理进而需要消耗较长时间、处理效率较低的问题。所述技术方案如下:

第一方面,提供了一种噪声检测的方法,所述方法包括:

在目标音频中确定待定噪声音频段,其中,所述待定噪声音频段中的每个音频帧均满足噪声参数条件,且与所述待定噪声音频段相邻的音频帧均不满足所述噪声参数条件;

确定与所述待定噪声音频段相邻、且时长与所述待定噪声音频段的时长满足预设条件的至少一个参考音频段;

基于所述待定噪声音频段、所述至少一个参考音频段以及噪声判定模型,确定所述待定噪声音频段对应的噪声判定结果,其中,所述噪声判定结果用于指示所述待定噪声音频段是否存在噪声。

在一种可能的设计中,所述在目标音频中确定待定噪声音频段,包括:

在所述目标音频中从首个音频帧开始向后逐个检测音频帧是否满足噪声参数条件;

当检测到第一音频帧满足噪声参数条件、且所述第一音频帧的前一个音频帧不满足噪声参数条件时,将所述第一音频帧确定为开始音频帧;

当检测到第二音频帧满足噪声参数条件、且所述第二音频帧的后一个音频帧不满足噪声参数条件时,将所述第二音频帧确定为结束音频帧;

将所述开始音频帧至所述结束音频帧的音频段,确定为待定噪声音频段。

在一种可能的设计中,所述待定噪声音频段中的音频帧的数目大于或等于数目阈值。

在一种可能的设计中,所述噪声参数条件包括音频帧的能量大于能量阈值、音频帧的过零率大于过零率阈值以及音频帧的频谱平坦度大于频谱平坦度阈值。

在一种可能的设计中,所述至少一个参考音频段包括第一参考音频段和/或第二参考音频段;

所述确定与所述待定噪声音频段相邻、且时长与所述待定噪声音频段的时长满足预设条件的至少一个参考音频段,包括:

在所述待定噪声音频段之前,确定与所述待定噪声音频段相邻、且时长与所述待定噪声音频段的时长的比值为第一数值的第一参考音频段;和/或,

在所述待定噪声音频段之后,确定与所述待定噪声音频段相邻、且时长与所述待定噪声音频段的时长的比值为第二数值的第二参考音频段。

在一种可能的设计中,所述至少一个参考音频段包括第一参考音频段和/或第二参考音频段;

确定与所述待定噪声音频段相邻、且时长与所述待定噪声音频段的时长满足预设条件的所述至少一个参考音频段,包括:

在所述待定噪声音频段之前,确定与所述待定噪声音频段相邻且时长与所述待定噪声音频段的时长总和等于预设时长的第一参考音频段;或,

在所述待定噪声音频段之后,确定与所述待定噪声音频段相邻且时长与所述待定噪声音频段的时长总和等于预设时长的第二参考音频段;或,

在所述待定噪声音频段之前和之后,分别确定与所述待定噪声音频段相邻的第一参考音频段和第二参考音频段,其中,所述第一参考音频段、所述第二参考音频段和所述待定噪声音频段的时长之和等于预设时长。

在一种可能的设计中,所述基于所述待定噪声音频段、所述至少一个参考音频段以及噪声判定模型,确定所述待定噪声音频段对应的噪声判定结果,包括:

将所述待定噪声音频段和所述至少一个参考音频段组成的总音频段对应的矩阵,转换为预设尺寸的矩阵;

将所述预设尺寸的矩阵,输入到噪声判定模型中,得到所述待定噪声音频段对应的噪声判定结果。

第二方面,提供了一种噪声检测的装置,所述装置包括:

第一确定模块,用于在目标音频中确定待定噪声音频段,其中,所述待定噪声音频段中的每个音频帧均满足噪声参数条件,且与所述待定噪声音频段相邻的音频帧均不满足所述噪声参数条件;

第二确定模块,用于确定与所述待定噪声音频段相邻、且时长与所述待定噪声音频段的时长满足预设条件的至少一个参考音频段;

判定模块,用于基于所述待定噪声音频段、所述至少一个参考音频段以及噪声判定模型,确定所述待定噪声音频段对应的噪声判定结果,其中,所述噪声判定结果用于指示所述待定噪声音频段是否存在噪声。

在一种可能的设计中,所述第一确定模块,用于:

在所述目标音频中检测音频帧是否满足噪声参数条件;

当检测到第一音频帧满足噪声参数条件、且所述第一音频帧的前一个音频帧不满足噪声参数条件时,将所述第一音频帧确定为开始音频帧;

当检测到第二音频帧满足噪声参数条件、且所述第二音频帧的后一个音频帧不满足噪声参数条件时,将所述第二音频帧确定为结束音频帧;

将所述开始音频帧至所述结束音频帧的音频段,确定为待定噪声音频段。

在一种可能的设计中,所述待定噪声音频段中的音频帧的数目大于或等于数目阈值。

在一种可能的设计中,所述噪声参数条件包括音频帧的能量大于能量阈值、音频帧的过零率大于过零率阈值以及音频帧的频谱平坦度大于频谱平坦度阈值。

在一种可能的设计中,所述至少一个参考音频段包括第一参考音频段和/或第二参考音频段;

所述第二确定模块,用于:

在所述待定噪声音频段之前,确定与所述待定噪声音频段相邻、且时长与所述待定噪声音频段的时长的比值为第一数值的第一参考音频段;和/或,

在所述待定噪声音频段之后,确定与所述待定噪声音频段相邻、且时长与所述待定噪声音频段的时长的比值为第二数值的第二参考音频段。

在一种可能的设计中,所述至少一个参考音频段包括第一参考音频段和/或第二参考音频段;

所述第二确定模块,用于:

在所述待定噪声音频段之前,确定与所述待定噪声音频段相邻且时长与所述待定噪声音频段的时长总和等于预设时长的第一参考音频段;或,

在所述待定噪声音频段之后,确定与所述待定噪声音频段相邻且时长与所述待定噪声音频段的时长总和等于预设时长的第二参考音频段;或,

在所述待定噪声音频段之前和之后,分别确定与所述待定噪声音频段相邻的第一参考音频段和第二参考音频段,其中,所述第一参考音频段、所述第二参考音频段和所述待定噪声音频段的时长之和等于预设时长。

在一种可能的设计中,所述判定模块,用于:

将所述待定噪声音频段和所述至少一个参考音频段组成的总音频段对应的矩阵,转换为预设尺寸的矩阵;

将所述预设尺寸的矩阵,输入到噪声判定模型中,得到所述待定噪声音频段对应的噪声判定结果。

第三方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令,指令由处理器加载并执行以实现噪声检测的方法所执行的操作。

第四方面,一种计算机可读存储介质,所述存储介质中存储有至少一条指令,指令由处理器加载并执行以实现噪声检测的方法所执行的操作。

在本申请实施例中,在目标音频中,基于噪声参数条件进行筛选,获取目标音频中较大概率存在噪声的待定噪声音频段,然后获取与待定噪声音频段相邻的至少一个参考音频段,参考音频段中包括一些不满足噪声参数条件的音频帧,这些音频帧较大概率不存在噪声,基于待定噪声音频段、至少一个参考音频段和噪声判定模型进行判定,确定待定噪声音频段中是否存在噪声,这一检测过程并不需要对目标音频中的所有音频段都进行复杂的模型处理,节省了检测时间,提高了检测效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种噪声检测的方法的流程图;

图2是本申请实施例提供的一种待定噪声音频段的示意图;

图3是本申请实施例提供的一种待定噪声音频段的示意图;

图4是本申请实施例提供的一种待定噪声音频段的示意图;

图5是本申请实施例提供的一种待定噪声音频段和参考音频段的示意图;

图6是本申请实施例提供的一种待定噪声音频段和参考音频段的示意图;

图7是本申请实施例提供的一种噪声检测的装置的结构示意图;

图8是本申请实施例提供的一种计算机设备的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。

本实施例提供了一种噪声检测的方法,该方法可以由计算机设备实现。计算机设备可以是台式计算机、笔记本计算机、手机、平板电脑等终端,也可以是服务器或服务器集群。

计算机设备可以包括处理器、存储器、通信部件等。存储器可以是各种非易失性存储设备或易失性存储设备,可以用于数据存储,例如,噪声检测应用程序的程序代码数据、检测的目标音频的数据、预先存储的噪声判定模型的数据、在噪声检测过程中生成的中间数据,等等。处理器可以用于运行噪声检测应用程序、判断噪声参数条件是否满足的过程的处理、基于噪声判定模型进行结果判定的过程的处理,等等。

计算机设备中安装有噪声检测应用程序(也可称作噪声检测平台),噪声检测应用程序可以是独立的应用程序,也可以是其他应用程序中的插件。噪声检测应用程序用于对该计算机设备中的被测音频文件或者该计算机设备连接的其他设备中的被测音频文件进行检测。本申请实施例以噪声检测应用程序对计算机设备中的被测音频文件进行测试为例进行方案的说明,其他情况与之类似,本实施例不再赘述。

噪声检测应用程序以插件形式可以应用于k歌应用程序中,用户录制的歌曲可以进行噪声检测并对其进行降噪处理;或者噪声检测应用程序可以应用于歌曲入库时对于音频文件是否有噪声缺陷进行检测;或者可以应用于语音或视频直播的应用程序,会对其中的音频数据进行噪声检测并进行降噪处理,等等。本申请实施例以噪声检测应用程序对歌曲入库时的音频文件进行检测为例进行方案的说明,其他情况与之类似,本实施例不再赘述。

图1是本申请实施例提供的一种噪声检测的方法的流程图。参见图1,该实施例包括:

101、在目标音频中确定待定噪声音频段。

其中,待定噪声音频段中的每个音频帧均满足噪声参数条件,且与待定噪声音频段相邻的音频帧均不满足噪声参数条件。

在音频文件中,可能出现的噪声包括底噪、浊音、白噪声等,白噪声是指功率谱密度在整个频域内近似于常数的噪声,其中,白噪声又包括突发白噪声,突发白噪声是白噪声中能量较大的一种。本申请实施例提供的方案可以对各种噪声进行检测,尤其可以对白噪声甚至突发白噪声进行检测。

在实施中,工作人员在将歌曲入库前可以先检测歌曲是否存在噪声。首先,工作人员可以在计算机设备中运行噪声检测应用程序,进入噪声检测应用程序的主界面,点击主界面中设置的“选择被测文件”按钮,触发显示计算机设备中的文件列表,选择目标音频,将目标音频输入到噪声检测应用程序中开始进行检测。

对目标音频进行时域采样,首先获取512个采样点作为目标音频的第一个音频帧检测其是否满足噪声参数条件,然后在剩余采样点中再获取512个采样点作为目标音频的第二个音频帧检测其是否满足噪声参数条件,以此类推,直到剩余的采样点数目小于512时,停止获取采样点进行检测。可以理解的是,对于每个音频帧的采样点数并不一定为512,也可以是256、1024等。

在一种实施方式中,在目标音频中确定待定噪声音频段的处理过程可以如下:噪声检测应用程序在目标音频中从首个音频帧开始向后逐个检测音频帧是否满足噪声参数条件;当检测到第一音频帧满足噪声参数条件、且第一音频帧的前一个音频帧不满足噪声参数条件时,将第一音频帧确定为开始音频帧;当检测到第二音频帧满足噪声参数条件、且第二音频帧的后一个音频帧不满足噪声参数条件时,将第二音频帧确定为结束音频帧;将开始音频帧至结束音频帧的音频段,确定为待定噪声音频段。

其中,待定噪声音频段是噪声检测应用程序在对目标音频进行检测时,获取的较大概率存在噪声的音频段。

在实施中,例如,如图2所示,当对目标音频中的每个音频帧从前往后进行噪声检测时,检测到第a10帧至第a25帧都满足噪声参数条件,且第a9帧和第a26帧都不满足噪声参数条件,则将第a10帧确定为开始音频帧,将第a25帧确定为结束音频帧,第a10帧至第a25帧确定为待定噪声音频段,即图2中的p段音频帧。

当满足噪声参数条件的第一音频帧为目标音频的首个音频帧时,首个音频帧至结束音频帧也可以确定为待定噪声音频段;当满足噪声参数条件的第二音频帧为目标音频的最后一个音频帧时,开始音频帧至目标音频的最后一个音频帧也可以确定为待定噪声音频段。例如,如图3所示,当目标音频中的首个音频帧第b1帧至第b5帧都满足噪声参数条件,第b6帧不满足噪声参数条件时,第b1帧至第b5帧也可以确定为待定噪声音频段,即图3中的q段音频帧;如图4所示,当目标音频中的第c45帧至最后一个音频帧第c50帧都满足噪声参数条件,第c44帧不满足噪声参数条件时,第c45帧至第c50帧也可以确定为待定噪声音频段,即图4中的r段音频帧。

可选的,噪声参数条件可以包括音频帧的能量大于能量阈值、音频帧的过零率大于过零率阈值以及音频帧的频谱平坦度大于频谱平坦度阈值。

在实施中,噪声检测应用程序对目标音频中的每个音频帧逐个进行检测时,可以根据式(1)计算被检测音频帧的能量,判断其能量是否大于能量阈值,若判断为是,则执行下一步骤,根据式(2)和(3)计算被检测音频帧的过零率,判断其过零率是否大于过零率阈值,若判断为是,则再进行下一步骤,根据式(4)、(5)、(6)和(7)计算被检测音频帧的频谱平坦度,判断其频谱平坦度是否大于频谱平坦度阈值,若判断为是,则确定被检测音频帧满足噪声参数条件。可以理解的是,对于被检测音频帧的能量、过零率和频谱平坦度的判断顺序,本申请不做限定,可以任意排序。但若上述三次判断任一步骤判断为否,则确定被检测音频帧不满足噪声参数条件。可以理解的是,上述三个噪声参数条件是用于检测音频中是否存在白噪声甚至是白噪声中的突发白噪声,其他类型的噪声可以根据特征采用其对应的参数条件,噪声参数条件可以由技术人员根据需求任意设置。

式1中的energy(t)为音频帧的能量,n为每帧音频的采样点数,t为音频帧的时间序列号,n为采样点的序列号,x(t,n)为序列号为t的音频帧中采样点n的幅值。

式(2)中的zcr(t)为音频帧的过零率,其中各字母代表的参数和式(1)相同,x(t,n-1)为序列号为t的音频帧中采样点n-1的幅值。

式(4)、(5)、(6)、(7)中的flatness(t)为音频帧的频谱平坦度,w(n)为窗函数(这里可以选用海明窗、汉宁窗等),n、n、t、x(t,n)代表的参数与式(1)相同。

例如,对于目标音频中是否存在突发白噪声的检测,当每个音频帧的采样点数为512时,技术人员可以将能量阈值设置为50,根据每个音频帧的采样点数的不同,能量阈值的选取也可能不同。过零率阈值可以设置为0.3,频谱平坦度阈值可以设置为0.5。因此,只有当一个音频段中的所有的音频帧的能量大于50,过零率大于0.3,且频谱平坦度大于0.5时,此音频段才可以被确定为待定噪声音频段。

又例如,对于目标音频中是否存在白噪声的检测,当每个音频帧的采样点数为512时,技术人员可以将能量阈值设置为7,根据每个音频帧的采样点数的不同,能量阈值的选取也可能不同。过零率阈值可以设置为0.3,频谱平坦度阈值可以设置为0.5。因此,只有当一个音频段中的所有的音频帧的能量大于7,过零率大于0.3,且频谱平坦度大于0.5时,此音频段才可以被确定为待定噪声音频段。

可选的,可以只对超过一定时长的噪声进行检测,相应的,待定噪声音频段中的音频帧的数目大于或等于数目阈值。

在实施中,不同种类的噪声的检测对于待定噪声音频段中的音频帧的数目的要求是不同的。在本实施例中,噪声检测应用程序对于目标音频中噪声的检测,若开始音频帧至结束音频帧的音频帧的数目过小,并不满足数目阈值,则这段音频帧并不能被确定为待定噪声音频段。只有从开始音频帧至结束音频帧之间的音频帧的数目大于一定数目阈值,才可以将开始音频帧至结束音频帧的这些音频帧确定为待定噪声音频段。

102、确定与待定噪声音频段相邻、且时长与待定噪声音频段的时长满足预设条件的至少一个参考音频段。

其中,参考音频段与待定噪声音频段相邻,其内包括与待定噪声音频段相邻、且不满足噪声参数条件的音频帧。参考音频帧内包括不满足噪声参数条件的音频帧,可称作非噪声音频帧,这样,待定噪声音频段和参考噪声音频段组成的总音频段中,既包括非噪声音频帧,又包括噪声音频帧,具有一定的对比性,有助于后续步骤的检测。

对于参考音频段的选取,可以有多种方式,以下对其中几种可能的方式进行说明。

方式一,在实施中,技术人员可以基于实际经验或者实验效果设置参考音频段与待定噪声音频段的时长的比值。此比值可以用于设置后续模型的训练样本,还用于在实际的噪声检测过程中基于待定噪声音频段的时长来选取参考音频段。可见,在训练过程中和实际噪声检测过程中,参考音频段与待定噪声音频段的时长的比值是相同的,这样有利于模型检测结果的准确性。

在确定待定噪声音频段之后,可以基于待定噪声音频段的时长和上述预设的比值,计算参考音频段的时长。然后基于计算出的参考音频段的时长,由待定噪声音频段的开始时间点和/或结束时间点开始,确定与待定噪声音频段相邻的时间段,获取此时间段内的所有音频帧,组成参考音频段。

对于至少一个参考音频段包括待定噪声音频段之前的一个相邻的参考音频段的情况,当根据预设的比值确定的参考音频段的音频帧的数目大于目标音频中待定噪声音频段之前的所有的音频帧的数目时,缺少的音频帧取零补齐。其中,取零代表着该音频帧的所有频率所对应的幅值为零。例如图5所示,当待定噪声音频段为目标音频中的第d3帧至第d12帧,即音频段m,预设的比值为2/5(即参考音频段中音频帧的数目/待定噪声音频段中音频帧的数目),则参考音频段的音频帧的数目为4,而待定噪声音频帧往前的音频帧只有第d1帧和第d2帧,不满足参考音频帧的规定时长。在第d1帧前取零补两个音频帧,即第d0帧和第d(-1)帧,则参考音频帧为第d1帧、第d2帧、第d0帧和第d(-1)帧即音频段l。

对于至少一个参考音频段包括待定噪声音频段之后的一个相邻的参考音频段的情况,当根据预设的比值确定的参考音频段的音频帧的数目大于目标音频中待定噪声音频段之后的所有的音频帧的数目时,缺少的音频帧取零补齐。其中,取零代表着该音频帧的所有频率所对应的幅值为零。例如图6所示,当待定噪声音频段为目标音频中的第e21帧至第e30帧,即音频段n,预设的比值为2/5(即参考音频段中音频帧的数目/待定噪声音频段中音频帧的数目),则参考音频段的音频帧的数目为4,而待定噪声音频帧往前的音频帧只有第e31帧和第e32帧,不满足参考音频帧的规定时长。在第32帧之后取零补两个音频帧,即第e33帧和第e34帧,则参考音频帧为第e31帧、第e32帧、第e33帧和第e34帧,即音频段t。

方式二,可以在待定噪声音频段的前和/或后各取一个参考音频段,则相应的步骤102的处理可以如下:至少一个参考音频段包括第一参考音频段和/或第二参考音频段;在待定噪声音频段之前,确定与待定噪声音频段相邻、且时长与待定噪声音频段的时长的比值为第一数值的第一参考音频段;和/或,在待定噪声音频段之后,确定与待定噪声音频段相邻、且时长与所述待定噪声音频段的时长的比值为第二数值的第二参考音频段。

其中,第一数值和第二数值可以是相同数值也可以是不同数值。

在实施中,在确定了待定噪声音频段之后,计算待定噪声音频段的时长和预设的第一数值的乘积,得到第一参考音频段的时长,然后基于该时长,从待定噪声音频段的开始时间点往前确定第一参考音频段。或者,计算待定噪声音频段的时长和预设的第二数值的乘积,得到第二参考音频段的时长,然后从待定噪声音频段的结束时间点往后确定第二参考音频帧。或者,按照上述方式既确定第一参考音频段又确定第二参考音频段。其中,基于预先设置的第一数值和第二数值,第一参考音频帧的时长和第二参考音频帧的时长可以是相同的也可以是不同的。

特殊的,当待定噪声音频帧的开始音频帧为目标音频的首个音频帧时,可以设置全零数据的音频段作为待定噪声音频段之前的参考音频段,该参考音频段的时长的确定方式采用上述方式,当待定噪声音频帧的结束音频帧为目标音频的最后一个音频帧时,可以设置全零数据的音频段作为待定噪声音频段之后的参考音频段,该参考音频段的时长的确定方式采用上述方式。

方式三,至少一个参考音频段包括第一参考音频段和/或第二参考音频段;在所述待定噪声音频段之前,确定与所述待定噪声音频段相邻且时长与所述待定噪声音频段的时长总和等于预设时长的第一参考音频段;或,在所述待定噪声音频段之后,确定与所述待定噪声音频段相邻且时长与所述待定噪声音频段的时长总和等于预设时长的第二参考音频段;或,在待定噪声音频段之前和之后,分别确定与待定噪声音频段相邻的第一参考音频段和第二参考音频段,其中,所述第一参考音频段、所述第二参考音频段和所述待定噪声音频段的时长之和等于预设时长。

在实施中,在确定待定噪声音频段之后,可以基于待定噪声音频段的时长与预设时长,计算第一参考音频段和/或第二参考音频段的时长。

当待定噪声音频段的时长小于预设时长时,可以计算两者的差值,作为第一参考音频段的时长和第二参考音频段的时长之和,然后可以基于技术人员预设的第一参考音频段的时长与第二参考音频段的时长的比例系数,计算出第一参考音频段的时长和第二参考音频段的时长。可以理解的是,比例系数可以为1:1,也可以为其他值,本实施例对此不做限定。例如,当预设时长为30个音频帧的时长,待定噪声音频段的时长为20个音频帧的时长时,若预设的比例系数为1:1,则第一参考音频段的时长和第二参考音频段的时长均为5个音频帧的时长,若预设的比例系数为2:3,则第一参考音频段的时长为4个音频帧的时长,第二参考音频段的时长为6个音频帧的时长。当然,也可以只在待定噪声音频段之前添加第一参考音频段,第一参考音频段的时长为待定噪声音频段的时长与预设时长的差值;或者只在待定噪声音频段之后添加第二参考音频段,第二参考音频段的时长为待定噪声音频段的时长与预设时长的差值。

一种特殊情况是,预设时长为待定噪声音频段时长的3倍,则第一参考音频段的时长和第二参考音频段的时长可以与待定噪声音频段的时长相同,例如,当预设时长为90个音频帧的时长,待定噪声音频段的时长为30个音频帧的时长时,第一参考音频段的时长和第二参考音频段的时长均为30个音频帧的时长。

另一种特殊情况是,当待定噪声音频帧的开始音频帧为目标音频的首个音频帧时,可以设置全零数据的音频段作为待定噪声音频段之前的参考音频段,该参考音频段的时长的确定方式采用上述方式,当待定噪声音频帧的结束音频帧为目标音频的最后一个音频帧时,可以设置全零数据的音频段作为待定噪声音频段之后的参考音频段,该参考音频段的时长的确定方式采用上述方式。

103、基于待定噪声音频段、至少一个参考音频段以及噪声判定模型,确定待定噪声音频段对应的噪声判定结果。

其中,噪声判定模型是用于判定音频段中是否存在噪声的机器学习模型,可以采用神经网络构建。噪声判定结果用于指示所述待定噪声音频段是否存在噪声。

在实施中,技术人员可以搭建噪声判定模型,并基于上述预设的比值制作样本,每个样本可以包括样本输入数据和基准噪声判定结果。在制作样本时,技术人员可以在任意没有噪声的样本音频中截取一个音频段。然后,技术人员可以在该音频段中添加噪声(如白噪声),得到样本待定噪声音频段,或者,也可以不在该音频段中添加噪声,直接将该音频段作为样本待定噪声音频段。然后,基于上述预设的比值,在样本待定噪声音频段的相邻位置选取与之时长满足该比值的音频段,作为样本参考音频段。然后,可以基于样本待定噪声音频段和样本参考音频段,确定样本输入数据。如果样本待定噪声音频段中添加有噪声,则技术人员可以设置基准噪声判定结果为存在噪声,如果样本待定噪声音频段中未添加有噪声,则技术人员可以设置基准噪声判定结果为不存在噪声。

在制作完样本之后,技术人员可以将样本输入数据输入到初始的噪声判定模型中,得到输出的噪声判定结果。然后将输出的噪声判定结果和基准噪声判定结果,输入到预先选定的训练函数中,计算得到噪声判定模型中每个可调参数的调整值,基于调整值对每个可调参数进行参数值更新,进而完成一次训练。使用大量的样本,进行大量的训练之后,就可以得到可以使用的噪声判定模型,基于此噪声判定模型可以进行噪声检测。

噪声判定模型对哪种噪声进行检测取决于训练样本的选定。样本中如果添加白噪声,则噪声判定模型可以检测白噪声;样本中如果添加突发白噪声,则噪声判定模型可以检测突发白噪声。

在经过步骤102确定了待定噪声音频段和参考音频段之后,将两者组合成的总音频段,输入到噪声判定模型中进行判断,输出的结果为待定噪声音频段中存在噪声,或者待定噪声音频段中不存在噪声。然后将目标音频中确定的一个或多个总音频段分别输入到噪声判定模型中进行判断,分别输出每个总音频段的噪声判定结果。最后可以确定目标音频中是否存在噪声。

可选的,可以将待定噪声音频段和至少一个参考音频段组成的总音频段调整为指定尺寸的矩阵,然后输入噪声判定模型,相应的,步骤103的处理可以如下:将待定噪声音频段和至少一个参考音频段组成的总音频段对应的矩阵,转换为预设尺寸的矩阵;将预设尺寸的矩阵输入到噪声判定模型中,得到待定噪声音频段对应的噪声判定结果。

在实施中,技术人员在搭建噪声判定模型时,可以将样本待定噪声音频段和样本参考音频段组合成的总样本音频段,调整为固定尺寸的矩阵数据,进而确定为样本输入数据。这样,样本输入数据为一固定尺寸的样本矩阵,有利于模型检测结果的准确性。可以理解的是,样本输入数据的尺寸可以由技术人员根据检测需求进行预先设置。

噪声判定模型的样本输入数据为预设尺寸的矩阵数据,所以在对目标音频进行噪声检测时,将总音频段输入到噪声判定模型前,可以将总音频段对应的矩阵,调整为预设尺寸的矩阵,该矩阵可以为语谱图(语谱图的数据形式为矩阵)。然后将其输入到噪声判定模型中进行判断,得到待定噪声音频段中是否存在噪声的判定结果。

若目标音频是存在噪声的音频文件,则工作人员可以在将目标音频文件歌曲入库前进行处理或者替换,若目标音频是不存在噪声的音频文件,则工作人员可以将此音频文件入库。

上述所有可选技术方案,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。

本申请实施例中提到的方案,在目标音频中,基于噪声参数条件进行筛选,获取目标音频中较大概率存在噪声的待定噪声音频段,然后获取与待定噪声音频段相邻的至少一个参考音频段,参考音频段中包括一些不满足噪声参数条件的音频帧,这些音频帧较大概率不存在噪声,基于待定噪声音频段、至少一个参考音频段和噪声判定模型进行判定,确定待定噪声音频段中是否存在噪声,这一检测过程并不需要对目标音频中的所有音频段都进行复杂的模型处理,节省了检测时间,提高了检测效率。并且本申请在进行噪声判定时,先基于噪声参数条件进行判定,然后进行模型判定,双重判定,减小了误判,提高了检测的准确率。另外,在进行模型判定时,将较大概率存在噪声的待定噪声音频段和较大概率不存在噪声的参考音频段共同作为模型输入,能够起到对比作用,从而提高模型判定噪声的准确率。

本申请实施例提供了一种生成测试脚本代码的装置,该装置可以是上述实施例中的计算机设备,如图7所示,所述装置包括:

第一确定模块710,用于在目标音频中确定待定噪声音频段,其中,所述待定噪声音频段中的每个音频帧均满足噪声参数条件,且与所述待定噪声音频段相邻的音频帧均不满足所述噪声参数条件;具体可以实现上述步骤710中的确定功能,以及其他隐含处理;

第二确定模块720,用于确定与所述待定噪声音频段相邻、且时长与所述待定噪声音频段的时长满足预设条件的至少一个参考音频段;具体可以实现上述步骤720中的确定功能,以及其他隐含处理;

判定模块730,用于基于所述待定噪声音频段、所述至少一个参考音频段以及噪声判定模型,确定所述待定噪声音频段对应的噪声判定结果,其中,所述噪声判定结果用于指示所述待定噪声音频段是否存在噪声。具体可以实现上述步骤730中的判定功能,以及其他隐含处理;

在一种可能的设计中,所述第一确定模块710,用于:

在所述目标音频中检测音频帧是否满足噪声参数条件;

当检测到第一音频帧满足噪声参数条件、且所述第一音频帧的前一个音频帧不满足噪声参数条件时,将所述第一音频帧确定为开始音频帧;

当检测到第二音频帧满足噪声参数条件、且所述第二音频帧的后一个音频帧不满足噪声参数条件时,将所述第二音频帧确定为结束音频帧;

将所述开始音频帧至所述结束音频帧的音频段,确定为待定噪声音频段。

在一种可能的设计中,所述待定噪声音频段中的音频帧的数目大于或等于数目阈值。

在一种可能的设计中,所述噪声参数条件包括音频帧的能量大于能量阈值、音频帧的过零率大于过零率阈值以及音频帧的频谱平坦度大于频谱平坦度阈值。

在一种可能的设计中,所述至少一个参考音频段包括第一参考音频段和/或第二参考音频段;

所述第二确定模块720,用于:

在所述待定噪声音频段之前,确定与所述待定噪声音频段相邻、且时长与所述待定噪声音频段的时长的比值为第一数值的第一参考音频段;和/或,

在所述待定噪声音频段之后,确定与所述待定噪声音频段相邻、且时长与所述待定噪声音频段的时长的比值为第二数值的第二参考音频段。

在一种可能的设计中,所述至少一个参考音频段包括第一参考音频段和/或第二参考音频段;

所述第二确定模块720,用于:

在所述待定噪声音频段之前,确定与所述待定噪声音频段相邻且时长与所述待定噪声音频段的时长总和等于预设时长的第一参考音频段;或,

在所述待定噪声音频段之后,确定与所述待定噪声音频段相邻且时长与所述待定噪声音频段的时长总和等于预设时长的第二参考音频段;或,

在所述待定噪声音频段之前和之后,分别确定与所述待定噪声音频段相邻的第一参考音频段和第二参考音频段,其中,所述第一参考音频段、所述第二参考音频段和所述待定噪声音频段的时长之和等于预设时长。

在一种可能的设计中,所述判定模块730,用于:

将所述待定噪声音频段和所述至少一个参考音频段组成的总音频段对应的矩阵,转换为预设尺寸的矩阵;

将所述预设尺寸的矩阵,输入到噪声判定模型中,得到所述待定噪声音频段对应的噪声判定结果。

需要说明的是:上述实施例提供的噪声检测的装置在检测目标音频是否存在噪声时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的噪声检测的装置与噪声检测的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。

图8是本申请实施例提供的一种计算机设备的结构示意图,该计算机设备800可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessingunits,cpu)801和一个或一个以上的存储器802,其中,所述存储器802中存储有至少一条指令,所述至少一条指令由所述处理器801加载并执行以实现上述各个方法实施例提供的方法。当然,该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器还可以包括其他用于实现设备功能的部件,在此不做赘述。

在示例性实施例中,还提供了一种计算机可读存储介质,例如包括指令的存储器,上述指令可由终端中的处理器执行以完成上述实施例中噪声检测的方法。该计算机可读存储介质可以是非暂态的。例如,所述计算机可读存储介质可以是rom(read-onlymemory,只读存储器,)、ram(randomaccessmemory,随机存取存储器)、cd-rom、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。

以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1