音频检测方法、装置及存储介质与流程

文档序号:16684362发布日期:2019-01-19 00:48阅读:204来源:国知局
音频检测方法、装置及存储介质与流程

本发明实施例涉及音频处理领域,具体涉及一种音频检测方法、装置及存储介质。



背景技术:

声道反相是指左右声道相位偏差180度的问题,因此声道反相的歌曲等音频文件在单个扬声器上播放时会出现无声音、或者很低声音的现象。比如,目前常见的android手机、iphone8以下的手机、蓝牙音箱等,都是采用单个扬声器。因此,此类声道反相的歌曲在播放时会发现带上耳机、或者双喇叭场景下歌曲能正常播放,但是在手机、蓝牙音箱等场景下播放会出现无声等异常现象。



技术实现要素:

本发明实施例提供一种音频检测方法、装置及存储介质,能够有效检测待测音频信号中的声道反相。

本发明实施例提供一种音频检测方法,所述方法包括:

获取待测音频信号以及所述待测音频信号的声道数,其中,所述待测音频信号为声道数不小于2的音频信号;

根据所述待测音频信号的声道数对所述待测音频信号进行预处理,以得到双声道处理信号;

计算所述双声道处理信号的能量值;

根据所述双声道处理信号的能量值进行声道反相的检测。

本发明实施例还提供一种音频检测装置,所述装置包括:

获取模块,用于获取待测音频信号以及所述待测音频信号的声道数,其中,所述待测音频信号为声道数不小于2的音频信号;

预处理模块,用于根据所述待测音频信号的声道数对所述待测音频信号进行预处理,以得到双声道处理信号;

计算模块,用于计算所述双声道处理信号的能量值;

检测模块,用于根据所述双声道处理信号的能量值进行声道反相的检测。

本发明实施例还提供一种存储介质,所述存储介质存储有多条指令,所述指令适于处理器进行加载,执行本发明实施例所提供的任一种所述的音频检测方法中的步骤。

本发明实施例通过获取待测音频信号以及所述待测音频信号的声道数,其中,所述待测音频信号为声道数不小于2的音频信号,并根据所述待测音频信号的声道数对所述待测音频信号进行预处理,以得到双声道处理信号,然后计算所述双声道处理信号的能量值,并根据所述双声道处理信号的能量值进行声道反相的检测,能够有效检测待测音频信号中的声道反相。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种音频检测方法的流程示意图。

图2为本发明实施例提供的一种音频检测方法的另一流程示意图。

图3为本发明实施例提供的一种音频检测方法的又一流程示意图。

图4为本发明实施例提供的一种音频检测方法的再一流程示意图。

图5为本发明实施例提供的一种音频检测装置的结构示意图。

图6为本发明实施例提供的一种音频检测装置的另一结构示意图。

图7为本发明实施例提供的一种音频检测装置的又一结构示意图。

图8为本发明实施例提供的一种音频检测装置的再一结构示意图。

图9为本发明实施例提供的一种服务器的结构示意图。

图10为本发明实施例提供的一种终端的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明中的术语“第一”和“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、系统、产品或设备没有限定于已列出的步骤或模块,而是可选地还包括没有列出的步骤或模块,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或模块。

在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。

声道反相是指左右声道相位偏差180度的问题,因此声道反相的歌曲等音频文件在单个扬声器上播放时会出现无声音、或者很低声音的现象。比如,目前常见的android手机、iphone8以下的手机、蓝牙音箱等,都是采用单个扬声器。因此,此类声道反相的歌曲在播放时会发现带上耳机、或者双喇叭场景下歌曲能正常播放,但是在手机、蓝牙音箱等场景下播放时,用户听的觉感受是中音略感不足、声音明亮度欠佳,严重时听到的是吱吱声,甚至出现无声等异常现象。

因而,本发明实施例提供了一种音频检测方法、装置及存储介质,通过对待测音频信号进行预处理后得到双声道处理信号,并基于双声道处理信号的能量值进行声道反相的检测,能够有效检测待测音频信号中的声道反相。

本发明实施例提供的音频检测方法,可实现在音频检测装置中,该音频检测装置具体可以集成在电子设备或其他具有音视频数据处理功能的设备中,电子设备包括但不限于计算机、智能电视、智能音箱、手机、平板电脑等设备。

以下将分别进行详细说明,以下各个实施例的描述先后顺序并不构成对具体实施先后顺序的限定。

请参阅图1至图4,其中,图1至图4均为本发明实施例提供的一种音频检测方法的流程示意图。所述方法包括:

步骤101,获取待测音频信号以及所述待测音频信号的声道数,其中,所述待测音频信号为声道数不小于2的音频信号。

其中,声道(soundchannel)是指声音在录制或播放时在不同空间位置采集或回放的相互独立的音频信号,声道数为声音录制时的音源数量或回放时相应的扬声器数量。例如,歌曲库中的歌曲可能由于录制条件的不同存在声道数不同的歌曲,比如,歌曲库中可能包括单声道的歌曲,双声道的歌曲、多声道的歌曲,其中多声道可以3.2声道、5.1声道、7.1声道等。

其中,单声道的音频信号不会出现声道反相的问题,因此若获取的音频信号为双声道或者多声道的音频信号,则将获取的双声道或者多声道的音频信号确定为待测音频信号。若获取的音频信号为单声道的音频信号,则不进行处理,确定为无声道反相的音频。其中,待测音频信号为待测音频文件的音频信号。

步骤102,根据所述待测音频信号的声道数对所述待测音频信号进行预处理,以得到双声道处理信号。

其中,本申请实施例中的检测装置优选为对双声道文件进行处理,因此在进行检测前,可以对待测音频信号进行预处理,以得到双声道处理信号。例如,获取待测音频文件的声道信息,该声道信息中包含有待测音频信号的声道数,对于声道数大于2声道的待测音频信号进行声道转换处理,以得到双声道处理信号,对于声道数等于2声道的待测音频信号直接标记为双声道处理信号。

在一些实施例中,如图2所示,步骤102可以通过步骤1021以及步骤1022来实现,具体为:

步骤1021,对所述待测音频信号进行声道转换,以将所述待测音频信号转换为双声道音频信号。

在一些实施例中,可以通过下混算法对所述待测音频信号中声道数大于2的音频信号进行声道转换,以将所述待测音频信号转换为所述双声道音频信号。

其中,下混(downmix)算法可以采用itu的相关标准,比如采用itu相关标准中的《itu-r-rec-bs.775-3》。

步骤1022,对所述双声道音频信号进行音量归一化处理,以得到所述双声道处理信号。

其中,对于一个双声道音频信号的音频文件,在进行音量归一化处理时,首先,取出该双声道音频信号的音频数据。假设总采样点个数为n,采样率为fs,例如将双声道音频信号设为x(n,2),其中,n<=n,n为大于1的正整数。其中,x(n,2)表示音频信号为双声道,每个声道有n个采样点。

然后,对双声道音频信号x(n,2)进行归一化处理,以得到音量归一化处理后的双声道处理信号。

其中,归一化的公式可以表示为:

i=0和1,分别代表左声道和右声道数据。

其中,xmax=max(abs(x(n,i))),其中abs代表取模操作,max表示求最大值。如果xmax为0,则整个序列都为0。

其中,采用音量归一化处理,可以降低音量的影响因素。

步骤103,计算所述双声道处理信号的能量值。

在一些实施例中,如图3所示,步骤101可以通过步骤1031至步骤1034来实现,具体为:

步骤1031,将所述双声道处理信号进行声道分离,以得到左声道信号与右声道信号。

例如,将双声道处理信号x(n,2)进行声道分离,以得到左声道信号与与右声道信号,其中,左声道信号可以表示为l(n)=x(n,0),右声道信号可以表示为r(n)=x(n,1)。

步骤1032,将所述左声道信号与右声道信号进行加法处理,以得到目标信号。

例如,将所述左声道信号与右声道信号进行相加以得到目标信号。例如,用公式表示即可以如下:

y(n)=l(n)+r(n);

其中,y(n)为目标信号,l(n)为左声道信号,r(n)为右声道信号。

其中,如果左声道信号与右声道信号存在反相,则相加后的目标信号会相互抵消,使得数值接近0,即播出的声音会接近静音。

步骤1033,对所述目标信号进行分帧加窗处理,以得到多帧加窗信号。

例如,对目标信号y(n)进行分帧加窗,得到第i帧的加窗信号,其中,第i帧的加窗信号可以用yw(n)表示,i<=n,i与n为大于1的正整数。

其中,所有帧数的加窗信号可以表示为:

yw(n)=w(n)*y(n);

其中,w(n)表示为窗函数,w(n)长度为m,即m表示一帧有m个样本点,m优选地满足长度为2的幂。优先而不局限地,窗函数可以选取矩形窗,即w(n)=1。

其中,w(n)*y(n)表示为原始目标信号y(n)与窗函数w(n)在时域上的点乘,即两者一一对应相乘形成新的矩阵,用于表示加窗处理后的信号。

其中,总长度为n个样本点,一帧有m个样本点,则所有帧数可以表示为p=n/m。

步骤1034,计算所述多帧加窗信号的短时能量,以得到所述双声道处理信号中所有帧数的能量值。

其中,求取第i帧加窗信号的短时能量,以求出所有帧数的能量值。所有帧总共有p个能量值。

例如,求取短时能量的公式可以表示为:

其中,xi(n)表示第i帧的加窗信号,e(i)表示第i帧的加窗信号xi(n)的短时能量。m代表总个数,最后得出e(i)序列的可以表示所有帧数的能量值,该e(i)序列的长度为p。

例如,如果左声道信号与右声道信号存在反相,则相加后的目标信号会相互抵消,使得数值接近0,即播出的声音会接近静音,则相加后的目标信号的能量值会比较小。

步骤104,根据所述双声道处理信号的能量值进行声道反相的检测。

在一些实施例中,如图4所示,步骤101可以通过步骤1041至步骤1043来实现,具体为:

步骤1041,查找所述所有帧数的能量值中能量值大于第一阈值的目标个数。

其中,第一阈值可以设置为te,例如,te=10000。

其中,目标个数表示为s=find(e(i)>te),可以通过find函数查找数组中满足条件个数,即通过find函数查找e(i)能量值数组中满足大于第一阈值te的个数。

步骤1042,获取所述目标个数与所有帧数的比值。

例如,目标个数与所有帧数的比值可以表示为r=s/p,其中,s表示目标个数,p表示所有帧数。

步骤1043,若所述比值小于第二阈值,则确定所述待测音频信号存在声道反相。

例如,第二阈值可以设置为tr,例如,tr=0.01。

例如,若r<tr,则返回ture,确定所述待测音频信号存在声道反相。若否r>=tr,则返回false,确定所述待测音频信号不存在声道反相。

上述所有的技术方案,可以采用任意结合形成本发明的可选实施例,在此不再一一赘述。

本发明实施例通过获取待测音频信号以及所述待测音频信号的声道数,其中,所述待测音频信号为声道数不小于2的音频信号,并根据所述待测音频信号的声道数对所述待测音频信号进行预处理,以得到双声道处理信号,然后计算所述双声道处理信号的能量值,并根据所述双声道处理信号的能量值进行声道反相的检测,能够有效检测待测音频信号中的声道反相。

本发明实施例还提供一种音频检测装置,如图5至图8所示,图5至图8均为本发明实施例提供的一种音频检测装置的结构示意图。所述音频检测装置40可以包括获取模块41,预处理模块42,计算模块43,以及检测模块44。

其中,所述获取模块41,用于获取待测音频信号以及所述待测音频信号的声道数,其中,所述待测音频信号为声道数不小于2的音频信号。

其中,声道(soundchannel)是指声音在录制或播放时在不同空间位置采集或回放的相互独立的音频信号,声道数为声音录制时的音源数量或回放时相应的扬声器数量。例如,歌曲库中的歌曲可能由于录制条件的不同存在声道数不同的歌曲,比如,歌曲库中可能包括单声道的歌曲,双声道的歌曲、多声道的歌曲,其中多声道可以3.2声道、5.1声道、7.1声道等。

其中,单声道的音频信号不会出现声道反相的问题,因此若获取的音频信号为双声道或者多声道的音频信号,则将获取的双声道或者多声道的音频信号确定为待测音频信号。若获取的音频信号为单声道的音频信号,则不进行处理,确定为无声道反相的音频。其中,待测音频信号为待测音频文件的音频信号。

所述预处理模块42,用于根据所述待测音频信号的声道数对所述待测音频信号进行预处理,以得到双声道处理信号。

其中,本申请实施例中的检测装置优选为对双声道文件进行处理,因此在进行检测前,可以对待测音频信号进行预处理,以得到双声道处理信号。例如,获取待测音频文件的声道信息,该声道信息中包含有待测音频信号的声道数,对于声道数大于2声道的待测音频信号进行声道转换处理,以得到双声道处理信号,对于声道数等于2声道的待测音频信号直接标记为双声道处理信号。

所述计算模块43,用于计算所述双声道处理信号的能量值。

所述检测模块44,用于根据所述双声道处理信号的能量值进行声道反相的检测。

在一些实施例中,如图6所示,所述预处理模块42可以包括第一处理子模块421和提第二处理子模块422。

其中,所述第一处理子模块421,用于对所述待测音频信号进行声道转换,以将所述待测音频信号转换为双声道音频信号。

在一些实施例中,所述第一处理子模块421,还用于通过下混算法对所述待测音频信号中声道数大于2的音频信号进行声道转换,以将所述待测音频信号转换为所述双声道音频信号。

其中,下混(downmix)算法可以采用itu的相关标准,比如采用itu相关标准中的《itu-r-rec-bs.775-3》。

所述第二处理子模块422,用于对所述双声道音频信号进行音量归一化处理,以得到所述双声道处理信号。

其中,对于一个双声道音频信号的音频文件,在进行音量归一化处理时,首先,取出该双声道音频信号的音频数据。假设总采样点个数为n,采样率为fs,例如将双声道音频信号设为x(n,2),其中,n<=n,n为大于1的正整数。其中,x(n,2)表示音频信号为双声道,每个声道有n个采样点。

然后,对双声道音频信号x(n,2)进行归一化处理,以得到音量归一化处理后的双声道处理信号。

其中,归一化的公式可以表示为:

i=0和1,分别代表左声道和右声道数据。

其中,xmax=max(abs(x(n,i))),其中abs代表取模操作,max表示求最大值。如果xmax为0,则整个序列都为0。

其中,采用音量归一化处理,可以降低音量的影响因素。

在一些实施例中,如图7所示,所述计算模块43可以包括分离子模块431,加法子模块432,加窗子模块433和计算子模块434。

其中,所述分离子模块431,用于将所述双声道处理信号进行声道分离,以得到左声道信号与右声道信号。

例如,将双声道处理信号x(n,2)进行声道分离,以得到左声道信号与与右声道信号,其中,左声道信号可以表示为l(n)=x(n,0),右声道信号可以表示为r(n)=x(n,1)。

所述加法子模块432,用于将所述左声道信号与右声道信号进行加法处理,以得到目标信号。

例如,将所述左声道信号与右声道信号进行相加以得到目标信号。例如,用公式表示即可以如下:

y(n)=l(n)+r(n);

其中,y(n)为目标信号,l(n)为左声道信号,r(n)为右声道信号。

其中,如果左声道信号与右声道信号存在反相,则相加后的目标信号会相互抵消,使得数值接近0,即播出的声音会接近静音。

所述加窗子模块433,用于对所述目标信号进行分帧加窗处理,以得到多帧加窗信号。

例如,对目标信号y(n)进行分帧加窗,得到第i帧的加窗信号,其中,第i帧的加窗信号可以用yw(n)表示,i<=n,i与n为大于1的正整数。

其中,所有帧数的加窗信号可以表示为:

yw(n)=w(n)*y(n);

其中,w(n)表示为窗函数,w(n)长度为m,即m表示一帧有m个样本点,m优选地满足长度为2的幂。优先而不局限地,窗函数可以选取矩形窗,即w(n)=1。

其中,w(n)*y(n)表示为原始目标信号y(n)与窗函数w(n)在时域上的点乘,即两者一一对应相乘形成新的矩阵,用于表示加窗处理后的信号。

其中,总长度为n个样本点,一帧有m个样本点,则所有帧数可以表示为p=n/m。

所述计算子模块434,用于计算所述多帧加窗信号的短时能量,以得到所述双声道处理信号中所有帧数的能量值。

其中,求取第i帧加窗信号的短时能量,以求出所有帧数的能量值。所有帧总共有p个能量值。

例如,求取短时能量的公式可以表示为:

其中,xi(n)表示第i帧的加窗信号,e(i)表示第i帧的加窗信号xi(n)的短时能量。m代表总个数,最后得出e(i)序列的可以表示所有帧数的能量值,该e(i)序列的长度为p。

例如,如果左声道信号与右声道信号存在反相,则相加后的目标信号会相互抵消,使得数值接近0,即播出的声音会接近静音,则相加后的目标信号的能量值会比较小。

在一些实施例中,如图8所示,所述检测模块44可以包括查找子模块441,获取子模块442和确定子模块443。

其中,所述查找子模块441,用于查找所述所有帧数的能量值中能量值大于第一阈值的目标个数。

其中,第一阈值可以设置为te,例如,te=10000。

其中,目标个数表示为s=find(e(i)>te),可以通过find函数查找数组中满足条件个数,即通过find函数查找e(i)能量值数组中满足大于第一阈值te的个数。

所述获取子模块442,用于获取所述目标个数与所有帧数的比值。

例如,目标个数与所有帧数的比值可以表示为r=s/p,其中,s表示目标个数,p表示所有帧数。

所述确定子模块443,用于若所述比值小于第二阈值,则确定所述待测音频信号存在声道反相。

例如,第二阈值可以设置为tr,例如,tr=0.01。

例如,若r<tr,则返回ture,确定所述待测音频信号存在声道反相。若否r>=tr,则返回false,确定所述待测音频信号不存在声道反相。

上述所有的技术方案,可以采用任意结合形成本发明的可选实施例,在此不再一一赘述。

本发明实施例提供的音频检测装置40,通过获取模块41获取待测音频信号以及所述待测音频信号的声道数,其中,所述待测音频信号为声道数不小于2的音频信号,预处理模块42根据所述待测音频信号的声道数对所述待测音频信号进行预处理,以得到双声道处理信号,然后计算模块43计算所述双声道处理信号的能量值,检测模块44根据所述双声道处理信号的能量值进行声道反相的检测,能够有效检测待测音频信号中的声道反相。

本发明实施例还提供一种服务器,如图9所示,其示出了本发明实施例所涉及的服务器的结构示意图,具体来讲:

该服务器可以包括一个或者一个以上处理核心的处理器501、一个或一个以上计算机可读存储介质的存储器502、电源503和输入单元504等部件。本领域技术人员可以理解,图9中示出的服务器结构并不构成对服务器的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:

处理器501是该服务器的控制中心,利用各种接口和线路连接整个服务器的各个部分,通过运行或执行存储在存储器502内的软件程序和/或模块,以及调用存储在存储器502内的数据,执行服务器的各种功能和处理数据,从而对服务器进行整体监控。可选的,处理器501可包括一个或多个处理核心;优选的,处理器501可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器501中。

存储器502可用于存储软件程序以及模块,处理器501通过运行存储在存储器502的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器502可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据服务器的使用所创建的数据等。此外,存储器502可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器502还可以包括存储器控制器,以提供处理器501对存储器502的访问。

服务器还包括给各个部件供电的电源503,优选的,电源503可以通过电源管理系统与处理器501逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源503还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该服务器还可包括输入单元504,该输入单元504可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出,服务器还可以包括显示单元等,在此不再赘述。具体在本实施例中,服务器中的处理器501会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器502中,并由处理器501来运行存储在存储器502中的应用程序,从而实现各种功能,如下:

获取待测音频信号以及所述待测音频信号的声道数,其中,所述待测音频信号为声道数不小于2的音频信号;根据所述待测音频信号的声道数对所述待测音频信号进行预处理,以得到双声道处理信号;计算所述双声道处理信号的能量值;根据所述双声道处理信号的能量值进行声道反相的检测。

以上操作具体可参见前面的实施例,在此不作赘述。

由上可知,本实施例提供的服务器,通过获取待测音频信号以及所述待测音频信号的声道数,其中,所述待测音频信号为声道数不小于2的音频信号,并根据所述待测音频信号的声道数对所述待测音频信号进行预处理,以得到双声道处理信号,然后计算所述双声道处理信号的能量值,并根据所述双声道处理信号的能量值进行声道反相的检测,能够有效检测待测音频信号中的声道反相。

相应的,本发明实施例还提供一种终端,如图10所示,该终端可以包括射频(rf,radiofrequency)电路601、包括有一个或一个以上计算机可读存储介质的存储器602、输入单元603、显示单元604、传感器605、音频电路606、无线保真(wifi,wirelessfidelity)模块607、包括有一个或者一个以上处理核心的处理器608、以及电源609等部件。本领域技术人员可以理解,图10中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:

rf电路601可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,交由一个或者一个以上处理器608处理;另外,将涉及上行的数据发送给基站。通常,rf电路601包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(sim,subscriberidentitymodule)卡、收发信机、耦合器、低噪声放大器(lna,lownoiseamplifier)、双工器等。此外,rf电路601还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(gsm,globalsystemofmobilecommunication)、通用分组无线服务(gprs,generalpacketradioservice)、码分多址(cdma,codedivisionmultipleaccess)、宽带码分多址(wcdma,widebandcodedivisionmultipleaccess)、长期演进(lte,longtermevolution)、电子邮件、短消息服务(sms,shortmessagingservice)等。

存储器602可用于存储软件程序以及模块,处理器608通过运行存储在存储器602的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器602可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据终端的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器602可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器602还可以包括存储器控制器,以提供处理器608和输入单元603对存储器602的访问。

输入单元603可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,在一个具体的实施例中,输入单元603可包括触敏表面以及其他输入设备。触敏表面,也称为触摸显示屏或者触控板,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面上或在触敏表面附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触敏表面可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器608,并能接收处理器608发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面。除了触敏表面,输入单元603还可以包括其他输入设备。具体地,其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元604可用于显示由用户输入的信息或提供给用户的信息以及终端的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元604可包括显示面板,可选的,可以采用液晶显示器(lcd,liquidcrystaldisplay)、有机发光二极管(oled,organiclight-emittingdiode)等形式来配置显示面板。进一步的,触敏表面可覆盖显示面板,当触敏表面检测到在其上或附近的触摸操作后,传送给处理器608以确定触摸事件的类型,随后处理器608根据触摸事件的类型在显示面板上提供相应的视觉输出。虽然在图10中,触敏表面与显示面板是作为两个独立的部件来实现输入和输入功能,但是在某些实施例中,可以将触敏表面与显示面板集成而实现输入和输出功能。

终端还可包括至少一种传感器605,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板的亮度,接近传感器可在终端移动到耳边时,关闭显示面板和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于终端还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。

音频电路606、扬声器,传声器可提供用户与终端之间的音频接口。音频电路606可将接收到的音频数据转换后的电信号,传输到扬声器,由扬声器转换为声音信号输出;另一方面,传声器将收集的声音信号转换为电信号,由音频电路606接收后转换为音频数据,再将音频数据输出处理器608处理后,经rf电路601以发送给比如另一终端,或者将音频数据输出至存储器602以便进一步处理。音频电路606还可能包括耳塞插孔,以提供外设耳机与终端的通信。

wifi属于短距离无线传输技术,终端通过wifi模块607可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图10示出了wifi模块607,但是可以理解的是,其并不属于终端的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。

处理器608是终端的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器602内的软件程序和/或模块,以及调用存储在存储器602内的数据,执行终端的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器608可包括一个或多个处理核心;优选的,处理器608可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器608中。

终端还包括给各个部件供电的电源609(比如电池),优选的,电源可以通过电源管理系统与处理器608逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源609还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管未示出,终端还可以包括摄像头、蓝牙模块等,在此不再赘述。具体在本实施例中,终端中的处理器608会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器602中,并由处理器608来运行存储在存储器602中的应用程序,从而实现各种功能:

对待测音频进行预筛选处理,以筛选出所述待测音频中的候选音频片段;将所述候选音频片段输入训练好的局部识别模型中进行音频的断点检测,以生成所述候选音频片段的检测结果;根据所述候选音频片段的检测结果确定所述待测音频是否具有断点。

以及,获取所述候选音频片段的检测结果对应的置信度;若所述候选音频片段的检测结果对应的置信度小于置信度阈值,则将所述候选音频片段的检测结果对应的置信度输入训练好的全局判别模型中进行音频的断点判别,以生成所述待测音频的全局判别结果;根据所述待测音频的全局判别结果确定所述待测音频是否具有断点。

以上操作具体可参见前面的实施例,在此不作赘述。

由上可知,本实施例提供的终端,通过获取待测音频信号以及所述待测音频信号的声道数,其中,所述待测音频信号为声道数不小于2的音频信号,并根据所述待测音频信号的声道数对所述待测音频信号进行预处理,以得到双声道处理信号,然后计算所述双声道处理信号的能量值,并根据所述双声道处理信号的能量值进行声道反相的检测,能够有效检测待测音频信号中的声道反相。

本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。

为此,本发明实施例提供一种存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本发明实施例所提供的任一种音频检测方法中的步骤。例如,该指令可以执行如下步骤:

获取待测音频信号以及所述待测音频信号的声道数,其中,所述待测音频信号为声道数不小于2的音频信号;根据所述待测音频信号的声道数对所述待测音频信号进行预处理,以得到双声道处理信号;计算所述双声道处理信号的能量值;根据所述双声道处理信号的能量值进行声道反相的检测。

以上各个操作的具体实施可参见前面的实施例,在此不再赘述。

其中,该存储介质可以包括:只读存储器(rom,readonlymemory)、随机存取记忆体(ram,randomaccessmemory)、磁盘或光盘等。

由于该存储介质中所存储的指令,可以执行本发明实施例所提供的任音频检测方法中的步骤,因此,可以实现本发明实施例所提供的任一种音频检测方法所能实现的有益效果,详见前面的实施例,在此不再赘述。

以上对本发明实施例所提供的一种音频检测方法、装置和存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1