一种音频信号处理方法,及装置与流程

文档序号:12749363阅读:228来源:国知局
一种音频信号处理方法,及装置与流程

本发明涉及计算机技术领域,特别涉及一种音频信号处理方法,及装置。



背景技术:

通过手机进行直播的网络应用逐步普及,但直播与通信过中音频信号存在较大不同之处,例如:打电话是语音数据的传递,而直播并非简单的进行语音数据的传递,主播在直播过程中可能会唱歌或表演等,同时还可能会存在音乐伴奏或者现场伴奏等情况。

目前的音频信号降噪处理有两类:

一、通信类降噪技术,主要针对的是语音之外的噪音,通常将采集到的音频信号区分为噪音和语音。进而抑制噪音,保留语音。采用这种降噪方式音乐甚至歌唱等声音很容易被混淆为噪音,导致抑制噪音的同时,音乐等内容严重受损。因此,在直播过程中的语音之外的唱歌、伴奏以及正常的环境音等,很容易严重受损。

二、音乐类降噪技术,可以比较好的保留音乐,语音等内容,但通常应用于储存音频信号的修复,比如旧唱盘或录音带进行重新编辑或数字化时,由于介质本身的老化和当时的技术限制,数字化后得到的数据中带有底噪或背景噪音。因此,音乐类降噪技术对此类噪音进行抑制,但对于现在直播中常见的汽车噪音,餐厅噪音,办公室噪音则难以取得较好的抑制效果。

正是因为以上两种降噪方案的局限性,目前直播应用中很多都没有使用降噪技术。但手机直播的环境很难达到例如专业录音间的高要求,因为直播场地并不局限在安静环境,例如:汽车上,餐厅里,商场等各种嘈杂环境都有可能成为主播进行直播的场所。因此迫切需要适合直播场景的降噪技术。



技术实现要素:

本发明实施例提供了一种音频信号处理方法,及装置,用于直播应用场景下,音频信号的降噪,提升音频信号质量。

一方面本发明实施例提供了一种音频信号处理方法,包括:

获取直播过程中产生的待处理音频信号,从所述待处理音频信号中提取音频帧;

根据先验的音频模型确定第一概率、第二概率以及第三概率;所述第一概率为所述音频帧属于语音的概率,所述第二概率为所述音频帧属于音乐的概率,所述第三概率为所述音频帧属于噪音的概率;

若所述第一概率小于第一门限或者所述第二概率小于第二门限,并且,所述第三概率大于第三门限,则确定所述音频帧包含噪音;

在确定所述待处理音频信号中包含噪音后,对属于噪音的音频帧进行降噪处理。

在一个可能的实现方式中,所述从所述待处理音频信号中提取音频帧包括:

从所述待处理音频信号中提取连续的预定个数的音频帧;

所述第一概率为所述预定个数的音频帧属于语音的概率的算数平均值,所述第二概率为所述预定个数的音频帧属于音乐的概率的算数平均值,所述第三概率为所述预定个数的音频帧属于噪音的概率的算数平均值。

在一个可能的实现方式中,所述方法还包括:

若所述第一概率小于第四门限或者所述第二概率小于第五门限,并且,所述第三概率大于第六门限,则确定所述音频帧可能包含噪音;

若所述第一概率大于第七门限,则确定所述音频帧不包含噪音;

所述第一门限大于所述第四门限,所述第二门限大于所述第五门限,所述第六门限大于所述第三门限;所述第六门限大于所述第一门限和所述第二门限。

在一个可能的实现方式中,所述方法还包括:

若确定所述音频帧包含噪音,则依据所述音频帧包含噪音的结果更新所述音频帧的权值;

若确定所述音频帧可能包含噪音,则依据所述音频帧包含的底噪更新所述音频帧的权值。

在一个可能的实现方式中,所述对属于噪音的音频帧进行降噪处理包括:

根据所述待处理音频信号U以及包含噪音的音频帧的数量V计算信噪比SNR;然后计算维纳滤波器的传递函数H,H=SNR/(SNR+1),在频域计算输出的音频信号Y,Y=H×U。

在一个可能的实现方式中,在所述根据先验的音频模型确定第一概率、第二概率以及第三概率之前,所述方法还包括:

通过深度神经网络、隐含马尔科夫模型或者频谱特征聚类的方式获得所述先验的音频模型。

二方面本发明实施例提供了一种音频信号处理装置,包括:

提取单元,用于获取直播过程中产生的待处理音频信号,从所述待处理音频信号中提取音频帧;

概率确定单元,用于根据先验的音频模型确定第一概率、第二概率以及第三概率;所述第一概率为所述音频帧属于语音的概率,所述第二概率为所述音频帧属于音乐的概率,所述第三概率为所述音频帧属于噪音的概率;

噪音确定单元,用于若所述第一概率小于第一门限或者所述第二概率小于第二门限,并且,所述第三概率大于第三门限,则确定所述音频帧包含噪音;

降噪处理单元,用于在确定所述待处理音频信号中包含噪音后,对属于噪音的音频帧进行降噪处理。

在一个可能的实现方式中,所述提取单元,具体用于从所述待处理音频信号中提取连续的预定个数的音频帧;

所述概率确定单元,具体用于根据先验的音频模型确定第一概率、第二概率以及第三概率;所述第一概率为所述预定个数的音频帧属于语音的概率的算数平均值,所述第二概率为所述预定个数的音频帧属于音乐的概率的算数平均值,所述第三概率为所述预定个数的音频帧属于噪音的概率的算数平均值。

在一个可能的实现方式中,所述噪音确定单元,还用于若所述第一概率小于第四门限或者所述第二概率小于第五门限,并且,所述第三概率大于第六门限,则确定所述音频帧可能包含噪音;

若所述第一概率大于第七门限,则确定所述音频帧不包含噪音;

所述第一门限大于所述第四门限,所述第二门限大于所述第五门限,所述第六门限大于所述第三门限;所述第六门限大于所述第一门限和所述第二门限。

在一个可能的实现方式中,所述装置还包括:

模型更新单元,用于若确定所述音频帧包含噪音,则依据所述音频帧包含噪音的结果更新所述音频帧的权值;若确定所述音频帧可能包含噪音,则依据所述音频帧包含的底噪更新所述音频帧的权值。

在一个可能的实现方式中,所述降噪处理单元,具体用于根据所述待处理音频信号U以及包含噪音的音频帧的数量V计算信噪比SNR;然后计算维纳滤波器的传递函数H,H=SNR/(SNR+1),在频域计算输出的音频信号Y,Y=H×U。

在一个可能的实现方式中,所述装置还包括:

模型训练单元,用于通过深度神经网络、隐含马尔科夫模型或者频谱特征聚类的方式获得所述先验的音频模型。

从以上技术方案可以看出,本发明实施例具有以下优点:采用先验的音频模型确定了音频帧属于语音的概率、属于音乐的概率以及属于噪音的概率,通过这些概率综合确定了是否存在噪音,并精确定位了噪音,可以适用于直播的应用场景,实现音频信号的降噪,提升音频信号质量。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例方法流程示意图;

图2为本发明实施例方法流程示意图;

图3为本发明实施例装置结构示意图;

图4为本发明实施例装置结构示意图;

图5为本发明实施例装置结构示意图;

图6为本发明实施例终端设备结构示意图;

图7为本发明实施例手机结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

本发明实施例提供了一种音频信号处理方法,如图1所示,包括:

101:获取直播过程中产生的待处理音频信号,从上述待处理音频信号中提取音频帧;

本发明实施例中音频信号处理可以在直播源端完成,即:在对音频信号进行降噪处理后发送到直播接收方;如果在直播接收方执行音频信号处理,理论上也是可行的,直播源端数据处理量会减少,不过这样会加大直播接收方的数据处理量;前者可以作为优选实现方案。如果在直播源端执行音频信号处理,那么待处理音频信号可以是直播源端的设备通过语音拾取设备,例如:话筒,获得音频信号并作为待处理音频信号。音频信号是以音频的帧组成的,因此可以提取出各帧的数据。

102:根据先验的音频模型确定第一概率、第二概率以及第三概率;上述第一概率为上述音频帧属于语音的概率,上述第二概率为上述音频帧属于音乐的概率,上述第三概率为上述音频帧属于噪音的概率;

先验的音频模型是预先训练的音频模型,用于区分音频帧属于哪一种类型;在本实施例中,音频模型基于三种音频帧分类训练,由于三种类型的音频帧会各自具有自身的一些频谱特征,训练方式可以是深度神经网络或隐含马尔科夫模型等,也可以采用频谱特征聚类的简单方法。具体如何训练本发明实施例不作唯一性限定。

103:若上述第一概率小于第一门限或者上述第二概率小于第二门限,并且,上述第三概率大于第三门限,则确定上述音频帧包含噪音;

在本实施例中,第一门限和第二门限可以是同一个值,该值用于判断不是噪音的概率,第三门限则是用于判断是噪音的概率;第一门限和第二门限如果设置得较小,第三门限设置得较大,则会减少误判;如果第一门限和第二门限设置较大的值,第三门限设置较小的值,则会减少漏判;具体如何设置可以通过测试来确定,本发明实施例最具体取值不作唯一性限定。

104:在确定上述待处理音频信号中包含噪音后,对属于噪音的音频帧进行降噪处理。

由于本发明实施例已经定位到了音频信号中包含噪音的音频帧,因此可以准确的进行降噪处理,具体采用何种降噪处理方案,本发明实施例不作唯一性限定。

本发明实施例,采用先验的音频模型确定了音频帧属于语音的概率、属于音乐的概率以及属于噪音的概率,通过这些概率综合确定了是否存在噪音,并精确定位了噪音,可以适用于直播的应用场景,实现音频信号的降噪,提升音频信号质量。

可选地,在本实施例中可以通过算数平均的方式来减少误判,具体如下:上述从上述待处理音频信号中提取音频帧包括:

从上述待处理音频信号中提取连续的预定个数的音频帧;

上述第一概率为上述预定个数的音频帧属于语音的概率的算数平均值,上述第二概率为上述预定个数的音频帧属于音乐的概率的算数平均值,上述第三概率为上述预定个数的音频帧属于噪音的概率的算数平均值。

在本实施例中,预定个数可以是10~100个音频帧,具体如何确定这个值本发明实施例不作唯一性限定。在计算算数平均值时,每个音频帧会有一个权重值,如果对应的音频帧被确定为噪音的概率越大则其权重值可以设置得大一些,具体设定哪一权重值本发明实施例不作唯一性限定。举个例子,如果预定个数为10,待处理的音频信号从1编号到1000;以第110个音频帧的判断为例,那么将会获取第101~110这10个音频帧分别在音乐、语音和噪音三个维度的概率,确定其属于噪音的概率来确定各自权重,然后计算算数平均值作为第110个音频帧是否为噪音的依据;本次噪音计算将会影响到后续9个音频帧的判断。

进一步地,基于以上实施例中确定噪音的方案,还有两种情况是可能有噪音也可能没噪音,或者不太可能有噪音(即判断为没噪音),基于这两种情况具体如下:上述方法还包括:

若上述第一概率小于第四门限或者上述第二概率小于第五门限,并且,上述第三概率大于第六门限,则确定上述音频帧可能包含噪音;

若上述第一概率大于第七门限,则确定上述音频帧不包含噪音;

上述第一门限大于上述第四门限,上述第二门限大于上述第五门限,上述第六门限大于上述第三门限;上述第六门限大于上述第一门限和上述第二门限。

进一步地,基于已经判断有噪音或者可能包含噪音的情况,本发明实施例提供了更新权值的具体实现方案,采用两种不同的更新方式避免降噪处理对语音和音乐造成的伤害,具体如下:上述方法还包括:

若确定上述音频帧包含噪音,则依据上述音频帧包含噪音的结果更新上述音频帧的权值;

若确定上述音频帧可能包含噪音,则依据上述音频帧包含的底噪更新上述音频帧的权值。

前一种更新权值的方式,会较快影响到音频模型对音频帧是否为噪音的判断,后一种则较为平和。

更具体地,本发明实施例还提供了采用维纳滤波器进行降噪的具体实现方案,如下:上述对属于噪音的音频帧进行降噪处理包括:

根据上述待处理音频信号U以及包含噪音的音频帧的数量V计算信噪比SNR;然后计算维纳滤波器的传递函数H,H=SNR/(SNR+1),在频域计算输出的音频信号Y,Y=H×U。

更具体地,本发明实施例还提供了先验的音频模型的自动化训练方案,如下:在上述根据先验的音频模型确定第一概率、第二概率以及第三概率之前,上述方法还包括:

通过深度神经网络、隐含马尔科夫模型或者频谱特征聚类的方式获得上述先验的音频模型。

在获得先验的音频模型后,可以通过实际测试来确定训练的效果,选择较好的先验的音频模型在后续判断噪音的过程中使用。

本发明实施例进行音频信号的噪音抑制主要分为三个步骤,第一步是进行信号建模,第二步是噪音分析,第二部是进行噪音抑制;如图2所示,具体如下:

201:首先对采集的足够数量的音频信号进行预先的分类,默认音频信号由语音,音乐和噪音组成,根据先验的分类结果,分别对语音,音乐和噪音进行建模。得到的模型用于实时对采集的音频信号进行分类。

训练模型的方法可以采用深度神经网络或隐含马尔科夫模型等,也可以采用频谱特征聚类的简单方法。

202:根据预先训练好的模型对实时采集的音频信号进行判定后,得出每一帧分别对应语音,音乐和噪音的概率。

由于每一帧信号的判定由于模型准确率的问题会有较大波动,因此可以对每一帧的判定结果作一个时间区间的平滑,根据准确度,实时性等不同的上层要求,可以采用10到100帧之间长度的数据来计算算术平均值,从而减少误判。

在本实施例中,可以分成两套实时噪音估计模型的更新方式:

一种是:根据平滑后的三种信号的概率值,当噪音概率超过某一较高门限a,语音和音乐的概率低于某一较低门限b时,再根据当前的噪音概率使用当前帧信号对上述用于实时噪音估计的模型进行更新。因此可以快速准确的更新噪音估计模型。更新模型的方式,可以通过更新算术平均值中各帧对应的权值实现。

另一种是:当前帧属于噪音的概率高于某一较低门限c,语音或音乐的概率低于某一较高门限d时,使用较为平缓的方式上述用于实时噪音估计的模型,只收集非常平稳的底噪作为噪音信息。

还有一种情况是不需要更新模型的:当前帧语音或音乐的概率高于某一更高的门限d时,不更新上述用于实时噪音估计的模型。

203:使用维纳滤波等降噪方法对当前的音频信号进行降噪处理。

维纳滤波过程可以是:

1.根据输入音频信号U和噪声估计V的结果,计算出信噪比SNR;

2.计算维纳滤波器传递函数H=SNR/(SNR+1);

3.在频域计算输出信号Y=H×U;

本发明实施例提供了对手机上录制的语音,音乐,噪音混合场景中进行有效的降噪处理的方案,可以保护语音和音乐不受严重损伤。

本发明实施例,在检测噪音环节,预先将音频信号分为语音,噪音和音乐三类,与传统语音噪音两类的方法相区分。对判定结果做一个较长时间的平滑,有效减少误判。在噪音估计环节,使用两套不同性能的估计方式,在不存在语音和音乐的场景下较快速准确的更新噪音模型,在语音和音乐存在的场景下,只将最平稳的信号认为是噪音,避免对语音和音乐造成伤害。采用两套噪音估计模型更新方式有别于使用一套估计系统只根据判定调整更新加权值的方法。

本发明实施例还提供了一种音频信号处理装置,如图3所示,包括:

提取单元301,用于获取直播过程中产生的待处理音频信号,从上述待处理音频信号中提取音频帧;

概率确定单元302,用于根据先验的音频模型确定第一概率、第二概率以及第三概率;上述第一概率为上述音频帧属于语音的概率,上述第二概率为上述音频帧属于音乐的概率,上述第三概率为上述音频帧属于噪音的概率;

噪音确定单元303,用于若上述第一概率小于第一门限或者上述第二概率小于第二门限,并且,上述第三概率大于第三门限,则确定上述音频帧包含噪音;

降噪处理单元304,用于在确定上述待处理音频信号中包含噪音后,对属于噪音的音频帧进行降噪处理。

本发明实施例中音频信号处理可以在直播源端完成,即:在对音频信号进行降噪处理后发送到直播接收方;如果在直播接收方执行音频信号处理,理论上也是可行的,直播源端数据处理量会减少,不过这样会加大直播接收方的数据处理量;前者可以作为优选实现方案。如果在直播源端执行音频信号处理,那么待处理音频信号可以是直播源端的设备通过语音拾取设备,例如:话筒,获得音频信号并作为待处理音频信号。音频信号是以音频的帧组成的,因此可以提取出各帧的数据。

先验的音频模型是预先训练的音频模型,用于区分音频帧属于哪一种类型;在本实施例中,音频模型基于三种音频帧分类训练,由于三种类型的音频帧会各自具有自身的一些频谱特征,训练方式可以是深度神经网络或隐含马尔科夫模型等,也可以采用频谱特征聚类的简单方法。具体如何训练本发明实施例不作唯一性限定。

在本实施例中,第一门限和第二门限可以是同一个值,该值用于判断不是噪音的概率,第三门限则是用于判断是噪音的概率;第一门限和第二门限如果设置得较小,第三门限设置得较大,则会减少误判;如果第一门限和第二门限设置较大的值,第三门限设置较小的值,则会减少漏判;具体如何设置可以通过测试来确定,本发明实施例最具体取值不作唯一性限定。

由于本发明实施例已经定位到了音频信号中包含噪音的音频帧,因此可以准确的进行降噪处理,具体采用何种降噪处理方案,本发明实施例不作唯一性限定。

本发明实施例,采用先验的音频模型确定了音频帧属于语音的概率、属于音乐的概率以及属于噪音的概率,通过这些概率综合确定了是否存在噪音,并精确定位了噪音,可以适用于直播的应用场景,实现音频信号的降噪,提升音频信号质量。

可选地,在本实施例中可以通过算数平均的方式来减少误判,具体如下:上述提取单元301,具体用于从上述待处理音频信号中提取连续的预定个数的音频帧;

上述概率确定单元302,具体用于根据先验的音频模型确定第一概率、第二概率以及第三概率;上述第一概率为上述预定个数的音频帧属于语音的概率的算数平均值,上述第二概率为上述预定个数的音频帧属于音乐的概率的算数平均值,上述第三概率为上述预定个数的音频帧属于噪音的概率的算数平均值。

在本实施例中,预定个数可以是10~100个音频帧,具体如何确定这个值本发明实施例不作唯一性限定。在计算算数平均值时,每个音频帧会有一个权重值,如果对应的音频帧被确定为噪音的概率越大则其权重值可以设置得大一些,具体设定哪一权重值本发明实施例不作唯一性限定。举个例子,如果预定个数为10,待处理的音频信号从1编号到1000;以第110个音频帧的判断为例,那么将会获取第101~110这10个音频帧分别在音乐、语音和噪音三个维度的概率,确定其属于噪音的概率来确定各自权重,然后计算算数平均值作为第110个音频帧是否为噪音的依据;本次噪音计算将会影响到后续9个音频帧的判断。

进一步地,基于以上实施例中确定噪音的方案,还有两种情况是可能有噪音也可能没噪音,或者不太可能有噪音(即判断为没噪音),基于这两种情况具体如下:上述噪音确定单元303,还用于若上述第一概率小于第四门限或者上述第二概率小于第五门限,并且,上述第三概率大于第六门限,则确定上述音频帧可能包含噪音;

若上述第一概率大于第七门限,则确定上述音频帧不包含噪音;

上述第一门限大于上述第四门限,上述第二门限大于上述第五门限,上述第六门限大于上述第三门限;上述第六门限大于上述第一门限和上述第二门限。

进一步地,基于已经判断有噪音或者可能包含噪音的情况,本发明实施例提供了更新权值的具体实现方案,采用两种不同的更新方式避免降噪处理对语音和音乐造成的伤害,具体如下:如图4所示,上述装置还包括:

模型更新单元401,用于若确定上述音频帧包含噪音,则依据上述音频帧包含噪音的结果更新上述音频帧的权值;若确定上述音频帧可能包含噪音,则依据上述音频帧包含的底噪更新上述音频帧的权值。

前一种更新权值的方式,会较快影响到音频模型对音频帧是否为噪音的判断,后一种则较为平和。

更具体地,本发明实施例还提供了采用维纳滤波器进行降噪的具体实现方案,如下:上述降噪处理单元304,具体用于根据上述待处理音频信号U以及包含噪音的音频帧的数量V计算信噪比SNR;然后计算维纳滤波器的传递函数H,H=SNR/(SNR+1),在频域计算输出的音频信号Y,Y=H×U。

进一步地,本发明实施例还提供了先验的音频模型的自动化训练方案,如下:如图5所示,上述装置还包括:

模型训练单元501,用于通过深度神经网络、隐含马尔科夫模型或者频谱特征聚类的方式获得上述先验的音频模型。

本发明实施例还提供了一种终端设备,该终端设备可以是直播的源端设备,例如:手机;如图6所示,该终端设备可以包括:音频信号采集设备601、处理器602以及存储器603等;其中存储器603可以用于存储音频数据,也可以用于提供处理器602执行数据处理时所需的缓存;

上述音频信号采集设备601,用于获取直播过程中产生的待处理音频信号;

上述处理器602,用于从上述待处理音频信号中提取音频帧;根据先验的音频模型确定第一概率、第二概率以及第三概率;上述第一概率为上述音频帧属于语音的概率,上述第二概率为上述音频帧属于音乐的概率,上述第三概率为上述音频帧属于噪音的概率;若上述第一概率小于第一门限或者上述第二概率小于第二门限,并且,上述第三概率大于第三门限,则确定上述音频帧包含噪音;在确定上述待处理音频信号中包含噪音后,对属于噪音的音频帧进行降噪处理。

本发明实施例中音频信号处理可以在直播源端完成,即:在对音频信号进行降噪处理后发送到直播接收方;如果在直播接收方执行音频信号处理,理论上也是可行的,直播源端数据处理量会减少,不过这样会加大直播接收方的数据处理量;前者可以作为优选实现方案。如果在直播源端执行音频信号处理,那么待处理音频信号可以是直播源端的设备通过语音拾取设备,例如:话筒,获得音频信号并作为待处理音频信号。音频信号是以音频的帧组成的,因此可以提取出各帧的数据。

先验的音频模型是预先训练的音频模型,用于区分音频帧属于哪一种类型;在本实施例中,音频模型基于三种音频帧分类训练,由于三种类型的音频帧会各自具有自身的一些频谱特征,训练方式可以是深度神经网络或隐含马尔科夫模型等,也可以采用频谱特征聚类的简单方法。具体如何训练本发明实施例不作唯一性限定。

在本实施例中,第一门限和第二门限可以是同一个值,该值用于判断不是噪音的概率,第三门限则是用于判断是噪音的概率;第一门限和第二门限如果设置得较小,第三门限设置得较大,则会减少误判;如果第一门限和第二门限设置较大的值,第三门限设置较小的值,则会减少漏判;具体如何设置可以通过测试来确定,本发明实施例最具体取值不作唯一性限定。

由于本发明实施例已经定位到了音频信号中包含噪音的音频帧,因此可以准确的进行降噪处理,具体采用何种降噪处理方案,本发明实施例不作唯一性限定。

本发明实施例,采用先验的音频模型确定了音频帧属于语音的概率、属于音乐的概率以及属于噪音的概率,通过这些概率综合确定了是否存在噪音,并精确定位了噪音,可以适用于直播的应用场景,实现音频信号的降噪,提升音频信号质量。

可选地,在本实施例中可以通过算数平均的方式来减少误判,具体如下:上述处理器602,用于从上述待处理音频信号中提取音频帧包括:

从上述待处理音频信号中提取连续的预定个数的音频帧;

上述第一概率为上述预定个数的音频帧属于语音的概率的算数平均值,上述第二概率为上述预定个数的音频帧属于音乐的概率的算数平均值,上述第三概率为上述预定个数的音频帧属于噪音的概率的算数平均值。

在本实施例中,预定个数可以是10~100个音频帧,具体如何确定这个值本发明实施例不作唯一性限定。在计算算数平均值时,每个音频帧会有一个权重值,如果对应的音频帧被确定为噪音的概率越大则其权重值可以设置得大一些,具体设定哪一权重值本发明实施例不作唯一性限定。举个例子,如果预定个数为10,待处理的音频信号从1编号到1000;以第110个音频帧的判断为例,那么将会获取第101~110这10个音频帧分别在音乐、语音和噪音三个维度的概率,确定其属于噪音的概率来确定各自权重,然后计算算数平均值作为第110个音频帧是否为噪音的依据;本次噪音计算将会影响到后续9个音频帧的判断。

进一步地,基于以上实施例中确定噪音的方案,还有两种情况是可能有噪音也可能没噪音,或者不太可能有噪音(即判断为没噪音),基于这两种情况具体如下:上述处理器602,还用于若上述第一概率小于第四门限或者上述第二概率小于第五门限,并且,上述第三概率大于第六门限,则确定上述音频帧可能包含噪音;

若上述第一概率大于第七门限,则确定上述音频帧不包含噪音;

上述第一门限大于上述第四门限,上述第二门限大于上述第五门限,上述第六门限大于上述第三门限;上述第六门限大于上述第一门限和上述第二门限。

进一步地,基于已经判断有噪音或者可能包含噪音的情况,本发明实施例提供了更新权值的具体实现方案,采用两种不同的更新方式避免降噪处理对语音和音乐造成的伤害,具体如下:上述处理器602,还用于若确定上述音频帧包含噪音,则依据上述音频帧包含噪音的结果更新上述音频帧的权值;

若确定上述音频帧可能包含噪音,则依据上述音频帧包含的底噪更新上述音频帧的权值。

前一种更新权值的方式,会较快影响到音频模型对音频帧是否为噪音的判断,后一种则较为平和。

更具体地,本发明实施例还提供了采用维纳滤波器进行降噪的具体实现方案,如下:上述处理器602,用于5、根据权利要求1至4任意一项所述方法,其特征在于,所述对属于噪音的音频帧进行降噪处理包括:

根据上述待处理音频信号U以及包含噪音的音频帧的数量V计算信噪比SNR;然后计算维纳滤波器的传递函数H,H=SNR/(SNR+1),在频域计算输出的音频信号Y,Y=H×U。

进一步地,本发明实施例还提供了先验的音频模型的自动化训练方案,如下:上述处理器602,还用于在上述根据先验的音频模型确定第一概率、第二概率以及第三概率之前,通过深度神经网络、隐含马尔科夫模型或者频谱特征聚类的方式获得上述先验的音频模型。

本发明实施例还提供了一种手机,如图7所示,为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例方法部分。图7示出的是与本发明实施例提供的终端设备相关的手机的部分结构的框图。参考图7,手机包括:射频(Radio Frequency,RF)电路710、存储器720、输入单元730、显示单元740、传感器750、音频电路760、无线保真(wireless fidelity,WiFi)模块770、处理器780、以及电源790等部件。本领域技术人员可以理解,图7中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

下面结合图7对手机的各个构成部件进行具体的介绍:

RF电路710可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器780处理;另外,将设计上行的数据发送给基站。通常,RF电路710包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low Noise Amplifier,LNA)、双工器等。此外,RF电路710还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(Global System of Mobile communication,GSM)、通用分组无线服务(General Packet Radio Service,GPRS)、码分多址(Code Division Multiple Access,CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution,LTE)、电子邮件、短消息服务(Short Messaging Service,SMS)等。

存储器720可用于存储软件程序以及模块,处理器780通过运行存储在存储器720的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器720可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器720可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元730可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元730可包括触控面板731以及其他输入设备732。触控面板731,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板731上或在触控面板731附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板731可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器780,并能接收处理器780发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板731。除了触控面板731,输入单元730还可以包括其他输入设备732。具体地,其他输入设备732可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元740可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元740可包括显示面板741,可选的,可以采用液晶显示器(Liquid Crystal Display,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板741。进一步的,触控面板731可覆盖显示面板741,当触控面板731检测到在其上或附近的触摸操作后,传送给处理器780以确定触摸事件的类型,随后处理器780根据触摸事件的类型在显示面板741上提供相应的视觉输出。虽然在图7中,触控面板731与显示面板741是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板731与显示面板741集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器750,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板741的亮度,接近传感器可在手机移动到耳边时,关闭显示面板741和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。

音频电路760、扬声器761,传声器762可提供用户与手机之间的音频接口。音频电路760可将接收到的音频数据转换后的电信号,传输到扬声器761,由扬声器761转换为声音信号输出;另一方面,传声器762将收集的声音信号转换为电信号,由音频电路760接收后转换为音频数据,再将音频数据输出处理器780处理后,经RF电路710以发送给比如另一手机,或者将音频数据输出至存储器720以便进一步处理。

WiFi属于短距离无线传输技术,手机通过WiFi模块770可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图7示出了WiFi模块770,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。

处理器780是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器720内的软件程序和/或模块,以及调用存储在存储器720内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器780可包括一个或多个处理单元;优选的,处理器780可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器780中。

手机还包括给各个部件供电的电源790(比如电池),优选的,电源可以通过电源管理系统与处理器780逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。

在本实施例中,音频电路760或者输入单元730可以作为音频拾取设备使用,处理器780则可以对应到前述实施例中处理器602的功能。在此不再赘述。

值得注意的是,上述装置实施例中,所包括的各个单元只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。

另外,本领域普通技术人员可以理解实现上述各方法实施例中的全部或部分步骤是可以通过程序来指令相关的硬件完成,相应的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。

以上仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明实施例揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1