一种音频信号检测方法和装置的制作方法

文档序号：2832194阅读：252来源：国知局

专利名称：一种音频信号检测方法和装置的制作方法
技术领域：
本发明涉及音频领域的信号检测技术，尤其是一种音频信号检测方法和装置。
背景技术：
在通信系统中，通常对输入的音频信号进行编码后传输到对端。在通信系统中，尤其是无线/移动通信系统中，信道带宽是一个比较稀缺的资源。在一个双向的通话中，某一方说话的时间大概只占总通话时间的一半左右，另一半都处在静音状态。在信道带宽比较紧张的情况下，如果通信系统只在人说话的时候传输信号，而在静音时停止信号的传输，将可以节省出大量的带宽分配给其它用户。为了达到这个目的，通信系统需要知道通话人何时开始说话，何时停止说话，即需要知道语音何时是激活的，这就需要语音激活检测(voice activity detection, VAD) 0 一般在语音激活时，语音编码器会采用较高的速率编码，而在无语音的背景信号阶段，编码器会采用较低的速率编码。通过语音激活检测技术，通信系统能够区分输入的音频信号是语音还是背景噪音，并采用不同的编码技术进行编码。这种体制在通常的背景环境下都是可行的，但是当背景信号是音乐信号时，较低速率的编码会极大的影响听者的主观感受。因此一种新的需求被提出来，即VAD系统需要能够有效的识别出背景音乐的场景，并有针对性的提高背景音乐的编码质量。在AMR VADl中，有一种检测复杂信号的技术，一般来说，这里的复杂信号就是指音乐信号。在该VAD中，对每一帧信号，从AMR编码器中获得该帧的最大相关向量beSt_C0rr_ hpm，并将其归一化在W-1]的范围之内。对归一化后的最大相关向量beSt_COrr_hpm求其长时的滑动平均相关向量c0rr_hp，计算方法为corr_hp = α · corr_hp+(1_ α ) · best_corr_hpm,其中α为取值范围在W.8，0.98]之间的遗忘系数将每帧的corr_hp都与一高一低两个门限进行比较，如果出现连续8帧corr_hp 都高于高门限的帧时，或者出现连续15帧Corr_hp都高于低门限的帧时，则一个复杂信号标志complex_warning被设为1，表示复杂信号被检测到了。发明人在实现本发明的过程中，发现现有技术至少存在以下缺点上述技术虽然可以检测出音乐信号，但是并不能区分出是前景音乐还是背景音乐，因而不能根据带宽情况对背景音乐信号采用适合的编码技术。

发明内容
本发明的实施例提供一种音频信号检测方法和装置，能够从音频信号中检测出背曰.~<V. Γ ~-足曰尔。根据本发明的一实施例，提供一种音频信号检测方法，包括将输入的音频信号分为多帧音频信号帧；对每一帧音频信号帧进行背景检测；当检测到背景信号帧时，将一个背景帧计数器加上一个步长值；获得所述背景信号帧的音乐特征值，将所述音乐特征值累加到一个背景音乐特征累加值；当所述背景帧计数器达到一个预先设定的数量时，将所述背景音乐特征累加值与一个门限做比较，当背景音乐特征累加值符合门限判定法则时，则检测到背景音乐。根据本发明的另一实施例，提供一种编码器，包括背景帧识别器，用于对输入的每一帧音频信号进行检测，输出背景信号帧或前景信号帧的检测结果；背景音乐识别器，用于当检测到背景信号帧时，根据所述背景信号帧的音乐特征值对所述背景信号帧进行检测，输出检测到背景音乐的检测结果；其中，所述背景音乐识别器包括背景帧计数器，用于当检测到背景信号帧时，将步长值加到其值上；音乐特征值获得单元，用于获得所述背景信号帧的音乐特征值；音乐特征值累加器，用于累加所述音乐特征值；判决器，用于在背景帧计数器达到预先设定的数量时，确定背景特征累加值符合门限判定法则，输出检测到背景音乐的检测结果。本发明实施例，对于背景信号进一步的根据音乐特征值进行判断，从而能够检测出背景音乐，提高语音/音乐分类器的分类性能；并能够提供更加灵活的对背景音乐的处理方案，有针对性的调整背景音乐的编码质量。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。图1为本发明提供的音频信号检测方法的一个实施例的流程示意图；图2为获得音频帧的音乐特征值的一个实施例的流程示意图；图3为获得音频帧的音乐特征值的另一个实施例的流程示意图；图4为获得音频帧的音乐特征值的另一个实施例的流程示意图；图5为本发明提供的音频信号检测方法的另一个实施例的流程示意图；图6为本发明提供的音频信号检测装置的一个实施例的结构示意图；图7为本发明实施例提供的音乐特征值获得单元一个实施例的结构示意图；图8为本发明实施例提供的音乐特征值获得单元另一个实施例的结构示意图；图9为本发明提供的音频信号检测装置的另一个实施例的结构示意图。
具体实施例方式下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。根据本发明的一个实施例，一种音频信号检测方法，用于对音频信号进行检测以区分背景噪音和背景音乐，音频信号通常包含多个音频帧。该方法可以应用在编码器的前处理装置中。本发明实施例中提及的背景音乐指的是信号类型为音乐并且为背景信号的音频信号。参考图1，该方法包括以下步骤SlOO 将输入的音频信号划分为多个音频信号帧；S105 对输入的每一帧音频信号帧进行前景/背景检测，判定为前景信号或背景信号；具体在判定音频信号帧为前景信号或背景信号时，可以采用多种实现方式。在一种实现方式中，可以由VAD对输入的音频信号帧进行判断，识别出前景信号帧或背景信号帧。VAD根据噪声信号的某些固有特征识别出背景噪声，并持续的跟踪，同时估计出背景噪声的某些特征参数，例如特征参数A，以An来表示背景噪声的该参数估计值。对输入的音频信号帧也提取其相应的特征参数A，以As表示输入信号的A参数值，计算该输入信号的特征参数值As到An的距离，当距离小于一个门限时，就认为As和An很近了，则认为输入信号也是背景噪声，否则就认为As和An距离较远，输入信号就是前景信号。上述的特征参数 A可以是一个，也可以是几个，当特征参数为几个时计算参数距离时就要计算一个联合的距1 OSllO 当检测到背景信号帧时，将一个背景帧计数器加上一个步长值；获得该音频帧的音乐特征值，将该音乐特征值累加入一个背景音乐特征累加值；音乐特征值指表征该音频信号帧属于音乐信号的特征值。发明人发现与背景噪音相比，背景音乐具有明显的峰值特征；背景音乐的最大峰值位置波动较不明显。在一个实施例中，采用音频信号帧频谱的局部峰值计算获得音乐特征值。在另一个实施例中，采用相邻音频帧的最大峰值位置波动获得音乐特征值。本领域技术人员可以理解的是，也可以根据其他特征值获得音乐特征值。步长值可以取1，或者取大于1的数。S115:当背景帧计数器达到一个预先设定的数量时，将背景音乐特征累加值与一个门限做比较，当背景音乐特征累加值符合门限判定法则时，判定为检测到背景音乐，否则为背景噪音。音乐特征值选不同的参数，门限判断法则也不同。在一种实施方式中，音乐特征值为归一化峰谷距离值时，判断法则为当音乐特征值大于门限值，则判定为检测到背景音乐，否则为背景噪音。在另一种实施方式中，音乐特征值为最大峰值位置波动时，判断法则为当音乐特征值小于门限值，则判定为检测到背景音乐，否则为背景噪音。在完成本次音频信号检测后，将背景帧计数器和音乐特征累加值分别清零，进入下一次音频信号检测过程。进一步的，可以将检测帧之后的预定数量帧的背景信号帧标识为背景音乐，设置一个保护帧值(保护帧值即预定数量)，在后续音频信号检测过程中，每检测到一帧背景帧则将保护帧值减一。例如，当当前背景信号被判定为背景音乐时，设置背景音乐保护窗口 b_mUS_hang0Ver = 1000，表示需要将其后的1000帧背景帧都保护为背景音乐帧。在后续的检测过程中，每检测出一个背景帧，b_mus_hangover减1，当b_mus_ hangover小于0时，bjnusjiangover等于0。进一步的，上述检测过程中的门限可以根据保护窗口状态进行调整，当保护帧值大于0，则采用第一门限值，否则采用第二门限值；其中，当所述门限判断法则为音乐特征累加值大于所述门限时，第一门限值小于第二门限值；当所述门限判断法则为音乐特征累加值小于所述门限时，第一门限值大于第二门限值。检测到背景音乐后，当前帧之后的帧很可能也是背景音乐，通过门限值的调整，使检测到的音乐背景之后的音频帧更倾向于被判为背景音乐帧。例如，采用归一化峰谷距离值表征音乐特征值时，当背景音乐保护窗口 bjmisjiangover大于0时，采用第一门限值mus_thr = 1300，否则采用第二门限值muS_thr= 1500。由于当当前帧为背景音乐时下一帧也为背景音乐的概率大于当前帧不是背景音乐时下一帧为背景音乐的概率，采用这种方法调整门限值，能够提高判断的准确度。在检测到背景信号为背景音乐时，可以根据带宽情况灵活的调整背景音乐的编码方式，有针对性的提高背景音乐的编码质量。一般情况下，音频通信系统中背景音乐可以被当做是前景信号传输，采用较高的速率编码；在带宽紧张的情况下，可以把背景音乐做为背景来传输，采用较低的速率编码。此外，识别背景音乐还有助于提高语音/音乐分类器的分类性能，使其在有音乐背景的情况下能够调整分类判决方法，从而提高语音检测的准确率。上述实施例中，对于背景信号进一步的根据音乐特征值进行判断，从而能够检测出背景音乐，提高语音/音乐分类器的分类性能；背景噪音误判率低，不会将背景噪音当做复杂信号而影响带宽；并能够提供更加灵活的对背景音乐的处理方案，有针对性的调整背景音乐的编码质量。参考图2，获得该音频帧的音乐特征值的一个实施例包括S200 对输入的背景信号帧进行FFT变换，获得FFT频谱；S205 获得频谱上局部峰点的位置和能量大小；搜索并记录频谱上局部峰点的位置和能量大小，局部峰点指频谱上能量大于前一个频点和后一个频点的频点，局部峰点的能量为局部峰值。对频谱上的第i个fft频点 fft⑴，如果fft (i-1) < fft (i)且fft (i+1) < fft (i)，则第i个频点为局部峰点，i为局部峰点位置，fft(i)为局部峰值。记录频谱上所有局部峰点的位置和能量。S210:根据位置和能量，分别计算所有局部峰点中每一个对应的归一化峰谷距离得到多个归一化峰谷距离值；归一化峰谷距离有多种不同计算方式，在一种实施例中，采用如下方式计算归一化峰谷距离对于每一个局部峰值peak (i)，搜索其左右各相邻若干个频点内的最小值，分别以vl(i)和vr(i)表示。计算局部峰值与左侧最小值的差值及局部峰值与右侧最小值的差值，用两个差值之和除以所述音频帧的频谱的能量均值，获得归一化峰谷距离。在另一个实施例中所述两个差值之和也可以除以所述音频帧的部分频谱的能量均值，获得归一化峰谷距离。以64点的FFT频谱为例，计算该局部峰值peak(i)的归一化峰谷距离Dp2v(i)，Γ—1 η (Λ peak{i)-vl{i)-Vr (ι)( 1 χ 力)=--、“avg其中，peak (i)表示位置为i的局部峰点的能量，vl (i)和vr (i)分别表示位置为 i的局部峰点的左侧最小值和右侧最小值，avg表示该帧频谱的能量均值。1 63avg = —γ, fft (i)(2)62 i=2其中，fft(i)表示位置为i的频点的能量。左右相邻的频点数可以根据需要选择，例如，可以选择4个。计算每一个局部峰点对应的归一化峰谷距离，得到多个归一化峰谷距离值。
在另一种实施例中，采用如下方式计算归一化峰谷距离对于每一个局部峰点，计算所述局部峰点与左侧相邻的至少一个频点的距离，所述局部峰点与右侧相邻的至少一个频点的距离；用两个距离之和除以所述音频帧的频谱能量均值或部分频谱能量均值，获得归一化峰谷距离。例如，采用位置为i的局部峰值peak (i)左右侧相邻2个频点的距离和，计算该局部峰值peak (i)的归一化峰谷距离Dp2v (i)，
权利要求
1.一种音频信号检测方法，其特征在于，包括将输入的音频信号分为多帧音频信号帧；对每一帧音频信号帧进行背景检测；当检测到背景信号帧时，将一个背景帧计数器加上一个步长值；获得所述背景信号帧的音乐特征值，将所述音乐特征值累加到一个背景音乐特征累加值；当所述背景帧计数器达到一个预先设定的数量时，将所述背景音乐特征累加值与一个门限做比较，当背景音乐特征累加值符合门限判定法则时，则检测到背景音乐。
2.根据权利要求1所述的方法，其特征在于，获得所述背景信号帧的音乐特征值包括获得所述背景信号帧的频谱；获得至少部分频谱上局部峰点的位置和能量；根据位置和能量，分别计算所有局部峰点中每一个对应的归一化峰谷距离，得到多个归一化峰谷距离值；根据所述多个归一化峰谷距离值，获得音乐特征值。
3.根据权利要求2所述的方法，其特征在于，采用如下方式计算所述局部峰点的归一化峰谷距离对于每一个局部峰点，分别获得其左右各相邻4个频点内的最小值；计算局部峰值与左侧最小值的差值及局部峰值与右侧最小值的差值，用两个差值之和除以所述音频帧的频谱的能量均值或部分频谱能量均值，获得归一化峰谷距离。
4.根据权利要求2所述的方法，其特征在于，采用如下方式计算该峰点的归一化峰谷距离对于每一个局部峰点，计算所述局部峰点与左侧相邻的至少一个频点的距离，所述局部峰点与右侧相邻的至少一个频点的距离；用两个距离之和除于所述音频帧的频谱能量均值或部分频谱能量均值，获得归一化峰谷距离。
5.根据权利要求2所述的方法，其特征在于，根据所述多个归一化峰谷距离值获得音乐特征值，包括选择归一化峰谷距离值的最大值作为音乐特征值；或计算归一化峰谷距离值中最大的至少两个值之和，得到音乐特征值。
6.根据权利要求2所述的方法，其特征在于，所述门限判断法则为所述音乐特征累加值大于门限。
7.根据权利要求1所述的方法，其特征在于，获得所述背景信号帧的音乐特征值包括根据背景信号帧的频谱，获得频谱上局部峰值对应的峰谷距离的最大值的第一位置；根据背景信号帧的前一帧的频谱，获得频谱上局部峰值对应的峰谷距离的最大值的第二位置；计算第一位置和第二位置的差值，得到音乐特征值。
8.根据权利要求7所述的方法，其特征在于，所述门限判断法则为所述音乐特征累加值小于门限。
9.根据权利要求1所述的方法，其特征在于，检测到背景音乐后，还包括将当前音频帧之后的预定数量的音频帧标识为背景音乐。
10.根据权利要求9所述的方法，其特征在于，还包括当检测到背景信号帧时，则将预设的保护帧值减一，当保护帧值大于0，则所述门限采用第一门限值，否则所述门限采用第二门限值；其中，当所述门限判断法则为音乐特征累加值大于所述门限时，第一门限值小于第二门限值；当所述门限判断法则为音乐特征累加值小于所述门限时，第一门限值大于第二门限值。
11.一种编码器，其特征在于，包括背景帧识别器，用于对输入的每一帧音频信号进行检测，输出背景信号帧或前景信号帧的检测结果；背景音乐识别器，用于当检测到背景信号帧时，根据所述背景信号帧的音乐特征值对所述背景信号帧进行检测，输出检测到背景音乐的检测结果；其中，所述背景音乐识别器包括背景帧计数器，用于当检测到背景信号帧时，将步长值加到其值上；音乐特征值获得单元，用于获得所述背景信号帧的音乐特征值；音乐特征值累加器，用于累加所述音乐特征值；判决器，用于在背景帧计数器达到预先设定的数量时，确定背景特征累加值符合门限判定法则，输出检测到背景音乐的检测结果。
12.根据权利要求11所述的编码器，其特征在于，所述音乐特征值获得单元包括频谱获得单元，用于获得所述背景信号帧的频谱；峰点获得单元，用于获得至少部分频谱上的局部峰点；计算单元，用于分别计算所有局部峰点中每一个对应的归一化峰谷距离，得到多个归一化峰谷距离值；并根据所述多个归一化峰谷距离值，获得音乐特征值。
13.根据权利要求12所述的编码器，其特征在于，采用如下方式计算所述局部峰点的归一化峰谷距离对于每一个局部峰点，分别获得其左右各相邻4个频点内的最小值；计算局部峰值与左侧最小值的差值及局部峰值与右侧最小值的差值，用两个差值之和除以所述音频帧的频谱的能量均值或部分频谱能量均值，获得归一化峰谷距离。
14.根据权利要求12所述的编码器，其特征在于，采用如下方式计算该峰点的归一化峰谷距离对于每一个局部峰点，计算所述局部峰点与左侧相邻的至少一个频点的距离，所述局部峰点与右侧相邻的至少一个频点的距离；用两个距离之和除以所述音频帧的频谱能量均值或部分频谱能量均值，获得归一化峰谷距离。
15.根据权利要求11所述的编码器，其特征在于，所述音乐特征值获得单元包括第一位置获得单元，用于获得背景信号帧的频谱，获得频谱上局部峰值对应的峰谷距离的最大值的第一位置；第二位置获得单元，用于获得背景信号帧的前一帧的频谱，获得频谱上局部峰值对应的峰谷距离的最大值的第二位置；计算单元，用于计算第一位置和第二位置的差值，得到音乐特征值。
16.根据权利要求11所述的编码器，其特征在于，还包括标识单元，用于将当前音频帧之后的预定数量帧的音频帧标识为背景音乐。
17.根据权利要求16所述的编码器，其特征在于，还包括门限调整单元，当检测到背景信号帧时，则将预设的保护帧值减一，当保护帧值大于0，则所述门限取第一门限值，否则所述门限取第二门限值；其中，当所述门限判断法则为音乐特征累加值大于所述门限时，第一门限值小于第二门限值；当所述门限判断法则为音乐特征累加值小于所述门限时，第一门限值大于第二门限值。
18.根据权利要求11所述的编码器，其特征在于，所述判决器，还用于在背景帧计数器达到预先设定的数量时，确定背景特征累加值不符合门限判定法则，输出检测到非背景音乐的检测结果。
全文摘要
本发明实施例公开了一种音频信号检测方法和装置，对输入的音频信号进行前景/背景检测，对检测到的背景信号帧进一步根据音乐特征值结合判定法则进行检测，从而能够检测出背景音乐，提高语音/音乐分类器的分类性能。
文档编号G10L25/48GK102044246SQ20091011079
公开日2011年5月4日申请日期2009年10月15日优先权日2009年10月15日
发明者王喆申请人:华为技术有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王喆
技术所有人：华为技术有限公司
我是此专利的发明人