一种音频信号检测方法和装置的制作方法

文档序号：2833137阅读：325来源：国知局

专利名称：一种音频信号检测方法和装置的制作方法
技术领域：
本发明涉及音频领域的信号检测技木，尤其是一种音频信号检测方法和装置。
背景技术：
在通信系统中，通常对输入的音频信号进行编码后传输到对端。在通信系统中，尤其是无线/移动通信系统中，信道带宽是一个比较稀缺的资源。在一个双向的通话中，某一方说话的时间大概只占总通话时间的一半左右，另一半都处在静音状态。在信道带宽比较紧张的情况下，如果通信系统只在人说话的时候传输信号，而在静音时停止信号的传输，将可以节省出大量的带宽分配给其它用户。为了达到这个目的，通信系统需要知道通话人何时开始说话，何时停止说话，即需要知道语音何时是激活的，这就需要语音激活检测(voiceactivity detection, VAD)。一般在语音激活时,语音编码器会采用较高的速率编码,而在无语音的背景信号阶段，编码器会采用较低的速率编码。通过语音激活检测技术，通信系统能够区分输入的音频信号是语音还是背景噪音，并采用不同的编码技术进行编码。这种体制在通常的背景环境下都是可行的，但是当背景信号是音乐信号时，较低速率的编码会极大的影响听者的主观感受。因此ー种新的需求被提出来，即VAD系统需要能够有效的识别出背景音乐的场景，并有针对性的提高背景音乐的编码质量。在AMR VADl中,有ー种检测复杂信号的技术,一般来说,这里的复杂信号就是指音乐信号。在该VAD中，对姆ー巾贞信号,从AMR编码器中获得该巾贞的最大相关向量best_corr_hpm,并将其归ー化在
的范围之内。对归ー化后的最大相关向量best_corr_hpm求其长时的滑动平均相关向量c0rr_hp，计算方法为corr_hp = α · corr_hp+(I-α ) · best_corr_hpm,其中α为取值范围在
之间的遗忘系数将姆巾贞的corr_hp都与一高一低两个门限进行比较,如果出现连续8巾贞corr_hp都高于高门限的帧时，或者出现连续15帧corrjip都高于低门限的帧时，则ー个复杂信号标志complex_warning被设为I,表示复杂信号被检测到了。发明人在实现本发明的过程中，发现现有技术至少存在以下缺点上述技术虽然可以检测出音乐信号，但是并不能区分出是前景音乐还是背景音乐，因而不能根据带宽情况对背景音乐信号采用适合的编码技木。并且，上述技术可能把一些常规的背景噪声如babble噪声也当做是复杂信号，从而较大的影响了节省带宽。

发明内容
本发明的实施例提供一种音频信号检测方法和装置，能够从音频信号中检测出背
旦立Cl
双曰·^、。根据本发明的ー实施例，提供一种音频信号检测方法，包括将输入的音频信号分为多个音频信号帧；对每ー帧音频信号帧进行前景/背景检测；
当检测到背景信号帧时，将ー个背景帧计数器加上ー个步长值；获得所述背景信号帧的音乐特征值，将所述音乐特征值累加到ー个背景音乐特征累加值；当背景帧计数器达到ー个预先设定的数量时，将背景音乐特征累加值与ー个门限做比较，当背景音乐特征累加值符合门限判定法则时，则检测到背景音乐。根据本发明的另ー实施例，提供一种编码器，包括背景帧识别器，用于对输入的每ー帧音频信号进行检测，输出背景信号帧或前景信号帧的检测结果；背景音乐识别器，用于当检测到背景信号帧时，根据所述背景信号帧的音乐特征值对所述背景信号帧进行检测，输出检测到背景音乐的检测結果；其中，所述背景音乐识别器包括
背景帧计数器，用于当检测到背景信号帧时，将步长值加到其值上；音乐特征值获得単元，用于获得所述背景信号帧的音乐特征值；音乐特征值累加器，用于累加所述音乐特征值；判决器，用于在背景帧计数器达到预先设定的数量时，确定背景特征累加值符合门限判定法则，输出检测到背景音乐的检测結果。本发明实施例，对于背景信号进ー步的根据音乐特征值进行判断，从而能够检测出背景音乐，提高语音/音乐分类器的分类性能；并能够提供更加灵活的对背景音乐的处理方案，有针对性的调整背景音乐的编码质量。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。图I为本发明提供的音频信号检测方法的一个实施例的流程示意图；图2为获得音频帧的音乐特征值的ー个实施例的流程示意图；图3为获得音频帧的音乐特征值的另一个实施例的流程示意图；图4为获得音频帧的音乐特征值的另一个实施例的流程示意图；图5为本发明提供的音频信号检测方法的另ー个实施例的流程示意图；图6为本发明提供的音频信号检测装置的一个实施例的结构示意图；图7为本发明实施例提供的音乐特征值获得単元一个实施例的结构示意图；图8为本发明实施例提供的音乐特征值获得单元另一个实施例的结构示意图；图9为本发明提供的音频信号检测装置的另ー个实施例的结构示意图。
具体实施例方式下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
根据本发明的一个实施例，一种音频信号检测方法，用于对音频信号进行检测以区分背景噪音和背景音乐，音频信号通常包含多个音频帧。该方法可以应用在编码器的前处理装置中。本发明实施例中提及的背景音乐指的是信号类型为音乐并且为背景信号的音频信号。參考图1，该方法包括以下步骤SlOO :将输入的音频信号划分为多个音频信号巾贞;S105 :对输入的每ー帧音频信号帧进行前景/背景检测，判定为前景信号或背景
信号;具体在判定音频信号帧为前景信号或背景信号时，可以采用多种实现方式。在一种实现方式中，可以由VAD对输入的音频信号帧进行判断，识别出前景信号帧或背景信号帧。VAD根据噪声信号的某些固有特征识别出背景噪声，并持续的跟踪，同时估计出背景噪声的某些特征參数，例如特征參数A，以An来表示背景噪声的该參数估计值。对输入的音频信号帧也提取其相应的特征參数A，以As表示输入信号的A參数值，计算该输入信号的特征參数值As到An的距离，当距离小于ー个门限时，就认为As和An很近了，则认为输入信号也是背景噪声，否则就认为As和An距离较远，输入信号就是前景信号。上述的特征參数A可以是ー个，也可以是几个，当特征參数为几个时计算參数距离时就要计算ー个联合的距离。SllO :当检测到背景信号帧时，将ー个背景帧计数器加上ー个步长值；获得该音频帧的音乐特征值，将该音乐特征值累加入ー个背景音乐特征累加值；音乐特征值指表征该音频信号帧属于音乐信号的特征值。发明人发现与背景噪音相比，背景音乐具有明显的峰值特征；背景音乐的最大峰值位置波动较不明显。在ー个实施例中，采用音频信号帧频谱的局部峰值计算获得音乐特征值。在另ー个实施例中，采用相邻音频帧的最大峰值位置波动获得音乐特征值。本领域技术人员可以理解的是，也可以根据其他特征值获得音乐特征值。步长值可以取1，或者取大于I的数。S115:当背景帧计数器达到ー个预先设定的数量时，将背景音乐特征累加值与ー个门限做比较，当背景音乐特征累加值符合门限判定法则时，判定为检测到背景音乐，否则为背景噪音。音乐特征值选不同的參数，门限判断法则也不同。在一种实施方式中，音乐特征值为归一化峰谷距离值时，判断法则为当音乐特征值大于门限值，则判定为检测到背景音乐，否则为背景噪音。在另ー种实施方式中，音乐特征值为最大峰值位置波动时，判断法则为当音乐特征值小于门限值，则判定为检测到背景音乐，否则为背景噪音。在完成本次音频信号检测后，将背景帧计数器和音乐特征累加值分别清零，进入下一次音频信号检测过程。进ー步的，可以将检测帧之后的预定数量帧的背景信号帧标识为背景音乐，设置ー个保护帧值(保护帧值即预定数量)，在后续音频信号检测过程中，每检测到ー帧背景帧则将保护帧值减一。例如，当当前背景信号被判定为背景音乐时，设置背景音乐保护窗ロ b_mus_hang0Ver = 1000，表示需要将其后的1000帧背景帧都保护为背景音乐巾贞。在后续的检测过程中，姆检测出ー个背景巾贞，b_mus_hangover减I,当b_mus_hangover小于O时,b_mus_hangover等于O。进ー步的，上述检测过程中的门限可以根据保护窗ロ状态进行调整，当保护帧值大于0，则采用第一门限值，否则采用第二门限值；其中，当所述门限判断法则为音乐特征累加值大于所述门限时，第一门限值小于第二门限值；当所述门限判断法则为音乐特征累加值小于所述门限时，第一门限值大于第二门限值。检测到背景音乐后，当前帧之后的帧很可能也是背景音乐，通过门限值的调整，使检测到的音乐背景之后的音频帧更倾向于被判为背景音乐帧。例如，采用归一化峰谷距离值表征音乐特征值时，当背景音乐保护窗ロ b_mus_hangover大于O时,采用第一门限值mus_thr=1300,否则采用第二门限值mUS_thr=1500。由于当当前帧为背景音乐时下一帧也为背景音乐的概率大于当前帧不是背景音乐时下ー帧为背景音乐的概率，采用这种方法调整门限值，能够提高判断的准确度。在检测到背景信号为背景音乐时，可以根据带宽情况灵活的调整背景音乐的编码方式，有针对性的提高背景音乐的编码质量。一般情况下，音频通信系统中背景音乐可以被当做是前景信号传输，采用较高的速率编码；在带宽紧张的情况下，可以把背景音乐做为背景来传输，较低的速率编码。此外，识别背景音乐还有助于提高语音/音乐分类器的分类性能，使其在有音乐背景的情况下能够调整分类判决方法，从而提高语音检测的准确率。上述实施例中，对于背景信号进ー步的根据音乐特征值进行判断，从而能够检测出背景音乐，提高语音/音乐分类器的分类性能；并能够提供更加灵活的对背景音乐的处理方案，有针对性的调整背景音乐的编码质量。參考图2，获得该音频帧的音乐特征值的ー个实施例包括S200 :对输入的背景信号帧进行FFT变换，获得FFT频谱；S205 :获得频谱上局部峰点的位置和能量大小；捜索并记录频谱上局部峰点的位置和能量大小，局部峰点指频谱上能量大于前一个频点和后ー个频点的频点，局部峰点的能量为局部峰值。对频谱上的第i个fft频点fft(i)，如果fft(i-l)〈fft(i)且fft(i+l)〈fft(i)，则第i个频点为局部峰点，i为局部峰点位置，fft(i)为局部峰值。记录频谱上所有局部峰点的位置和能量。S210:根据位置和能量，分别计算所有局部峰点中每ー个对应的归ー化峰谷距离得到多个归ー化峰谷距离值；归ー化峰谷距离有多种不同计算方式，在一种实施例中，采用如下方式计算归一化峰谷距离对于每ー个局部峰值peak (i)，搜索其左右各相邻若干个频点内的最小值，分别以vl(i)和vr(i)表示。计算局部峰值与左侧最小值的差值及局部峰值与右侧最小值的差值，用两个差值之和除以所述音频帧的频谱的能量均值，获得归ー化峰谷距离。在另ー个实施例中所述两个差值之和也可以除以所述音频帧的部分频谱的能量均值，获得归ー化峰谷距离。以64点的FFT频谱为例，计算该局部峰值peak(i)的归ー化峰谷距离Dp2v(i)，
,、 .2 · peak{i) - v/(i) — vr(i)/ ,、!). {/) =」し^—U)
*m又其中，peak(i)表示位置为i的局部峰点的能量，vl (i)和vr(i)分别表示位置为i的局部峰点的左侧最小值和右侧最小值，avg表示该帧频谱的能量均值。avg = -^-Y^ ni(J)1 2 )
i=2其中，fft(i)表示位置为i的频点的能量。左右相邻的频点数可以根据需要选择，例如，可以选择4个。计算每ー个局部峰点对应的归ー化峰谷距离，得到多个归ー化峰谷距离值。
在另ー种实施例中，采用如下方式计算归一化峰谷距离对于每ー个局部峰点，计算所述局部峰点与左侧相邻的至少ー个频点的距离，所述局部峰点与右侧相邻的至少ー个频点的距离；用两个距离之和除以所述音频帧的频谱能量均值或部分频谱能量均值，获得归ー化峰谷距离。例如，采用位置为i的局部峰值peak(i)左右侧相邻2个频点的距离和，计算该局部峰值peak (i)的归ー化峰谷距离Dp2v (i),
权利要求
1.一种音频信号检测方法，其特征在于，包括将输入的音频信号分为多个音频信号帧；对每ー帧音频信号帧进行前景/背景检测；当检测到背景信号帧时，将ー个背景帧计数器加上ー个步长值；获得所述背景信号帧的音乐特征值，将所述音乐特征值累加到ー个背景音乐特征累加值；当背景帧计数器达到ー个预先设定的数量时，将背景音乐特征累加值与ー个门限做比较，当背景音乐特征累加值符合门限判定法则时，则检测到背景音乐。
2.根据权利要求I所述的方法，其特征在于，获得所述背景信号帧的音乐特征值包括获得所述背景信号帧的频谱；获得至少部分频谱上局部峰点的位置和能量；根据位置和能量，分别计算所有局部峰点中每ー个对应的归ー化峰谷距离，得到多个归ー化峰谷距离值；根据所述多个归ー化峰谷距离值，获得音乐特征值。
3.根据权利要求2所述的方法，其特征在于，采用如下方式计算所述局部峰点的归ー化峰谷距离对于每ー个局部峰点，分别获得其左右各相邻4个频点内的最小值；计算局部峰值与左侧最小值的差值及局部峰值与右侧最小值的差值，用两个差值之和除以所述音频帧的频谱的能量均值或部分频谱能量均值，获得归ー化峰谷距离。
4.根据权利要求2所述的方法，其特征在于，采用如下方式计算该峰点的归ー化峰谷距离对于每ー个局部峰点，计算所述局部峰点与左侧相邻的至少ー个频点的距离，所述局部峰点与右侧相邻的至少ー个频点的距离；用两个距离之和除于所述音频帧的频谱能量均值或部分频谱能量均值，获得归ー化峰谷距离。
5.根据权利要求2所述的方法，其特征在干，根据所述多个归ー化峰谷距离值获得音乐特征值，包括选择归一化峰谷距离值的最大值作为音乐特征值；或计算归一化峰谷距离值中最大的至少两个值之和，得到音乐特征值。
6.根据权利要求2所述的方法，其特征在于，所述门限判断法则为所述音乐特征累加值大于门限。
7.根据权利要求I所述的方法，其特征在于，获得所述背景信号帧的音乐特征值包括根据背景信号帧的频谱，获得频谱上局部峰值对应的峰谷距离的最大值的第一位置；根据背景信号帧的前ー帧的频谱，获得频谱上局部峰值对应的峰谷距离的最大值的第二位置；计算第一位置和第二位置的差值，得到音乐特征值。
8.根据权利要求7所述的方法，其特征在于，所述门限判断法则为所述音乐特征累加值小于门限。
9.根据权利要求I至8任一项所述的方法，其特征在于所述门限根据保护帧值调整，当保护帧值大于O时，采用第一门限值，否则采用第二门限值。
10.根据权利要求I所述的方法，其特征在于，检测到背景音乐后，还包括将当前音频帧之后的预定数量的音频帧标识为背景音乐。
11.根据权利要求10所述的方法，其特征在于，还包括当检测到背景信号帧时，则将预设的保护帧值减一，当保护帧值大于0，则所述门限采用第一门限值，否则所述门限采用第二门限值；其中，当所述门限判断法则为音乐特征累加值大于所述门限时，第一门限值小于第二门限值；当所述门限判断法则为音乐特征累加值小于所述门限时，第一门限值大于第二门限值。
12.—种编码器，其特征在于，包括背景帧识别器，用于对输入的每ー帧音频信号进行检测，输出背景信号帧或前景信号帧的检测结果；背景音乐识别器，用于当检测到背景信号帧时，根据所述背景信号帧的音乐特征值对所述背景信号帧进行检测，输出检测到背景音乐的检测結果；其中，所述背景音乐识别器包括背景帧计数器，用于当检测到背景信号帧时，将步长值加到其值上；音乐特征值获得単元，用于获得所述背景信号帧的音乐特征值；音乐特征值累加器，用于累加所述音乐特征值；判决器，用于在背景帧计数器达到预先设定的数量时，确定背景特征累加值符合门限判定法则，输出检测到背景音乐的检测結果。
13.根据权利要求12所述的编码器，其特征在于，所述音乐特征值获得单元包括频谱获得単元，用于获得所述背景信号帧的频谱；峰点获得单元，用于获得至少部分频谱上的局部峰点；计算单元，用于分别计算所有局部峰点中每ー个对应的归ー化峰谷距离，得到多个归一化峰谷距离值；并根据所述多个归ー化峰谷距离值，获得音乐特征值。
14.根据权利要求13所述的编码器，其特征在于，采用如下方式计算所述局部峰点的归ー化峰谷距离对于每ー个局部峰点，分别获得其左右各相邻4个频点内的最小值；计算局部峰值与左侧最小值的差值及局部峰值与右侧最小值的差值，用两个差值之和除以所述音频帧的频谱的能量均值或部分频谱能量均值，获得归ー化峰谷距离。
15.根据权利要求13所述的编码器，其特征在于，采用如下方式计算该峰点的归ー化峰谷距离对于每ー个局部峰点，计算所述局部峰点与左侧相邻的至少ー个频点的距离，所述局部峰点与右侧相邻的至少ー个频点的距离；用两个距离之和除以所述音频帧的频谱能量均值或部分频谱能量均值，获得归ー化峰谷距离。
16.根据权利要求12所述的编码器，其特征在于，所述音乐特征值获得单元包括第一位置获得单元，用于获得背景信号帧的频谱，获得频谱上局部峰值对应的峰谷距离的最大值的第一位置；第二位置获得单元，用于获得背景信号帧的前ー帧的频谱，获得频谱上局部峰值对应的峰谷距离的最大值的第二位置；计算单元，用于计算第一位置和第二位置的差值，得到音乐特征值。
17.根据权利要求12所述的编码器，其特征在于，还包括标识单元，用于将当前音频帧之后的预定数量帧的音频帧标识为背景音乐。
18.根据权利要求17所述的编码器，其特征在于，还包括门限调整単元，当检测到背景信号帧时，则将预设的保护帧值减一，当保护帧值大于O，则所述门限取第一门限值，否则所述门限取第二门限值；其中，当所述门限判断法则为音乐特征累加值大于所述门限时，第一门限值小于第二门限值；当所述门限判断法则为音乐特征累加值小于所述门限时，第一门限值大于第二门限值。
19.根据权利要求12所述的编码器，其特征在于，所述判决器，还用于在背景帧计数器达到预先设定的数量时，确定背景特征累加值不符合门限判定法则，输出检测到非背景音乐的检测結果。
全文摘要
本发明实施例公开了一种音频信号检测方法和装置，对输入的音频信号进行前景/背景检测，对检测到的背景信号帧进一步根据音乐特征值结合判定法则进行检测，从而能够检测出背景音乐，提高语音/音乐分类器的分类性能。
文档编号G10L11/00GK102693720SQ20121015138
公开日2012年9月26日申请日期2009年10月15日优先权日2009年10月15日
发明者王喆申请人:华为技术有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王喆
技术所有人：华为技术有限公司
我是此专利的发明人

上一篇：个性化语音阅读方法、系统及具有该系统的终端的制作方法
上一篇：一种超低频弯张式水声换能器的制作方法