自动增益控制装置及方法

文档序号：2827761阅读：278来源：国知局

自动增益控制装置及方法
【专利摘要】本发明提供一种自动增益控制装置及方法，所述方法包括：采集模拟的音频信号；将采集的模拟的音频信号进行模数转换形成数字的音频数据；将所述数字的音频数据进行编码得到连续的多帧音频数据；对每帧音频数据进行活动语音检测以将各个音频数据帧区分为语音数据帧和非语音数据帧；对各语音数据帧进行能量检测以将各语音数据帧区分为背景语音数据帧和目标语音数据帧；根据各帧音频数据的类型确定其对应的增益，非语音数据帧和背景语音数据帧的增益小于等于0dB，目标语音数据帧的增益大于0dB；根据自动增益控制模块确定的各个音频数据帧的增益对各个音频数据帧进行信号幅度的调整。这样可以增强目标语音，抑制背景语音，提高了用户的体验。
【专利说明】自动增益控制装置及方法
【【技术领域】】
[0001]本发明涉及音频和语音信号处理领域，特别涉及一种基于语音活动检测的自动增益控制装置及方法。
【【背景技术】】
[0002]在音频处理过程中，通常需要对输入的音频信号进行自动增益控制，来调整输入的音频信号的信号幅度，衰减大幅值信号，放大小幅值信号，保证信号幅值的平稳。
[0003]为了防止放大音频信号中的背景噪声信号，有时也会加入活动语音检测(VAD，Voice activity Detect1n)来判断音频信号中是否有语音，对于那些含有语音的音频信号进行增益放大，对于那些不含有语音的音频信号不进行放大或进行缩小。所述活动语音检测VAD并不能区分是背景音中的语音(背景语音)和主讲话人的语音(被称为目标语音)，比如一个人在嘈杂的路上打电话，那么打电话的人的语音属于目标语音，其应该被放大，而路人的语音是背景语音也会被放大，但实际上背景语音应该被缩小或不做处理。因此，在现有技术中，背景语音和目标语音一起被放大，这给一些应用带来了不利的影响，t匕如蓝牙耳机。
[0004]因此，有必要提供一种改进的技术方案来克服上述问题。
【
【发明内容】
】
[0005]本发明的目的在于提供一种基于语音活动检测的自动增益控制装置及方法，其可以区分背景语音和目标语音，并对它们进行不同的处理，以增强目标语音，抑制背景语音。
[0006]为了解决上述问题，本发明提供一种音频信号的自动增益控制装置，其包括:麦克风，采集模拟的音频信号；模数转换器，将采集的模拟的音频信号进行模数转换形成数字的音频数据；音频编码器，将来自模数转换器的数字的音频数据进行编码得到连续的多帧音频数据；活动语音检测模块，对每帧音频数据进行活动语音检测以将各个音频数据帧区分为语音数据帧和非语音数据帧；背景语音检测模块，对各语音数据帧进行能量检测以将各语音数据帧区分为背景语音数据帧和目标语音数据帧；自动增益控制模块，根据各帧音频数据的类型确定其对应的增益，其中非语音数据帧和背景语音数据帧的增益小于等于OdB，目标语音数据帧的增益大于OdB ;增益调节模块，根据自动增益控制模块确定的各个音频数据帧的增益对各个音频数据帧进行信号幅度的调整。
[0007]进一步的，所述背景语音检测模块对各语音数据帧进行能量检测得到各语音数据帧的能量检测值，并将该能量检测值与语音能量阈值相比，将所述能量检测值低于语音能量阈值的语音数据帧被认为是背景语音数据帧，将所述能量检测值高于语音能量阈值的语音数据帧被认为是目标语音数据帧。
[0008]进一步的，所述增益调节模块对非语音数据帧和背景语音数据帧不进行放大或进行缩小，所述增益调节器对目标语音数据帧进行自动增益放大。
[0009]进一步的，背景语音检测模块，对各音频数据帧进行能量检测以将各音频数据帧区分为低能量音频数据帧和高能量音频数据帧；自动增益控制模块，根据各帧音频数据的类型确定其对应的增益，其中将属于高能量音频数据帧同时又是语音数据帧的音频数据帧的增益设置的大于OdB，将所有其它的音频数据帧的增益设置为小于等于OdB。
[0010]根据本发明的另一个方面，本发明还提供一种音频信号的自动增益控制方法，其包括:采集模拟的音频信号；将采集的模拟的音频信号进行模数转换形成数字的音频数据；将来自模数转换器的数字的音频数据进行编码得到连续的多帧音频数据；对每帧音频数据进行活动语音检测以将各个音频数据帧区分为语音数据帧和非语音数据帧；对各语音数据帧进行能量检测以将各语音数据帧区分为背景语音数据帧和目标语音数据帧；根据各帧音频数据的类型确定其对应的增益，其中非语音数据帧和背景语音数据帧的增益小于等于OdB，目标语音数据帧的增益大于OdB ;根据确定的各个音频数据帧的增益对各个音频数据帧进行信号幅度的调整。
[0011]进一步的，所述对各语音数据帧进行能量检测以将各语音数据帧区分为背景语音数据帧和目标语音数据帧包括:对各语音数据帧进行能量检测得到各语音数据帧的能量检测值；将该能量检测值与语音能量阈值相比；将所述能量检测值低于语音能量阈值的语音数据帧被认为是背景语音数据帧，将所述能量检测值高于语音能量阈值的语音数据帧被认为是目标语音数据帧。
[0012]进一步的，所述根据确定的各个音频数据帧的增益对各个音频数据帧进行信号幅度的调整包括:对非语音数据帧和背景语音数据帧不进行放大或进行缩小，所述增益调节器对目标语音数据帧进行自动增益放大。
[0013]进一步的，对各语音数据帧进行能量检测以将各语音数据帧区分为背景语音数据帧和目标语音数据帧的操作，根据各帧音频数据的类型确定其对应的增益，其中非语音数据帧和背景语音数据帧的增益小于等于OdB，目标语音数据帧的增益大于OdB的操作；被替换为:对各音频数据帧进行能量检测以将各音频数据帧区分为低能量音频数据帧和高能量音频数据帧；自动增益控制模块，根据各帧音频数据的类型确定其对应的增益，其中将属于高能量音频数据帧同时又是语音数据帧的音频数据帧的增益设置的大于OdB，将所有其它的音频数据帧的增益设置为小于等于OdB。
[0014]与现有技术相比，本发明中的自动增益控制装置及方法，通过区分背景语音和目标语音，并对它们进行不同的处理，以增强目标语音，抑制背景语音，提高了用户的体验。
【【专利附图】

【附图说明】】
[0015]为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。其中:
[0016]图1为本发明在一个实施例中的自动增益控制装置的结构框图；
[0017]图2为本发明在一个实施例中的自动增益控制方法的流程图。
【【具体实施方式】】
[0018]为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和【具体实施方式】对本发明作进一步详细的说明。
[0019]图1为本发明在一个实施例中的自动增益控制装置的结构框图。如图1所示，所述自动增益控制装置100包括麦克风110、模数转换器120、音频编码器130、活动语音检测模块140、背景语音检测模块150、自动增益控制模块160、增益调节模块180。
[0020]所述麦克风110采集模拟的音频信号。所述模数转换器120将采集的模拟的音频信号进行模数转换形成数字的音频数据。所述音频编码器130将来自模数转换器120的数字的音频数据进行编码得到连续的多帧音频数据。所述编码可以是PCM(Pulse CodeModulat1n)编码，编码后的音频数据可以以帧为单位进行后续处理。每帧音频数据的帧长一般为1ms至20ms。每帧音频数据包括多个音频采样点。
[0021]所述活动语音检测模块140对每帧音频数据进行活动语音检测(VAD)以将各个音频数据帧区分为语音数据帧和非语音数据帧。将语音数据帧的标志置为1，将非语音数据帧的标志置为O。活动语音检测的主动作用是区分语音帧和无语音的噪音帧，在后续的增益调整时只对语音帧进行增益放大或信号幅度放大，而对噪音帧不放大，甚至是缩小，降低噪音的影响。
[0022]所述背景语音检测模块150对各语音数据帧进行能量检测以将各语音数据帧区分为背景语音数据帧和目标语音数据帧。为了降低工作量，此时可以仅对语音数据帧进行能量检测。具体的，所述背景语音检测模块150对各语音数据帧进行能量检测得到各语音数据帧的能量检测值，并将该能量检测值与语音能量阈值Eth相比，将所述能量检测值低于语音能量阈值Eth的语音数据帧被认为是背景语音数据帧，将所述能量检测值高于语音能量阈值的语音数据帧被认为是目标语音数据帧。其中背景语音数据帧的含义是，其包含有语音，但是其是属于背景音的语音；所述目标语音数据帧的含义是，其包含有语音，并且属于主要的，希望被听到的语音，比如主讲人的语音。可以将背景语音数据帧的标记置为0，将目标语音数据帧的标记置为I。在一个实施例中，可以统计一个语音数据帧的语音采样点的平均能量，将此平均能量值作为该语音数据帧的能量检测值。
[0023]所述自动增益控制模块160根据各帧音频数据的类型确定其对应的增益，其中将非语音数据帧和背景语音数据帧的增益设置的小于等于OdB，即不进行放大，甚至进行缩小或衰减，将目标语音数据帧的增益设置的大于OdB，即进行放大。关于所述目标语音数据帧的增益的具体值可以根据自动增益控制AGC算法以及期望达到的控制效果来决定。需要了解的是，本发明的一个特点在于:识别出背景语音数据帧，并不对其进行增益放大，至于如何处理目标语音数据帧的增益，则不是本文所关心的重点，或者说可以采用现有的AGC算法来对目标语音数据帧的增益进行控制。
[0024]所述增益调节模块180根据自动增益控制模块160确定的各个音频数据帧的增益对各个音频数据帧进行信号幅度的调整。具体的，非语音数据帧和背景语音数据帧不进行放大或进行缩小，对目标语音数据帧进行自动增益放大。
[0025]在有的实施例中，所述背景语音检测模块150可以对各音频数据帧进行能量检测以将各音频数据帧区分为低能量音频数据帧和高能量音频数据帧。具体的，所述背景语音检测模块150对各音频数据帧进行能量检测得到各音频数据帧的能量检测值，并将该能量检测值与音频能量阈值相比，将所述能量检测值低于音频能量阈值的音频数据帧被认为是低能量音频数据帧，将所述能量检测值高于低能量音频数据帧的音频数据帧被认为是高能量音频数据帧。此时，所述自动增益控制模块160将属于高能量音频数据帧同时又是语音数据帧的音频数据帧的增益设置的大于OdB，将所有其它的音频数据帧的增益设置为小于等于OdB。在此实施例中，需要对所有音频数据帧都进行能量检测，计算量稍大，不过仍然能够实现本发明的目的。
[0026]图2为本发明在一个实施例中的自动增益控制方法200的流程框图。如图2所示，所述自动增益控制方法200包括如下步骤。
[0027]步骤210，采集模拟的音频信号。
[0028]步骤220，将采集的模拟的音频信号进行模数转换形成数字的音频数据。
[0029]步骤230，将来自模数转换器的数字的音频数据进行编码得到连续的多帧音频数据。
[0030]步骤240，对每帧音频数据进行活动语音检测以将各个音频数据帧区分为语音数据帧和非语音数据帧。
[0031]步骤250，对各语音数据帧进行能量检测以将各语音数据帧区分为背景语音数据帧和目标语音数据帧。
[0032]在一个实施例中，该步骤250具体包括:对各语音数据帧进行能量检测得到各语音数据帧的能量检测值；将该能量检测值与语音能量阈值相比；将所述能量检测值低于语音能量阈值的语音数据帧被认为是背景语音数据帧，将所述能量检测值高于语音能量阈值的语音数据帧被认为是目标语音数据帧。
[0033]步骤260，根据各帧音频数据的类型确定其对应的增益，其中非语音数据帧和背景语音数据帧的增益小于等于OdB，目标语音数据帧的增益大于OdB。
[0034]步骤270，根据确定的各个音频数据帧的增益对各个音频数据帧进行信号幅度的调整。
[0035]在一个实施例中，该步骤270具体包括:对非语音数据帧和背景语音数据帧不进行放大或进行缩小，所述增益调节器对目标语音数据帧进行自动增益放大。
[0036]在有的实施例中，步骤250可以替换为下述步骤:对各音频数据帧进行能量检测以将各音频数据帧区分为低能量音频数据帧和高能量音频数据帧。具体的，对各音频数据帧进行能量检测得到各音频数据帧的能量检测值，并将该能量检测值与音频能量阈值相t匕，将所述能量检测值低于音频能量阈值的音频数据帧被认为是低能量音频数据帧，将所述能量检测值高于音频能量阈值的音频数据帧被认为是高能量音频数据帧。步骤260可以替换为下述步骤:将属于高能量音频数据帧同时又是语音数据帧的音频数据帧的增益设置的大于OdB，将所有其它的音频数据帧的增益设置为小于等于OdB。
[0037]在本发明中，“连接”、相连、“连”、“接”等表示电性相连的词语，如无特别说明，则表示直接或间接的电性连接。本发明中的“列”或“行”都是广义上的含义，其既可以指阵列中水平的一排，也可以指垂直的一排。
[0038]需要指出的是，熟悉该领域的技术人员对本发明的【具体实施方式】所做的任何改动均不脱离本发明的权利要求书的范围。相应地，本发明的权利要求的范围也并不仅仅局限于前述【具体实施方式】。
【权利要求】
1.一种音频信号的自动增益控制装置，其特征在于，其包括: 麦克风，采集模拟的音频信号；模数转换器，将采集的模拟的音频信号进行模数转换形成数字的音频数据；音频编码器，将来自模数转换器的数字的音频数据进行编码得到连续的多帧音频数据；活动语音检测模块，对每帧音频数据进行活动语音检测以将各个音频数据帧区分为语音数据帧和非语音数据帧；背景语音检测模块，对各语音数据帧进行能量检测以将各语音数据帧区分为背景语音数据帧和目标语音数据帧；自动增益控制模块，根据各帧音频数据的类型确定其对应的增益，其中非语音数据帧和背景语音数据帧的增益小于等于OdB，目标语音数据帧的增益大于OdB ；增益调节模块，根据自动增益控制模块确定的各个音频数据帧的增益对各个音频数据帧进行信号幅度的调整。
2.根据权利要求1所述的音频信号的自动增益控制装置，其特征在于，所述背景语音检测模块对各语音数据帧进行能量检测得到各语音数据帧的能量检测值，并将该能量检测值与语音能量阈值相比，将所述能量检测值低于语音能量阈值的语音数据帧被认为是背景语音数据帧，将所述能量检测值高于语音能量阈值的语音数据帧被认为是目标语音数据帧。
3.根据权利要求2所述的音频信号的自动增益控制装置，其特征在于，所述增益调节模块对非语音数据帧和背景语音数据帧不进行放大或进行缩小，所述增益调节器对目标语音数据帧进行自动增益放大。
4.根据权利要求2所述的音频信号的自动增益控制装置，其特征在于，背景语音检测模块，对各音频数据帧进行能量检测以将各音频数据帧区分为低能量音频数据帧和高能量音频数据帧；自动增益控制模块，根据各帧音频数据的类型确定其对应的增益，其中将属于高能量音频数据帧同时又是语音数据帧的音频数据帧的增益设置的大于OdB，将所有其它的音频数据帧的增益设置为小于等于OdB。
5.一种音频信号的自动增益控制方法，其特征在于，其包括: 采集模拟的音频信号；将采集的模拟的音频信号进行模数转换形成数字的音频数据；将来自模数转换器的数字的音频数据进行编码得到连续的多帧音频数据；对每帧音频数据进行活动语音检测以将各个音频数据帧区分为语音数据帧和非语音数据帧；对各语音数据帧进行能量检测以将各语音数据帧区分为背景语音数据帧和目标语音数据帧；根据各帧音频数据的类型确定其对应的增益，其中非语音数据帧和背景语音数据帧的增益小于等于OdB，目标语音数据帧的增益大于OdB ；根据确定的各个音频数据帧的增益对各个音频数据帧进行信号幅度的调整。
6.根据权利要求5所述的音频信号的自动增益控制方法，其特征在于，所述对各语音数据帧进行能量检测以将各语音数据帧区分为背景语音数据帧和目标语音数据帧包括: 对各语音数据帧进行能量检测得到各语音数据帧的能量检测值；将该能量检测值与语音能量阈值相比；将所述能量检测值低于语音能量阈值的语音数据帧被认为是背景语音数据帧，将所述能量检测值高于语音能量阈值的语音数据帧被认为是目标语音数据帧。
7.根据权利要求5所述的音频信号的自动增益控制装置，其特征在于，所述根据确定的各个音频数据帧的增益对各个音频数据帧进行信号幅度的调整包括: 对非语音数据帧和背景语音数据帧不进行放大或进行缩小，所述增益调节器对目标语音数据帧进行自动增益放大。
8.根据权利要求5所述的音频信号的自动增益控制方法，其特征在于，对各语音数据帧进行能量检测以将各语音数据帧区分为背景语音数据帧和目标语音数据帧的操作，根据各帧音频数据的类型确定其对应的增益，其中非语音数据帧和背景语音数据帧的增益小于等于OdB，目标语音数据帧的增益大于OdB的操作；被替换为: 对各音频数据帧进行能量检测以将各音频数据帧区分为低能量音频数据帧和高能量音频数据帧；自动增益控制模块，根据各帧音频数据的类型确定其对应的增益，其中将属于高能量音频数据帧同时又是语音数据帧的音频数据帧的增益设置的大于OdB，将所有其它的音频数据帧的增益设置为小于等于OdB。
【文档编号】G10L21/02GK104200810SQ201410438031
【公开日】2014年12月10日申请日期:2014年8月29日优先权日:2014年8月29日
【发明者】王海业申请人:无锡中星微电子有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王海业
技术所有人：无锡中星微电子有限公司
我是此专利的发明人

上一篇：智能语音拨号的方法及装置制造方法
上一篇：电子乐器、接触检测装置以及接触检测方法