一种具有自定义功能的音频检测分类方法

文档序号：2827284阅读：283来源：国知局

一种具有自定义功能的音频检测分类方法
【专利摘要】一种具有自定义功能的音频检测分类方法，对音频数据进行音频激活检测，通过将部分原始训练集首先按照类型分为若干类训练集，针对每类训练集进行特征提取，并训练与其对应的高斯混合模型及其参数，得到一个全局高斯混合模型；进一步将其他训练集作为新的训练样本，对全局高斯混合模型进行参数更新得到一个局部模型；最后对测试集提取特征，输入局部模型分类器，并对结果进行平滑和输出，本发明通过全局及局部高斯混合模型的训练，可以使高斯混合模型的类别和参数随着样本的增加而更新，与分类器的结合进一步提高了系统性能，最终实现音频检测分类，可广泛应用于涉及音频检测分类的说话人识别、语音识别、人机交互等多种机器学习领域。
【专利说明】一种具有自定义功能的音频检测分类方法
【技术领域】
[0001]本发明属于音频处理【技术领域】，特别涉及一种具有自定义功能的音频检测分类方法。
【背景技术】
[0002]在音频识别和说话人识别等系统中，音频激活检测(Voice activity detection,VAD)技术被广泛应用，主要用于排除连续音频信号中与说话人无关的静音和噪声信号，确定音频段的起点以及终点位置，提高语音识别和说话人识别系统的性能。有效而准确的音频激活检测，通过去除噪声段或是无声段的信号，减少系统的数据处理量及对后续音频分析处理的干扰，可以达到提高系统识别性能的目的。对音频激活检测算法的研究已经进行了多年，传统的音频激活检测方法基本上针对安静环境下获得的音频信号进行处理，如基于短时平均能量的方法、基于短时平均过零率的算法和基于倒谱特征的方法。
[0003]基于短时平均能量的激活检测算法根据清音能量与浊音能量的差别，利用短时平均能量特征来区分安静环境下的静音段及音频段的清浊音。三者按短时能量顺序排列依次为:浊音〉清音〉静音，据此可来区分安静环境下的静音段和音频段及音频段信号的清音与浊音。
[0004]双门限音频信号的激活检测算法是基于短时平均过零率与短时平均能量相结合的音频激活检测算法，它结合了两种音频信号的特征参数。这种方法首先使用短时平均能量来区分音频段\非音频段，进一步用过零率再次区分音频段\非音频段。相比较于基于短时平均能量的激活检测算法，能够更好的避免以清辅音开头的音频信号被误判成非音频段。
[0005]在噪声环境下，短时能量与其它特征参数都不能很好地区分音频段与非音频段。倒谱能很好表示音频的特征，因此在大多数音频识别系统中选择倒谱系数作为输入特征矢量，因此将倒谱系数作为端点检测的参数。基于倒谱特征的激活检测算法将音频信号在频域上分为高、低频带两个信号，频带间可重叠，将得到的两个信号进行预处理后就提取线性预测编码(linear predictive coding,LPC)倒谱参数,进一步用美尔尺度进行非线性变换得到LPC美尔倒谱系数。随后用倒谱距离法，将倒谱距离代替短时能量作为门限。首先假定前几帧音频信号为背景噪声，计算这些帧的倒谱系数矢量，利用前几帧倒谱矢量的平均值可估计背景噪声的倒谱矢量并不断更新，计算所有测试帧与背景噪声之间的倒谱距离可得到倒谱距离轨迹，利用倒谱距离轨迹可实现激活检测。
[0006]隐马尔柯夫模型(Hidden Markov Model,HMM)也可以像倒谱系数那样作为音频特征的统计模型。在HMM音频检测器中，一个为词作标记的连续HMM和一个为背景噪声作标记的连续HMM被训练来分别表示一般音频与噪声的特征，训练采用基于Baum-Welch算法的倒谱向量来进行。HMM与一个语法模型相连接，在端点检测阶段对带噪音频进行预处理以得到输入特征矢量，每一矢量由倒谱系数，倒谱系数的增量或时间导数以及当前帧的短时能量增量等组成，然后引入维特比解码，按照模型参数与输入音频特征流得到与正发生的音频非常相似的音频，维特比解码器给出音频的端点，这种方法的基本系统结构与通常的音频识别器相同。
[0007]基于子带能量特征的音频激活检测算法借鉴了图像处理领域中使用的边缘检测方法。边缘检测是一个在图像处理领域中的经典问题，其中较为常用的方法是根据某种优化的准则推导出的线性滤波器，例如指数滤波器、高斯函数一阶差分滤波器等。子带选取主要目标是去除噪声信号能量比较集中的部分，同时尽量保留音频信号的绝大部分能量，据此将音频信号分为高、低频两个子带进行音频段\非音频段的判决。在得到两个子带的起点和结束点后，需要进行子带的融合即综合的判决。最终的音频段起点选取两个子带的起点中靠前的点，终点选取两个子带中比较靠后的结束点作为最终的结束点。
[0008]基于熵函数的判决方法设语音信号s (η)的帧长为N，在一帧语音中最大和最小的
幅度分别为M和-M,则这一帧的熵定义为
【权利要求】
1.一种具有自定义功能的音频检测分类方法，其特征在于，包括以下步骤: 第一步，不同类别训练样本的特征提取训练样本包括不同类别的音频信号，对这些训练样本提取声学特征作为说话人识别的训练特征；第二步，训练全局高斯混合模型参数在完成对训练样本的特征提取后，对第一类训练样本进行高斯混合模型参数训练，输出第一类训练样本对应的高斯混合模型参数；以此类推，对第m类训练样本进行高斯混合模型参数训练，输出第m类训练样本对应的高斯混合模型参数；第三步，训练局部高斯混合模型参数假设在第二步骤得到一系列高斯混合模型参数，当获得新的训练样本，则对全局高斯混合模型进行更新得到局部高斯混合模型参数，将新的训练样本结合全局高斯混合模型进一步训练高斯混合模型参数得到局部高斯混合模型；第四步，测试分类器在第三步得到了局部高斯混合模型参数后，构造基于局部高斯混合模型的贝叶斯分类器
2.根据权利要求1所述的具有自定义功能的音频检测分类方法，其特征在于，所述第一步中的声学特征包括人说话声、背景噪声、关门声以及闹市噪声。
3.根据权利要求1所述的具有自定义功能的音频检测分类方法，其特征在于，所述第三步中局部高斯混合模型训练包括两种情况:一种是新的训练样本属于已有音频类型，则将其加入到已有的训练样本中，更新高斯混合模型参数；另一种是新的训练样本不属于已有音频类型，需要增加高斯混合模型的类别并更新高斯混合模型参数；在第一种情况中，假设已知某类高斯混合模型参数为H j, μ j, Sj, j=l, 2，...，g，其中^表示高斯混合模型的混合比例，μ对应每一个高斯分布的均值向量，Σ对应每一个高斯分布的协方差矩阵，g是混合模型的个数，其训练的样本为Χι，χ2), χΝ，新的训练样本为…片，重新估计高斯混合模型的参数η ' j, μ /」，Σ ' j, j=l, 2，...，g如下:
【文档编号】G10L15/20GK103824557SQ201410055255
【公开日】2014年5月28日申请日期:2014年2月19日优先权日:2014年2月19日
【发明者】杨毅, 刘加申请人:清华大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杨毅;刘加
技术所有人：清华大学
我是此专利的发明人