短时特定音频检测模型生成与检测方法

文档序号：9275423阅读：485来源：国知局

短时特定音频检测模型生成与检测方法
【技术领域】
[0001] 本发明涉及短时特定音频检测的方法，更具体地说，本发明涉及利用混合高斯模型进行短时特定音频的检测。
【背景技术】
[0002] 在许多领域，短时特定音频都有着重要的作用，尤其在安全领域，在一些特定的情况下，我们需要检测出某一类的短时特定音频以方便我们对于一些紧急的事件进行及时的处理。例如，在公共场合，我们需要监管公共安全以及检测意外事故的发生，像突然的尖叫声、意外的爆炸声或者枪击声，我们必须及时检测到这些短时特定音频以方便及时处理这些意外情况。除此之外，在一些相对重要的场所，短时特定音频的的检测还可以用于异常声音检测，可以很好的起着预警的作用。
[0003] 目前短时特定音频检测方法遇到的问题还是很多的，第一，因为短时特定音频发生很快而且事件的发生时间很短暂，所以如何利用短时音频中的信息很重要；第二，短时特定音频发生的频率不是很高，所以不得不面对训练数据不充足的问题；第三，由于使用的场景经常有复杂的背景噪声，所以很好地抑制背景噪声也成为短时特定音频检测也是一个重要的问题。

【发明内容】

[0004] 本发明的目的在于克服已有的短时特定音频检测方法所存在的训练数据不足、无法抑制背景噪声的缺陷，从而提供一种基于混合高斯模型的短时特定音频模型生成与检测方法。
[0005] 本发明还提供了一种短时特定音频检测模型生成方法，包括：
[0006] 步骤101、对训练语音数据进行特征提取；其中，所述训练语音数据包括非特定音频数据与特定音频数据；
[0007] 步骤102、用步骤101所得到的训练语音数据的特征，进行通用背景模型的训练；其中，所述通用背景模型为混合高斯模型，其表达式为：
[0008]
[0009] wi表示的是每个高斯的权重，取值范围在0~1，且满足归一化条件：2>'_ = 1 x I ? 表示训练语音片段的帧特征；A表示高斯混合模型中所有参数的集合；Pi (x)表示每个单高斯模型的概率密度函数，其表达式为：
[0010]
[0011] D表示的是训练语音片段的帧特征的维度；表示的是该高斯函数的协方差矩阵；y i表示的是该高斯函数的均值向量；
[0012] 步骤103、由训练语音数据中某一类特定音频数据的特征，根据步骤102所得到的通用背景模型中自适应地得到该类特定音频数据的模型；重复这一操作，直至得到训练语音数据中所有类特定音频数据的模型。
[0013] 上述技术方案中，在步骤101中，对训练语音数据所提取的特征为梅尔倒谱系数。
[0014] 上述技术方案中，在步骤102中，进行通用背景模型的训练包括利用期望最大化的方法对通用背景模型进行参数估计，所要估计的参数包括三类：高斯权重《、高斯方差S 以及高斯均值U，其中w是每个高斯权重^的集合，S是每个高斯方差S ,的集合，y是每个高斯均值^的集合，i表示每个单高斯模型的编号；具体包括：
[0015] 步骤102-1、对第k个高斯权重wk的更新：
[0016] 第k个高斯权重wk更新过程如下列公式所示：
[0017]
[0018] 其中，xt表示输入的训练语音x中的第t帧特征向量，是在特征提取过程计算出来的已知的向量；A是对高斯混合模型中所有参数的总称，这些都会在训练的开始阶段的初始化中给出初始值，是已知的参数；T表示的是所有输入的训练语音的总帧数，是可以计算出来已知数值；k表示的是高斯混合模型中第k个单高斯模型编号；p (k | xt，A )表示的是输入的训练语音帧xt在通用背景模型第k个高斯上面的后验概率，由输入帧x t和混合高斯模型参数A计算所得的；
[0019] 步骤102-2、对第k个高斯均值y k的更新：
[0020] 第k个高斯均值y k更新过程如下列公式所示：
[0021]
[0022] 其中，T、xt和入都是已知的变量，而p(k|xt，入）是由输入帧\和混合高斯模型参数A计算所得的；
[0023] 步骤102-3、对第k个高斯方差&的更新：
[0024] 第k个高斯均值#更新过程如下列公式所示：
[0025]
[0026] 其中，T、xt、入和yk都是已知的变量，而p(k|x t，入）是由输入帧xt和混合高斯模型参数X计算所得的。
[0027] 上述技术方案中，在步骤103中，根据步骤102所得到的通用背景模型中自适应地得到一类特定音频数据的模型包括：
[0028] 步骤103-1、首先根据训练的特定音频的特征向量计算每个语音帧在通用背景模型上的后验概率叫、一阶统计量Ei(x)以及二阶统计量￡^12);具体计算过程如下列公式所示：
[0032] 其中，Pr(i|xt)表示输入音频x第t帧在通用背景模型第i个高斯的后验概率；xt 表示输入音频x第t帧数据的特征；T表示的是输入音频的总帧数；i表示的是通用背景模型中第i个单高斯的编号；
[0033] 步骤103-2、利用步骤103-1计算得到的后验概率、一阶统计量以及二阶统计量，对通用背景模型的参数做自适应调整，得到特定音频模型的权重化、均值以及协方差武:；自适应调整的公式如下：
[0037] 其中，和分别是方差、均值、权重调整系数；T表示的是该类特定音频训练数据总帧数，y表示归一化参数，保证=1 ' &表示的是通用背景模型中的第i个高斯模型的权重；y i表示的是通用背景模型中第i个高斯模型的均值；^表示通用背景模型中第i个高斯的协方差，Ui表示的是通用背景模型中第i个高斯的均值，A表示的是自适应得到的该特定音频模型的第i个高斯的均值。
[0038] 本发明又提供了一种短时特定音频检测方法，包括：
[0039] 步骤201、对所输入的测试语音做特征提取；
[0040] 步骤202、将步骤201提取的测试语音特征输入到所述的短时特定音频检测模型生成方法所得到的通用背景模型当中，计算测试语音在通用背景模型上面的得分；
[0041] 步骤203、将步骤201提取的测试语音特征输入所述的短时特定音频检测模型生成方法所得到的各类特定音频的混合高斯模型，计算测试语音在每一类特定音频的混合高斯模型上面的得分；
[0042] 步骤204、对步骤202所得到的测试语音在通用背景模型的得分与步骤203得到的测试语音在各类特定音频的混合高斯模型上面的得分分别求差值，将差值与阈值进行比较，从而判决这个测试音频属于哪一类特定音频，如果有多个模型得分都在阈值范围内，则采用取最大值的方法来判决，选择分数最大模型所表征的特定音频作为测试语音最终判决结果。
[0043] 上述技术方案中，在步骤202中，计算测试语音在通用背景模型上面的得分包括：选取通用背景模型中后验概率最大的N个高斯，并计算这N个概率之和，同时标记这N个高斯序列号。
[0044] 上述技术方案中，在步骤203中，计算测试语音在每一类特定音频的混合高斯模型上面的得分包括：通过步骤202记录的通用背景模型的N个高斯序列，对应地计算特定音频的混合高斯模型中这N个高斯的后验概率之和，将该值作为测试语音在各类特定音频的混合高斯模型上面的得分。
[0045] 上述技术方案中，在步骤201中，对测试语音所提取的特征为梅尔倒谱系数。
[0046] 本发明的优点在于：
[0047] 本发明的方法不仅可以很好地克服短时特定音频模型训练数据不充足的问题，还可以一定程度上很好地抑制背景噪声。
【附图说明】
[0048] 图1是短时特定音频检测模型生成方法中关于通用背景模型的训练基本原理框图；
[0049] 图2是短时特定音频检测模型生成方法中关于特定音频模型的训练基本原理框图；
[0050] 图3是短时特定音频检测方

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：云晓春;颜永红;袁庆升;黄宇飞;任彦;周若华;黄文廷;邹学强;包秀国;
技术所有人：国家计算机网络与信息安全管理中心;中国科学院声学研究所;
我是此专利的发明人

上一篇：一种语音指令的执行方法及语音识别设备的制造方法
上一篇：一种腭裂语音喉塞音自动识别算法及装置的制造方法