基于支持向量机的不良语音识别方法

文档序号：2833205阅读：240来源：国知局

专利名称：基于支持向量机的不良语音识别方法
技术领域：
本发明属于智能语音处理领域，具体涉及一种基于支持向量机的不良语音识别方法。
背景技术：
不良语音识别是从实时语音流中自动检测出包含有不良语音的片段，其中不良语音是指各种色情语音。随着Web2. 0时代的到来，以及网络内容的发布缺乏有效的监控机制，大量的色情信息出现在互联网上。如何有效抑制色情信息在网络上的传播是一项重要工作。根据政府部门“谁经营谁负责，谁接入谁负责”的原则来过滤不良信息，大量的web2. 0网站都需要面临如何高效地过滤色情信息的问题。从而自动的不良语音和视频识别技术具有广泛应用及产业化前景。不良语音识别技术可以与不良视频检测技术融合来识别不良多媒体信息，是当前从技术角度促进网络环境健康发展的重要技术手段。当前不良图像/视频识别的技术成果较多，但是不良语音识别技术的成果较少，主要有以下几种方法
(I)方法首先从视频文件中提取出音频信息，再通过汉明窗加窗处理后被分成0. 02秒的短时音频处理帧，并对音频处理帧提取MFCC系数等特征。然后利用短时能量将音频处理帧分静音帧和非静音帧，再利用单高斯模型将非静音帧进一步分成音乐、语音、音乐语音混合声和环境声四类，最后再利用隐马尔可夫模型从剩余的语音和音乐语音混合帧中识别出可能包含色情的音频帧。(姬鹏宇，色情视频的音频辅助识别，北京邮电大学，硕士论文，2011)。(2)方法在MFCC系数的基础上提出了一种刻画语音频率不断重复的特征(repeated curve-like spectrum feature),并作为不良语音识别的特征，用SVM分类器来识别不良语音。(JaeDeok Lim et al. , Classification and Detectionof Objectionable Sounds Using Repeated Curve-like Spectrum Feature, 2011International Conference on Information Science and Applications (ICISA),pp. 1-5, 2011)。不良语音识别最为关键的技术是不良语音特征的提取和分类器的选择。由于不良语音识别系统无法预先知道输入的语音信息是在哪种情况下录制的，很多不良语音存在大量的背景声音，比如音乐，因此，不良语音特征提取最为重要的是要对各种噪声鲁棒。 MFCC系数在语音识别领域被广泛使用，但并不是最为有效的语音特征，当前有很多新的更为鲁棒的语音特征被提取出来。在分类器的选择方面，单高斯模型可用于识别不良语音，但是其只能建模单一种类的不良语音，而实际上，不良语音的种类较多。采用支持向量机对不良语音进行识别需要面对计算复杂度较高的困难。而隐马尔可夫模型通过建模相邻语音帧之间的关系来提高识别的准确，而正常语音转换为不良语音的条件概率很难建模实际的概率。

发明内容
本发明的目的主要是针对现有不良语音识别方法鲁棒性不高的问题，而提供一种算法复杂度低、有较好精度的方法，实现对当前网络语音流的不良语音片段的检出。本发明方法步骤如下
步骤(I)获取输入语音流，将语音流解码为原始语音信号，并进行预处理操作，预处理操作主要包括以下步骤
1)如果输入音频是立体声语音信号，则进行单声道处理，即将立体声混合为单声道语
曰；
2)如果输入音频的采样率与方法预先定义的采样率不一致，则进行采样率调整，即将音频原始采样率转换为预先定义的采样率。3)如果输入音频的量化位数与方法预先定义的量化位数不一致，则进行重新量化，即将原来的量化值转换为新的量化值。步骤(2)对预处理后的语音数据进行加窗分帧处理；
步骤(3)对每帧语音提取移位差分倒谱参数特征；
步骤(4)对移位差分倒谱参数特征采用高斯混合模型进行分类；其学习的样本数据包括各种种类的不良语音片段。步骤(5)对分类为不良语音的候选帧进行支持向量机的分类，确认最终的不良语音帧；
步骤(6)根据一定时间内不良语音帧的数量来提取不良语音片段并进行存储。本发明是一种基于支持向量机的不良语音识别方法，同时采用高斯混合模型和支持向量机进行分类。多高斯混合模型可以实现快速的分类，提取出候选不良语音帧，而支持向量机分类器可以提高分类的准确性。高斯混合模型相比于单高斯模型可以有效建模多类不良语音。高斯混合模型分类器需要通过样本学习高斯混合模型参数，而支持向量机分类器需要通过样本学习获得支持向量。最后通过一段时间内不良语音的帧数实现不良语音信息的提取。在样本语音库中进行测试，其检出率达到了 70%以上。

图I为本发明方法流程图。
具体实施例方式以下将参考附图详细介绍本发明的实施例。图I是一个流程框图，表示了本发明不良语音识别方法的流程图。本方法处理的语音信号可以来之于视频流解码的音频信息，也可以是独立的语音流。语音流可以针对多种编码格式，例如wav、MP3等，只要能将该格式音频进行解码即可。同时本方法支持各种采样率、各种量化位、立体声。在本实施例中，分三部分进行介绍，分别为帧特征提取、分类器学习、实时识别三个部分。帧特征提取是分类器学习和实时分类的基础，而实时识别还要在学习好分类器参数的情况下进行检测。预处理是语音识别的前提步骤，其主要使音频的采样率、量化位、声道类型与方法预先定义的保持一致。在本实施例中，预先定义的能处理的语音信号的采样率为16K(HZ)，量化位为16位(bit)，声道类型为单声道(Mono)。因此，针对输入的音频信号，方法首先判断是否为单声道语音。对于立体声，需要通过音频混合方式将多个通道的音频信号合成单通道的音频信号；然后，方法判断语音信号的量化位是否为16位，对高于16位的音频重新压缩到16位，对低于16位的音频重新扩展到16位。最后，对于采样率不一致的音频进行重采样使得到采样率为16K (HZ)的音频信号。通过预处理使检测的音频与训练分类器时的音频在采样率、量化位、通道类型上保持一致，提高检出率。加窗分帧部分是将语音流进行切片处理，每隔固定时间截取语音流中固定长度的音频信号作为音频流中的一帧，后面对提取的每一帧特征提取和分类。为了提高检测率，窗口需要有部分的重叠。本实施例设定每隔2秒截取长度为4秒的音频信号，也就是相邻两
中贞有一半重叠。移位差分倒谱参数提取部分主要是在分帧的基础上对每帧提取移位差分倒谱参数。该特征是在MFCC特征的基础上由多个语音帧的差分倒谱拼接而成 (Torres-CarrasquiIIo P A, et al. Approaches to Language Identification UsingGaussian Mixture Models and Shifted Delta Cepstral Features, In ICSLP-2002， PP.89-92)。该特征的计算过程如下
假设第t帧的N维MFCC特征为
根据以下公式计算t帧第i块的差分
Ac(M) = c(t + !*P+d)-c(t + i * P-d);i e
在本实施例中，采用的N，d，P，k的参数分别为7，1，3，7。从而构成了含有49个参数的特征，同时在加上7维的MFCC特征，一共构建了 56维长度的特征向量。分类器学习部分包括高斯混合模型学习和SVM分类器支持向量的获取。I)高斯混合模型部分
高斯混合模型是多个高斯模型的混合。假设单个高斯模型为
IIf ,
N(x\= —7jj-^.......p￥_ —-_u) S (x-M)}
其中#为均值矢量,2为协方差矩阵；x为观测的特征向量。高斯混合模型即为
其中I为高斯模型的权重。为了使高斯混合模型作为分类器需要根据不良语音样本学习其中的参数J当前主要采用期望最大算法(EM)。期望最大算法的思路是从给
定的一个模型参数』开始，估计出一个新的4。算法使在新的参数下似然度更大。新^再作为当前J进行迭代运算。在该算法开始时需要确定高斯分量的个数，在本实施例中规定高斯分量数M为4。该算法的关键是根据当前汁算新的』，各个参数的更新公式如下假设第i个高斯的后验概率
权利要求
1.基于支持向量机的不良语音识别方法，其特征在于该方法包括以下步骤步骤I:获取输入语音流，将语音流解码为原始语音信号，并进行预处理操作；步骤2 :对预处理后的语音数据进行加窗分帧处理；步骤3 :对每帧语音提取移位差分倒谱参数特征；步骤4 :对移位差分倒谱参数特征采用高斯混合模型进行分类；步骤5 :对分类为不良语音的候选帧采用SVM分类器进行分类，确认最终的不良语音帧；步骤6 :根据一定时间内不良语音帧的数量来提取不良语音片段并进行存储。
2.如权利要求I所述的不良语音识别方法，其特征在于，预处理操作包括单声道处理、采样率调整和重新量化。
3.如权利要求I所述的不良语音识别方法，其特征在于步骤4中的高斯混合模型采用的特征为移位差分倒谱参数。
4.如权利要求I所述的不良语音识别方法，其特征在于步骤5中的SVM分类器采用的特征向量为移位差分倒谱参数。
5.如权利要求I所述的不良语音识别方法，其特征在于步骤6中的不良语音帧的数量在当前检测位置的前若干帧中进行统计。
全文摘要
本发明涉及一种基于支持向量机的不良语音识别方法。本发明首先获取输入语音流，解码为原始语音信号，并进行预处理操作；其次对预处理后的语音数据进行加窗分帧处理；再对每帧语音提取移位差分倒谱参数特征；并对移位差分倒谱参数特征采用高斯混合模型进行分类；然后对分类为不良语音的候选帧采用SVM分类器进行分类，确认最终的不良语音帧；最后根据一定时间内不良语音帧的数量来提取不良语音片段并进行存储。本发明中的多高斯混合模型可以实现快速的分类，提取出候选不良语音帧，而支持向量机分类器可以提高分类的准确性。
文档编号G10L15/14GK102708861SQ20121019737
公开日2012年10月3日申请日期2012年6月15日优先权日2012年6月15日
发明者严俊杰, 傅政军, 周建政, 周渝清, 姚金良, 王小华, 黄金海申请人:天格科技(杭州)有限公司, 杭州电子科技大学, 金华就约我吧网络科技有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：傅政军;姚金良;王小华;黄金海;周建政;周渝清;严俊杰
技术所有人：天格科技（杭州）有限公司;杭州电子科技大学;金华就约我吧网络科技有限公司
我是此专利的发明人