基于svm和hmm混合模型的男女说话声音分类方法

文档序号:2825555阅读:1173来源:国知局
基于svm和hmm混合模型的男女说话声音分类方法
【专利摘要】本发明公开了基于SVM和HMM混合模型的男女说话声音分类方法,属于语音音频处理领域。该方法使用SVM和HMM混合模型对男女说话声音进行分类,具体步骤如下:输入不同性别说话人语音信号,提取说话人语音信号中的基因频率,获取不同基因频率的MFCC特征,利用机器学习的SVM和HMM算法训练出男女不同基因频率的混合分类模型,最终达到区分说话人性别的目的。利用本方法,用户可以方便地得到某一段语音音频中的说话人性别,帮助用户获取语音音频的性别特征,从而为进一步的语音音频处理提供帮助。
【专利说明】基于SVM和H圖混合模型的男女说话声音分类方法
【技术领域】
[0001]本方法属于语音音频处理【技术领域】,具体涉及一种基于SVM和HMM混合模型的男女说话声音分类方法。
【背景技术】
[0002]近年来,机器识别人的性别成为了一项研究热点,采用的方法很多,比如人脸、语音等。基于人脸的性别识别有一个缺陷:当光照条件不充分的时候,该方法的识别率会明显降低。
[0003]而语音是人类最自然、有效的交流方法。语音性别识别涉及的领域广泛主要包括:信号处理、人工智能、模式识别、声学、语言学、电子技术、通讯理论、神经生理学和神经心理学等众多学科。如何让机器识别人的性别,从而做出更加智能的反应,成为下一代计算机研究的目标。
[0004]目前已有的语音性别识别方法很多,比较突出的有:基于隐马尔科夫模型(HMM)的性别识别方法和基于支持向量机(SVM)的性别识别方法。HMM和SVM侧重点不同,HMM处理连续信号更优,但类别区分能力较弱;SVM更适合分类,但具有只适合少量样本和训练时间长等缺点。

【发明内容】

[0005]本发明克服了现有技术的不足,提供一种基于SVM和HMM混合模型的男女说话声音分类方法,使用机器通过学习以达到区分说话人性别的目的。
[0006]考虑到现有技术的上述问题,根据本发明的一个方面,为解决上述的技术问题,本发明采用以下技术方案:
[0007]—种基于SVM和HMM混合模型的男女说话声音分类方法,包括:
[0008]训练阶段,所述训练阶段通过收集基因频率样本,提取样本特征参数,并将样本特征参数输入SVM训练,通过所述SVM训练得到有男女之分的特征矢量,并将该特征矢量以概率序列的方式输出,再将所述概率序列作为HMM的训练数据,通过HMM的训练得到至少得到两个HMM的参数;
[0009]识别阶段,所述识别阶段是指将待测语音文件输入到SVM的分类器中,以得到一个特征序列,将得到的特征序列分别输入至少得到两个HMM参数中算出概率,把最大概率值对应的模型作为识别结果。
[0010]为了更好地实现本发明,进一步的技术方案是:
[0011]根据本发明的一个实施例,所述样本特征参数包括MFCC。
[0012]根据本发明的一个实施例,,对所述MFCC进行了 二次特征提取获得它的加权特征和/或一阶/多阶微分特征。
[0013]根据本发明的一个实施例,还包括平均基因频率。
[0014]根据本发明的一个实施例,所述二次特征提取获得它的加权特征所使用到的加权系数采用如下升半正弦函数公式:
[0015]
【权利要求】
1.一种基于SVM和HMM混合模型的男女说话声音分类方法,其特征在于,包括: 训练阶段,所述训练阶段通过收集基因频率样本,提取样本特征参数,并将样本特征参数输入SVM训练,通过所述SVM训练得到有男女之分的特征矢量,并将该特征矢量以概率序列的方式输出,再将所述概率序列作为HMM的训练数据,通过HMM的训练得到至少得到两个HMM的参数; 识别阶段,所述识别阶段是指将待测语音文件输入到SVM的分类器中,以得到一个特征序列,将得到的特征序列分别输入至少得到两个HMM参数中算出概率,把最大概率值对应的模型作为识别结果。
2.根据权利要求1所述的基于SVM和HMM混合模型的男女说话声音分类方法,其特征在于,所述样本特征参数包括MFCC。
3.根据权利要求2所述的基于SVM和HMM混合模型的男女说话声音分类方法,其特征在于,对所述MFCC进行了二次特征提取获得它的加权特征和/或一阶/多阶微分特征。
4.根据权利要求3所述的基于SVM和HMM混合模型的男女说话声音分类方法,其特征在于,还包括平均基因频率。
5.根据权利要求4所述的基于SVM和HMM混合模型的男女说话声音分类方法,其特征在于,所述二次特征提取获得它的加权特征所使用到的加权系数采用如下升半正弦函数公式获得:
6.根据权利要求4所述的基于SVM和HMM混合模型的男女说话声音分类方法,其特征在于,所述二次特征提取获得它的一阶微分特征的方法是: 特征向量的一阶微分如下;
Featrue_d (j) J=Featrue (j) j-Featrue (j-1) i 其中i=0,l,...P ;J=1,2...,N,P为特征阶数,N为特征向量个数;Feature是原始的特征向量,Featured为原始特征向量的一阶微分; 在一阶微分基础之上,再进行一次微分,就可以得到特征向量的二阶微分;用公式表示为;
Featrue_d (j) i=Featrue_d (j)「Featrue—d (j-1) i 其中i=0,l,…P.J=l,2...,N,P为特征阶数,N为特征向量个数。
7.根据权利要求2-6任意一项所述的基于SVM和HMM混合模型的男女说话声音分类方法,其特征在于,构造I个SVM分类器,把男性的训练样本标记为+1,女性的训练样本标记为-1,然后考虑到SVM的输出是距离符号+1或者-1,+1表示属于一类,-1表示属于另一类。
8.根据权利要求7所述的基于SVM和HMM混合模型的男女说话声音分类方法,其特征在于,通过sigmoid函数把SVM的输出转换为概率序列。
9.根据权利要求8所述的基于SVM和HMM混合模型的男女说话声音分类方法,其特征在于,用HMM中的Baum-Welch算法估计参数,以完成了 HMMl的训练并相应得到HMMl的参数,按照得到HMMl参数的方法,以此类推得到HMM2的参数。
10.根据权利要求9所述的基于SVM和HMM混合模型的男女说话声音分类方法,其特征在于,将所述识别阶段的特征序列分别输入到HMMl和HMM2中,利用HMM模型中的Viterbi计算出概 率。
【文档编号】G10L17/14GK103871413SQ201210541542
【公开日】2014年6月18日 申请日期:2012年12月13日 优先权日:2012年12月13日
【发明者】王雷 申请人:上海八方视界网络科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1