说话人识别方法和系统的制作方法

文档序号:2833600阅读:324来源:国知局
专利名称:说话人识别方法和系统的制作方法
技术领域
本发明涉及生物特征识别领域。特别地,涉及一种说话人识别方法和系统。
背景技术
说话人识别是一种根据语音信号自动识别说话人身份的技术。说话人识别属于生物特征识别技术。生物特征识别技术是利用生物特征自动识别个体身份的技术,包括指纹识别、虹膜识别、基因识别、人脸识别等等。说话人识别利用语音信号进行身份识别,具有人机交互自然、语音信号易于提取、可实现远程识别等优势。说话人识别是一种语音信号处理技术。语音信号处理技术是从语音信号中提取目标信息的技术,包括语音识别、说话人识别、语音语言识别、语音合成等。语音识别是将语音 信号输入转换为文本输出的技术。语音语言识别是利用语音信号识别说话人语言的技术。语音合成是将文本输入转换为语音信号输出的技术。图I显示了说话人识别系统的现有技术的结构框图。系统包括两个阶段训练阶段和识别阶段。在训练阶段,系统使用收集的说话人语音为说话人建立模型。在识别阶段,系统将输入语音与说话人模型进行模式匹配,根据匹配得分作出判决。说话人识别按识别结果输出方式分为说话人辨识和说话人确认。说话人辨识假设输入语音属于系统中的已训练说话人之一,将输入语音与系统中所有说话人的模型进行模式匹配,输出结果为匹配得分最高的说话人。说话人确认则用于确认输入语音是否属于某一特定说话人。系统将输入语音与目标说话人的模型进行模式匹配,如果匹配得分高于预设阈值,则判定输入语音属于该说话人;反之则不属于该说话人。由于说话人确认未假设输入语音属于已训练说话人,其识别难度一般高于说话人辨识。说话人识别按输入语音类型分为与文本有关说话人识别和与文本无关说话人识另IJ。与文本有关说话人识别是指使用已知文本内容的输入语音进行识别,即说话人按规定的文本发音。与文本无关说话人识别则使用随机文本内容的输入语音进行识别,即说话人按自己的表达意愿发音。由于与文本无关说话人识别未限制语音的文本内容,识别过程须消除语音与模型之间文本内容不一致带来的干扰,所以识别难度高于与文本有关说话人识另IJ。与文本有关说话人识别可应用于语音银行服务、语音门禁系统、语音密码系统等;与文本无关说话人识别可应用于电话反恐监控等文本内容未知的场合。说话人识别系统需要从语音信号提取能反映说话人个性的特征,并建立准确的模型区分该说话人与其他说话人之间的差异。在现实应用中语音信号极易受到各种干扰,包括信道干扰、噪声干扰、说话人生理心理变化干扰等。这些干扰因素导致语音波形产生随机变化,影响语音特征的提取和模型参数的训练,进而导致识别的准确度下降。现有系统多对语音信号提取倒谱特征,也有提取基音等特征。倒谱特征平滑了基音谐振,而基音特征提取相对不稳定,因而现有特征尚未充分表达说话人个人特性。现有系统说话人模型有高斯混合模型和支持向量机等,尚未能准确对输入特征进行识别。现有特征和模型尚未能有效应对各种信号干扰。因此需要找到一种能够准确和有效地识别说话人的方法和系统。

发明内容
本发明要解决的技术问题是提供一种说话人识别方法和系统,能够准确和快速地识别说话人。要解决现有技术中特征提取和模型训练不够准确,识别性能易受干扰信号影响等问题。本发明公开了一种说话人识别方法,所述方法包括如下步骤(I)、建立通用背景模型。通用背景模型从包含多个说话人的语音数据库训练得至IJ,代表了所有说话人特征的概率分布,用于准确可靠地估计特定说话人模型;(2)、建立待识别说话人模型。使用说话人的训练语音信号,基于通用背景模型进行自适应运算,得到特定说话人模型;(3)、识别说话人。将输入语音与说话人模型进行匹配运算,如果得分高于预设阈 值,则确认语音属于该说话人;反之则不属于该说话人。进一步,所述建立通用背景模型的步骤,具体包括步骤201、收集包含多个说话人的语音数据库,用于训练通用背景模型;步骤202、将语音数据库中的语音信号转换为倒谱特征;步骤203、使用数据库中所有说话人的倒谱特征计算高斯混合模型和特征变换先验矩阵。高斯混合模型代表了说话人模型空间的先验分布;特征变换先验矩阵代表了特征空间变换矩阵的先验分布;步骤204、使用数据库中每个说话人的倒谱特征,对各说话人计算特定人高斯混合模型的均值矢量和特征变换矩阵,矢量化矩阵并串联为超级矢量。得到的超级矢量集合用于训练支持向量机;步骤205、使用数据库中所有说话人的超级矢量计算干扰因子消除映射的映射矩阵;该映射矩阵用于消除超级矢量中的干扰因子的影响。进一步,所述建立待识别说话人模型的步骤,具体包括步骤301、获取待识别说话人的训练语音信号,用于训练说话人模型;步骤302、将训练语音信号转换为倒谱特征;步骤303、基于通用背景模型中的高斯混合模型和特征变换先验矩阵,使用倒谱特征计算说话人的高斯混合模型的均值矢量和特征变换矩阵,矢量化矩阵并串联为超级矢量;步骤304、基于通用背景模型中的干扰因子消除映射矩阵,对超级矢量进行干扰因子消除映射;步骤305、基于通用背景模型中的超级矢量集合和说话人的超级矢量,计算该说话人的支持向量机模型;进一步,所述识别说话人的步骤,具体包括步骤401、获取输入语音信号,用于判决是否为说话人;步骤402、将输入语音信号转换为倒谱特征;步骤403、基于通用背景模型中的高斯混合模型和特征变换先验矩阵,使用倒谱特征计算该输入语音的高斯混合模型的均值矢量和特征变换矩阵,矢量化矩阵并串联为超级
矢量;
步骤404、基于通用背景模型中的干扰因子消除映射矩阵,对超级矢量进行干扰因子消除映射;步骤405、基于待识别说话人的支持向量机模型,对输入的超级矢量计算支持向量机得分,即计算该超级矢量对该说话人模型的得分;步骤406、对得分进行测试归一化处理,用于进一步消除干扰因子造成的得分偏移;步骤407、如果归一化得分高于预设阈值,则确认为该说话人;反之则否。本发明还提供了一种实施上述方法的说话人识别的系统,其包括取样模块,用于获取训练语音信号和待识别语音信号; 特征提取模块,用于将语音信号转换为倒谱特征;通用背景模型计算模块,用于对训练语音数据库计算通用背景模型,包括高斯混合模型、特征变换先验矩阵、超级矢量集合、干扰因子消除映射矩阵;说话人模型计算模块,用于对说话人的训练语音信号计算该说话人的支持向量机模型;说话人识别模块,用于将输入语音与说话人模型进行对比,输出得分若高于预设阈值,则确认为该说话人。与现有技术相比,本发明具有以下优点本发明提出一种结合模型空间变换和特征空间变换的高性能说话人识别系统,这两个空间的变换综合反映了说话人发音的个体特征。两个空间的变换均基于通用背景模型使用自适应算法计算得到,具有很好的稳定性。相比于现有技术中往往单独采用模型空间变换进行说话人识别,大大提高系统的识别率,同时系统更加稳定,不易模仿。


图I是说话人识别系统的现有技术的结构框图;图2是本发明中建立通用背景模型实施例的步骤流程图;图3是建立待识别说话人模型实施例的步骤流程图;图4是识别说话人实施例的步骤流程图;图5是本发明一种说话人识别系统实施例的结构框图。
具体实施例方式为使本发明的上述功能、流程和优点更加明显易懂,下面对本发明涉及到的相关技术逐一详细介绍。参照图2,显示了本发明建立通用背景模型实施例,该实施例具体包括以下步骤步骤201、收集包含大量(例如1000人或10000人)说话人的语音数据库;步骤202、将语音数据库中的语音信号转换为倒谱特征;步骤203、使用数据库中所有说话人的倒谱特征计算高斯混合模型和特征变换先验矩阵;步骤204、对数据库中各说话人计算特定人高斯混合模型的均值矢量和特征变换矩阵,矢量化矩阵并串联为超级矢量;综合所有说话人的超级矢量得到超级矢量集合;
步骤205、使用数据库中所有说话人的超级矢量计算干扰因子消除映射的映射矩阵。对输入语音信号首先要进行特征提取。特征提取是模式识别中的一个重要步骤,其目的是将输入信号转化为特征参数,然后识别器对特征参数进行识别。特征参数的优劣对识别性能有很大的影响。特征提取有两个原则对同类信号,特征参数之间的距离尽量小;对异类参数,特征参数之间的距离尽量大。对语音信号,将人的听觉系统中信号处理的实验结果用于特征提取会有效的提高识别性能,比如MFCC (Mel Frequency CepstrumCoefficient, Mel谱倒谱系数)。在识别系统中,增加一些辅助的特征参数能有效地提高识别性能。在说话人识别中,辅助参数有对数能量,动态特征等。在MFCC提取中,首先语音信号采样点序列被分帧处理,每帧信号作为该时刻的短时稳定信号。帧长为足够长保证频谱精细度与足够短保证短时平稳性之间的折衷;为增加帧之间的连续性,帧与帧一般部分重叠,即帧移小于帧长。比如对采样率为16kHz的语音信号,帧长可取25毫秒,帧移可取10毫秒。人的外耳和中耳道的传输函数在高频带幅值比低 频带高。为了模拟该特征,一般将语音信号通过一个高通滤波器,对语音信号的高频带频谱进行预加重。高通滤波器的冲激响应为H(z)=l-Kz'其中,0 彡 K 彡 I。为了减少帧信号频谱泄漏的影响,每帧信号被乘以汉明窗ff(n) =0. 54+0. 46cos [2 Ji n/ (N-I)],其中 N 为窗长。语音信号的频谱可以通过FFT (Fast Fourier Transform,快速傅立叶变换)计算得到。Mel频率用以模拟耳蜗的频率响应。语音频谱的幅度或能量通过Mel域滤波器组得到Mel域滤波器组幅度或能量。Mel频率与线性频率的对应关系为Mel (f) =25951og10(lf/700)滤波器组为在Mel域上均匀分布的一组三角形滤波器。人耳听觉神经的传输函数为类似对数函数的曲线。对应该特征,对Mel域滤波器组幅度或能量取对数得到对数Mel域滤波器组幅度或能量。在信号上对数Mel域滤波器组幅度或能量也是对Mel域滤波器组幅度或能量的平滑,后者具有相当大的动态范围。最后对数滤波器组幅度或能量通过DCT (Discrete Cosine Transform,离散余弦变换)得到倒谱系数,即MFCC。DCT变换也使得MFCC各分量之间的独立性更强,更适合于高斯混合模型的对角阵协方差矩阵。为了增强特征参数的表达能力,识别系统还加入对数能量和动态特征。对数能量为一帧语音信号的能量的对数值E = logX-v;,其中,Sn为信号采样点,N为帧长。
n-\取对数是为了减少参数的动态范围。使用动态特征能较大地提高识别系统的性能。动态特征反映了连续帧之间的相关性,取巾贞间倒谱参数的一阶差分和二阶差分。根据MMSE(Minimum Mean Square Error,最小均方差准则),t帧差分的计算公式为
权利要求
1.一种说话人识别方法,其特征在于包括如下步骤 (1)、建立通用背景模型; (2)建立待识别说话人模型; (3)识别说话人将输入语音与待识别说话人模型进行匹配运算,如果得分高于预设阈值,则确认语音属于该说话人;反之则不属于该说话人。
2.根据权利要求I所述的说话人识别方法,其特征在于所述的建立通用背景模型的步骤,具体包括 步骤201、收集包含多个说话人的语音数据库; 步骤202、将语音数据库中的语音信号转换为倒谱特征; 步骤203、使用数据库中所有说话人的倒谱特征计算高斯混合模型和特征变换先验矩阵; 步骤204、使用数据库中每个说话人的倒谱特征,对数据库中各说话人计算特定人高斯混合模型的均值矢量和特征变换矩阵,矢量化矩阵并串联为超级矢量;综合所有说话人的超级矢量得到超级矢量集合; 步骤205、使用数据库中所有说话人的超级矢量计算干扰因子消除映射的映射矩阵。
3.根据权利要求2所述的说话人识别方法,其特征在于所述建立待识别说话人模型的步骤,具体包括 步骤301、获取待识别说话人的训练语音信号; 步骤302、将训练语音信号转换为倒谱特征; 步骤303、基于通用背景模型中的高斯混合模型和特征变换先验矩阵,使用倒谱特征计算说话人的高斯混合模型的均值矢量和特征变换矩阵,矢量化矩阵并串联为超级矢量;步骤304、基于通用背景模型中的干扰因子消除映射矩阵,对超级矢量进行干扰因子消除映射; 步骤305、基于通用背景模型中的超级矢量集合和说话人的超级矢量,计算该说话人的支持向量机模型。
4.根据权利要求3所述的说话人识别方法,其特征在于所述识别说话人的步骤,具体包括 步骤401、获取输入语音信号,用于判决是否为说话人; 步骤402、将输入语音信号转换为倒谱特征; 步骤403、基于通用背景模型中的高斯混合模型和特征变换先验矩阵,使用倒谱特征计算该输入语音的高斯混合模型的均值矢量和特征变换矩阵,矢量化矩阵并串联为超级矢量; 步骤404、基于通用背景模型中的干扰因子消除映射矩阵,对超级矢量进行干扰因子消除映射; 步骤405、基于待识别说话人的支持向量机模型,对输入的超级矢量计算支持向量机得分,即计算该超级矢量对该说话人模型的得分; 步骤406、使用一组参考说话人模型,对得分进行测试归一化处理,以进一步消除干扰因子造成的得分偏移; 步骤407、如果归一化得分高于预设阈值,则确认为该说话人;反之,则否。
5.一种应用权利要求I所述方法的说话人识别的系统,其特征在于包括 取样模块,用于获取训练语音信号和待识别语音信号; 特征提取模块,用于将语音信号转换为倒谱特征; 通用背景模型计算模块,用于对训练语音数据库计算通用背景模型; 说话人模型计算模块,用于对说话人的训练语音信号计算该说话人的支持向量机模型; 说话人识别模块,用于将输入语音与说话人模型进行对比,输出得分若高于预设阈值,则确认为该说话人。
全文摘要
本发明公开了一种说话人识别方法,所述方法通过建立通用背景模型、建立待识别说话人模型、使用说话人的训练语音信号、识别说话人,与现有技术相比,本发明具有以下优点本发明提出一种结合模型空间变换和特征空间变换的高性能说话人识别系统,这两个空间的变换综合反映了说话人发音的个体特征。两个空间的变换均基于通用背景模型使用自适应算法计算得到,具有很好的稳定性。相比于现有技术中往往单独采用模型空间变换进行说话人识别,大大提高系统的识别率,同时系统更加稳定,不易模仿。
文档编号G10L17/04GK102968990SQ20121045864
公开日2013年3月13日 申请日期2012年11月15日 优先权日2012年11月15日
发明者朱东来, 鄂小松 申请人:江苏嘉利德电子科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1