声纹模型自动重建的方法和装置的制造方法

文档序号:8300070阅读:352来源:国知局
声纹模型自动重建的方法和装置的制造方法
【技术领域】
[0001]本申请涉及计算机及信息服务技术领域,特别是涉及一种声纹模型自动重建的方法和装置。
【背景技术】
[0002]说话人识别技术,又称为声纹识别技术,主要是基于语音中说话人包含的个性特征的信息,利用计算机以及各种信息识别技术,自动地实现说话人身份的确认。
[0003]近几年来,随着互联网的飞速发展,语音作为一种非接触性信息载体,人们可以依靠各种移动终端设备,例如:手机、麦克风和IP电话等,随时随地的完成语音采集,并通过网络传输和后台服务器来实现人机交互和说话人身份识别。
[0004]目前说话人识别最为主流的技术路线是GMM-UBM框架或者全变量子空间的1-vector模型。对于GMM-UBM框架米用混合高斯模型(Gaussian Mixture Model,GMM)模拟每个说话人模型及单独的通用背景模型(Universal Background Model,UBM),每个说话人的数十秒语音借助充分语音训练得到的通用背景模型(UBM),通过模型自适应的方法得到能够反映说话人自身特征的高斯混合模型(GMM),并使用GMM-UBM进行说话人身份确定。而对于1-vector模型则是预先通过最大期望EM算法迭代求得一个线性变换矩阵T,语音片段借助该线性变换矩阵训练得到对应的1-vector模型,并使用该1-vector模型进行说话人身份确定。
[0005]上述框架在进行说话人身份确定时存在以下问题:首先,从生理学角度看,说话人的生理特性和发音特性是随时间不断发生变化的。例如,声道长度的变化,基音频率的变化等。这种变化分为短期变化(一天内不同时段的变化)、中期变化(一年内的变化)、长期变化(年龄段的变化),由于时间变化的不确定性,无法得到一个稳定且鲁棒的说话人模型,从而在进行说话人身份确定时,存在说话人识别正确率低的问题,同时,如果持续性的让用户提供大量的建模语音必然会大大影响用户的使用体验。
[0006]其次,录音的通讯设备或者移动终端,由于长时间的使用也会出现设备老化、信号不稳等情况,在一定程度上影响到录音准确性和保真度。

【发明内容】

[0007]本申请提供一种声纹模型自动重建的方法和装置,以解决由于时间变化导致说话人模型波动,进而导致话说人识别正确率低的问题。
[0008]为了解决上述问题,本申请公开了一种声纹模型自动重建的方法,包括:
[0009]将语音数据以时间点为标签构建时变数据库,其中,所述时变数据库包括:参数化的语音数据、语音数据对应的音素和语音数据对应的音素的空间分布信息;
[0010]以时间窗管道为基本单元,按照语音数据的时间顺序获取时变数据库中参数化的语音数据,其中,所述时间窗管道包括多组语音数据;
[0011]确定获取的参数化的语音数据对应的音素的空间分布信息,根据确定的所述音素的空间分布信息筛选时间窗管道中的语音数据,获得筛选后的多组语音数据;
[0012]使用筛选后的多组语音数据更新时间窗管道中的语音数据;
[0013]使用更新后的时间窗管道中的语音数据建立时间窗管道的声纹模型。
[0014]优选地,将语音数据以时间点为标签构建时变数据库的步骤包括:
[0015]使用美尔频域倒谱系数将所述语音数据以语音数据帧为基本单位进行参数化处理,获取参数化的语音数据;
[0016]使用语音识别器识别语音数据,获得语音数据对应的音素;
[0017]根据参数化的语音数据和语音数据对应的音素构建时变数据库。
[0018]优选地,根据确定的所述音素的空间分布的信息筛选时间窗管道中的语音数据,获得筛选后的多组语音数据的步骤包括:
[0019]当新的参数化的语音数据进入时间窗管道中时,将新的参数化的语音数据的音素空间分布信息分别与时间窗管道中的原语音数据对应的音素的空间分布信息进行匹配,将匹配概率最高的时间窗管道中的原语音数据更新为新的参数化的语音数据;
[0020]根据更新结果获得筛选后的多组语音数据。
[0021]优选地,还包括:当时间窗管道中的语音数据更新频率超过一定阈值时,采用模型自适应的方式创建声纹模型。
[0022]优选地,所述时间窗管道中可容纳的语音数据的数据量为10至20段语音数据,各段语音数据可以是文本相关或文本无关。
[0023]为了解决上述问题,本申请还公开了一种声纹模型自动重建的装置,包括:
[0024]构建模块,用于将语音数据以时间点为标签构建时变数据库,其中,所述时变数据库包括:参数化的语音数据、语音数据对应的音素和语音数据对应的音素的空间分布信息;
[0025]获取模块,用于以时间窗管道为基本单元,按照语音数据的时间顺序获取时变数据库中参数化的语音数据,其中,所述时间窗管道包括多组语音数据;
[0026]确定模块,用于确定获取的参数化的语音数据对应的音素的空间分布信息,根据确定的所述音素的空间分布的信息筛选时间窗管道中的语音数据,获得筛选后的多组语音数据;
[0027]筛选模型,用于使用筛选后的多组语音数据更新时间窗管道中的语音数据;
[0028]建立模块,用于使用更新后的时间窗管道中的语音数据建立时间窗管道的声纹模型。
[0029]优选地,构建模块在将语音数据以时间点为标签构建时变数据库包括:
[0030]使用美尔频域倒谱系数将所述语音数据按照语音数据帧进行参数化处理,获取参数化的语音数据;
[0031]使用语音识别器识别语音数据,获得语音数据对应的音素;
[0032]根据参数化的语音数据和语音数据对应的音素构建时变数据库。
[0033]优选地,确定模块在根据确定的所述音素的空间分布的信息筛选时间窗管道中的语音数据,获得筛选后的多组语音数据包括:
[0034]当新的参数化的语音数据进入时间窗管道中时,将新的参数化的语音数据的音素空间分布信息分别与时间窗管道中的原语音数据对应的音素的空间分布信息进行匹配,将匹配概率最高的时间窗管道中的原语音数据更新为新的参数化的语音数据;
[0035]根据更新结果获得筛选后的多组语音数据。
[0036]优选地,还包括:当时间窗管道中的语音数据更新频率超过一定阈值时,采用模型自适应的方式创建声纹模型。
[0037]优选地,所述时间窗管道中可容纳的语音数据的数据量为10至20段语音数据,各段语音数据中的文本之间文本相关或文本无关。
[0038]与现有技术相比,本申请包括以下优点:
[0039]本申请首先,将语音数据以时间点为标签构建时变数据库,使用时变数据库存储用户各个时间段的语音数据,同时将语音数据进行语音数据帧的参数化处理,从而大大降低了时变数据库的存储成本。
[0040]其次,本申请通过以时间窗管道为基本单元,按照语音数据的时间顺序获取时变数据库中的参数化的语音数据,根据确定出的参数化的语音数据对应的音素的空间分布信息筛选时间窗管道中的语音数据,获得筛选后的多组语
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1