一种基于矩阵离线预计算的快速全空间因子处理方法

文档序号:2833746阅读:332来源:国知局
专利名称:一种基于矩阵离线预计算的快速全空间因子处理方法
技术领域
本发明涉及一种声纹识别系统中语音信号处理的声纹识别技术,特别是一种基于矩阵离线预计算的快速全空间因子处理方法。
背景技术
在声纹识别系统中,如果采用本征信道因子分析与全空间因子分析融合,可以提升声纹识别系统效果。但是在全空间因子分析中,全空间因子求解算法复杂度较高,运算密集;相比于本征信道因子分析,全空间因子分析运算复杂度大了近两个量级,从而制约了其在声纹识别中的推广。下面对名词进行解释: 声纹识别:属于生物识别技术的一种,是一项根据语音波形中反映说话人生理和行为特征的语音参数,自动识别说话人身份的技术。.GMM模型:高斯混淆模型(Gaussian Mixture Model)简称GMM模型是指多个高斯模型通过线性叠加而得到的新的模型,在声纹 识别系统中通常采用高斯混淆模型来表示特征的分布。.UBM模型:通用背景模型(Universal Background Model)简称为UBM模型,混合高斯模型的核心是用一些高斯函数去拟合每个人说话时的特征,在训练模型的时候,由于注册时说话人的数据量不够,因此只能由一个通用的背景模型把少量的说话人的数据自适应到目标说话人模型上;在测试时,用测试语音相对于目标说话人模型和UBM模型求对数似然度得分,根据统一的门限判决是否是目标说话人。 全空间因子分析:全空间因子分析(Total Factor Analysis)首先将信道信息和说话人信息利用一个因子来拟合,然后通过后端的LDA (线性区分性分析)等后端处理来区分出想要的说话人信息。 本征信道因子分析:本征信道因子分析(Eigen Channel Factor Analysis)是将信道信息利用一个因子来拟合,从而将语音信号中的信道信息去除,仅保留语音中说话人相关的信息。.PLP特征:由感知加权线性预测系数(Perceptual Linear Predictive)组成的特征向量,在声纹识别中采用PLP特征对语音进行描述。暂未查找到针对采用全空间因子分析方法进行声纹识别,而采取相关效率改进的发明和方法。从所见报道来看,都处在使用最基本的处理方法(可参看

图1),采用这种传统方法,全空间因子分析效率太低,严重制约该方法在实际声纹系统中的使用。

发明内容
本发明技术解决问题:克服现有技术的不足,提供一种基于矩阵离线预计算的快速全空间因子处理方法,将全空间椅子求解模块效率提升了几十倍,使得全空间因子分析与本征信道因子分析算法复杂度相当,从而使得声纹识别中可以采用两者融合的系统。
本发明技术解决方案:一种基于矩阵离线预计算的快速全空间因子处理方法,其特征在于实现步骤如下:步骤1:资源加载,加载通用背景模型(UBM),全空间因子矩阵T,以及离线预计算之后的结果A (离线预计算资源);资源加载是全局性的,在整个引擎初始化时加载一次即可;全局加载的通用背景模型、全空间因子矩阵、离线预计算资源将在后续步骤陆续被使用。步骤2:获取需要声纹验证或者注册的语音数据,并提取声纹识别所需PLP特征;此处输入语音是全空间因子分析的对象;通过该步骤可以多次输入语音。步骤3:使用步骤I中加载的通用背景模型(UBM),以及步骤2中提取的PLP特征,计算零阶统计量N和一阶统计量F ;零阶统计量N在步骤4中用于计算L矩阵,一阶统计量F在步骤7中计算全空间因子W。步骤4:采用步骤I中加载的离线预计算资源A,步骤3中得到的零阶统计量N,计算得到L矩阵;L矩阵求解公式如下所示:L = I+A.N 公式(6)步骤5:生成L矩阵的逆矩阵,求解公式如下,其中|l|为l矩阵的行列式值,l*为L矩阵的伴随矩阵:
权利要求
1.一种基于矩阵离线预计算的快速全空间因子处理方法,其特征在于实现步骤如下: 步骤1:资源加载,加载通用背景模型(UBM)、全空间因子矩阵T及离线预计算之后的离线预计算资源,即结果A ;资源加载是全局性的,在整个引擎初始化时加载一次即可;全局加载的通用背景模型、全空间因子矩阵、离线预计算资源将在后续步骤陆续被使用; 步骤2:获取需要声纹验证或者注册的输入语音数据,并提取声纹识别所需PLP特征;此处输入语音数据是全空间因子分析的对象,通过该步骤能够多次输入语音数据; 步骤3:使用步骤I中加载的通用背景模型(UBM),以及步骤2中提取的PLP特征,计算零阶统计量N和一阶统计量F ;零阶统计量N在步骤4中用于计算L矩阵,一阶统计量F在步骤7中计算全空间因子W ; 步骤4:采用步骤I中加载的离线预计算资源A,步骤3中得到的零阶统计量N,计算得到L矩阵;L矩阵求解公式如下所示: L = I+A.N 公式(I) 步骤5:生成L矩阵的逆矩阵,求解公式如下,其中IlI为l矩阵的行列式值,l*为l矩阵的伴随矩阵;
2.根据要求I所述的基于矩阵离线预计算的快速全空间因子处理方法,其特征在于:所述步骤I所中离线预计算资源A的计算如下:
全文摘要
本发明涉及一种基于矩阵离线预计算的快速全空间因子处理方法,步骤为资源加载,首先都需要加载通用背景模型(UBM),全空间因子矩阵T;获取需要做声纹验证或者注册的语音数据,并提取声纹识别所需PLP特征;提取零阶统计量N和一阶统计量F;计算并得到L矩阵;生成L矩阵的逆矩阵;利用一阶统计量、L矩阵的逆矩阵、协方差扩展矩阵、全空间因子矩阵得到本次语音对应的全空间因子W;如果完成所有语音计算则结束。本发明将全空间因子求解模块效率提升了几十倍,使得全空间因子分析与本征信道因子分析算法复杂度相当,从而使得声纹识别中可以采用两者融合的系统。
文档编号G10L17/06GK103077719SQ201210581078
公开日2013年5月1日 申请日期2012年12月27日 优先权日2012年12月27日
发明者雷琴辉, 赵彬, 赵敏志, 于超敏, 赵志伟, 卢小亭, 王丹, 吴晓如 申请人:安徽科大讯飞信息科技股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1