一种基于声学空间非线性流形结构的声学模型构建方法

文档序号:8473808阅读:230来源:国知局
一种基于声学空间非线性流形结构的声学模型构建方法
【技术领域】
[0001] 本发明涉及一种基于声学空间非线性流形结构的声学模型构建方法,属于连续语 音识别技术领域。
【背景技术】
[0002] 在连续语音识别中,为了反映同一音素在不同上下文环境中发音的不同,通常采 用上下文相关音素建模方法,即对每一个音素的不同音位变体,分别用一个隐马尔可夫模 型(HiddenMarkovModel,HMM)进行建模,其中每一个隐含状态的观测概率分布用高斯混 合模型(GaussianMixtureModel,GMM)或神经网络进行逼近。这种上下文相关模型的参 数数量庞大,即使采用状态绑定等方法来减少状态个数,典型的连续语音识别系统参数数 量仍然在百万级以上。为了训练得到一个性能良好的识别系统,需要大量的训练数据,而实 际中训练数据往往是十分有限的。因此,为了减少模型对训练数据量的要求,需要进一步降 低模型的复杂度,提高参数估计的稳健性。
[0003] 针对传统的"隐马尔可夫模型(HiddenMarkovModeI,HMM)-高斯混合模型 (GaussianMixtureModel,GMM)"声学模型,目前常用的解决方案有:结构化协方差矩阵/ 精度矩阵建模方法,即假设不同协方差矩阵或其精度矩阵由若干个低秩(通常是秩为1的) 基矩阵的线性叠加得到,各高斯混元通过某种方式共享一组相同的基矩阵;本征三音子 (Eigentriphone)建模方法,将上下文相关状态进行聚类,将每一类状态的均值矢量限定在 一个线性子空间中,通过估计子空间中的低维坐标矢量来重构状态的均值矢量,从而得到 更为精确的参数估计;子空间高斯混合模型(SubspaceGaussianMixtureModel,SGMM) 将高斯混元的均值和权重限制在一个全局参数子空间中,因此每一个状态可以用一个或若 干个低维参数子空间中的矢量来表示,从而提高模型参数估计的稳健性。与传统的高斯混 合模型(GaussianMixtureModel,GMM)相比,SGMM声学模型大大压缩了模型尺寸,并且可 以利用集外数据对参数子空间进行估计,因此特别适用于训练数据量受限条件下的语音识 别。
[0004] 前述几种方法可以归结为一大类基于基展开(BasisExpand)的声学建模方法。近 年来,基于压缩感知与稀疏表达的方法受到众多学者的青睐,已被成功应用于语音去噪、稳 健性语音识别、声学模型正则化等方面。2012年,Saon等将压缩感知技术直接应用于连续 语音识别声学建模中,将表示方法与马尔可夫链相结合,提出了一种贝叶斯感知隐马尔可 夫模型(BayesianSensingHMMs,BSHMMs),取得了不错的效果。BS-HMMs的有效性可以归 结为其在声学特征层次上应用压缩感知技术来建立状态模型,并利用最大后验估计得到了 稳健的模型参数。然而,与SGMM声学模型不同,其各状态模型之间的参数估计是相互独立 的,需要训练多个状态相关字典,因此对训练数据量的要求仍较高。2013年,Zhang等提出 稀疏精度矩阵建模方法,即对协方差矩阵的逆矩阵直接施加稀疏约束,从而间接减少模型 参数数量。
[0005] 上述基展开方法本质上都是寻找模型参数的线性子空间,事实上,众多研宄表明 语音信号存在一个低维的非线性流形结构,因此现有方法采用线性子空间来对模型参数的 相关性进行建模是不精确的,只是一种近似方法。

【发明内容】

[0006] 本发明的目的是提供一种基于声学空间非线性流形结构的声学模型构建方法,以 解决目前采用线性子空间来对模型参数的相关性进行建模所导致模型不精确的问题。
[0007] 本发明为解决上述技术问题而提供一种基于声学空间非线性流形结构的声学模 型构建方法,该构建方法包括以下步骤:
[0008] 1)采用含有I个高斯混元的高斯混合模型(GaussianMixtureModel,GMM)作为 声学特征空间的统一背景模型(UniversalBackgroundModel,UBM);
[0009] 2)对UBM中每个高斯混元的协方差矩阵进行特征值分析,确定声学特征空间各 局部区域的潜在维数Di及因子分析模型参数,得到声学特征空间中的混合因子分析模型 (MixtureofFactorAnalyzers,MFA),作为其低维非线性流形结构的近似模型;
[0010] 3)使用与步骤2)中声学特征空间相同的局部区域划分与局部坐标系,将上下文 相关状态的观测矢量限定在声学特征空间中的低维非线性流形结构上,估计上下文相关状 态的观测概率模型,即构成了基于MFA的上下文相关状态模型;
[0011] 4)对基于MFA的上下文相关状态模型的参数进行迭代估计,最终所得到模型即为 所要构建的声学模型。
[0012] 所述步骤1)中背景模型UBM的生成过程如下:
[0013] A.利用训练数据对隐马尔可夫模型-高斯混合模型声学模型进行训练得到基线 系统;
[0014] B.对基线系统中所有状态的高斯混元进行两两合并,计算合并前后的似然得分的 损失值;
[0015] C.将损失值最小的两个高斯混元合并为一个新的高斯混元,直至得到新的高斯混 元数达到设定值。
[0016] 所述步骤2)中的混合因子分析模型是将声学特征空间的非线性流形划分为I个 局部区域,计算观测数据落入其中每个区域的概率,并对每个局部区域分别用一个因子分 析模型近似得到。
[0017] 所述步骤2)中第i个局部区域的潜在维数Di的确定过程如下:
[0018] A)将UBM中的各协方差矩阵氣中的特征值按照从大到小排序为Ail,Ai2,… ,入iD,其中D为特征矢量维数;
【主权项】
1. 一种基于声学空间非线性流形结构的声学模型构建方法,其特征在于,该构建方法 包括W下步骤: 1) 采用含有I个高斯混元的高斯混合模型(GaussianMix化reModel,GMM)作为声学 特征空间的统一背景模型(UniversalBackgroundModel,UBM); 2) 对UBM中每个高斯混元的协方差矩阵进行特征值分析,确定声学特征空间各局部区 域的潜在维数Di及因子分析模型参数,得到声学特征空间中的混合因子分析模型(Mix化re ofFactorAnalyzers,MFA),作为其低维非线性流形结构的近似模型; 3) 使用与步骤2)中声学特征空间相同的局部区域划分与局部坐标系,将上下文相关 状态的观测矢量限定在声学特征空间中的低维非线性流形结构上,估计上下文相关状态的 观测概率模型,即构成了基于MFA的上下文相关状态模型; 4) 对基于MFA的上下文相关状态模型的参数进行迭代估计,最终所得到模型即为所要 构建的声学模型。
2. 根据权利要求1所述的基于声学空间非线性流形结构的声学模型构建方法,其特征 在于,所述步骤1)中背景模型UBM的生成过程如下: A. 利用训练数据对隐马尔可夫模型-高斯混合模型声学模型进行训练得到基线系统; B. 对基线系统中所有状态的高斯混元进行两两合并,计算合并前后的似然得分的损失 值; C. 将损失值最小的两个高斯混元合并为一个新的高斯混元,直至得到新的高斯混元数 达到设定值。
3. 根据权利要求1所述的基于声学空间非线性流形结构的声学模型构建方法,其特征 在于,所述步骤2)中的混合因子分析模型是将声学特征空间的非线性流形划分为I个局部 区域,计算观测数据落入其中每个区域的概率,并对每个局部区域分别用一个因子分析模 型近似得到。
4. 根据权利要求2所述的基于声学空间非线性流形结构的声学模型构建方法,其特征 在于,所述步骤2)中第i个局部区域的潜在维数町的确定过程如下: A) 将UBM中的各协方差矩阵中的特征值按照从大到小排序为A。,A。,…,A。,其 中D为特征矢量维数; B) 计算各个特征值的累积贡献率
其中nid为第i个局部区域第d个特 征值的累积贡献率; C) 选择特征值累积贡献率超过某个设定口限的最小特征值序号作为第i个局部区域 的潜在维数町。
5. 根据权利要求4所述的基于声学空间非线性流形结构的声学模型构建方法,其特征 在于,所述步骤3)中上下文相关的每个状态由一个服从稀疏约束的权重矢量和若干个服 从标准正态分布的低维局部因子矢量所决定。
6. 根据权利要求5所述的基于声学空间非线性流形结构的声学模型构建方法,其特征 在于,所述步骤4)中第j个上下文状态的观测概率模型为:
其中,yr(0,; 口,S)表示均值矢量为y、协方差矩阵为s的多元正态分布,〇t表示t时 刻的观测特征矢量,和2i分别表示第i个局部区域的中屯、矢量、局部坐标系矩阵和 数据分布的协方差矩阵,是状态j在第i个局部区域内的均值对应的局部区域坐标矢量, Wj,表示状态j的观测数据落入第i个局部区域的概率。
7.根据权利要求4所述的基于声学空间非线性流形结构的声学模型构建方法,其特征 在于,所述步骤5)中是采用期望最大化算法EM进行重估,包括计算统计量、重估权重参数、 重估计局部坐标矢量和重估状态无关参数四个过程。
8.根据权利要求7所述的基于声学空间非线性流形结构的声学模型构建方法,其特征 在于,对于第j个状态和第i个局部区域,所述零阶、一阶和二阶统计量的计算公式分别如 下:
其中,丫W(t)表示给定观测序列0及模型参数AW的条件下t时刻处于状态j的第i个高斯混元的后验概率,可通过Baum-We1ch前后向算法计算得到。
9.根据权利要求7所述的基于声学空间非线性流形结构的声学模型构建方法,其特征 在于,第k次迭代,状态j的第i个高斯混元的权重参数Wj,的重估公式为:
若则wf+"即为权重矢量的更新值,其中a为预先选定的正整数 (1《a《I),II?II。表示矢量的零范数,即矢量的非零元素个数; 否则,将wf"的各分量从大到小排序为W' j.2,…,W'j.i,计算对应累积贡献率
,寻找^ =m,in{/:",>0.9},取口限Tj. =w' 对每一个权重分量执行下面的 "收缩"与"归一化"操作:
其中,[<41-『;1=。3《{<1)-[,,〇},最终得到更新的权重矢量、呼"=[14沪'1吟]"1~、皆。-。
【专利摘要】本发明涉及一种基于声学空间非线性流形结构的声学模型构建方法。本发明通过将特征空间划分为多个局部区域,对每个局部区域用一个低维的线性因子分析模型进行近似,得到声学特征空间的混合因子分析模型;将上下文相关状态的观测矢量限定在该非线性低维流形结构上,估计其观测概率模型;每个状态模型由一个服从稀疏约束的权重矢量和若干个服从标准正态分布的低维局部坐标矢量所决定;通过迭代过程,分别估计混合因子分析模型参数和各上下文相关状态模型参数。本发明所构建的声学模型的非线性假设条件更为合理,具有直观的物理意义,且声学模型中大量的参数是状态无关的,特别适用于训练数据量较少时的连续语音识别声学建模。
【IPC分类】G10L15-14
【公开号】CN104795063
【申请号】CN201510124249
【发明人】张文林, 屈丹, 李 真, 闫红刚, 牛铜
【申请人】中国人民解放军信息工程大学
【公开日】2015年7月22日
【申请日】2015年3月20日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1