基于连续混合高斯HMM模型的地名语音信号识别方法与流程

文档序号：12475855阅读：来源：国知局

技术特征：

1.基于连续混合高斯HMM模型的地名语音信号识别方法，其特征在于：包括连续混合高斯HMM模型的训练过程及地名语音识别过程，其中，所述连续混合高斯HMM模型的训练过程如下：

S1，定义一个包含如下参数的连续混合高斯HMM模型，λ＝(N，M，A，π，B)，其中：

N，模型状态数，为4；

M，每个状态所对应的高斯函数的个数，每个状态包含3个39维的高斯函数，一个模型中N个状态中每个状态高斯函数个数相同；

A，状态转移概率矩阵，A＝{a_ij}，a_ij＝P[q_t+1＝j/q_t＝i],1≤i,j≤N，其中，qt＝i表示在t时刻处在状态i,q(t+1)＝j表示t+1时刻在状态j，整体表示从状态i转换到状态j的概率；

π，各状态的起始概率分布，π＝π_t，π_t＝P[q_i＝i],1≤i≤N,其中，π＝π_t表示从状态i开始的概率，下标i表示各个状态对应的起始概率；

B，输出概率密度函数，B＝{b_j(o)}，其中，o为观察向量，M为每个状态包含的高斯函数的个数；c_jl为第j个状态第l个混合高斯函数的权，L为正态高斯概率密度函数，μ_jl为第j个状态第l个混合高斯元的均值矢量，U_jl为第j个状态第l个混合高斯元的协方差矩阵；

S2，模型初始化，将初始状态π＝π_t向量设置为(1 0 0 0),状态转移矩阵A在其自身转移和转移到下一个状态的概率均为0.5，每个高斯函数均为39阶的均值为0、方差为1的函数，权重均为1/3；

S3，将一类地名语音信号的特征矩阵代入模型中，利用Baum-Welch迭代算法进行一次模型参数训练；所述一类地名语音信号是指将一个地名的所有样本语音信号的特征矩阵数据放到一起，根据均值聚类法k-means进行聚类，分为4类，对应4个状态；

S4，根据计算出的模型参数，使用viterbi算法求出一类地名语音信号出现的概率；

S5，将该概率和训练之前的输出概率相比较，判断两者的相对误差是否满足输出条件；

S6，若符合输出条件，输出该类地名语音信号对应的连续混合高斯HMM模型；

S7，若不符合输出条件，判断训练次数是否达到最高训练阈值；

S8，若训练次数未到达最高训练阈值，则重复S3-S7步骤，若训练次数达到最高训练阈值，则终止训练，输出连续混合高斯HMM模型；

S9，将若干类地名语音信号的特征矩阵代入模型中，重复S3-S8步骤，得到若干个不同地名对应的连续混合高斯HMM模型，所有的连续混合高斯HMM模型数据形成地名语音识别模型库。

2.根据权利要求1所述的基于连续混合高斯HMM模型的地名语音信号识别方法，其特征在于：所述S3步骤中，利用Baum-Welch算法计算模型参数的过程如下：

S31，用Lagrange数乘法构造一个目标优化函数Q，其中包含了所有连续混合高斯HMM模型的参数作为变量；

S32，令Q对各变量的偏导数为0，推导出Q达到极点时新的HMM参数对应于旧的HMM参数之间的关系，从而得到HMM各参数的估计；

S33，用新旧HMM模型参数之间的函数关系反复迭代运算，直到HMM模型参数不再发生明显的变化为止。

3.根据权利要求1所述的基于连续混合高斯HMM模型的地名语音信号识别方法，其特征在于：所述S6步骤中，若相对误差小于0.000001，说明模型训练已收敛，满足输出条件。

4.根据权利要求1所述的基于连续混合高斯HMM模型的地名语音信号识别方法，其特征在于：所述地名语音识别过程如下：

S10，将某一39维的地名语音信号特征矩阵代入已建立好的地名语音识别模型库中，利用viterbi算法求取它对每一类地名语音信号对应的连续混合高斯HMM模型的输出概率，并把该地名语音信号特征矩阵识别为输出概率最大的那一类。

5.根据权利要求1所述的基于连续混合高斯HMM模型的地名语音信号识别方法，其特征在于：所述地名语音识别过程如下：

S110，将一n×39的未知地名语音信号的特征矩阵输入已建立好的地名语音识别模型库中的一类地名语音信号对应的连续混合高斯HMM模型后，记其为观察序列O(o₁,o₂,…,o_n)，记P_in表示在连续第n帧信号输入之后出现在状态i的概率；p_in表示在状态i观察到第n帧信号的概率；a_ij表示从状态i转移到状态j的概率；

当第1帧信号输入，p_i1＝f_i(o₁)；(1≤i≤4)，此处f_i(o₁)表示第一帧向量在状态i位置出现的概率；

因为初始状态为1，所以P₁₁＝p₁₁；P₂₁＝0；P₃₁＝0；P₄₁＝0；

当第2帧信号输入，p_i2＝f_i(o₂)；(1≤i≤4)

则P_i2＝max{P_j1*a_ji*p_i2}(1≤j≤4)，其中P_j1表示第一帧信号之后在状态i的概率，a_ji表示从状态j转移到状态i的概率；

以此类推，

当第n帧信号输入时，p_in＝f_i(o_n)；(1≤i≤4)

P_in＝max{P_j(n-1)*a_ji*p_in}(1≤j≤4)，其中n是一段语音信号的帧数；

当未知地名语音信号的所有帧信号输入结束后，得到P_1n,P_2n,P_3n,P_4n四个概率，其中最大的一个概率即是未知地名语音信号在此类地名语音信号对应的连续混合高斯HMM模型中出现的概率；

S120,将未知地名语音信号的特征矩阵代入所有其他类地名语音信号对应的连续混合高斯HMM模型中，得出此未知地名语音信号在每一个连续混合高斯HMM模型中出现的概率，并将则此未知地名语音信号归属于各类地名语音信号对应的连续混合高斯HMM模型中出现的概率最大的那一类。

完整全部详细技术资料下载

当前第2页1 2 3