一种基于语音分段的孤立词识别方法

文档序号：2823340阅读：517来源：国知局

专利名称：一种基于语音分段的孤立词识别方法
技术领域：
本发明涉及自动语音识别技术领域，具体的说是一种基于语音分段的孤立词识别方法。
背景技术：
目前所用到的非特定人孤立词语音识别方法都是基于隐马尔可夫模型(Hidden Markov Model, HMM)，在语音识别过程中，将待识语音的所有特征参数与词表内所有孤立词的HMM作匹配处理，计算出最大的概率值作识别结果。传统的非特定人孤立词语音识别方法是顺序的计算出待识语音特征参数停留在每个孤立词中最后一个音节或半音节(即最后一个状态)的输出概率，将概率最大的孤立词作为识别结果。这种一次性计算出待识语音对该孤立词的总概率的方法，不可避免错误的识别出来一些与待识语音总体特征相似的孤立词。

发明内容
本发明的目的是研制一种能有效地解决现有孤立词语音识别方法中的缺陷、语音识别性能高、识别响应时间短的基于语音分段的孤立词识别方法。本发明一种基于语音分段的孤立词识别方法，其语音训练所得的连续HMM模型是以音节或半音节作为基元，将已训练好的基元模型按照词表内孤立词的音节或半音节序列拼接得到整词模型，识别时采用Viterbi算法；其具体步骤如下(1)将词表中所有孤立词的每个音节或半音节分开作为识别单元；(2)记录连续η帧待识语音特征参数停留在每个孤立词的第一个音节或半音节末尾状态的平均概率，拒识其概率值小于指定阈值的孤立词，选出那些概率值比较大的孤立词作为下一次的匹配对象；(3)依次类推，计算待识语音其它的帧停留在每个孤立词(不包括前面已经拒识掉的孤立词)第二、第三……音节或半音节的平均概率，并依次拒识掉部分概率值比较小的孤立词；(4)计算待识语音最后几帧停留在每个孤立词(不包括前面已经拒识掉的孤立词)的最后一个音节或半音节的平均概率，并将最大平均概率值所代表的孤立词作为识别结果输出。所述步骤(2)中，根据待识语音的特征参数，计算出第nl帧待识语音停留在词表中第一个孤立词的第一个音节或半音节末尾状态的最大概率值Pl (即该位置的概率值大于前一状态的概率值也大于后一状态的概率值，Pi为计算完对数的概率值)，再判断后面的连续Δ nl帧停留在该状态是否也是最大概率及其概率值Pi (1 < i < Δ nl)，其平均概率值按如下公式①计算<formula>formula see original document page 4</formula>Pi代表从nl帧起连续第i帧数据停留在第一个音节或半音节的最大概率。所述步骤(3)中，计算待识语音第π2帧并连续Δη2帧停留在词表中第一个孤立词的第二个音节或半音节末尾状态的平均概率两，其计算方法与计算公式与①式类似
<formula>formula see original document page 4</formula>同理，计算出待识语音停留在其它孤立词的第二个音节或半音节的平均概率，再拒识掉部分平均概率值小于某一指定阈值的孤立词。依次类推，计算待识语音其它的帧停留在每个孤立词(不包括前面已经拒识掉的孤立词)第三直至最后一个音节或半音节的平均概率，并依次拒识掉部分概率值比较小的孤立词。本发明一种基于语音分段的孤立词识别方法的优点是识别结果(即识别正确的孤立词)的每一小段HMM模型与待识语音的每一小段特征参数都能达到比较满意匹配，因此该方法可以提高识别性能；每次完成一个音节或半音节末尾状态的识别运算后都可以直接拒识掉概率值较小的孤立词，因此该方法可以提高识别响应时间。

图1为基于语音分段的孤立词识别方法的流程图。
具体实施例方式根据图1所示，一种基于语音分段的孤立词识别方法，其语音训练所得的连续HMM 模型是以音节或半音节作为基元，将已训练好的基元模型按照词表内孤立词的音节或半音节序列拼接得到整词模型，识别时采用Viterbi算法；其具体步骤如下(1)将词表中所有孤立词的每个音节或半音节分开作为识别单元；(2)记录连续η帧待识语音特征参数停留在每个孤立词的第一个音节或半音节末尾状态的平均概率，拒识其概率值小于指定阈值的孤立词，选出那些概率值比较大的孤立词作为下一次的匹配对象；(3)依次类推，计算待识语音其它的帧停留在每个孤立词(不包括前面已经拒识掉的孤立词)第二、第三……音节或半音节的平均概率，并依次拒识掉部分概率值比较小的孤立词；(4)计算待识语音最后几帧停留在每个孤立词(不包括前面已经拒识掉的孤立词)的最后一个音节或半音节的平均概率，并将最大平均概率值所代表的孤立词作为识别结果输出。所述步骤(2)中，根据待识语音的特征参数，计算出第nl帧待识语音停留在词表中第一个孤立词的第一个音节或半音节末尾状态的最大概率值Pl (即该位置的概率值大于前一状态的概率值也大于后一状态的概率值，Pi为计算完对数的概率值)，再判断后面的连续Δ nl帧停留在该状态是否也是最大概率及其概率值Pi (1 < i < Δ nl)，其平均概率值按如下公式①计算
<formula>formula see original document page 5</formula>Pi代表从nl帧起连续第i帧数据停留在第一个音节或半音节的最大概率。所述步骤(3)中，计算待识语音第π2帧并连续Δη2帧停留在词表中第一个孤立词的第二个音节或半音节末尾状态的平均概率Ρ2，其计算方法与计算公式与①式类似 <formula>formula see original document page 5</formula>
同理，计算出待识语音停留在其它孤立词的第二个音节或半音节的平均概率，再拒识掉部分平均概率值小于某一指定阈值的孤立词。依次类推，计算待识语音其它的帧停留在每个孤立词(不包括前面已经拒识掉的孤立词)第三直至最后一个音节或半音节的平均概率，并依次拒识掉部分概率值比较小的孤立词。
权利要求
一种基于语音分段的孤立词识别方法，其特征在于其语音训练所得的连续HMM模型是以音节或半音节作为基元，将已训练好的基元模型按照词表内孤立词的音节或半音节序列拼接得到整词模型，识别时采用Viterbi算法；其具体步骤如下(1)将词表中所有孤立词的每个音节或半音节分开作为识别单元；(2)记录连续n帧待识语音特征参数停留在每个孤立词的第一个音节或半音节末尾状态的平均概率，拒识其概率值小于指定阈值的孤立词，选出那些概率值比较大的孤立词作为下一次的匹配对象；(3)依次类推，计算待识语音其它的帧停留在每个孤立词(不包括前面已经拒识掉的孤立词)第二、第三……音节或半音节的平均概率，并依次拒识掉部分概率值比较小的孤立词；(4)计算待识语音最后几帧停留在每个孤立词(不包括前面已经拒识掉的孤立词)的最后一个音节或半音节的平均概率，并将最大平均概率值所代表的孤立词作为识别结果输出。
2.根据权利要求1所述的一种基于语音分段的孤立词识别方法，其特征在于所述步骤(2)中，根据待识语音的特征参数，计算出第nl帧待识语音停留在词表中第一个孤立词的第一个音节或半音节末尾状态的最大概率值Pl (即该位置的概率值大于前一状态的概率值也大于后一状态的概率值，Pl为计算完对数的概率值)，再判断后面的连续Δη 帧停留在该状态是否也是最大概率及其概率值Pi (1 < i < Δη )，其平均概率值按如下公式① 计算<formula>formula see original document page 2</formula>Pi代表从nl帧起连续第i帧数据停留在第一个音节或半音节的最大概率；所述步骤(3)中，计算待识语音第n2帧并连续Δη2帧停留在词表中第一个孤立词的第二个音节(或半音节)末尾状态的平均概率Ρ2，其计算方法与计算公式与①式类似 <formula>formula see original document page 2</formula>同理，计算出待识语音停留在其它孤立词的第二个音节或半音节的平均概率，再拒识掉部分平均概率值小于某一指定阈值的孤立词；依次类推，计算待识语音其它的帧停留在每个孤立词(不包括前面已经拒识掉的孤立词)第三直至最后一个音节或半音节的平均概率，并依次拒识掉部分概率值比较小的孤立词。
全文摘要
一种基于语音分段的孤立词识别方法，其语音训练所得的连续HMM模型是以音节或半音节作为基元，将已训练好的基元模型按照词表内孤立词的音节或半音节序列拼接得到整词模型，识别时采用Viterbi算法。其优点是识别结果(即识别正确的孤立词)的每一小段HMM模型与待识语音的每一小段特征参数都能达到比较满意匹配，因此该方法可以提高识别性能；每次完成一个音节或半音节末尾状态的识别运算后都可以直接拒识掉概率值较小的孤立词，因此该方法可以提高识别响应时间。
文档编号G10L15/14GK101819772SQ201010110518
公开日2010年9月1日申请日期2010年2月9日优先权日2010年2月9日
发明者刘萍, 廖广锐, 汤磊申请人:中国船舶重工集团公司第七○九研究所

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：廖广锐;刘萍;汤磊
技术所有人：中国船舶重工集团公司第七○九研究所
我是此专利的发明人

上一篇：立体声信号下混方法、编解码装置和编解码系统的制作方法
上一篇：产生整段发音的代表打印码的方法