一种利用切割—分层构筑法的语音识别方法

文档序号:2829066阅读:389来源:国知局
专利名称:一种利用切割—分层构筑法的语音识别方法
技术领域
本发明涉及语音识别领域,尤其是连续语音识别技术。
背景技术
在连续语音识别技术中,通常采用两种方法,即通盘采用分层构筑法,或是先将语音信号进行切割成孤立字,再进行匹配得到结果。但是这两种方法各有利弊,若通盘采用分层构筑法,虽然识别率较高,但是计算量过大,难以实时完成,若采用切割方法,虽然计算量较小,但是识别效果严重依赖于切割精度,而在连续汉语语音中,有时难以准确地判断出字与字之间的界限,这样就会对识别效果造成影响
发明内容
为了克服现有技术的不足,本发明提供一种利用切割一分层构筑法的语音识别方法,将分层构筑法和切割法结合,降低识别效果对切割精度的依赖程度,同时保证识别能够实时完成。本发明解决其技术问题所采用的技术方案包括以下步骤步骤一采集语音信号,采样频率f为8000Hz到12000Hz ;步骤二 依据采样频率f确定帧长Ien和帧移inc,对语音信号进行分帧,将语音信号分成每20 30毫秒一段,相邻两帧起始点之间的间隔为10毫秒,即两帧之间有10 20毫秒的交叠;步骤三提取语音特征参数,以MFCC参数为基础构建特征参数;步骤四计算每帧语音的归一化Ctl复杂度能量CtlEtl和归一化过零率ZCRtl,计算方法如下I)归一化C。复杂度能量CciEq :(I)计算每巾贞语音的归一化短时能量eQ(i) = e(i)/max(e),其中,e(/) = YjI X1 (η) I, Xi (η)表示第i帧第η个语音数据;(2)对每帧序列s(n)进行离散FFT变化转换到频域,得到幅度谱S(η);(3)计算该帧幅度谱的平均值·S0< A· ,其中N为帧长;
k-i(4)大于Stl的频率部分属于规则部分,小于或等于Stl的部分属于随机部分,在此只取规则部分成分,公式如下
\S(k\S(k)>SaS%k) = I 1 二
[O ,S(k) <S0(5)对规则部分成分的幅度谱S' (k)转化到频域并作IFFT变换,所得的S1 (η)即为规则部分时间序列;
(6)求出总运动测度
权利要求
1.一种利用切割一分层构筑法的语音识别方法,其特征在于包括下述步骤 步骤一采集语音信号,采样频率f为8000Hz到12000Hz ; 步骤二 依据采样频率f确定帧长Ien和帧移inc,对语音信号进行分帧,将语音信号分成每20 30毫秒一段,相邻两帧起始点之间的间隔为10毫秒,即两帧之间有10 20毫秒的交叠; 步骤三提取语音特征参数,以MFCC参数为基础构建特征参数; 步骤四计算每帧语音的归一化Ctl复杂度能量CtlEtl和归一化过零率ZCRtl,计算方法如下 O归一化Ctl复杂度能量CtlEtl H1J (O计算每巾贞语音的归一化短时能量e0(i) = e⑴/max(e),其中,e(/) =艺丨JCi(W)I, η I Xi (η)表示第i巾贞第η个语音数据; (2)对每帧序列s(η)进行离散FFT变化转换到频域,得到幅度谱S (η); (3)计算该帧幅度谱的平均值t< /V,其中N为帧长; (4)大于Stl的频率部分属于规则部分,小于或等于Stl的部分属于随机部分,在此只取规则部分成分,公式如下I O ,S(k)<Stj (5)对规则部分成分的幅度谱S'(k)转化到频域并作IFFT变换,所得的S1 (η)即为规则部分时间序列; Λ:Λ: (6)求出总运动测度鴻5=X|s(/)|和随机运动测度4 =XkO1)-内(Ol·即可求得每帧 IJ的Q1复杂度(Xw) 二 ;(7)令C*(n) = I-C(n), C0 (η) = C*(η)/max (C*); (8)令C0E (η) = C0 (η) *e0 (η),即可得到归一化的 C。复杂度能量 C0E0 (n) = C0E (η) /max (C0E); 2)归一化过零率ZCRtl 设定一个门限,当前后两个采样的符号不同,而且差值大于的时候,就将过零率的数值加1,这样即可得到过零率ZCR,再得到归一化过零率ZCRtl(n) = ZCR(n) /max (ZCR); 步骤五用下述方法对语音进行切割,切割后每段语音只有单字或双字; (O定义语音信号的四个状态,每帧语音只能处于其中之一,如表I说明;表I语音信号状态说明__ 状态号(Status)状态说明 O语音前静音I1W
全文摘要
本发明提供了一种利用切割—分层构筑法的语音识别方法,采集语音信号后对语音信号进行分帧,然后提取语音特征参数,计算每帧语音的归一化复杂度能量和归一化过零率,然后对语音进行切割,切割后每段语音只有单字或双字,最后对切割好的各段语音分别进行识别。本发明降低了识别效果对切割精度的依赖性,当两个字的发音连续难以切割时就采用两层分层构筑法对其进行识别,而两层分层构筑法的计算量可以接受,能够实时完成,这样就同时保证了识别效果和识别耗时。
文档编号G10L15/00GK102820031SQ201210284560
公开日2012年12月12日 申请日期2012年8月6日 优先权日2012年8月6日
发明者董月汉 申请人:西北工业大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1