一种构音识别方法及其系统的制作方法

文档序号：2827666阅读：644来源：国知局

一种构音识别方法及其系统的制作方法
【专利摘要】本发明公开了一种构音识别方法，包括：获取样本信号，对样本信号进行滤波去噪后，将样本信号通过A/D转换量化为二进制的样本信号，从二进制的样本信号中提取包含语音的语音信号；提取语音信号中的声学特征参数；选定与训练声学模型，根据各个声学特征参数分别估算声学模型的参数估计值，得到对应于最大似然值的最优模型参数；构音识别，采集待识别信号，根据最优模型参数计算待识别信号的各个声学特征参数的概率值，得到识别结果。本发明构音识别方法不仅能够准确识别语音中的内容，还能够识别出单音节词的具体音节组合及其声调。本发明还公开了一种构音识别系统。
【专利说明】一种构音识别方法及其系统

【技术领域】
[0001] 本发明涉及言语识别，尤其设计一种构音识别方法及其系统。

【背景技术】
[0002] 构音是言语产生的基础，通过构音器官（如，下颌、唇、舌、软腭等）的协调运动产生。构音运动产生的最小语音单位是音素，语音学定义了音素包括元音和辅音两类。汉语普通话的构音识别结果包括两部分：音素组合成的音节和声调。但是目前构音识别技术无法准确识别由相同音节不同声调组成的字音，而且并非以音素为单位进行识别，导致识别结果并不适用于言语语言教育。
[0003] 为了克服现有技术中的无法准确识别语音中的内容无法准确识别由相同音节不同声调组成的字音，而且并非以音素为单位进行识别，导致识别结果并不适用于言语语言教育的缺陷，提出了一种构音识别方法及其系统。

【发明内容】

[0004] 本发明提出了一种构音识别方法，包括如下步骤：获取样本信号，对所述样本信号进行滤波去噪后，将所述样本信号通过A/D转换量化为二进制的样本信号，从所述二进制的样本信号中提取包含语音的语音信号；提取所述语音信号中的声学特征参数，所述声学特征参数用于识别音节和音调；选定与训练声学模型，分别计算各个所述声学特征参数在隐马尔可夫模型下的最大似然概率值，得到对应于所述最大似然值的最优模型参数；构音识别，采集待识别信号，根据所述最优模型参数计算所述待识别信号的各个声学特征参数的概率值，得到识别结果。
[0005] 本发明提出的所述构音识别方法中，提取包含语音的语音信号的步骤包括：将所述二进制的样本信号截取为多个帧；计算至少一帧的短时自相关函数的平均值；根据所述平均值计算用于判断当前帧的短时过门限率；根据所述短时过门限率判断所述当前帧是清音或浊音；逐个判断所有帧，直至获得起始帧与终止帧时得到语音信号。
[0006] 本发明提出的所述构音识别方法中，所述短时自相关函数为：
[0007]

【权利要求】
1. 一种构音识别方法，其特征在于，包括如下步骤：获取样本信号，对所述样本信号进行滤波去噪后，将所述样本信号通过A/D转换量化为二进制的样本信号，从所述二进制的样本信号中提取包含语音的语音信号；提取所述语音信号中的声学特征参数，所述声学特征参数用于识别音节和音调；选定与训练声学模型，分别计算各个所述声学特征参数在隐马尔可夫模型下的最大似然概率值，得到对应于所述最大似然值的最优模型参数；构音识别，采集待识别信号，根据所述最优模型参数计算所述待识别信号的各个声学特征参数的概率值，得到识别结果。
2. 如权利要求1所述的构音识别方法，其特征在于，提取包含语音的语音信号的步骤包括：将所述二进制的样本信号截取为多个帧；计算至少一帧的短时自相关函数的平均值；根据所述平均值计算用于判断当前帧的短时过门限率；根据所述短时过门限率判断所述当前帧是清音或浊音；逐个判断所有帧，直至获得起始帧与终止帧时得到语音信号。
3. 如权利要求2所述的构音识别方法，其特征在于，所述短时自相关函数为：
式中，k表示最大延迟点数，Rn(k)表示短时自相关函数，xn表示语音信号的采样点，m 表示采样点的序号，X' n表示语音信号的三电平量化信号，N表示语音信号采样点的个数。
4. 如权利要求2所述的构音识别方法，其特征在于，所述短时过门限率为：
1, x>0 其中，sgn⑴={ 式中，zn表示短时过门限率，T表示设定的门限值，为正数，xn表示语音信号的采样点， m表示采样点的序号，N表示语音信号采样点的个数，η表示语音帧的序号。
5. 如权利要求1所述的构音识别方法，其特征在于，提取所述语音信号后进一步包括：加重所述语音信号中的高频分量；利用窗函数对所述语音信号进行加窗操作。
6. 如权利要求1所述的构音识别方法，其特征在于，所述声学特征参数包括Mel倒谱系数及其一阶差分结果和二阶差分结果，所述Mel倒谱系数及其一阶差分结果和二阶差分结果的计算步骤包括：通过快速傅立叶变换计算所述语音信号的功率谱；利用Mel滤波器计算所述功率谱得到Mel频谱；通过离散余弦变换计算所述Mel频谱得到Mel倒频谱系数；逐次对所述Mel倒频谱系数进行以时间的差分运算，得到一阶差分结果与二阶差分结果。
7. 如权利要求1所述的构音识别方法，其特征在于，所述声学特征参数包括短时对数能量，所述短时对数能量如以下公式表示：
式中，sn表不语音信号离散序列，N表不米样点的总个数，η表不米样点序号。
8. 如权利要求1所述的构音识别方法，其特征在于，得到所述最优模型参数的步骤包括：计算所述声学特征参数的均值与协方差；将声学模型的初始均值与协方差替换为所述声学特征参数的均值与协方差；估算所述声学模型的模型参数，得到参数估计值；将所述参数估计值替换所述声学模型中的参数，分别计算各个所述声学特征参数在隐马尔可夫模型下的最大似然概率值，得到对应于所述最大似然值的最优模型参数。
9. 如权利要求1所述的构音识别方法，其特征在于，所述参数估计值是根据 Baum-Welch算法估算得到的。
10. 如权利要求1所述的构音识别方法，其特征在于，所述识别结果的计算步骤包括：将所述待识别信号进行划分，得到多个词语组成的词序列；提取当前词语的多个声学特征参数；根据所述最优模型参数以隐马尔可夫模型分别计算每个所述声学特征参数的概率值，以所述概率值最大的声学特征参数作为所述词语的识别结果；依次计算对所述待识别信号中每个词语的识别结果，得到所待述识别信号的识别结果。
11. 如权利要求1所述的构音识别方法，其特征在于，得到所述识别结果之后进一步包括：将所述识别结果与事先设定的目标音对比，得到所述待识别信号中存在构音障碍的声母、韵母和声调。
12. -种构音识别系统，其特征在于，包括语音采集装置，其用于采集样本信号与待识别信号；语音处理装置，其用于对所述样本信号与待识别信号进行数据转换与预处理，并分别提取所述样本信号与所述待识别信号的声学特征参数；构音识别装置，其用于根据所述样本信号的声学特征参数训练声学模型得到最优模型参数，根据所述最优模型参数计算所述待识别信号的声学特征参数，得到识别结果。
13. 如权利要求12所述的构音识别系统，其特征在于，所述构音识别装置进一步用于对所述识别结果进行判断，判断所述待识别信号中存在构音障碍的声母、韵母和声调。
【文档编号】G10L15/08GK104123934SQ201410353819
【公开日】2014年10月29日申请日期:2014年7月23日优先权日:2014年7月23日
【发明者】黄昭鸣, 周林灿, 李宁申请人:泰亿格电子（上海）有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黄昭鸣;周林灿;李宁
技术所有人：泰亿格电子（上海）有限公司
我是此专利的发明人

上一篇：用于在与语音信号相关联的包中包含识别符的系统及方法
上一篇：一种主管高度可调的乐器支架的制作方法