一种实时语音识别数字的方法

文档序号:2827383阅读:884来源:国知局
一种实时语音识别数字的方法
【专利摘要】本发明公开了一种实时语音识别数字的方法,用于手机终端中通过语音识别数字从而进行群发短信或者语音拨号,通过自适应采样频率对输入的语音进行采样,并对采样获得的语音信号进行预处理;对预处理后的语音信号进行端点检测,提取出单个数字语音信号;提取每个数字语音信号的MFCC特征;采用实时动态时间规整DTW算法将每个数字语音信号的MFCC特征与通过训练获得的MFCC参数模板进行匹配识别。本发明方法适用于复杂不联网的实际环境,能够快速进行语音识别。
【专利说明】一种实时语音识别数字的方法
【技术领域】
[0001]本发明属于电话通信【技术领域】,尤其涉及应用在手机终端中的一种实时语音识别数字的方法。
【背景技术】
[0002]随着计算机技术的发展,语音识别技术越来越受到重视,应用的领域很广阔,包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等,可见语音识别的发展将改变人们现在的生活方式,具有广阔的前景。
[0003]目前语音识别技术的应用由于识别的准确性等原因,还具有很大的局限。虽然市场上已经有语音识别的手机终端,例如苹果的iPhone系列,安装有成熟的语音识别软件产品Siri,提供了丰富的语音应用。其他公司的手机产品也纷纷推出了基于语音识别的应用,但是大多数是针对普通消费者,只提供基于网络的语音识别,同时语音识别的准确性仍然差强人意,因此一直以来未得到广泛的使用。
[0004]市场上典型的三个开发语言的工具有Google语音识别的AP1、微软的MicrosoftSpeech SDK,以及科大的iFLY Mobile Speech Platform。但是Google和科大的产品的识别引擎都位于服务器端,需要联网进行语音识别,微软的虽然语音识别引擎位于本地,但是其语音识别引擎小,识别精准度较低。因此在实际的应用中,特别是对于噪声环境、实时性要求较高的场合,环境噪声大,语音识别的困难度加大,识别效率降低,还无法满足应用需求。例如针对老年人用的手机终端,老年人触碰按键拨号十分不便,而采用语音识别则能较好的进行操作;再如快递员,快递员在送货时,基本都是靠打电话或者手动去发短信通知收货人取件,效率比较低,但是其工作环境噪声比较大,且不具有联网条件。现有的具有语音识别功能的手机终端只是针对普通消费者设计,对于这种类似的应用,一是需要联网,二是不满足实时性需要,三是成本较高,因此尚不能满足目前的应用。

【发明内容】

[0005]本发明的目的是针对上述问题,提出一种语音拨号方法及终端,针对连续数字进行高效的语音识别和拨号,以满足复杂环境下,不需要联网,又能快速语音识别的简单应用。
[0006]本发明的总体思路是提出一种实时性很强,能正常工作在噪声环境下,识别准确且不需要联网识别的语音拨号方法及终端。为了实现上述发明目的,本发明技术方案如下:
[0007]—种实时语音识别数字的方法,用于手机终端中通过语音识别数字从而进行群发短信或者语音拨号,包括以下步骤:
[0008]通过自适应采样频率对输入的语音进行采样,并对采样获得的语音信号进行预处理;
[0009]对预处理后的语音信号进行端点检测,提取出单个数字语音信号;[0010]提取每个数字语音信号的MFCC特征;
[0011]采用实时动态时间规整DTW算法将每个数字语音信号的MFCC特征与通过训练获得的MFCC参数模板进行匹配识别。
[0012]其中,所述预处理包括以下步骤:
[0013]对采样获得语音信号进行调幅;
[0014]对调幅后的语音信号通过加窗处理滤除高频成分;
[0015]对滤除高频成分后的语音信号采用频域最小均方LMS算法去除噪声。
[0016]进一步地,所述加窗处理采用的是汉明窗。
[0017]本发明所述采样频率通过自适应方法获得,所述自适应方法包括步骤:
[0018]I)、检测输入的当前段语音信号的第一个数字开始时刻到最后一个数字结束的时刻的总时间
[0019]2)、根据每一个单独的数字语音信号从端点检测的开始到端点检测的结束时间,计算出数字语首彳目号的总和时间Tmain, Tmain=I^2+...tn, t1; t2,...tn为当前段语首/[目号中每个数字语音信号的持续时间;
[0020]3)、根据下面公式计算得到下一段语音信号的采样频率Fre:
【权利要求】
1.一种实时语音识别数字的方法,用于手机终端中通过语音识别数字从而进行群发短信或者语音拨号,其特征在于,包括以下步骤: 通过自适应采样频率对输入的语音进行采样,并对采样获得的语音信号进行预处理; 对预处理后的语音信号进行端点检测,提取出单个数字语音信号; 提取每个数字语音信号的MFCC特征; 采用实时动态时间规整DTW算法将每个数字语音信号的MFCC特征与通过训练获得的MFCC参数模板进行匹配识别。
2.根据权利要求1所述的实时语音识别数字的方法,其特征在于,所述预处理包括以下步骤: 对采样获得语音信号进行调幅; 对调幅后的语音信号通过加窗处理滤除高频成分; 对滤除高频成分后的语音信号采用频域最小均方LMS算法去除噪声。
3.根据权利要求2所述的实时语音识别数字的方法,其特征在于,所述加窗处理采用的是汉明窗。
4.根据权利要求1所述的实时语音识别数字的方法,其特征在于,所述采样频率通过自适应方法获得,所述自适应方法包括步骤: 1)、检测输入的当前段语音信号的第一个数字开始时刻到最后一个数字结束的时刻的总时间Tttrtal ; 2)、根据每一个单独的数字语音信号从端点检测的开始到端点检测的结束时间,计算出数字语音信号的总和时间Tmain, Τ—?+...tn,t1; t2,...tn为当前段语音信号中每个数字语音信号的持续时间; 3)、根据下面公式计算得到下一段语音信号的采样频率Fre:
5.根据权利要求4所述的实时语音识别数字的方法,其特征在于,所述当前段语音信号的采样频率F初始为32KHz。
6.根据权利要求1所述的实时语音识别数字的方法,其特征在于,所述采用实时动态时间规整DTW算法将每个数字语音信号的MFCC特征与通过训练获得的MFCC参数模板进行匹配识别,具体包括步骤: 构造由二元数组对{TestNum, RefNum}组成的表Table [],其中二元数组TestNum和RefNum表示在进行相似度计算和矢量距离累加时用到的数字语音信号的帧序号和参考模板的帧序号; 按照表Table[]中的二元数组对依次计算对应帧的矢量距离; 将计算获得的矢量距离进行累加,根据累加结果进行模板匹配。
7.根据权利要求6所述的实时语音识别数字的方法,其特征在于,所述根据累加结果进行模板匹配,是选取矢量距离累加值最小的数字语音信号作为语音识别结果输出。
8.根据权利要求7所述的实时语音识别数字的方法,其特征在于,所述通过训练获得的MFCC参数 模板是针对数字O~9通过训练获得的MFCC参数模板。
【文档编号】G10L15/065GK103903612SQ201410116759
【公开日】2014年7月2日 申请日期:2014年3月26日 优先权日:2014年3月26日
【发明者】汪晓妍, 柴文润, 陈胜勇, 管秋, 郑焕彰, 李军伟 申请人:浙江工业大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1