一种农产品市场要素信息采集的鲁棒性语音识别方法

文档序号：2827753阅读：165来源：国知局

一种农产品市场要素信息采集的鲁棒性语音识别方法
【专利摘要】本发明涉及语音识别【技术领域】，特别是关于一种农产品市场要素信息采集的鲁棒性语音识别方法，包括采集初始语音信号，利用最小均方误差(MMSE)谱减算法对所述初始语音信号进行去噪，得到近似纯净语音信号，提取所述近似纯净语音信号的特征值，对所述特征值进行倒谱均值方差归一化(CMVN)补偿，根据该补偿后的语音特征向量训练隐马尔可夫模型(HMM)。通过上述的方法，面向非特定人的中等词汇量的连续语音识别系统，所采用的算法简单，易于实现，计算量小。
【专利说明】一种农产品市场要素信息采集的鲁棒性语音识别方法

【技术领域】
[0001] 本发明涉及语音识别【技术领域】，特别是关于一种农产品市场要素信息采集的鲁棒性语音识别方法。

【背景技术】
[0002] 农产品市场信息关系到农业和社会稳定，是保证经济稳定健康发展的基础。针对农产品市场信息的重要性，国家相关的部门和地方政府也纷纷建立了各种形式的农产品市场信息采集平台，信息的采集方式往往利用传统的人工抄录再进行二次录入计算机、电话报价或邮件汇总等方式来完成，但此类信息采集方法重复劳动较多，效率不高，且时效性较差。为此，很多机构和科研人员纷纷提出了信息采集的方法，开发了各种便携式的信息采集设备。这些方式有自身的优点和便捷之处，提高了工作效率，但也存在不少问题。一般来说，便携式设备的屏幕和按健都较小，而农产品市场信息采集的工作场所往往是在室外，容易受到强烈光线、雨雾冰雪、恶劣天气、野外环境等条件的限制，给操作带来了不便；另一方面，从人机交互的角度考虑，现有的信息采集设备主要依靠双手和视觉的配合来完成操作，但对需要人工干预的情况下进行的信息采集，因其大部分是在生产过程、操作同时进行的，传统的设备必然导致操作人员暂时中断当前的工作转而进行信息的采集，这样就会导致劳动生产效率的降低。此外，传统的信息采集设备因操作界面和提示信息的复杂等因素，对操作人员的知识水平和认知能力都具有较高的要求。
[0003] 近年来，随着语音识别（Speech Recognition)技术的迅速发展，基于语音交互界面的设备也在诸多行业开始应用。语音识别可以将语音转换为文本的形式，进而进行各种形式的处理和应用。从人机交互的角度看，语音交互界面是最佳的便携式设备的人机交互接口。经过几十年的研究，语音识别有了长足的发展。在相对安静的环境中，语音识别能取得非常好的识别结果。但在噪声环境下，现有的面向非特定人的语音识别系统因受到噪声的污染，其识别性能则会急剧下降，尤其是在低信噪比的情况下，识别性能更为糟糕。一方面，造成这种低识别率的原因是识别环境与训练环境的不匹配，这种不匹配是造成识别性能下降的主要原因。噪声鲁棒性语音识别的研究目标就是消除或尽量减少这种不匹配现象，提高识别性能。另一方面，农产品市场信息采集的作业环境非常复杂，如大型农产品批发市场、社区农贸市场、超市、农产品加工车间等，其所处的环境噪声包括人群噪声、汽车噪声、工厂机器噪声等，给语音识别带了较大的影响。而目前缺乏专门的面向农产品市场信息采集领域的专用识别引擎，通用领域的语音识别系统往往是大词汇量连续语音识别，在该环境下表现不佳。

【发明内容】

[0004] 为了解决现有技术中针对于农产品市场信息采集终端不能语音识别的问题，提出了一种农产品市场要素信息采集的鲁棒性语音识别方法，通过谱减算法和CMVN相结合的方式实现了在我国农贸市场高效率的语音识别。
[0005] 本发明实施例提供了一种农产品市场要素信息采集的鲁棒性语音识别方法，包括，
[0006] 步骤101，采集初始语音信号；
[0007] 步骤102,利用谱减算法对所述初始语音信号进行去噪，得到近似纯净语音信号；
[0008] 步骤103,提取所述近似纯净语音信号的特征值；
[0009] 步骤104,对所述特征值进行倒谱均值方差归一化补偿；
[0010] 步骤105,根据该补偿后的语音特征向量训练隐马尔可夫模型。
[0011] 根据本发明实施例所述的一种高鲁棒性语音识别方法的一个进一步的方面，在所述对所述特征值进行倒谱均值方差归一化补偿之后还包括，对待识别语音信号进行所述步骤101-步骤104,将得到补偿后的待识别语音特征向量输入所述隐马尔可夫模型进行识另IJ，输出识别结果。
[0012] 根据本发明实施例所述的一种高鲁棒性语音识别方法的再一个进一步的方面，在所述利用谱减算法对所述初始语音信号进行去噪中进一步包括，利用如下公式对初始语音信号进行谱减算法：
[0013]

【权利要求】
1. 一种农产品市场要素信息采集的鲁棒性语音识别方法，其特征在于包括，步骤101，采集初始语音信号；步骤102,利用谱减算法对所述初始语音信号进行去噪，得到近似纯净语音信号；步骤103,提取所述近似纯净语音信号的特征值；步骤104,对所述特征值进行倒谱均值方差归一化补偿；步骤105,根据该补偿后的语音特征向量训练隐马尔可夫模型。
2. 根据权利要求1所述的一种农产品市场要素信息采集的鲁棒性语音识别方法，其特征在于，在所述对所述特征值进行倒谱均值方差归一化补偿之后还包括，对待识别语音信号进行所述步骤101-步骤104,将得到补偿后的待识别语音特征向量输入所述隐马尔可夫模型进行识别，输出识别结果。
3. 根据权利要求1所述的一种农产品市场要素信息采集的鲁棒性语音识别方法，其特征在于，在所述利用谱减算法对所述初始语音信号进行去噪中进一步包括，利用如下公式对初始语音信号进行谱减算法：
其中，Υρ(ω)和αρ(ω)是最优减法参数，p为幂指数，|Υ(ω) |ρ是带噪语音信号谱，6(_为无语音段求得的噪声信号，是估计的噪声谱，|Χρ(ω) ^是采用理想的谱减模型条件下的近似纯净语音谱，是估计的近似纯净语音谱；参数Υρ(ω)
和αρ(ω)通过最小化频谱的均方误差得到：初始语音信号|Υ(ω)|ρ* |Χρ(ω)|ρ和噪声谱的和，对某一常数ρ成立： |Υ(ω) |ρ = |Χρ(ω) |P+|D(?) |ρ，其中，|D(c〇) |ρ是理想中噪声谱的真实值；通过计算谱误差ep (ω)的最小化均方值Ε [ {ep (ω)}2]，得到如下的最优减法参数：
其中，ξ (ω)对应于信号能量和噪声能量的比值，称为先验SNR，通过
十算得到，其中Π 为平滑常数，， 2是上一分析帧中求得的近似纯净语音的功率谱，|Υ(ω) |2是初始语音信号的功率谱，|i)(幼|2 是估计的噪声功率谱。
4. 根据权利要求3所述的一种高鲁棒性语音识别方法，其特征在于，所述η为0.98。
5. 根据权利要求1所述的一种高鲁棒性语音识别方法，其特征在于，对所述特征值进行倒谱均值方差归一化补偿进一步包括，对第t帧特征值进行倒谱均值归一化： An 并进行倒谱方差归一化：
其中，〇t为第t帧的特征值，μ t为第t帧的均值，σ t为第t帧的方差。
6.根据权利要求5所述的一种高鲁棒性语音识别方法，其特征在于，所述特征值的序列为0 = {Oi, 02，…，Ot_N，…，Oh, ot, ot+1，…，Ot+N,…，οτ}，T为所述序列的长度，采用了分段特征向量归一化方法，第t帧的均值和方差表示为：
其中，N为以t为中心点的分段长度半径，取20?40之间。
【文档编号】G10L15/14GK104157294SQ201410429563
【公开日】2014年11月19日申请日期:2014年8月27日优先权日:2014年8月27日
【发明者】诸叶平, 许金普申请人:中国农业科学院农业信息研究所

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：诸叶平;许金普
技术所有人：中国农业科学院农业信息研究所
我是此专利的发明人

上一篇：一种基于最佳相似度匹配的ip语音隐写方法
上一篇：编码方法和解码方法