一种非特定人孤立词语音识别装置的制作方法

文档序号：2832409阅读：316来源：国知局

专利名称：一种非特定人孤立词语音识别装置的制作方法
技术领域：
本实用新型涉及自动语音识别技术领域，特别是一种非特定人孤立词语音识别装置。
背景技术：
近年来非特定人孤立词语音识别技术(IWR)取得了巨大的发展，识别率达到99％以上。目前在非特定人IWR系统中普遍采用两种方法一种是整词建模，整词匹配的方法；一种是基于声韵母建模和词树搜索的方法。
第一种方法把词作为建模和识别单元，状态的数目n与词所包含的音子的数目保持基本一致，一般选择2-10。在模型训练阶段中采用K均值聚类方法，首先把该词对应的所有训练语音平均分成n段以对应于n个状态，计算初始模型参数，即每个状态的观察数据的均值和方差；再运用Viterbi算法找到每个训练语音和临时模型匹配的最佳路径，回溯得到语音对应的新的状态序列；然后重新计算模型参数，经过3-4迭代即可得到最终模型。在识别阶段，运用Viterbi算法计算输入语音和所有候选模型的似然得分，得分中的最大值所对应的词即为识别结果。整词建模方法的优点是计算量小，识别率高；缺点是需要采集大量的训练语音，这给实际应用带来了不便。
第二种基于声韵母建模和词树搜索的算法在识别时采用基于词树的一遍或多遍路径搜索算法。在建模阶段，首先要选择声学建模单元，针对汉语的特点，一般选择声韵母作为声学建模的基本单元，每个单元用隐马尔可夫模型(HMM)建模。然后利用大量训练数据和一个初始模型，把语音按照HMM的输出状态切分开来并转化成特征序列的形式，并根据语音的上下文信息对其进行标注。最后对标注后的特征集在包含了问题集的决策树上进行决策聚类，得到高精度的三音子模型，经过在决策树上的退化训练，又可以得到上下文无关的Basephone模型。在识别阶段，一般采用基于词树框架的宽度优先搜索算法(如Beam Search)或深度优先的搜索算法(如A*Search)。该算法的优点是建模精度高，可以适用于较大规模的词表，而且使用时无需训练，更改词表方便，有利于实际应用；缺点是算法复杂，需要的存储空间大，而且识别时会引入搜索误差，从而引起识别率的下降。

发明内容
本实用新型的目的在于提出一种新的孤立词语音识别装置，以满足无需训练的中小词表非特定人孤立词语音识别要求。
本实用新型提出了一种新的非特定人孤立词语音识别装置。实用新型的基本特征是对于给定的词表不需要采集语音进行训练来得到模型，而是直接把声韵母或音节作为基元，将已事先训练好的基元模型按照词的声韵母或音节序列拼接得到整词模型，识别时采用整词匹配算法。
一种非特定人孤立词语音识别装置，由数据采集装置、数据处理装置、数据存储装置、识别结果输出装置组成，其特征在于数据采集装置，用于采集语音数据，并把它送给DSP进行处理；数据处理装置，主要完成处理语音数据和识别；数据存储装置，主要存储程序代码和初始化数据，在系统启动时加载；识别结果输出装置，完成把识别结果转化为相应控制信号；数据采集装置连接于数据存储装置、数据存储装置、识别结果输出装置。

图1是本实用新型的孤立词语音识别装置图。
具体实施方式
图1为孤立词语音识别装置图，按照功能的不同可以划分为4个装置1、数据采集装置。包括话筒(M1)，模拟接口芯片TLC320AD50及放大电路(M2)。该装置用于采集语音数据，并把它送给DSP进行处理。
2、数据处理装置。数据处理装置由DSP(M3)组成，DSP(数字信号处理器)是整个识别系统最核心的部分，主要完成处理语音数据和识别的功能。数据处理装置也可以由ARM或单片机等微处理芯片代替。
3、数据存储装置。数据存储装置由SRAM(静态存储器)(M4)和FLASH(闪存)(M5)组成。其中SRAM提供程序运行所需要的临时空间；FLASH是一种可电擦除的只读存储器，主要存储程序代码和初始化数据，在系统启动时加载。
4、识别结果输出装置。识别结果输出装置主要由DSP的McBSP接口(M6)和RS232接口(M7)组成。完成把识别结果转化为相应控制信号的功能。
权利要求1.一种非特定人孤立词语音识别装置，由数据采集装置、数据处理装置、数据存储装置、识别结果输出装置组成，其特征在于数据采集装置，用于采集语音数据，并把它送给DSP进行处理；数据处理装置，主要完成处理语音数据和识别；数据存储装置，主要存储程序代码和初始化数据，在系统启动时加载；识别结果输出装置，完成把识别结果转化为相应控制信号；数据采集装置连接于数据存储装置、数据存储装置、识别结果输出装置。
2.根据权利要求1所述的非特定人孤立词语音识别装置，其特征在于，数据采集装置，包括话筒(M1)，模拟接口芯片及放大电路(M2)；该装置用于采集语音数据，并把它送给DSP进行处理。
3.根据权利要求1所述的非特定人孤立词语音识别装置，其特征在于，数据处理装置由DSP(M3)组成，DSP是整个识别系统最核心的部分，数据处理装置也可以由ARM或单片机等微处理芯片代替。
4.根据权利要求1所述的非特定人孤立词语音识别装置，其特征在于，数据存储装置由SRAM(M4)和FLASH(M5)组成，其中SRAM提供程序运行所需要的临时空间；FLASH是一种可电擦除的只读存储器，主要存储程序代码和初始化数据，在系统启动时加载。
5.根据权利要求1所述的非特定人孤立词语音识别装置，其特征在于，识别结果输出装置，识别结果输出装置主要由DSP的McBSP接口(M6)和RS232接口(M7)组成。
专利摘要本实用新型涉及自动语音识别技术领域，特别是一种非特定人孤立词语音识别装置。装置包括数据采集装置、数据处理装置、数据存储装置、识别结果输出装置。本实用新型的方法可满足无需训练的中小词表非特定人孤立词语音识别要求。可用于非特定人孤立词语音识别中。
文档编号G10L15/00GK2724146SQ20042008479
公开日2005年9月7日申请日期2004年8月27日优先权日2004年8月27日
发明者李成荣, 李峰, 浦剑涛, 岳红强申请人:中国科学院自动化研究所

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李成荣;李峰;浦剑涛;岳红强
技术所有人：中国科学院自动化研究所
我是此专利的发明人