基于垃圾模型的语音识别处理方法及装置的制造方法

文档序号：8944171阅读：468来源：国知局

基于垃圾模型的语音识别处理方法及装置的制造方法
【技术领域】
[0001]本申请涉及语音识别处理技术领域，尤其涉及一种基于垃圾模型的语音识别处理方法及装置。
【背景技术】
[0002]语音识别的关键词检测系统中，通常会预先设定一个集内词表，对于集内词表外的词，系统要求有拒绝识别的能力。
[0003]目前通用的做法是把所有训练数据用来训练一个通用的垃圾模型(Universalgarbage model)，或者把训练的数据划分为元音(vowel)和辅音(consonant)两类，分别训练两个垃圾模型，用来模拟不同的集外词情况。
[0004]然而，采用一个或者两个垃圾模型进行语音识别，划分的颗粒度过粗，不能很好的模拟不同的集外词情况，导致识别错误的概率较高，降低了语音识别的准确性。

【发明内容】

[0005]本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
[0006]为此，本申请的第一个目的在于提出一种基于垃圾模型的语音识别处理方法，该方法实现了建立与应用需要匹配数量的、基于音节聚类的垃圾模型，从而提高了建模组网的效率和灵活性，以及提高了语音识别处理的准确性。
[0007]本申请的第二个目的在于提出一种基于垃圾模型的语音识别处理装置。
[0008]为达上述目的，本申请第一方面实施例提出了一种基于垃圾模型的语音识别处理方法，包括:获取待处理的音节列表中与每个音节对应的三音子模型；采用预先训练的隐马尔可夫模型，根据所述三音子模型获取与每个音节对应的三音子状态序列；根据与每个音节对应的三音子状态序列，从所述音节列表中筛选出多个建模音节，其中，所述多个建模音节的数量与预先设置的垃圾模型数目相同；应用所述多个建模音节生成对应数量的多个垃圾模型，以采用所述多个垃圾模型进行语音识别处理。
[0009]本申请实施例的基于垃圾模型的语音识别处理方法，首先获取待处理的音节列表中与每个音节对应的三音子模型；然后采用预先训练的隐马尔可夫模型，根据所述三音子模型获取与每个音节对应的三音子状态序列；进而根据与每个音节对应的三音子状态序列，从所述音节列表中筛选出多个建模音节，其中，所述多个建模音节的数量与预先设置的垃圾模型数目相同；最后应用所述多个建模音节生成对应数量的多个垃圾模型，以采用所述多个垃圾模型进行语音识别处理。由此，实现了建立与应用需要匹配数量的、基于音节聚类的垃圾模型，从而提高了建模组网的效率和灵活性，以及提高了语音识别处理的准确性。
[0010]为达上述目的，本申请第二方面实施例提出了一种基于垃圾模型的语音识别处理装置，包括:第一获取模块，用于获取待处理的音节列表中与每个音节对应的三音子模型；第二获取模块，用于采用预先训练的隐马尔可夫模型，根据所述三音子模型获取与每个音节对应的三音子状态序列；处理模块，用于根据与每个音节对应的三音子状态序列，从所述音节列表中筛选出多个建模音节，其中，所述多个建模音节的数量与预先设置的垃圾模型数目相同；第一生成模块，用于应用所述多个建模音节生成对应数量的多个垃圾模型，以采用所述多个垃圾模型进行语音识别处理。
[0011]本申请实施例的基于垃圾模型的语音识别处理装置，通过第一获取模块获取待处理的音节列表中与每个音节对应的三音子模型；通过第二获取模块采用预先训练的隐马尔可夫模型，根据所述三音子模型获取与每个音节对应的三音子状态序列；通过处理模块根据与每个音节对应的三音子状态序列，从所述音节列表中筛选出多个建模音节，其中，所述多个建模音节的数量与预先设置的垃圾模型数目相同；通过第一生成模块应用所述多个建模音节生成对应数量的多个垃圾模型，以采用所述多个垃圾模型进行语音识别处理。由此，实现了建立与应用需要匹配数量的、基于音节聚类的垃圾模型，从而提高了建模组网的效率和灵活性，以及提高了语音识别处理的准确性。
【附图说明】
[0012]本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中:
[0013]图1是本申请一个实施例的基于垃圾模型的语音识别处理方法的流程图；
[0014]图2是本申请另一个实施例的基于垃圾模型的语音识别处理方法的流程图；
[0015]图3是本申请另一个实施例的基于垃圾模型的语音识别处理方法的流程图；
[0016]图4是本申请一个实施例的基于垃圾模型的语音识别处理装置的结构示意图；
[0017]图5是本申请另一个实施例的基于垃圾模型的语音识别处理装置的结构示意图；
[0018]图6是本申请另一个实施例的基于垃圾模型的语音识别处理装置的结构示意图。
【具体实施方式】
[0019]下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。
[0020]下面参考附图描述本申请实施例的基于垃圾模型的语音识别处理方法及装置。
[0021]图1是本申请一个实施例的基于垃圾模型的语音识别处理方法的流程图。
[0022]如图1所示，该基于垃圾模型的语音识别处理方法包括:
[0023]步骤101，获取待处理的音节列表中与每个音节对应的三音子模型。
[0024]具体地，根据待处理的音节列表，获取音节列表中与每个音节对应的三音子模型。其中，音节列表包括了待处理的音节集合，音节的数量根据实际应用需要和待建立的垃圾模型数量进行选择，本实施例对此不作限制，例如:四百个、二百个等等。
[0025]音节列表中的每个音节包括元音和辅音，元音即汉语拼音中的声母，辅音即汉语拼音中的韵母。所谓三音子模型是指元音和元音不能连续出现，或者辅音和辅音不能连续出现的音子模型，即在每个音节的元音之前加上静音，或者在每个音节的辅音之后加上静
■~>V.曰O
[0026]需要注意的是，音节列表中的每个音节可以带音调，也可以不带音调，如果是携带音调的音节，则音调与辅音整体处理。由此可见，三音子模型的类型有很多，从左到右依次包括:静音、元音、辅音；或者，元音、辅音、静音；或者，静音、元音、携音调的辅音；或者，元音、携音调的辅音、静音。
[0027]因此，对于音节列表中的每个音节都能获取对应的两个三音子模型，为了更加清楚的说明从音节列表中获取与每个音节对应的三音子模型，举例说明如下:
[0028]音节列表中包括“zhongl”，“guo2”，“kai”三个不同的音节，其中，“zhongl”，“guo2”带音调，“kai”不带音调，与“zhongl”对应的两个三音子模型分别为:sil-zh+ongl, zh-ongl+sil,与“guo2”对应的两个三音子模型分别为:sil-g+uo2, g-uo2+sil ;与“1^;[”对应的两个三音子模型分别为:sil_k+ai, k-ai+sil。其中sil表示静音。
[0029]步骤102，采用预先训练的隐马尔可夫模型，根据所述三音子模型获取与每个音节对应的三音子状态序列。
[0030]根据与每个音节对应的两个三音子模型匹配预先训练的隐马尔可夫模型，其中，隐马尔可夫模型经过对每个三音子模型的状态训练，生成了每个三音子模型与多个状态信息的对应关系，多个状态信息是一个隐含的非显示的参数，用于描述每个三音子模型和语音

完整全部详细技术资料下载

当前第1页1 2 3 4

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：穆向禹;彭守业;
技术所有人：百度在线网络技术（北京）有限公司;
我是此专利的发明人

上一篇：语音交互方法及装置的制造方法
上一篇：语音识别语法树的构图方法及装置的制造方法