基于垃圾模型的语音识别处理方法及装置的制造方法_4

文档序号：8944171阅读：来源：国知局

步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，〃计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(R0M)，可擦除可编辑只读存储器(EPR0M或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。
[0096]应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。
[0097]本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。
[0098]此外，在本申请各个实施例中的各功能单元可以集成在一个第一处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。
[0099]上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。
【主权项】
1.一种基于垃圾模型的语音识别处理方法，其特征在于，包括以下步骤: 获取待处理的音节列表中与每个音节对应的三音子模型；采用预先训练的隐马尔可夫模型，根据所述三音子模型获取与每个音节对应的三音子状态序列；根据与每个音节对应的三音子状态序列，从所述音节列表中筛选出多个建模音节，其中，所述多个建模音节的数量与预先设置的垃圾模型数目相同；应用所述多个建模音节生成对应数量的多个垃圾模型，以采用所述多个垃圾模型进行语音识别处理。2.如权利要求1所述的基于垃圾模型的语音识别处理方法，其特征在于，所述三音子模型的类型，从左到右依次包括: 静音、元音、辅音；或者，元音、辅音、静音；或者，静音、元音、携音调的辅音；或者，元音、携音调的辅音、静音。3.如权利要求1所述的基于垃圾模型的语音识别处理方法，其特征在于，所述根据与每个音节对应的三音子状态序列，从所述音节列表中筛选出多个建模音节，包括: 计算每两个三音子状态序列之间的距离；将所述距离低于预设的门限值的音节从所述音节列表中删除；若判断获知剩余的音节数量与预先设置的垃圾模型数目相同，则停止删除，若判断获知剩余的音节数量大于预先设置的垃圾模型数目，调整所述门限值，继续删除。4.如权利要求1-3任一所述的基于垃圾模型的语音识别处理方法，其特征在于，所述应用所述多个建模音节生成对应数量的多个垃圾模型之后，所述方法还包括: 采用所述多个垃圾模型生成拒识网络；应用所述拒识网络和预先建立的识别网络建立语音识别网络。5.如权利要求4所述的基于垃圾模型的语音识别处理方法，其特征在于，还包括: 采用所述语音识别网络对输入的语音指令进行识别；若判断获知所述拒识网络的识别权重大于所述识别网络，则确定所述语音指令属于集外词，输出拒识响应；若判断获知所述拒识网络的识别权重小于所述识别网络，则确定所述语音指令属于预设的集内词表，输出识别结果。6.一种基于垃圾模型的语音识别处理装置，其特征在于，包括: 第一获取模块，用于获取待处理的音节列表中与每个音节对应的三音子模型；第二获取模块，用于采用预先训练的隐马尔可夫模型，根据所述三音子模型获取与每个音节对应的三音子状态序列；处理模块，用于根据与每个音节对应的三音子状态序列，从所述音节列表中筛选出多个建模音节，其中，所述多个建模音节的数量与预先设置的垃圾模型数目相同；第一生成模块，用于应用所述多个建模音节生成对应数量的多个垃圾模型，以采用所述多个垃圾模型进行语音识别处理。7.如权利要求6所述的基于垃圾模型的语音识别处理装置，其特征在于，所述三音子模型的类型从左到右依次包括: 静音、元音、辅音；或者，元音、辅音、静音；或者，静音、元音、携音调的辅音；或者，元音、携音调的辅音、静音。8.如权利要求6所述的基于垃圾模型的语音识别处理装置，其特征在于，所述处理模块，包括: 计算单元，用于计算每两个三音子状态序列之间的距离；删除单元，用于将所述距离低于预设的门限值的音节从所述音节列表中删除；判断单元，用于若判断获知剩余的音节数量与预先设置的垃圾模型数目相同，则停止删除，若判断获知剩余的音节数量大于预先设置的垃圾模型数目，则调整所述门限值，继续删除。9.如权利要求6-8任一所述的基于垃圾模型的语音识别处理装置，其特征在于，还包括: 第二生成模块，用于采用所述多个垃圾模型生成拒识网络；组网模块，用于应用所述拒识网络和预先建立的识别网络建立语音识别网络。10.如权利要求9所述的基于垃圾模型的语音识别处理装置，其特征在于，还包括: 识别模块，用于采用所述语音识别网络对输入的语音指令进行识别；输出模块，用于若判断获知所述拒识网络的识别权重大于所述识别网络，则确定所述语音指令属于集外词，输出拒识响应；若判断获知所述拒识网络的识别权重小于所述识别网络，则确定所述语音指令属于预设的集内词表，输出识别结果。
【专利摘要】本申请提出一种基于垃圾模型的语音识别处理方法和装置，其中，该方法包括：获取待处理的音节列表中与每个音节对应的三音子模型；采用预先训练的隐马尔可夫模型，根据所述三音子模型获取与每个音节对应的三音子状态序列；根据与每个音节对应的三音子状态序列，从所述音节列表中筛选出多个建模音节，其中，所述多个建模音节的数量与预先设置的垃圾模型数目相同；应用所述多个建模音节生成对应数量的多个垃圾模型。实现了建立与应用需要匹配数量的、基于音节聚类的垃圾模型，从而提高了建模组网的效率和灵活性，以及提高了语音识别处理的准确性。
【IPC分类】G10L15/187, G10L15/14
【公开号】CN105161096
【申请号】CN201510609522
【发明人】穆向禹, 彭守业
【申请人】百度在线网络技术（北京）有限公司
【公开日】2015年12月16日
【申请日】2015年9月22日

完整全部详细技术资料下载

当前第4页1 2 3 4