语音识别方法和装置的制造方法_5

文档序号：9811905阅读：来源：国知局

统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部（电子装置），便携式计算机盘盒（磁装置），随机存取存储器（RAM)，只读存储器 (ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器），光纤装置，以及便携式光盘只读存储器(CDR0M)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。
[0097] 应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。
[0098]本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。
[0099]此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。
[0100] 上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
【主权项】
1. 一种语音识别方法，其特征在于，包括以下步骤：获取用户输入的待识别语音数据，提取所述待识别语音数据中的语音特征；根据第一语言模型和第二语言模型同时对所述语音特征进行解码，以得到第一语音识别结果和第二语音识别结果、以及所述待识别语音数据在所述第一语言模型下的第一累计概率和在所述第二语言模型下的第二累计概率；根据所述第一累计概率和第二累计概率确定最终识别结果；根据所述最终识别结果的出处判断是否对所述待识别语音数据进行语音识别。2. 如权利要求1所述的语音识别方法，其特征在于，所述根据所述最终识别结果的出处判断是否对所述待识别语音数据进行语音识别，包括：当所述最终识别结果为所述第一语音识别结果时，判断所述待识别语音数据为不符合当前场景要求的异常句法模式，并生成拒识信息并提供给所述用户；以及当所述最终识别结果为所述第二语音识别结果时，判断所述待识别语音数据为符合所述当前场景要求的正常句法模式，并将所述第二语音识别结果作为所述语音识别的最终输出。3. 如权利要求1所述的语音识别方法，其特征在于，其中，所述第一语言模型为通用语言模型，所述第二语言模型为定制语言模型。4. 如权利要求1所述的语音识别方法，其特征在于，其中，所述第一语言模型包括通用语言模型和定制语言模型，所述第二语言模型为所述定制语言模型。5. 如权利要求4所述的语音识别方法，其特征在于，所述根据第一语言模型对所述语音特征进行解码，以得到第一语音识别结果和所述待识别语音数据在所述第一语言模型下的第一累计概率，包括：针对所述语音特征中的每个单词特征，根据所述通用语言模型和定制语言模型同时对所述每个单词特征进行解码，以得到所述第一语音识别结果，以及所述每个单词特征在所述通用语言模型下的第一概率以及所述每个单词特征在所述定制语言模型下的第二概率；根据所述第一概率和所述第二概率获取所述每个单词特征在所述第一语言模型下的语言模型概率；根据所述每个单词特征在所述第一语言模型下的语言模型概率计算所述待识别语音数据在所述第一语言模型下的所述第一累计概率。6. 如权利要求1所述的语音识别方法，其特征在于，所述根据所述第一累计概率和第二累计概率确定最终识别结果，包括：判断所述第一累计概率是否大于所述第二累计概率；如果所述第一累计概率大于所述第二累计概率，则将所述第一累计概率对应的所述第一语音识别结果确定为所述最终识别结果；如果所述第一累计概率小于或等于所述第二累计概率，则将所述第二累计概率对应的所述第二语音识别结果确定为所述最终识别结果。7. -种语音识别装置，其特征在于，包括：获取模块，用于获取用户输入的待识别语音数据；提取模块，用于提取所述待识别语音数据中的语音特征；解码模块，用于根据第一语言模型和第二语言模型同时对所述语音特征进行解码，以得到第一语音识别结果和第二语音识别结果、以及所述待识别语音数据在所述第一语言模型下的第一累计概率和在所述第二语言模型下的第二累计概率；确定模块，用于根据所述第一累计概率和第二累计概率确定最终识别结果；语音识别模块，用于根据所述最终识别结果的出处判断是否对所述待识别语音数据进行语音识别。8. 如权利要求7所述的语音识别装置，其特征在于，所述语音识别模块包括：拒识单元，用于在所述最终识别结果为所述第一语音识别结果时，判断所述待识别语音数据为不符合当前场景要求的异常句法模式，并生成拒识信息并提供给所述用户；以及识别结果提供单元，用于在所述最终识别结果为所述第二语音识别结果时，判断所述待识别语音数据为符合所述当前场景要求的正常句法模式，并将所述第二语音识别结果作为所述语音识别的最终输出。9. 如权利要求8所述的语音识别装置，其特征在于，其中，所述第一语言模型为通用语言模型，所述第二语言模型为定制语言模型。10. 如权利要求8所述的语音识别装置，其特征在于，其中，所述第一语言模型包括通用语言模型和定制语言模型，所述第二语言模型为所述定制语言模型。11. 如权利要求10所述的语音识别装置，其特征在于，所述解码模块包括：解码单元，用于针对所述语音特征中的每个单词特征，根据所述通用语言模型和定制语言模型同时对所述每个单词特征进行解码，以得到所述第一语音识别结果，以及所述每个单词特征在所述通用语言模型下的第一概率以及所述每个单词特征在所述定制语言模型下的第二概率；获取单元，用于根据所述第一概率和所述第二概率获取所述每个单词特征在所述第一语言模型下的语言模型概率；计算单元，用于根据所述每个单词特征在所述第一语言模型下的语言模型概率计算所述待识别语音数据在所述第一语言模型下的所述第一累计概率。12. 如权利要求7所述的语音识别装置，其特征在于，所述确定模块包括：判断单元，用于判断所述第一累计概率是否大于所述第二累计概率；确定单元，用于在所述判断单元判断所述第一累计概率大于所述第二累计概率时，将所述第一累计概率对应的所述第一语音识别结果确定为所述最终识别结果，并在所述判断单元判断所述第一累计概率小于或等于所述第二累计概率时，将所述第二累计概率对应的所述第二语音识别结果确定为所述最终识别结果。
【专利摘要】本发明公开了一种语音识别方法和装置，其中，该方法包括：获取待识别语音数据，提取其语音特征；根据第一语言模型和第二语言模型同时对语音特征进行解码，得到第一语音识别结果和第二语音识别结果、以及在第一语言模型下的第一累计概率和在第二语言模型下的第二累计概率；根据第一累计概率和第二累计概率确定最终识别结果；根据最终识别结果的出处判断是否对待识别语音数据进行语音识别。本发明实施例的语音识别方法能够提供稳定可靠的语音识别环境，保证人机交互的顺畅性。
【IPC分类】G10L15/22, G10L15/06, G10L15/02
【公开号】CN105575386
【申请号】CN201510956467
【发明人】潘复平, 钱胜, 贺利强, 黄辰
【申请人】百度在线网络技术（北京）有限公司
【公开日】2016年5月11日
【申请日】2015年12月18日

完整全部详细技术资料下载

当前第5页1 2 3 4 5