语音识别方法和装置的制造方法

文档序号：9811905阅读：409来源：国知局

语音识别方法和装置的制造方法
【技术领域】
[0001] 本发明涉及语音识别技术领域，尤其涉及一种语音识别方法和装置。
【背景技术】
[0002] 随着语音识别技术的发展以及识别率的不断提高，语音识别技术越来越多地被应用于日常生活的各个场景中。其中，对话交互是一个非常重要的领域，用户可以通过语音与计算机进行交流，使计算机理解用户意图，完成用户的指令。一轮完整的交互过程可能包含若干个对话场景，例如"订酒店"过程，包括以下场景：首先告诉计算机所订酒店的所在城市;其次是入住时间;然后是房间类型与数量;最后是离店时间。从第一个场景开始，计算机识别用户语音，判断用户意图，根据用户意图向下一个场景跳转，直至收集到所有用户信息，完成交互过程。在每个场景下，正常的用户说话用语是符合一定模式的。因此为了提高识别引擎对用户语音的识别率，通常对每个场景下的语言模型根据常用模式进行定制优化。采用这种定制化的语言模型进行识别，对于模式匹配的语音，识别正确率会很高。但这种识别结果本身具有偏向性，如果用户答非所问，所说语句不符合当前场景的上下文要求，识别正确率就会比较低，进而容易造成语义理解上的困惑，使交互流程难以继续。
[0003] 为了避免这种情况，通过对话交互系统的拒识功能可以使得在检测到用户语音不符合当前场景要求的模式时，拒绝识别用户的语音，并请用户在该场景下再说一遍。相关技术中，该拒识方法在常规识别框架的基础上，针对识别结果采用以下两种后处理算法：（1) 第一种方法，在得到识别结果的单词序列后，在定制语言模型上计算识别结果的ppl (Perplexity，困惑度)值，如果ppl值大于预先设定的门限，则判定为拒识；（2)第二种方法，识别引擎除了输出最优识别结果外，还可以输出词网，在词网中可以计算出最优识别结果每个单词的置信度，进而加权平均得到整个句子的置信度，如果句子置信度小于预先设定的门限，则判定为拒识。
[0004] 但是，目前存在的问题是：（1)针对上述第一种方法，ppl值的动态范围比较大，是一个无界的值，针对无界值很难确定合适的门限，容易造成虚警和漏检，并且，有些识别结果虽然是错误的，但是该识别结果的ppl值可能会比较高，导致判定错误；（2)针对上述第二种方法，由于语言模型概率分布不均衡，所以会造成识别结果发生偏置的同时，也使词网难以充分包括有效的竞争候选，导致计算出的置信度不准确，导致判定错误，从而降低语音识别系统的稳定性、可靠性，并且，由于置信度不能判断识别结果是否符合场景上下文要求的模式，所以根据置信度判为正确的识别结果也有可能因为不符合场景要求而使交互流程阻塞。

【发明内容】

[0005] 本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
[0006] 为此，本发明的第一个目的在于提出一种语音识别方法，该方法稳定性好，可靠性高，能够保证人机语音交互过程的顺畅。
[0007] 本发明的第二个目的在于提出一种语音识别装置。
[0008] 为达到上述目的，本发明第一方面实施例提出了一种语音识别方法，包括:获取用户输入的待识别语音数据，提取所述待识别语音数据中的语音特征;根据第一语言模型和第二语言模型同时对所述语音特征进行解码，以得到第一语音识别结果和第二语音识别结果、以及所述待识别语音数据在所述第一语言模型下的第一累计概率和在所述第二语言模型下的第二累计概率;根据所述第一累计概率和第二累计概率确定最终识别结果;根据所述最终识别结果的出处判断是否对所述待识别语音数据进行语音识别。
[0009] 本发明实施例的语音识别方法，首先获取用户输入的待识别语音数据，并提取其语音特征，根据第一语言模型第二语言模型同时对语音特征进行解码，得到第一语音识别结果和第二语音识别结果、以及待识别语音数据在第一语言模型下的第一累计概率和在第二语言模型下的第二累计概率，然后，根据第一累计概率和第二累计概率确定最终识别结果，最后，根据最终识别结果的出处判断是否对待识别语音数据进行语音识别。本发明实施例的语音识别方法能够提供稳定可靠的语音识别环境，进而保证人机语音交互过程的顺畅。
[0010] 为达到上述目的，本发明第二方面实施例提出了一种语音识别装置，包括：
[0011] 获取模块，用于获取用户输入的待识别语音数据;提取模块，用于提取所述待识别语音数据中的语音特征;解码模块，用于根据第一语言模型和第二语言模型同时对所述语音特征进行解码，以得到第一语音识别结果和第二语音识别结果、以及所述待识别语音数据在所述第一语言模型下的第一累计概率和在所述第二语言模型下的第二累计概率;确定模块，用于根据所述第一累计概率和第二累计概率确定最终识别结果;语音识别模块，用于根据所述最终识别结果的出处判断是否对所述待识别语音数据进行语音识别。
[0012] 本发明实施例的语音识别装置，通过获取模块获取用户输入的待识别语音数据，通过提取模块提取待识别语音数据中的语音特征，通过解码模块根据第一语言模型和第二语言模型同时对语音特征进行解码，以得到第一语音识别结果和第二语音识别结果、以及待识别语音数据在第一语言模型下的第一累计概率和在第二语言模型下的第二累计概率，确定模块根据第一累计概率和第二累计概率确定最终识别结果，语音识别模块根据最终识别结果的出处判断是否对待识别语音数据进行语音识别。本发明实施例的语音识别装置能够提供稳定可靠的语音识别环境，进而保证人机通过语音进行交互的顺畅性。
[0013] 本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的时间了解到。
【附图说明】
[0014] 本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中，
[0015] 图1是根据本发明一个实施例的语音识别方法的流程图；
[0016] 图2是根据本发明一个实施例的在语音识别的解码过程的示意图；
[0017] 图3是根据本发明另一个实施例的语音识别方法的流程图；
[0018] 图4是根据本发明另一个实施例的在语音识别的解码过程的示意图；
[0019] 图5是根据本发明一个实施例的语音识别装置的结构框图；
[0020] 图6是根据本发明一个实施例的确定模块的结构框图；
[0021] 图7是根据本发明一个实施例的语音识别模块的结构框图以及 [0022]图8是根据本发明一个实施例的解码模块的结构框图。
【具体实施方式】
[0023] 下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。
[0024] 下面参考附图描述本发明实施例的语音识别方法和装置。
[0025] 图1是根据本发明一个实施例的语音识别方法的流程图。需要说明的是，本发明实施例的语音识别方法可应用于语音交互系统中。
[0026] 如图1所示，该语音识别方法包括：
[0027] S101，获取用户输入的待识别语音数据，提取待识别语音数据中的语音特征。
[0028] 具体地，在获取到用户输入的待识别语音数据之后，可通过特征提取模块等提取该待识别语音数据中的语音特征。
[0029] S102,根据第一语言模型和第二语言模型同时对语音特征进行解码，以得到第一语音识别结果和第二语音识别结果、以及待识别语音数据在第一语言模型下的第一累计概率和在第二语言模型下的第二累计概率。
[0030] 其中，在本发明的一个实施例中，第一语言模型可为通用语言模型，第二语言模型可以为定制语言模型。该通用语言模型可理解为用于描述不符合当前场景要求的异常句法模式，该定制语言模型可理解为用于描述符合当前场景要求的正常句法模式。
[0031 ]具体地，在语音识别的解码过程中，可将语音特征输入到解码器进行解码，该解码器中可具有如图2所示中的解码搜索状态图1和解码搜索状态图2,该状态图1和状态图2完全一样，其中，状态图1使用的是通用语

完整全部详细技术资料下载

当前第1页1 2 3 4 5

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：潘复平;钱胜;贺利强;黄辰;
技术所有人：百度在线网络技术（北京）有限公司;
我是此专利的发明人

上一篇：基于听觉仿生中耳蜗基底膜的声源定位方法
上一篇：语音密码设置系统及方法、语音密码验证系统及方法