语音识别方法和装置的制造方法_3

文档序号：9811905阅读：来源：国知局

天早上）。
[0051] S303,根据第一概率和第二概率获取每个单词特征在第一语言模型下的语言模型概率。
[0052] 具体而言，在本发明的实施例中，可通过以下公式获取每个单词特征在第一语言模型下的语言模型概率：
[0054] 其中，Pw为语言模型概率，对为第一概率，C为第二概率，α为加权系数。
[0055] 也就是说，在得到每个单词特征在通用语言模型下的第一概率和在定制语言模型下的第二概率之后，可将这两个概率相减作为该单词特征的最终的语言模型概率。例如，单词特征"天安门"最终的语言模型概率:Ρ(天安门I今天早上）=Ρ1(天安门I今天早上)_a*P2 (天安门|今天早上），其中a是加权系数。
[0056] S304,根据每个单词特征在第一语言模型下的语言模型概率计算待识别语音数据在第一语言模型下的第一累计概率。
[0057]具体地，可将每个单词特征在第一语言模型下的语言模型概率加入到路径累积概率中，作为累计概率的一部分，最终得到待识别语音数据在第一语言模型下的累计概率(即第一累计概率）。
[0058] S305,根据第二语言模型对语音特征进行解码，以得到第二语音识别结果和待识别语音数据在第二语言模型下的第二累计概率。
[0059]需要说明的是，在本发明的实施例中，步骤S302和步骤S305可同时被执行。
[0060] S306,根据第一累计概率和第二累计概率确定最终识别结果。
[0061]具体地，可以判断第一累计概率是否大于第二累计概率，如果第一累计概率大于第二累计概率，则将第一累计概率对应的第一语音识别结果确定为最终识别结果；以及如果第一累计概率小于或等于第二累计概率，则将第二累计概率对应的第二语音识别结果确定为最终识别结果。
[0062] S307,当最终识别结果为第一语音识别结果时，判断待识别语音数据为不符合当前场景要求的异常句法模式，并生成拒识信息并提供给用户。
[0063] S308,当最终识别结果为第二语音识别结果时，判断待识别语音数据为符合当前场景要求的正常句法模式，并将第二语音识别结果作为语音识别的最终输出。
[0064] 可以理解，在本发明的实施例中，使用如图4所示的解码器框架以识别特定场景下的语音可存在下面几种情况:假设语音的文本词串为W，W在通用语言模型下的概率为<，在定制语言模型下的概率为如果语音是符合场景要求的正常句子，且#远大于禮，根据上述公式（1)，由于状态图1的Pw远小于戽，因此，状态图1识别结果的累计概率远小于状态图2识别结果的累计概率，此时可判断该语音识别正常，不会被拒识;如果语音是符合场景要求的正常句子，且埸与#相近，根据上述公式（1)，可以调节α，使两者相减后，状态图1 的Pw小于#，因此，状态图1识别结果的累计概率小于状态图2识别结果的累计概率，此时可判断该语音识别正常，不会被拒识；如果语音是不符合场景要求的异常句子，且枚远大于校，根据上述公式（1)，两者相减后，状态图1的Pw仍然大于#，因此，状态图1识别结果的累计概率远大于状态图2的累计概率，此时判断结果会被拒识。
[0065] 举例而言，如果用户输入语音数据:我要订酒店，则在识别的解码过程中，该语音数据在通用语言模型下的第一概率#为〇,在定制语言模型下的第二概率巧为1，即$远大于蹲4艮据公式（1)，状态图1的Pw远小于私，因此，状态图1识别结果的累计概率远小于状态图2,识别正常，不会被拒识，输出结果为"我要订酒店"；进一步地，语音交互系统:请选择所订酒店地点，用户：天真热，则在识别的解码的过程中，该语音数据在通用语言模型下的第一概率4为1，在定制语言模型下的第二概率6为〇,琯远大于#，根据公式（1)，两者相减后，状态图1的Pw仍然大于碟，因此，状态图1识别结果的累计概率远大于状态图2的累计概率，结果会被拒识，并生成拒识信息，例如"请再说一次"。如果用户输入语音数据:天真热呀，去订酒店，则在识别的解码的过程中，该语音数据在通用语言模型下的第一概率#为 1，在定制语言模型下的第二概率校为0.6,饜与蹲相近，根据公式（1)，可以调节α，例如α 为1，两者相减后，状态图1的Pw为0.4小于尽，因此，状态图1识别结果的累计概率小于状态图2,识别正常，不会被拒识，输出结果为"订酒店"。由此，可以看出，各种情况都得到了正确处理，进一步提高了交互系统的稳定性和可靠性。
[0066] 本发明实施例的语音识别方法，针对语音特征中的每个单词特征，可根据通用语言模型和定制语言模型同时对每个单词特征进行解码，以得到第一语音识别结果，以及每个单词特征在通用语言模型下的第一概率以及每个单词特征在定制语言模型下的第二概率，之后，可根据第一概率和第二概率以获取待每个单词特征在第一语言模型下的语言模型概率，最后根据每个单词特征在第一语言模型下的语言模型概率计算待识别语音数据在第一语言模型下的第一累计概率，即在解码过程中，通过使用图4所示的解码器而进行语音识别所得到的识别结果，可以进一步提升语音交互系统中的拒识能力，提高交互系统的稳定性和可靠性。
[0067] 为了实现上述实施例，本发明还提出了一种语音识别装置。
[0068] 图5是根据本发明一个实施例的语音识别装置的结构框图。
[0069]如图5所示，该语音识别装置包括:获取模块10、提取模块20、解码模块30、确定模块40和语音识别模块50。
[0070] 具体地，获取模块10用于获取用户输入的待识别语音数据。
[0071] 提取模块20用于提取待识别语音数据中的语音特征。更具体地，在获取模块10获取到用户输入的待识别语音数据之后，提取模块20可通过特征提取模块等提取该待识别语音数据中的语音特征。
[0072]解码模块30用于根据第一语言模型和第二语言模型同时对语音特征进行解码，以得到第一语音识别结果和第二语音识别结果、以及待识别语音数据在第一语言模型下的第一累计概率和在第二语言模型下的第二累计概率。其中，在本发明的一个实施例中，第一语言模型可为通用语言模型，该通用语言模型可理解为用于描述不符合当前场景要求的异常句法模式。
[0073]更具体地，在语音识别的解码过程中，解码模块30可将语音特征输入到解码器进行解码，该解码器中可具有如图2所示中的解码搜索状态图1和解码搜索状态图2,该状态图 1和状态图2完全一样，其中，状态图1使用的是通用语言模型，状态图2使用的是定制语言模型，该定制语言模型可理解为用于描述符合当前场景要求的正常句法模式。在本步骤中，可将语音特征输入到状态图1上以进行解码搜索，可以得到对应的第一语音识别结果，以及该待识别语音数据在该通用语言模型下的输出概率，即第一累计概率。
[0074]在语音识别的解码过程中，解码模块30在解码模块30将语音特征输入到状态图1 上以进行解码搜索的同时，还可将语音特征输入到如图2所示中的状态图2上以进行解码搜索，如上述状态图2使用的是定制语言模型，可以得到对应的第二语音识别结果以及该待识别语音数据在该定制语言模型下的输出概率，即第二累计概率。
[0075]确定模块40用于根据第一累计概率和第二累计概率确定最终识别结果。
[0076] 具体而言，在本发明的一个实施例中，如图6所示，该确定模块40可以包括:判断单元41和确定单元42。其中，判断单元41用于判断第一累计概率是否大于第二累计概率;确定单元42用于在判断单元41判断第一累计概率大于第二累计概率时，将第一累计概率对应的第一语音识别结果确定为最终识别结果，并在判断单元41判断第一累计概率小于或等于第二累计概率时，将第二累计概率对应的第二语音识别结果确定为最终识别结果。也就是说，可将第一累计概率和第二累计概率中最大值所对应的语音识别结果作为最终识别结果。
[0077] 语音识别模块50可用于根据最终识别结果的出处判断是否对待识别语音数据进行语音识别。具体地，语音识别模块50可根据最终识别结果的出处来判断待识别语音数据是否满足当前场景下的正常句法模式，并根据判断结果进行相应的操作。
[0078] 具体而言，在本发明的一个实施例中，如图7所示，该语音识别模块50可包括拒识单元

完整全部详细技术资料下载

当前第3页1 2 3 4 5