语音识别方法和装置的制造方法_4

文档序号：9811905阅读：来源：国知局

51和识别结果提供单元52。
[0079] 其中，拒识单元51用于在最终识别结果为第一语音识别结果时，判断待识别语音数据为不符合当前场景要求的异常句法模式，并生成拒识信息并提供给用户。更具体地，在确定最终识别结果之后，可根据最终识别结果的出处来实现语音识别系统中的拒识功能。即当最终识别结果为第一语音识别结果，即最终识别结果是通过通用语言模型解码出来的语音识别结果时，拒识单元51可认为该语音更符合异常的句法模式，则可判定为用户的语音为错误回答，可生成拒识信息以提示用户回答错误。
[0080] 识别结果提供单元52用于在最终识别结果为第二语音识别结果时，判断待识别语音数据为符合当前场景要求的正常句法模式，并将第二语音识别结果作为语音识别的最终输出。更具体地，当最终识别结果为第二语音识别结果，即最终识别结果是通过定制语言模型解码出来的语音识别结果时，识别结果提供单元52可认为该语音更符合正常的句法模式，则可判为用户的语音为正确回答，此时可将该语音识别结果作为语音识别的最终输出，并可该语音识别结果提供给用户或者提供给语音交互系统，语音交互系统根据该语音识别结果进行相应的语音交互操作。
[0081] 为了进一步提升语音交互系统中的拒识能力，提高交互系统的稳定性和可靠性，优选地，在本发明的一个实施例中，可对图2所示的状态图1的语言模型进行改进，即如图4 所示，在解码过程中，状态图1使用的第一语言模型可包括通用语言模型和定制语言模型，状态图2使用的第二语言模型为定制语言模型。具体地，该解码模块30可利用图4所示的解码器而进行语音识别。如图8所示，该解码模块30可包括解码单元31、获取单元32和计算单元33。
[0082] 其中，解码单元31可用于针对语音特征中的每个单词特征，根据通用语言模型和定制语言模型同时对每个单词特征进行解码，以得到第一语音识别结果，以及每个单词特征在通用语言模型下的第一概率以及每个单词特征在定制语言模型下的第二概率。
[0083] 可以理解，由于通用语言模型的训练数据非常广泛，可以包括各种各样的句式，其中可能也包括定制语言模型的句式。因此，对于特定场景下的正常语句，通用语言模型的输出概率也可能比较高，从而会被选为最终识别结果，但是，会被错误地拒识掉。为了解决这个问题，在本实施例中，状态图1可同时使用通用语言模型和定制语言模型。
[0084] 更具体地，在语音识别的解码过程中，解码单元31可将语音特征输入到解码器进行解码，该解码器中可具有如图4所示中的解码搜索状态图1和解码搜索状态图2,该状态图 1和状态图2完全一样，其中，状态图1同时使用通用语言模型和定制语言模型，状态图2使用的是定制语言模型。在解码过程中，可将语音特征输入状态图1，用通用语言模型和定制语言模型同时进行解码搜索，可以得到该语音特征中的每个单词特征在通用语言模型下的第一概率、在定制语言模型下的第二概率。
[0085] 例如，在解码的过程中，解码单元31可将活跃路径在状态图1中行进，该状态图1同时使用通用语言模型和定制语言模型，当该活跃路径到达单词"天安门"的尾节点时，需要加上这个单词的语言模型概率，假设这个活跃路径的单词历史是"今天早上"，那么它首先在通用语言模型上根据这个词历史查询"天安门"的概率:Pl(天安门I今天早上），然后在定制语言模型上根据同样的词历史查询"天安门"的概率:P2(天安门|今天早上）。
[0086] 获取单元32可用于根据第一概率和第二概率获取每个单词特征在第一语言模型下的语言模型概率。其中，获取单元32可通过以下公式获取每个单词特征在第一语言模型下的语言模型概率：
[0088] 其中，PW为语言模型概率，庠为第一概率，巧为第二概率，α为加权系数。
[0089] 也就是说，在解码单元31得到每个单词特征在通用语言模型下的第一概率和在定制语言模型下的第二概率之后，获取单元32可将这两个概率相减作为该单词特征的最终的语言模型概率。例如，单词特征"天安门"最终的语言模型概率:Ρ(天安门I今天早上）=Ρ1 (天安门|今天早上)_a*P2(天安门|今天早上），其中a是加权系数。
[0090] 计算单元33可用于根据每个单词特征在第一语言模型下的语言模型概率计算待识别语音数据在第一语言模型下的第一累计概率。更具体地，计算单元33可将每个单词特征在第一语言模型下的语言模型概率加入到路径累积概率中，作为累计概率的一部分，最终得到待识别语音数据在第一语言模型下的累计概率(即第一累计概率）。
[0091] 可以理解，在本发明的实施例中，使用如图4所示的解码器框架以识别特定场景下的语音可存在下面几种情况:假设语音的文本词串为W，W在通用语言模型下的概率为在定制语言模型下的概率为#。如果语音是符合场景要求的正常句子，且巧远大于枝，根据上述公式（1)，由于状态图1的Pw远小于尽，因此，状态图1识别结果的累计概率远小于状态图2识别结果的累计概率，此时可判断该语音识别正常，不会被拒识;如果语音是符合场景要求的正常句子，且尽与蹲相近，根据上述公式（1)，可以调节α，使两者相减后，状态图1的 Pw小于砹，因此，状态图1识别结果的累计概率小于状态图2识别结果的累计概率，此时可判断该语音识别正常，不会被拒识;如果语音是不符合场景要求的异常句子，且远大于砹，根据上述公式（1)，两者相减后，状态图1的Pw仍然大于巧，因此，状态图1识别结果的累计概率远大于状态图2的累计概率，此时判断结果会被拒识。由此，可以看出，各种情况都得到了正确处理，进一步提高了交互系统的稳定性和可靠性。
[0092] 本发明实施例的语音识别装置，通过获取模块获取用户输入的待识别语音数据，通过提取模块提取待识别语音数据中的语音特征，通过解码模块根据第一语言模型和第二语言模型同时对语音特征进行解码，以得到第一语音识别结果和第二语音识别结果、以及待识别语音数据在第一语言模型下的第一累计概率和在第二语言模型下的第二累计概率，确定模块根据第一累计概率和第二累计概率确定最终识别结果，语音识别模块根据最终识别结果的出处判断是否对待识别语音数据进行语音识别。本发明实施例的语音识别装置能够提供稳定可靠的语音识别环境，进而保证人机通过语音进行交互的顺畅性。
[0093] 在本发明的描述中，需要理解的是，术语"第一"、"第二"仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有"第一"、"第二"的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，"多个" 的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。
[0094] 在本说明书的描述中，参考术语"一个实施例"、"一些实施例"、"示例"、"具体示例"、或"一些示例"等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
[0095] 流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。
[0096] 在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系

完整全部详细技术资料下载

当前第4页1 2 3 4 5