基于置信度的语音识别实现方法及系统与流程

文档序号：12475861阅读：来源：国知局

技术特征：

1.一种基于置信度的语音识别实现方法，其特征在于，根据从用户语音进行音素同步解码的语音识别得到解码信息生成音素同步的词图声学信息结构，并基于词图声学信息结构生成混淆网络从而构建语音识别候选结果之间的竞争关系，即混淆网络竞争概率；同时使用基于语言模型的辅助搜索网络构建语音识别的全搜索空间，计算得到完整无损失的全搜索空间概率，并结合音素同步解码的语音识别，对生成的全搜索空间进行搜索过程记录，并由整个搜索历史进行路径回溯，从而得到全搜索空间概率；最后通过对混淆网络竞争概率和全搜索空间概率进行融合得到语音识别的判决结果。

2.根据权利要求1所述的方法，其特征是，所述的音素同步解码，对用户语音进行逐帧音素同步解码的语音识别，得到解码信息，具体为：

1.1通过建立连续时序分类模型，使得声学建模更加精确；

1.2使用神经网络对连接时序分类模型进行建模，其概率输出分布具有单峰突出的特点；

1.3语音识别解码时，只在出现非空白模型输出时才进行语言学网络搜索并得到解码信息，否则直接丢弃当前帧声学信息，转到下一帧。

3.根据权利要求1所述的方法，其特征是，所述的词图声学信息结构，通过以下方式得到：

2.1连接时序分类模型在输入每一帧声学特征信息后，得出每一帧中的音素的出现概率；

2.2若当前声学特征信息为非空模型帧，则使用适配声学建模信息的加权有限状态机对该帧声学特征信息进行语言学信息搜索，得到音素信息并以加权有限状态机形式存储，否则丢弃该帧；最终经合并处理得到词图声学信息结构。

4.根据权利要求1或3所述的方法，其特征是，所述的词图声学信息结构为基于加权有限状态机进行表示的音素同步词图，该词图不需要经过剪枝即为非常紧致的音素级词图，音素同步词图通过将两个不同模型输出时刻之间的所有候选的声学输出模型进行两两相连。

5.根据权利要求1所述的方法，其特征是，所述的竞争关系，通过以下方式得到：

3.1根据最优解码路径生成混淆网络聚类旗帜；

3.2对各候选词的时间边界和音素信息进行聚类，并合并到混淆网络聚类旗帜上；

3.3在聚类后得到的混淆网络上重新抽取最优解码路径，最终竞争关系通过混淆网络表示，并基于语音识别候选结果之间的竞争关系得到竞争概率。

6.根据权利要求1所述的方法，其特征是，所述的全搜索空间概率，通过以下方式得到：

4.1基于多元语言模型构建发音全搜索空间；

4.2通过发音全搜索空间自身的上下文信息构建带上下文信息的发音搜索空间；

4.3结合声学模型相应的搜索状态建模，得到最终的全搜索空间；

4.2结合音素信息在全搜索空间上进行搜索，得到候选竞争单元；

4.3通过候选竞争单元的语音识别解码概率，计算得到全搜索空间概率。

7.一种实现上述任一权利要求所述方法的语音识别系统，其特征在于，包括：语音识别模块、词图生成模块、混淆网络竞争概率计算模块、全搜索空间概率计算模块以及置信度判别器，其中：音素同步解码的语音识别模块与词图生成模块相连并传输完整的音素信息，音素同步的词图生成模块构建紧致且无信息损失的声学信息表征并输出至混淆网络竞争概率计算模块，混淆网络竞争概率计算模块提取出音素词图内的竞争关系概率，全搜索空间概率计算模块根据音素信息构建辅助搜索空间，并进一步得到全搜索空间概率，置信度判别器根据全搜索空间概率和竞争关系概率融合得到置信度作为最终评价识别是否正确的判决结果。

完整全部详细技术资料下载

当前第2页1 2 3