基于置信度的语音识别实现方法及系统与流程

文档序号:12475861阅读:1294来源:国知局
基于置信度的语音识别实现方法及系统与流程
本发明涉及的是一种应用于语音识别(SpeechRecognition)的准确、高效的置信度(ConfidenceMeasure,CM)技术,具体是一种基于音素同步解码(PhoneSynchronousDecoding),词图和混淆网络(LatticeandConfusionNetwork),辅助搜索空间(AuxiliarySearchSpace)的语音识别实现方法及系统。
背景技术
:语音识别是一种让机器通过识别和理解过程把语音信号转变为相应的文本或命令的人工智能技术。现有语音识别技术仍无法做到完全正确,置信度是一种用于评判语音识别系统自身语音识别结果可靠性的技术,一般以识别结果可靠度或识别结果概率值给出。传统语音识别置信度技术主要包括基于预测特征的置信度(PredictorfeaturesbasedCM)和基于后验概率的置信度(PosteriorbasedCM),其缺点包括:多预测特征之间往往在统计意义上不互相独立;结合多种预测特征需要额外的模型训练环节,不利于多场景应用;语音识别系统旨在得到正确的文本,而难以给出准确的后验概率,其具体体现在:基于填充物的后验概率方法既不准确同时需要额外的模型训练环节;而基于词图的后验概率方法则对搜索空间建构不全。技术实现要素:本发明针对现有技术对解码空间的竞争结果表征不完整,导致得到的置信度不准确;依赖于对语音识别各模型进行重训练,增加大量额外处理;构建解码空间的过程计算量大,导致语音识别耗时增加,不利于改善用户体验等等缺陷,提出一种基于置信度的语音识别实现方法及系统,一方面可以对语音识别的结果给出正确的置信度,从而改善语音识别用户体验,另一方面可以显著减少语音识别置信度算法的计算和内存资源消耗。本发明是通过以下技术方案实现的:本发明涉及一种基于置信度的语音识别实现方法,根据从用户语音进行音素同步解码的语音识别得到解码信息生成音素同步的词图声学信息结构,并基于词图声学信息结构生成混淆网络从而构建语音识别候选结果之间的竞争关系,即混淆网络竞争概率;同时使用基于语言模型的辅助搜索网络构建语音识别的全搜索空间,计算得到完整无损失的全搜索空间概率,并结合音素同步解码的语音识别,对生成的全搜索空间进行搜索过程记录,并由整个搜索历史进行路径回溯,从而得到全搜索空间概率;最后通过对混淆网络竞争概率和全搜索空间概率进行融合得到语音识别的判决结果。技术效果与现有技术相比,本发明提出的基于音素同步解码(PhoneSynchronousDecoding),词图和混淆网络(LatticeandConfusionNetwork),辅助搜索空间(AuxiliarySearchSpace)的语音识别置信度技术,相比较传统方法主要有以下不同:系统构建各环节传统方法本发明优点比较词图生成逐帧同步解码音素同步解码更准确,高效的生成过程全搜索空间构建基于填充物或词图辅助搜索空间建构搜索空间更全面置信度计算词图后验概率混淆网络竞争概率语音识别信息更准确附图说明图1为本发明系统示意图;图2为实施例概率输出示意图;图中:纵轴为概率值,横轴为时间轴;图3为本发明音素同步解码的语音识别示意图;图4为音素同步的词图声学信息结构示意图;图5为混淆网络示意图;图6为辅助搜索网络的生成过程示意图;图7为置信度判别示意图。具体实施方式如图1所示,本实施例系统包括:语音识别模块、词图生成模块、混淆网络竞争概率计算模块、全搜索空间概率计算模块以及置信度判别器,其中:音素同步解码的语音识别模块与词图生成模块相连并传输完整的音素信息,音素同步的词图生成模块构建紧致且无信息损失的声学信息表征并输出至混淆网络竞争概率计算模块,混淆网络竞争概率计算模块提取出音素词图内的竞争关系概率,全搜索空间概率计算模块根据音素信息构建辅助搜索空间,并进一步得到全搜索空间概率,置信度判别器根据全搜索空间概率和竞争关系概率融合得到置信度作为最终评价识别是否正确的判决结果。本发明涉及上述系统的语音识别方法,包括以下步骤:步骤1)如图3所示,对用户语音进行逐帧音素同步解码的语音识别,得到解码信息,具体包括:1.1通过建立连续时序分类模型,使得声学建模更加精确;1.2使用神经网络对连接时序分类模型进行建模,其概率输出分布具有单峰突出的特点;1.3语音识别解码时,只在出现非空白模型输出时才进行语言学网络搜索并得到解码信息,否则直接丢弃当前帧声学信息,转到下一帧。步骤2)根据步骤1所得到的解码信息,生成音素同步的词图声学信息结构,具体包括:2.1连接时序分类模型在输入每一帧声学特征信息后,得出每一帧中的音素的出现概率。所述的声学特征信息来自多种语音识别物理特征。2.2若当前声学特征信息为非空模型帧,则使用适配声学建模信息的加权有限状态机对该帧声学特征信息进行语言学信息搜索,得到音素信息并以加权有限状态机形式存储,否则丢弃该帧;最终经合并处理得到词图声学信息结构。如图4所示,所述的词图声学信息结构为基于加权有限状态机进行表示的音素同步词图,该词图不需要经过剪枝即为非常紧致的音素级词图,相比现有技术压缩比为80%;音素同步词图通过将两个不同模型输出时刻之间的所有候选的声学输出模型进行两两相连,例如:该结构相比传统方法(逐帧同步解码),理论搜索空间减小90%;理论搜索网络压缩比接近100:1。使得最终得到的语音识别信息准确、高效。步骤3)基于词图声学信息结构生成混淆网络,用于构建语音识别候选结果之间的竞争关系,即混淆网络的竞争概率,具体包括:3.1根据最优解码路径生成混淆网络聚类旗帜;3.2对各候选词的时间边界和音素信息进行聚类,并合并到混淆网络聚类旗帜上;3.3在聚类后得到的混淆网络上重新抽取最优解码路径。如图5所示,所述的竞争关系通过混淆网络表示(比如HAVE和MOVE),并基于语音识别候选结果之间的竞争关系得到竞争概率,相比传统词图后验概率更加准确。步骤4)使用基于多元语言模型构建的辅助搜索网络构建语音识别的全搜索空间,计算得到解码过程的全搜索空间概率,具体如图6所示,包括:4.1基于多元语言模型构建发音全搜索空间;4.2通过发音全搜索空间自身的上下文信息构建带上下文信息的发音搜索空间;4.3结合声学模型相应的搜索状态建模,得到最终的全搜索空间;4.2结合音素信息在全搜索空间上进行搜索,得到候选竞争单元;4.3通过候选竞争单元的语音识别解码概率,计算得到全搜索空间概率。所述的多元语言模型以音素、字或词为单位。如图6所示,所述的辅助搜索网络模拟发音全搜索空间。步骤5)结合音素同步解码的语音识别,对生成的全搜索空间进行搜索过程记录,并由整个搜索历史进行路径回溯,从而得到全搜索空间概率;并通过置信度判别器结合语音识别结果、混淆网络竞争概率和全搜索空间概率,得到最终的语音识别结果。如图7所示,所述的置信度判别器的判别过程具体为:5.1对混淆网络竞争概率和全搜索空间概率进行插值方式的融合,得到置信度;5.2当融合后的置信度小于阈值时,以语音识别模块输出作为语音识别结果;否则识别失败,要求用户重新输入。上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整,本发明的保护范围以权利要求书为准且不由上述具体实施所限,在其范围内的各个实现方案均受本发明之约束。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1