语音识别方法及装置、存储介质、电子设备与流程

文档序号:13426868阅读:146来源:国知局

本公开涉及语音识别领域,具体地,涉及一种语音识别方法及装置、存储介质、电子设备。



背景技术:

随着人工智能技术的不断突破,以及各种智能终端的日益普及,人机交互在人们日常工作、生活中出现的频率越来越高。语音作为最方便、最快捷的交互方式之一,其识别俨然已成为人机交互的重要环节。

近年来,随着深度神经网络技术的风靡,相比于传统的基于gmm(英文:gaussianmixturemodel,中文:高斯混合模型)的语音识别系统的识别效果,基于神经网络的语音识别系统的识别效果已有了显著提升,在此基础上,本领域技术人员仍在不断追求识别效果的提升,对应于此,个性化语音识别方案俨然成为了当下研究的热点。

个性化语音识别方案在一定程度上解决了通用语音识别方案存在的因说话人、说话风格、说话环境等因素导致的识别效果差的问题,但是,个性化语音识别方案中可能存在因训练数据不足出现过拟合的现象,进而影响语音识别效果。也就是说,不论是通用语音识别方案,还是个性化语音识别方案,均在一定程度上存在语音识别效果差的问题。

通常,通用语音识别方案指的是,基于通用识别模型实现语音识别的方案,通用识别模型可以包括通用声学模型和通用语言模型。个性化语音识别方案指的是,基于个性化识别模型实现语音识别的方案,个性化识别模型可以体现为以下三种情况:个性化声学模型和通用语言模型,或者,通用声学模型和个性化语言模型,或者,个性化声学模型和个性化语言模型。



技术实现要素:

本公开的主要目的是提供一种语音识别方法及装置、存储介质、电子设备,可以提高正确识别结果的命中率,使语音识别具有良好的识别效果。

为了实现上述目的,本公开第一方面提供一种语音识别方法,所述方法包括:

分别利用通用识别模型、个性化识别模型对待识别语音数据进行语音识别,得到各识别模型对应的候选筛选结果;

获得待识别语音数据与历史语音数据在声学层面的第一匹配度,和/或所述待识别语音数据与所述历史语音数据在文本层面的第二匹配度;

结合所述第一匹配度和/或所述第二匹配度,利用预先构建的候选筛选模型,从所述候选筛选结果中确定出所述待识别语音数据对应的语音识别结果。

可选地,所述历史语音数据包括通用历史语音数据和个性化历史语音数据,且基于从所述通用历史语音数据中提取的发音特征预先构建第一高斯混合模型,基于从所述个性化历史语音数据中提取的发音特征预先构建第二高斯混合模型,则

所述获得待识别语音数据与历史语音数据在声学层面的第一匹配度,包括:

结合从所述待识别语音数据中提取的发音特征,利用所述第一高斯混合模型获得所述待识别语音数据与所述通用历史语音数据在声学层面的第一子匹配度,并利用所述第二高斯混合模型获得所述待识别语音数据与所述个性化历史语音数据在声学层面的第二子匹配度;

所述第一子匹配度与所述第二子匹配度的集合作为所述第一匹配度。

可选地,所述历史语音数据包括通用历史语音数据和个性化历史语音数据,且基于从所述通用历史语音数据中提取的发音特征计算得到第一发音特征均值,基于从所述个性化历史语音数据中提取的发音特征计算得到第二发音特征均值,则

所述获得待识别语音数据与历史语音数据在声学层面的第一匹配度,包括:

提取所述待识别语音数据的发音特征,计算所述待识别语音数据的发音特征与所述第一发音特征均值之间的第三子匹配度,以及所述待识别语音数据的发音特征与所述第二发音特征均值之间的第四子匹配度;

所述第三子匹配度与所述第四子匹配度的集合作为所述第一匹配度。

可选地,所述历史语音数据包括通用历史语音数据和个性化历史语音数据,且基于在通用语言模型上计算出的所述通用历史语音数据的混淆度ppl值,预先构建第三高斯模型;基于在个性化语言模型上计算出的所述个性化历史语音数据的ppl值,预先构建第四高斯模型,则

所述获得待识别语音数据与历史语音数据在文本层面的第二匹配度,包括:

在所述通用语言模型上计算所述待识别语音数据的第一ppl值,并利用所述第三高斯模型得到所述第一ppl值对应的第五子匹配度;

在所述个性化语言模型上计算所述待识别语音数据的第二ppl值,并利用所述第四高斯模型得到所述第二ppl值对应的第六子匹配度;

所述第五子匹配度与所述第六子匹配度的集合作为所述第二匹配度。

可选地,所述历史语音数据包括通用历史语音数据和个性化历史语音数据,且基于在通用语言模型上计算出的所述通用历史语音数据的混淆度ppl值,获得第一ppl均值,基于在个性化语言模型上计算出的所述个性化历史语音数据的ppl值,获得第二ppl均值,则

所述获得待识别语音数据与历史语音数据在文本层面的第二匹配度,包括:

在所述通用语言模型上计算所述待识别语音数据的第一ppl值,并计算所述第一ppl值与所述第一ppl均值之间的第七子匹配度;

在所述个性化语言模型上计算所述待识别语音数据的第二ppl值,并计算所述第二ppl值与所述第二ppl均值之间的第八子匹配度;

所述第七子匹配度与所述第八子匹配度的集合作为所述第二匹配度。

可选地,构建所述候选筛选模型的方式为:

获取模型训练语音数据,所述模型训练语音数据包括通用训练语音数据和个性化训练语音数据;

利用所述模型训练语音数据,获得训练用匹配度,所述训练用匹配度包括:所述模型训练语音数据与所述历史语音数据在声学层面的训练用第一匹配度,和/或所述模型训练语音数据与所述历史语音数据在文本层面的训练用第二匹配度;

确定所述候选筛选模型的拓扑结构;

利用所述训练用匹配度和拓扑结构,训练得到所述候选筛选模型,所述候选筛选模型用于确定各识别模型对应的候选筛选结果的数目。

可选地,在所述从所述候选筛选结果中确定出所述待识别语音数据对应的语音识别结果之前,所述方法还包括:

提取所述候选筛选结果的重排序特征,基于预先构建的候选重排序模型,修正所述候选筛选结果的排序。

可选地,所述重排序特征包括以下项目中的至少一项:

由所述候选筛选结果中各词单元对应的识别后验概率,计算得到的识别后验概率均值,所述识别后验概率包括声学模型后验概率和语言模型后验概率;

由所述候选筛选结果中各词单元对应的竞争词数目,计算得到的竞争词数目均值;

由所述待识别语音数据中各数据帧对应的声学模型后验概率,计算得到的声学后验概率均值。

可选地,构建所述候选重排序模型的方式为:

获取模型训练语音数据,所述模型训练语音数据包括通用训练语音数据和个性化训练语音数据;

分别利用所述通用识别模型、所述个性化识别模型对所述模型训练语音数据进行语音识别,得到各识别模型对应的训练用候选筛选结果;

提取所述训练用候选筛选结果的重排序特征,并对所述训练用候选筛选结果的排序进行人工标注;

确定所述候选重排序模型的拓扑结构;

利用所述训练用候选筛选结果的重排序特征和所述拓扑结构,训练得到所述候选重排序模型,所述候选重排序模型用于修正所述训练用候选筛选结果的排序,以使修正后的排序与所述人工标注的排序相符。

本公开第二方面提供一种语音识别装置,所述装置包括:

语音识别模块,用于分别利用通用识别模型、个性化识别模型对待识别语音数据进行语音识别,得到各识别模型对应的候选筛选结果;

匹配度获得模块,用于获得待识别语音数据与历史语音数据在声学层面的第一匹配度,和/或所述待识别语音数据与所述历史语音数据在文本层面的第二匹配度;

语音识别结果确定模块,用于结合所述第一匹配度和/或所述第二匹配度,利用预先构建的候选筛选模型,从所述候选筛选结果中确定出所述待识别语音数据对应的语音识别结果。

可选地,所述历史语音数据包括通用历史语音数据和个性化历史语音数据,且基于从所述通用历史语音数据中提取的发音特征预先构建第一高斯混合模型,基于从所述个性化历史语音数据中提取的发音特征预先构建第二高斯混合模型,则

所述匹配度获得模块,用于结合从所述待识别语音数据中提取的发音特征,利用所述第一高斯混合模型获得所述待识别语音数据与所述通用历史语音数据在声学层面的第一子匹配度,并利用所述第二高斯混合模型获得所述待识别语音数据与所述个性化历史语音数据在声学层面的第二子匹配度;所述第一子匹配度与所述第二子匹配度的集合作为所述第一匹配度。

可选地,所述历史语音数据包括通用历史语音数据和个性化历史语音数据,且基于从所述通用历史语音数据中提取的发音特征计算得到第一发音特征均值,基于从所述个性化历史语音数据中提取的发音特征计算得到第二发音特征均值,则

所述匹配度获得模块,用于提取所述待识别语音数据的发音特征,计算所述待识别语音数据的发音特征与所述第一发音特征均值之间的第三子匹配度,以及所述待识别语音数据的发音特征与所述第二发音特征均值之间的第四子匹配度;所述第三子匹配度与所述第四子匹配度的集合作为所述第一匹配度。

可选地,所述历史语音数据包括通用历史语音数据和个性化历史语音数据,且基于在通用语言模型上计算出的所述通用历史语音数据的混淆度ppl值,预先构建第三高斯模型;基于在个性化语言模型上计算出的所述个性化历史语音数据的ppl值,预先构建第四高斯模型,则

所述匹配度获得模块,用于在所述通用语言模型上计算所述待识别语音数据的第一ppl值,并利用所述第三高斯模型得到所述第一ppl值对应的第五子匹配度;在所述个性化语言模型上计算所述待识别语音数据的第二ppl值,并利用所述第四高斯模型得到所述第二ppl值对应的第六子匹配度;所述第五子匹配度与所述第六子匹配度的集合作为所述第二匹配度。

可选地,所述历史语音数据包括通用历史语音数据和个性化历史语音数据,且基于在通用语言模型上计算出的所述通用历史语音数据的混淆度ppl值,获得第一ppl均值,基于在个性化语言模型上计算出的所述个性化历史语音数据的ppl值,获得第二ppl均值,则

所述第二匹配度获得模块,用于在所述通用语言模型上计算所述待识别语音数据的第一ppl值,并计算所述第一ppl值与所述第一ppl均值之间的第七子匹配度;在所述个性化语言模型上计算所述待识别语音数据的第二ppl值,并计算所述第二ppl值与所述第二ppl均值之间的第八子匹配度;所述第七子匹配度与所述第八子匹配度的集合作为所述第二匹配度。

可选地,所述装置还包括:

候选筛选模型构建模块,用于获取模型训练语音数据,所述模型训练语音数据包括通用训练语音数据和个性化训练语音数据;利用所述模型训练语音数据,获得训练用匹配度,所述训练用匹配度包括:所述模型训练语音数据与所述历史语音数据在声学层面的训练用第一匹配度,和/或所述模型训练语音数据与所述历史语音数据在文本层面的训练用第二匹配度;确定所述候选筛选模型的拓扑结构;利用所述训练用匹配度和拓扑结构,训练得到所述候选筛选模型,所述候选筛选模型用于确定各识别模型对应的候选筛选结果的数目。

可选地,所述装置还包括:

排序修正模块,用于在所述语音识别结果确定模块确定所述语音识别结果之前,提取所述候选筛选结果的重排序特征,基于预先构建的候选重排序模型,修正所述候选筛选结果的排序。

可选地,所述重排序特征包括以下项目中的至少一项:

由所述候选筛选结果中各词单元对应的识别后验概率,计算得到的识别后验概率均值,所述识别后验概率包括声学模型后验概率和语言模型后验概率;

由所述候选筛选结果中各词单元对应的竞争词数目,计算得到的竞争词数目均值;

由所述待识别语音数据中各数据帧对应的声学模型后验概率,计算得到的声学后验概率均值。

可选地,所述装置还包括:

候选重排序模型构建模块,用于获取模型训练语音数据,所述模型训练语音数据包括通用训练语音数据和个性化训练语音数据;分别利用所述通用识别模型、所述个性化识别模型对所述模型训练语音数据进行语音识别,得到各识别模型对应的训练用候选筛选结果;提取所述训练用候选筛选结果的重排序特征,并对所述训练用候选筛选结果的排序进行人工标注;确定所述候选重排序模型的拓扑结构;利用所述训练用候选筛选结果的重排序特征和所述拓扑结构,训练得到所述候选重排序模型,所述候选重排序模型用于修正所述训练用候选筛选结果的排序,以使修正后的排序与所述人工标注的排序相符。

本公开第三方面提供一种存储设备,其中存储有多条指令,所述指令由处理器加载,执行上述语音识别方法的步骤。

本公开第四方面提供一种电子设备,所述电子设备包括;

上述的存储设备;以及

处理器,用于执行所述存储设备中的指令。

本公开方案,可以利用通用识别模型对待识别语音数据进行语音识别,得到通用识别模型对应的候选筛选结果;同时,还可以利用个性化识别模型对待识别语音数据进行语音识别,得到个性化语音识别模型对应的候选筛选结果;然后,再结合待识别语音数据与历史语音数据在声学层面和/或文本层面的匹配度,以及预先构建的候选筛选模型,从两种识别模型对应的候选筛选结果中确定出待识别语音数据对应的语音识别结果。如此方案,充分利用了两种识别模型的优点,有助于提高正确识别结果的命中率,使语音识别具有良好的识别效果。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:

图1为本公开方案语音识别方法的流程示意图;

图2为本公开方案中获取第一匹配度的方法实施例1的流程示意图;

图3为本公开方案中获取第一匹配度的方法实施例2的流程示意图;

图4为本公开方案中获取第二匹配度的方法实施例1的流程示意图;

图5为本公开方案中获取第二匹配度的方法实施例2的流程示意图;

图6为本公开方案中构建候选筛选模型的流程示意图;

图7为本公开方案中构建候选重排序模型的流程示意图;

图8为本公开方案语音识别装置的构成示意图;

图9为本公开方案用于语音识别的电子设备的结构示意图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。

参见图1,示出了本公开语音识别方法的流程示意图。可以包括以下步骤:

s101,分别利用通用识别模型、个性化识别模型对待识别语音数据进行语音识别,得到各识别模型对应的候选筛选结果。

本公开方案可以结合通用识别模型和个性化识别模型,实现语音识别,有助于充分利用各识别模型的优点。例如,可以利用通用识别模型在语音识别的普适性、鲁棒性方面的优势,利用个性化识别模型在语音识别的匹配度、精准度方面的优势。如此方案,可以有效提高正确识别结果的命中率,使语音识别具有良好的识别效果,进而提升用户体验。

进行语音识别时,可以先获取待识别语音数据。作为一种示例,可以通过智能终端的麦克风采集用户的待识别语音数据,其中,智能终端可以为手机、个人电脑、平板电脑、智能音箱等。

具体地,本公开方案利用通用识别模型、个性化识别模型对待识别语音数据进行语音识别时,可以先从待识别语音数据中提取声学特征,作为识别模型的输入。

作为一种示例,获得待识别语音数据后,可以先对待识别语音数据进行分帧处理,得到多个语音数据帧,还可以对分帧后的语音数据进行预加重,提升信噪比,再依次从每个语音数据帧中提取声学特征。

本公开方案中,声学特征可以体现为语音数据的频谱特征,例如,梅尔频率倒谱系数(英文:melfrequencycepstrumcoefficient,简称:mfcc)特征、感知线性预测(英文:perceptuallinearpredictive,简称:plp)特征等,本公开方案对此可不做具体限定。

作为一种示例,为了提高声学特征的区分性,还可以对提取的频谱特征进行变换处理,将多个声学特征转换为一个变换后声学特征。具体地,可以将多个连续语音数据帧作为神经网络的输入,由神经网络分别提取每个语音数据帧的声学特征,对多个声学特征进行变换处理,输出一个变换后声学特征。其中,连续语音数据帧可以为当前语音数据帧及其前后多个相邻语音数据帧。通过上述变换处理,可以综合考虑多个语音数据帧的上下文信息,使得变换后声学特征具有更多信息量,有助于提高声学特征的区分性。

本公开方案中,通用识别模型是基于通用训练语音数据得到的模型,可以包括通用声学模型和通用语言模型,针对所有用户进行的语音识别,均采用同一个通用识别模型实现。具体地,进行语音识别时,从待识别语音数据中提取出声学特征后,可以先利用通用声学模型得到声学识别结果,再利用通用语言模型对声学识别结果进行解码,得到通用语音识别结果,进而从通用语音识别结果中选取出得分最高的n条路径作为通用识别模型对应的候选筛选结果。

本公开方案中,个性化识别模型是基于每个用户具有的个性化训练语音数据得到的模型,可以包括个性化声学模型和/或个性化语言模型,针对不同用户进行的语音识别,采用不同的个性化识别模型实现。具体地,进行语音识别时,从待识别语音数据中提取出声学特征后,可以先利用个性化声学模型得到声学识别结果,再利用个性化语言模型对声学识别结果进行解码,得到个性化语音识别结果,进而从个性化语音识别结果中选取出得分最高的n条路径作为个性化识别模型对应的候选筛选结果。

也就是说,经步骤s101后,可以获得2n个候选筛选结果,供后续处理过程使用。上文所做介绍中,两种识别模型对应的候选筛选结果的数目相同,在实际应用过程中,可以结合应用需求,为两种识别模型确定不同数目的候选筛选结果,本公开方案对此可不做具体限定。

需要说明的是,本公开方案中的通用识别模型和个性化识别模型可参照相关技术实现,此处不做详述。作为一种示例,在构建个性化声学模型时,为了减少计算量,可以在通用声学模型结构上增加独立的个性化模块,例如,在通用声学模型的输出层之前加一个变化层,使得输出变为个性化声学模型的输出。对应于此,在训练个性化声学模型时,通用声学模型相关的模块不需要进行参数更新,只更新个性化模块的参数即可,有助于提升个性化声学模型的训练速度。

s102,获得待识别语音数据与历史语音数据在声学层面的第一匹配度,和/或所述待识别语音数据与所述历史语音数据在文本层面的第二匹配度。

s103,结合所述第一匹配度和/或所述第二匹配度,利用预先构建的候选筛选模型,从所述候选筛选结果中确定出所述待识别语音数据对应的语音识别结果。

为了从2n个候选筛选结果中选取出正确的语音识别结果,可做以下两方面考虑:

1.每个识别模型对应的候选筛选结果的排序

通常,识别模型输出的语音识别结果,均各自对应有一个得分值,例如得分值可以为概率值,得分值的高低可以表示对应的语音识别结果的准确度高低。

可以利用每个候选筛选结果对应的得分值进行排序;或者,本公开还提供一种调整候选筛选结果排序的方案,具体可参见下文所做介绍,此处暂不详述。

2.每个识别模型对应的候选筛选结果的数目

本公开方案中,可以结合待识别语音数据与历史语音数据在声学层面和/或文本层面的匹配度,以及预先构建的候选筛选模型,确定出每个识别模型对应的候选筛选结果的数目,如此,便可结合每个识别模型对应的候选筛选结果的排序,从中确定出待识别语音数据对应的语音识别结果。

本公开方案中,声学层面的匹配度可以理解为语音数据在发音方面的相似度,可以体现为音色、语速等发音特征。作为一种示例,发音特征可以体现为两维的i-vector向量,或者可以体现为频谱特征,如mfcc、plp等。文本层面的匹配度可以理解为语音数据在文字方面的相似度,可以体现为两维的ppl(英文:perplexity,中文:混淆度)向量。本公开方案对声学层面、文本层面的表现形式可不做具体限定。

本公开方案中,历史语音数据包括通用历史语音数据和个性化历史语音数据。下面对获得待识别语音数据与历史语音数据在声学层面的第一匹配度的过程进行解释说明。

参见图2,示出了本公开获取第一匹配度的方法实施例1的流程示意图。可以包括以下步骤:

s201,结合从所述待识别语音数据中提取的发音特征,利用第一高斯混合模型获得所述待识别语音数据与所述通用历史语音数据在声学层面的第一子匹配度。

s202,结合从所述待识别语音数据中提取的发音特征,利用第二高斯混合模型获得所述待识别语音数据与所述个性化历史语音数据在声学层面的第二子匹配度。

以发音特征为i-vector向量为例,本公开方案在进行语音识别之前,可以先提取每条通用历史语音数据的i-vector向量,并基于这些向量构建第一高斯混合模型gmm。如此,在进行语音识别时,可以从待识别语音数据中提取i-vector向量,作为第一gmm的输入,第一gmm的输出为待识别语音数据与通用历史语音数据在声学层面的第一子匹配度,即,待识别语音数据、通用历史语音数据在声学层面的相似程度。

同样地,在进行语音识别之前,还可以提取每条个性化历史语音数据的i-vector向量,并基于这些向量构建第二gmm。如此,在进行语音识别时,可以从待识别语音数据中提取i-vector向量,作为第二gmm的输入,第二gmm的输出为待识别语音数据与个性化历史语音数据在声学层面的第二子匹配度,即,待识别语音数据、个性化历史语音数据在声学层面的相似程度。

由实施例1可知,待识别语音数据与历史语音数据在声学层面的第一匹配度,可以包括第一子匹配度和第二子匹配度。

参见图3,示出了本公开获取第一匹配度的方法实施例2的流程示意图。可以包括以下步骤:

s301,提取所述待识别语音数据的发音特征。

s302,计算所述待识别语音数据的发音特征与第一发音特征均值之间的第三子匹配度。

s303,计算所述待识别语音数据的发音特征与第二发音特征均值之间的第四子匹配度。

仍以发音特征为i-vector向量为例,本公开方案在进行语音识别之前,可以先提取每条通用历史语音数据的i-vector向量,并基于这些向量计算出通用历史语音数据对应的第一i-vector向量均值。如此,在进行语音识别时,便可计算得到待识别语音数据的i-vector向量与第一i-vector向量均值之间的第三子匹配度,即,待识别语音数据、通用历史语音数据在声学层面的相似程度。

同样地,在进行语音识别之前,还可以提取每条个性化历史语音数据的i-vector向量,并基于这些向量计算出个性化历史语音数据对应的第二i-vector向量均值。如此,在进行语音识别时,便可计算得到待识别语音数据的i-vector向量与第二i-vector向量均值之间的第四子匹配度,即,待识别语音数据、个性化历史语音数据在声学层面的相似程度。

作为一种示例,实施例2中的子匹配度可以体现为cos似然,本公开方案对此可不做具体限定。

由实施例2可知,待识别语音数据与历史语音数据在声学层面的第一匹配度,可以包括第三子匹配度和第四子匹配度。

下面对本公开方案中获得待识别语音数据与历史语音数据在文本层面的第二匹配度的过程进行解释说明。

参见图4,示出了本公开获取第二匹配度的方法实施例1的流程示意图。可以包括以下步骤:

s401,在所述通用语言模型上计算所述待识别语音数据的第一ppl值,并利用第三高斯模型得到所述第一ppl值对应的第五子匹配度。

s402,在所述个性化语言模型上计算所述待识别语音数据的第二ppl值,并利用第四高斯模型得到所述第二ppl值对应的第六子匹配度。

本公开方案在进行语音识别之前,可以先在通用语言模型上计算每条通用历史语音数据对应的ppl值,并基于这些ppl值训练得到第三高斯模型。如此,在进行语音识别时,可以将通用语言模型上计算出的待识别语音数据的第一ppl值,作为第三高斯模型的输入,第三高斯模型的输出为待识别语音数据与通用历史语音数据在文本层面的第五子匹配度,即,待识别语音数据、通用历史语音数据在文本层面的相似程度。

同样地,在进行语音识别之前,还可以在个性化语言模型上计算每条个性化历史语音数据对应的ppl值,并基于这些ppl值训练得到第四高斯模型。如此,在进行语音识别时,可以将个性化语言模型上计算出的待识别语音数据的第二ppl值,作为第四高斯模型的输入,第四高斯模型的输出为待识别语音数据与个性化历史语音数据在文本层面的第六子匹配度,即,待识别语音数据、个性化历史语音数据在文本层面的相似程度。

由实施例1可知,待识别语音数据与历史语音数据在文本层面的第二匹配度,可以包括第五子匹配度和第六子匹配度。

参见图5,示出了本公开获取第二匹配度的方法实施例2的流程示意图。可以包括以下步骤:

s501,在所述通用语言模型上计算所述待识别语音数据的第一ppl值,并计算所述第一ppl值与第一ppl均值之间的第七子匹配度。

s502,在所述个性化语言模型上计算所述待识别语音数据的第二ppl值,并计算所述第二ppl值与第二ppl均值之间的第八子匹配度。

本公开方案在进行语音识别之前,可以先在通用语言模型上计算每条通用历史语音数据对应的ppl值,并基于这些ppl值计算出通用历史语音数据对应的第一ppl均值。如此,在进行语音识别时,可以先在通用语言模型上计算出待识别语音数据的第一ppl值,再计算得到第一ppl值与第一ppl均值之间的第七子匹配度,即,待识别语音数据、通用历史语音数据在文本层面的相似程度。

同样地,在进行语音识别之前,还可以在个性化语言模型上计算每条个性化历史语音数据对应的ppl值,并基于这些ppl值计算出个性化历史语音数据对应的第二ppl均值。如此,在进行语音识别时,可以先在个性化语言模型上计算出待识别语音数据的第二ppl值,再计算得到第二ppl值与第二ppl均值之间的第八子匹配度,即,待识别语音数据、个性化历史语音数据在文本层面的相似程度。

作为一种示例,实施例2中的子匹配度可以体现为ppl的差值,本公开方案对此可不做具体限定。

由实施例2可知,待识别语音数据与历史语音数据在文本层面的第二匹配度,可以包括第七子匹配度和第八子匹配度。

下面对本公开方案中构建候选筛选模型的过程进行解释说明。

参见图6,示出了本公开构建候选筛选模型的流程示意图。可以包括以下步骤:

s601,获取模型训练语音数据,所述模型训练语音数据包括通用训练语音数据和个性化训练语音数据。

s602,利用所述模型训练语音数据,获得训练用匹配度,所述训练用匹配度包括:所述模型训练语音数据与所述历史语音数据在声学层面的训练用第一匹配度,和/或所述模型训练语音数据与所述历史语音数据在文本层面的训练用第二匹配度。

s603,确定所述候选筛选模型的拓扑结构。

s604,利用所述训练用匹配度和拓扑结构,训练得到所述候选筛选模型,所述候选筛选模型用于确定各识别模型对应的候选筛选结果的数目。

具体地,在训练候选筛选模型时,可以采集大量的模型训练语音数据,然后计算模型训练语音数据与历史语音数据之间的训练用匹配度,即,二者在声学层面的训练用第一匹配度,和/或,二者在文本层面的训练用第二匹配度,具体实现过程可参照上文所做介绍,此处不再赘述。

关于候选筛选模型的拓扑结构,可以采用rnn(英文:recurrentneuralnetworks,中文:循环神经网络)、dnn(英文:deepneuralnetworks,中文:深度神经网络)、svm(英文:supportvectormachine,中文:支持向量机)、决策树模型等拓扑结构,本公开方案对此可不做具体限定。

以训练用匹配度为训练用第一匹配度和训练用第二匹配度、拓扑结构为dnn为例,输入层可以有2个节点,分别用于输入训练用第一匹配度和训练用第二匹配度;隐层可以设置为3~8层,每个隐层可以是2048、1024等常规节点数;输出层可以是1个节点,用于输出两种识别模型对应的候选筛选结果数目的比例值,例如,通用识别模型对应的候选筛选结果数目与个性化识别模型对应的候选筛选结果数目的比例值为3:4;或者,输出层也可以是2个节点,分别输出两种识别模型对应的候选筛选结果的数目。本公开方案对候选筛选模型的拓扑结构、隐层的层数、每个隐层的节点数、输出层的节点数等可不做具体限定。

综上,获得训练用匹配度以及拓扑结构后,便可训练得到本公开方案中的候选筛选模型。具体的模型训练方法可参照相关技术实现,例如可采用bp算法进行模型训练,此处不做详述。

综上所述,本公开方案可以利用通用识别模型对待识别语音数据进行语音识别,得到通用识别模型对应的候选筛选结果;同时,还可以利用个性化识别模型对待识别语音数据进行语音识别,得到个性化语音识别模型对应的候选筛选结果;然后,再结合待识别语音数据与历史语音数据在声学层面和/或文本层面的匹配度,以及预先构建的候选筛选模型,从两种识别模型对应的候选筛选结果中确定出待识别语音数据对应的语音识别结果。如此方案,充分利用了两种识别模型的优点,有助于提高正确识别结果的命中率。

作为一种示例,本公开方案在从候选筛选结果中确定待识别语音数据对应的语音识别结果之前,还可以提取候选筛选结果的重排序特征,并基于预先构建的候选重排序模型,修正候选筛选结果的排序。有助于进一步提高正确识别结果的命中率。

作为一种示例,本公开方案中候选筛选结果的重排序特征可以包括以下项目中的至少一项:

1.候选筛选结果对应的识别后验概率(英语:wordposteriorprobability,简称:wpp)。

也就是,由所述候选筛选结果中各词单元对应的识别后验概率,计算得到的识别后验概率均值,所述识别后验概率包括声学模型后验概率和语言模型后验概率。其中,词单元可以理解为在声学模型上得到的音素或者音节,在语言模型上得到的文字等。

2.候选筛选结果包含的竞争词数目

也就是,由所述候选筛选结果中各词单元对应的竞争词数目,计算得到的竞争词数目均值。举例来说,词单元a对应的竞争词可以理解为,与词单元a的后验概率得分值的差值小于预设值的词单元。预设值可由实际应用需求而定,本公开方案对此可不做具体限定。

3.候选筛选结果对应的声学后验概率

也就是,由所述待识别语音数据中各数据帧对应的声学模型后验概率,计算得到的声学后验概率均值。

作为一种示例,本公开方案还提供一种构建候选重排序模型的方案,具体可参见图7所示流程示意图。可以包括以下步骤:

s701,获取模型训练语音数据,所述模型训练语音数据包括通用训练语音数据和个性化训练语音数据。

s702,分别利用所述通用识别模型、所述个性化识别模型对所述模型训练语音数据进行语音识别,得到各识别模型对应的训练用候选筛选结果。

s703,提取所述训练用候选筛选结果的重排序特征,并对所述训练用候选筛选结果的排序进行人工标注。

s704,确定所述候选重排序模型的拓扑结构。

s705,利用所述训练用候选筛选结果的重排序特征和所述拓扑结构,训练得到所述候选重排序模型,所述候选重排序模型用于修正所述训练用候选筛选结果的排序,以使修正后的排序与所述人工标注的排序相符。

具体地,在训练候选重排序模型时,可以采集大量的模型训练语音数据,然后利用通用识别模型、个性化识别模型,逐条对模型训练语音数据进行语音识别,得到两个识别模型对应的训练用候选筛选结果。需要说明的是,此处的模型训练语音数据可以与构建候选筛选模型的模型训练语音数据相同,也可以不同,本公开方案对此可不做具体限定。

获得训练用候选筛选结果后,可作如下处理:

1.提取训练用候选筛选结果的重排序特征,具体实现过程可参照上文所做介绍,此处不再赘述。

2.对训练用候选筛选结果的排序进行人工干预,即人工标注每个训练用候选筛选结果的排列顺序,该排序可能与根据各训练用候选筛选结果的得分值高低生成的排序不同。该排序可以作为候选重排序模型训练的约束条件。

作为一种示例,本公开方案中候选重排序模型的拓扑结构为一个回归模型,可以是神经网络,例如,dnn、rnn、cnn(英文:convolutionalneuralnetworks,中文:卷积神经网络)等,本公开方案对此可不做具体限定。

综上,获得训练用候选筛选结果的重排序特征、拓扑结构后,便可训练得到本公开方案中的候选重排序模型,其中,模型的输入为每个候选筛选结果的重排序特征,输出为每个候选筛选结果对应的新识别置信度得分。该置信度得分的高低可以表示对应的候选筛选结果的准确度高低。

参见图8,示出了本公开语音识别装置的构成示意图。所述装置可以包括:

语音识别模块801,用于分别利用通用识别模型、个性化识别模型对待识别语音数据进行语音识别,得到各识别模型对应的候选筛选结果;

匹配度获得模块802,用于获得待识别语音数据与历史语音数据在声学层面的第一匹配度,和/或所述待识别语音数据与所述历史语音数据在文本层面的第二匹配度;

语音识别结果确定模块803,用于结合所述第一匹配度和/或所述第二匹配度,利用预先构建的候选筛选模型,从所述候选筛选结果中确定出所述待识别语音数据对应的语音识别结果。

可选地,所述历史语音数据包括通用历史语音数据和个性化历史语音数据,且基于从所述通用历史语音数据中提取的发音特征预先构建第一高斯混合模型,基于从所述个性化历史语音数据中提取的发音特征预先构建第二高斯混合模型,则

所述匹配度获得模块,用于结合从所述待识别语音数据中提取的发音特征,利用所述第一高斯混合模型获得所述待识别语音数据与所述通用历史语音数据在声学层面的第一子匹配度,并利用所述第二高斯混合模型获得所述待识别语音数据与所述个性化历史语音数据在声学层面的第二子匹配度;所述第一子匹配度与所述第二子匹配度的集合作为所述第一匹配度。

可选地,所述历史语音数据包括通用历史语音数据和个性化历史语音数据,且基于从所述通用历史语音数据中提取的发音特征计算得到第一发音特征均值,基于从所述个性化历史语音数据中提取的发音特征计算得到第二发音特征均值,则

所述匹配度获得模块,用于提取所述待识别语音数据的发音特征,计算所述待识别语音数据的发音特征与所述第一发音特征均值之间的第三子匹配度,以及所述待识别语音数据的发音特征与所述第二发音特征均值之间的第四子匹配度;所述第三子匹配度与所述第四子匹配度的集合作为所述第一匹配度。

可选地,所述历史语音数据包括通用历史语音数据和个性化历史语音数据,且基于在通用语言模型上计算出的所述通用历史语音数据的混淆度ppl值,预先构建第三高斯模型;基于在个性化语言模型上计算出的所述个性化历史语音数据的ppl值,预先构建第四高斯模型,则

所述匹配度获得模块,用于在所述通用语言模型上计算所述待识别语音数据的第一ppl值,并利用所述第三高斯模型得到所述第一ppl值对应的第五子匹配度;在所述个性化语言模型上计算所述待识别语音数据的第二ppl值,并利用所述第四高斯模型得到所述第二ppl值对应的第六子匹配度;所述第五子匹配度与所述第六子匹配度的集合作为所述第二匹配度。

可选地,所述历史语音数据包括通用历史语音数据和个性化历史语音数据,且基于在通用语言模型上计算出的所述通用历史语音数据的混淆度ppl值,获得第一ppl均值,基于在个性化语言模型上计算出的所述个性化历史语音数据的ppl值,获得第二ppl均值,则

所述第二匹配度获得模块,用于在所述通用语言模型上计算所述待识别语音数据的第一ppl值,并计算所述第一ppl值与所述第一ppl均值之间的第七子匹配度;在所述个性化语言模型上计算所述待识别语音数据的第二ppl值,并计算所述第二ppl值与所述第二ppl均值之间的第八子匹配度;所述第七子匹配度与所述第八子匹配度的集合作为所述第二匹配度。

可选地,所述装置还包括:

候选筛选模型构建模块,用于获取模型训练语音数据,所述模型训练语音数据包括通用训练语音数据和个性化训练语音数据;利用所述模型训练语音数据,获得训练用匹配度,所述训练用匹配度包括:所述模型训练语音数据与所述历史语音数据在声学层面的训练用第一匹配度,和/或所述模型训练语音数据与所述历史语音数据在文本层面的训练用第二匹配度;确定所述候选筛选模型的拓扑结构;利用所述训练用匹配度和拓扑结构,训练得到所述候选筛选模型,所述候选筛选模型用于确定各识别模型对应的候选筛选结果的数目。

可选地,所述装置还包括:

排序修正模块,用于在所述语音识别结果确定模块确定所述语音识别结果之前,提取所述候选筛选结果的重排序特征,基于预先构建的候选重排序模型,修正所述候选筛选结果的排序。

可选地,所述重排序特征包括以下项目中的至少一项:

由所述候选筛选结果中各词单元对应的识别后验概率,计算得到的识别后验概率均值,所述识别后验概率包括声学模型后验概率和语言模型后验概率;

由所述候选筛选结果中各词单元对应的竞争词数目,计算得到的竞争词数目均值;

由所述待识别语音数据中各数据帧对应的声学模型后验概率,计算得到的声学后验概率均值。

可选地,所述装置还包括:

候选重排序模型构建模块,用于获取模型训练语音数据,所述模型训练语音数据包括通用训练语音数据和个性化训练语音数据;分别利用所述通用识别模型、所述个性化识别模型对所述模型训练语音数据进行语音识别,得到各识别模型对应的训练用候选筛选结果;提取所述训练用候选筛选结果的重排序特征,并对所述训练用候选筛选结果的排序进行人工标注;确定所述候选重排序模型的拓扑结构;利用所述训练用候选筛选结果的重排序特征和所述拓扑结构,训练得到所述候选重排序模型,所述候选重排序模型用于修正所述训练用候选筛选结果的排序,以使修正后的排序与所述人工标注的排序相符。

关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。

参见图9,示出了本公开用于语音识别的电子设备900的结构示意图。参照图9,电子设备900包括处理组件901,其进一步包括一个或多个处理器,以及由存储设备902所代表的存储设备资源,用于存储可由处理组件901的执行的指令,例如应用程序。存储设备902中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件901被配置为执行指令,以执行上述语音识别方法。

电子设备900还可以包括一个电源组件903,被配置为执行电子设备900的电源管理;一个有线或无线网络接口904,被配置为将电子设备900连接到网络;和一个输入输出(i/o)接口905。电子设备900可以操作基于存储在存储设备902的操作系统,例如windowsservertm,macosxtm,unixtm,linuxtm,freebsdtm或类似。

以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。

另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。

此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1