确定目标识别文本的方法及装置与流程

文档序号:12475955阅读:229来源:国知局
确定目标识别文本的方法及装置与流程

本申请涉及语音识别技术,尤其涉及一种确定目标识别文本的方法及装置。



背景技术:

随着语音控制技术的发展,目前越来越多的智能设备具备语音识别功能,示例的,具备语音控制功能的智能电视、智能冰箱、智能空调等和具备语音输入功能的智能手机智能电脑等。

目前的语音识别主要包含语音预处理、声学模型解码、发音词典解析、语言模型解码等过程,其中,语音预处理是将收到的语音信号进行简单的处理,得到语音的特征文件等;声学模型解码的输入是语音的特征文件,通过声学模型解码获取概率最高的音素文件;进而,通过查询发音词典,将音素信息转为成可能的文字组合,再通过语言模型的上下文关联信息,从文字组合中获取概率较高的文字组合信息作为候选识别结果。由于语言模型中语料来源较为广泛,候选识别结果无法保证识别结果的准确性,因此需要通过一些方法从中甄别出准确的识别结果。

但是,现有技术中并没有合适的甄选方法。

申请内容

本申请提供一种确定目标识别文本的方法及装置,用于在待识别语音数据的候选识别结果中甄选出准确的识别结果。

本申请第一方面提供一种从至少两个候选识别文本中确定目标识别文本的方法,包括:

确定待识别语音数据对应的至少两个候选识别文本中的确定识别文本和待确定识别文本,其中,所述确定识别文本为至少两个所述候选识别文本中相同的部分,所述待确定识别文本为至少两个所述候选识别文本中不相同的部分;

计算所述待确定识别文本与目标对比文本的对应位置的文本之间的相似度,其中,所述目标对比文本为预设文本库中与所述候选识别文本的句型结构一致的文本,且所述目标对比文本包括所述确定识别文本;

将所述相似度中的最大值对应的所述待确定识别文本与所述确定识别文本组成的所述候选识别文本,配置为目标识别文本。

本申请第二方面提供一种从候选识别文本中确定目标识别文本的装置,包括:

第一确定模块,用于确定待识别语音数据对应的至少两个候选识别文本中的确定识别文本和待确定识别文本,其中,所述确定识别文本为至少两个所述候选识别文本中相同的部分,所述待确定识别文本为至少两个所述候选识别文本中不相同的部分;

计算模块,用于计算所述待确定识别文本与目标对比文本的对应位置的文本之间的相似度,其中,所述目标对比文本为预设文本库中与所述候选识别文本的句型结构一致的文本,且所述目标对比文本包括所述确定识别文本;

第二确定模块,用于将所述相似度中的最大值对应的所述待确定识别文本与所述确定识别文本组成的所述候选识别文本,配置为目标识别文本。

本申请的有益效果如下:

本申请提供的确定目标识别文本的方法中,首先确定待识别语音数据对应的至少两个候选识别文本中的确定识别文本和待确定识别文本,然后针对待确定识别文本,计算待确定识别文本与目标对比文本的对应位置的文本之间的相似度,将相似度中的最大值对应的待确定识别文本确定为待识别语音数据对应的正确结果,进而将该待确定识别文本与确定识别文本组成的候选识别文本,配置为目标识别文本,实现了在获取到多个概率接近的候选识别文本时,根据与其句型结构一致的目标对比文本,进一步根据待确定识别文本与目标对比文本中对应位置的文本之间的相似度,确定出与用户输入的语音数据最接近的待确定识别文本,进而将该待确定识别文本和确定识别文本一起组成目标识别文本,反馈给用户,即通过参照目标对比文本,对多个概率接近的候选识别文本中的不同部分进一步甄选,提高了识别待识别语音数据的准确性,提高了语音识别的用户体验性。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本申请一实施例提供的从至少两个候选识别文本中确定目标识别文本的方法流程示意图;

图2为本申请另一实施例提供的从至少两个候选识别文本中确定目标识别文本的方法流程示意图;

图3为本申请一实施例提供的从至少两个候选识别文本中确定目标识别文本的装置结构示意图;

图4为本申请另一实施例提供的从至少两个候选识别文本中确定目标识别文本的装置结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

在对本发明实施例进行详细地解释说明之前,先对本发明实施例的应用环境予以介绍。本发明实施例提供的用于显示语音输入控制指令的显示方法应用于终端,示例的,该终端可以是具有Android操作系统或IOS操作系统的智能电视、智能手机、平板电脑等,该终端还可以是具有Window操作系统或Ios操作系统的计算机、PDA(Personal Digital Assistant,个人数字助理)等,本发明实施例对此不做具体限定。

本申请中提供一从至少两个候选识别文本中确定目标识别文本的方法,在语音识别获取多个识别结果的基础上,进一步在多个识别结果中分析选择最终的语音识别文本,以提高语音识别的准确性。

图1为本申请一实施例提供的从至少两个候选识别文本中确定目标识别文本的方法流程示意图,如图1所示,该方法包括:

S101、确定待识别语音数据对应的至少两个候选识别文本中的确定识别文本和待确定识别文本。

具体实现过程中,当用户输入待识别语音数据后,由于发音的接近或识别精度等原因,可能识别到多个语音识别文本。

例如用户说了一句“我想听高胜美的歌曲”,可能得到“我想听高盛美的歌曲”、“我想听高兴美的歌曲”、“我想听高胜美的歌曲”等多个语音识别文本。

从这多个语音识别文本中先确定候选识别文本,进一步甄选准确的识别结果。

候选识别文本由确定识别文本和待确定识别文本组成。其中,确定识别文本为至少两个候选识别文本中相同的部分,待确定识别文本为至少两个候选识别文本中不相同的部分。例如“我想听高兴美的歌曲”和“我想听高胜美的歌曲”中,“我想听”、“的歌曲”是确定识别文本,“高胜美”和“高兴美”是待确定识别文本。

即可以认为多个候选识别文本中相同的部分是准确的结果,而不相同的部分是需要进一步确定的待确定识别文本,也即待确定识别文本还需要进一步进行识别,以便得到更准确的结果。

S102、计算待确定识别文本与目标对比文本的对应位置的文本之间的相似度。

其中,目标对比文本为预设文本库中与候选识别文本的句型结构一致的文本,且目标对比文本包括上述确定识别文本。

预设文本库中可以包括大量预存的语句、词汇组合等,可以通过词义、词性(名词、动词)等,在预设文本库中匹配与候选识别文本句型一致的目标对比文本。例如“我想听高兴美的歌曲”可能匹配到目标对比文本“我想听周杰伦的歌曲”等。又例如“请给我一杯咖啡”可能匹配到目标对比文本“请给我一杯牛奶”。

举例说明,目标对比文本包括上述确定识别文本,即“我想听周杰伦的歌曲”包含确定识别文本“我想听”、“的歌曲”。

S103、将相似度中的最大值对应的待确定识别文本与确定识别文本组成的候选识别文本,配置为目标识别文本。

可选地,分别计算确定待确定识别文本与目标对比文本的对应位置的文本之间的相似度。例如分别确定“高盛美”与“周杰伦”之间的相似度、“高胜美”与“周杰伦”之间的相似度等。

若“高胜美”与“周杰伦”的相似度最大,那么将“我想听高胜美的歌曲”配置为目标识别文本。

其中,上述相似度可以指语义相似度,也可以是所属类型相似度、词性相似度等,在此不作限制。

本实施例中,首先确定待识别语音数据对应的至少两个候选识别文本中的确定识别文本和待确定识别文本,然后针对待确定识别文本,计算待确定识别文本与目标对比文本的对应位置的文本之间的相似度,将相似度中的最大值对应的待确定识别文本确定为待识别语音数据对应的正确结果,进而将该待确定识别文本与确定识别文本组成的候选识别文本,配置为目标识别文本,实现了在获取到多个概率接近的候选识别文本时,根据与其句型结构一致的目标对比文本,进一步根据待确定识别文本与目标对比文本中对应位置的文本之间的相似度,确定出与用户输入的语音数据最接近的待确定识别文本,进而将该待确定识别文本和确定识别文本一起组成目标识别文本,反馈给用户,即通过参照目标对比文本,对多个概率接近的候选识别文本中的不同部分进一步甄选,提高了识别待识别语音数据的准确性,提高了语音识别的用户体验性。

图2为本申请另一实施例提供的从候选识别文本中确定目标识别文本的方法流程示意图。如图2所示,在图1的基础上,在S101之前还包括:

S201、获取待识别语音数据对应的多个语音识别文本。

当用户输入一段语音后,终端根据预设语音识别解码器,可以得到多个结果,一般地,预设语音识别解码器可以包括一个或多个用于语音识别的模型,对待识别语音数据进行识别。由于语音信息中有些发音模糊或者本身同音、发音相近词汇较多,可能识别到多个语音识别文本。

具体地:获取到待识别语音数据后,可以先将待识别语音数据进行前端信号处理、端点检测处理等一些预处理后,逐帧提取语音特征,将提取好的特征送至预设语音识别解码器,预设语音识别解码器可以包括:声学模型、语言模型、以及发音词典等相关的解码模型,在解码器中结合声学模型、语言模型、以及发音词典,得到多个语音识别文本。

其中,声学模型主要描述发音模型下特征的似然概率,声学模型可以采用隐马尔科夫模型(HMM)。语言模型主要描述词间的连续出现概率,语言模型采用可以n-gram模型,对中文而言,我们称之为汉语语言模型(CLM,Chinese Language Model),其中可以包含大量的语料,这些语料可以是大量的句子、词汇等,可以根据前后词之间共现的统计概率来约束文字搜索的结果。发音词典主要是完成词和音之间的转换。具体转换时,声学模型解码是将声音信号的特征文件在声学模型搜索,产生最优的音素识别结果,其中音素可以标识字母。通过查询发音词典,将音素识别结果转化成文字。最后,语言模型解码的目标是从查询发音词典得到的文字组合中选取最有可能的文字组合结果,作为语音识别文本。

需要说明的是,对待识别语音数据识别得到其对应的语音识别文本的操作可以参考相关技术,本发明实施例对此不再进行一一赘述。

示例的,可以通过下述公式依次实现对待识别语音数据识别得到其对应的语音识别文本的操作。

W1=argmaxP(W|X) (1)

其中,在上述公式(1)中,W表示数据库中存储的任一文字序列,该文字序列包括词或字,该数据库可以是用于做语音识别的语料库;X表示用户输入的语音数据,W1表示从存储文字序列中获得的可与待识别语音数据匹配的文字序列,P(W|X)表示该待识别语音数据可以变成文字的概率。在上述公式(2)中,W2表示该待识别语音数据与该文字序列之间的匹配程度,P(X|W)表示该文字序列可以发音的概率,P(W)表示该文字序列为词或字的概率,P(X)表示待识别语音数据为音频信息的概率。

需要说明的是,在上述的识别过程中,可以通过语言模型确定P(W),通过声学模型确定P(X|W),从而完成对该待识别语音数据的语音识别,得到待识别语音数据对应的语音识别文本。下述将分别对语言模型和声学模型进行简单介绍。

语言模型

语言模型通常利用链式法则,把文字序列为词或字的概率拆解成其中每个词或字的概率之积,也即是,将W拆解成w1、w2、w3、....wn-1、wn,并通过下述公式(3)确定P(W)。

P(W)=P(w1)P(w2|w1)P(w3|w1,w2)...P(wn|w1,w2,...,wn-1) (3)

其中,在上述公式(3)中,P(W)中的每一项都是在表示已知之前所有文字序列都为词或字的条件下当前文字序列为词或字的概率。

由于在通过上述公式(3)确定P(W)时,如果条件太长,则确定P(W)的效率将会较低,从而影响后续的语音识别。因此,为了提高确定P(W)的效率,通常会通过语言模型中的n-gram语言模型确定P(W)。在通过n-gram语言模型确定P(W)时,第n个词的概率只依赖于位于该词前面的第n-1个词,此时可以通过下述公式(4)确定P(W)。

P(W)=P(w1)P(w2|w1)P(w3|w2)...P(wn|wn-1) (4)

声学模型

由于在确定每个词时还需要确定每个词的发音,而确定每个词的发音则需要通过词典实现。其中,词典是与声学模型和语言模块并列的模型,且该词典可以把单个词转换成音素串。声学模型可以通过词典确定用户输入的语音数据中的文字该依次发哪些音,并通过诸如维特比(Viterbi)算法的动态规则算法找到各个音素的分界点,从而确定每个音素的起止时间,进而确定用户输入的语音数据与音素串的匹配程度,也即是,确定P(X|W)。

通常情况下,可以通过诸如高斯混合模型的分类器估计出每个音素的特征向量的分布,并在语音识别阶段,确定用户输入的语音数据中每一帧的特征向量xt由相应音素si产生的概率P(xt|si),把每一帧的概率相乘,就得到P(X|W)。

其中,分类器可以事先训练得到,具体操作为:通过频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)从训练数据中提取大量的特征向量,以及每个特征向量对应的音素,从而训练从特征到音素的分类器。

需要说明的是,在实际应用中,不仅可以通过上述方式确定P(X|W),还可以包括其他方式,比如,通过神经网络直接给出P(si|xt),用贝叶斯公式可以转换成P(xt|si),再相乘得到P(X|W),当然,此处仅是举例说明,并不代表本发明实施例局限于此。

S202、确定多个语音识别文本对应的概率值中最大概率值和第二大概率值。

可以根据每个语音识别文本的文字组合,采用预设算法计算每个语音识别文本的识别概率。

可选地,可以采用公式计算每个语音识别文本的概率值Prec,其中是声学模型的解码率,是发音词典的解码率,是语言模型的解码率。表示待识别语音数据的特征文件,为识别出的文字组合,为音素序列。

可见,代入每一个语音识别文本的文字组合、音素序列,以及待识别语音数据的特征文件,可以得到每一个语音识别文本对应的进而得到每一个语音识别文本对应的概率值。

假设总共有N个语音识别文本,每个语音识别文本的概率值记为Pn,其中,n=1,2,……,N。还可以进一步选出最大概率值Pmax和第二大概率值P2max

S203、确定最大概率值和第二大概率值间的差值是否大于预设的概率阈值。

进一步地,可以获取最大概率值和第二大概率值间的差值,如果差值大于或等于预设的概率阈值,说明最大概率值对应的语音识别文本准确率本身就较高,可以直接确定最大概率值对应的语音识别文本为目标识别文本。

具体实现时,可以依次计算最大的概率值Pmax与其他概率值Pn的差值,可选地,采用公式计算绝对值均值作为声学概率值差EP,EP反映语音识别文本的分布情况,衡量了最优语音识别文本与其余语音识别文本直接的差距。EP大于预设阈值时,可以直接将最大的概率值Pmax对应的语音识别文本确定为目标识别文本,而无需进一步进行语义分析。

进一步地,在最大概率值和第二大概率值间的差值小于预设的概率阈值时,从多个语音识别文本中确定至少两个候选识别文本。

可选地,从多个语音识别文本中确定至少两个候选识别文本,可以是:获取多个语音识别文本中概率值与最大概率值的差值小于预设的概率阈值的第一语音识别文本,将该第一语音识别文本和最大概率值对应的语音识别文本确定为至少两个候选识别文本。

即将最大概率值与其他概率值进行比较,差值小于预设的概率阈值时,就将所比较的概率值对应的语音识别文本作为候选识别文本。如果差值大于或等于预设的概率阈值,说明所比较的概率值对应的语音识别文本成为目标识别文本的几率很低,不再进一步分析。

可选地,可以将多个语音识别文本的概率值进行排序,选择概率值最高的预设个数语音识别文本作为候选识别文本。也可以从高到底,根据相邻两个语音识别文本的概率值差值依次选择候选识别文本,例如,最大的概率值与第二高概率值的差值大于预设阈值,那么就直接将概率值最高的语音识别文本作为目标识别文本,不再继续比较;否则,将概率值最高的语音识别文本与概率值第二高的语音识别文本都先作为候选识别文本,在依次确定第二高概率值和下一个概率值的差值,并确定候选识别文本,依次类推,到某个差值大于预设阈值时,就不再比较。当然,并不以这些方式为限,可以灵活根据需要确定候选识别文本,也可以采用公式或算法获取。

如果只确定出一个候选语音识别文本,可以将这个候选语音识别文本直接配置为目标语音识别文本。如果有多个候选语音识别文本,则进一步确定与实际情况最符合的结果作为目标语音识别文本。

可选地,计算待确定识别文本与目标对比文本的对应位置的文本之间的相似度,可以包括:采用预设词向量模型,确定待确定识别文本与目标对比文本的对应位置的文本之间的语义相似度。

其中,预设词向量模型用于通过词向量距离标识词汇间的语义相似度。

预设词向量模型可以通过词向量训练获取,具体可以是将文字内容转化成有限低维度的实数向量,维度以50维和100维比较常见。向量的距离可以用最传统的欧氏距离来衡量,也可以用余弦夹角来衡量,在此不作限制。向量的距离反映词语语义的远近,即词语间的语义相似度可以用向量的距离表示。可以采用一些词向量的训练工具进行词向量训练,首先获取能够全面覆盖汉语中的基本词的训练语料,并进行相应预处理;然后调用词向量的训练工具进行训练,生成向量表示形式,例如语料中每个词语都有一个对应的50维的向量表示,在此不作限制。向量距离越大,词之间的语义距离较远,反之,语义距离较近。

具体地,候选识别文本的待确定识别文本与目标对比文本的对应位置的文本,出现在同样的句型中,且位置一样,那么是同一类事物的可能性非常大,那么再进一步根据词向量距离确定相似度。

以表1为例说明:

表1

可见,“高胜美”与“周杰伦”的词向量距离最近,那么将“我想听高胜美的歌曲”配置为目标识别文本,并将目标识别文本输出显示给用户,如果是控制指令类的语音信息,可以根据目标识别文本执行相关的指令,在此不一一赘述。

可选地,采用预设词向量模型,确定待确定识别文本与目标对比文本的对应位置的文本之间的语义相似度,可以为:在待确定识别文本中包括至少两个词汇时,采用预设词向量模型,分别确定待确定识别文本中各个词汇与目标对比文本中对应位置的词汇之间的语义相似度。

即分别对不同位置的词汇进行比较,例如比较待确定识别文本“早餐吃水果有益身体健康”与目标对比文本“晚餐吃粗粮有益身体健康”的对应位置的文本之间的语义相似度,可以分别确定“早餐”和“晚餐”之间的语义相似度,以及“粗粮”和“水果”之间的语义相似度。

图3为本申请一实施例提供的从至少两个候选识别文本中确定目标识别文本的装置结构示意图,如图3所示,该装置包括:第一确定模块301、计算模块302、以及第二确定模块303,其中:

第一确定模块301,用于确定待识别语音数据对应的至少两个候选识别文本中的确定识别文本和待确定识别文本。

其中,所述确定识别文本为至少两个所述候选识别文本中相同的部分,所述待确定识别文本为至少两个所述候选识别文本中不相同的部分。

计算模块302,用于计算所述待确定识别文本与目标对比文本的对应位置的文本之间的相似度。

其中,所述目标对比文本为预设文本库中与所述候选识别文本的句型结构一致的文本,且所述目标对比文本包括所述确定识别文本。

第二确定模块303,用于将所述相似度中的最大值对应的所述待确定识别文本与所述确定识别文本组成的所述候选识别文本,配置为目标识别文本。

本实施例中,首先第一确定模块301确定待识别语音数据对应的至少两个候选识别文本中的确定识别文本和待确定识别文本,然后计算模块302针对待确定识别文本,计算待确定识别文本与目标对比文本的对应位置的文本之间的相似度,将相似度中的最大值对应的待确定识别文本确定为待识别语音数据对应的正确结果,进而第二确定模块302将该待确定识别文本与确定识别文本组成的候选识别文本,配置为目标识别文本,实现了在获取到多个概率接近的候选识别文本时,根据与其句型结构一致的目标对比文本,进一步根据待确定识别文本与目标对比文本中对应位置的文本之间的相似度,确定出与用户输入的语音数据最接近的待确定识别文本,进而将该待确定识别文本和确定识别文本一起组成目标识别文本,反馈给用户,即通过参照目标对比文本,对多个概率接近的候选识别文本中的不同部分进一步甄选,提高了识别待识别语音数据的准确性,提高了语音识别的用户体验性。

图4为本申请另一实施例提供的从至少两个候选识别文本中确定目标识别文本的装置结构示意图,如图4所示,在图3的基础上,该装置还包括:第三确定模块401,其中:

第三确定模块401,用于在第一确定模块301确定待识别语音数据对应的至少两个候选识别文本中的确定识别文本和待确定识别文本之前,确定所述待识别语音数据对应的多个语音识别文本中的最大概率值和第二大概率值。

本实施例中,第一确定模块301,在所述最大概率值和所述第二大概率值之间的差值小于预设的概率阈值时,从所述多个语音识别文本中确定至少两个候选识别文本。

可选地,第一确定模块301,具体用于获取所述多个语音识别文本中概率值与所述最大概率值的差值小于预设的概率阈值的第一语音识别文本;将所述第一语音识别文本和所述最大概率值对应的语音识别文本确定为所述至少两个候选识别文本。

进一步地,计算模块302,具体用于采用预设词向量模型,确定所述待确定识别文本与所述目标对比文本中对应位置的文本之间的语义相似度。其中,所述预设词向量模型用于通过词向量距离标识词汇间的语义相似度。

可选地,计算模块302,具体用于在所述待确定识别文本包括至少两个词汇时,采用所述预设词向量模型,分别确定所述待确定识别文本中各个词汇与目标对比文本中对应位置的词汇之间的语义相似度。

需要说明的是:上述实施例提供的确定目标识别文本的装置在从至少两个候选识别文本中确定目标识别文本时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的确定目标识别文本的装置与确定目标识别文本的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。

在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(英文:processor)执行本申请各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取存储器(英文:Random Access Memory,简称:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1