命令词识别方法、装置、电子设备和存储介质与流程

文档序号:27027815发布日期:2021-10-24 05:32阅读:185来源:国知局
命令词识别方法、装置、电子设备和存储介质与流程

1.本发明涉及语音识别技术领域,尤其涉及一种命令词识别方法、装置、电子设备和存储介质。


背景技术:

2.在传统的语音交互场景中,人们通过键盘、鼠标、触摸屏、按钮的方式实现人机交互,而语音作为人机交互最自然的方法,随着ai技术的进一步发展,语音命令词交互技术得到了广泛的应用。
3.目前语音命令词识别的交互方式主要有三种:一是通过按键触发命令词检出方法;二是通过语音唤醒触发命令词检出方法;三是非触发式命令词检出方法。然而,上述方法命令词的召回率较低,无法适用于不同的工业制造场景。


技术实现要素:

4.本发明提供一种命令词识别方法、装置、电子设备和存储介质,用以解决现有技术中命令词的召回率较低的缺陷。
5.本发明提供一种命令词识别方法,包括:
6.提取待激活语音指令的声学特征;
7.对所述声学特征进行解码,得到所述待激活语音指令的解码结果;所述解码结果包括所述待激活语音指令中候选命令词的得分和所述候选命令词的音节参数;
8.基于所述待激活语音指令的信噪比,以及所述候选命令词的音节参数,确定所述候选命令词的激活阈值;
9.若所述得分小于所述激活阈值,则确定所述候选命令词为所述语音指令的命令词。
10.根据本发明提供的一种命令词识别方法,所述对所述声学特征进行解码,得到所述待激活语音指令的解码结果,包括:
11.基于图解码网络,对所述声学特征进行解码,得到所述待激活语音指令的解码结果;
12.其中,所述图解码网络是基于样本命令词的声学特征及其对应的解码结果训练得到的。
13.根据本发明提供的一种命令词识别方法,所述样本命令词的声学特征是对原始样本命令词的语音数据进行降噪处理后提取的。
14.根据本发明提供的一种命令词识别方法,所述基于所述待激活语音指令的信噪比,以及所述候选命令词的音节参数,确定所述候选命令词的激活阈值,包括:
15.基于所述待激活语音指令的信噪比、所述候选命令词的音节参数以及所述候选命令词的激活阈值之间的映射关系,确定所述候选命令词的激活阈值。
16.根据本发明提供的一种命令词识别方法,所述提取待激活语音指令的声学特征,
包括:
17.获取待激活的原始语音指令的语音数据;
18.对所述原始语音指令的语音数据进行降噪处理,得到所述待激活语音指令的语音数据,并对所述待激活语音指令的语音数据进行特征提取,得到所述待激活语音指令的声学特征。
19.根据本发明提供的一种命令词识别方法,所述确定所述候选命令词为所述待激活语音指令的命令词,之后还包括:激活所述待激活语音指令。
20.根据本发明提供的一种命令词识别方法,所述候选命令词的音节参数包括候选命令词的音节个数先验概率和/或音节类型先验概率。
21.本发明还提供一种命令词识别装置,包括:
22.特征提取单元,用于提取待激活语音指令的声学特征;
23.特征解码单元,用于对所述声学特征进行解码,得到所述待激活语音指令的解码结果;所述解码结果包括所述待激活语音指令中候选命令词的得分和所述候选命令词的音节参数;
24.阈值确定单元,用于基于所述待激活语音指令的信噪比,以及所述候选命令词的音节参数,确定所述候选命令词的激活阈值;
25.命令识别单元,用于若所述得分小于所述激活阈值,则确定所述候选命令词为所述待激活语音指令的命令词。
26.本发明还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述命令词识别方法的步骤。
27.本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述命令词识别方法的步骤。
28.本发明提供的命令词识别方法、装置、电子设备和存储介质,基于待激活语音指令的信噪比,以及候选命令词的音节参数,确定候选命令词的激活阈值,从而使得激活阈值能够根据不同场景和不同音节参数动态调整,避免不同场景下携带的噪声以及不同音节参数影响命令词的识别,提高了命令词的召回率。同时基于激活阈值判断候选命令词是否作为待激活语音指令的命令词,避免使用复杂算法识别命令词,降低了计算难度,提高了识别效率。
附图说明
29.为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
30.图1是本发明提供的命令词识别方法的流程示意图;
31.图2是本发明提供的又一命令词识别方法的流程示意图;
32.图3是本发明提供的命令词识别装置的结构示意图;
33.图4是本发明提供的电子设备的结构示意图。
具体实施方式
34.为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
35.目前语音命令词识别的交互方式主要有三种:一是通过按键触发命令词检出方法;二是通过语音唤醒触发命令词检出方法;三是非触发式命令词检出方法。然而,在不同的工业制造场景中,语音会混合有噪声,进而影响命令词的召回率,导致无法准确识别命令词。
36.对此,本发明提供一种命令词识别方法。图1是本发明提供的命令词识别方法的流程示意图,如图1所示,该方法包括如下步骤:
37.步骤110、提取待激活语音指令的声学特征。
38.具体地,待激活语音指令是指候选命令词的语音指令,该语音指令可以是通过语音设备实时采集得到的语音,也可以是通过语音设备采集得到的录音,本发明实施例对此不作具体限定。待激活语音指令的声学特征用于区分待激活语音指令中的各个单词,不同单词对应的声学特征不同。其中,声学特征可以通过mel频率倒谱系数(mel frequency cepstrum coefficient,mfcc)提取,也可以通过前端处理算法(filterbank,fbank)提取,还可以通过感知线性预测(perceptual linear predictive,plp)提取,本发明实施例对此不作具体限定。
39.步骤120、对声学特征进行解码,得到待激活语音指令的解码结果;解码结果包括待激活语音指令中候选命令词的得分和候选命令词的音节参数。
40.具体地,候选命令词指通过对声学特征解码,识别出待激活语音指令中可能是命令词的单词。候选命令词的得分指最佳解码路径与命令词路径的累积概率差值,即似然度差值。候选命令词的音节参数可以指候选命令词的音节的先验概率,如音节个数的先验概率、音节类型的先验概率等。
41.其中,对声学特征进行解码可以采用预先训练完成的声学模型实现,具体可以通过执行如下步骤实现:首先,收集大量样本命令词的声学特征,通过人工标注确定其对应的得分和样本命令词的参数。随即,基于样本命令词的声学特征及其对应的得分和样本命令词的参数对初始模型进行训练,从而得到声学模型。其中,声学模型可以基于深度神经网络(deep neural networks,dnn)、循环神经网络(recurrent neural network,rnn)、卷积神经网络(convolutional neural networks,cnn)训练得到,本发明实施例对此不作具体限定。
42.步骤130、基于待激活语音指令的信噪比,以及候选命令词的音节参数,确定候选命令词的激活阈值。
43.具体地,候选命令词的激活阈值指在当前场景下(如当前信噪比下),候选命令词作为待激活语音指令命令词的上限概率。由于待激活语音指令在不同工况场景下携带有不同程度等级的信噪比,从而会影响命令词的识别;此外,候选命令词的音节参数,如音节个数先验概率、音节类型先验概率也可作为命令词识别的依据。例如,对于“打开天气预报程序”中的“开”,相较于“天”,“开”作为命令词出现的概率大于“天”作为命令词出现的概率,
因此“开”对应的音节个数和音节类型的先验概率大于“天”对应的先验概率。
44.此外,由于语音指令的信噪比是根据不同场景变化的,以及候选命令词的音节参数是根据不同命令词对应的音节先验概率变化的,因此基于语音指令的信噪比以及候选命令词的音节参数确定的激活阈值是动态的,其可以根据不同场景以及不同命令词的参数进行调节,从而可以准确识别不同场景下语音指令中包含的命令词。
45.步骤140、若得分小于激活阈值,则确定候选命令词为待激活语音指令的命令词。
46.具体地,若得分小于激活阈值,则表明候选命令词为待激活语音指令的命令词的概率较大,因此将其作为待激活语音指令的命令词。
47.如图2所示,可以在接收语音数据后,对其进行语音降噪处理,并对降噪后的语音进行特征提取。随即,将提取的特征输入声学模型,得到声学建模单元的概率分布,在解码资源中采用图搜索算法进行解码,确定最佳解码路径与候选命令词路径的累积概率差值,即解码结果。同时,基于候选命令词的信噪比等级,候选命令词的音节个数以及候选命令词的音节类型,确定候选命令词的激活阈值,若累积概率差值小于激活阈值,则将该候选命令词作为语音数据的命令词。
48.其中,声学模型是基于如下步骤训练得到的:首先提取训练样本的声学特征,并将训练样本标签规整,转化为对应的音节序列,然后以规整后的训练样本对初始声学模型进行代码编写、参数调优及训练。声学模型可以包括任意词解码网络和命令词解码网络,基于两个解码网络确定最佳解码路径与候选命令词路径的累积概率差值,即似然度差值。
49.此外,基于声学模型还可以统计候选命令词每个音节的先验概率,利用先验概率分布,确定每个音节的阈值;利用命令词中每个音节的阈值、音节个数、所处信噪比等级等特征,拟合每条候选命令词的激活阈值,若上述累积概率差值小于激活阈值,则表明对应的候选命令词为待激活语音指令中的命令词。
50.需要说明的是,还可以将声学特征输入至预先训练得到的命令词识别模型中,得到识别模型输出的命令词识别结果。其中,识别模型是基于如下步骤训练得到的:首先,收集大量样本语音指令的声学特征及其对应的信噪比,通过人工标注确定样本语音指令中的命令词。随即,基于样本语音指令的声学特征、样本语音指令的声学特征的信噪比及样本语音指令中的命令词对初始模型进行训练,从而得到识别模型。
51.本发明实施例提供的命令词识别方法,基于待激活语音指令的信噪比,以及候选命令词的音节参数,确定候选命令词的激活阈值,从而使得激活阈值能够根据不同场景和不同音节参数动态调整,避免不同场景下携带的噪声以及不同音节参数影响命令词的识别,提高了命令词的召回率。同时基于激活阈值判断候选命令词是否作为待激活语音指令的命令词,避免使用复杂算法识别命令词,降低了计算难度,提高了识别效率。
52.基于上述实施例,对声学特征进行解码,得到待激活语音指令的解码结果,包括:
53.基于图解码网络,对声学特征进行解码,得到待激活语音指令的解码结果;
54.其中,图解码网络是基于样本命令词的声学特征及其对应的解码结果训练得到的。
55.具体地,待激活语音指令的解码结果包括候选命令词的得分和候选命令词的音节参数。候选命令词的得分指最佳解码路径与命令词路径的累积概率差值,即似然度差值。候选命令词的音节参数可以指候选命令词的音节先验概率,如音节个数的先验概率、音节类
型的先验概率等。将声学特征输入预先训练得到的图解码网络中,可以得到图解码网络输出的待激活语音指令的解码结果。
56.其中,在将声学特征输入预先训练得到的图解码网络之前,可以预先训练得到图解码网络,具体可以通过执行如下步骤实现:首先,收集大量样本命令词的声学特征,通过人工标注确定其对应的得分和样本命令词的参数。随即,基于样本命令词的声学特征及其对应的得分和样本命令词的参数对初始模型进行训练,从而得到图解码网络。
57.此外,本发明实施例采用图解码网络,相较于传统方法中的树结构解码网络,占用的内存更低,效率较高。
58.基于上述任一实施例,样本命令词的声学特征是对原始样本命令词的语音数据进行降噪处理后提取的。
59.具体地,由于原始样本命令词的语音数据大多是通过语音采集设备采集的语音信号,由于语音信号会受周围环境各种各样的噪声干扰,因此采集的原始样本命令词的语音数据并非纯净的语音信号,而是受噪声污染的带噪语音信号,甚至在噪声干扰较大的情况下,原始样本命令词的语音数据中的有用语音信号会被噪声淹没,需要从噪声背景中提取有用的语音信号,抑制并降低噪声干扰,进而从含噪的原始样本命令词的语音数据中提取尽可能纯净的语音。
60.因此,本发明实施例通过对含噪的原始样本命令词的语音数据进行降噪处理后提取声学特征,从而使得获取的样本命令词的声学特征中减少了环境噪声的干扰。其中,降噪处理可以采用降噪算法(如空间滤波降噪、单通道降噪和自动增益控制等语音增强算法)对原始样本命令词的语音数据进行降噪处理,本发明实施例对此不作具体限定。
61.基于上述任一实施例,基于待激活语音指令的信噪比,以及候选命令词的音节参数,确定候选命令词的激活阈值,包括:
62.基于待激活语音指令的信噪比、候选命令词的音节参数以及候选命令词的激活阈值之间的映射关系,确定候选命令词的激活阈值。
63.具体地,由于待激活语音指令在不同工况场景下携带有不同程度等级的信噪比,从而会影响命令词的识别;此外,候选命令词的音节参数,如音节个数、音节类型也可作为命令词识别的依据。例如,对于“打开天气预报程序”中的“开”,相较于“天”,“开”作为命令词出现的概率大于“天”作为命令词出现的概率,因此“开”对应的音节个数和音节类型的先验概率大于“天”对应的先验概率。
64.此外,由于待激活语音指令的信噪比是根据不同场景变化的,以及候选命令词的音节参数是根据不同命令词对应的音节先验概率变化的,因此基于待激活语音指令的信噪比以及候选命令词的音节参数确定的激活阈值是动态的,其可以根据不同场景以及不同命令词的参数进行调节,从而可以准确识别不同场景下语音指令中包含的命令词。
65.因此,本发明实施例基于待激活语音指令的信噪比、候选命令词的音节参数以及候选命令词的激活阈值之间的映射关系,确定候选命令词的激活阈值。例如,可以采集若干组样本语音指令的信噪比、样本语音指令命令词的音节参数以及样本语音指令命令词的激活阈值,对其进行拟合,确定激活阈值的表达式,该表达式即可以看作是语音指令的信噪比、候选命令词的音节参数以及候选命令词的激活阈值之间的映射关系,在已知待激活语音指令的信噪比和候选命令词的音节参数的前提下,可以基于表达式确定对应的激活阈
值。此外,还可以人工标注上述采集的样本语音指令命令词激活阈值,并将样本语音指令的信噪比、样本语音指令命令词的音节参数输入至模型中进行训练,基于训练完成的模型预测激活阈值。其中,模型可以是基于神经网络、支持向量机(support vector machine,svm)等训练得到的,本发明实施例对此不作具体限定。
66.由于激活阈值是基于待激活语音指令的信噪比,以及候选命令词的音节参数得到的,从而激活阈值能够根据不同场景和不同音节参数进行动态调整,进而能够基于激活阈值准确识别待激活语音指令中的命令词。
67.基于上述任一实施例,提取待激活语音指令的声学特征,包括:
68.获取待激活的原始语音指令的语音数据;
69.对原始语音指令的语音数据进行降噪处理,得到待激活语音指令的语音数据,并对所述待激活语音指令的语音数据进行特征提取,得到待激活语音指令的声学特征。
70.具体地,由于原始语音指令的语音数据会受周围环境各种各样的噪声干扰,因此采集的原始语音指令的语音数据并非纯净的语音信号,而是受噪声污染的带噪语音信号,甚至在噪声干扰较大的情况下,原始语音指令的语音数据中的有用语音信号会被噪声淹没,需要从噪声背景中提取有用的语音信号,抑制并降低噪声干扰,进而从含噪的原始语音指令的语音数据中提取尽可能纯净的语音,得到待激活语音指令的语音数据,进而能够基于待激活语音指令的语音数据得到噪声干扰降低的声学特征,便于准确识别其中的命令词。其中,降噪处理可以采用降噪算法(如空间滤波降噪、单通道降噪和自动增益控制等语音增强算法)对原始样本命令词的语音数据进行降噪处理,本发明实施例对此不作具体限定。
71.基于上述任一实施例,确定候选命令词为待激活语音指令的命令词,之后还包括:激活待激活语音指令。
72.具体地,在确定候选命令词为待激活语音指令的命令词之后,则可以根据该命令词激活待激活语音指令,以执行该待激活语音指令。由此可见,本发明实施例不需要唤醒触发的前置装置,直接进行命令词识别,并激活相应的语音指令,交互简单更便捷。
73.基于上述任一实施例,候选命令词的音节参数包括候选命令词的音节个数和/或音节类型。
74.具体地,候选命令词的音节参数,如音节个数先验概率、音节类型先验概率也可作为命令词识别的依据。例如,对于“打开天气预报程序”中的“开”,相较于“天”,“开”作为命令词出现的概率大于“天”作为命令词出现的概率,因此“开”对应的音节个数和音节类型的先验概率大于“天”对应的先验概率。
75.此外,由于候选命令词的音节参数是根据不同命令词对应的音节先验概率变化的,因此基于候选命令词的音节参数确定的激活阈值是动态的,其可以根据不同命令词的参数进行调节,从而可以准确识别不同场景下语音指令中包含的命令词。
76.下面对本发明提供的命令词识别装置进行描述,下文描述的命令词识别装置与上文描述的命令词识别方法可相互对应参照。
77.基于上述任一实施例,本发明还提供一种命令词识别装置,如图3所示,该装置包括:
78.特征提取单元310,用于提取待激活语音指令的声学特征;
79.特征解码单元320,用于对声学特征进行解码,得到待激活语音指令的解码结果;解码结果包括待激活语音指令中候选命令词的得分和候选命令词的音节参数;
80.阈值确定单元330,用于基于待激活语音指令的信噪比,以及候选命令词的音节参数,确定候选命令词的激活阈值;
81.命令识别单元340,用于若得分小于激活阈值,则确定候选命令词为待激活语音指令的命令词。
82.本发明提供的命令词识别装置,基于待激活语音指令的信噪比,以及候选命令词的音节参数,确定候选命令词的激活阈值,从而使得激活阈值能够根据不同场景和不同音节参数动态调整,避免不同场景下携带的噪声以及不同音节参数影响命令词的识别,提高了命令词的召回率。同时基于激活阈值判断候选命令词是否作为待激活语音指令的命令词,避免使用复杂算法识别命令词,降低了计算难度,提高了识别效率。
83.基于上述任一实施例,所述特征解码单元320,用于:
84.基于图解码网络,对所述声学特征进行解码,得到所述待激活语音指令的解码结果;
85.其中,所述图解码网络是基于样本命令词的声学特征及其对应的解码结果训练得到的。
86.基于上述任一实施例,所述样本命令词的声学特征是对原始样本命令词的语音数据进行降噪处理后提取的。
87.基于上述任一实施例,所述阈值确定单元330,用于:
88.基于所述待激活语音指令的信噪比、所述候选命令词的音节参数以及所述候选命令词的激活阈值之间的映射关系,确定所述候选命令词的激活阈值。
89.基于上述任一实施例,所述特征提取单元310,用于:
90.获取单元,用于获取待激活的原始语音指令的语音数据;
91.降噪单元,用于对所述原始语音指令的语音数据进行降噪处理,得到所述待激活语音指令的语音数据,并对所述待激活语音指令的语音数据进行特征提取,得到所述待激活语音指令的声学特征。
92.基于上述任一实施例,还包括激活单元,用于:在确定所述候选命令词为所述待激活语音指令的命令词之后,激活所述待激活语音指令。
93.基于上述任一实施例,所述候选命令词的音节参数包括候选命令词的音节个数先验概率和/或音节类型先验概率。
94.图4是本发明提供的电子设备的结构示意图,如图4所示,该电子设备可以包括:处理器(processor)410、通信接口(communications interface)420、存储器(memory)430和通信总线440,其中,处理器410,通信接口420,存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令,以执行命令词识别方法,该方法包括:提取待激活语音指令的声学特征;对所述声学特征进行解码,得到所述待激活语音指令的解码结果;所述解码结果包括所述待激活语音指令中候选命令词的得分和所述候选命令词的音节参数;基于所述待激活语音指令的信噪比,以及所述候选命令词的音节参数,确定所述候选命令词的激活阈值;若所述得分小于所述激活阈值,则确定所述候选命令词为所述待激活语音指令的命令词。
95.此外,上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read

only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
96.另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的命令词识别方法,该方法包括:提取待激活语音指令的声学特征;对所述声学特征进行解码,得到所述待激活语音指令的解码结果;所述解码结果包括所述待激活语音指令中候选命令词的得分和所述候选命令词的音节参数;基于所述待激活语音指令的信噪比,以及所述候选命令词的音节参数,确定所述候选命令词的激活阈值;若所述得分小于所述激活阈值,则确定所述候选命令词为所述待激活语音指令的命令词。
97.又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的命令词识别方法,该方法包括:提取待激活语音指令的声学特征;对所述声学特征进行解码,得到所述待激活语音指令的解码结果;所述解码结果包括所述待激活语音指令中候选命令词的得分和所述候选命令词的音节参数;基于所述待激活语音指令的信噪比,以及所述候选命令词的音节参数,确定所述候选命令词的激活阈值;若所述得分小于所述激活阈值,则确定所述候选命令词为所述待激活语音指令的命令词。
98.以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
99.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
100.最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1