智能设备中语音识别的方法、装置及计算机可读存储介质与流程

文档序号:18035810发布日期:2019-06-28 23:17阅读:192来源:国知局
智能设备中语音识别的方法、装置及计算机可读存储介质与流程

本发明涉及智能家电技术领域,特别涉及智能设备中语音识别的方法、装置及计算机可读存储介质。



背景技术:

随着智能家电技术的发展,空调、冰箱、洗衣机、抽油烟机、电风扇等等家电都可进行智能控制。并且,这些智能设备可获取语音信号,并实现对应的语音控制。

智能设备上采集的声音信号并不一定都是语音,或者说,采集的声音信号还包括一些杂音或者噪音,例如:开门的声音,炒菜的声音等等。这些声音会和语音一起被智能设备采集,从而,智能设备会比较困难从采集的声音信号中识别出控制智能设备的语音。



技术实现要素:

本发明实施例提供了一种智能设备中语音识别的方法、装置及计算机可读存储介质。为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。

根据本发明实施例的第一方面,提供了一种智能设备中语音识别的方法,包括:

确定获取的声音信号中当前帧声音信号的当前能量值;

若当前能量值大于智能设备的自适应能量阈值时,获取所述当前帧声音信号的当前特征矢量值;

若所述当前特征矢量值大于所述设定特征阈值时,确定所述当前帧声音信号为语音信号。

本发明一实施例中,所述确定当前帧声音信号的当前能量值之前,包括:

根据所述智能设备的运行状态,确定所述智能设备的稳态噪音对应的第一能量值;

根据所述第一能量值确定所述自适应能量阈值。

本发明一实施例中,所述确定当前帧声音信号的当前能量值之前,还包括:

对获取的所述声音信号进行分帧处理,并将一帧声音信号确定为所述当前帧声音信号。

本发明一实施例中,所述确定所述当前帧声音信号为语音信号之后,还包括:

当所述声音信号的每帧声音信号进行语音识别处理之后,根据每帧所述语音信号,确定语音控制端点,并对所述智能设备进行对应的语音控制。

根据本发明实施例的第二方面,提供一种智能设备中语音识别的装置,包括:

确定单元,用于确定获取的声音信号中当前帧声音信号的当前能量值;

获取单元,用于若当前能量值大于智能设备的自适应能量阈值时,获取所述当前帧声音信号的当前特征矢量值;

识别单元,用于若所述当前特征矢量值大于所述设定特征阈值时,确定所述当前帧声音信号为语音信号。

本发明一实施例中,所述装置还包括:

自适应单元,用于根据所述智能设备的运行状态,确定所述智能设备的稳态噪音对应的第一能量值;根据所述第一能量值确定所述自适应能量阈值。

本发明一实施例中,所述装置还包括:

分帧单元,用于对获取的所述声音信号进行分帧处理,并将一帧声音信号确定为所述当前帧声音信号。

本发明一实施例中,所述装置还包括:

控制单元,用于当所述声音信号的每帧声音信号进行语音识别处理之后,根据每帧所述语音信号,确定语音控制端点,并对所述智能设备进行对应的语音控制。

根据本发明实施例的第三方面,提供了一种智能设备中语音识别的装置,用于智能设备,包括:

处理器;

用于存储处理器可执行指令的存储器;

其中,所述处理器被配置为:

确定获取的声音信号中当前帧声音信号的当前能量值;

若当前能量值大于智能设备的自适应能量阈值时,获取所述当前帧声音信号的当前特征矢量值;

若所述当前特征矢量值大于所述设定特征阈值时,确定所述当前帧声音信号为语音信号。

根据本发明实施例的第四方面,提供了一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现上述方法的步骤。

本发明实施例提供的技术方案可以包括以下有益效果:

本发明实施例中,可通过语音的能量和特征矢量的双重检测,从声音信号中识别出语音信号,这样,不仅提高了语音识别的效率,也提高了语音识别的准确率,从而,也可提高了智能设备语音控制的准确率和智能化。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种智能设备中语音识别方法的流程图;

图2是根据一示例性实施例示出的一种智能设备中语音识别方法的流程图;

图3是根据一示例性实施例示出的一种智能设备中语音识别装置的框图;

图4是根据一示例性实施例示出的一种智能设备中语音识别装置的框图。

具体实施方式

以下描述和附图充分地示出本发明的具体实施方案,以使本领域的技术人员能够实践它们。实施例仅代表可能的变化。除非明确要求,否则单独的部件和功能是可选的,并且操作的顺序可以变化。一些实施方案的部分和特征可以被包括在或替换其他实施方案的部分和特征。本发明的实施方案的范围包括权利要求书的整个范围,以及权利要求书的所有可获得的等同物。在本文中,各实施方案可以被单独地或总地用术语“发明”来表示,这仅仅是为了方便,并且如果事实上公开了超过一个的发明,不是要自动地限制该应用的范围为任何单个发明或发明构思。本文中,诸如第一和第二等之类的关系术语仅仅用于将一个实体或者操作与另一个实体或操作区分开来,而不要求或者暗示这些实体或操作之间存在任何实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素。本文中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的结构、产品等而言,由于其与实施例公开的部分相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

智能设备上可以进行人机交互,实现智能控制,例如:可采集用户的语音信号,并根据采集到的语音信号进行对应的语音控制。但是,智能设备采集的声音信号并不全都是语音信号,还能包括一些突发声音或者噪音,因此,需识别声音信号中的语音信号。本发明实施例中,可通过与语音匹配的能量和特征矢量的双重检测,从声音信号中识别出语音信号,这样,不仅提高了智能设备语音识别的效率,也提高了语音识别的准确率,特别适用于一些具有稳态噪音的智能设备,例如:抽油烟机、电风扇等等。

图1是根据一示例性实施例示出的一种智能设备中语音识别方法的流程图。如图1所示,智能设备中语音识别的过程包括:

步骤101:确定获取的声音信号中当前帧声音信号的当前能量值。

一般,智能设备具有人机交互的功能,可进行声音采集,从而可以获取对应的声音信号。而获取声音信号后,可对获取的声音信号进行分帧处理,然后,针对每帧声音信号进行语音识别处理,因此,可将分帧处理后的一帧声音信号确定为当前帧声音信号。较佳地,在初步运行时,可按照时间的先后顺序来对每帧声音信号进行语音识别处理。或者,随机将任意一帧声音信号确定为当前帧声音信号。

本发明实施例中,需基于声音信号中与语音匹配的能量检测来进行语音识别处理,因此,这里,需确定当前帧声音信号的能量值,即当前能量值。这里,声音信号的能量具体可包括:语音短时平均能量。这样,每帧声音信号的能量值即可为每一帧的短时能量值。一般,短时能量值可表示为一帧声音信号样点幅度值的加权平方和,因此,可根据当前帧声音信号中样点幅度值的加权平方和确定当前能量值。当然,本发明实施例也不限于此,其他可确定声音信号能量值的方式也可应用于此。

步骤102:若当前能量值大于智能设备的自适应能量阈值时,获取当前帧声音信号的当前特征矢量值。

有些智能设备在运行时可能会伴随一些声音,例如:抽油机、电风扇、空气净化器等等。因此,智能设备采集到的声音信号并不一定是语音信号。需预先确定一个门限值,只有能量值大于该门限值的声音信号才可能是候选语音信号。因此,可预先配置一个门限值即为自适应能量阈值。针对一些智能设备,自适应能量阈值可是一个固定值,可根据智能设备运行时的噪音能量值的统计值确定。或者,有些智能设备,例如:抽油烟机,电风扇等等这些带有电机的智能设备,针对不同的运行状态,例如:高风运行,低风运行,其对应的噪音能量值是不同,但是,同一运行状态对应噪音能量值确定稳定,即为稳态噪音能量值,每一个运行状态对应一个稳态噪音能量值,这里可为第一能量值。

可见,在确定当前帧声音信号的当前能量值之前,还需确定自适应能量阈值。该自适应能量阈值可为预设固定值,或者,根据智能设备的运行状态,确定智能设备的稳态噪音对应的第一能量值,以及根据第一能量值确定自适应能量阈值。较佳地,自适应能量阈值稍稍大于第一能量值。

将当前帧声音信号的当前能量值与自适应能量阈值进行比较后,确定当前能量值大于智能设备的自适应能量阈值时,则可表明当前帧声音信号可为候选语音信号,此时需获取当前帧声音信号的当前特征矢量值。

语音识别的重要一步就是提取声音信号的特征矢量。可根据应用场景的不同,声音信号的特征矢量可包括:线性预测编码系数lpc参数,倒谱系数cep,或者梅尔频率倒谱系数mfcc等等。不同的特征矢量,对应的获取的方式也不同,现有很多提取声音信号特征矢量的方式都可以应用于此。

较佳地,特征矢量包括:梅尔频率倒谱系数(mel-frequencycepstralcoefficients,mfcc)。梅尔刻度的滤波器组在低频部分的分辨率高,跟人耳的听觉特性是相符的,这样,mfcc可模拟人类听觉感知处理特点,它只关注某些特定的频率分量,在低频区域有很多的滤波器,分布比较密集,但在高频区域,滤波器的数目就变得比较少,分布很稀疏。声音的每一帧声音信号对应一个mfcc多维的数组,提取mfcc数组的值,即可为声音信号的特征矢量值,如果当前帧声音信号是语音信号,即使声音很小,对应的mfcc数组的值也很大,如果当前帧声音信号是突发的噪音信号,即使声音很大,对应的mfcc数组的值也远远小于语音。因此,确定当前能量值大于智能设备的自适应能量阈值时,可获取当前帧声音信号对应的mfcc值,一般可通过对当前帧声音信号进行频域变换、倒谱变换以及差分等处理,可得到对应的mfcc数组的值,即得到当前帧声音信号的当前特征矢量值。

当然,针对其他类型的特征矢量值,具体获取当前帧声音信号的当前特征矢量值的方式也不同,由于线性预测编码系数lpc参数,倒谱系数cep等都是声音信号的较为常规的特征矢量,因此,现有的提取声音信号的特征矢量值方式都可应用于此,就不一一累述了。

步骤103:若当前特征矢量值大于设定特征阈值时,确定当前帧声音信号为语音信号。

针对语音信号的特点,每种类型的特征矢量都可预先配置一个设定特征阈值。例如:mfcc,可配置一个设定特征阈值,mfcc数组的值大于设定特征阈值时,可确定当前帧声音信号为语音信号。

由于当前帧声音信号的当前能量值大于智能设备的自适应能量阈值,且当前帧声音信号的当前特征矢量值大于设定特征阈值,因此,可确定当前帧声音信号为语音信号。

可通过语音的能量和特征矢量的双重检测,从声音信号中识别出语音信号,这样,不仅提高了语音识别的效率,也提高了语音识别的准确率,从而,也可提高了智能设备语音控制的准确率和智能化。

本发明实施例中,对于一些智能设备,例如:抽油烟机,电风扇、空气净化器等,这些智能设备中可包括电机,风机等等,因此,在运行时具有一定的噪音,即稳态噪音,并且,这些智能设备在不同的运行状态,对应不同的稳态噪音。本发明实施例中,由于可自适用配置智能设备的自适应能量阈值,即根据智能设备的运行状态,确定智能设备的稳态噪音对应的第一能量值;然后,根据第一能量值确定自适应能量阈值。这样,只有当前帧声音信号的当前能量值大于自适应能量阈值,才能成为候选语音信号,可见,本发明实施例提供的语音识别的方法,不会受到智能设备的预先状态的影响,都会识别出声音信号中的语音信号,实现智能控制。例如:无论抽油机处于高风、中风或低风状态,并在此过程有突发噪音,如炒菜,开门等等,只要当前帧声音信号的当前能量值大于智能设备的自适应能量阈值,且当前帧声音信号的当前特征矢量值大于设定特征阈值,即可确定当前帧声音信号为语音信号。确保了智能设备的识别率,也提高了语音识别的准确率,特别适用于一些具有稳态噪音的智能设备,例如:抽油烟机、电风扇等等。

当然,智能设备可通过人机交互,获取声音信号,然后可对获取的声音信号进行分帧处理,并将一帧声音信号确定为当前帧声音信号。然后,通过上述方法可对每帧声音信号进行语音识别的处理。这样,本发明另一实施例中,当声音信号的每帧声音信号进行语音识别处理之后,根据每帧语音信号,确定语音控制端点,并对智能设备进行对应的语音控制。从而,实现智能设备的语音控制,提高了智能设备的智能化以及语音控制的准确率。

下面将操作流程集合到具体实施例中,举例说明本公开实施例提供的方法。

本实施例中,智能设备可为抽油烟机。

图2是根据一示例性实施例示出的一种智能设备中语音识别方法的流程图。如图2所示,智能设备中语音识别的过程如下:

步骤201:获取声音信号。

抽油烟机中具有语音采集装置,通过语音采集装置可获取声音信号

步骤202:对获取的声音信号进行分帧处理,并将一帧声音信号确定为当前帧声音信号。

较佳地,可根据采集时间的先后顺序,将第一帧声音信号确定为当前帧声音信号。

步骤203:根据智能设备的运行状态,确定自适应能量阈值。

一般抽油烟机具有多个档位,对应的风机转速不同,从而对应的稳态噪音的第一能量值也不同,因此,可根据智能设备的运行状态,确定智能设备的稳态噪音对应的第一能量值;然后根据第一能量值确定自适应能量阈值。一般,自适应能量阈值稍稍大于第一能量值。

步骤204:根据当前帧声音信号中样点幅度值,确定当前帧声音信号的当前能量值。

步骤205:判断当前能量值是否大于自适应能量阈值?若是,执行步骤206,否则,流程结束。

当前帧声音信号的当前能量值大于自适应能量阈值,则该当前帧声音信号可为候选语音信号,可执行步骤206,否则,流程结束。

步骤206:获取当前帧声音信号对应的mfcc数组的值。

本实施例中,当前帧声音信号的当前特征矢量值可为mfcc值,即对应的mfcc数组的值。

步骤207:判断mfcc数组的值是否大于设定特征阈值?若是,执行步骤208,否则,流程结束。

当前特征矢量值可为mfcc值,设定特征阈值也有mfcc对应,若mfcc数组的值大于设定特征阈值,执行步骤208,否则,流程结束。

步骤208:确定当前帧声音信号为语音信号。

步骤209:判断获取的声音信号中是否每帧声音信号都进行了语音识别处理?若是,执行步骤211,否则,执行步骤210。

步骤210:将一帧声音信号确定为当前帧声音信号,并返回步骤204。

较佳地,可根据采集时间顺序,将下一帧声音信号确定为当前帧声音信号。

步骤211:根据确定的每帧语音信号,确定语音控制端点,并对智能设备进行对应的语音控制。

可对确定的每帧语音信号,进一步进行语音识别以及匹配,确定语音控制端点,并进行对应的语音控制。从而,实现了智能设备的语音控制。

可见,本实施例中,抽油烟机可根据运行状态,确定自适应能量阈值,并通过与语音匹配的能量和特征矢量的双重检测,从声音信号中识别出语音信号,这样,无论抽油烟机运行在何种状态,以及语音采集过程出现炒菜,开关门,重物坠地等突发声音时,也可从声音信号中准确识别出语音信号,确保了抽油烟机语音控制功能,进一步提高了抽油烟机的智能性。

下述为本公开装置实施例,可以用于执行本公开方法实施例。

根据上述智能设备中语音识别的过程,可构建一种智能设备中语音识别的装置。

图3是根据一示例性实施例示出的一种智能设备中语音识别装置的框图。如图3所示,该装置可包括:确定单元100、获取单元200和识别单元300,其中,

确定单元100,用于确定获取的声音信号中当前帧声音信号的当前能量值。

获取单元200,用于若当前能量值大于智能设备的自适应能量阈值时,获取当前帧声音信号的当前特征矢量值。

识别单元300,用于若当前特征矢量值大于设定特征阈值时,确定当前帧声音信号为语音信号。

本发明一实施例中,装置还包括:

自适应单元,用于根据智能设备的运行状态,确定智能设备的稳态噪音对应的第一能量值;根据第一能量值确定自适应能量阈值。

本发明一实施例中,装置还包括:

分帧单元,用于对获取的声音信号进行分帧处理,并将一帧声音信号确定为当前帧声音信号。

本发明一实施例中,装置还包括:

控制单元,用于当声音信号的每帧声音信号进行语音识别处理之后,根据每帧语音信号,确定语音控制端点,并对智能设备进行对应的语音控制。

下面举例说明本公开实施例提供的装置。

图4是根据一示例性实施例示出的一种智能设备中语音识别装置的框图。如图4所示,该装置包括:该装置可包括:确定单元100、获取单元200和识别单元300,还包括自适应单元400,分帧单元500和控制单元600。

其中,自适应单元400可根据智能设备的运行状态,确定自适应能量阈值。这样,通过人机交互,获取声音信号后,分帧单元500可对获取的声音信号进行分帧处理,并将一帧声音信号确定为当前帧声音信号。

从而,确定单元100可根据当前帧声音信号中样点幅度值,确定当前帧声音信号的当前能量值。而当确定当前能量值大于自适应能量阈值时,获取单元200可获取当前帧声音信号对应的mfcc数组的值。并当mfcc数组的值大于设定特征阈值时,识别单元300可确定当前帧声音信号为语音信号。

这样,智能设备中语音识别装置可对获取的声音信号中每帧声音信号都进行了语音识别处理。当处理完成后,控制单元600可根据确定的每帧语音信号,确定语音控制端点,并对智能设备进行对应的语音控制。

可见,本实施例中,智能设备可通过语音的能量和特征矢量的双重检测,从声音信号中识别出语音信号,这样,不仅提高了语音识别的效率,也提高了语音识别的准确率,从而,也可提高了智能设备语音控制的准确率和智能化。

本发明一实施例中,提供了一种智能设备中语音识别的装置,用于智能设备,包括:

处理器;

用于存储处理器可执行指令的存储器;

其中,处理器被配置为:

确定获取的声音信号中当前帧声音信号的当前能量值;

若当前能量值大于智能设备的自适应能量阈值时,获取当前帧声音信号的当前特征矢量值;

若当前特征矢量值大于设定特征阈值时,确定当前帧声音信号为语音信号。

本发明一实施例中,提供了一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现上述智能设备中语音识别方法的步骤。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

应当理解的是,本发明并不局限于上面已经描述并在附图中示出的流程及结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1