语音控制系统及其唤醒方法、唤醒装置和家电、协处理器与流程

文档序号:11834512阅读:488来源:国知局
语音控制系统及其唤醒方法、唤醒装置和家电、协处理器与流程

本发明涉及家电语音控制领域,特别是涉及语音控制系统及其唤醒方法、唤醒装置和家电、协处理器。



背景技术:

随着人工智能技术的发展,家电行业开始新的发展,其中人机语音交互因其更符合人类的使用习惯而成为研究的热点问题之一。图1展示了带有语音控制功能的家电电路,从图1中可以看到,为了增加语音控制功能,需要在传统的控制电路上增加语音控制电路。由于语音控制需要实时监听外界的声音,识别的处理器一直工作会导致功耗增加。



技术实现要素:

(一)要解决的技术问题

本发明的目的是提供语音控制系统及其唤醒方法、唤醒装置和智能家电,以解决只在有人声,且人声中包含待识别语音时才开启语音识别组件(语音识别处理器CPU)的问题。

(二)技术方案

为了解决上述技术问题,本发明提供一种语音控制系统的唤醒方法,其包括:

采集步骤:采集语音信息;

处理步骤:对所述语音信息进行处理,确定所述语音信息中是否含有人声;若含有,分离出含有人声的语音信息片段,进入识别步骤;

识别步骤:对含有人声的语音信息片段进行唤醒词识别;若识别出唤醒词,则进入唤醒步骤;若未识别出唤醒词,则返回所述采集步骤;

唤醒步骤:唤醒语音识别处理器。

在一些实施例中,优选为,所述语音信息由多个采集自不同时间段的语音信息片段组成,所有所述时间段拼接成完整连续的时间链;和/或,

所述采集步骤包括:

采集模拟信号格式的语音信息;

对所述模拟信号格式的语音信息进行数字转换,得到数字信号格式的语音信息。

在一些实施例中,优选为,所述唤醒步骤之前,所述唤醒方法还包括:构建唤醒词语音模型;则,

所述识别步骤包括:将含有人声的数据与所述唤醒词语音模型进行匹配;若匹配成功,则判断为:识别出唤醒词;若匹配未成功,则判断为:未识别出唤醒词。

在一些实施例中,优选为,所述构建唤醒词语音模型包括:

采集若干人的唤醒语音数据;

将所有所述唤醒语音数据处理,训练得到唤醒词模型。

在一些实施例中,优选为,所述构建唤醒词语音模型包括:

在离线状态下,采集说话人在不同环境下录制的唤醒词,并做分帧处理;

分帧后,提取特征参数;

对所述特征参数进行聚类,建立隐马尔科夫HMM模型的观察状态;

通过Baum-Welch算法调整隐马尔科夫HMM模型参数,最大化P(σ|λ),λ为模型参数;σ为观察状态,调整模型参数λ,得到观察状态σ的概率最大,完成模型训练,存储唤醒词语音模型;

所述识别步骤包括:

将含有人声的数据的语音帧提取特征参数,得到一组新的观察值σ’,作为新的观察状态,计算P(σ’|λ);

将P(σ’|λ)和置信阈值比较,得到是否识别出唤醒词。

在一些实施例中,优选为,所述处理步骤包括:

第一分离步骤:对数字信号格式的所述语音信息进行盲源分离处理,以分离出非高斯性数值最大的语音信号;

判断步骤:通过能量阈值判断所述语音信号是否含有人声;若超过能量阈值,则判断为:含有人声,进入第二分离步骤;若未超出能量阈值,则判断为:不含有人声,进入所述采集步骤;

第二分离步骤:分离出含有人声的语音信息,得到含有人声的语音信息片段。

在一些实施例中,优选为,所述第一分离步骤中,所述盲源分离采用的方法为:基于负熵最大化、4阶统计量峭度、或时频变换的独立成分分析ICA算法。

本发明另一方面还提供了一种协处理器,其包括:

处理模块,用于对采集的语音信息进行处理,确定所述语音信息中是否含有人声;若含有,分离出含有人声的语音信息片段;

识别模块,用于所述处理模块分离出的含有人声的语音信息片段进行唤醒词识别;若识别出唤醒词,则生成唤醒指令;

唤醒模块,用于根据所述唤醒指令唤醒语音识别处理器。

在一些实施例中,优选为,所述处理模块包括:分离单元、判断单元;

所述分离单元,用于对数字信号格式的所述语音信息进行盲源分离处理,以分离出非高斯性数值最大的语音信号;

所述判断单元,用于通过能量阈值判断所述语音信号是否含有人声;若超过能量阈值,则分离出含有人声的语音信息,得到含有人声的语音信息片段。

在一些实施例中,优选为,所述识别模块包括:识别单元和存储单元;

所述存储单元,用于存储唤醒词模型;

所述识别单元,用于将所述判断单元分离得到的含有人声的语音信息片段与所述存储单元存储的所述唤醒词模型进行唤醒词匹配,若匹配成功,则生成唤醒指令。

在一些实施例中,优选为,所述唤醒词语音模型的构建包括:

采集若干人的唤醒语音数据;

将所有所述唤醒语音数据处理,训练得到唤醒词模型。

在一些实施例中,优选为,所述构建唤醒词语音模型包括:

在离线状态下,采集说话人在不同环境下录制的唤醒词,并做分帧处理;

分帧后,提取特征参数;

对所述特征参数进行聚类,建立隐马尔科夫HMM模型的观察状态;

通过Baum-Welch算法调整隐马尔科夫HMM模型参数,最大化P(σ|λ),λ为模型参数;σ为观察状态,调整模型参数λ,得到观察状态σ的概率最大,完成模型训练,存储唤醒词语音模型;

所述识别步骤包括:

将含有人声的数据的语音帧提取特征参数,得到一组新的观察值σ’,作为新的观察状态,计算P(σ’|λ);

将P(σ’|λ)和置信阈值比较,得到是否识别出唤醒词。

本发明另一方面还提供了一种语音控制系统的唤醒装置,其包括:语音采集组件和所述的协处理器;其中,

所述语音采集组件,用于采集语音信息;

所述协处理器,用于对所述语音采集组件采集的所述语音信息进行处理,确定所述语音信息中是否含有人声;若含有,分离出含有人声的语音信息片段,对含有人声的语音信息片段进行唤醒词识别;若识别出唤醒词,则唤醒语音识别组件。

在一些实施例中,优选为,所述语音采集组件包括:语音采集模块和A/D转换模块;

所述语音采集模块,用于采集模拟信号格式的语音信息;

所述A/D转换模块,用于对所述模拟信号格式的语音信息进行数字转换,得到数字信号格式的语音信息。

本发明另一方面还提供了一种语音控制系统,其包括:语音识别组件和所述的唤醒装置;所述语音识别组件与所述唤醒装置的协处理器连接;

所述语音识别组件,在工作激活状态时,用于语音识别;语音识别后,进入非工作休眠状态;

所述语音识别组件在所述非工作休眠状态向所述工作激活状态的切换由所述协处理器唤醒。

在一些实施例中,优选为,所述语音识别组件在所述工作激活状态向所述非工作休眠状态转换前,进入等待状态;

在设定时间段内,若所述语音识别组件未被唤醒,则进入所述非工作休眠状态;若所述语音识别组件被唤醒,则进入所述工作激活状态。

本发明另一方面还提供了一种智能家电,其包括所述语音控制系统和家电本体;所述家电本体与所述语音控制系统连接。

(三)有益效果

本发明提供的技术中增加了唤醒技术,借助语音唤醒装置作为协助处理,或预先处理装置,其时刻采集语音信息,并对语音信息进行分析、识别,确定语音中包含唤醒词,则唤醒语音识别处理器,进行语音识别。通过该方式,语音识别处理器只在需要语音识别时工作,避免全天候不间断工作,其能耗明显减小。而语音唤醒装置只对唤醒词进行识别,不需要对整个语音进行识别,因此,功耗小,即使全天候工作,其能耗也非常小,所以解决了现有语音识别功耗较大的问题。

附图说明

图1为现有技术中带有语音控制功能的家电电路结构示意图;

图2为本发明一个实施例中协处理器的结构示意图;

图3为本发明一个实施例中语音控制系统的唤醒装置结构示意图;

图4为本发明一个实施例中带有唤醒装置的语音控制系统的结构示意图;

图5为本发明一个实施例中语音控制系统的唤醒方法的步骤示意图;

图6为本发明一个实施例中唤醒词识别中利用的口令识别模型;

图7为本发明一个实施例中唤醒词模型构建的步骤示意图;

图8为本发明一个实施例中唤醒词识别的步骤示意图;

图9为本发明一个实施例中语音识别组件的状态转换示意图。

具体实施方式

下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实例用于说明本发明,但不用来限制本发明的范围。

在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。

为了减少家用电器中语音控制电路的功耗,本发明给出了一种语音控制系统的唤醒方法、唤醒装置、语音控制系统和智能家电。

下面通过基础设计、替换设计和扩展设计对本技术做详细描述:

一种减少语音识别能量消耗的协处理器,如图2所示,其主要应用于现有语音识别处理器的前端,用于前期语音处理,获取唤醒指令,以此唤醒语音识别处理器,将语音识别处理器的工作时长缩短为需要语音识别的时间段,小功率的协处理器能量损耗较小,能大幅降低损耗。基于此功能,其主要包括:处理模块,对采集的语音信息进行处理,确定语音信息中是否含有人声;若含有,分离出含有人声的语音信息片段;识别模块,用于处理模块分离出的含有人声的语音信息片段进行唤醒词识别;若识别出唤醒词,则生成唤醒指令;唤醒模块,用于根据唤醒指令唤醒语音识别处理器。其工作过程可参见附图5。

由于经过采集的语音包含了采集环境内的各种声音,有效分离、识别出人声是后续处理的第一步,因此需要处理模块人力出含人声的语音片段。而含人声的语音片段中的内容又包含了太多的信息,并非每一个信息都需要进行语音识别,因此,识别出语音片段中含有的某些特殊词,通过这些特殊词确定该语音片段是需要语音识别的信息,能进一步缩小现有语音识别处理器的工作量,所以在本实施例中将特殊词定为唤醒词,通过唤醒词来确定唤醒语音识别处理器。

需要说明的是,在一些实施例中国,处理模块接收到的采集语音信息通常以是时间段为采集分割方式,语音采集组件将一个时间段采集的语音信息片段作为一个传输对象传输到处理模块,并继续下一个时间段的语音采集。该协处理器可以作为单独硬件加载于语音采集组件和语音识别处理器之间。

该协处理器可以采用低功耗的DSP,也可以为加载在现有语音识别处理器内部的芯片,或加载到现有语音采集组件内部的芯片,芯片具备处理模块、识别模块、唤醒模块,实现语音处理和唤醒功能。

其中处理模块主要由分离单元、判断单元组成,分离单元,对数字信号格式的语音信息进行盲源分离处理,以分离出非高斯性数值最大的语音信号;判断单元通过能量阈值判断语音信号是否含有人声;若超过能量阈值,则分离出含有人声的语音信息,得到含有人声的语音信息片段。

盲源分离的作用是在信号源未知的情况下分离多个信号源,其中ICA是比较常见的算法,可以基于负熵最大化,4阶统计量峭度(kurtosis),时频变换的方法实现,且定点化快速算法易于在DSP上实时的实现。

由于语音信号服从拉普拉斯分布,属于超高斯分布,而大部分噪声的分布具有高斯特性。负熵、kurtosis等可以对信号的非高斯性进行度量。该值越大,非高斯性越大,因此选择分离出信号中该值最大的信号进行处理。

选择了可能的信号之后,根据能量阈值判是否有说话人语音。对包含语音的帧送至识别模块进行唤醒词识别流程,后续处理,不包含语音的帧丢弃。

识别模块包括:识别单元和存储单元;存储单元,存储唤醒词模型;识别单元,将判断单元分离得到的含有人声的语音信息片段与存储单元存储的唤醒词模型进行唤醒词匹配,若匹配成功,则生成唤醒指令。

唤醒词识别是根据预先设定的唤醒词(来自唤醒词模型)(比如”你好冰箱”)确认是否有用户尝试语音控制。基本过程如下:

1、通过大量说话人的语音预先建立唤醒词模型。

2、将训练后的唤醒词模型存储至(固态存储空间(flash)),上电后拷贝至缓存(存储单元)。

3、在语音处理时,将之前得到的含有人声的语音信息片段和模型进行匹配,得到是否为唤醒词的判断。

4、确认是否为唤醒词。当协处理器检测到唤醒词之后,产生中断,唤醒语音识别处理器进行工作,如果未检测到唤醒词,则继续等待唤醒口令输入。

唤醒词语音模型的构建可以采用如下方法:采集若干人的唤醒语音数据;将所有唤醒语音数据处理,训练得到唤醒词模型。

在一些实施例中,其中唤醒词的识别,可以采用较为常用的GMM-HMM(目前较为常用的还有DNN-HMM模型,LSTM模型)模型进行是非的判断。其口令识别模型如图6所示。

GMM模型是对语音帧进行聚类。

HMM模型可以用2个状态集合和3个转移概率来描述。

2个状态集合包括可观测状态O:可以被观察到的状态。

隐含状态S:这些状态符合马尔科夫性质(t时刻的状态只和t-1时刻相关),一般情况下无法被之间观察到。

初始状态状态概率矩阵:表达初始状态各隐含状态的概率分布。

状态转移矩阵:表达了t到t+1时刻隐含状态之间的转移概率。

观测状态输出概率:表达了隐含状态为s的条件下,观测值为o的概率。

HMM有3个问题:

1、评估问题,给定观测序列和模型,求某一特定输出的概率。对于口令识别任务来说,就是根据语音序列和模型,确认该序列是某句话的可能性。

2、解码问题,给定观测序列和模型,寻找使观测概率最大的隐含状态序列。

3、学习问题,给定观测序列,调整模型参数,使产生该观测序列的概率最大。对口令识别任务来说就是根据大量的口令调整模型参数。

在这些实施例中可以采用如下方式具体实施构建唤醒词语音模型,如图7所示:

在离线状态下,采集说话人在不同环境下录制的唤醒词,并做分帧处理;

分帧后,提取特征参数(MFCC等);

通过GMM对特征参数进行聚类,建立隐马尔科夫HMM模型的观察状态;

通过Baum-Welch算法调整隐马尔科夫HMM模型参数,最大化P(σ|λ),λ为模型参数;σ为观察状态,调整模型参数λ,得到观察状态σ的概率最大,完成模型训练,存储唤醒词语音模型;

基于该构建唤醒词的步骤,则如图8所示,识别步骤为:

将含有人声的数据的语音帧提取特征参数,得到一组新的观察值σ’,作为新的观察状态,计算P(σ’|λ);

将P(σ’|λ)和置信阈值比较,得到是否识别出唤醒词。

在一些情况下,阈值是通过实验得到的经验值,不同的唤醒词需要设定的阈值可以根据实验进行调整。

另外,为了对技术做更全面的保护,还对语音控制系统的唤醒装置进行保护,如图3所示,其主要由语音采集组件和上述的协处理器组成。语音采集组件,用于采集语音信息;协处理器,用于对语音采集组件采集的语音信息进行处理,确定语音信息中是否含有人声;若含有,分离出含有人声的语音信息片段,对含有人声的语音信息片段进行唤醒词识别;若识别出唤醒词,则唤醒语音识别组件。

在一些实施例中,尤其开发新产品时,还可以将语音采集组件和协处理器进行集成设计成整体部件。二者通过采集、分析后确定是否唤醒语音识别处理器,以开启语音识别,因此二者的能够极大缩短语音识别处理器的工作时长,减小其工作损耗。

其中,所有具备语音采集功能的部件都可以应用于语音采集组件。语音采集组件主要由语音采集模块和A/D转换模块组成;语音采集模块,用于采集模拟信号格式的语音信息;A/D转换模块,用于对模拟信号格式的语音信息进行数字转换,得到数字信号格式的语音信息。

在一些实施例中,语音采集模块、A/D转换模块可以为单独的硬件设备,也可以集成于语音采集组件的整体结构。

另一方面,为了对技术进行更充分的保护,还提供了一种语音控制系统,如图4所示,用于语音采集、语音处理和语音识别,通过识别结果,获得语音中的控制指令,其主要由语音识别组件(即语音识别处理器)和唤醒装置组成;语音识别组件与唤醒装置的协处理器连接,协处理器检测到唤醒词后,唤醒语音识别组件进行语音识别工作。语音识别组件,在工作激活状态时,用于语音识别;语音识别后,进入非工作休眠状态;语音识别组件在非工作休眠状态向工作激活状态的切换由协处理器唤醒。

考虑到部分情况下,语音采集、语音处理需要一定时间,有时会出现连续多次唤醒操作,为此,在语音识别处理器识别一个含人声的语音片段后,先进入一定时间的等待状态。如图9所示,在等待状态内,如果有信息待识别语音片段进入,则继续识别;如果没有待识别语音片段进入,则进入非工作休眠状态。即语音识别组件在工作激活状态向非工作休眠状态转换前,进入等待状态;在设定时间段内,若语音识别组件未被唤醒,则进入非工作休眠状态;若语音识别组件被唤醒,则进入工作激活状态。

将上述语音控制系统应用到智能家电中,该智能家电主要由语音控制系统和家电本体组成;家电本体与语音控制系统连接。

智能家电可以为家庭中需要控制指令的任何家电设备。

同时,本发明还可以将智能家电扩展到工作中的电器设备、即其他场景下需要控制的电器设备。

基于上述各保护设备,其主要使用的语音控制系统的唤醒方法简述为:

唤醒词识别是根据预先设定的唤醒词(来自唤醒词模型)(比如”你好冰箱”)确认是否有用户尝试语音控制。基本过程如下:

1、通过大量说话人的语音预先建立唤醒词模型。

2、将训练后的唤醒词模型存储至(固态存储空间(flash)),上电后拷贝至缓存(存储单元)。

3、在语音处理时,将之前得到的含有人声的语音信息片段和模型进行匹配,得到是否为唤醒词的判断。

4、确认是否为唤醒词。当协处理器检测到唤醒词之后,产生中断,唤醒语音识别处理器进行工作,如果未检测到唤醒词,则继续等待唤醒口令输入。

如图5所示,细化为如下步骤:

步骤100:构建唤醒词语音模型;则,

该步骤为前期准备时发生的步骤,构建唤醒词语音模型后,才方便后续唤醒词识别工作。在构建该模型时,采集若干人的唤醒语音数据;将所有唤醒语音数据处理,训练得到唤醒词模型。

如图7所示,更细化为:

在离线状态下,采集说话人在不同环境下录制的唤醒词,并做分帧处理;

分帧后,提取特征参数;

对特征参数进行聚类,建立隐马尔科夫HMM模型的观察状态;

通过Baum-Welch算法调整隐马尔科夫HMM模型参数,最大化P(σ|λ),λ为模型参数;σ为观察状态,调整模型参数λ,得到观察状态σ的概率最大,完成模型训练,存储唤醒词语音模型。

步骤110:采集语音信息;

语音信息由多个采集自不同时间段的语音信息片段组成,所有时间段拼接成完整连续的时间链。以一定时间段的语音信息片段为单位送入后续处理。考虑到有些语音采集为模拟信号,不方便后续处理,因此还需要增加模数转换步骤,所以,在一些实施例中,该步骤可细化为:

步骤1110:采集模拟信号格式的语音信息;

步骤1120:对模拟信号格式的语音信息进行数字转换,得到数字信号格式的语音信息。

步骤120:对语音信息进行处理,确定语音信息中是否含有人声;若含有,分离出含有人声的语音信息片段,进入步骤130;

该步骤具体为:

步骤1210:对数字信号格式的语音信息进行盲源分离处理,以分离出非高斯性数值最大的语音信号;

第一分离步骤中,盲源分离采用的方法为:基于负熵最大化、4阶统计量峭度、或时频变换的独立成分分析ICA算法。

盲源分离的作用是在信号源未知的情况下分离多个信号源,其中ICA是比较常见的算法,可以基于负熵最大化,4阶统计量峭度(kurtosis),时频变换的方法实现,且定点化快速算法易于在DSP上实时的实现。

由于语音信号服从拉普拉斯分布,属于超高斯分布,而大部分噪声的分布具有高斯特性。负熵、kurtosis等可以对信号的非高斯性进行度量。该值越大,非高斯性越大,因此选择分离出信号中该值最大的信号进行处理。

步骤1220:通过能量阈值判断语音信号是否含有人声;若超过能量阈值,则判断为:含有人声,进入步骤1230;若未超出能量阈值,则判断为:不含有人声,进入步骤110;

选择了可能的信号之后,根据能量阈值判是否有说话人语音。对包含语音的帧送至识别模块进行唤醒词识别流程,后续处理,不包含语音的帧丢弃。

步骤1230:分离出含有人声的语音信息,得到含有人声的语音信息片段。

步骤130:对含有人声的语音信息片段进行唤醒词识别;若识别出唤醒词,则进入步骤140;若未识别出唤醒词,则返回步骤110;

将含有人声的数据与唤醒词语音模型进行匹配;若匹配成功,则判断为:识别出唤醒词;若匹配未成功,则判断为:未识别出唤醒词。

如图8所示,具体为:将含有人声的数据的语音帧提取特征参数,得到一组新的观察值σ’,作为新的观察状态,计算P(σ’|λ);

将P(σ’|λ)和置信阈值比较,得到是否识别出唤醒词。

步骤140:唤醒语音识别处理器。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1