语音活动检测方法、装置和设备与流程

文档序号:15970066发布日期:2018-11-16 23:25阅读:206来源:国知局

本发明实施例涉及语音信号处理技术领域,尤其涉及一种语音活动检测方法、装置和设备。

背景技术

语音活动检测(voiceactivitydetection,简称:vad)又称语音端点检测,语音边界检测。通过对声音信号中语音和非语音的检测,以便从声音信号流里识别和消除长时间的静音期。通常用于语音识别、语音编码、语音增强等语音处理系统中,起到降低语音编码速率、节省通信带宽、减少移动设备能耗、提高识别率等作用。

语音信号因其非平稳特性,及其容易受到噪声信号的干扰,噪声的扰动会严重影响vad的准确性。现有基于g.729标准的vad方法通过计算信号的能量,然后设定门限对信号的每一帧进行简单的分类,然而,这种方法在噪声存在的情况下无法取得令人满意的效果。

随着语音处理技术的不断发展,对语音活动检测的要求也越来越高。因此,需要一种语音活动检测方法能够在噪声环境中,依然保持良好的检测性能。



技术实现要素:

本发明实施例提供一种语音活动检测方法、装置和设备,用以解决现有技术中在噪声环境中,语音活动检测性能不高的问题。

第一方面,本发明实施例提供一种语音活动检测方法,包括:

对待检测的音频信号进行平滑处理;

计算经过平滑处理后的音频信号中每一帧信号的能量和过零率;

根据每一帧信号的能量、过零率和预先训练的检测模型,确定每一帧信号是语音信号的概率;

根据每一帧信号是语音信号的概率,确定音频信号中的噪声信号和语音信号。

在一种可能的实现方式中,对待检测的音频信号进行平滑处理包括:

在待检测的音频信号中每n个采样点计算一个平均值,作为每n个采样点平滑后的输出值,n为大于1的自然数。

在一种可能的实现方式中,在计算经过平滑处理后的音频信号中每一帧信号的能量和过零率之前,还包括:

根据预设的帧长和预设的帧移,对经过平滑处理后的音频信号进行分帧处理,预设的帧长大于预设的帧移。

在一种可能的实现方式中,根据每一帧信号是语音信号的概率,确定音频信号中的噪声信号和语音信号,包括:

若概率大于预设概率值,则确定该帧信号是语音信号;

若概率小于等于预设概率值,则确定该帧信号是噪声信号。

在一种可能的实现方式中,在根据每一帧信号的能量、过零率和预先训练的检测模型,确定每一帧信号是语音信号的概率之前,还包括:

对训练语料库中的音频信号进行平滑处理和分帧处理,生成多个训练样本;

将多个训练样本的能量和过零率作为检测模型的输入特征,将多个训练样本是否是语音信号作为检测模型的期望输出特征,对检测模型进行训练。

在一种可能的实现方式中,检测模型基于深度神经网络、逻辑回归模型或者支持向量机模型进行训练。

第二方面,本发明实施例提供一种语音活动检测装置,包括:

平滑模块,用于对待检测的音频信号进行平滑处理;

计算模块,用于计算经过平滑处理后的音频信号中每一帧信号的能量和过零率;

确定模块,用于根据每一帧信号的能量、过零率和预先训练的检测模型,确定每一帧信号是语音信号的概率;

确定模块,还用于根据每一帧信号是语音信号的概率,确定音频信号中的噪声信号和语音信号。

在一种可能的实现方式中,平滑模块具体用于,在待检测的音频信号中每n个采样点计算一个平均值,作为每n个采样点平滑后的输出值,n为大于1的自然数。

第三方面,本发明实施例提供一种语音活动检测设备,包括:

存储器;

处理器;以及

计算机程序;

其中,计算机程序存储在存储器中,并被配置为由处理器执行以实现如第一方面任一项的方法。

第四方面,本发明实施例提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行以实现如第一方面任一项的方法。

本发明实施例提供的语音活动检测方法、装置和设备,通过对待检测的音频信号进行平滑处理,计算经过平滑处理后的音频信号中每一帧信号的能量和过零率,根据每一帧信号的能量、过零率和预先训练的检测模型,确定每一帧信号是语音信号的概率,根据每一帧信号是语音信号的概率,确定音频信号中的噪声信号和语音信号,实现了噪声环境下的语音活动的高性能检测。由于语音信号和噪声信号所具有的不同特性,平滑处理可以使音频信号中的噪声信号的幅值被大幅度平滑,而音频信号中的语音信号被平滑的幅度相较于噪声信号被平滑的幅度来说小得多,可以提取出更具有差异性的声学特征,提升了语音活动检测在噪声环境中的性能。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。

图1为本发明提供的语音活动检测方法一实施例的流程图;

图2为本发明提供的语音活动检测方法又一实施例的流程图;

图3为本发明提供的语音活动检测方法一实施中训练检测模型的流程图;

图4为本发明提供的语音活动检测装置一实施例的结构示意图;

图5为本发明提供的语音活动检测设备一实施例的结构示意图。

通过上述附图,已示出本发明明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本发明构思的范围,而是通过参考特定实施例为本领域技术人员说明本发明的概念。

具体实施方式

这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

本发明的说明书和权利要求书中的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明中的“第一”和“第二”只起标识作用,而不能理解为指示或暗示顺序关系、相对重要性或者隐含指明所指示的技术特征的数量。“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本发明的说明书中通篇提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。

图1为本发明提供的语音活动检测方法一实施例的流程图。如图1所示,本实施例提供的语音活动检测方法可以包括:

步骤s101、对待检测的音频信号进行平滑处理。

随着人工智能技术的不断发展,各种基于语音识别的智能应用不断推出。以手机为例,语音搜索、语音导航等应用正在逐步影响用户的使用习惯。而手机通常通过麦克风采集音频信号,在采集的过程中不可避免会受到环境噪声的影响,噪声的存在会影响语音信号的处理性能。

下面通过一个具体的场景来进行详细说明。智能手机提供了驾驶模式,以便用户在驾车时,通过语音对智能手机进行控制。例如,在驾车过程中,用户可以通过语音“打电话给张三”,控制手机拨打电话给通讯录中名叫张三的人;通过语音“接听来电”,控制手机接通来电;通过语音“搜索最近的停车场”,控制手机提供到最近的停车场的导航等。然而,很可能在用户驾车的整个过程中用户都未发出语音指令,或者,在用户驾车的整个过程中用户仅仅发出了少量语音指令,如在驾车的40分钟中,语音指令时长仅仅只有1分钟。假如对这40分钟采集到的音频信号均进行语音识别处理,会给手机的处理器带来较大的负荷,会浪费大量的处理资源,造成手机功耗过高。此时,需要通过语音活动检测方法从采集到的时长为40分钟的音频信号中识别出1分钟的语音信号,仅对这1分钟的语音信号进行识别处理,以提高语音识别的效率,降低手机功耗。然而,车载环境下车载噪声非常严重,这直接影响了语音活动检测的性能和稳定性,导致检测结果不准确,进而影响后续的语音识别与处理过程。

通过对噪声信号和语音信号的共同性和差异性进行详细分析,利用语音信号所具有的非平稳特性,以及车载噪声信号所具有的平稳特性,对采集到的待检测的音频信号进行平滑处理,削弱噪声对于语音信号检测的影响。

平滑处理可以使音频信号中的噪声信号的幅值被大幅度平滑,而音频信号中的语音信号被平滑的幅度相较于噪声信号被平滑的幅度来说小得多,因此,可以提取出更具有差异性的声学特征,实现语音活动检测在噪声环境下的高性能。

步骤s102、计算经过平滑处理后的音频信号中每一帧信号的能量和过零率。

可选的,在计算之前,还可以包括:根据预设的帧长和预设的帧移,对经过平滑处理后的音频信号进行分帧处理,预设的帧长大于预设的帧移。具体的,帧长可以选取25毫秒,帧移可以选取10毫秒,则一段时长85毫秒的音频信号可以被分为7帧。

本实施例中,每一帧信号的能量可以采用该帧信号的l2范数来表示,即一帧信号的能量等于这一帧信号中每个采样点的取值的平方和。每一帧信号的过零率采用这一帧信号通过零值的次数,即该帧信号符号发生变化的次数。能量和过零率计算量小,给设备带来的计算负荷小,具有低功耗的优点。

步骤s103、根据每一帧信号的能量、过零率和预先训练的检测模型,确定每一帧信号是语音信号的概率。

将得到的每一帧信号的能量和过零率作为输入特征输入预先训练好的检测模型中,得到每一帧信号是语音信号的概率。可选的,还可以得到每一帧信号是噪声信号的概率。

步骤s104、根据每一帧信号是语音信号的概率,确定音频信号中的噪声信号和语音信号。

根据得到的概率值,确定音频信号中的噪声信号和语音信号,具体的,若一帧信号是语音信号的概率大于预设概率值,则确定该帧信号是语音信号;若一帧信号是语音信号的概率小于等于预设概率值,则确定该帧信号是噪声信号,例如预设概率值可以设为0.5。

或者,若一帧信号是语音信号的概率大于该帧信号是噪声信号的概率,则确定该帧信号是语音信号;若一帧信号是语音信号的概率小于等于该帧信号是噪声信号的概率,则确定该帧信号是噪声信号。通常情况下,一帧信号是语音信号的概率与该帧信号是噪声信号的概率之和等于1。

本发明实施例提供的语音活动检测方法,通过对待检测的音频信号进行平滑处理,计算经过平滑处理后的音频信号中每一帧信号的能量和过零率,根据每一帧信号的能量、过零率和预先训练的检测模型,确定每一帧信号是语音信号的概率,根据每一帧信号是语音信号的概率,确定音频信号中的噪声信号和语音信号,实现了噪声环境下的语音活动的高性能检测。由于语音信号和噪声信号所具有的不同特性,平滑处理可以使音频信号中的噪声信号的幅值被大幅度平滑,而音频信号中的语音信号被平滑的幅度相较于噪声信号被平滑的幅度来说小得多,可以提取出更具有差异性的声学特征,提升了语音活动检测在噪声环境中的性能。

下面通过一个具体的实施例,对图1所示方法实施例的技术方案中的平滑处理进行详细说明。随着智能终端的普及,语音活动检测方法更多的运行在终端设备上,因此不仅要求性能稳定可靠,而且计算量不能太大。针对这一特点,本实施例中,对待检测的音频信号进行平滑处理可以包括:在待检测的音频信号中每n个采样点计算一个平均值,作为每n个采样点平滑后的输出值,n为大于1的自然数。

举例来说,假如取n等于4,即取平均进行平滑的尺度为4,对于一段包括160个采样点的音频信号来说,那么经过平滑后输出的音频信号包括40个采样点,其中每一个输出的采样点都是4个采样点的平均值。

本实施例提供的语音活动检测方法,通过对待检测的音频信号中每n个采样点计算一个平均值,作为每n个采样点平滑后的输出值,这种平滑处理方法不仅计算量小,而且由于在平滑处理中将多个采样点合并为一个采样点,大大减少了采样点的个数,降低了语音活动检测过程中的数据处理量,不仅能够提升预测效率,而且能够满足低功耗的要求。

图2为本发明提供的语音活动检测方法又一实施例的流程图。如图2所示,本实施例提供的语音活动检测方法可以包括:

步骤s201、对待检测的音频信号每n个采样点计算一个平均值,作为每n个采样点平滑后的输出值。

步骤s202、根据预设的帧长和预设的帧移,对经过平滑处理后的音频信号进行分帧处理,预设的帧长大于预设的帧移。

步骤s203、计算经过平滑处理后的音频信号中每一帧信号的能量和过零率。

步骤s204、根据每一帧信号的能量、过零率和预先训练的检测模型,确定每一帧信号是语音信号的概率。

步骤s205、若概率大于预设概率值,则确定该帧信号是语音信号,若概率小于等于预设概率值,则确定该帧信号是噪音信号。

本实施例提供的语音活动检测方法,通过将多个采样点取平均合并为一个采样点,减少了采样点的个数,降低了语音活动检测过程中的数据处理量,降低了功耗;通过平滑处理使音频信号中的噪声信号的幅值被大幅度平滑,提升了语音活动检测在噪声环境中的性能;通过采用计算量较小的能量和过零率作为输入特征,能够满足低功耗的需求,使得本实施例提供的语音活动检测方法,能够运行在终端设备上。

在上述实施例的基础上,本实施例针对上述实施例中采用的检测模型的训练过程进行详细说明。图3为本发明提供的语音活动检测方法一实施中训练检测模型的流程图。如图3所示,对于检测模型的训练过程可以包括:

步骤s301、对训练语料库中的音频信号进行平滑处理和分帧处理,生成多个训练样本。

具体的平滑处理可以采用与上述检测实施例中相同的方法,每n个采样点计算一个平均值,作为这n个采样点平滑后的输出值。根据预设的帧长和预设的帧移,对经过平滑处理后的音频信号进行分帧处理,预设的帧长大于预设的帧移,即相邻两帧之间会有部分重叠,在训练阶段,采用这种分帧方法可以增加训练阶段的样本数。需要说明的是,训练阶段和检测阶段的帧长需要相同,帧移可以不同,同样时长的音频信号,帧移越小得到的训练样本数越多。例如,帧长可以选取25毫秒,帧移可以选取5毫秒。

训练语料库可以选用公共的音频语料库,也可自行采集。每一个训练样本都是时长等于预设帧长的音频信号,且已经标记是语音信号还是噪声信号。例如,语音信号样本可以标记为1,噪声信号样本可以标记为0。

步骤s302、计算每个训练样本的能量和过零率。

其中,能量为该训练样本l2范数,过零率为该训练样本符号发生变化的次数。

步骤s303、将多个训练样本的能量和过零率作为检测模型的输入特征,将多个训练样本是否是语音信号作为检测模型的期望输出特征,对检测模型进行训练。

本实施例中的检测模型可以基于深度神经网络、逻辑回归模型或者支持向量机模型构建。将得到的多个训练样本中,每一个训练样本的能量和过零率作为检测模型的二维声学输入特征,将每一个训练样本是语音信号还是噪声信号作为检测模型的期望输出特征,对检测模型进行训练。

本发明实施例还提供一种语音活动检测装置,请参见图4所示,本发明实施例仅以图4为例进行说明,并不表示本发明仅限于此。图4为本发明提供的语音活动检测装置一实施例的结构示意图。如图4所示,本发明实施例提供的语音活动检测装置40包括:平滑模块401、计算模块402和确定模块403。

平滑模块401,用于对待检测的音频信号进行平滑处理。

计算模块402,用于计算经过平滑处理后的音频信号中每一帧信号的能量和过零率。

确定模块403,用于根据每一帧信号的能量、过零率和预先训练的检测模型,确定每一帧信号是语音信号的概率。

确定模块403,还用于根据每一帧信号是语音信号的概率,确定音频信号中的噪声信号和语音信号。

本实施例提供的装置,可以用于执行图1所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。

在一种可能的实现方式中,平滑模块401具体用于,在待检测的音频信号中每n个采样点计算一个平均值,作为每n个采样点平滑后的输出值,n为大于1的自然数。

在一种可能的实现方式中,语音活动检测装置还可以包括分帧模块,用于在计算每一帧信号的能量和过零率之前,根据预设的帧长和预设的帧移,对经过平滑处理后的音频信号进行分帧处理,其中,预设的帧长大于预设的帧移。

在一种可能的实现方式中,确定模块403具体还可以用于,若概率大于预设概率值,则确定该帧信号是语音信号;若概率小于等于预设概率值,则确定该帧信号是噪声信号。

在一种可能的实现方式中,在根据每一帧信号的能量、过零率和预先训练的检测模型,确定每一帧信号是语音信号的概率之前,还包括:

对训练语料库中的音频信号进行平滑处理和分帧处理,生成多个训练样本;

将多个训练样本的能量和过零率作为检测模型的输入特征,将多个训练样本是否是语音信号作为检测模型的期望输出特征,对检测模型进行训练。

在一种可能的实现方式中,检测模型基于深度神经网络、逻辑回归模型或者支持向量机模型进行训练。

本发明实施例还提供一种语音活动检测设备,请参见图5所示,本发明实施例仅以图5为例进行说明,并不表示本发明仅限于此。图5为本发明提供的语音活动检测设备一实施例的结构示意图。该检测设备可以是移动电话、计算机、数字广播终端、消息收发设备、游戏控制台、平板设备、医疗设备、健身设备、个人数字助理等。如图5所示,本实施例提供的检测设备可以包括以下一个或多个组件:处理组件501,存储器502,音频组件503,电源组件504,通信组件505,多媒体组件506,传感器组件507,以及输入/输出(i/o)接口508。

处理组件501通常控制检测设备的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件501可以包括一个或多个处理器5011来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件501可以包括一个或多个模块,便于处理组件501和其他组件之间的交互。例如,处理组件501可以包括多媒体模块,以方便多媒体组件506和处理组件501之间的交互。

存储器502被配置为存储各种类型的数据以支持在检测设备的操作。这些数据的示例包括用于在检测设备上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器502可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(sram),电可擦除可编程只读存储器(eeprom),可擦除可编程只读存储器(eprom),可编程只读存储器(prom),只读存储器(rom),磁存储器,快闪存储器,磁盘或光盘。本实施例中,存储器502中存储有计算机程序,该计算机程序可以由处理器5011执行,以实现上述任一项语音活动检测方法实施例的技术方案。

电源组件504为检测设备的各种组件提供电力。电源组件504可以包括电源管理系统,一个或多个电源,及其他与为检测设备生成、管理和分配电力相关联的组件。

多媒体组件506包括在所述检测设备和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件506包括一个前置摄像头和/或后置摄像头。当检测设备处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件503被配置为输出和/或输入音频信号。例如,音频组件503包括一个麦克风(mic),当检测设备处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器502中。本实施例中,可以通过麦克风采集用户对检测设备进行语音控制的语音信号,然后经由处理组件501对其进行语音活动检测,进而进行语音识别等一系列后续处理。在一些实施例中,音频组件503还包括一个扬声器,用于输出音频信号。本实施例中,可以通过扬声器播放对用户的提示信息。

i/o接口508为处理组件501和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件507包括一个或多个传感器,用于为检测设备提供各个方面的状态评估。例如,传感器组件507可以检测到检测设备的打开/关闭状态,组件的相对定位,例如所述组件为检测设备的显示器和小键盘,传感器组件507还可以检测检测设备或检测设备一个组件的位置改变,用户与检测设备接触的存在或不存在,检测设备方位或加速/减速和检测设备的温度变化。传感器组件507可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件507还可以包括光传感器,如cmos或ccd图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件507还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。

通信组件505被配置为便于检测设备和其他设备之间有线或无线方式的通信。本实施例中通信组件505用于实现检测设备和云端服务器之间的交互。检测设备可以接入基于通信标准的无线网络,如wifi,2g、3g或4g,或它们的组合。在一个示例性实施例中,通信组件505经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件505还包括近场通信(nfc)模块,以促进短程通信。例如,在nfc模块可基于射频识别(rfid)技术,红外数据协会(irda)技术,超宽带(uwb)技术,蓝牙(bt)技术和其他技术来实现。

在示例性实施例中,检测设备可以被一个或多个应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。

在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器502,上述指令可由检测设备的处理器5011执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。

本发明实施例提供的语音活动检测设备可用于执行上述任一方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。

本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行以实现上述任一方法实施例的技术方案。

最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1