语音信号端点检测方法、装置、设备及存储介质与流程

文档序号：15690863发布日期：2018-10-16 22:06阅读：278来源：国知局

本申请实施例涉及语音检测技术领域，尤其涉及一种语音信号端点检测方法、装置、设备及存储介质。

背景技术：

语音活动检测(voiceactivitydetection,简称vad)又称语音端点检测，其通常应用在语音交互场景中，用于检测用户语音，从而基于用户语音进行相应的控制或者语音交互操作。

现有的vad检测方法主要有两种：一种是基于能量和过零率的vad检测方法，这种方法功耗低，但是检测的准确性较差，尤其在环境情况较复杂，噪声严重的情况下，检测准确性非常低。另一种检测方法基于深度学习的vad检测方法，这种方法准确性较高，但是计算量较大，对设备的性能要求较高。

技术实现要素：

本申请实施例提供一种语音信号端点检测方法、装置、设备及存储介质，以在确保语音信号端点检测准确性的同时，降低检测的计算量，提升检测效率。

本申请实施例第一方面提供一种语音信号端点检测方法，包括：获取第一音频信号，所述第一音频信号中包括语音信号；基于能量和过零率的第一语音活动检测vad算法，以及基于深度学习的第二vad算法中的一种从所述第一音频信号中检测所述语音信号的起点；在检测到所述语音信号的起点后，采用所述第一vad算法和所述第二vad算法中的另一种检测所述语音信号的终点。

本申请实施例第二方面提供一种语音信号端点检测装置，包括：获取模块，用于获取第一音频信号，所述第一音频信号中包括语音信号；起点检测模块，用于基于能量和过零率的第一语音活动检测vad算法，以及基于深度学习的第二vad算法中的一种从所述第一音频信号中检测所述语音信号的起点；终点检测模块，用于在检测到所述语音信号的起点后，采用所述第一vad算法和所述第二vad算法中的另一种检测所述语音信号的终点。

本申请实施例第三方面提供一种计算机设备，包括：一个或多个处理器；一个或多个麦克风，用于采集音频信号；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述第一方面所述的方法。

本申请实施例第四方面提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一方面所述的方法。

基于以上各方面，本申请实施例通过获取包括语音信号的第一音频信号，基于能量和过零率的第一vad算法和基于深度学习的第二vad算法中的一种从音频信号中检测语音信号的起点，并在检测到语音信号的起点后，采用第一vad算法和第二vad算法中的另一种检测该语音信号的终点，从而避免了只采用第一vad算法时存在的检测准确度低的问题，同时避免了只采用第二vad算法时存在的计算量大的问题。本申请实施例通过第一vad算法和第二vad算法中的一种检测语音信号的起点，通过二者中的另一种检测语音信号的终点，能够在确保检测准确性的同时降低语音信号端点检测的计算量，提高了检测效率。

应当理解，上述发明内容部分中所描述的内容并非旨在限定本申请的实施例的关键或重要特征，亦非用于限制本申请的范围。本公申请的其它特征将通过以下的描述变得容易理解。

附图说明

图1是本申请实施例提供的一种语音信号端点检测方法的流程图；

图2是本申请实施例提供的一种步骤s12的执行方法流程图；

图3是本申请实施例提供的一种步骤s12的执行方法流程图；

图4是本申请实施例提供的一种语音信号端点检测装置40的结构示意图；

图5是本申请实施例提供的一种起点检测模块42的结构示意图；

图6是本申请实施例提供的一种起点检测模块42的结构示意图；

图7是根据一示例性实施例示出的一种终端设备的框图。

具体实施方式

下面将参照附图更详细地描述本申请的实施例。虽然附图中显示了本申请的某些实施例，然而应当理解的是，本申请可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本申请。应当理解的是，本申请的附图及实施例仅用于示例性作用，并非用于限制本申请的保护范围。

本申请实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了清楚理解本申请的技术方案，下面对本申请中涉及的算法进行解释：

1、基于能量和过零率的第一vad算法，在第一vad算法中包括两级判决，第一级判决是从音频信号的起始帧开始将每一帧信号的能量与第一判决门限进行比较，若在第i帧信号时，信号能量大于第一判决门限则判断第i帧信号可能为语音信号的起始点。第二级判决是从上述第i帧信号开始将第i帧信号之后的每帧信号的过零率与第二判决门限进行比较，若第j帧信号的过零率大于第二判决门限，则确定第j帧信号为语音信号的起点。其中，音频信号帧的过零率是指每帧音频信号其波形通过零值的次数。

2、基于深度学习的第二vad算法，目前第二vad算法主要包括如下两个阶段：

a、训练阶段：对于一段音频信号，先经过预设的预处理操作之后，对每一帧信号提取指定的特征参数，同时使用人工标定的方法获得此段音频信号的语音帧标签和噪音帧标签，然后，将提取得到的特征参数输入到预设的深度学习网络模型中进行训练，并在网络最顶层使用人工标签作为监督数据进行监督，通过每层数据的调整与更新，反复训练获得基于深度学习的vad检测模型。

b、测试阶段，将待测试的音频信号输入上述获得的vad检测模型，检测获得音频信号中语音信号的起点和终点。本申请实施例中涉及的第二vad算法，主要涉及测试阶段的算法。

现有技术大多单独采用第一vad算法或者单独采用第二vad算法来检测语音信号的起点和终端。但是，第一vad算法容易受到噪声的影响，检测的准确度较低，而第二vad算法又较复杂，计算量较高，因此，在二者单独使用时均不能达到很好的检测效果。

针对现有技术存在的上述问题，本申请实施例提供了一种语音信号端点检测方法，该方法通过采用基于能量和过零率的第一vad算法，以及基于深度学习的第二vad算法中的一种从音频信号中检测语音信号的起点，并基于二者中的另一种检测语音信号的终点，保证了语音信号端点检测的准确度，降低了计算量，提高了检测效率。

以下将参照附图来具体描述本申请的实施例。

图1是本申请实施例提供的一种语音信号端点检测方法的流程图，该方法可以由一种语音信号端点检测装置(以下简称检测装置)来执行。参见图1，该方法包括步骤s11-s13：

s11、获取第一音频信号，所述第一音频信号中包括语音信号。

本实施例中的第一音频信号可以是存储在预设存储区域中的音频信号，也可以通过麦克风等音频采集设备采集获得的音频信号。该音频信号中包括语音信号，或者还可以包括用户静默时采集获得的背景音信号。

s12、基于能量和过零率的第一语音活动检测vad算法，以及基于深度学习的第二vad算法中的一种从所述第一音频信号中检测所述语音信号的起点。

本实施例可以先基于第一vad算法从第一音频信号中检测语音信号的起点，也可以先基于第二vad算法从第一音频信号中检测语音信号的起点，本实施例不对其做具体的限定。

以第二vad算法为例，当获取到第一音频信号时，将第一音频信号输入预先设定的基于深度学习的方法训练获得的vad检测模型中，基于该vad检测模型检测获得第一音频信号中语音信号的起点。由现有技术可知，第二vad算法的检测精度较高，因此，利用第二vad算法检测语音信号的起点，能够避免漏检情况的发生，从而确保了语音信号端点检测的准确度。

s13、在检测到所述语音信号的起点后，采用所述第一vad算法和所述第二vad算法中的另一种检测所述语音信号的终点。

本实施例中，若采用第一vad算法检测语音信号的起点，那么将采用第二vad算法检测语音信号的终点，相反的，若采用第二vad算法检测语音信号的起点，那么将采用第一vad算法检测语音信号的终点。

以上例来说，由于先采用了第二vad算法来检测语音信号的起点，那么在检测到语音信号的起点之后，可以从语音信号起点的下一帧开始采用第一vad算法来检测语音信号的终点。或者，也可以在检测到语音信号的起点之后，先将音频信号中位于所述起点之前的部分去掉，再采用第一vad算法来检测语音信号的终点。当然上述仅是以先采用第二vad算法检测语音信号起点的方式为例所进行的说明，而不是对本申请的唯一限定，实际上，若先采用第一vad算法检测语音信号的起点，再利用第二vad算法检测语音信号的终点，其具体方式与上述示例类似，在这里不再赘述。

进一步的，在依据本实施例的上述方法从音频信号中检测到语音信号的起点和终点之后，本实施例还可以进一步从该音频信号中提取出位于所述起点和终点之间的语音信号，并通过对语音信号进行语义分析处理等操作，基于语义分析结果执行相应的语音交互操作，从而提高语音交互的及时性和准确性，提高用户体验。

本实施例通过获取包括语音信号的第一音频信号，基于能量和过零率的第一vad算法和基于深度学习的第二vad算法中的一种从音频信号中检测语音信号的起点，并在检测到语音信号的起点后，采用第一vad算法和第二vad算法中的另一种检测该语音信号的终点，从而避免了只采用第一vad算法时存在的检测准确度低的问题，同时避免了只采用第二vad算法时存在的计算量大的问题。本实施例通过第一vad算法和第二vad算法中的一种检测语音信号的起点，通过二者中的另一种检测语音信号的终点，能够在确保检测准确性的同时降低语音信号端点检测的计算量，提高了检测效率。

下面将结合具体的实施例对图1实施例进行进一步的优化和扩展：

图2是本申请实施例提供的一种步骤s12的执行方法流程图，如图2所示，在图1实施例的基础上，步骤s12包括：s21-s23：

s21、检测所述第一音频信号的噪声水平。

s22、若所述第一音频信号的噪声水平小于预设第一阈值，则基于第一vad算法检测所述第一音频信号中语音信号的起点。

s23、若所述第一音频信号的噪声水平高于预设第一阈值，则基于第二vad算法检测所述第一音频信号中语音信号的起点。

由于第一vad算法在噪声较严重的情况下，检测准确度度较低，因此，为了确保语音信号端点检测的准确度，本实施例在获取到第一音频信号后，首先需要对第一音频信号的噪声水平进行检测，当第一音频信号中的噪声水平小于第一预设阈值时，先采用第一vad算法检测所述第一音频信号中语音信号的起点，而当第一音频信号的噪声水平高于预设第一阈值时，则采用第二vad算法检测第一音频信号中语音信号的起点。

本实施例通过对第一音频信号的噪声水平进行检测，在噪声水平较低时采用第一vad算法检测语音信号的起点，在噪声水平较高时采用第二vad算法检测语音信号的起点，从而能够根据音频信号的噪声水平灵活选择用于检测语音信号起点的vad算法，在确保能够准确检测到语音信号起点的同时，能够尽量减少第二vad算法的使用，从而降低了语音信号端点检测的计算量，提高了检测效率。

图3是本申请实施例提供的一种步骤s12的执行方法流程图，如图3所示，在图1实施例的基础上，步骤s12包括：s31-s32：

s31、对所述第一音频信号进行降噪处理，获得第二音频信号。

s32、采用所述第一vad算法从所述第二音频信号中检测语音信号的起点。

本实施例在获得第一音频信号后，可以先对第一音频信号的噪声水平进行检测，当第一音频信号的噪声水平高于预设的噪声值时，对第一音频信号进行降噪处理，获得第二音频信号，再基于第一vad算法从第二音频信号中检测语音信号的起点，而当第一音频信号的噪声水平低于预设的噪声值时，则直接基于第一vad算法从第二音频信号中检测语音信号的起点。

或者也可以不对第一音频信号的噪声水平进行检测，而是直接对第一音频信号进行降噪处理，得到第二音频信号，再基于第一vad算法从第二音频信号中检测语音信号的起点。

本实施例通过先对第一音频信号进行降噪处理，再基于第一vad算法从第二音频信号中检测语音信号的起点，只有当第一vad算法检测到语音信号的起点时，才启动第二vad算法检测语音信号的终点，从而能够在确保准确检测到语音信号的起点的同时，降低第二vad算法的使用频率，降低语音信号端点检测的计算量。

图4是本申请实施例提供的一种语音信号端点检测装置40的结构示意图，如图4所示，装置40包括：

获取模块41，用于获取第一音频信号，所述第一音频信号中包括语音信号；

起点检测模块42，用于基于能量和过零率的第一语音活动检测vad算法，以及基于深度学习的第二vad算法中的一种从所述第一音频信号中检测所述语音信号的起点；

终点检测模块43，用于在检测到所述语音信号的起点后，采用所述第一vad算法和所述第二vad算法中的另一种检测所述语音信号的终点。

在一种可能的设计中，所述起点检测模块42，具体用于：

基于深度学习的第二vad算法从所述第一音频信号中检测所述语音信号的起点。

在另一种可能的设计中，所述起点检测模块42，具体用于：

基于能量和过零率的第一vad算法，从所述第一音频信号中检测所述语音信号的起点。

在一种可能的设计中，所述终点检测模块43，具体用于：

在检测到语音信号的起点后，从所述起点的下一帧信号开始，采用所述第一vad算法和所述第二vad算法中的另一种检测所述语音信号的终点。

在一种可能的设计中，装置40还包括：

提取模块，用于从所述音频信号中提取位于所述起点和所述终点之间的语音信号；

执行模块，用于对所述语音信号进行语义分析处理，并基于语义分析处理的结果，执行相应的语音交互操作。

本实施例提供的装置40能够用于执行图1实施例的方法，其执行方式和有益效果类似，在这里不再赘述。

图5是本申请实施例提供的一种起点检测模块42的结构示意图，如图5所示，在图4实施例的基础上，起点检测模块42，包括：

检测子模块421，用于检测所述第一音频信号的噪声水平；

第一起点检测子模块422，用于在所述第一音频信号的噪声水平小于预设第一阈值时，基于第一vad算法检测所述第一音频信号中语音信号的起点；

第二起点检测子模块423，用于在所述第一音频信号的噪声水平高于预设第一阈值时，基于第二vad算法检测所述第一音频信号中语音信号的起点。

本实施例提供的语音信号端点检测装置能够用于执行图2实施例的方法，其执行方式和有益效果类似，在这里不再赘述。

图6是本申请实施例提供的一种起点检测模块42的结构示意图，如图6所示，在图4实施例的基础上，起点检测模块42，包括：

降噪子模块424，用于对所述第一音频信号进行降噪处理，获得第二音频信号；

第三起点检测子模块425，用于采用所述第一vad算法从所述第二音频信号中检测语音信号的起点。

本实施例提供的语音信号端点检测装置能够用于执行图3实施例的方法，其执行方式和有益效果类似，在这里不再赘述。

本申请实施例还提供一种计算机设备，包括：一个或多个处理器；

一个或多个麦克风，用于采集音频信号；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现上述任一实施例所述的方法。

在一个可能的实施例中该计算机设备可以被具体为手机等终端设备，图7是根据一示例性实施例示出的一种终端设备的框图。例如，终端设备800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图7，终端设备800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出(i/o)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制终端设备800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在终端设备800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(sram)，电可擦除可编程只读存储器(eeprom)，可擦除可编程只读存储器(eprom)，可编程只读存储器(prom)，只读存储器(rom)，磁存储器，快闪存储器，磁盘或光盘。

电源组件806为终端设备800的各种组件提供电力。电源组件806可以包括电源管理系统，一个或多个电源，及其他与为终端设备800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述终端设备800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(mic)，当终端设备800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

i/o接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为终端设备800提供各个方面的状态评估。例如，传感器组件814可以检测到设备800的打开/关闭状态，组件的相对定位，例如所述组件为终端设备800的显示器和小键盘，传感器组件814还可以检测终端设备800或终端设备800一个组件的位置改变，用户与终端设备800接触的存在或不存在，终端设备800方位或加速/减速和终端设备800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如cmos或ccd图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于终端设备800和其他设备之间有线或无线方式的通信。终端设备800可以接入基于通信标准的无线网络，如wifi，2g或3g，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(nfc)模块，以促进短程通信。例如，在nfc模块可基于射频识别(rfid)技术，红外数据协会(irda)技术，超宽带(uwb)技术，蓝牙(bt)技术和其他技术来实现。

在示例性实施例中，终端设备800可以被一个或多个应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由终端设备800的处理器820执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。

本申请实施例还提供在一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述任一实施例所述的方法。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)等等。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李超;朱唯鑫;孙建伟
技术所有人：百度在线网络技术（北京）有限公司
我是此专利的发明人