1.一种语音活动检测方法,包括:
对待检测音频文件进行帧级别音频活动检测,以确定所述待检测音频文件是否包含语音;
当采用帧级别音频活动检测确定所述待检测音频文件包含语音时,将所述待检测音频文件切分为多个句子级子音频片段,以获取所述多个句子级子音频片段的多个子音频特征;
根据所述多个子音频特征对所述待检测音频文件进行句子级别语音活动检测,以再次判断所述待检测音频文件是否包含语音。
2.根据权利要求1所述的方法,其中,所述根据所述音频特征对所述待检测音频文件进行句子级别语音活动检测包括:将所述音频特征输入至预先训练的句子级语音活动检测模型,以对所述待检测音频文件进行句子级别语音活动检测;所述句子级语音活动检测模型基于语音数据和噪声数据集预先训练得到。
3.根据权利要求2所述的方法,其中,所述句子级语音活动检测模型包括:顺序连接的特征提取层、卷积层、特征统计层、融合层和深度神经网络层;其中,
所述特征提取层提取所接收到的句子级子音频片段的子音频特征,并将所述子音频特征输入至所述卷积层;
所述特征统计层基于所述卷积层的输出统计得到所述子音频特征的统计特征;
所述融合层对所述统计特征进行融合处理,并将融合结果输入至所述深度神经网络层,以基于所述深度神经网络层的输出确定所述待检测音频文件是否包含语音。
4.根据权利要求3所述的方法,其中,所述特征统计层包括:
音频特征均值统计单元,用于确定所述句子级子音频片段在预设时间内的子音频特征的特征平均值;
音频特征标准差统计单元,用于确定所述句子级子音频片段在预设时间内的子音频特征的特征标准差;所述预设时长为所述句子级子音频片段的时间长度。
5.根据权利要求1所述的方法,其中,将所述待检测音频文件切分为多个句子级子音频片段包括:
按照预设帧长和预设帧移将对所述待检测音频文件进行分帧处理以得到多个音频帧,所述预设帧移小于所述预设帧长;
将所述多个音频帧划分为多个音频帧组,以得到相应的多个句子级音频片段。
6.根据权利要求5所述的方法,其中,所述多个音频帧组中的相邻的两个音频帧组之间具有多个共享过渡音频帧。
7.一种语音识别方法,应用于语音识别终端,所述方法包括:
获取待检测音频文件;
采用权利要求1-6中任一项所述的方法判断所述待检测音频文件中是否包含语音;
如果是,则对所述待检测音频文件进行语音识别;
如果否,则不对所述待检测音频文件进行语音识别。
8.一种语音活动检测系统,包括:
帧级音活动检测模块,用于对待检测音频文件进行帧级别音频活动检测,以确定所述待检测音频文件是否包含语音;
音频分段模块,用于当采用帧级别音频活动检测确定所述待检测音频文件包含语音时,将所述待检测音频文件切分为多个句子级子音频片段,以获取所述多个句子级子音频片段的多个子音频特征;
句级语音活动检测模块,用于根据所述多个子音频特征对所述待检测音频文件进行句子级别语音活动检测,以再次判断所述待检测音频文件是否包含语音。
9.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任意一项所述方法的步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-6中任意一项所述方法的步骤。