音频识别方法、装置、计算机设备及存储介质与流程

文档序号:18239329发布日期:2019-07-24 08:54阅读:278来源:国知局
音频识别方法、装置、计算机设备及存储介质与流程

本公开涉及机器学习技术领域,尤其涉及一种音频识别方法、装置、计算机设备及存储介质。



背景技术:

相关技术中,用户可以通过微信、微博、短视频APP(application,应用客户端)等APP向服务器上传音频(或者包含音频的视频),随着用户的增多,上传到服务器的音频数量也随之大量增加,在这些音频中,容易夹杂一些受政策法规限制的敏感音频,为该服务器所服务的网络平台带来负面影响,例如,该敏感音频可以是娇喘声等色情音频。

目前,在服务器侧通常会安排客服人员对用户上传的音频进行人工筛选,以识别出上述敏感音频,从而不对该敏感音频进行展示,并根据每次识别出来的敏感音频的指纹特征,建立指纹数据库,进而当指纹数据库内的样本数量足够多时,可以对用户上传的音频进行同源音频检索,也即是将用户上传的音频与该指纹数据库中样本进行匹配,当相似分数超过预设阈值时,认为该音频为敏感音频。

在上述过程中,在建立指纹数据库的时候,需要客服人员进行大量的人工筛选,使得人力成本高、劳动强度大,此外,由于用户上传的音频数量较大,在客服人员的日均工作量较为稳定的情况下,在服务器侧仍会存在大量未经过人工筛选的敏感音频被展示出来,因此采用客服人员人工筛选的方法对敏感音频的识别效率低。



技术实现要素:

本公开提供一种音频识别方法、装置、计算机设备及存储介质,能够克服人工筛选人力成本高、劳动强度大、识别效率低的问题。

根据本公开实施例的第一方面,提供一种音频识别方法,包括:

获取音频数据中至少一个语音帧的频率特征;

将该至少一个语音帧的频率特征输入分类模型,该分类模型包括至少一个双向长短期记忆递归神经网络BLSTM,其中,该至少一个BLSTM中前一个BLSTM的输出为后一个BLSTM的输入;

通过该分类模型中的各个BLSTM,根据每个语音帧的上下文语音帧的频率特征,对该至少一个语音帧的频率特征进行加权变换,得到该音频数据为敏感音频的预测概率;

当该预测概率大于概率阈值时,将该音频数据确定为该敏感音频。

在一种可能实施方式中,每个BLSTM包括一个前向的长短期记忆递归神经网络LSTM和一个后向的LSTM。

在一种可能实施方式中,每个BLSTM包括输入层、隐藏层和输出层,该隐藏层中包括至少一个记忆单元,每个记忆单元对应于输入层中的一个语音帧的频率特征;

对于每个记忆单元,当接收到该语音帧的频率特征和上一个记忆单元的处理结果时,对该语音帧的频率特征和该上一个记忆单元的处理结果进行加权变换,得到该记忆单元的处理结果,将该记忆单元的处理结果输出给下一个记忆单元;

对于每个记忆单元,当接收到该语音帧的频率特征和下一个记忆单元的处理结果时,对该语音帧的频率特征和该下一个记忆单元的处理结果进行加权变换,得到该记忆单元的处理结果,将该记忆单元的处理结果输出给上一个记忆单元。

在一种可能实施方式中,获取音频数据中至少一个语音帧的频率特征包括:

对该音频数据进行预处理,得到第一数据;

基于时频变换,将该第一数据从时域转换到频域,得到第二数据,该第二数据为频域上的该第一数据;

基于频谱分析,将该第二数据从频谱转换为对数谱,得到该第二数据的对数谱;

将该对数谱输入特征提取模型,输出该音频数据中至少一个语音帧的频率特征,该特征提取模型用于基于对数谱提取频率特征。

在一种可能实施方式中,将该对数谱输入特征提取模型,输出该音频数据中至少一个语音帧的频率特征包括:

将该对数谱输入该特征提取模型内的至少一个卷积层,对该对数谱进行卷积处理,输出至少一个特征图,该至少一个特征图用于表示该对数谱的局部特征,每个特征图作为下一个卷积层的输入图;

将该至少一个特征图输入至少一个全连接层,对该局部特征进行全局整合,输出该至少一个语音帧的频率特征。

在一种可能实施方式中,对该音频数据进行预处理,得到第一数据包括:

对该音频数据进行语音活动检测,删除该音频数据的静音期部分,得到第三数据,该静音期部分是指该音频数据中语音信号能量低于能量阈值的部分;

对该第三数据进行预加重处理,得到第四数据,该第四数据为增强高频分量后的该第三数据,该高频分量为频率高于频率阈值的分量;

对该第四数据进行加窗处理,得到该第一数据,该第一数据为经过有限时间分割的该第四数据。

在一种可能实施方式中,基于时频变换,将该第一数据从时域转换到频域,得到第二数据包括:

通过短时傅里叶变换,将该第一数据从时域转换到频域;

将该第一数据在频域上的模的平方值获取为该第二数据。

在一种可能实施方式中,基于频谱分析,将该第二数据从频谱转换为对数谱包括:

通过梅尔滤波器组,将该第二数据从线性频谱转换为梅尔非线性频谱;

通过对数处理,将该第二数据从该梅尔非线性频谱转换为该对数谱。

在一种可能实施方式中,该方法还包括:

获取样本音频数据的样本频率特征,将该样本频率特征输入初始模型,输出该样本音频数据为敏感音频的样本预测概率;

根据该样本音频数据的真实分类结果和该样本预测概率,获取损失函数值;

如果该损失函数值大于目标数值,基于前向传播算法和反向传播算法,对该初始模型的参数进行调整;

直到该损失函数值小于等于该目标数值时停止调整,得到该分类模型。

在一种可能实施方式中,获取音频数据中至少一个语音帧的频率特征之前,该方法还包括:

对原始音频进行解码,得到该音频数据;或,

对原始视频进行解码,得到视频数据,将视频数据中的音频数据获取为该音频数据。

根据本公开实施例的第二方面,提供一种音频识别装置,包括:

获取单元,被配置为执行获取音频数据中至少一个语音帧的频率特征;

输入单元,被配置为执行将该至少一个语音帧的频率特征输入分类模型,该分类模型包括至少一个双向长短期记忆递归神经网络BLSTM,其中,该至少一个BLSTM中前一个BLSTM的输出为后一个BLSTM的输入;

变换单元,被配置为执行通过该分类模型中的各个BLSTM,根据每个语音帧的上下文语音帧的频率特征,对该至少一个语音帧的频率特征进行加权变换,得到该音频数据为敏感音频的预测概率;

确定单元,被配置为执行当该预测概率大于概率阈值时,将该音频数据确定为该敏感音频。

在一种可能实施方式中,每个BLSTM包括一个前向的长短期记忆递归神经网络LSTM和一个后向的LSTM。

在一种可能实施方式中,每个BLSTM包括输入层、隐藏层和输出层,该隐藏层中包括至少一个记忆单元,每个记忆单元对应于输入层中的一个语音帧的频率特征;

对于每个记忆单元,当接收到该语音帧的频率特征和上一个记忆单元的处理结果时,对该语音帧的频率特征和该上一个记忆单元的处理结果进行加权变换,得到该记忆单元的处理结果,将该记忆单元的处理结果输出给下一个记忆单元;

对于每个记忆单元,当接收到该语音帧的频率特征和下一个记忆单元的处理结果时,对该语音帧的频率特征和该下一个记忆单元的处理结果进行加权变换,得到该记忆单元的处理结果,将该记忆单元的处理结果输出给上一个记忆单元。

在一种可能实施方式中,该获取单元包括:

预处理子单元,被配置为执行对该音频数据进行预处理,得到第一数据;

第一转换子单元,被配置为执行基于时频变换,将该第一数据从时域转换到频域,得到第二数据,该第二数据为频域上的该第一数据;

第二转换子单元,被配置为执行基于频谱分析,将该第二数据从频谱转换为对数谱,得到该第二数据的对数谱;

输入输出子单元,被配置为执行将该对数谱输入特征提取模型,输出该音频数据中至少一个语音帧的频率特征,该特征提取模型用于基于对数谱提取频率特征。

在一种可能实施方式中,该输入输出子单元被配置为执行:

将该对数谱输入该特征提取模型内的至少一个卷积层,对该对数谱进行卷积处理,输出至少一个特征图,该至少一个特征图用于表示该对数谱的局部特征,每个特征图作为下一个卷积层的输入图;

将该至少一个特征图输入至少一个全连接层,对该局部特征进行全局整合,输出该至少一个语音帧的频率特征。

在一种可能实施方式中,该预处理子单元被配置为执行:

对该音频数据进行语音活动检测,删除该音频数据的静音期部分,得到第三数据,该静音期部分是指该音频数据中语音信号能量低于能量阈值的部分;

对该第三数据进行预加重处理,得到第四数据,该第四数据为增强高频分量后的该第三数据,该高频分量为频率高于频率阈值的分量;

对该第四数据进行加窗处理,得到该第一数据,该第一数据为经过有限时间分割的该第四数据。

在一种可能实施方式中,该第一转换子单元被配置为执行:

通过短时傅里叶变换,将该第一数据从时域转换到频域;

将该第一数据在频域上的模的平方值获取为该第二数据。

在一种可能实施方式中,该第二转换子单元被配置为执行:

通过梅尔滤波器组,将该第二数据从线性频谱转换为梅尔非线性频谱;

通过对数处理,将该第二数据从该梅尔非线性频谱转换为该对数谱。

在一种可能实施方式中,该装置还包括:

获取样本音频数据的样本频率特征,将该样本频率特征输入初始模型,输出该样本音频数据为敏感音频的样本预测概率;

根据该样本音频数据的真实分类结果和该样本预测概率,获取损失函数值;

如果该损失函数值大于目标数值,基于前向传播算法和反向传播算法,对该初始模型的参数进行调整;

直到该损失函数值小于等于该目标数值时停止调整,得到该分类模型。

在一种可能实施方式中,该装置还包括:

对原始音频进行解码,得到该音频数据;或,

对原始视频进行解码,得到视频数据,将视频数据中的音频数据获取为该音频数据。

根据本公开实施例的第三方面,提供一种计算机设备,该计算机设备包括:

一个或多个处理器;

用于存储处理器可执行指令的一个或多个存储器;

其中,该一个或多个处理器被配置为执行:

获取音频数据中至少一个语音帧的频率特征;

将该至少一个语音帧的频率特征输入分类模型,该分类模型包括至少一个双向长短期记忆递归神经网络BLSTM,其中,该至少一个BLSTM中前一个BLSTM的输出为后一个BLSTM的输入;

通过该分类模型中的各个BLSTM,根据每个语音帧的上下文语音帧的频率特征,对该至少一个语音帧的频率特征进行加权变换,得到该音频数据为敏感音频的预测概率;

当该预测概率大于概率阈值时,将该音频数据确定为该敏感音频。

根据本公开实施例的第四方面,提供一种非临时性计算机可读存储介质,当该存储介质中的至少一条指令由计算机设备的处理器执行时,使得计算机设备能够执行一种音频识别方法,该方法包括:

获取音频数据中至少一个语音帧的频率特征;

将该至少一个语音帧的频率特征输入分类模型,该分类模型包括至少一个双向长短期记忆递归神经网络BLSTM,其中,该至少一个BLSTM中前一个BLSTM的输出为后一个BLSTM的输入;

通过该分类模型中的各个BLSTM,根据每个语音帧的上下文语音帧的频率特征,对该至少一个语音帧的频率特征进行加权变换,得到该音频数据为敏感音频的预测概率;

当该预测概率大于概率阈值时,将该音频数据确定为该敏感音频。

根据本公开实施例的第五方面,提供一种应用程序,包括一条或多条指令,该一条或多条指令可以由计算机设备的处理器执行时,使得计算机设备能够执行一种音频识别方法,该方法包括:

获取音频数据中至少一个语音帧的频率特征;

将该至少一个语音帧的频率特征输入分类模型,该分类模型包括至少一个双向长短期记忆递归神经网络BLSTM,其中,该至少一个BLSTM中前一个BLSTM的输出为后一个BLSTM的输入;

通过该分类模型中的各个BLSTM,根据每个语音帧的上下文语音帧的频率特征,对该至少一个语音帧的频率特征进行加权变换,得到该音频数据为敏感音频的预测概率;

当该预测概率大于概率阈值时,将该音频数据确定为该敏感音频。

本公开的实施例提供的技术方案可以包括以下有益效果:

通过获取音频数据中至少一个语音帧的频率特征,将该至少一个语音帧的频率特征输入分类模型,通过该分类模型中的各个BLSTM,根据每个语音帧的上下文语音帧的频率特征,对该至少一个语音帧的频率特征进行加权变换,得到该音频数据为敏感音频的预测概率,当该预测概率大于概率阈值时,将该音频数据确定为该敏感音频,从而通过分类模型识别出敏感音频,提升了音频识别的效率,避免了客服人员进行人工筛选,节约了人力资源。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种音频识别方法的流程图。

图2是根据一示例性实施例示出的一种音频识别方法的流程图。

图3是根据一示例性实施例示出的一种特征提取模型的架构示意图。

图4是根据一示例性实施例示出的一种提取频率特征的流程图。

图5是根据一示例性实施例示出的一种分类模型的架构示意图。

图6是根据一示例性实施例示出的一种训练分类模型的流程图。

图7是根据一示例性实施例示出的一种音频识别方法的流程图。

图8是根据一示例性实施例示出的一种音频识别装置的框图。

图9是根据一示例性实施例示出的一种计算机设备的逻辑结构框图。

具体实施方式

这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种音频识别方法的流程图,如图1所示,音频识别方法用于计算机设备中,包括以下步骤。

在步骤101中,获取音频数据中至少一个语音帧的频率特征。

在步骤102中,将该至少一个语音帧的频率特征输入分类模型,该分类模型包括至少一个双向长短期记忆递归神经网络BLSTM,其中,该至少一个BLSTM中前一个BLSTM的输出为后一个BLSTM的输入。

在步骤103中,通过该分类模型中的各个BLSTM,根据每个语音帧的上下文语音帧的频率特征,对该至少一个语音帧的频率特征进行加权变换,得到该音频数据为敏感音频的预测概率。

在步骤104中,当该预测概率大于概率阈值时,将该音频数据确定为该敏感音频。

本公开实施例提供的方法,通过获取音频数据中至少一个语音帧的频率特征,将该至少一个语音帧的频率特征输入分类模型,通过该分类模型中的各个BLSTM,根据每个语音帧的上下文语音帧的频率特征,对该至少一个语音帧的频率特征进行加权变换,得到该音频数据为敏感音频的预测概率,当该预测概率大于概率阈值时,将该音频数据确定为该敏感音频,从而通过分类模型识别出敏感音频,提升了音频识别的效率,避免了客服人员进行人工筛选,节约了人力资源。

在一种可能实施方式中,每个BLSTM包括一个前向的长短期记忆递归神经网络LSTM和一个后向的LSTM。

在一种可能实施方式中,每个BLSTM包括输入层、隐藏层和输出层,该隐藏层中包括至少一个记忆单元,每个记忆单元对应于输入层中的一个语音帧的频率特征;

对于每个记忆单元,当接收到该语音帧的频率特征和上一个记忆单元的处理结果时,对该语音帧的频率特征和该上一个记忆单元的处理结果进行加权变换,得到该记忆单元的处理结果,将该记忆单元的处理结果输出给下一个记忆单元;

对于每个记忆单元,当接收到该语音帧的频率特征和下一个记忆单元的处理结果时,对该语音帧的频率特征和该下一个记忆单元的处理结果进行加权变换,得到该记忆单元的处理结果,将该记忆单元的处理结果输出给上一个记忆单元。

在一种可能实施方式中,获取音频数据中至少一个语音帧的频率特征包括:

对该音频数据进行预处理,得到第一数据;

基于时频变换,将该第一数据从时域转换到频域,得到第二数据,该第二数据为频域上的该第一数据;

基于频谱分析,将该第二数据从频谱转换为对数谱,得到该第二数据的对数谱;

将该对数谱输入特征提取模型,输出该音频数据中至少一个语音帧的频率特征,该特征提取模型用于基于对数谱提取频率特征。

在一种可能实施方式中,将该对数谱输入特征提取模型,输出该音频数据中至少一个语音帧的频率特征包括:

将该对数谱输入该特征提取模型内的至少一个卷积层,对该对数谱进行卷积处理,输出至少一个特征图,该至少一个特征图用于表示该对数谱的局部特征,每个特征图作为下一个卷积层的输入图;

将该至少一个特征图输入至少一个全连接层,对该局部特征进行全局整合,输出该至少一个语音帧的频率特征。

在一种可能实施方式中,对该音频数据进行预处理,得到第一数据包括:

对该音频数据进行语音活动检测,删除该音频数据的静音期部分,得到第三数据,该静音期部分是指该音频数据中语音信号能量低于能量阈值的部分;

对该第三数据进行预加重处理,得到第四数据,该第四数据为增强高频分量后的该第三数据,该高频分量为频率高于频率阈值的分量;

对该第四数据进行加窗处理,得到该第一数据,该第一数据为经过有限时间分割的该第四数据。

在一种可能实施方式中,基于时频变换,将该第一数据从时域转换到频域,得到第二数据包括:

通过短时傅里叶变换,将该第一数据从时域转换到频域;

将该第一数据在频域上的模的平方值获取为该第二数据。

在一种可能实施方式中,基于频谱分析,将该第二数据从频谱转换为对数谱包括:

通过梅尔滤波器组,将该第二数据从线性频谱转换为梅尔非线性频谱;

通过对数处理,将该第二数据从该梅尔非线性频谱转换为该对数谱。

在一种可能实施方式中,该方法还包括:

获取样本音频数据的样本频率特征,将该样本频率特征输入初始模型,输出该样本音频数据为敏感音频的样本预测概率;

根据该样本音频数据的真实分类结果和该样本预测概率,获取损失函数值;

如果该损失函数值大于目标数值,基于前向传播算法和反向传播算法,对该初始模型的参数进行调整;

直到该损失函数值小于等于该目标数值时停止调整,得到该分类模型。

在一种可能实施方式中,获取音频数据中至少一个语音帧的频率特征之前,该方法还包括:

对原始音频进行解码,得到该音频数据;或,

对原始视频进行解码,得到视频数据,将视频数据中的音频数据获取为该音频数据。

上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。

图2是根据一示例性实施例示出的一种音频识别方法的流程图,该音频识别方法用于计算机设备中,本公开实施例仅以该计算机设备为服务器为例进行说明,如图2所示,该实施例包括以下步骤:

在步骤201中,服务器对原始音频进行解码,得到音频数据。

其中,该原始音频可以是任一终端发送至服务器的任一音频,当然,该原始音频也可以是服务器存储在本地数据库的任一音频,例如,该原始音频可以是录音、语音消息等,本公开实施例不对该原始音频的来源进行具体限定。

在上述步骤201中,服务器可以通过音视频解码器对该原始音频进行解码,得到该音频数据,例如,该音视频解码器可以是ffmpeg,也可以是ffdshow等,本公开实施例不对该音视频解码器的类型进行具体限定。

在一些实施例中,上述步骤201可以通过下述方式进行替换:服务器对原始视频进行解码,得到视频数据,将视频数据中的音频数据获取为音频数据。其中,该原始视频可以是任一终端发送至服务器的任一视频,当然,该原始视频也可以是服务器存储在本地数据库中的任一视频,例如,该原始视频可以是直播视频、录播视频等,本公开实施例不对该原始视频的来源进行具体限定。

在上述过程中,服务器可以通过音视频解码器对该原始视频进行解码,得到视频数据,该视频数据包括音频数据和画面数据,从而将该视频数据中的音频数据获取为该音频数据,本公开实施例不对该音视频解码器的类型进行具体限定。

在步骤202中,服务器对该音频数据进行语音活动检测,删除该音频数据的静音期部分,得到第三数据,该静音期部分是指该音频数据中语音信号能量低于能量阈值的部分。

其中,该能量阈值可以是大于等于零的任一数值,该能量阈值可以由用户在服务器侧进行设置和更改;其中,该第三数据为删除了静音期部分的音频数据。

在上述过程中,服务器可以通过语音活动检测(voice activity detection,VAD,又称语音端点检测),识别出该音频数据中语音信号能量低于能量阈值的部分,将该部分确定为静音期部分,从该音频数据中删除该静音期部分,得到该第三数据。

在一些实施例中,服务器可以基于双门限方法进行语音活动检测,也即是:服务器将该音频数据输入两个弱分类器组成的Boosting模型,通过该Boosting模型对该音频数据进行短时能量检测和短时过零率检测,将在短时能量检测中能量低于能量门限并且在短时过零率检测中过零率低于过零率门限的部分确定为该静音期部分。当然,为了避免噪声的影响,在将音频数据输入该Boosting模型之前,还可以对该音频数据进行平滑处理,例如中值滤波、均值滤波等。

在一些实施例中,服务器还可以通过获取该音频数据的归一化能量的概率密度,根据该概率密度获取该音频数据的熵值,将熵值低于熵阈值的部分确定为该静音期部分。可选地,服务器还可以通过经验模态分解法(empirical mode decomposition,EMD)、相关系数法或者小波变换法等方法进行语音活动检测,本公开实施例对具体采用哪种方式来实现语音活动检测不做具体限定。

通过上述步骤202,服务器能够在提取频率特征之前,预先从该音频数据中删除静音期部分,避免了对该静音期部分进行特征提取和音频识别,降低了这两个过程的数据处理量,从而节约了音频识别的时间,提升了音频识别的效率。

可选地,服务器还可以不执行上述步骤202,也即是不进行语音活动检测,从而能够对整个音频数据进行音频识别,避免在语音活动检测时删除掉有可能是敏感音频的部分,能够更加全面可靠的识别出敏感音频。

在步骤203中,服务器对该第三数据进行预加重处理,得到第四数据,该第四数据为增强高频分量后的该第三数据,该高频分量为频率高于频率阈值的分量。

其中,该频率阈值可以是大于等于零的任一数值,该频率阈值可以由用户在服务器侧进行设置和更改。

在一些实施例中,服务器可以基于高通滤波器确定该第三数据中频率高于频率阈值的高频分量,将该高频分量的能量增大目标倍数,从而得到该第四数据,其中,该目标倍数可以为大于1的任一数值,本公开实施例不对该目标倍数的取值进行具体限定。

在一些实施例中,服务器还可以在进行时域分析的过程中,如果在该第三数据中当前处理的语音帧的信号与上一语音帧的信号不同,则将当前处理的语音帧的幅度增大目标倍数,从而能够在第三数据的上升沿和下降沿处,对带有高频分量的语音帧的幅度进行整体加强,此外,如果当前处理的语音帧的信号与上一语音帧的信号相同,则不进行幅度改变,最终在时域分析完成后可以得到该第四数据。

通过上述步骤202,可以通过对第三数据进行预加重处理,对容易受损的高频分量进行增强补偿,避免了高频分量的过大衰减,而在噪声被同等衰减的情况下,可以有效地提高信噪比,当然,服务器还可以不执行上述步骤203,也即是不进行预加重处理,从而简化了语音识别的流程。

在步骤204中,服务器对该第四数据进行加窗处理,得到第一数据,该第一数据为经过有限时间分割的该第四数据。

其中,该有限时间可以是大于等于0且小于无穷的任一时长,本公开实施例不对该有限时间的取值进行具体限定。

在上述过程中,服务器可以将该第四数据输入窗函数,通过在第四数据的时域上移动窗函数,将该第四数据分割为时长相等的多个片段(也即是对第四数据进行重新分帧以得到多个语音帧),将该多个片段获取为第一数据。其中,该窗函数可以是哈明(hamming)窗、汉宁(hanning)窗或者矩形窗等,本公开实施例不对该窗函数的形式进行具体限定。

在一些实施例中,上述多个片段可以具有目标比率的重叠率,也即是,在时域上移动窗函数的过程中移动步长小于1,其中,该目标比率可以是大于0的任一数值。例如,当步长为0.6时,窗函数所分割的相邻片段的重叠率为40%,从而能够避免加窗处理的过程中,由于随机误差或系统误差,损失了窗函数所截取的边缘数据的时域特征。

在上述步骤204中,通过窗函数的作用,能够对该第四数据进行重新分帧,得到多个语音帧所组成的第一数据,从而方便了对第一数据进行傅里叶变换和频谱分析,提升了音频识别的效率。

通过上述步骤202-204,服务器对该音频数据进行预处理,得到第一数据,从而在提取该音频数据的频率特征之前,能够通过预处理删除静音期部分,对高频分量进行预加重,以及通过加窗处理获取第一数据,从而有利于提取出更加精准的频率特征,当然,服务器还可以不执行上述步骤202-204中的任一项或至少两项,从而简化本公开实施例中音频识别方法的流程。

在步骤205中,服务器通过短时傅里叶变换,将该第一数据从时域转换到频域。

在上述过程中,服务器可以将上述步骤204中窗函数分割后的多个语音帧中的每一个语音帧都视为平稳信号,基于短时傅里叶变换(short-time Fourier transform,STFT),对每一个语音帧分别进行傅里叶变换,从而将该第一数据从时域转换到频率。可选地,服务器可以通过spectrogram函数实现短时傅里叶变换。

在上述步骤205中,由于服务器进行识别的音频数据通常是非平稳信号,服务器通过对第一数据进行短时傅里叶变换,不仅能够得到第一数据所包括的多个频率成分,而且可以得到非平稳信号中各个频率成分出现时刻的时域信息,从而能够提取到更全面的频率特征,提升了音频识别的准确率。

在一些实施例中,服务器还可以不通过短时傅里叶变换,而是通过傅里叶变换、快速傅里叶变换(fast Fourier transform,FFT)等方法将第一数据从时域转换到频域,本公开实施例不对时频变换的方式进行具体限定。

在步骤206中,服务器将该第一数据在频域上的模的平方值获取为第二数据。

在上述过程中,由于在执行本公开实施例中的音频识别方法的过程中,服务器仅关心频域上幅值的变化,不关心符号的正负,因此可以对第一数据在频域上取模后再求平方值,从而能够简化频率特征的提取流程。

通过上述步骤205-206,服务器基于时频变换,将该第一数据从时域转换到频域,得到第二数据,该第二数据为频域上的该第一数据,从而便于对第二数据进行进一步地频谱分析。

在步骤207中,服务器通过梅尔滤波器组,将该第二数据从线性频谱转换为梅尔非线性频谱。

其中,该梅尔滤波器组包括一组滤波器,该梅尔滤波器组用于输出能够模拟人耳听觉感知的梅尔非线性频谱。

在上述过程中,服务器可以将该第二数据输入梅尔滤波器组,通过梅尔滤波器组中各个滤波器的滤波作用,滤除与人耳听觉感知不匹配的频率分量,使得与人耳听觉感知相匹配的频率分量通过,从而输出梅尔非线性频谱。其中,与人耳听觉感知相匹配是指与人耳听觉的感知度呈线性关系。

在上述步骤205中,服务器通过短时傅里叶变换,所得到的第二数据的频谱是线性频谱,不足以体现人耳听觉感知的特性,服务器通过上述步骤207,将该线性频谱输入梅尔滤波器组,输出梅尔非线性频谱,从而能够模拟人耳对听觉感知的处理过程,也就提升了音频识别过程的准确率。

在步骤208中,服务器通过对数处理,将该第二数据从该梅尔非线性频谱转换为对数谱。

在上述过程中,服务器通过对梅尔非线性频谱取对数,可以将梅尔非线性谱中的乘法关系转换为对数谱中的加法关系,从而能够简化后续的计算过程,减小语音识别过程中的计算量。

在上述步骤207-208中,服务器基于频谱分析,将该第二数据从频谱转换为对数谱,得到该第二数据的对数谱,便于将该对数谱作为输入,输入至特征提取模型进行深度的特征提取。

在步骤209中,服务器将该对数谱输入特征提取模型内的至少一个卷积层,对该对数谱进行卷积处理,输出至少一个特征图,该至少一个特征图用于表示该对数谱的局部特征,每个特征图作为下一个卷积层的输入图。

其中,该特征提取模型用于基于对数谱提取频率特征,该特征提取模型采用卷积神经网络(convolutional neural networks,CNN)的形式实现,在该特征提取模型中可以包括至少一个卷积层、至少一个池化层和至少一个全连接层,该至少一个卷积层用于对输入图进行卷积处理,每个卷积层中可以包括至少一个卷积核,每个卷积核用于指示一次卷积操作时的权重矩阵,该至少一个池化层用于对该至少一个卷积层的输出图进行特征压缩,该至少一个全连接层用于对输入图进行特征的全局整合。

在上述特征提取模型内,该至少一个卷积层中各个卷积层采用串行连接,也即是,上一个卷积层的输出图作为下一个卷积层的输入图,可选地,可以在每一对相邻的卷积层之间设置一个池化层,当然,也可以仅在一些相邻的卷积层之间设置一个池化层,而对于另一些相邻的卷积层之间不设置池化层,在最后一个卷积层(或者最后一个卷积层后的池化层)之后设置有该至少一个全连接层,需要说明的是,本公开实施例所涉及到的输入图和输出图都是特征图(feature map),在此不作赘述。

在一些实施例中,在每个卷积层后还可以设置有激活层和归一化层,该激活层用于为该卷积层的输出图添加非线性的激活函数,例如该激活函数可以是tanh函数、ReLU函数或sigmoid函数等,该归一化层用于对该卷积层的输出图进行归一化处理,从而能够改善特征提取模型中的梯度弥散问题。

图3是根据一示例性实施例示出的一种特征提取模型的架构示意图,以该特征提取模型为Vggish模型为例进行说明,在该Vggish模型中,可以包括6个卷积(conv)层、3个池化(pool)层和3个全连接(fc)层,各个层之间的连接情况如图3所示,在图3中,还示出了各个卷积层和全连接层的卷积核个数,例如,图示第一个卷积层“conv,64”表示这个卷积层中设置有64个卷积核,其余各个卷积层和全连接层的卷积核个数不再赘述。

需要说明的是,在Vggish模型的每个卷积层中采用尺寸为3*3的小型卷积核,每个池化层中采用尺寸为2*2的最大池化核,将对数谱(logmel)输入该Vggish模型后,随着深度的增加,每次池化后图像的尺寸缩小一半,深度增加一倍,由最后一个全连接层输出该音频数据的至少一个语音帧的频谱特征(Vggish feature,Vggish特征),从而简化了特征提取模型的结构,便于提取高层次的频率特征。

在步骤210中,服务器将该至少一个特征图输入至少一个全连接层,对该局部特征进行全局整合,输出至少一个语音帧的频率特征。

在上述过程中,服务器将该至少一个特征图依次输入该至少一个全连接层,在第一个全连接层内对该至少一个特征图进行卷积处理,将该第一个全连接层的输出图作为下一个全连接层的输入图,以此类推,将最后一个全连接层的输出图作为该频率特征,其中,每个全连接层的卷积核尺寸与该全连接层的输入图尺寸相同。

在上述步骤209-210中,服务器将该对数谱输入特征提取模型,输出该音频数据中至少一个语音帧的频率特征,从而能够通过卷积神经网络来进行特征提取,有利于深度提取该至少一个语音帧的频率特征。

在一些实施例中,服务器还可以不执行上述步骤209-210,也即是不将该对数谱输入该特征提取模型,而是基于倒谱分析,将该对数谱进行离散余弦变换(discrete cosine transform,DCT)处理,将DCT处理所得到的梅尔频率倒谱系数(mel frequency cepstrum coefficient,MFCC)作为该频率特征,从而简化了特征提取的处理流程。

图4是根据一示例性实施例示出的一种提取频率特征的流程图,如图4所示,通过上述步骤202-210,服务器获取音频数据中至少一个语音帧的频率特征,从而执行下述步骤211。

在步骤211中,服务器将该至少一个语音帧的频率特征输入分类模型,该分类模型包括至少一个双向长短期记忆递归神经网络BLSTM,其中,该至少一个BLSTM中前一个BLSTM的输出为后一个BLSTM的输入。

其中,每个双向长短期记忆递归神经网络(bidirectional long short-term memory,BLSTM)包括一个前向的长短期记忆递归神经网络(long short-term memory,LSTM)和一个后向的LSTM。

在一些实施例中,每个BLSTM包括输入层、隐藏层和输出层,该隐藏层中包括至少一个记忆单元,每个记忆单元对应于输入层中的一个语音帧的频率特征。

可选地,在各个BLSTM的隐藏层与输出层之间还可以设置一个归一化层,该归一化层用于通过归一化函数对隐藏层的处理结果(也即是一个特征向量)进行归一化处理,将该处理结果等比例压缩到[0,1]之间,使得每一个BLSTM的输出层具有类似的分布,从而改善了分类模型的梯度弥散问题。

对于每个记忆单元,当接收到该语音帧的频率特征和上一个记忆单元的处理结果时,对该语音帧的频率特征和该上一个记忆单元的处理结果进行加权变换,得到该记忆单元的处理结果,将该记忆单元的处理结果输出给下一个记忆单元;对于每个记忆单元,当接收到该语音帧的频率特征和下一个记忆单元的处理结果时,对该语音帧的频率特征和该下一个记忆单元的处理结果进行加权变换,得到该记忆单元的处理结果,将该记忆单元的处理结果输出给上一个记忆单元。

在上述过程中,服务器将该至少一个语音帧的频率特征输入该分类模型,也即是,分别将一个语音帧的频率特征输入一个记忆单元,使得每个记忆单元对应于一个语音帧的频率特征。例如,当将n个语音帧的频率特征输入该分类模型时,是将第1个语音帧输入第1个记忆单元,将第2个语音帧输入第2个记忆单元,以此类推,直到将第n个语音帧输入第n个记忆单元,其中n为大于等于1的任一正整数。

图5是根据一示例性实施例示出的一种分类模型的架构示意图,参见图5,以该分类模型为双层BLSTM为例,第一个BLSTM的输出层作为第二个BLSTM的输入层,在每个BLSTM中,包括一个前向(forward)的LSTM和一个后向(backward)的LSTM,需要说明的是,虽然在图中对于每一个语音帧的输入特征都对应地画出了两个记忆单元,但仅仅是为了更好地表示前向的LSTM和后向的LSTM之间的数据流向示意,而在实际应用中,前向的LSTM和后向的LSTM共用该至少一个记忆单元,从而使得在前向的LSTM中,每个记忆单元能够基于输入层的语音帧的频率特征以及上一个记忆单元的处理结果进行加权变换,从而在分类时能够考虑到上文语音帧的频率特征,进一步地,在后向的LSTM中,每个记忆单元能够基于输入层的语音帧的频率特征以及下一个记忆单元的处理结果进行加权变换,从而在分类时能够考虑到下文语音帧的频率特征。

在步骤212中,服务器通过该分类模型中的各个BLSTM,根据每个语音帧的上下文语音帧的频率特征,对该至少一个语音帧的频率特征进行加权变换,得到该音频数据为敏感音频的预测概率。

在上述过程中,在第一个BLSTM中,每个记忆单元基于输入层的语音帧的频率特征以及该语音帧的上下文语音帧的频率特征(上一个记忆单元和下一个记忆单元的处理结果)进行加权变换,输出对该语音帧的处理结果,对于n个语音帧输出n个处理结果,将这n个处理结果分别输入第二个BLSTM的n个记忆单元中,以此类推,直到最后一个BLSTM将输出该音频数据为敏感音频的预测概率,其中n为大于等于1的任一正整数。

在一些实施例中,服务器可以将该敏感音频的至少一个指纹特征作为该分类模型的至少一个标签,在上述最后一个BLSTM的输出层中可以得到每一个语音帧属于每一个标签的预测概率。其中,该敏感音频可以是受到政策或者法律所限制的音频,例如该敏感音频可以是娇喘声等色情音频,该敏感音频的至少一个指纹特征可以是用户对至少一个具有代表性的敏感音频进行指纹提取后所得到的特征。

在一些实施例中,每个记忆单元内部,可以设置有遗忘门、输入门和输出门,该遗忘门用于选择性地遗忘该记忆单元中处理的信息,该输入门用于将输入层的语音帧的频率特征选择性地输入到该记忆单元中,该输出门用于将该记忆单元的处理结果与输入层的语音帧的频率特征合并,以备传送至下一个(或者上一个)记忆单元。

在步骤213中,服务器当该预测概率大于概率阈值时,将该音频数据确定为该敏感音频。

在上述过程中,服务器可以将上述步骤212中输出的多个预测概率逐个与概率阈值进行对比,当任一预测概率大于概率阈值时,将该预测概率所对应的语音帧确定为敏感语音帧,当该音频数据中敏感语音帧所占的比例超过目标比例时,将该音频数据确定为敏感音频。其中,该目标比例可以是任一大于0的数值,例如该目标比例可以是70%。

需要说明的是,本公开实施例仅以在服务器侧进行特征提取和音频识别为例进行说明,在一些实施例中,上述步骤202-203也可以在终端侧实现,也即是,终端侧在向服务器发送原始音频之前,通过语音活动检测,将原始音频中的静音期部分不予发送,进一步地对原始音频进行预加重处理,避免在数据传输过程中造成的高频分类的衰减,将经过上述处理的原始音频发送至服务器,再由服务器执行上述步骤201对原始音频解码后,直接执行步骤204。

上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。

本公开实施例提供的方法,通过获取音频数据中至少一个语音帧的频率特征,将该至少一个语音帧的频率特征输入分类模型,通过该分类模型中的各个BLSTM,根据每个语音帧的上下文语音帧的频率特征,对该至少一个语音帧的频率特征进行加权变换,得到该音频数据为敏感音频的预测概率,当该预测概率大于概率阈值时,将该音频数据确定为该敏感音频,从而通过分类模型识别出敏感音频,提升了音频识别的效率,避免了客服人员进行人工筛选,节约了人力资源。

在本公开实施例的一些实施场景中,以敏感音频为娇喘声音频为例,当终端向服务器上传任一音频或视频时,服务器会先对该音频或视频进行解码,得到音频数据(或视频数据中的音频数据),基于音频数据进行特征提取,将频率特征输入分类模型后,能够确定该音频或视频是否为娇喘声音频,从而当用户上传的音频或视频确定含有娇喘声音频时,对上传的该音频或视频不予展示,当用户上传的音频或视频确定不含有娇喘声音频时,则对该上传的音频或视频予以正常展示,从而可以在服务器侧通过分类模型进行音频识别,避免了人工进行筛选,节约了人力资源,而且提升了音频识别的效率。

进一步地,采用BLSTM形式的分类模型,可以在对语音帧进行概率预测的过程中,考虑到上下文语音帧的频率特征,提升了对音频数据整体预测的准确率;进一步地,通过对音频数据进行预处理,再通过时频变换和频谱分析得到对数谱,基于特征提取模型提取对数谱的频率特征,能够对音频数据的频率特征进行深度提取,得到更深层次的频率特征;进一步地,通过CNN形式的特征提取模型,可以分别提取局部特征后通过全连接层进行全局整合;进一步地,通过语音活动检测,去除音频数据中的静音期部分,再通过预加重处理,减少了高频分量的损失,通过加窗处理实现了对音频数据进行分帧;进一步地,基于短时傅里叶变换,能够基于分帧后的音频数据进行时频变换,通过梅尔滤波器组先将线性频谱转换为梅尔非线性谱,再转换为对数谱,能够模拟人耳听觉感知的特性,进一步地提升了特征提取的准确率。

在上述实施例中,服务器对原始音频进行语音识别,能够确定该原始音频是否为敏感音频,而在将音频数据的至少一个语音帧的频率特征输入分类模型之前,还需要对分类模型进行训练,在本公开实施例中将对分类模型的训练过程进行详述,图6是根据一示例性实施例示出的一种训练分类模型的流程图,如图6所示,该实施例包括以下步骤:

在步骤601中,服务器对样本原始音频进行解码,得到样本音频数据。

其中,该样本原始音频可以是服务器存储于本地数据库中的样本集中的任一音频,也可以是服务器从云端下载的任一音频,本公开实施例不对该样本原始音频的来源进行具体限定。

上述步骤601与步骤201类似,在此不作赘述。

在步骤602中,服务器对该样本音频数据进行预加重处理,得到第五数据,该第五数据为增强高频分量后的该样本音频数据,该高频分量为频率高于频率阈值的分量。

上述步骤602与步骤203类似,在此不作赘述。

需要说明的是,由于终端发送至服务器的原始音频随机性较大,在线上音频识别过程中,因此需要执行步骤202中的语音活动检测以删除静音期部分,而在线下训练过程中,由于样本原始音频是用户选取的样本集中的音频,因此无需进行语音活动检测。

在步骤603中,服务器对该第五数据进行加窗处理,得到第六数据,该第六数据为经过有限时间分割的该第五数据。

上述步骤603与步骤204类似,在此不作赘述。

在步骤604中,服务器通过短时傅里叶变换,将该第六数据从时域转换到频域。

上述步骤604与步骤205类似,在此不作赘述。

在步骤605中,服务器将该第六数据在频域上的模的平方值获取为第七数据。

上述步骤605与步骤206类似,在此不作赘述。

在步骤606中,服务器通过梅尔滤波器组,将该第七数据从线性频谱转换为梅尔非线性频谱。

上述步骤606与步骤207类似,在此不作赘述。

在步骤607中,服务器通过对数处理,将该第七数据从该梅尔非线性频谱转换为对数谱。

上述步骤607与步骤208类似,在此不作赘述。

在步骤608中,服务器将该对数谱输入特征提取模型内的至少一个卷积层,对该对数谱进行卷积处理,输出至少一个特征图,该至少一个特征图用于表示该对数谱的局部特征,每个特征图作为下一个卷积层的输入图。

上述步骤608与步骤209类似,在此不作赘述。

在步骤609中,服务器将该至少一个特征图输入至少一个全连接层,对该局部特征进行全局整合,输出该样本音频数据中至少一个语音帧的频率特征。

上述步骤609与步骤210类似,在此不作赘述。

在步骤610中,服务器将该至少一个语音帧的频率特征输入初始模型,该初始模型包括至少一个BLSTM,其中,该至少一个BLSTM中前一个BLSTM的输出为后一个BLSTM的输入。

上述步骤610与步骤211类似,在此不作赘述。

在一些实施例中,当初始模型包含多个BLSTM时,在各个BLSTM之间还可以嵌入至少一个随机失活(dropout)层,该随机失活层用于在每次训练过程中,使得与该随机失活层相连的上一个BLSTM中的至少一个记忆单元中的每个记忆单元都具有目标几率停止工作,其中,该目标几率可以是任一大于等于0且小于等于1的数值。

例如,当该初始模型包含2个BLSTM时,在第一个BLSTM与第二个BLSTM之间嵌入一个随机失活层,假设第一个BLSTM与第二个BLSTM均含有10个记忆单元且目标几率默认为50%,则在每一次训练的过程中,在该随机失活层的作用下,上述10个记忆单元中的每个记忆单元都有50%的几率停止工作,例如在第i次训练时,第1,2,5,6,9个记忆单元停止工作,而第i+1次训练时,第3,4,7个记忆单元停止工作,其中i为大于等于1的正整数。

需要说明的是,上述随机失活层保证的是每个记忆单元都有50%的几率停止工作,而并非用于限定每个BLSTM必须要有50%的记忆单元停止工作,基于上述示例,是BLSTM的10个记忆单元中每一个均有50%的可能性停止工作,而并非在10个记忆单元中有50%的记忆单元停止工作,因此,在上述示例第i+1次训练时,可以仅有3个记忆单元停止工作,本发明实施例不对每次停止工作的记忆单元的数量进行具体限定。

在上述过程中,可以在每两个相邻的BLSTM之间就嵌入一个随机失活层,也可以仅在一部分相邻的BLSTM之间嵌入一个随机失活层,本公开实施例不对该随机失活层的数量进行具体限定,通过引入随机失活层,能够避免在初始模型的训练过程中,某个记忆单元的权重过大,从而减轻了初始模型过拟合的问题。

在步骤611中,服务器通过该初始模型中的各个BLSTM,根据每个语音帧的上下文语音帧的频率特征,对该至少一个语音帧的频率特征进行加权变换,得到该样本音频数据为敏感音频的样本预测概率。

上述步骤611与步骤212类似,在此不作赘述。

在上述步骤601-611中,服务器获取样本音频数据的样本频率特征,将该样本频率特征输入初始模型,输出该样本音频数据为敏感音频的样本预测概率,从而体现了对一个样本音频数据进行一次音频识别的过程,而在训练时,通常需要将样本集中的多个样本音频数据依次执行上述步骤601-611中所执行的操作,得到每个样本音频数据的样本预测概率,这里不再赘述。

在步骤612中,服务器根据该样本音频数据的真实分类结果和该样本预测概率,获取损失函数值。

在上述步骤612中,服务器可以将各个样本音频数据的真实分类结果和样本预测概率的均方误差(mean square error,MSE)作为该损失函数值。

在步骤613中,如果该损失函数值大于目标数值,服务器基于前向传播算法和反向传播算法,对该初始模型的参数进行调整。

在上述步骤613中,由于该分类模型具有至少一个BLSTM,而每个BLSTM都包括一个前向的LSTM和一个后向LSTM,在一些实施例中,服务器可以先基于前向传播算法,对初始模型中每个BLSTM的前向的LSTM进行参数调整,再基于前向传播算法,对初始模型中每个BLSTM的后向的LSTM进行参数调整;进一步地,服务器基于反向传播算法,对初始模型中每个BLSTM的前向的LSTM进行参数调整,最后基于反向传播算法,对初始模型中每个BLSTM的后向的LSTM进行参数调整,从而完成了一次参数调整的流程。

在步骤614中,服务器迭代执行上述步骤601-613所执行的操作,直到该损失函数值小于等于该目标数值时停止调整,得到该分类模型。

在上述过程中,服务器通过前向传播算法和反向传播算法,对输出模型进行训练,得到了分类模型,图7是根据一示例性实施例示出的一种音频识别方法的流程图,参见图7,当线下对初始模型训练完毕得到分类模型后,可以将该分类模型投入到线上的音频识别流程中,进一步地,对于每次识别出来的敏感音频,还可以将该敏感音频添加到样本集中,从而提升样本集的数据量,有利于在线下训练的过程中得到准确率更高的分类模型。

本发明实施例提供的方法,通过对样本音频数据进行频率特征提取,得到样本频率特征,将样本频率特征输入初始模型,从而能够输出初始模型对每个样本音频数据的样本预测概率,进一步地能够根据样本预测概率和真实分类结果,获取损失函数值,基于损失函数值来对初始模型的参数进行反馈调节,从而当损失函数值小于或等于目标数值时,认为对初始模型训练完毕,得到分类模型,也就可以通过调整目标数值,实现对分类模型的准确率的控制,进一步地,通过在BLSTM中随机失活层,能够避免在初始模型的训练过程中,某个记忆单元的权重过大,从而减轻了初始模型过拟合的问题,进一步地,对于每次识别出来的敏感音频,还可以将该敏感音频添加到样本集中,从而提升样本集的数据量,有利于在线下训练的过程中得到准确率更高的分类模型。

上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。

图8是根据一示例性实施例示出的一种音频识别装置的框图。参照图8,该装置包括获取单元801,输入单元802,变换单元803和确定单元804:

该获取单元801,被配置为执行获取音频数据中至少一个语音帧的频率特征;

该输入单元802,被配置为执行将该至少一个语音帧的频率特征输入分类模型,该分类模型包括至少一个双向长短期记忆递归神经网络BLSTM,其中,该至少一个BLSTM中前一个BLSTM的输出为后一个BLSTM的输入;

该变换单元803,被配置为执行通过该分类模型中的各个BLSTM,根据每个语音帧的上下文语音帧的频率特征,对该至少一个语音帧的频率特征进行加权变换,得到该音频数据为敏感音频的预测概率;

该确定单元804,被配置为执行当该预测概率大于概率阈值时,将该音频数据确定为该敏感音频。

本公开实施例提供的装置,通过获取音频数据中至少一个语音帧的频率特征,将该至少一个语音帧的频率特征输入分类模型,通过该分类模型中的各个BLSTM,根据每个语音帧的上下文语音帧的频率特征,对该至少一个语音帧的频率特征进行加权变换,得到该音频数据为敏感音频的预测概率,当该预测概率大于概率阈值时,将该音频数据确定为该敏感音频,从而通过分类模型识别出敏感音频,提升了音频识别的效率,避免了客服人员进行人工筛选,节约了人力资源。

在一种可能实施方式中,每个BLSTM包括一个前向的长短期记忆递归神经网络LSTM和一个后向的LSTM。

在一种可能实施方式中,每个BLSTM包括输入层、隐藏层和输出层,该隐藏层中包括至少一个记忆单元,每个记忆单元对应于输入层中的一个语音帧的频率特征;

对于每个记忆单元,当接收到该语音帧的频率特征和上一个记忆单元的处理结果时,对该语音帧的频率特征和该上一个记忆单元的处理结果进行加权变换,得到该记忆单元的处理结果,将该记忆单元的处理结果输出给下一个记忆单元;

对于每个记忆单元,当接收到该语音帧的频率特征和下一个记忆单元的处理结果时,对该语音帧的频率特征和该下一个记忆单元的处理结果进行加权变换,得到该记忆单元的处理结果,将该记忆单元的处理结果输出给上一个记忆单元。

在一种可能实施方式中,基于图8的装置组成,该获取单元801包括:

预处理子单元,被配置为执行对该音频数据进行预处理,得到第一数据;

第一转换子单元,被配置为执行基于时频变换,将该第一数据从时域转换到频域,得到第二数据,该第二数据为频域上的该第一数据;

第二转换子单元,被配置为执行基于频谱分析,将该第二数据从频谱转换为对数谱,得到该第二数据的对数谱;

输入输出子单元,被配置为执行将该对数谱输入特征提取模型,输出该音频数据中至少一个语音帧的频率特征,该特征提取模型用于基于对数谱提取频率特征。

在一种可能实施方式中,该输入输出子单元被配置为执行:

将该对数谱输入该特征提取模型内的至少一个卷积层,对该对数谱进行卷积处理,输出至少一个特征图,该至少一个特征图用于表示该对数谱的局部特征,每个特征图作为下一个卷积层的输入图;

将该至少一个特征图输入至少一个全连接层,对该局部特征进行全局整合,输出该至少一个语音帧的频率特征。

在一种可能实施方式中,该预处理子单元被配置为执行:

对该音频数据进行语音活动检测,删除该音频数据的静音期部分,得到第三数据,该静音期部分是指该音频数据中语音信号能量低于能量阈值的部分;

对该第三数据进行预加重处理,得到第四数据,该第四数据为增强高频分量后的该第三数据,该高频分量为频率高于频率阈值的分量;

对该第四数据进行加窗处理,得到该第一数据,该第一数据为经过有限时间分割的该第四数据。

在一种可能实施方式中,该第一转换子单元被配置为执行:

通过短时傅里叶变换,将该第一数据从时域转换到频域;

将该第一数据在频域上的模的平方值获取为该第二数据。

在一种可能实施方式中,该第二转换子单元被配置为执行:

通过梅尔滤波器组,将该第二数据从线性频谱转换为梅尔非线性频谱;

通过对数处理,将该第二数据从该梅尔非线性频谱转换为该对数谱。

在一种可能实施方式中,基于图8的装置组成,该装置还包括:

获取样本音频数据的样本频率特征,将该样本频率特征输入初始模型,输出该样本音频数据为敏感音频的样本预测概率;

根据该样本音频数据的真实分类结果和该样本预测概率,获取损失函数值;

如果该损失函数值大于目标数值,基于前向传播算法和反向传播算法,对该初始模型的参数进行调整;

直到该损失函数值小于等于该目标数值时停止调整,得到该分类模型。

在一种可能实施方式中,基于图8的装置组成,该装置还包括:

对原始音频进行解码,得到该音频数据;或,

对原始视频进行解码,得到视频数据,将视频数据中的音频数据获取为该音频数据。

关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。

需要说明的是:上述实施例提供的音频识别装置在识别音频时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将计算机设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的音频识别装置与音频识别方法实施例属于同一构思,其具体实现过程详见音频识别方法实施例,这里不再赘述。

在示例性实施例中,还提供了一种包括至少一条指令的非临时性计算机可读存储介质,例如包括至少一条指令的存储器,上述至少一条指令可由计算机设备的处理器执行以完成上述音频识别方法,该方法包括:获取音频数据中至少一个语音帧的频率特征;将该至少一个语音帧的频率特征输入分类模型,该分类模型包括至少一个双向长短期记忆递归神经网络BLSTM,其中,该至少一个BLSTM中前一个BLSTM的输出为后一个BLSTM的输入;通过该分类模型中的各个BLSTM,根据每个语音帧的上下文语音帧的频率特征,对该至少一个语音帧的频率特征进行加权变换,得到该音频数据为敏感音频的预测概率;当该预测概率大于概率阈值时,将该音频数据确定为该敏感音频。可选地,上述至少一条指令还可以由计算机设备的处理器执行以完成上述示例性实施例中所涉及的其他步骤。例如,该非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中,还提供了一种应用程序,包括一条或多条指令,该一条或多条指令可以由计算机设备的处理器执行,以完成上述音频识别方法,该方法包括:获取音频数据中至少一个语音帧的频率特征;将该至少一个语音帧的频率特征输入分类模型,该分类模型包括至少一个双向长短期记忆递归神经网络BLSTM,其中,该至少一个BLSTM中前一个BLSTM的输出为后一个BLSTM的输入;通过该分类模型中的各个BLSTM,根据每个语音帧的上下文语音帧的频率特征,对该至少一个语音帧的频率特征进行加权变换,得到该音频数据为敏感音频的预测概率;当该预测概率大于概率阈值时,将该音频数据确定为该敏感音频。可选地,上述指令还可以由计算机设备的处理器执行以完成上述示例性实施例中所涉及的其他步骤。

图9是根据一示例性实施例示出的一种计算机设备的逻辑结构框图,该计算机设备900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)901和一个或一个以上的存储器902,其中,该存储器902中存储有至少一条指令,该至少一条指令由该处理器901加载并执行以实现上述各个音频识别方法实施例提供的音频识别方法。当然,该计算机设备还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该计算机设备还可以包括其他用于实现设备功能的部件,在此不做赘述。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。

应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1