一种信号识别方法及其设备、存储介质、终端与流程

文档序号:15852726发布日期:2018-11-07 10:22阅读:164来源:国知局
一种信号识别方法及其设备、存储介质、终端与流程

本发明涉及计算机技术领域,尤其涉及一种信号识别方法及其设备、存储介质、终端。

背景技术

面对海量的音频信号,对其进行正确分类以便管理和提供服务是一项重要的工作。

现有技术中,对音频信号进行分类通常都需要设计特定的分类系统,包括特定的预处理、特征处理和分类方法,但生产环境面对的音频信号种类繁多,长度不等,由于每个分类系统都是针对特定的音频信号而言,且该分类系统不具有良好的扩展性,那么每有一个新的分类需求时,就需要单独设计一个新的分类系统加以解决,因此,现有的信号分类方法存在对音频信号分类识别便利性不足的问题。



技术实现要素:

本发明实施例提供一种信号识别方法及其设备、存储介质、终端,通过对所提取的音频信号的多种音频特征数据进行组合并分类识别,减少了对每种音频特征数据的单独提取过程,提升了对音频信号分类识别的便利性。

本发明实施例一方面提供了一种信号识别方法,可包括:

获取所输入的音频信号,提取所述音频信号的多种音频特征数据;

将所述多种音频特征数据进行组合,以得到所述音频信号的音频属性数据;

对所述音频属性数据进行分类识别,并获取与所述音频信号相关联的音频特性类型。

可选的,所述提取所述音频信号的多种音频特征数据,包括:

获取所述音频信号的信号长度;

当所述音频信号的信号长度大于第一信号长度阈值且小于或者等于第二信号长度阈值时,基于所述第一信号长度阈值将所述音频信号分割为第一音频子信号集合,所述第二信号长度阈值大于所述第一信号长度阈值;

分别提取所述第一音频子信号集合中各音频子信号的多种音频特征数据。

可选的,所述提取所述音频信号的多种音频特征数据,包括:

获取所述音频信号的信号长度;

当所述音频信号的信号长度大于第一信号长度阈值且大于第二信号长度阈值时,基于所述第一信号长度阈值将所述音频信号分割为第二音频子信号集合,所述第二信号长度阈值大于所述第一信号长度阈值;

采用信号选取规则在所述第二音频子信号集合中选取设定数量的目标音频子信号集合;

分别提取所述目标音频子信号集合中各音频子信号的多种音频特征数据。

可选的,所述将所述多种音频特征数据进行组合,以得到所述音频信号的音频属性数据,包括:

采用数据组合规则将所述多种音频特征数据对应的子向量集合组合为设定大小的第一矩阵;

将所述第一矩阵作为所述音频信号的音频属性数据。

可选的,所述对所述音频属性数据进行分类识别,并获取与所述音频信号相关联的音频特性类型,包括:

将所述第一矩阵输入至分类识别模型中,并输出与所述音频属性数据对应的第二矩阵,所述第二矩阵中的各项值对应所述音频信号的音频特性类型。

本发明实施例一方面提供了一种信号识别设备,可包括:

数据提取单元,用于获取所输入的音频信号,提取所述音频信号的多种音频特征数据;

数据组合单元,用于将所述多种音频特征数据进行组合,以得到所述音频信号的音频属性数据;

类型获取单元,用于对所述音频属性数据进行分类识别,并获取与所述音频信号相关联的音频特性类型。

可选的,所述数据提取单元,包括:

长度获取子单元,用于获取所述音频信号的信号长度;

信号分割子单元,用于当所述音频信号的信号长度大于第一信号长度阈值且小于或者等于第二信号长度阈值时,基于所述第一信号长度阈值将所述音频信号分割为第一音频子信号集合,所述第二信号长度阈值大于所述第一信号长度阈值;

数据提取子单元,用于分别提取所述第一音频子信号集合中各音频子信号的多种音频特征数据。

可选的,所述数据提取单元,包括:

长度获取子单元,用于获取所述音频信号的信号长度;

信号分割子单元,用于当所述音频信号的信号长度大于第一信号长度阈值且大于所述第二信号长度阈值时,基于所述第一信号长度阈值将所述音频信号分割为第二音频子信号集合,所述第二信号长度阈值大于所述第一信号长度阈值;

信号选取子单元,用于采用信号选取规则在所述第二音频子信号集合中选取设定数量的目标音频子信号集合;

数据提取子单元,用于分别提取所述目标音频子信号集合中各音频子信号的多种音频特征数据。

可选的,所述数据组合单元,包括:

向量组合子单元,用于采用数据组合规则将所述多种音频特征数据对应的子向量集合组合为设定大小的第一矩阵;

矩阵设置子单元,用于将所述第一矩阵作为所述音频信号的音频属性数据。

可选的,所述类型获取单元,具体用于:

将所述第一矩阵输入至分类识别模型中,并输出与所述音频属性数据对应的第二矩阵,所述第二矩阵中的各项值对应所述音频信号的音频特性类型。

本发明实施例一方面提供了一种计算机存储介质,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行上述的方法步骤。

本发明实施例一方面提供了一种终端,可包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行以下步骤:

获取所输入的音频信号,提取所述音频信号的多种音频特征数据;

将所述多种音频特征数据进行组合,以得到所述音频信号的音频属性数据;

对所述音频属性数据进行分类识别,并获取与所述音频信号相关联的音频特性类型。

在本发明实施例中,通过获取所输入的音频信号,并提取音频信号的多种音频特征数据,然后将多种音频特征数据进行组合,以得到音频信号的音频属性数据,再对该音频属性数据进行分类识别,并输出相应的识别数据。通过对所提取的音频信号的多种音频特征数据进行组合并分类识别,减少了对每种音频特征数据的单独提取过程,提升了对音频信号分类识别的便利性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种信号识别方法的流程示意图;

图2是本发明实施例提供的一种基础特征提取器的网络结构示意图;

图3是本发明实施例提供的一种特征提取器的组合结构示意图;

图4是本发明实施例提供的一种信号识别方法的流程示意图;

图5是本发明实施例提供的一种信号识别方法的流程示意图;

图6是本发明实施例提供的一种信号识别设备的结构示意图;

图7是本发明实施例提供的数据提取单元的结构示意图;

图8是本发明实施例提供的数据提取单元的结构示意图;

图9是本发明实施例提供的数据组合单元的结构示意图;

图10是本发明实施例提供的一种终端的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

下面将结合附图1-附图5,对本发明实施例提供的信号识别方法进行详细介绍。

请参见图1,为本发明实施例提供了一种信号识别方法的流程示意图。如图1所示,本发明实施例的所述方法可以包括以下步骤s101-步骤s103。

s101,获取所输入的音频信号,提取所述音频信号的多种音频特征数据;

可以理解的是,所述音频信号是带有语音、音乐和音效的有规律的声波的频率、幅度变化的信息载体。根据声波的特征,可把音频信号分为规则音频和不规则声音。其中规则音频又可以分为语音、音乐和音效。规则音频是一种连续变化的模拟信号,可用一条连续的曲线来表示,称为声波。声音的三个要素是音调、音强和音色。声波有三个重要参数:频率、幅度和相位,这也就决定了音频信号的特征。在本发明实施例中,以所述音频信号为音乐进行说明。

通常,在信号处理时,很多时候用模拟方法很难处理,但是用数字方式处理非常容易,这样就需要对模拟信号进行采样变成数字信号,再进行数字信号处理。所述采样是指在一秒钟内对音频信号的采样次数,采样频率越高声音的还原就越真实越自然。在当今的主流采集卡上,采样频率一般共分为22.05khz、44.1khz、48khz三个等级。假设输入的音频信号持续时长为30s,若采用44.1khz采样率得到数字音频信号,其对应的声谱图为(2584,1024)的矩阵,其中2584为时间步数目,1024为频谱的频率点数。

音频特征数据包括感知特征数据和声学特征数据,其中感知特征数据有音调、音高、旋律、节奏等,声学特征数据包含能量、过零率、lpc系数及音频的结构化表示等。在本发明实施例中,所述多种音频特征数据可以包括说唱类特征,有无乐器特征,有无人声特征以及是否纯音乐特征等。

具体实现中,信号识别设备接收输入的音频信号,通过信号识别设备中的特征提取器提取音频信号的不同类型的音频特征数据,每类音频特征数据可通过一个特征向量表示,而每个特征向量中的向量元素的取值为音频特征数据。所述信号识别设备可以是平板电脑、智能手机、掌上电脑以及移动互联网设备(mid)等其他具备信号处理功能的终端设备。

需要说明的是,本方案的基础特征提取器可以为卷积-rnn结构,如图2所示,其中蓝色(1、3、6、8层)为1d卷积层,橘黄色(2、4、7、9层)为bn层,绿色(5、10层)为maxpooling1d层,灰色(11层)为rnn层,rnn层也可为双向gru或lstm结构,黑色(12、13、14层)为全连接层,其中最后一层神经单元数为1,为分类识别层,以sigmoid为激活函数。网络中1d卷积-bn-1d卷积-maxpooling的结构块可根据实际应用增减。通过将多个结构相同,网络层参数不同的基础特征提取器训练完毕后摘除最后一层并进行集成,从而得到本发明实施例的特征提取器,如图3所示,其中,所述基础特征提取器的个数不限定。当然,多个基础特征提取器的结构也可以不同,只要具有特征提取功能即可。

另外,所述集成后的特征提取器需通过采集的样本音频信号进行训练,当训练的准确率达到设定的准确率阈值时结束训练。

可选的,当所述音频信号的信号长度大于第一信号长度阈值且小于或者等于第二信号长度阈值时,基于所述第一信号长度阈值将所述音频信号分割为第一音频子信号集合,所述第二信号长度阈值大于或者等于所述第一信号长度阈值,分别提取所述第一音频子信号集合中各音频子信号的各类型音频特征数据。

例如,第一信号长度阈值为30s,第二信号长度阈值为5min,当音频信号长度为3min时,则可以将该音频信号分为6个30s的音频子信号,然后对每个30s的子信号提取4种类型音频特征数据,若每种类型音频特征数据对应的特征向量长度为9,则对应6个音频子信号的各类型音频特征数据分别为[a11a21…a91]、[b11b21…b91]、[c11c21…c91]、[d11d21…d91];[a12a22…a92]、[b12b22…b92]、[c12c22…c92]、[d12d22…d92];…;[a16a26…a96]、[b16b26…b96]、[c16c26…c96]、[d16d26…d96]。

可选的,当所述音频信号的信号长度大于所述第二信号长度阈值时,基于所述第一信号长度阈值将所述音频信号分割为第二音频子信号集合,并采用信号选取规则在所述第二音频子信号集合中选取设定数量的目标音频子信号集合,分别提取所述目标音频子信号集合中各音频子信号的各类型音频特征数据。

s102,将所述多种音频特征数据进行组合,以得到所述音频信号的音频属性数据;

可以理解的是,所述对各类型音频特征数据进行组合,可以为将各类型音频特征数据对应的特征向量拼接为一个完整特征向量,拼接方式可以为直接将各特征向量按照设定的排顺序排列为一个行向量或一个列向量,也可以为对各类型音频特征数据对应的特征向量中各个元素的元素值进行对应相加或相乘等运算处理。

例如,若集成后采集的各类型音频特征数据对应的特征向量为[a11a21…a91]、[b11b21…b91]、[c11c21…c91]和[d11d21…d91],那么组合后的完整特征向量可以为[a11a21…a91b11b21…b91c11c21…c91d11d21…d91],将该完整特征向量作为所输入音频信号的音频属性数据。

可选的,当所述音频信号的信号长度大于第一信号长度阈值且小于或者等于第二信号长度阈值时,将分割后的第一音频子信号集合中各音频子信号采用上述方式拼接,并将拼接后的多个结果组合成一个矩阵。优选的,当所组合的矩阵大小小于设定的矩阵大小时,通过在矩阵中补0以得到设定大小的矩阵。

可选的,当所述音频信号的信号长度大于所述第二信号长度阈值时,将分割后的第二音频子信号集合中各音频子信号采用上述方式拼接,然后截取拼接后的向量中的部分组合成一个矩阵,或者直接在分割后的第二音频子信号集合中选取部分子信号对应的向量进行拼接即可。

s103,对所述音频属性数据进行分类识别,并获取与所述音频属性数据相关联音频特性类型。

可以理解的是,所述分类识别可采用分类器,而对于音频属性数据的识别,可通过具有单一识别功能的分类器识别,也可采用集成后的分类器识别。例如,可采用循环神经网络(recurrentneuralnetworks,rnn)模型进行分类识别。

具体实现中,将所得到矩阵作为一个完整数据输入至分类器中进行识别,并输出单独的浮点数据或者向量,向量中的每个元素均为一个浮点数,所述每个浮点数即对应一个识别结果。

例如,若采用训练后的说唱分类器识别后的输出结果为0.2,而0代表说,1代表唱,说唱阈值为0.5,则表明此时识别的结果为说。同理,对于其他类型的分类器采用相同的方式识别。

需要说明的是,这种基础特征提取器的集成结构更有助于处理真实工程应用遇到的实际分类问题。例如,如果一段音频被认为是“有人声”,则该信息有助于帮助判断该音频是否为“纯音乐”,能够综合利用不同的分类任务的预训练模型提升各个任务的准确率,且具有很好的可扩展性,新的任务只需要更换分类器部分就可以复用已有系统的性能快速达到较高的性能。

在本发明实施例中,通过获取所输入的音频信号,并提取音频信号的多种音频特征数据,然后将多种音频特征数据进行组合,以得到音频信号的音频属性数据,再对该音频属性数据进行分类识别,并输出相应的识别数据。通过对所提取的音频信号的多种音频特征数据进行组合并分类识别,减少了对每种音频特征数据的单独提取过程,提升了对音频信号分类识别的便利性。同时,采用一个分类识别系统提取各类型音频特征数据有助于提升所提取数据的准确率。

请参见图4,为本发明实施例提供了另一种信号识别方法的流程示意图。如图4所示,本发明实施例的所述方法可以包括以下步骤s201-步骤s206。

s201,获取所输入的音频信号,获取所述音频信号的信号长度;

可以理解的是,所述音频信号是带有语音、音乐和音效的有规律的声波的频率、幅度变化的信息载体。根据声波的特征,可把音频信号分为规则音频和不规则声音。其中规则音频又可以分为语音、音乐和音效。规则音频是一种连续变化的模拟信号,可用一条连续的曲线来表示,称为声波。声音的三个要素是音调、音强和音色。声波有三个重要参数:频率、幅度和相位,这也就决定了音频信号的特征。在本发明实施例中,以所述音频信号为音乐进行说明。

所述音频信号在时域可以描述为幅度随时间的变化曲线,那么该曲线的时间长度即为该音频信号的信号长度,如所获取的音频信号持续时长为30s,即该音频信号的信号长度为30s。

通常,在信号处理时,很多时候用模拟方法很难处理,但是用数字方式处理非常容易,这样就需要把模拟信号进行采样变成数字信号,再进行数字信号处理。所述采样是指在一秒钟内对音频信号的采样次数,采样频率越高声音的还原就越真实越自然。在当今的主流采集卡上,采样频率一般共分为22.05khz、44.1khz、48khz三个等级。假设输入的音频信号持续时长为30s,若采用44.1khz采样率得到数字音频信号,其对应的声谱图为(2584,1024)的矩阵,其中2584为时间步数目,1024为频谱的频率点数。

s202,当所述音频信号的信号长度大于第一信号长度阈值且小于第二信号长度阈值时,基于所述第一信号长度阈值将所述音频信号分割为第一音频子信号集合,所述第二信号长度阈值大于所述第一信号长度阈值;

可以理解的是,当音频信号的信号长度小于第一信号长度阈值时,可认为该音频信号为短音频信号,则直接将该音频信号作为输入信号,当该音频信号的信号长度大于第一信号长度阈值且小于或者等于第二信号长度阈值时,可认为该音频信号为长音频信号,则需要将该长音频信号分割为多个短音频信号,而一个短音频信号并不能代表整个音频信号的总体情况,则将分割后的多个短音频信号均作为输入信号依次输入。其中,所述第一信号长度阈值和第二信号长度阈值的取值依据经验值设定。

例如,第一信号长度阈值为30s,第二信号长度阈值为5min,当音频信号长度为3min时,则可以将该音频信号分为6个30s的音频子信号。

s203,分别提取所述第一音频子信号集合中各音频子信号的多种音频特征数据;

音频特征数据包括感知特征数据和声学特征数据,其中感知特征数据有音调、音高、旋律、节奏等,声学特征数据包含能量、过零率、lpc系数及音频的结构化表示等。在本发明实施例中,所述多种音频特征数据可以包括说唱类特征,有无乐器特征,有无人声特征以及是否纯音乐特征等。

具体实现中,信号识别设备接收输入的音频信号,通过信号识别设备中的特征提取器提取分割后的各个音频子信号的不同类型的音频特征数据,每类音频特征数据可通过一个特征向量表示,而每个特征向量中的向量元素的取值为音频特征数据。所述信号识别设备可以是平板电脑、智能手机、掌上电脑以及移动互联网设备(mid)等其他具备信号处理功能的终端设备。

需要说明的是,本方案的基础特征提取器可以为卷积-rnn结构,如图2所示,其中蓝色(1、3、6、8层)为1d卷积层,橘黄色(2、4、7、9层)为bn层,绿色(5、10层)为maxpooling1d层,灰色(11层)为rnn层,rnn层也可为双向gru或lstm结构,黑色(12、13、14层)为全连接层,其中最后一层神经单元数为1,为分类识别层,以sigmoid为激活函数。网络中1d卷积-bn-1d卷积-maxpooling的结构块可根据实际应用增减。通过将多个结构相同,网络层参数不同的基础特征提取器训练完毕后摘除最后一层并进行集成,从而得到本发明实施例的特征提取器,如图3所示。

s204,采用数据组合规则将所述多种音频特征数据对应的子向量集合组合为设定大小的第一矩阵;

可以理解的是,所述对多种音频特征数据进行组合,可以为将各类型音频特征数据对应的特征向量拼接为一个完整特征向量,拼接方式可以为直接将各特征向量按照设定的排顺序排列为一个行向量或一个列向量。

例如,若集成后采集的各类型音频属性信息对应的特征向量为[a11a21…a91]、[b11b21…b91]、[c11c21…c91]和[d11d21…d91],那么组合后的完整特征向量可以为[a11a21…a91b11b21…b91c11c21…c91d11d21…d91],将该完整特征向量作为所输入音频信号的音频属性数据。

当所述音频信号的信号长度大于第一信号长度阈值且小于或者等于第二信号长度阈值时,将分割后的第一音频子信号集合中各音频子信号采用上述方式拼接,并将拼接后的多个结果组合成一个矩阵。优选的,当所组合的矩阵大小小于设定的矩阵大小时,通过在矩阵中补0以得到设定大小的矩阵。

例如,当音频信号长度为3min时,则可以将该音频信号分为6个30s的音频子信号,那么拼接后的完整特征向量为12*36的矩阵:

若设定的矩阵大小为10*36,则通过补0,得到设定大小的矩阵:

s205,将所述第一矩阵作为所述音频信号的音频属性数据。

也就是说,将采用上述方式得到的设定大小的矩阵作为该音频信号的音频属性数据对应的向量。如将上述10*36的矩阵作为该音频信号的音频属性数据输入至分类器中用于分类识别。

s206,将所述第一矩阵输入至分类识别模型中,并输出与所述音频属性数据对应的第二矩阵,所述第二矩阵中的各项值对应所述音频信号的音频特性类型。

可以理解的是,所述分类识别可采用分类器,而对于音频属性数据的识别,可通过具有单一识别功能的分类器识别,也可采用集成后的分类器识别。例如,可采用rnn模型进行分类识别。

具体实现中,将所得到矩阵作为一个数据输入至分类器中进行识别,并输出单独的浮点数据或者向量,向量中的每个元素均为一个浮点数,所述每个浮点数即对应一个识别结果。

例如,若采用训练后的说唱分类器识别后的输出结果为0.2,而0代表说,1代表唱,说唱阈值为0.5,则表明此时识别的结果为说。同理,对于其他类型的分类器采用相同的方式识别。

若将所得矩阵输入至集成或者具有多个识别特性的分类器中,则输出结果可以为一个向量,如[0.20.30.60.8],分别对应说唱、有无乐器、有无人声以及是否纯音乐。

在本发明实施例中,通过获取所输入的音频信号,并提取音频信号的多种音频特征数据,然后将多种音频特征数据进行组合,以得到音频信号的音频属性数据,再对该音频属性数据进行分类识别,并输出相应的识别数据。通过对所提取的音频信号的多种音频特征数据进行组合并分类识别,减少了对每种音频特征数据的单独提取过程,提升了对音频信号分类识别的便利性。同时,采用一个分类识别系统提取各类型音频特征数据有助于提升所提取数据的准确率。

请参见图5,为本发明实施例提供了另一种信号识别方法的流程示意图。如图5所示,本发明实施例的所述方法可以包括以下步骤s301-步骤s307。

s301,获取所输入的音频信号,获取所述音频信号的信号长度;

可以理解的是,所述音频信号是带有语音、音乐和音效的有规律的声波的频率、幅度变化的信息载体。根据声波的特征,可把音频信号分为规则音频和不规则声音。其中规则音频又可以分为语音、音乐和音效。规则音频是一种连续变化的模拟信号,可用一条连续的曲线来表示,称为声波。声音的三个要素是音调、音强和音色。声波有三个重要参数:频率、幅度和相位,这也就决定了音频信号的特征。在本发明实施例中,以所述音频信号为音乐进行说明。

所述音频信号在时域可以描述为幅度随时间的变化曲线,那么该曲线的时间长度即为该音频信号的信号长度,如所获取的音频信号持续时长为30s,即该音频信号的信号长度为30s。

通常,在信号处理时,很多时候用模拟方法很难处理,但是用数字方式处理非常容易,这样就需要把模拟信号进行采样变成数字信号,再进行数字信号处理。所述采样是指在一秒钟内对音频信号的采样次数,采样频率越高声音的还原就越真实越自然。在当今的主流采集卡上,采样频率一般共分为22.05khz、44.1khz、48khz三个等级。假设输入的音频信号持续时长为30s,若采用44.1khz采样率得到数字音频信号,其对应的声谱图为(2584,1024)的矩阵,其中2584为时间步数目,1024为频谱的频率点数。

s302,当所述音频信号的信号长度大于第一信号长度阈值且大于第二信号长度阈值时,基于所述第一信号长度阈值将所述音频信号分割为第二音频子信号集合,所述第二信号长度阈值大于所述第一信号长度阈值;

可以理解的是,当音频信号的信号长度大于第二信号长度阈值时,可认为该音频信号的信号长度过长,则需要将该长音频信号分割为多个短音频信号后,并选取其中的部分短音频信号作为输入信号。这是因为当音频信号过长时,所分割得到的短音频信号相应的也很多,而对于每个短音频信号逐个处理,则需要花费较长的时间,因此可通过选取其中的部分短音频信号代表整个音频信号的整体特性,以节省信号处理时间。

s303,采用信号选取规则在所述第二音频子信号集合中选取设定数量的目标音频子信号集合;

可以理解的是,可通过采用设定的选取规则选取部分短音频信号,如按照先后顺序选取前面设定数量的短音频信号。

例如,通常认为长音频一般不超过8分钟,则可设置最大时间步长为16。若实际音频不足8分钟,则切割出的30s片段不足16,此时需要补全0向量使其时间步达到16。若实际音频超过8分钟,则截取前16个时间步。

s304,分别提取所述目标音频子信号集合中各音频子信号的多种音频特征数据。

可参见s203的描述,具体不再赘述。

s305,采用数据组合规则将所述多种音频特征数据对应的子向量集合组合为设定大小的第一矩阵;

可选的,当所述音频信号的信号长度大于所述第二信号长度阈值时,将分割后的第二音频子信号集合中各音频子信号采用上述方式拼接,然后选取其中部分拼接后的多个结果组合成一个矩阵。

例如,当音频信号长度为8min时,则可以将该音频信号分为16个30s的音频子信号,那么拼接后的完整特征向量为16*36的矩阵:

若设定的矩阵大小为10*36,则通过截取前10行,得到设定大小的矩阵:

s306,将所述第一矩阵作为所述音频信号的音频属性数据;

s307,将所述第一矩阵输入至分类识别模型中,并输出与所述音频属性数据对应的第二矩阵,所述第二矩阵中的各项值对应所述音频信号的音频特性类型。

s306具体描述参见上述s205,s307具体描述参见上述s206,此处不再具体赘述。

在本发明实施例中,通过获取所输入的音频信号,并提取音频信号的多种音频特征数据,然后将多种音频特征数据进行组合,以得到音频信号的音频属性数据,再对该音频属性数据进行分类识别,并输出相应的识别数据。通过对所提取的音频信号的多种音频特征数据进行组合并分类识别,减少了对每种音频特征数据的单独提取过程,提升了对音频信号分类识别的便利性。同时,采用一个分类识别系统提取各类型音频特征数据有助于提升所提取数据的准确率。

下面将结合附图6-附图9,对本发明实施例提供的信号识别设备进行详细介绍。需要说明的是,附图6-附图9所示的设备,用于执行本发明图1-图5所示实施例的方法,为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明图1-图5所示的实施例。

请参见图6,为本发明实施例提供了一种信号识别设备的结构示意图。如图6所示,本发明实施例的所述信号识别设备1可以包括:数据提取单元11、数据组合单元12和类型获取单元13。

数据提取单元11,用于获取所输入的音频信号,提取所述音频信号的多种音频特征数据;

可以理解的是,所述音频信号是带有语音、音乐和音效的有规律的声波的频率、幅度变化的信息载体。根据声波的特征,可把音频信号分为规则音频和不规则声音。其中规则音频又可以分为语音、音乐和音效。规则音频是一种连续变化的模拟信号,可用一条连续的曲线来表示,称为声波。声音的三个要素是音调、音强和音色。声波有三个重要参数:频率、幅度和相位,这也就决定了音频信号的特征。在本发明实施例中,以所述音频信号为音乐进行说明。

通常,在信号处理时,很多时候用模拟方法很难处理,但是用数字方式处理非常容易,这样就需要对模拟信号进行采样变成数字信号,再进行数字信号处理。所述采样是指在一秒钟内对音频信号的采样次数,采样频率越高声音的还原就越真实越自然。在当今的主流采集卡上,采样频率一般共分为22.05khz、44.1khz、48khz三个等级。假设输入的音频信号持续时长为30s,若采用44.1khz采样率得到数字音频信号,其对应的声谱图为(2584,1024)的矩阵,其中2584为时间步数目,1024为频谱的频率点数。

音频特征数据包括感知特征数据和声学特征数据,其中感知特征数据有音调、音高、旋律、节奏等,声学特征数据包含能量、过零率、lpc系数及音频的结构化表示等。在本发明实施例中,所述多种音频特征数据可以包括说唱类特征,有无乐器特征,有无人声特征以及是否纯音乐特征等。

具体实现中,数据提取单元11接收输入的音频信号,通过信号识别设备中的特征提取器提取音频信号的不同类型的音频特征数据,每类音频特征数据可通过一个特征向量表示,而每个特征向量中的向量元素的取值为音频特征数据。

需要说明的是,本方案的基础特征提取器可以为卷积-rnn结构,如图2所示,其中蓝色(1、3、6、8层)为1d卷积层,橘黄色(2、4、7、9层)为bn层,绿色(5、10层)为maxpooling1d层,灰色(11层)为rnn层,rnn层也可为双向gru或lstm结构,黑色(12、13、14层)为全连接层,其中最后一层神经单元数为1,为分类识别层,以sigmoid为激活函数。网络中1d卷积-bn-1d卷积-maxpooling的结构块可根据实际应用增减。通过将多个结构相同,网络层参数不同的基础特征提取器训练完毕后摘除最后一层并进行集成,从而得到本发明实施例的特征提取器,如图3所示,其中,所述基础特征提取器的个数不限定。当然,多个基础特征提取器的结构也可以不同,只要具有特征提取功能即可。

另外,所述集成后的特征提取器需通过采集的样本音频信号进行训练,当训练的准确率达到设定的准确率阈值时结束训练。

可选的,如图7所示,所述数据提取单元11,包括:

长度获取子单元111,用于获取所述音频信号的信号长度;

所述音频信号在时域可以描述为幅度随时间的变化曲线,那么该曲线的时间长度即为该音频信号的信号长度,如所获取的音频信号持续时长为30s,即该音频信号的信号长度为30s。

信号分割子单元112,用于当所述音频信号的信号长度大于第一信号长度阈值且小于或者等于第二信号长度阈值时,基于所述第一信号长度阈值将所述音频信号分割为第一音频子信号集合,所述第二信号长度阈值大于所述第一信号长度阈值;

可以理解的是,当音频信号的信号长度小于第一信号长度阈值时,可认为该音频信号为短音频信号,则直接将该音频信号作为输入信号,当该音频信号的信号长度大于第一信号长度阈值且小于或者等于第二信号长度阈值时,可认为该音频信号为长音频信号,则需要将该长音频信号分割为多个短音频信号,而一个短音频信号并不能代表整个音频信号的总体情况,则将分割后的多个短音频信号均作为输入信号依次输入。其中,所述第一信号长度阈值和第二信号长度阈值的取值依据经验值设定。

例如,第一信号长度阈值为30s,第二信号长度阈值为5min,当音频信号长度为3min时,则可以将该音频信号分为6个30s的音频子信号。

数据提取子单元113,用于分别提取所述第一音频子信号集合中各音频子信号的多种音频特征数据。

具体实现中,数据提取子单元113接收输入的音频信号,通过信号识别设备中的特征提取器提取分割后的各个音频子信号的不同类型的音频特征数据,每类音频特征数据可通过一个特征向量表示,而每个特征向量中的向量元素的取值为音频特征数据。

可选的,如图8所示,所述数据提取单元11,包括:

长度获取子单元114,用于获取所述音频信号的信号长度;

信号分割子单元115,用于当所述音频信号的信号长度大于第一信号长度阈值且大于所述第二信号长度阈值时,基于所述第一信号长度阈值将所述音频信号分割为第二音频子信号集合,所述第二信号长度阈值大于所述第一信号长度阈值;

可以理解的是,当音频信号的信号长度大于第二信号长度阈值时,可认为该音频信号的信号长度过长,则需要将该长音频信号分割为多个短音频信号后,并选取其中的部分短音频信号作为输入信号。这是因为当音频信号过长时,所分割得到的短音频信号相应的也很多,而对于每个短音频信号逐个处理,则需要花费较长的时间,因此可通过选取其中的部分短音频信号代表整个音频信号的整体特性,以节省信号处理时间。

信号选取子单元116,用于采用信号选取规则在所述第二音频子信号集合中选取设定数量的目标音频子信号集合;

可以理解的是,可通过采用设定的选取规则选取部分短音频信号,如按照先后顺序选取前面设定数量的短音频信号。

例如,通常认为长音频一般不超过8分钟,则可设置最大时间步长为16。若实际音频不足8分钟,则切割出的30s片段不足16,此时需要补全0向量使其时间步达到16。若实际音频超过8分钟,则截取前16个时间步。

数据提取子单元117,用于分别提取所述目标音频子信号集合中各音频子信号的多种音频特征数据。

数据组合单元12,用于将所述多种音频特征数据进行组合,以得到所述音频信号的音频属性数据;

可选的,如图9所示,所述数据组合单元12,包括:

向量组合子单元121,用于采用数据组合规则将所述多种音频特征数据对应的子向量集合组合为设定大小的第一矩阵;

可以理解的是,所述对多种音频特征数据进行组合,可以为将各类型音频特征数据对应的特征向量拼接为一个完整特征向量,拼接方式可以为直接将各特征向量按照设定的排顺序排列为一个行向量或一个列向量。

例如,若集成后采集的各类型音频属性信息对应的特征向量为[a11a21…a91]、[b11b21…b91]、[c11c21…c91]和[d11d21…d91],那么组合后的完整特征向量可以为[a11a21…a91b11b21…b91c11c21…c91d11d21…d91],将该完整特征向量作为所输入音频信号的音频属性数据。

当所述音频信号的信号长度大于第一信号长度阈值且小于或者等于第二信号长度阈值时,将分割后的第一音频子信号集合中各音频子信号采用上述方式拼接,并将拼接后的多个结果组合成一个矩阵。优选的,当所组合的矩阵大小小于设定的矩阵大小时,通过在矩阵中补0以得到设定大小的矩阵。

例如,当音频信号长度为3min时,则可以将该音频信号分为6个30s的音频子信号,那么拼接后的完整特征向量为12*36的矩阵:

若设定的矩阵大小为10*36,则通过补0,得到设定大小的矩阵:

可选的,当所述音频信号的信号长度大于所述第二信号长度阈值时,将分割后的第二音频子信号集合中各音频子信号采用上述方式拼接,然后选取其中部分拼接后的多个结果组合成一个矩阵。

例如,当音频信号长度为8min时,则可以将该音频信号分为16个30s的音频子信号,那么拼接后的完整特征向量为16*36的矩阵:

若设定的矩阵大小为10*36,则通过截取前10行,得到设定大小的矩阵:

矩阵设置子单元122,用于将所述第一矩阵作为所述音频信号的音频属性数据。

也就是说,将采用上述方式得到的设定大小的矩阵作为该音频信号的音频属性数据对应的向量。如将上述10*36的矩阵作为该音频信号的音频属性数据输入至分类器中用于分类识别。

类型获取单元13,用于对所述音频属性数据进行分类识别,并获取与所述音频信号相关联的音频特性类型。

可选的,所述类型获取单元13,具体用于:

将所述第一矩阵输入至分类识别模型中,并输出与所述音频属性数据对应的第二矩阵,所述第二矩阵中的各项值对应所述音频信号的音频特性类型。

可以理解的是,所述分类识别可采用分类器,而对于音频属性数据的识别,可通过具有单一识别功能的分类器识别,也可采用集成后的分类器识别。例如,可采用rnn模型进行分类识别。

具体实现中,将所得到矩阵作为一个数据输入至分类器中进行识别,并输出单独的浮点数据或者向量,向量中的每个元素均为一个浮点数,所述每个浮点数即对应一个识别结果。

例如,若采用训练后的说唱分类器识别后的输出结果为0.2,而0代表说,1代表唱,说唱阈值为0.5,则表明此时识别的结果为说。同理,对于其他类型的分类器采用相同的方式识别。

若将所得矩阵输入至集成或者具有多个识别特性的分类器中,则输出结果可以为一个向量,如[0.20.30.60.8],分别对应说唱、有无乐器、有无人声以及是否纯音乐。

在本发明实施例中,通过获取所输入的音频信号,并提取音频信号的多种音频特征数据,然后将多种音频特征数据进行组合,以得到音频信号的音频属性数据,再对该音频属性数据进行分类识别,并输出相应的识别数据。通过对所提取的音频信号的多种音频特征数据进行组合并分类识别,减少了对每种音频特征数据的单独提取过程,提升了对音频信号分类识别的便利性。同时,采用一个分类识别系统提取各类型音频特征数据有助于提升所提取数据的准确率。

本发明实施例还提供了一种计算机存储介质,所述计算机存储介质可以存储有多条指令,所述指令适于由处理器加载并执行如上述图1-图5所示实施例的方法步骤,具体执行过程可以参见图1-图5所示实施例的具体说明,在此不进行赘述。

请参见图10,为本发明实施例提供了一种终端的结构示意图。如图10所示,所述终端1000可以包括:至少一个处理器1001,例如cpu,至少一个网络接口1004,用户接口1003,存储器1005,至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(display)、键盘(keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。存储器1005可以是高速ram存储器,也可以是非不稳定的存储器(non-volatilememory),例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图10所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及信号识别应用程序。

在图10所示的终端1000中,用户接口1003主要用于为用户提供输入的接口,获取用户输入的数据;网络接口1004用于与用户终端进行数据通信;而处理器1001可以用于调用存储器1005中存储的信号识别应用程序,并具体执行以下操作:

获取所输入的音频信号,提取所述音频信号的多种音频特征数据;

将所述多种音频特征数据进行组合,以得到所述音频信号的音频属性数据;

对所述音频属性数据进行分类识别,并获取与所述音频信号相关联的音频特性类型。

在一个实施例中,所述处理器1001在执行提取所述音频信号的多种音频特征数据时,具体执行以下操作:

获取所述音频信号的信号长度;

当所述音频信号的信号长度大于第一信号长度阈值且小于或者等于第二信号长度阈值时,基于所述第一信号长度阈值将所述音频信号分割为第一音频子信号集合,所述第二信号长度阈值大于所述第一信号长度阈值;

分别提取所述第一音频子信号集合中各音频子信号的多种音频特征数据。

在一个实施例中,所述处理器1001在执行提取所述音频信号的多种音频特征数据时,具体执行以下操作:

获取所述音频信号的信号长度;

当所述音频信号的信号长度大于第一信号长度阈值且大于第二信号长度阈值时,基于所述第一信号长度阈值将所述音频信号分割为第二音频子信号集合,所述第二信号长度阈值大于所述第一信号长度阈值;

采用信号选取规则在所述第二音频子信号集合中选取设定数量的目标音频子信号集合;

分别提取所述目标音频子信号集合中各音频子信号的多种音频特征数据。在一个实施例中,所述处理器1001在执行将所述多种音频特征数据进行组合,以得到所述音频信号的音频属性数据时,具体执行以下操作:

采用数据组合规则将所述多种音频特征数据对应的子向量集合组合为设定大小的第一矩阵;

将所述第一矩阵作为所述音频信号的音频属性数据。

在一个实施例中,所述处理器1001在执行对所述音频属性数据进行分类识别,并获取与所述音频信号相关联的音频特性类型时,具体执行以下操作:

将所述第一矩阵输入至分类识别模型中,并输出与所述音频属性数据对应的第二矩阵,所述第二矩阵中的各项值对应所述音频信号的音频特性类型。

在本发明实施例中,通过获取所输入的音频信号,并提取音频信号的多种音频特征数据,然后将多种音频特征数据进行组合,以得到音频信号的音频属性数据,再对该音频属性数据进行分类识别,并输出相应的识别数据。通过对所提取的音频信号的多种音频特征数据进行组合并分类识别,减少了对每种音频特征数据的单独提取过程,提升了对音频信号分类识别的便利性。同时,采用一个分类识别系统提取各类型音频特征数据有助于提升所提取数据的准确率。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory,rom)或随机存储记忆体(randomaccessmemory,ram)等。

以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1