一种基于深度神经网络的多任务语音分类方法与流程

文档序号:13448090阅读:700来源:国知局
一种基于深度神经网络的多任务语音分类方法与流程
本发明涉及声音信号处理
技术领域
,尤其涉及一种基于深度神经网络的多任务语音分类方法。
背景技术
:声音为我们提供了很多关于声音来源和周围环境的信息。人类的听觉系统能够分离和识别复杂的声音,如果一个机器可以执行类似的功能(音频分类和识别)是非常有用的,例如在噪音中的语音识别。音频分类是模式识别的一个重要领域,并且已经成功的应用到了很多领域,例如专业教育和娱乐领域。近几年,不同类别的音频分类,例如口音识别,说话人识别,语音情感识别已经有了很多成功的应用。然而,大部分音频分类方法都是针对任务单独处理,忽略了各任务之间的相互关联。比如,口音识别任务和说话人识别通常被当作单独的两个分类任务。但是事实上,对于同一条语音数据,语音说话人一旦确认,其口音也将确定。于是,我们希望利用这种关系同时地提高两种任务的分类效果。近几年深度学习引起了人工智能的高潮,由于深度神经网络对数据强大的抽象能力,神经网络学习方法已经成功的应用到语音信号处理等各个领域。在我们的工作中,卷积神经网络用来学习语音特征,提高了在多分类任务中的准确率。语谱图是一种详细且准确的包含时间和频率信息的语音表达。语谱图的一般形式主要是三个维度:时间,频率和用颜色表示的振幅。技术实现要素:本发明的目的在于:为解决现有的音频分类方法是针对任务单独处理而忽略语音任务相关性,导致分类效率低的问题。本发明的技术方案如下:一种基于深度学习的多任务语音分类方法,包括如下步骤:s1:对语音数据进行时频分析操作,得到相应的语谱图。s2:建立基于卷积神经网络和残差网络的神经网络模型,并将语谱图作为网络输入,提取特征。s3:将提取的特征输入到多个不同的softmax分类器,从而得到一个初始化的模型。s4:对语音样本及对应的多个标记进行数值化,并用此数据集训练初始化的模型,得到训练好的网络模型。s5:将训练好的模型对未标记的语音数据行预测,得到分类的概率值,并且选择较高概率值的类别作为分类结果。进一步地,所述s2中,卷积神经网络的基本操作包含卷积操作和池化操作,卷积操作可用下述公式表示:其中,m和n定义了卷积核的大小,i,j表示行数和列数,用来定义像素点的位置,f是卷积核函数,l∈(1,l)表示卷积神经网络的层数,定义了l层的i行j列的特征,定义了l层的n行m的卷积核的参数,b是相应的偏置函数,公式(1)的含义为:输入特征图的不同部分与卷积核的乘积在卷积核函数的作用下得到新的特征图,上述公式保证了特征提取与位置无关,也就是输入特征图的一部分的统计特性与其他部分是一样的。卷积神经网络的池化操作可用下述公式表示:al=f(βldown(al-1)+bl)(2)上述公式中,al为第层的输入,down表示了下采样方式,βl是相应的参数;公式(2)的含义为,对输入特征图镜像池化操作,也就是图像不同位置的特征进行聚合,从而减少网络中的参数。所述s2中残差网络的基本残差块可以用下述公式表示:y=f(x,w)+x.(3)其中f表示两层的卷积网络,w是卷积网络的参数,x为一个残差块的输入,y表示基本残差块。公式(3)的含义为,一个输入x,在两层前向卷积网络后,得到一个输出f(x,w),然后通过一个shortcut,获得输出y。s2中使用的基本架构模型的公式表示为:y=f1(x,w1)*f2(x,w2)+x.(4)其中,*是按位运算的乘法,f1,f2是两个卷积层,x是此基本结构的输入,w1,w2是两个卷积层的参数。公式(4)的含义为,一个输入x,分别在两个卷积网络的作用下,得到输出f1(x,w1)和f2(x,w2),将两者相乘,然后通过一个shortcut,获得输出y。具体地,所述s4中包括如下步骤:s4:对语音样本及对应的多个标记进行数值化,并用此数据集训练初始化的模型,得到训练好的网络模型。s41:对每个语音样本进行时域频域分析,提取语谱图,并且数值化语音样本的多个任务对应的多个标记。s42:在步骤s3中获得的初始化的多任务分类模型基础上,学习当前的语音分类任务,得到训练好的多任务分类模型。s43:将训练好的多任务分类模型用来对语音数据的多任务分类,给出每条语音在每个任务的概率值,选定较大概率值的类别作为分类结果。采用上述方案后,本发明的有益效果在于:(1)语音数据的特征提取是一个关键的预处理操作,通过神经网络对语音语谱图提取特征,在具体操作中将语谱图转换为200维的共享特征。(2)在分类过程中,希望神经网络能够学习到语音本质特征,从而正确预测每个分类类别,于是我们提出了我们自己的神经网络结构,已得到更好的语音表达。具体地,对于同样完成多分类的模型,如svm,经典的神经网络结构,我们的模型比较好;对于单分类模型,在同一个模型上,单独实现两个任务的准确率,都低于多任务分类模型。以语句和歌曲上的语音情感识别为例,其主要任务为语音情感分类,其辅助任务为语句和歌曲的分类。准确率svm48.01%单任务模型56.33%多任务模型62.39%表1主要对比在主要任务上单任务模型和多任务模型的准确率。其中,svm是一种经典的机器学习分类方法;单任务模型为我们提出的模型用于单任务分类,情感分类的准确率为56.33%,而在多任务模型上,同时实现两个任务,其情感识别的准确率增加了6.06%网络结构情感识别准确率语音和歌曲分类准确率卷积神经网络53.73%92.24残差网络57.21%94.62%基于门的残差网络62.3993.13表2,主要对比基于不同神经网络结构的多任务模型在语句和歌曲上的语音情感识别上的准确率。其中,基于门的残差网络是本专利提出的模型。上述实验结果证明:1)对于同样完成多分类的模型,如svm,经典的神经网络结构,我们的模型比较好。2)对于单分类模型,在同一个模型上,单独实现两个任务的准确率,都低于多任务分类模型。(3)相较于其他非神经网络方法的模型而言,通过深度神经网络方法对语音的特征提取,能够很好的对多任务分类模型进行初始化,增加模型鲁棒性,提高每个任务识别的效果。由于音频信号本身可能有噪声等影响,而神经网络方法对噪声等有好的泛化能力。另外,对单任务模型,如音频的情感分类,对新的说话人是很敏感的,多任务分类由于也学习了说话人特征是相对影响较小的。附图说明图1为本发明中多任务模型图;图2为包含生气情感的语音的语谱图;图3为包含开心情感的语音的语谱图;图4为本发明的残差网络基本结构图;图5为本发明中的神经网络的基本结构图。具体实施方式下面将结合本发明实施例中的附图,对本实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。参见图1,一种基于深度神经网络的多任务语音分类的核心模型是一个多任务的分类模型,该模型用于分类两类任务。基于深度学习的多任务语音分类方法,包括如下步骤:s1:对语音数据进行时频分析操作,得到相应的语谱图。s2:建立基于卷积神经网络和残差网络的神经网络模型,并将语谱图作为网络输入,提取特征,此步骤中,通过构建一个二分类任务网络结构来提取用于多个任务的共同特征。本发明的多任务是针对两大类分类任务,其一为,同时区分语音中包括的情感和此语音是属于歌曲还是语句;其二为,同时区分语音说话人和说话人口音。如图3所示,卷积神经网络的基本操作包含卷积操作和池化操作,卷积操作可用下述公式表示:其中,m和n定义了卷积核的大小,i,j表示行数和列数,用来定义像素点的位置,f是卷积核函数,l∈(1,l)表示卷积神经网络的层数,定义了l层的i行j列的特征,定义了l层的n行m的卷积核的参数,b是相应的偏置函数,公式(1)的含义为:输入特征图的不同部分与卷积核的乘积在卷积核函数的作用下得到新的特征图,上诉公式保证了特征提取与位置无关,也就是输入特征图的一部分的统计特性与其他部分是一样的;卷积神经网络的池化操作可用下述公式表示:al=f(βldown(al-1)+bl)(2)上述公式中,down表示了下采样方式,βl是相应的参数;公式(2)的含义为,对输入特征图镜像池化操作,也就是图像不同位置的特征进行聚合,从而减少网络中的参数。如图4所示,所述s2中残差网络的基本残差块可以用下述公式表示:y=f(x,w)+x(3)其中f表示两层的卷积网络,w是卷积网络的参数,x为一个残差块的输入,y表示基本残差块。公式(3)的含义为,一个输入x,在两层前向卷积网络后,得到一个输出f(x,w),然后通过一个shortcut,获得输出y。如图5所示,s2中使用的深度神经网络的基本架构模型的公式表示为:y=f1(x,w1)*f2(x,w2)+x.(4)其中,*是按位运算的乘法,f1,f2是两个卷积层,x是此基本结构的输入,w1,w2是两个卷积层的参数。公式(4)的含义为,一个输入x,分别在两个卷积网络的作用下,得到输出f1(x,w1)和f2(x,w2),将两者相乘,然后通过一个shortcut,获得输出y。s3:将提取的特征输入到多个不同的softmax分类器,从而得到一个初始化的模型。s4:对语音样本及对应的多个标记进行数值化,并用此数据集训练初始化的模型。s4中包括如下步骤:s4:使用语音数据及对应的多个标记,训练初始化的模型,得到训练好的网络模型;s41:对每个语音样本进行时域频域分析,提取语谱图,并且数值化语音样本的多个任务对应的多个标记;s42:在步骤s3中获得的初始化的多任务分类模型基础上,学习当前的语音分类任务,得到训练好的多任务分类模型;s43:将训练好的多任务分类模型用来对语音数据的多任务分类,给出每条语音在每个任务的概率值,选定较大概率值的类别作为分类结果。s5:将训练好的模型对未标记的语音数据行预测,得到分类的概率值,并且选择较高概率值的类别作为分类结果。图2和图3列举了包含“生气”“开心”两种情感的语谱图,我们可以看出在10khz到15khz范围内,语谱图振幅差异很明显。如图4和图5为本发明提出的神经网络方法,具体包括:(1)图4和图5中两种模型的基本结构是卷积神经网络,其中具体包括两种操作。其一是卷积神经网络的卷积操作,可用下述公式表示:其中,m和n定义了卷积核的大小,p,q表示行数和列数,用来定义像素点的位置,f是卷积核函数,l∈(1,l)表示当卷积神经网络的层数,定义了l层的i行j列的特征,k定义了卷积核的参数,b是相应的偏置函数。另外一种操作是卷积神经网络的池化操作,可用下述公式表示:al=f(βldown(al-1)+bl)上述公式中,down表示了下采样操作,β是相应的参数。(2)图4表示的是残差网络的基本残差块,也可以用下述公式表示:y=f(x,w)+x.其中f是卷积层函数,x为一个残差块的输入,w是参数。(3)图5表示的是我们使用神经网络的基本架构,也可以用下述公式表示:y=f1(x,w1)*f2(x,w2)+x.其中,*是按位运算的乘法,f1,f2是连个卷积层,x是此基本结构的输入。w1,w2是两个卷积层的参数。现有的音频分类问题主要是针对单样本单标记的,也就是说,训练用的模型,只会对单任务进行分类。比如,对语音情感分类,单任务分类,就是只能实现一个音频属于哪一种情感。但是,由于不同说话人对情感的理解不同,就导致不同说话人在同一情感时情况下的表达是不同的。而多任务分类,主要是同时实现多个不同的任务,比如说,本项目在完成语音情感分类任务的同时,也完成说话人分类的问题。就是说,对一个训练好的模型,输入一条语音,得到的结果两个,一个是说的这条语音人,另一个是这条语音包含的情感。也就是说,本项目在训练模型时,同时学习到了情感特征以及说话人特征。以语句和歌曲上的语音情感识别为例,其主要任务为语音情感分类,其辅助任务为语句和歌曲的分类。表1主要对比在主要任务上单任务模型和多任务模型的准确率。其中,svm是一种经典的机器学习分类方法;单任务模型为我们提出的模型用于单任务分类,情感分类的准确率为56.33%,而在多任务模型上,同时实现两个任务,其情感识别的准确率增加了6.06%网络结构情感识别准确率语音和歌曲分类准确率卷积神经网络53.73%92.24残差网络57.21%94.62%基于门的残差网络62.3993.13表2,主要对比基于不同神经网络结构的多任务模型在语句和歌曲上的语音情感识别上的准确率。其中,基于门的残差网络是本专利提出的模型。上述实验结果证明:(1)对于同样完成多分类的模型,如svm,经典的神经网络结构,我们的模型比较好(2)对于单分类模型,在同一个模型上,单独实现两个任务的准确率,都低于多任务分类模型。对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1