一种基于深度学习技术的自动口音分类方法及装置的制造方法

文档序号:9867722阅读:291来源:国知局
一种基于深度学习技术的自动口音分类方法及装置的制造方法
【技术领域】
[0001]本发明涉及带口音语音去静音处理及提取特征方法、深层神经网络的建模、参数选取、训练以及推断方法,口音分类等。
【背景技术】
[0002]语音中的口音分为母语口音(native accent)和外语口音(foreign accent)。母语口音是指说话人使用母语发音时受其母语中方言的影响而产生的口音。外语口音是指说话人在用非母语语言发音时,受到母语发音影响而产生的口音。本发明中我们主要针对汉语中母语口音分类问题。
[0003]汉语带口音语音分类的常用方法主要有文本相关的方法和文本无关的方法两大类。
[0004]文本相关的口音分类方法是指在对口音进行建模时,使用语音对应的文本信息如音素层级(phoneme level)、词语层级(word level)的信息等,建立包含口音信息的特定音素或词语的模型。这种方法的出发点是口音信息是附着于特定的词语或者音素上的,对这些词语或者音素进行建模,可以准确地分别不同口音的语音。实验结果也表明这种建模方式可以取得很高的口音分类准确率。这类方法的问题时,建模时需要词语或者音素等的边界信息,对训练数据要求较好。
[0005]文本无关的方法在建模时假设语音对应的文本、说话人或者说话人性别信息都不存在,只使用从语音数据提取的信息。在实际中,将要被处理的语音数据往往没有与之对应的文本、说话人等信息。在这种情况下,对语音数据进行准确的口音分类,对语音处理(如语音识别、语音理解)系统的性能很重要。因此,这类方法的研究在实际应用中有重要的意义。本发明针对文本无关的口音分类方法。
[0006]文本无关的口音分类方法在建模时通常使用高斯混合模型(GMM)对口音信息进行建模。在训练高斯混合模型过程中,来自不同口音的语音训练数据被用来不同的GMM模型,因此对于N种口音就会产生N个对应的GMM模型。在测试过程中,对于输入音频,首先经过静音去除模块去掉音频里的静音帧,然后通过特征提取模块提取特征,最后将特征输入到训练得到的各个高斯混合模型中去计算每帧特征在各模型上的后验概率。在计算得到每帧特征的后验概率之后,每一帧的口音类别就是该帧最大的后验概率对应的口音类别。通过这种方式得到一条语句中的每一帧的口音类别之后,该条语句的的口音类别就由所有帧的口音类别进行多数投票决定。
[0007]训练高斯混合模型时,通常使用最大似然估计(max immum likelihoodestimat1n,简称MLE)准则来估计参数。使用MLE准则训练得到不同口音的GMM模型之间的混淆区域(confus1n reg1ns)得不到很好地压制,因为MLE准则在训练过程中会以最大化不同种类的口音数据的概率为目
[0008]标。模型尽管GMM模型的区分度训练方法(discriminative training methods)如最小分类错误准则(minimum classificat1n estimat1n,简称MCE)已经被用来压制混淆区域并且也增加了口音模型的区分能力,但文本无关的口音分类方法的性能还是需要进一步提尚。

【发明内容】

[0009]为了进一步提高自动口音分类算法的性能。本发明提出了一种基于深度学习技术的自动口音分类方法。本发明提出的上述方法使用深度学习技术中的深层神经网络来对口音信息建模。在本发明中,深层神经网络是指网络结构中至少含有两个隐层的前向神经网络。对于口音分类任务,作为判别式模型的深层神经网络相比于产生式模型GMM可以对不同口音的混淆区域提供更好的区分性。除此之外,在语音识别任务中,相比于浅层模型,深层神经网络中的多个隐层可以被看成更强的特征提取器。有研究表明,上下文信息可以提高语音识别和韵律事件检测等语音处理任务的性能。因此,本发明还研究了包含长时信息的上下文特征在口音分类任务中的应用。
[0010]根据本发明一方面,提供了一种基于深度学习技术的自动口音分类方法,包括下列步骤:
[0011 ]步骤I:对训练集中的所有带口音语音进行去除静音并提取MFCC特征;
[0012]步骤2:根据所提取的MFCC特征训练各种带口音语音的深层神经网络,以描述各种带口音语音的声学特性,其中所述深层神经网络指至少包含两个隐层的前向人工神经网络;
[0013]步骤3:计算待识别语音中各语音帧在深层神经网络上的各口音分类的概率得分,将概率得分最大的口音类别标签置为该语音帧的口音类别标签;
[0014]步骤4:使用待识别语音中的每个语音帧的口音类别进行多数投票,得到待识别语音相对应的口音类别。
[0015]根据本发明另一方面,提供了一种基于深度学习技术的自动口音分类装置,其特征在于,包括:
[0016]预处理模块,对训练集中的所有带口音语音进行去除静音并提取MFCC特征;
[0017]训练模块,根据所提取的MFCC特征训练各个带口音语音的深层神经网路,以描述各种带口音语音的声学特性,其中所述深层神经网络指至少包含两个隐层的前向人工神经网络;
[0018]分类识别模块,计算待识别语音中各语音帧在深层神经网络上的各口音分类的概率得分,将概率得分最大的口音类别标签置为该语音帧的口音类别标签;
[0019]结果获取模块,使用待识别语音中的每个语音帧的口音类别进行多数投票,得到待识别语音相对应的口音类别。
[0020]本发明的有益效果:本发明针对传统的口音分类方法中使用的统计模型缺乏利用深层结构来学习更具区分性的高层特征以及上下文信息,提出了一种深度学习技术的口音分类算法,以使用深度学习技术中的深层神经网络来对口音信息进行建模,并在此基础上使用包含上下文信息的特征来进一步提高口音分类算法的性能。基于深度学习技术的口音分类新方法可以通过深层结构来学习出更具区分性的高层特征以及使用上下文特征,并且深层神经网络作为一种判别式模型对不同口音具有更好的分类性能,从而使得提出的新方法具有更好的口音分类效果。
【附图说明】
[0021]本发明进一步的特色和优点将参考说明性的附图在下面描述。
[0022]图1是本发明中基于深度学习技术的自动分类算法的流程图;
[0023]图2是本发明中对带口音语音进行去除静音并提取特征过程的示意图;
[0024]图3是本发明中训练表示各口音语音的深层神经网络的流程图;
[0025]图4是本发明中表示计算各语音帧在深层神经网络上的各口音分类的概率得分的流程图;
[0026]图5是本发明中表示使用每句带口音语音中的每帧语音的口音类别进行多数投票,得到每句语音相对应的口音类别的流程图;
[0027]图6是本发明中表示使用当前帧的前后帧特征对应的上下文信息的流程图。
【具体实施方式】
[0028]应当理解,不同示例以及附图的下列详细说明不是意在把本发明限制于特殊的说明性实施例;被描述的说明性实施例仅仅是例证本发明的各个步骤,其范围由附加的权利要求来定义。
[0029]本发明通过建立基于深度学习技术的自动口音分类算法,取代传统方法中使用的浅层模型,通过深度学习技术中的深层神经网络本身具有的更强的区分性以及其深层结构学习出更具鲁棒性的高层特征,从而提高了自动口音分类算法的性能。更近一步的是,使用深度学习技术可以更加有效地利用包含语音上下文信息的特征,从而进一步提高了自动口音分类算法的分类效果。
[0030]如图1所示,本发明提出了一种基于深度学习技术的自动口音分类方法。该方法的具体步骤如下:
[0031]步骤1:对训练集中每句带口音语音进行去除静音并提取梅尔倒谱系数特征;
[0032]步骤2:训练各种带口音语音的深层神经网络,用于描述各种带口音语音的声学特性,这里深层神经网络是指至少包含两个隐层的前向人工神经网络;
[0033]步骤3:计算待识别语音中各语音帧在深层神经网络上的各口音分类的概率得分,将概率得分最大的口音类别标签置为该语音帧的口音类别标签;
[0034]步骤4:使用每句待识别带口音语音中的每帧语音的口音类别进行多数投票,得到每句语音相对应的口音类别;
[0035]步骤5:使用当前帧语音的前后帧语音特征对应的上下文信息进一步提高口音分类算法的性能。
[0036]其中,所述对带口音语音语句去除静音并提取特征,如图2所示,主要包括以下两个步骤:
[0037]第一,首先对每句带口音语句中的语音进行加窗分帧操作,得到多个语音帧,每个语音帧窗长为25ms,帧移为1ms。之后计算每个语音帧的短时能量值,设定一个短时能量阈值来去除静音帧,当语音帧的短时能量值小于该阈值则为静音帧需要去除,反之当大于等于时则为语音帧需要保留;
[0038]第二,对于经过筛选得到的语音帧,提取梅尔倒谱系数(Mel-Frequency CepstrumCoefficients,简称MFCC),每帧MFCC特征包含39维特征。提取完训练集上的语音语句的MFCC特征后,对所有训练集上的MFCC特征做零均值归一化操作。
[0039]步骤2中所述训练各口音语音的深层神经网络,用于描述各种带口音语音的声学特性,其包括训练一个基于深度学习技术中的深层神经网络的自动口音分类模型,以对各带口音语音的声学特性进行建模。训练步骤包括:
[0040]第一,汇集所有训练集中的所有种类的带口音语音的特征数据,使用随机梯度下降(Stochastic Gradient Descent,简称SGD)训练得到一个深层神经网络(Deep NeuralNetwork,简称DNN)。
[0041]第二,根据上一步骤中使用的训练数据和训练方法训练不同网络结构和使用不同隐
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1