基于声调核声学特征及深度神经网络的韵律边界检测方法与流程

文档序号:12179688阅读:460来源:国知局
基于声调核声学特征及深度神经网络的韵律边界检测方法与流程
本发明涉及声音检测
技术领域
,特别是指一种基于声调核声学特征及深度神经网络的韵律边界检测方法。
背景技术
:近年来,人们在进行言语交际的时候,除了字面的文字信息之外,话语韵律变化也是相互传递的一个重要信息。合理有效地组织话语韵律结构不仅有助于说话者更清楚地表达,而且听话者也能够更清楚、准确地理解说话人的意图。从语音学角度来看,韵律间断或韵律边界表示相邻音节的疏远程度。韵律边界通常是将一串语流切分成大小不同的韵律单元,如韵律词、韵律短语等。它不仅减轻人脑理解加工的负担,也方便机器处理。韵律边界在人类言语表达的自然度和可理解度方面扮演着非常重要的角色。近年来,由于韵律边界信息在语音合成、语音理解等领域起到重要的作用,越来越多的人关注韵律边界的自动检测。技术实现要素:本发明要解决的技术问题是提供一种基于声调核声学特征及深度神经网络的韵律边界检测方法,能够提高韵律边界检测的准确率。为解决上述技术问题,本发明的实施例提供一种基于声调核声学特征及深度神经网络的韵律边界检测方法,所述基于声调核声学特征及深度神经网络的韵律边界检测方法包括:检测并获取音节中声调核声学特征;基于深度神经网络利用声调核声学特征建立韵律边界建模对韵律边界进行检测。优选的,所述检测并获取音节中声调核声学特征,包括:提取声调核候选轨迹对应的韵律特征;从声调核候选轨迹中选择声调核声学特征。优选的,所述提取声调核候选轨迹对应的韵律特征,包括:使用分段K-means算法聚类声调核候选基频轨迹;当声调核候选基频轨迹符合候选基频斜率等均值假设时合并相邻的分段,得到分割后的基频曲线。优选的,所述从声调核候选轨迹中选择声调核声学特征,包括:对于分割后的基频曲线只有两段的,利用线性判别分析方法建立区分函数预测声调核的位置;对于分割后的基频曲线有三段的,当中间段大于50ms时,中间段为调核段;当中间段小于50ms时,将分割后的基频曲线的段数减少到两段,利用线性判别分析方法建立区分函数预测声调核的位置。优选的,所述基于深度神经网络利用声调核声学特征建立韵律边界建模对韵律边界进行检测,包括:对应于所提取的声调核声学特征在给定观测向量o条件下,L-层的MLP用来对输出标签llabel的后验概率P(llabel|o)进行建模。优选的,所述对应于所提取的声调核声学特征在给定观测向量o条件下,L-层的MLP用来对输出标签llabel的后验概率P(llabel|o)进行建模,包括:第一层为原始特征输入层,2...L-1层为隐含层,每个隐含层在给定上一层输入向量vl对隐层节点hl的后验概率进行建模,最顶层L用softmax来计算所有标签的后验概率:Zl(vl)=(Wl)Tvl+al其中,Wl和al表示对于隐层l的权重矩阵和偏置向量,和分别表示第l层的第j个组件和它对应的激活函数值。优选的,所述声调核声学特征包括:音节调核部分音高特征和音节调核部分能量特征。优选的,所述音节调核部分音高特征包括:用f(x)=a+bx+cx2来拟合调核部分基频曲线,{a,b,c}来表示基频轮廓特征;PMax:调核部分音高最大值;PMin:调核部分音高最小值;PRange:调核部分音高范围;PMean:调核部分音高均值;PMRatio:调核音高均值与其后音节调核音高均值比值;PRatio:调核音高曲线的最后一个基频值与该音节之后音节调核部分第一个基频值得比值;Delta_Max:调核音高最大值与其后音节调核音高最大值之间的差值;Delta_Min:调核音高最小值与其后音节调核音高最小值之间的差值;所述音节调核部分能量特征包括:EgMax:调核部分能量最大值;EgMin:调核部分能量最小值;EgRange:调核部分能量的范围;EgMean:调核部分能量的均值;EgRatio:调核部分能量的均值与其后音节调核部分能量的比值。优选的,所述检测并获取音节中声调核声学特征,包括:检测并获取音节中声调核声学特征和音节部分的时长特征;所述基于深度神经网络利用声调核声学特征建立韵律边界建模对韵律边界进行检测,包括:基于深度神经网络利用音节中声调核声学特征和音节部分的时长特征建立韵律边界建模对韵律边界进行检测。本发明的上述技术方案的有益效果如下:上述方案中,通过检测并获取音节声调核部分的声学特征和时长特征,并基于深度神经网络利用音节声调核部分的声学特征和时长特征建立韵律边界建模对韵律边界进行检测,能够有效提高韵律边界检测的正确率。附图说明图1为本发明实施例的基于声调核声学特征及深度神经网络的韵律边界检测方法流程图图2为本发明实施例的不同网络拓扑结构只使用调核部分声学特征的深度神经网络系统检测性能示意图。具体实施方式为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。如图1所示,本发明实施例的一种基于声调核声学特征及深度神经网络的韵律边界检测方法,所述基于声调核声学特征及深度神经网络的韵律边界检测方法包括:步骤101:检测并获取音节中声调核声学特征。其中,所述检测并获取音节中声调核声学特征,包括:提取声调核候选轨迹对应的韵律特征;具体的,使用分段K-means算法聚类声调核候选基频轨迹;当声调核候选基频轨迹符合候选基频斜率等均值假设时合并相邻的分段,得到分割后的基频曲线。从声调核候选轨迹中选择声调核声学特征。具体的,对于分割后的基频曲线只有两段的,利用线性判别分析方法建立区分函数预测声调核的位置;对于分割后的基频曲线有三段的,当中间段大于50ms时,中间段为调核段;当中间段小于50ms时,将分割后的基频曲线的段数减少到两段,利用线性判别分析方法建立区分函数预测声调核的位置。步骤102:基于深度神经网络利用声调核声学特征建立韵律边界建模对韵律边界进行检测。其中,可以对应于所提取的声调核声学特征在给定观测向量o条件下,L-层的MLP用来对输出标签llabel的后验概率P(llabel|o)进行建模。具体的,第一层为原始特征输入层,2...L-1层为隐含层,每个隐含层在给定上一层输入向量vl对隐层节点hl的后验概率进行建模,最顶层L用softmax来计算所有标签的后验概率:Zl(vl)=(Wl)Tvl+al其中,Wl和al表示对于隐层l的权重矩阵和偏置向量,和分别表示第l层的第j个组件和它对应的激活函数值。优选的,可以检测并获取音节中声调核声学特征和音节部分的时长特征;基于深度神经网络利用音节中声调核声学特征和音节部分的时长特征建立韵律边界建模对韵律边界进行检测。本发明实施例的基于声调核声学特征及深度神经网络的韵律边界检测方法,通过检测并获取音节声调核部分的声学特征和时长特征,并基于深度神经网络利用音节声调核部分的声学特征和时长特征建立韵律边界建模对韵律边界进行检测,能够有效提高韵律边界检测的正确率。本发明实施例的基于声调核声学特征及深度神经网络的韵律边界检测方法,所述声调核声学特征包括:音节调核部分音高特征和音节调核部分能量特征。所述音节调核部分音高特征可以包括:用f(x)=a+bx+cx2来拟合调核部分基频曲线,{a,b,c}来表示基频轮廓特征;PMax:调核部分音高最大值;PMin:调核部分音高最小值;PRange:调核部分音高范围;PMean:调核部分音高均值;PMRatio:调核音高均值与其后音节调核音高均值比值;PRatio:调核音高曲线的最后一个基频值与该音节之后音节调核部分第一个基频值得比值;Delta_Max:调核音高最大值与其后音节调核音高最大值之间的差值;Delta_Min:调核音高最小值与其后音节调核音高最小值之间的差值;所述音节调核部分能量特征可以包括:EgMax:调核部分能量最大值;EgMin:调核部分能量最小值;EgRange:调核部分能量的范围;EgMean:调核部分能量的均值;EgRatio:调核部分能量的均值与其后音节调核部分能量的比值。本发明实施例的基于声调核声学特征及深度神经网络的韵律边界检测方法,采用以下方式进行试验:实验语料ASCCD语料由语篇语料、语音数据和语音学标注信息组成,内容包括18篇文章。语音数据由10位北京地区标准普通话发音人录制而成。声音文件采用16kHz采样、16bit数据。双声道WAV格式存储。语音学标注信息采用人工标注方法完成,内容包括拼音、声韵母、韵律间断、重音等。语音学标注信息采用C-TOBI相应符号,利用praat软件完成标注。标注文件中标注了四层信息,我们主要关注第三层间断指数层(BI)。间断指数数值划分:0(缺省值,未标出),韵律词内的音节边界;1,韵律词间断;2,次要韵律短语(minorphrase)间断;3,主要韵律短语(majorphrase)间断;4,语调组间断。具体分布如表1所示。表1:ASCCD中各间断的分布情况。总数B0B1B2B3B4876286151816334844274494072100%62.9%16.7%8.6%7.6%4.2%本文实验选择每个说话人的前58个段子综合为训练集,其余的作为测试集。其中训练集的10%用来作为验证集。实验配置我们的基线系统是采用音节层级的声学特征。在训练深度神经网络模型时,我们采用Keras工具包,为了得到最佳的性能,我们对比了不同的隐层数和节点数(1,2,3,4层以及384,512,1024节点数)在验证集上的结果,调参结果如图2所示。最终我们的DNN网络结构为:a)20个单元的输入层;b)3个隐层,每个隐层包含512个sigmod单元;c)有5个softmax单元的输出层。DNN在训练时迭代100次,使用随机梯度下降(SGD)进行参数调整,批处理大小为128,在输入层的dropout为20%,隐层的dropout为40%,目标函数是交叉熵。实验结果对比组采用的特征包括声学特征、词典以及语法等方面的特征,采用决策树作为建模模型。本发明实施例采用的的基线系统是使用整个音节部分的声学特征,采用DNN为建模模型。实验结果如表2所示。表2:不同系统的各间断检测性能比较(SY表示音节,TN表示调核,下同)(%)系统B0B1B2B3B4SY-CART[5]90.948.650.980.861.7SY-DNN96.121.244.175.374.6TN-DNN96.122.647.683.675.1表3:不同系统的间断检测整体性能比较(%)系统SY-CART[5]SY-DNNTN-DNN正确率78.376.577.34通过表2我们可以看到,使用调核部分声学特征的DNN系统在除B0外的各个间断层级上的检测正确率都要优于只使用整个音节声学特征的系统。B0之所以没有提高的原因可能是因为B0间断一般出现在词内,容易受到协同发音的影响使得声调难以达到相应的标准模式,这也导致基于调核模型计算相应参数时缺少了针对性。而其他层级的间断,基于声调核模型在计算边界检测相应参数(基频重设和调阶等)更加精确。同时在表3中,只使用调核部分的声学特征相对于使用整个音节的声学特征的检测性能相对提升了4%。这说明了我们使用的调核思想在韵律边界检测是有帮助的。本发明提出了基于深度神经网络使用调核部分的声学特征进行韵律边界自动检测方法,并通过实验验证了该方法的有效性。还可以将会把词典和语法特征也加入到韵律间断检测方法中,并且加大语料库来得到鲁棒性更强的模型。以上所述是本发明的优选实施方式,应当指出,对于本
技术领域
的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1