1.一种基于声调核声学特征及深度神经网络的韵律边界检测方法,其特征在于,所述基于声调核声学特征及深度神经网络的韵律边界检测方法包括:
检测并获取音节中声调核声学特征;
基于深度神经网络利用声调核声学特征建立韵律边界建模对韵律边界进行检测。
2.根据权利要求1所述的基于声调核声学特征及深度神经网络的韵律边界检测方法,其特征在于,所述检测并获取音节中声调核声学特征,包括:
提取声调核候选轨迹对应的韵律特征;
从声调核候选轨迹中选择声调核声学特征。
3.根据权利要求2所述的基于声调核声学特征及深度神经网络的韵律边界检测方法,其特征在于,所述提取声调核候选轨迹对应的韵律特征,包括:
使用分段K-means算法聚类声调核候选基频轨迹;
当声调核候选基频轨迹符合候选基频斜率等均值假设时合并相邻的分段,得到分割后的基频曲线。
4.根据权利要求3所述的基于声调核声学特征及深度神经网络的韵律边界检测方法,其特征在于,所述从声调核候选轨迹中选择声调核声学特征,包括:
对于分割后的基频曲线只有两段的,利用线性判别分析方法建立区分函数预测声调核的位置;
对于分割后的基频曲线有三段的,当中间段大于50ms时,中间段为调核段;
当中间段小于50ms时,将分割后的基频曲线的段数减少到两段,利用线性判别分析方法建立区分函数预测声调核的位置。
5.根据权利要求4所述的基于声调核声学特征及深度神经网络的韵律边界检测方法,其特征在于,所述基于深度神经网络利用声调核声学特征建立韵律边界建模对韵律边界进行检测,包括:
对应于所提取的声调核声学特征在给定观测向量o条件下,L-层的MLP用来对输出标签llabel的后验概率P(llabel|o)进行建模。
6.根据权利要求5所述的基于声调核声学特征及深度神经网络的韵律边界检测方法,其特征在于,所述对应于所提取的声调核声学特征在给定观测向量o条件下,L-层的MLP用来对输出标签llabel的后验概率P(llabel|o)进行建模,包括:
第一层为原始特征输入层,2...L-1层为隐含层,每个隐含层在给定上一层输入向量vl对隐层节点hl的后验概率进行建模,最顶层L用softmax来计算所有标签的后验概率:
Zl(vl)=(Wl)Tvl+al
其中,Wl和al表示对于隐层l的权重矩阵和偏置向量,hjl和zjl(vl)分别表示第l层的第j个组件和它对应的激活函数值。
7.根据权利要求1所述的基于声调核声学特征及深度神经网络的韵律边界检测方法,其特征在于,所述声调核声学特征包括:音节调核部分音高特征和音节调核部分能量特征。
8.根据权利要求7所述的基于声调核声学特征及深度神经网络的韵律边界检测方法,其特征在于,所述音节调核部分音高特征包括:
用f(x)=a+bx+cx2来拟合调核部分基频曲线,{a,b,c}来表示基频轮廓特征;
PMax:调核部分音高最大值;
PMin:调核部分音高最小值;
PRange:调核部分音高范围;
PMean:调核部分音高均值;
PMRatio:调核音高均值与其后音节调核音高均值比值;
PRatio:调核音高曲线的最后一个基频值与该音节之后音节调核部分第一个基频值得比值;
Delta_Max:调核音高最大值与其后音节调核音高最大值之间的差值;
Delta_Min:调核音高最小值与其后音节调核音高最小值之间的差值;
所述音节调核部分能量特征包括:
EgMax:调核部分能量最大值;
EgMin:调核部分能量最小值;
EgRange:调核部分能量的范围;
EgMean:调核部分能量的均值;
EgRatio:调核部分能量的均值与其后音节调核部分能量的比值。
9.根据权利要求1所述的基于声调核声学特征及深度神经网络的韵律边界检测方法,其特征在于,所述检测并获取音节中声调核声学特征,包括:
检测并获取音节中声调核声学特征和音节部分的时长特征;
所述基于深度神经网络利用声调核声学特征建立韵律边界建模对韵律边界进行检测,包括:
基于深度神经网络利用音节中声调核声学特征和音节部分的时长特征建立韵律边界建模对韵律边界进行检测。