融合声学特征和发音运动特征的发音评估方法和系统与流程

文档序号:13448084阅读:192来源:国知局
融合声学特征和发音运动特征的发音评估方法和系统与流程
本发明涉及发音评估
技术领域
,特别是一种融合声学特征和发音运动特征的发音评估方法及其应用该方法的系统。
背景技术
:言语的感知和生成是多重听觉器官、发音器官在短时间内协同工作的结果。部分人由于先天性和外伤性造成脑部或神经受损,从而无法控制特定肌肉发出正确语音,表现为发音、发声、共鸣、韵律异常,这就是构音障碍。语音可懂度就是听众可以准确获得说话者语音信号表达信息的程度,对于构音障碍的严重程度往往是通过语音的可懂度进行发音评估的,疾病越严重,语音的可懂度也就越低。近年来,对于构音障碍的研究逐渐增多,但大多是利用声学参数进行可懂度的分析,忽略了异常的发音器官运动才是造成异常声音的源头,从而使得评估方法不够全面,评估结果不可靠。因此,制定出一套可靠的、不依赖于主观评价的、客观准确的评价标准尤为重要。技术实现要素:本发明为解决上述问题,提供了一种融合声学特征和发音运动特征的发音评估方法和系统,其通过采集音频数据和对应的发音运动数据和分别提取声学特征和对应的发音运动特征,并对该声学特征和发音运动特征进行融合处理,从而得到更准确、更可靠的融合评估结果,使得发音评估更加客观准确。为实现上述目的,本发明采用的技术方案为:一种融合声学特征和发音运动特征的发音评估方法,其包括以下步骤:(10)采集音频数据和发音运动数据,并对所述音频数据提取声学特征,对所述发音运动数据提取发音运动特征,其中,所述音频数据和所述发音运动数据在时间上相对应;(20)根据时间对应关系将所述声学特征和所述发音运动特征进行特征融合的处理,得到融合特征;(30)根据所述融合特征进行训练得到融合特征可懂度判别模型;(40)利用所述融合特征可懂度判别模型得到特征融合评估结果。优选的,还进一步根据所述声学特征和所述发音运动特征进行分别训练得到声学特征可懂度判别模型和发音运动特征可懂度判别模型,并将所述声学特征可懂度判别模型的评估结果和所述发音运动特征可懂度判别模型的评估结果进行策略融合的处理,得到策略融合评估结果。优选的,所述的步骤(10)中进行采集音频数据和发音运动数据,是利用电磁式发音动作描迹系统进行采集所述音频数据和发音运动数据,通过在发音器官放置空间传感器,并计算所述空间传感器在磁场中的三维空间坐标和角度,得到所述发音运动数据,并在采集所述发音运动数据的同时进行采集时间上相对应的所述音频数据;其中,所述发音器官包括嘴唇,所述发音运动数据包括嘴唇运动数据。优选的,还进一步在鼻梁放置空间传感器,所述的步骤(10)中对所述发音运动数据提取发音运动特征,是采用以所述鼻梁的空间传感器作为坐标原点,计算嘴唇上的空间传感器距离所述坐标原点的相对距离;以嘴唇上四个空间传感器的三维坐标距离x,y,z作为运动特征,每一个采样点作为一帧,对每帧数据按如下公式提取发音运动特征:lip=[x1...x4,y1...y4,z1...z4]t;其中x,y,z的下标分别代表上嘴唇运动数据、下嘴唇运动数据、左嘴角运动数据、右嘴角运动数据。优选的,所述的步骤(20)中进行特征融合的处理,是根据所述音频数据和所述发音运动数据的采样率进行设置所述声学特征和所述发音运动特征的窗长,根据所述窗长进行设置窗移,并以所述窗移对所述声学特征和所述发音运动特征进行特征融合。优选的,所述策略融合的处理,是通过对所述声学特征可懂度判别模型的评估结果和所述发音运动特征可懂度判别模型的评估结果分别设置不同的权重比例,根据该权重比例进行计算策略融合评估结果;其计算方法如下:其中,ll表示所述策略融合评估结果,表示所述声学特征可懂度判别模型的评估结果,表示所述发音运动特征可懂度判别模型的评估结果,k表示评估结果的等级分类,w表示权重,argmax函数表示寻找具有最大评分的参量。对应的,本发明还提供一种融合声学特征和发音运动特征的发音评估系统,其包括:特征提取模块,用于采集音频数据和发音运动数据,并对所述音频数据提取声学特征,对所述发音运动数据提取发音运动特征,其中,所述音频数据和所述发音运动数据在时间上相对应;特征融合模块,其根据时间对应关系将所述声学特征和所述发音运动特征进行特征融合的处理,得到融合特征;模型训练模块,根据所述融合特征进行训练得到融合特征可懂度判别模型;发音评估模块,利用所述融合特征可懂度判别模型得到特征融合评估结果。优选的,还包括策略融合模块;所述模型训练模块还进一步根据所述声学特征和所述发音运动特征进行分别训练得到声学特征可懂度判别模型和发音运动特征可懂度判别模型;所述策略融合模块将所述声学特征可懂度判别模型的评估结果和所述发音运动特征可懂度判别模型的评估结果进行策略融合的处理,得到策略融合评估结果。优选的,还包括数据采集模块,其利用电磁式发音动作描迹系统进行采集所述音频数据和发音运动数据,通过在发音器官放置空间传感器,并计算所述空间传感器在磁场中的三维空间坐标和角度,得到所述发音运动数据,并在采集所述发音运动数据的同时进行采集时间上相对应的所述音频数据。优选的,所述发音器官包括以下一种以上:舌头、嘴唇、嘴角、门牙;其中,所述舌头的空间传感器设置在舌尖、舌中、舌后;所述嘴唇的空间传感器设置在上嘴唇中部、下嘴唇中部;所述嘴角的空间传感器设置在左嘴角、右嘴角;所述门牙的空间传感器设置在下门牙并用于跟踪下颌的运动。进一步的,还包括在头部位置设置空间传感器进行检测头部运动数据,并根据所述头部运动数据对所述发音运动数据进行校正;所述头部位置包括以下一种以上:额头、鼻梁、耳后;其中,所述耳后的空间传感器设置在耳朵后面的乳突骨上。优选的,所述模型训练模块是通过将所述声学特征或所述发音运动特征或所述融合特征分别输入高斯混合模型-隐马尔可夫模型进行训练,得到对应的声学特征可懂度判别模型、发音运动特征可懂度判别模型、融合特征可懂度判别模型。本发明的有益效果是:(1)本发明通过采集音频数据和对应的发音运动数据和分别提取声学特征和对应的发音运动特征,并对该声学特征和发音运动特征进行特征融合,通过融合特征进行模型的训练,从而得到更准确、更可靠的特征融合评估结果,使得发音评估更加客观准确;(2)本发明还进一步根据所述声学特征和所述发音运动特征进行分别训练得到声学特征可懂度判别模型和发音运动特征可懂度判别模型,并将各个模型的评估结果进行策略融合的处理,得到策略融合评估结果,将该策略融合评估结果与所述特征融合评估结果相互验证和相互参考,使得发音评估结果更加客观准确;(3)本发明不仅检测发音器官的发音运动数据,还包括在头部位置设置空间传感器进行检测头部运动数据,并根据所述头部运动数据对所述发音运动数据进行校正,使得数据更准确、可靠。附图说明此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:图1为本发明一种融合声学特征和发音运动特征的发音评估方法的流程简图;图2为本发明一种融合声学特征和发音运动特征的发音评估系统的结构示意图;图3为空间传感器分布示意图之一;图4为空间传感器分布示意图之二。具体实施方式为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合附图及实施例对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。如图1所示,本发明的一种融合声学特征和发音运动特征的发音评估方法,其特征在于,包括以下步骤:(10)采集音频数据和发音运动数据,并对所述音频数据提取声学特征,对所述发音运动数据提取发音运动特征,其中,所述音频数据和所述发音运动数据在时间上相对应;(20)根据时间对应关系将所述声学特征和所述发音运动特征进行特征融合的处理,得到融合特征;(30)根据所述融合特征进行训练得到融合特征可懂度判别模型;(40)利用所述融合特征可懂度判别模型得到特征融合评估结果。(50)根据所述声学特征和所述发音运动特征进行分别训练得到声学特征可懂度判别模型和发音运动特征可懂度判别模型,并将所述声学特征可懂度判别模型的评估结果和所述发音运动特征可懂度判别模型的评估结果进行策略融合的处理,得到策略融合评估结果。所述的步骤(10)中进行采集音频数据和发音运动数据,是利用电磁式发音动作描迹系统进行采集所述音频数据和发音运动数据,本实施例中,是采用3dag500电磁式发音动作描迹系统(ema系统)采集的发音运动数据和音频数据;通过在发音器官放置空间传感器,并计算所述空间传感器在磁场中的三维空间坐标和角度,得到所述发音运动数据,并在采集所述发音运动数据的同时进行采集时间上相对应的所述音频数据;其中,所述发音器官包括嘴唇,所述发音运动数据包括嘴唇运动数据。由于构音障碍患者舌头异常运动,会使得传感器在运动过程中脱落,造成得到舌头运动数据难以采集到有效数据。因此,本实施例中,选择利用嘴唇运动数据作为主要的发音运动数据。ema系统是利用空间传感器在交变磁场中产生的交变电流这一现象,计算得出空间传感器在磁场中的三维空间坐标和角度,进行运动数据的采集。并在采集空间传感器位置信息的同时,同步采集音频信号。所述空间传感器由薄且重量轻的电缆连接到记录设备上,使其不妨碍ema立方体内头部的自由运动。所述的步骤(10)中对所述音频数据提取声学特征,进一步包括:(11).将所述音频数据s(n)通过高通滤波器进行预加重的处理,得到加重数据;高通滤波器关系可以表示为:h(z)=1-az-1([a∈[0.9,1]);经过预加重后的信号表示为:s'(n)=s(n)-as(n-1),本实施例中a值取0.95。(12).对所述加重数据的每一帧进行加窗处理,得到加窗数据;本实施例中,取20ms为一帧,由于帧边界处频谱能量的可能存在泄露情况,选用汉宁窗对每一帧都进行加窗处理。(13).对每一帧进行快速傅里叶变换(fft变换),从时域数据转变为频域数据,并计算其谱线能量;(14).将所述加窗数据的每一帧的谱线能量通过mel滤波器,并计算在mel滤波器中的能量;(15).对mel滤波器的能量取对数后计算dct(离散余弦变换)倒谱,得到mel频率倒谱系数(mfcc);(16).以所述mel频率倒谱系数作为特征参数,得到所述声学特征。mel频率倒谱系数(mfcc)是基于人耳听觉频域特性,将线性幅度谱映射到基于听觉感知的mel非线性幅度谱中,再转换到倒谱上。前后帧之间的变化信息也有助于识别不同的语音特性,所以mfcc一般还会加入倒谱系数每一维的一阶差分和二阶差分。本实施例中采用13维mfcc,以及其一阶差分和二阶差分为声学特征。所述的步骤(20)中进行特征融合的处理,是根据所述音频数据和所述发音运动数据的采样率进行设置所述声学特征和所述发音运动特征的窗长,根据所述窗长进行设置窗移,并以所述窗移对所述声学特征和所述发音运动特征进行特征融合,从而能够有效利用两类特征点互补性优势进行建模。本实施例中,所述音频数据的采样率为16000hz,所述发音运动数据的采样率200hz,为了同步两类特征,对声学特征的窗长设置为20ms,运动特征窗长为5ms,提取特征时的窗移为5ms。本实施例中,得到的融合特征(acoustic-articulatory)的特征维度为51。利用融合特征训练出四等级(正常、轻微、中等、严重)的可懂度判别的gmm-hmm模型。隐马尔科夫模型状态数为3个,混合高斯数为24。所述的步骤(30)中,模型训练是通过将所述声学特征或所述发音运动特征或所述融合特征分别输入高斯混合模型-隐马尔可夫模型(gmm-hmm模型)进行训练,得到对应的声学特征可懂度判别模型、发音运动特征可懂度判别模型、融合特征可懂度判别模型。通过借助gmm-hmm模型,并分别利用所述声学特征和所述发音运动特征进行训练出判别不同级别可懂度的可懂度判别模型,从而进行可懂度的评估。考虑语音信号的时序特性,利用hmm对其进行建模,同时使用gmm模型计算每个hmm的状态发射概率。这就是gmm-hmm模型。可懂度的程度与其严重程度成正比,根据语音病理学家的诊断,划分为轻微、中等,严重,再加上正常人的对照,共四组群体。分别对每一个群体训练gmm-hmm模型。为验证不同特征对可懂度判别的影响不同,对于声学特征和发音运动特征分别训练gmm-hmm模型,隐马尔科夫模型是无跨越的从左向右模型,它的状态数为3个,混合高斯数为8,得到声学特征可懂度判别模型(记为acoustic-gmm-hmm)、发音运动特征可懂度判别模型(记为articulatory-gmm-hmm)。所述的步骤(40)中,利用所述融合特征可懂度判别模型得到特征融合评估结果,是运用所述融合特征可懂度判别模型,进行不同级别可懂度的判断。所述的步骤(50)中,所述策略融合的处理,是通过对所述声学特征可懂度判别模型的评估结果和所述发音运动特征可懂度判别模型的评估结果分别设置不同的权重比例,根据该权重比例进行计算策略融合评估结果;即,将所述声学特征可懂度判别模型(acoustic-gmm-hmm)和所述发音运动特征可懂度判别模型(articulatory-gmm-hmm)按如下公式进行决策融合:其中,ll表示所述策略融合评估结果(即,决策融合后的最大似然值得分),表示所述声学特征可懂度判别模型的评估结果,表示所述发音运动特征可懂度判别模型的评估结果,k表示评估结果的等级分类,w表示权重,argmax函数表示寻找具有最大评分的参量;本实施例中,k为1、2、3、4,分别代表正常、轻微、中等、严重四个等级;w表示所述声学特征可懂度判别模型(acoustic-gmm-hmm)的权重,取值为0.5;1-w表示所述发音运动特征可懂度判别模型(articulatory-gmm-hmm)的权重。如图2所示,本发明还提供一种融合声学特征和发音运动特征的发音评估系统,其包括:数据采集模块,其利用电磁式发音动作描迹系统进行采集所述音频数据和发音运动数据,通过在发音器官放置空间传感器,并计算所述空间传感器在磁场中的三维空间坐标和角度,得到所述发音运动数据,并在采集所述发音运动数据的同时进行采集时间上相对应的所述音频数据;特征提取模块,用于采集音频数据和发音运动数据,并对所述音频数据提取声学特征,对所述发音运动数据提取发音运动特征,其中,所述音频数据和所述发音运动数据在时间上相对应;特征融合模块,其根据时间对应关系将所述声学特征和所述发音运动特征进行特征融合的处理,得到融合特征;模型训练模块,根据所述融合特征进行训练得到融合特征可懂度判别模型;发音评估模块,利用所述融合特征可懂度判别模型得到特征融合评估结果;策略融合模块,所述模型训练模块还进一步根据所述声学特征和所述发音运动特征进行分别训练得到声学特征可懂度判别模型和发音运动特征可懂度判别模型;所述策略融合模块将所述声学特征可懂度判别模型的评估结果和所述发音运动特征可懂度判别模型的评估结果进行策略融合的处理,得到策略融合评估结果。如图3和图4所示,本实施例中,所述发音器官包括以下一种以上:舌头、嘴唇、嘴角、门牙;其中,所述舌头的空间传感器设置在舌尖(tt-舌尖解剖面后的1厘米)、舌中(tm-舌尖传感器后3厘米)、舌后(tb-舌中传感器后2厘米);所述嘴唇的空间传感器设置在上嘴唇中部(ul)、下嘴唇中部(ll);所述嘴角的空间传感器设置在左嘴角(lm)、右嘴角(rm);所述门牙的空间传感器设置在下门牙(ja)并用于跟踪下颌的运动。发音器官主要是由嘴唇、牙齿、舌头、腭部等构成。其中,舌头和嘴唇与其他部位密切配合,阻挡气流、改变口腔共鸣器的形状,在发音中起着重要作用。因此,我们首先对舌头发音器官数据分析,然而由于构音障碍患者舌头异常运动,会使得传感器在运动过程中脱落,造成得到舌头运动数据难以采集到有效数据。因此,本实施例中,选择利用嘴唇发音器官的运动数据作为主要的发音运动数据。进一步的,还包括在头部位置设置空间传感器进行检测头部运动数据,并根据所述头部运动数据对所述发音运动数据进行校正;所述头部位置包括以下一种以上:额头、鼻梁、耳后;其中,所述耳后的空间传感器设置在耳朵后面的乳突骨上,起到参考和记录头部运动的作用。本实施例中,我们利用空间传感器采集到的三维空间坐标来进行分析,还进一步在鼻梁放置空间传感器,所述的步骤(10)中对所述发音运动数据提取发音运动特征,是采用以所述鼻梁的空间传感器作为坐标原点,计算嘴唇上的空间传感器距离所述坐标原点的相对距离;以嘴唇上四个空间传感器的三维坐标距离x,y,z作为运动特征,每一个采样点作为一帧,对每帧数据按如下公式提取发音运动特征:lip=[x1...x4,y1...y4,z1...z4]t;其中x,y,z的下标分别代表上嘴唇运动数据、下嘴唇运动数据、左嘴角运动数据、右嘴角运动数据。发音运动特征共12维。所述模型训练模块是通过将所述声学特征或所述发音运动特征或所述融合特征分别输入高斯混合模型-隐马尔可夫模型进行训练,得到对应的声学特征可懂度判别模型、发音运动特征可懂度判别模型、融合特征可懂度判别模型。本实施例中,基于音频数据和发音运动数据的torgo数据集为例对整个系统算法流程进行简述,具体步骤如下:1)torgo数据集输入表1实验数据集信息如表1所示,系统的输入分别为包含严重、中等、轻微、正常四个可懂度级别,可懂度的级别的判断根据语音病理专家的诊断得到。数据集被试数量分别为3、2、2、7,发音样本数分别为567条、876条、671条、4289条。2)数据特征的提取表2提取特征条件ema设备同步采集音频数据和发音运动数据,在这里以表2的设置分别提取声学特征、运动特征,以及对两类特征的融合a-a特征。3)训练可懂度判别模型acousticarticulatoryfeature-fusiondecision-fusion轻微93.47%97.63%99.28%99.15%中等83.79%98.08%98.36%98.11%严重94.19%97.56%97.88%97.07%正常99.86%96.81%98.30%97.95%平均96.50%97.06%98.21%98.00%表3可懂度判别评估结果在获取数据的音频特征和运动特征后,通过gmm-hmm方法,进行可懂度判别模型的训练。如表3前两列所示,使用运动特征的gmm-hmm判别模型对言语障碍者准确率有明显的提高,但是对于正常人来说,使用mfcc的声学特征准确率更高。总的来说,使用运动特征的gmm-hmm比使用声学特征的gmm-hmm平均提升了0.56个百分点。说明使用运动特征对言语障碍者的可懂度判别是非常有效的。4)特征融合和决策融合的模型训练表4可懂度判别kappa系数指标考虑到声学特征对于正常人的判别效果好,运动特征对于障碍人的判别效果好。为将两类特征的互补作用更好的应用,提出了使用特征融合a-a特征训练gmm-hmm模型,以及使用声学特征gmm-hmm和运动特征gmm-hmm做决策融合。如表3后两列所示,特征融合和决策融合能够结合两类特征的互补优势,进一步提高了判别效果。本发明不仅利用音频数据,还利用言语障碍者的发音运动数据,从发音运动的方面对构音障碍进行可懂度级别的判断。发音运动数据的重点在于对言语障碍者的运动数据进行特征提取,通过对数据的分析,舌头运动数据不稳定、不易获取,因此,本实施例中主要以嘴唇的发音运动数据为主要依据,可以有效区别言语障碍者可懂度程度。同时,在对言语障碍者可懂度评估中,通过提取发音运动特征改善了传统基于音频数据的声学特征的方法,并通过torgo数据集和准确率和kappa系数说明了其可行性。本发明通过特征融合和决策融合,将传统的语音声学特征和发音运动特征结合起来,有效利用两类特征的互补性,保证评价的客观性和全面性,通过融合方法,结果比单独使用声学特征或单独使用发音运动特征在对可懂度程度分类上有明显优势。需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于系统实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。并且,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。另外,本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。上述说明示出并描述了本发明的优选实施例,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1