基于实时声道形状修正的构音障碍多维测量系统及其方法与流程

文档序号:11995504阅读:281来源:国知局
基于实时声道形状修正的构音障碍多维测量系统及其方法与流程
本发明属于言语听觉康复领域,尤其涉及一种基于实时声道形状修正的构音障碍多维测量系统及其方法。

背景技术:
构音障碍是言语障碍中很常见的一个类别,指由于构音器官的运动异常或协调运动障碍而导致在发出有意义言语的过程中出现的构音不清和声韵调异常等现象,其主要表现为言语清晰度下降,从而影响言语的可懂度。构音障碍分成构音运动障碍和构音语音障碍两个层面,其中构音运动障碍是内在的问题,它直接表现为言语清晰度下降,是影响日常生活和言语交流的内在因素,因此进行全面、准确的构音运动功能评估,是一项重要而艰巨的任务。传统言语障碍,尤其是构音障碍的康复训练主要依靠医院、学校以及专业言语治疗机构进行,由医生、特殊教育教师以及言语治疗师对患者进行发音诱导,并及时纠正其在构音运动中产生的错误,直到患者取得一定程度上的恢复。这种方法需要消耗言语障碍训练者大量的精力和时间,工作本身也比较复杂和繁琐,更重要的是,构音障碍患者只能被动地接受康复训练,而无法知悉个人声道内部构音器官的运动异常情况,容易在长时间的康复训练过程中丧失主动性和积极性,缺乏言语障碍康复中的自反馈过程,降低康复效率。目前市场上基于电子和计算机技术的言语训练产品数量不少,但是这些产品的使用方法多是配合康复训练人员的工作,起到辅助性工具的作用,内容大多数基于多媒体手段,虽然学习内容丰富生动,但是本质上仍然使患者处于完全被动接受的状态,无法了解自身构音障碍康复中的问题和训练成果。由于构音障碍主要原因在于患者无法自如的控制自己的构音器官来准确发出语音和语句,因此,这些简单的多媒体手段对患者构音障碍康复收效甚微。

技术实现要素:
本发明克服了现有技术中缺乏自反馈过程而无法了解训练问题与康复成果的缺陷,提出了一种基于实时声道形状修正的构音障碍多维测量系统及其方法。本发明能直观显示构音器官运动情况,监控构音器官相关参数,实现构音障碍康复训练的自反馈。本发明提出了一种基于实时声道形状修正的构音障碍多维测量系统,包括:语音输入单元,其用于输入需要分析的语音文件;分析单元,其包括清浊音类型判别模块、共振峰提取模块和语谱图分析模块,分别用于对所述语音文件进行清浊音类型判别、共振峰提取和语谱图计算;标记单元,用于根据提取的共振峰和计算的语谱图标记共振峰的关键帧;参数设置单元,用于设置及调整声道形状参数;模型生成单元,其包含声道形状模型的原型及结构,用于根据所述关键帧与所述声道形状参数绘制声道形状模型。其中,进一步包括:输出单元,用于输出所述声道形状模型及其声道形状参数和共振峰。其中,进一步包括:音频单元,用于向所述语音输入单元播放所述语音文件,或暂停和停止播放所述语音文件。本发明还提出了一种基于实时声道形状修正的构音障碍多维测量方法,包括:步骤一:通过所述语音输入单元输入语音文件;步骤二:所述分析单元对所述语音文件进行清浊音类型判别,根据清浊音类型提取所述语音文件的共振峰,并根据所述清浊音类型计算所述语音文件的语谱图;步骤三:所述标记单元根据所述共振峰与所述语谱图标记共振峰的关键帧;步骤四:所述参数设置单元设置及调整声道形状参数;步骤五:所述模型生成单元包含声道形状模型的原型及结构,在声道原型结构的基础上根据所述关键帧与所述声道形状参数,绘制声道形状模型。其中,所述步骤二包括:步骤A1:所述清浊音判别模块判断所述语音文件的清浊音类型;步骤A2:所述共振峰提取模块根据所述清浊音类型提取所述语音文件的共振峰;步骤A3:所述语谱图分析模块根据所述清浊音类型计算所述语音文件的语谱图。其中,所述步骤A1进一步包括:对判别的所述清浊音类型进行修正。其中,所述步骤A1中,所述清浊音类型根据预测误差能量与一阶反射系数判断,所述一阶反射系数如以下公式表示:其中,r1表示一阶反射系数,Rss()表示预测误差能量,S(n)表示语音信号,N表示语音帧的样本个数,1表示浊音,0表示清音。其中,进一步包括步骤六:计算所述声道形状模型对应的共振峰,并与所述关键帧对应的共振峰进行误差比较,若误差超过2%,所述参数设置单元调整所述声道形状参数,所述模型生成单元根据调整后的声道形状参数重新生成声道形状模型。其中,进一步包括步骤七:重复执行步骤六,直到所述模型生成单元生成的声道形状模型的共振峰与所述关键帧对应的共振峰的误差低于2%时为止。其中,进一步包括步骤八:所述输出单元输出所述声道形状模型及其声道形状参数和共振峰。其中,进一步包括步骤九:当声道形状模型及其声道形状参数和共振峰与常模存在差异,则根据声道形状模型及其声道形状参数和共振峰与常模之间的差异调整声道形状,并重新执行所述步骤一至步骤八得到调整后的声道形状模型及其声道形状参数和共振峰,直至所述调整后的声道形状模型及其声道形状参数和共振峰与常模一致时结束调整。本发明的声道形状模型是利用二维曲线绘制主要构音器官,如下颌、唇、舌、软腭、硬腭、悬雍垂等在构音运动过程中的相对运动位置,并以坐标系的形式给出。这些位置参数可以通过所属参数单元中的声道形状参数进行调整。本发明的声道形状模型优化算法是基于模拟退火优化算法,采用迭代计算求最优解的方法,实现根据声道内的构音器官位置参数求解出来的共振峰参数与对输入语音进行分析得到的共振峰参数两者之间的误差符合要求,从而确定所得声道形状模型符合需求。附图说明图1表示基于实时声道形状修正的构音障碍多维测量系统的结构。图2表示基于实时声道形状修正的构音障碍多维方法的流程图。图3表示语音清浊音类型判别的示意图。图4表示共振峰提取与语谱图计算的示意图。图5表示共振峰频率值的计算流程。图6表示声道形状模型的示意图。图7表示参数设置单元的界面示意图。具体实施方式结合以下具体实施例和附图,对本发明作进一步的详细说明。实施本发明的过程、条件、实验方法等,除以下专门提及的内容之外,均为本领域的普遍知识和公知常识,本发明没有特别限制内容。如图1至图7所示,1-语音输入单元,2-分析单元,3-标记单元,4-模型生成单元,5-输出单元,6-音频单元,7-参数设置单元,21-清浊音类型判别模块,22-共振峰提取模块,23-语谱图分析模块。图1显示的是基于实时声道形状修正的构音障碍多维测量系统的结构,包括:语音输入单元1、分析单元2、标记单元3与模型生成单元4。语音输入单元1用于输入需要分析的语音文件。分析单元2包括语音文件的清浊音类型判别模块21、共振峰提取模块22和语谱图分析模块23,分析单元2与语音输入单元1连接,用于对语音进行清浊音类型判别、共振峰提取和语谱图计算。共振峰频率是指人类的声道和鼻道部可以看作是非均匀截面的声管道,声管道的谐振频率,简称共振峰。共振峰与发声器官的确切位置有很大的关系,即共振峰频率与声道的形状和大小有关,每种形状部有一套共振峰频率作为其特征。一般浊音中可以辨别的共振峰有5个,其中前三个对于区别不同的语音至关重要。语谱图表示语音信号随时间而变化的频谱特性。语谱图的纵轴对应频率,横轴对应时间,图像的黑白度对应信号的能量。标记单元3与分析单元2连接,用于标记共振峰的关键帧。参数设置单元7用于设置及调整声道形状参数。参数设置单元7中设置有默认的声道形状参数,在绘制声道形状模型时需要对声道形状参数进行调整以减小误差。模型生成单元4与标记单元3及参数设置单元7分别连接,用于根据共振峰及声道形状参数绘制声道形状模型。本发明基于实时声道形状修正的构音障碍多维测量系统进一步包括输出单元5、音频单元6。输出单元5与模型生成单元4连接,用于通过打印等方式输出声道形状模型及其声道形状参数和共振峰参数。音频单元6用于向所述语音输入单元1播放所述语音文件,或暂停和停止播放所述语音文件。图2显示的是基于实时声道形状修正的构音障碍多维测量方法的流程图。其中包括:步骤一:语音输入单元1输入语音文件。步骤二:分析单元2清浊音类型判别模块21判别语音文件的清浊音类型,如有需要可进行手动修正。共振峰提取模块22根据清浊音类型提取语音文件的共振峰,语谱图分析模块23根据清浊音类型计算语谱图。步骤三:标记单元3对共振峰进行关键帧标记。步骤四:参数设置单元7设置及调整声道形状参数。步骤五:模型生成单元4根据关键帧与声道形状参数,绘制声道形状模型。基于实时声道形状修正的构音障碍多维测量方法进一步包括:步骤六:计算声道形状模型对应的共振峰,并与关键帧对应的共振峰进行误差比较,若误差大于2%,则参数设置单元7重新调整声道形状参数,模型生成单元4根据调整后的声道形状参数与关键帧重新生成声道形状模型。例如,若系统绘制出的声道形状模型结果不符合预期,需要调整参数设置单元7中的下颌角、唇凸距等声道形状参数,如图7所示。参数设置单元调节上述声道形状参数,对声道形状模型进行优化。优选地,重复执行步骤六,直到根据声道形状模型计算出的共振峰与关键帧对应的共振峰的误差小于2%时为止。优选地,输出单元5还可输出声道形状模型的声道形状参数和共振峰。例如,声道形状参数和共振峰频率保存为电子表格文档。优选地,还包括步骤九:当声道形状模型及其声道形状参数和共振峰与常模存在差异,则根据声道形状模型及其声道形状参数和共振峰与常模之间的差异调整声道形状,并重新执行步骤一至步骤八得到调整后的声道形状模型及其声道形状参数和共振峰,直至调整后的声道形状模型及其声道形状参数和共振峰与常模一致时结束调整。具体实施过程中,还可将测量所得的模型数据与常模比较,判定用户是否存在构音功能障碍。如果存在,用户通过比对实际声道形状与理想声道形状的偏差,进行反复的自反馈训练调整声道形状,并再次用基于实时声道形状修正的构音障碍测量系统采集生成调整后的语音文件,并分析获取调整后的声道形状模型及其声道形状参数和共振峰,直至被试的调整后的声道形状模型及其声道形状参数和共振峰达到常模的参考标准时结束自反馈训练。图3显示的是语音清浊音类型判别的示意图。分析单元2中的清浊音类型判别模块21会对语音文件中的清音和浊音成分进行判别,以幅度1和0显示,清音的幅度为0,浊音的幅度为1。其中,清浊音类型判别原则是如果所分析的信号的能量低于一个设定值,则该信号属于无声,采用预测误差的能量和一阶反射系数来判断浊音段。一阶反射系数由以下公式计算得出:这里,r1表示一阶反射系数,Rss()表示预测误差能量,S(n)表示语音信号,N表示语音帧的样本个数。若一阶反射系数大于0.2,且预测误差能量大于两倍的限定值,即10的7次方,则该语音帧为浊音(用V表示,Voiced)。若一阶反射系数大于0.3,且预测误差能量大于准则所使用的限定值,并且前一帧为浊音,则当前帧为浊音。若以上两个条件部不满足,则该帧为清音(用U表示,Unvoiced)。图4显示的是共振峰提取与语谱图计算的示意图。共振峰提取模块22和语谱图分析模块23对语音文件进行共振峰提取和语谱图计算,得到共振峰频率曲线和语谱图结果。言语传递函数的全极点形式为:分母Hp(s)通常可以分解成一下的复数形式:Hp(s)=Nb(s)+jNa(s)对于无损声道而言Na(s)为0;对于小损耗声道,相对于Nb(s),Na(s)是非常小的,因此,复函数Hp(s)的根将会在Nb(s)附近。基于以上假设,提出了一个两步方法,这个方法被称为Nb方法。Nb方法的第一步是搜索Nb(s)=0的根,在给定的频率fn计算N′b的值,然后使频率增加几赫兹(Hz),就可以在新的频率fn+1下计算出Nb(j2πfn+1)。假如极性改变,即Nb(j2πfn)*Nb(j2πfn+1)<0则这个区域将会产生一个根,假设频率f0是Nb(s)=0的近似根。可以使用牛顿插值或者其它插值方法来计算在这个区域的根,第二步,计算Hp(s)=0的根,由于Na(s)极小可以认为Hp(s)=0的根在Nb(s)=0的根附近,因此可以使用微分方法求解。对Hp(s)=Nb(s)+jNa(s)求导得到:假设:Sn=σn+j(2πf0+Δωn)从上面的等式,可以得到最终的极点频率和带宽给定如下:通过重复这二步,当四个共振峰找到了的时候,或者频率增长超过5kHz的时候就可以停止搜索。总之,Nb方法在指定频率增长下计算Nb(s),然后检查函数极性是否改变,进而使用线性插值方法(如牛顿方法)获得频率根。为了得到H(s)的最终频率,通过N′a和N′b的差分方程来近似的。共振峰的计算基于声道横截面积函数,由指定的声道器官配置信息计算出言语传递函数,就可以从言语传递函数的分母分解得到共振峰频率。言语传递函数的分母通常是复数Hp(s)=Nb(s)+jNa(s)。无损声道情况下,Na(s)为0;小损耗声道情况下,与Nb(s)相比,Na(s)的值很小,因此,复函数Hp(s)的根将会在Nb(s)附近。图6显示的是声道形状模型的示意图。模型生成单元4会根据参数设置单元7中默认的声道形状参数绘制声道形状模型。图7显示的是参数设置单元的界面示意图。该模型是基于X射线图像的轮廓距离平面,可显示轮廓平面内的言语器官的运动,得到言语器官的位置,还可以控制构音器官按构音规则进行运动。最显著的特点是获得构音参数(下颌角、唇凸距、唇开距、舌尖位置、舌体中心位置、悬雍垂运动点、舌骨距等),实现声道剖面的可视化,若结果不符合要求,可调整升到形状参数对声道形状模型进行优化。其中,音频单元6可控制向语音输入单元1输入语音文件的播放、暂停和停止模式,供播放语音、暂停播放语音和停止播放语音。本实施例中,通过语音输入单元1输入需要分析的语音文件,分析单元2根据请求信息,对输入的语音文件进行清音和浊音类型的判别,再根据清浊音类型对结果进行共振峰提取和语谱图计算,获得共振峰和语谱图以供标记单元3进行关键帧标记,标记单元3根据分析单元2获得的共振峰和语谱图进行关键帧标记,选定共振峰中适合分析的关键帧。模型生成单元4将选定的关键帧,根据参数设置单元7内置的默认声道形状参数,绘制声道形状模型,并计算出模型对应的共振峰参数作为模型值,将模型值与步骤三获取的关键帧对应的共振峰进行比较,若误差小于2%则结果符合要求。若所得结果不符合预期,参数设置单元7调整声道形状参数,以供模型生成单元4重新进行声道形状模型绘制。重复执行优化过程,直到根据模型生成单元4绘制的声道形状模型对应的共振峰的模型值和关键帧对应的共振峰之间的误差小于2%为止,将声道形状参数和共振峰参数的结果发送至输出单元5。输出单元5将声道形状参数和共振峰参数的结果输出,并保存为电子表格文档。还可将电子表格文档中的数据与常模比较,判定用户是否存在构音功能障碍。如果存在构音功能障碍,通过比对实际声道形状与理想声道形状的偏差,进行反复的自反馈训练调整声道形状,并再次用基于实时声道形状修正的构音障碍测量系统采集调整后的语音文件进行测量,生成新的声道形状数据,直至被试的声道形状数据达到常模的参考标准时完成自反馈训练,实现监测与评估用户在自反馈训练前后的构音功能差异。本实施例中,输入语音为汉语普通话元音/i/,发音者为男性。音频单元6可以提供播放语音、暂停播放语音和停止播放语音功能。分析单元2中的清浊音判别模块,可将语音进行清音和浊音分类显示,分析单元2中的共振峰提取和语谱图计算模块,可将语音文件提取的的共振峰绘制成曲线,并绘制出语谱图。标记单元3能够在上述得到的共振峰曲线上标记出需要标记的关键帧,可一次性标记多个关键帧。模型生成单元4可将选定关键帧对应的声道形状模型显示出来,第一次呈现的结果可能并不准确,这是因为采用了参数设置单元7中默认的声道形状参数得到第一次绘制声道模型。不准确的结果需要对其进行优化,调整参数设置单元7中的声道形状参数对模型进行优化。优化过程的本质是迭代计算求得最优解。因此,当声道形状模型对应的共振峰频率值和根据语音分析得到的关键帧对应的共振峰之间的误差小于一定范围时,本发明系统认为此时得到的声道形状模型可以作为正确结果予以接受。如果结果不符合预期,还需要重复调整上述步骤,重新对声道形状模型进行参数修正和多次优化。例如,现有已知构音障碍患者发/i/时,与言语功能正常的同龄同性别的人相比,会存在下颌开放较小,舌体位置偏低,以及唇开距不够大等问题。以一名男性构音障碍患者所发的语音/i/为例,经过构音障碍测量系统分析得知其发声时下颌角为-0.33,舌体位置为(3.41,4.62),唇开距为0.64。而利用本发明构音障碍测量系统对言语功能正常的同龄男性所发的语音/i/进行分析可知下颌角为-0.40,舌体位置为(4.22,4.55),唇开距为0.93。本发明构音障碍测量系统的评估结果与已知结果一致,可使用本发明构音障碍测量系统在构音障碍康复过程中起到效果监控与指导作用。本发明的保护内容不局限于以上实施例。在不背离发明构思的精神和范围下,本领域技术人员能够想到的变化和优点部被包括在本发明中,并且以所附的权利要求书为保护范围。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1