一种基于EMA的发音障碍中文评估方法与流程

文档序号：11832710阅读：354来源：国知局

本发明涉及发音评估
技术领域：
，特别是基于EMA的发音障碍评估
技术领域：
。
背景技术：
：发音障碍的评估大多是通过声学信号分析，以正常人作为参考系，研究其差异并进行评定。常用方法有共振峰提取对比、时长对比以及元音辅音的精确度对比。被试母语多为英语，对中文汉语的发音研究较少。作者MichalNovotný等人在文献《AutomaticEvaluationofArticulatoryDisordersinParkinson’sDisease》中提出了一个评估帕金森病患者发音缺陷的方法，该方法是基于发音特征通过声学方法自动评估。该实验招募24位帕金森病患者和22位同龄的正常人作为参照组，要求被试快速重复朗读音节/pa/、/ta/、/ka/。用来描述发音的特征包括音质、喉部协调度、声道运动、辅音发音的准确度、舌部运动、咬合程度及说话时长，这些特征也被作为评估的因素。用基于发音特征的支持向量机分类算法区分帕金森病患者和正常人，该侦测算法准确率达到80%。首先将被试的音频信号标记为起始发音点（initialburst）、元音起始点（vowelonset）和停止点(occlusion),再通过上述六个发音特征来评估发音缺陷的等级。该方法可以评定发音障碍患者的缺陷等级，但评估参考因素都是来自音频信号的分析，没有实际舌部运动的动力学信息，所以评估方法还不够全面。作者KrisTjaden等人在文献《VowelAcousticsinParkinson’sDiseaseandMultipleSclerosis:ComparisonofClear,Loud,andSlowSpeakingConditions》中以正常人为参考，从清晰度、响度、缓慢程度对比了帕金森病患者和多发性硬化症患者的元音发音，最终希望从对比研究中找到提升语言可懂度、增加舌尖位移、提高舌部运动速度的治疗方法。文中提到造成构音障碍的主要原因有以下几个方面：变形的元音、不准确的辅音、不精准和不规则度。但仅仅是对声学信号提取共振峰进行分析，对比条件较单一。作者VincentMartelSauvageau等人在文献《ImpactoftheLSVTonvowelarticulationandcoarticulationinParkinson’sdisease》用到轨迹方程（locusequation）来度量发音的可懂度。轨迹方程描述了发音第二共振峰起始点和中点关系的线性模型，该模型可有效评估发音者的发音情况。但是仅仅采用了对声学特征进行评估忽略了病人本身的缺陷。技术实现要素：本发明所要解决的技术问题是：如何对发音障碍患者（dysarthria）的运动学信息和声学信息同时与正常人（healthycontrols）进行对比评估障碍患者的发音状况。本发明所采用的技术方案是：一种基于EMA的发音障碍中文评估方法，按照如下步骤进行：步骤一、根据不同发音障碍的类型确定测试语料，测试语料为一个或者多个，每个测试语料为根据汉语拼音声母韵母组合的标准，一个声母与所有能与该声母组合发音的韵母的所有组合形式，选择多名普通话水平二级甲等以上且无发音病史的正常人依次阅读每个测试语料，用EMA仪器采集他们阅读测试语料时做好准备阅读但未阅读时舌尖所处位置的坐标即正常人舌尖静态帧坐标、阅读每个测试语料过程中舌尖所在坐标中与正常人舌尖静态帧坐标欧氏距离最大的值即正常人舌尖欧氏距离、阅读每个测试语料中上唇和下唇张合度的最大值即正常人双唇开合距离、阅读每个测试语料所用时长即正常人时长、正常人发音共振峰轨迹方程的斜率，以正常人舌尖欧氏距离、正常人双唇开合距离、正常人时长、正常人发音共振峰轨迹方程的斜率为参数建立标准数据库，正常人阅读每个测试语料过程中，以EMA仪器采集到的测试语料的一个声母与所有韵母组合的声母向韵母过渡的起始点的共振峰频率为纵坐标值，韵母的中点的共振峰频率为横坐标值，形成与韵母数量等同数量的离散点，这些离散点是线性的并且紧密聚集，求的离散点拟合直线的斜率即为正常人发音共振峰轨迹方程的斜率；步骤二、待测试患者根据发音障碍类型选择读取测试语料，用EMA仪器采集待测试患者阅读每个测试语料时做好准备阅读但未阅读时舌尖所处位置的坐标即患者舌尖静态帧坐标、阅读每个测试语料过程中舌尖所在坐标中与患者舌尖静态帧坐标欧氏距离最大的值即患者舌尖欧氏距离、阅读每个测试语料中上唇和下唇张合度的最大值即患者双唇开合距离、阅读每个测试语料所用时长即患者时长，以患者舌尖欧氏距离、患者双唇开合距离、患者时长、患者发音共振峰轨迹方程的斜率为对比参数，患者阅读每个测试语料过程中，以EMA仪器采集到的测试语料任意一个声母与所有韵母组合的声母向韵母过渡的起始点的共振峰频率为纵坐标值，韵母的中点的共振峰频率为横坐标值，形成与韵母数量等同数量的离散点，这些离散点是线性的并且紧密聚集，求的离散点拟合直线的斜率即为患者发音共振峰轨迹方程的斜率；步骤三、选用模糊隶属函数概念来判断发音障碍患者的缺陷程度，对第i个测试语料，i为自然数，所有正常人中，正常人舌尖欧氏距离最大值为Simax，正常人舌尖欧氏距离最小值为Simin，经验获得患者舌尖欧氏距离最大值Smax，患者舌尖欧氏距离Si，当Si=0时，第i个测试语料患者舌尖发音障碍Szi为0，当0<Si<Simin时，第i个测试语料患者舌尖发音障碍Szi为Si/Simin，当Simin≦Si≦Simax时，第i个测试语料患者舌尖发音障碍Szi为1，当Simax<Si<Smax时，第i个测试语料患者舌尖发音障碍Szi为（Simax-Si）/(Smax-Simax),当Si≥Smax时，第i个测试语料患者舌尖发音障碍Szi为0;所有正常人中，正常人双唇开合距离最大值为Zimax，正常人双唇开合距离最小值为Zimin，经验获得患者双唇开合距离最大值Zmax，患者双唇开合距离为Zi，当Zi=0时，第i个测试语料患者嘴巴发音障碍Zzi为0，当0<Zi<Zimin时，第i个测试语料患者嘴巴发音障碍Zzi为Zi/Zimin，当Zimin≦Zi≦Zimax时，第i个测试语料患者嘴巴发音障碍Zzi为1，当Zimax<Zi<Zmax时，第i个测试语料患者嘴巴发音障碍Zzi为（Zimax-Zi）/(Zmax-Zimax),当Zi≥Zmax时，第i个测试语料患者嘴巴发音障碍Zzi为0;所有正常人中，正常人时长最大值为Jimax，正常人时长最小值为Jimin，经验获得患者时长最大值Jmax，患者时长为Ji，当Ji=0时，第i个测试语料患者时长发音障碍Jzi为0，当0<Ji<Jimin时，第i个测试语料患者时长发音障碍Jzi为Ji/Jimin，当Jimin≦Ji≦Jimax时，第i个测试语料患者时长发音障碍Jzi为1，当Jimax<Ji<Jmax时，第i个测试语料患者时长发音障碍Jzi为（Jimax-Ji）/(Jmax-Jimax),当Ji≥Jmax时，第i个测试语料患者时长发音障碍Jzi为0;所有正常人中，正常人发音共振峰轨迹方程的斜率最大值为Kimax，正常人发音共振峰轨迹方程的斜率最小值为Kimin，经验获得患者发音共振峰轨迹方程的斜率最大值Kmax，经验获得患者发音共振峰轨迹方程的斜率最小值Kmin，待测患者患者发音共振峰轨迹方程的斜率Ki，当Ki≦Kmin时，第i个测试语料患者斜率障碍Kzi为0，当Kmin<Ki<Kimin时，第i个测试语料患者斜率障碍Kzi为（Ki-Kmin）/（Kimin-Kmin），当Kimin≦Ki≦Kimax时，第i个测试语料患者时长发音障碍Kzi为1，当Kimax<Ki<Kmax时，第i个测试语料患者时长发音障碍Kzi为（Kimax-Ki）/(Kmax-Kimax),当Ki≥Kmax时，第i个测试语料患者时长发音障碍Kzi为0;第i个测试语料患者障碍Ui=0.4*Szi+0.1*Zzi+0.1*Jzi+0.4*Kzi；步骤四、患者综合发音语音障碍U=|1-U1|+...+|1-Ui|+...+|1-Un|，U1为第1个测试语料患者障碍，Ui为第i个测试语料患者障碍，Un为第n个测试语料患者障碍，n为测试语料的总数量属于自然数。作为一种优选方式：步骤三中，经验获得患者舌尖欧氏距离最大值Smax是指医生收集到的患者舌尖欧氏距离所有数据中的最大值，经验获得患者双唇开合距离最大值Zmax是指医生收集到的患者双唇开合距离所有数据中的最大值，经验获得患者时长最大值Jmax是指医生收集到的患者时长所有数据中的最大值，经验获得患者发音共振峰轨迹方程的斜率最大值Kmax是指医生收集到的患者发音共振峰轨迹方程的斜率所有数据中的最大值，经验获得患者发音共振峰轨迹方程的斜率最小值Kmin是指医生收集到的患者发音共振峰轨迹方程的斜率所有数据中的最小值，并且是指对同一个测试语料状况下不同患者的收集。本发明的有益效果是：通过EMA采集的运动数据可通过MATLAB绘制三维坐标图，直观有效的与正常人进行比对，此方法从生理学的角度，提高了评估的准确性，更直观的对比发音障碍患者与正常人的发音差异。轨迹方程发音模型是基于神经科学，用来评估语音的稳定性和特殊性的方法，将对国内病理语音研究有所突破。本发明综合了动力学和声学信息，能够更加准确的对发音障碍患者进行全面的评估，为病理研究提供了理论基础和技术支持。具体实施方式本发明以Windows7系统为操作环境，MATLABR2010b为数据处理平台。以下是具体操作方法：步骤一、根据不同发音障碍的类型确定测试语料，选取测试语料遵循汉语发音的特点和规则，也可根据不同发音障碍的类型调整测试语料，测试语料为一个或者多个，每个测试语料为根据汉语拼音声母韵母组合的标准，一个声母与所有能与该声母组合发音的韵母的所有组合形式，本实施例用于评估舌部上抬障碍的发音患者，由于舌部无法正常抬起接触软腭及上齿，导致患者一些声母发音不准确，如/l/、/d/、/t/、/s/、/ch/等。本实施例选取测试语料为声母/d/、/l/、/ch/，选择10名普通话水平二级甲等以上且无发音病史的正常人依次阅读每个测试语料，用EMA仪器采集他们阅读测试语料时做好准备阅读但未阅读时舌尖所处位置的坐标即正常人舌尖静态帧坐标、阅读每个测试语料过程中舌尖所在坐标中与正常人舌尖静态帧坐标欧氏距离最大的值即正常人舌尖欧氏距离、阅读每个测试语料中上唇和下唇张合度的最大值即正常人双唇开合距离、阅读每个测试语料所用时长即正常人时长、正常人发音共振峰轨迹方程的斜率，以正常人舌尖欧氏距离、正常人双唇开合距离、正常人时长、正常人发音共振峰轨迹方程的斜率为参数建立标准数据库，正常人阅读每个测试语料过程中，以EMA仪器采集到的测试语料的一个声母与所有韵母组合的声母向韵母过渡的起始点的共振峰频率为纵坐标值，韵母的中点的共振峰频率为横坐标值，形成与韵母数量等同数量的离散点，这些离散点是线性的并且紧密聚集，求的离散点拟合直线的斜率即为正常人发音共振峰轨迹方程的斜率，本发明中正常人发音共振峰轨迹方程的斜率所涉及的坐标为平面直角坐标系坐标，其它坐标为三维立体坐标，三维立体坐标以每个阅读者左右方向为X轴并且方向是从右向左递增，以每个阅读者前后方向为Y轴并且方向是从前向后递增；以每个阅读者上下方向为Z轴并且方向是从下向上递增。本实施例使用仪器型号为AG501，以200帧每秒的采样率录制发音动作，在测试者产生语音的同时采集各个器官的运动数据，并录制与其同步的音频数据。用生理胶将传感器（sensor）粘到测试者的舌尖、上唇中间、下唇中间以同步测量这些部位位置变化。以其中一位测试者发音声母/d/为例，首先用EMA采集发音者静态帧数据，发音动作数据的静态帧指的是不发音且无明显发音动作的一个数据帧，此时的舌头和上下唇等发音器官处于放松状态，与此相对应的音频数据是语音波形的静音段。再采集测试者发音/d/时的运动轨迹数据，选取发音/d/的关键帧，由于发音时舌尖直接关系到发音的清晰度，我们重点研究舌尖的关键帧；为了研究汉语音素的发音特征，需要从复杂多变的三维发音动作数据中提取出能够标识该音素的一帧或几帧来表征其个性特征，称之为关键帧，挑选舌尖相对舌尖静态帧的欧式距离最大的一帧作为舌尖关键帧，进而求的阅读测试语料/d/过程中舌尖所在坐标中与舌尖静态帧坐标欧氏距离最大的值即正常人舌尖欧氏距离；表1一位测试者静态帧与关键帧的位置X轴(mm)Y轴(mm)Z轴(mm)静态帧舌尖(T1)9.4032.5490.18关键帧舌尖(T1)9.8933.2794.17提取采集发音者发音/d/的共振峰信息。根据汉语拼音声母韵母组合的标准，声母/d/与韵母组合有18种形式，分别为/da/、/duo/、/de/、/di/、/du/、/dai/、/dui/、/dao/、/dou/、/diu/、/die/、/dan/、/din/、/dun/、/dang/、/deng/、/ding/、/dong/，分别采集以上组合的发音信息，将第二共振峰声母向韵母过渡的起始点（F2onset）与第二共振峰韵母的中点（F2mid）绘图，这些离散点是线性的并且紧密聚集。离散点服从一元线性回归方程，根据研究表明轨迹方程的斜率可以反映说话人的语言质量，因此可以从斜率来判断发音者的发音情况；通过计算得出一位测试者发音/d/的轨迹方程为F2onset=0.416*F2mid+1288.316，k=0.416，记录发音者的发音时长J=0.67s。同样的方法采集10位正常人的发音数据，并建立正常发音的数据库，如表2所示。其中S表示正常人舌尖欧氏距离，Z表示双唇最大开合距离，K表示发音轨迹方程的斜率，J表示发音时长。表210位正常人发音声母/d/的数据S(mm)Z(mm)KJ(s)14.0913.440.4160.6724.3613.230.4230.6233.9712.980.3960.5844.1213.250.4250.6454.1613.560.4140.6864.0112.890.4030.5973.9913.460.4190.6384.0613.110.4280.6194.0413.540.4230.71104.2613.240.4100.70步骤二、待测试患者根据发音障碍类型选择读取测试语料，用EMA仪器采集待测试患者阅读每个测试语料时做好准备阅读但未阅读时舌尖所处位置的坐标即患者舌尖静态帧坐标、阅读每个测试语料过程中舌尖所在坐标中与患者舌尖静态帧坐标欧氏距离最大的值即患者舌尖欧氏距离、阅读每个测试语料中上唇和下唇张合度的最大值即患者双唇开合距离、阅读每个测试语料所用时长即患者时长，以患者舌尖欧氏距离、患者双唇开合距离、患者时长、患者发音共振峰轨迹方程的斜率为对比参数，患者阅读每个测试语料过程中，以EMA仪器采集到的测试语料任意一个声母与所有韵母组合的声母向韵母过渡的起始点的共振峰频率为纵坐标值，韵母的中点的共振峰频率为横坐标值，形成与韵母数量等同数量的离散点，这些离散点是线性的并且紧密聚集，求的离散点拟合直线的斜率即为患者发音共振峰轨迹方程的斜率；采集待测患者的发音数据，作为对比参数数据，如表3所示。其中S’表示患者舌尖欧氏距离，Z’表示双唇最大开合距离，K’表示发音轨迹方程的斜率，J’表示发音时长。表3待测患者的发音数据S’(mm)Z’(mm)K’J’(s)13.8212.850.3920.52步骤三、选用模糊隶属函数概念来判断发音障碍患者的缺陷程度，对第i个测试语料，i为自然数，所有正常人中，正常人舌尖欧氏距离最大值为Simax，正常人舌尖欧氏距离最小值为Simin，经验获得患者舌尖欧氏距离最大值Smax，患者舌尖欧氏距离Si，当Si=0时，第i个测试语料患者舌尖发音障碍Szi为0，当0<Si<Simin时，第i个测试语料患者舌尖发音障碍Szi为Si/Simin，当Simin≦Si≦Simax时，第i个测试语料患者舌尖发音障碍Szi为1，当Simax<Si<Smax时，第i个测试语料患者舌尖发音障碍Szi为（Simax-Si）/(Smax-Simax),当Si≥Smax时，第i个测试语料患者舌尖发音障碍Szi为0;所有正常人中，正常人双唇开合距离最大值为Zimax，正常人双唇开合距离最小值为Zimin，经验获得患者双唇开合距离最大值Zmax，患者双唇开合距离为Zi，当Zi=0时，第i个测试语料患者嘴巴发音障碍Zzi为0，当0<Zi<Zimin时，第i个测试语料患者嘴巴发音障碍Zzi为Zi/Zimin，当Zimin≦Zi≦Zimax时，第i个测试语料患者嘴巴发音障碍Zzi为1，当Zimax<Zi<Zmax时，第i个测试语料患者嘴巴发音障碍Zzi为（Zimax-Zi）/(Zmax-Zimax),当Zi≥Zmax时，第i个测试语料患者嘴巴发音障碍Zzi为0;所有正常人中，正常人时长最大值为Jimax，正常人时长最小值为Jimin，经验获得患者时长最大值Jmax，患者时长为Ji，当Ji=0时，第i个测试语料患者时长发音障碍Jzi为0，当0<Ji<Jimin时，第i个测试语料患者时长发音障碍Jzi为Ji/Jimin，当Jimin≦Ji≦Jimax时，第i个测试语料患者时长发音障碍Jzi为1，当Jimax<Ji<Jmax时，第i个测试语料患者时长发音障碍Jzi为（Jimax-Ji）/(Jmax-Jimax),当Ji≥Jmax时，第i个测试语料患者时长发音障碍Jzi为0;所有正常人中，正常人发音共振峰轨迹方程的斜率最大值为Kimax，正常人发音共振峰轨迹方程的斜率最小值为Kimin，经验获得患者发音共振峰轨迹方程的斜率最大值Kmax，经验获得患者发音共振峰轨迹方程的斜率最小值Kmin，待测患者患者发音共振峰轨迹方程的斜率Ki，当Ki≦Kmin时，第i个测试语料患者斜率障碍Kzi为0，当Kmin<Ki<Kimin时，第i个测试语料患者斜率障碍Kzi为（Ki-Kmin）/（Kimin-Kmin），当Kimin≦Ki≦Kimax时，第i个测试语料患者时长发音障碍Kzi为1，当Kimax<Ki<Kmax时，第i个测试语料患者时长发音障碍Kzi为（Kimax-Ki）/(Kmax-Kimax),当Ki≥Kmax时，第i个测试语料患者时长发音障碍Kzi为0;第i个测试语料患者障碍Ui=0.4*Szi+0.1*Zzi+0.1*Jzi+0.4*Kzi；以/d/作为第一个测试语料进行说明，通过步骤二和步骤三可以知道，所有正常人中，正常人舌尖欧氏距离最大值为S1max=4.26，正常人舌尖欧氏距离最小值为S1min=3.97，经验获得患者舌尖欧氏距离最大值Smax=4.55，患者舌尖欧氏距离S1=3.82，第一个测试语料患者舌尖发音障碍Sz1为S1/S1min=0.962，所有正常人中，正常人双唇开合距离最大值为Z1max=13.56，正常人双唇开合距离最小值为Z1min=12.89，经验获得患者双唇开合距离最大值Zmax=14.15，患者双唇开合距离为Z1=12.85，第一个测试语料患者嘴巴发音障碍Zz1为Z1/Z1min=0.997，所有正常人中，正常人时长最大值为J1max=0.71，正常人时长最小值为J1min=0.58，经验获得患者时长最大值Jmax=0.82，患者时长为J1=0.52，第一个测试语料患者时长发音障碍Jz1为J1/J1min=0.897，所有正常人中，正常人发音共振峰轨迹方程的斜率最大值为K1max=0.428，正常人发音共振峰轨迹方程的斜率最小值为K1min=0.396，经验获得患者发音共振峰轨迹方程的斜率最大值Kmax=0.498，经验获得患者发音共振峰轨迹方程的斜率最小值Kmin=0.223，待测患者患者发音共振峰轨迹方程的斜率K1=0.392，第一个测试语料患者斜率障碍Kz1为（K1-Kmin）/（K1min-Kmin）=0.169/0.173=0.977，第一个测试语料患者障碍U1=0.4*Sz1+0.1*Zz1+0.1*Jz1+0.4*Kz1=0.920，同样的方法获得第二个测试语料（/l/）患者障碍U2=0.933，第三个测试语料（/ch/）患者障碍U3=0.893，本实施例中第二个测试语料（/l/）患者障碍和第三个测试语料（/ch/）患者障碍的具体过程于第一个测试语料患者障碍完全类似，这里不多加说明。步骤四、患者综合发音语音障碍U=|1-U1|+...+|1-Ui|+...+|1-Un|，U1为第1个测试语料患者障碍，Ui为第i个测试语料患者障碍，Un为第n个测试语料患者障碍，n为测试语料的总数量。本实施例，患者综合发音语音障碍U=|1-0.920|+|1-0.933|+|1-0.893|=0.254，患者综合发音语音障碍值越大，说明患者发音语音障碍越大。当前第1页1 2 3

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：薛珮芸;张雪英;白静;
技术所有人：太原理工大学;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。