一种面向简易精神状态量表的个性化信息和音频数据分析方法及系统的制作方法

文档序号：10703736阅读：233来源：国知局

一种面向简易精神状态量表的个性化信息和音频数据分析方法及系统的制作方法
【专利摘要】本发明公开了一种面向简易精神状态量表的个性化信息和音频数据分析方法及系统。通过采集被试者的个人信息，让被试者完成MMSE量表规定题目同时录制发音音频，针对病理特性提取语音音频的声学特征，并利用高阶统计量表征；然后利用特征选择的方法降低特征的冗余性；将降维后的声学特征与被试者的个人信息融合得到个性化特征；最后利用获取数据构建被试者的发音情况与简易精神量表认知关系的病理模型，并利用交叉验证的方法进行分析。本发明不需要任何侵入性治疗，仅仅需要分析获取数据与病理模型之间的关系即可预测被试者的身体状态，节省检查时间和金钱，减少被试者在检查过程中经受的痛苦同时避免了医生主观性判断对结果的影响。
【专利说明】
一种面向简易精神状态量表的个性化信息和音频数据分析方法及系统
技术领域
[0001]本发明属于数字医疗领域，具体涉及一种面向简易精神状态量表的个性化信息和音频数据分析方法及系统。
【背景技术】
[0002]神经系统失调，包括老年痴呆，帕金森，小血管病，脑卒中等类似病症，多是由大脑，脊髓，脑神经细胞受到损伤而引起机体的变化。人体各器官与主要表现都直接或者间接处于神经系统的调节控制之下，因此神经系统受到损伤，其主要表现为难以正常，清晰有效的发音与行动的不便，认知功能下降等方面。其中语言表达作为人们日常情感交流的有效途径，受到损伤不但影响患者的身体心理健康，而且极大的影响了人们的工作和生活。随着社会进步，压力不断增大，每年都有成千上百万的人患有精神系统类的疾病，并且随着人口逐步趋于老龄化，这些统计数量还将继续增加。因此发音质量下降作为神经系统失调病症的早期表现，研究如何通过声音分析判定神经系统疾病对人们的生活质量具有极其重要的意义。
[0003]目前为止，医学界分析声音质量主要根据医生的专业知识与实际经验做出主观判断;或是通过内窥镜等喉镜检查项目，不但消耗时间，同时增加了病人的经济负担，并且给病人造成了极大的痛苦。随着人机交互技术的发展，人机交互技术逐步涉及到军事，医疗，教育等多个领域。因此研究计算机专家辅助治疗的方法，利用数字信号处理技术提取语音音频中的有效声音信号，得到简单，快速，非侵入性的病理分析检查系统，可减小医生的主观判定对病情的判断与侵入性仪器检查给病人带来的痛苦，目前具有十分重要的意义。
[0004]简易精神状态量表是针对神经认知功能的初步筛查量表，在检查过程中通过回答问题，可得到反应该被试者神经认知功能状态的连续性得分。在传统的声音信号分析中，一般通过分析声音特征与是否患有疾病的关系进行二值分类训练，只能得出被试者患病以及未患病两种结果，而无法预测和判定被试者患有神经系统失调的概率和程度。

【发明内容】

[0005]本发明针对上述问题，提出一种面向简易精神状态量表(MMSE)的个性化信息和音频数据分析方法及系统。该方法借助简单的麦克风得到被试者的语音输入，并使用该语音音频提取对噪声具有抵抗能力的声音特征同时融合被试者的个性化信息得到相应的融合特征进行分析训练，实现了在不同的噪音环境下对被试者音频数据的分析，将该分析结果与被试者的MMSE评分数据相结合，还可以进一步得到被试者精神状态检测得分。
[0006]本发明采用的技术方案如下:
[0007]—种面向简易精神状态量表(MMSE)的个性化信息和音频数据分析方法，具体包括以下步骤:
[0008](I)获取被试者的个性化信息以及发音音频数据；
[0009](2)从获取的发音音频数据中提取有效的录音段；
[0010](3)从有效的录音段中提取音频特征，并与被试者的个性化信息融合得到个性化融合特征；
[0011](4)将得到的个性化融合特征进行训练分析，得到被试者音频数据的分析结果。
[0012]进一步地，所述被试者的个性化信息包括:被试者的年龄，性别，教育程度，既往病史等反应其个人特性的信息。
[0013]进一步地，为了避免被试者由于精神紧张，情绪焦躁等原因对评分结果的影响，使被试者充分尽量保持自然状态，没有选择密闭空间，而是选择在普通场所完成简易精神状态量表设定问题;为了排除文化水平等方面对题目所产生的理解差异，通过专业医生对被试者进行引导，帮助被试者对所做问题进行理解，按照要求完成设置题目，按照被试者在正常状态下的完成情况进行评分。
[0014]进一步地，为了保持录制声音的普遍性，录音条件并没有选择录音室等适用于实验的录制地点，只是在完成量表的同时完成了音频录制，在录制过程中，为了体现被试者正常的生理状态，要求被试者在舒适坐姿的情况下，保持录音器材与嘴唇之间的距离，在自然的语调和音强发音的情况下，即不要刻意提高或是压低音调。在录制之前，医生进行示范发音，并让被试者进行练习发音，待其在放松的情况下，开始录音。
[0015]进一步地，步骤(2)包括:对获取的发音音频数据进行端点检测或是人工语音切分，截取最能反映用户声音特点的录音段，并且剔除空的，坏的等影响模型训练质量的录音音频，为了验证训练方法在日常录音条件下的适用情况，对录音音频添加不同信噪比的高斯噪声，得到不同信噪比的录制音频。
[0016]进一步地，步骤(3)中，根据神经系统失调的病理特征，从有效的录音段中提取音频特征，并用高阶统计量进行表征后再与被试者的个性化信息融合。
[0017]进一步地，神经系统失调的病理特征主要表现为发音强度或气息较弱；发音夹杂着呼吸噪音等方面;发音器官的一些细微变化。因此为进一步试验此算法流程的通用性，针对上述三个病理方面，提取常用的传统特征表示上述病理特征。
[0018]进一步地，为降低环境噪音等外部因素对特征描述效果的影响，选择常用于声音活动性检测领域的可抑制噪声影响的高阶统计量描述针对病理提取的声音特性的表述。
[0019]进一步地，步骤(3)还包括对高阶统计量表征的音频特征进行特征选择，以降低输入音频特征之间的信息冗余。通过选择具有区分度的重要特征，即类间距离大而类内方差小的特征，降低训练的复杂性，提高模型的精度;也可用交叉验证的方法进行特征选择，提高选择特征的稳定性。如提取的特征已足够精简，此步骤亦可省略。
[0020]进一步地，通常针对病理声音对疾病进行判断都仅仅提取能较好表述语音发音本身的特征，而忽略了声音与发音人之间的关联性。这里考虑到被试者的个人特质，如文化水平，年龄等因素，对大脑细胞神经控制表述能力与发音器官运动能力的影响，将能反应其身体状态和文化水平等个性化信息加以提取，与通用的声音特征相融合得到能更好反应其身体与心理状态的特征表达。
[0021]进一步地，将融合后的个性化信息表达结果作为最终的特征输入训练回归模型，为保证训练模型的健壮性，我们随机选取训练样本构造病情拟合模型避免发生过拟合的情况。
[0022]基于音频及个性化融合特征得到的拟合训练模型，被试者的认知回归分析与检测方法具体如下:
[0023]I)利用交叉验证的方法。
[0024]2)计算统计量或对结果进行统计分析。
[0025]进一步地，为了验证模型的稳定性，我们利用交叉验证的方法对拟合效果进行评价。
[0026]进一步地，可以通过拟合结果与真实值对比等分析方法得到训练模型的准确性与健壮性。
[0027]—种面向简易精神状态量表(MMSE)的个性化信息和音频数据分析系统，包括:
[0028]数据采集模块，用于采集被试者的个性化信息，简易精神状态量表评分数据以及发音音频数据；
[0029]数据预处理模块，用于对被试者的发音音频数据进行预处理，以提取有效的录音段；
[0030]病理识别模型构建模块，用于根据有效的录音段构建病理识别模型;又包括:
[0031 ]特征提取子模块，用于从有效的录音段中提取音频特征；
[0032]个性化特征融合子模块，用于将提取的音频特征与被试者的个性化信息进行融合，构建病理识别模型；
[0033]病理数据回归分析模块，用于根据采集的简易精神状态量表评分数据以及构建的病理识别模型对病理数据进行回归分析，得到被试者的精神状态评分。
[0034]进一步地，所述特征提取子模块根据神经系统失调的病理特征从有效的录音段中提取音频特征并用高阶统计量进行表征。
[0035]进一步地，上述病理识别模型构建模块还包括特征选择子模块，用于在与被试者的个性化信息进行融合之前通过降维对高阶统计量表征的音频特征进行选择。
[0036]与现有技术相比，本发明具有的优点和积极效果如下:
[0037]I)本发明给出了通过训练声学特性与简易精神量表回归关系模型分析被试者音频数据的计算机辅助方法。
[0038]基于该方法的系统可检测被试者是否患有神经失调，避免了患者检查过程中通过侵入式仪器测量带来的痛苦，同时省去病人检查过程和等待结果中所耗费的时间精力。
[0039]2)本发明根据神经失调可能引起的病理特性进行特征提取，并计算特征的高阶统计量作为最终的输入特征。
[0040]针对病理反应提取音频的有效特征能更好的体现此类病症的特点，使提取特征更加全面与可靠，通过高阶统计量抑制噪声对特征分析的影响，即使录制音频在噪音嘈杂的环境下也能得提取很好的特征。
[0041]3)本发明将提取的音频特征与被试者的个人信息进行融合，得到个性化融合特征。
[0042]加入其他通道的信息与传统的特征的高阶统计量融合，得到从多维度反映被试者信息的特征，更有利于分析被试者与神经系统失调认知之间的关系。
【附图说明】
[0043]图1为本发明场景操作示意图。
[0044]图2为本发明计算机辅助流程示意图。
[0045]图3为本发明的【具体实施方式】示意图。
[0046]图4为本发明交叉验证特征选择选择方法示意图。
【具体实施方式】
[0047]为使本领域的技术人员更好的理解本发明，下文通过具体实施例，并结合附图，做详细的说明，但不构成对本发明的限制。
[0048]本发明可通过如图1，2了解本发明操作场景和框架，主要包括采集训练数据，数据预处理，构建病理识别模型以及数据拟合与分析四部分，其中被试者只需采集训练数据，其他通过计算机辅助即可预测是否患有精神疾病及程度。其算法是在matlab7.10.0的条件下处理和训练数据实验，具体如图3所示如下:
[0049]I)采集训练数据，这部分的工作是实验的基础，为后续的处理与训练做准备，其具体的工具与参数如下:
[0050](I)被试者信息采集及MMSE量表检查部分，首先通过询问将被试者的信息作为备案得到个性化的记录。此量表在专业医生的引导下进行，通过医生与被试者的交流互动，记录被试者对问题的完成程度根据其专业判断给出相应得分。当患者对题目理解困难或者产生歧义时，医生给出合理的说明与示范帮助被试者理解问题。与之前的检查不同的是，此项检查支持用户在电脑上进行，将互动结果得到实时的电子记录保存，对于检查过程更加快捷，方便，有效。本发明对电脑设备的要求并不高，满足正常的观看，交互，采集使用即可。
[0051](2)声音采集部分，为了让被试者不受设备的束缚，使用了森海塞尔的外置麦克风，为保持录取数据一致，要求被试者采集语音时与麦克风距离为1cm左右，单声道，采样率为44110赫兹。现阶段的语音分析主要包括连续语音分析以及单元音发音分析，由于连续语音存在构音困难等语言学问题，因此我们选择连续语音分析。其中元音/ah/的发音与其他元音效果大致相同，因此本发明要求被试者在舒服的情况下，尽可能保持正常的音调和音量发出元音/ah/，要求每位被试者录制3次。
[0052]2)数据预处理，这部分的工作是整个工作的基础部分，将采集的音频数据进行清理，剔除失效数据，同时提取量表的对应分数，为后续步骤做准备。
[0053](I)音频处理部分，这部分的工作是提取能够反应被试者发音特性的有效音频，其主要的步骤如下依次进行:
[0054]1.通过语音检测或是人工确认的方法去掉坏音频，空音频等录制情况。
[0055]i1.通过端点检测或是人工截取的方法去掉开始结束的过高过低音。
[0056]ii1.向已有音频中加入不同信噪比的高斯噪声得到新的语音音频，模拟环境噪音对声音判别的影响
[0057](2)提取个性化信息及量表总分，这部分主要提取主要信息，作为个性化融合的信息与拟合结果的判定标准分别保存。
[0058]3)构建病理识别模型，这部分的工作是整个重点部分，如何有效提取声学数据进行训练，得到健壮的分类器对病理声音进行更好的回归分析具体研究如下。
[0059](I)特征提取。声音特征为代表其发音情况的有效部分，因此如何提取有效特征表征被试者的自身发音情况与身体状态模型的训练具有重要意义。这里我们根据病理效果提取声音特征，为了抑制环境等噪声的影响使用特征的高阶统计量作为最终的表达方式。
[0060]a)神经系统失调对病人会产生几方面影响，根据病理提取特征具体如下:
[0061 ] 1.声道器官的发音情况。被试者是健康的情况下，其声道的发音情况应该是周期性的震动，为了反映被试者对发音器官的控制程度，本发明采用jittenshimmer等传统特征信息测量声道的周期性，为了更好的表述，今后可以尝试其他周期性测量方法。
[0062]i1.信噪比，由于声道的不完全闭合可能对产生大量的病理声音具有更多的发音噪声，因此会有更多的发音噪声，如何在大量噪音中提取和计算有效音频比例能有效反应被试者的健康情况。
[0063]ii1.发音器官的细微变化，如果受到神经失调等因素的影响，被试者在发音过程中，舌头，嘴唇等发音器官会有细微的变化，可以选择me 1- frequency cepstralcoefficients (MFCC)等特征描述此类细微的变化。
[0064]根据上述描述，依据病理特性提取上述几方面特征表述音频。近年来，频域特征，小波变换等特征提取方法显示了较好的效果，可以作为以后选择研究的方向。
[0065]b)高阶统计量表征特征，
[0066]在信号处理应用中，高阶统计量在高斯和非高斯过程和非线性系统应用中都具有较好的效果。处理语音信号时，高阶统计量抑制高斯噪声保持其相位信息，将语音信息从高斯噪声中分离，因此常提取语音信号观测特征的高阶统计量进行语音的活动性检测。这里针对病理特性进行特征提取，计算相应的高阶统计量作为特征表达从而抑制环境噪声等因素对提取特征效果的影响。
[0067](2)特征选择
[0068]虽然特征与分类器之间并不存在确定的线性关系，但是当提取特征维数较高，超出一定的范围时会降低分类系统的训练速度与准确性。实际上某些特征没有或是包含极少的信息，同时特征之间具有一定的重复性，其对分类结果根本没有影响，因此如何降低特征维数，提高训练的效率与精度具有十分重要的意义。我们利用交叉验证的方法进行特征选择，如图4所示:
[0069](I)特征子集的选择与交叉验证的数据选择方法相同。以10折交叉验证为例，每次将M个N维音频随机分为10份，轮流将其中90 %作为训练集，数据量为M*90 %，剩余10 %作为测试集，数据量为M*10%。
[0070](2)通过某种特征选择的方法对特征子集的N维特征进行降维，得到十个降维后的n(n〈N)维向量。理论上10次数据集的特征选择结果相同，但是实际并不相同，因此用对结果进行统计。
[0071](3)应用投票机制，首先创建一个空的集合存放最终的特征选择结果，对于每一维K(K为1...Ν的标量)，我们从10*K个特征元素选择出现频率最高并且之前没有选择的特征放入最终的特征选择集合。
[0072](3)个性化特征信息融合
[0073]个性化信息融合可提高信息的可探测性和可信度，扩大信息的广度，使得提出信息能对所述事情进行更好的表达。目前通常只利用声音特征进行拟合分类训练，但是单通道信息特征得到的信号特征较为粗糙，很难更好的表达被试者的个人情况。如果通过某种处理方法，同时从多个通道获得多方位信息，将信息进行综合，是这些信息互相补充，完整的体现多种信息特性与感知信息对声音信息的补充从而更加准确的描述环境或是被试者本身的状态。因此在声音特征中，我们加入年龄，性别，教育程度等能多方位体现其个人心里和心里状态的特征信息得到最终的融合信息。
[0074](4)模型训练
[0075]要想对病情进行准确拟合与预测，就要训练一个稳定的分类器。这里将获取个性化融合特征，如我们有M个音频，每个音频的个性化融合特征N维，将M个N维特征作为随机森林，神经网络等方法的输入特征进行训练，得到准确，稳健的回归分类器，对病理结果进行有效分析。
[0076]4)回归分析与预测
[0077]通常有传统的分配方法和交叉验证的方法进行拟合训练分析，为确保结果的可靠性，普遍采用交叉验证的方法，其中10折交叉验证的方法最为常用，进行分类训练与回归分析。为验证结果的有效性，常用拟合值与真实值误差mean absolute classificat1nerror (MAE)等统计结果表征结果的有效性。
[0078]通常简易精神状态量表在合计总分时，8分和9分均按O分计算。最高分为30分。27-30分为正常状态，21-26认为患有轻度的神经认知功能疾病，10-20患有中度的神经认知功能疾病，0-9分为重度的神经认知功能疾病。同时划分是否患有精神疾病与受教育程度有关，因此如果老年人是文盲又小于17分、小学又小于20分、中学以上又小于24分，则为重度的神经认知功能疾病，因此将分析数据与已有标准进行比较，即可得知被试者患病概率与程度。
[0079]将模型预测的分值结果与已有标准进行比较，如预测分值为24分，其中分值在S1-ze 认为患有轻度的神经认知功能疾病，因此判定被试者可能患有轻度神经认知功能问题。
[0080]基于上述方法实现的系统，可以通过回归训练找到发声障碍与神经功能系统的关系，让被试者在普通场景内通过自然，无负担的交流，同时根据神经失调的普遍病理特征提取语音音频相应的语音音频特征做训练，与量表分数进行回归分析，即可对被试者的认知功能是否具有障碍进行初步的分析与筛选。并且在实际应用时，患者只需平稳发音，即可利用已有模型进行分析检测。
[0081]以上实例通过个性化特征融合对声音进行模拟分析仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员在而不脱离本发明的精神和范围时，可以对本发明的技术方案进行修改或者等同替换，本发明的保护范围应以权利要求所述为准。
【主权项】
1.一种面向简易精神状态量表的个性化信息和音频数据分析方法，具体包括以下步骤: (1)获取被试者的个性化信息以及发音音频数据； (2)从获取的发音音频数据中提取有效的录音段； (3)从有效的录音段中提取音频特征，并与被试者的个性化信息融合得到个性化融合特征； (4)将得到的个性化融合特征进行训练分析，得到被试者音频数据的分析结果。2.如权利要求1所述的面向简易精神状态量表的个性化信息和音频数据分析方法，其特征在于，所述被试者的个性化信息包括:被试者的年龄，性别，教育程度，既往病史。3.如权利要求1所述的面向简易精神状态量表的个性化信息和音频数据分析方法，其特征在于，步骤(2)包括:对获取的发音音频数据进行端点检测或是人工语音切分，并且剔除影响模型训练质量的录音音频，然后对录音音频添加不同信噪比的高斯噪声，得到有效的录音段。4.如权利要求1所述的面向简易精神状态量表的个性化信息和音频数据分析方法，其特征在于，步骤(3)中，根据神经系统失调的病理特征，从有效的录音段中提取音频特征，并用高阶统计量进行表征后再与被试者的个性化信息融合。5.如权利要求4所述的面向简易精神状态量表的个性化信息和音频数据分析方法，其特征在于，步骤(3)还包括:对高阶统计量表征的音频特征进行特征选择。6.如权利要求5所述的面向简易精神状态量表的个性化信息和音频数据分析方法，其特征在于，步骤(3)还包括:通过选择具有区分度的特征或交叉验证的方法对高阶统计量表征的音频特征进行特征选择。7.—种面向简易精神状态量表的个性化信息和音频数据分析系统，包括: 数据采集模块，用于采集被试者的个性化信息，简易精神状态量表评分数据以及发音音频数据；数据预处理模块，用于对被试者的发音音频数据进行预处理，提取有效的录音段；病理识别模型构建模块，用于根据有效的录音段构建病理识别模型，又包括: 特征提取子模块，用于从有效的录音段中提取音频特征；个性化特征融合子模块，用于将提取的音频特征与被试者的个性化信息进行融合，构建病理识别模型；病理数据回归分析模块，用于根据采集的简易精神状态量表评分数据以及构建的病理识别模型对病理数据进行回归分析，得到被试者的精神状态评分。8.如权利要求7所述的面向简易精神状态量表的个性化信息和音频数据分析系统，其特征在于，所述预处理包括:对发音音频数据进行端点检测或是人工语音切分，剔除影响模型训练质量的录音音频，以及对录音音频添加不同信噪比的高斯噪声。9.如权利要求7所述的面向简易精神状态量表的个性化信息和音频数据分析系统，其特征在于，所述特征提取子模块根据神经系统失调的病理特征从有效的录音段中提取音频特征并用高阶统计量进行表征。10.如权利要求7所述的面向简易精神状态量表的个性化信息和音频数据分析系统，其特征在于，所述病理识别模型构建模块还包括特征选择子模块，用于在与被试者的个性化信息进行融合之前通过降维对高阶统计量表征的音频特征进行选择。
【文档编号】A61B5/00GK106073706SQ201610382274
【公开日】2016年11月9日
【申请日】2016年6月1日公开号201610382274.0, CN 106073706 A, CN 106073706A, CN 201610382274, CN-A-106073706, CN106073706 A, CN106073706A, CN201610382274, CN201610382274.0
【发明人】李洋, 陈辉, 张凤军, 田丰, 王宏安
【申请人】中国科学院软件研究所

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李洋;陈辉;张凤军;田丰;王宏安;
技术所有人：中国科学院软件研究所;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、司老师：1.制浆造纸 2.植物资源精细化工与化学 3.生物质精炼 4.天然产物化学
2、薛老师：1.CRISPR-Cas系统 2.基因编辑 3.基因修复 4.天然产物合成 5.单分子技术开发与应用
3、戴老师：1.天然药物（中药）合成生物学研究 2.酵母生物学与工程化研究
4、孟老师：1. 基于糖类的抗肿瘤药物的合成和活性评价及糖类疫苗的研制 2.功能糖类的化学酶法合成及构效关系研究 3.多糖及仿生材料功能的开发及应用
5、满老师：1.天然产品的提取分离与活性研究 2.天然产物活性与安全性评价 3.中药组方配伍机制研究
如您是高校老师，可以点此联系我们加入专家库。