一种基于语音特征的可穿戴设备监测心理健康方法与流程

文档序号:14656510发布日期:2018-06-12 05:04阅读:392来源:国知局

本发明属于人体心理健康监测技术领域,更为具体地讲,涉及一种基于语音特征的可穿戴设备监测心理健康方法。



背景技术:

一个人的情绪很容易通过语言、声音、行为和体征等信息客观地反映,而一个人心理健康程度往往又和个人长时间的情绪有关,特别是包含各种语音特征的语音信号可以作为个人情感表达的一个重要的客观评定标准。基于可穿戴设备的心理健康监测可以通过语音、行为、环境和体征信息的变化,长时间客观地放映个人心理活动的微弱变化,一些研究者已经证明这是一种监测个人心理健康行之有效的手段。

目前,对心理健康评定的主流方法还是通过问卷调查表的形式或者直接咨询权威的心理辅导医生。在这些主流的方法中,存在的最大的问题是心理疾病患者在参与的过程中存在很大的主观性。医护人员很难对心理疾病患者做提前预防治疗,即在心理疾病刚发生或者即将发生的时候,提醒患者及时去专业的心理治疗机构诊治。但基于可穿戴设备的心理健康装置可以在客观监测被测者心理活动的情况下,在被测者心理活动较长时间出现波动时,及时提醒被测者进行专业的心理健康诊断和康复治疗。

当代大学生的学习、生活和就业的各种压力日益显著,容易产生各种负面情绪,从而导致各种心理健康问题和心理疾病,比如抑郁症,焦虑症,自闭症等。很多具有心理疾病的大学生往往不会主动寻求帮助和咨询专业心理辅导老师或医生,这让大学生心理障碍和疾病的发生率高居30%左右,为了降低大学生心理障碍或疾病的发病率,客观监测大学生的心理活动,寻求一种长时间客观监测心理健康的方法具有重要的意义,这种方法并能够在发现被测者已经具有微弱心理障碍的表征时,及时提醒该患者进行进一步医治。

虽然市场上已经出现了一些针对青少年身心健康的可穿戴设备,但大部分都是对行为活动粗略的检测,很少涉及与心理活动相关的语音、环境、体征信息的收集,更没有针对保护隐私的语音信号长期进行监测的可穿戴式设备。而且大多数可穿戴设备都是运动型的可穿戴设备,几乎没有专门针对心理健康监测和评估的可穿戴设备。

从以上分析可以看出,现有的心理健康监测方法存在较大的个人主观因素,而且实施过程也不太方便,另一个方面,大学生心理健康监测的需求迫切,寻求一种适合大学生心理健康监测的客观方法是很有必要的,如果能在利用语音信号长时间监测大学生心理健康的同时还能够对被测者的个人隐私进行一定保护就更好了。



技术实现要素:

本发明的目的在于克服现有技术的不足,提供一种基于语音特征的可穿戴设备监测心理健康方法,通过可穿戴设备对佩戴者的语音特征进行提取,从而来判断佩戴者的心理健康,具有客观性,实施方便,监测时间长,在某种程度上还能保护个人隐私等特点。

为实现上述发明目的,本发明一种基于语音特征的可穿戴设备监测心理健康方法,其特征在于,包括以下步骤:

(1)、获取原始语音信号

通过可穿戴设备上的两个MEMS硅晶麦克风采集左右声道的音频信号,然后将采集到的音频信号输入到音频编码芯片,通过音频编码芯片将音频信号转换为离散音频信号,再将离散音频信号输入至微控制器,通过微控制器将离散音频信号保存于SD卡中;

(2)、从SD卡中读取离散音频信号并进行语音特征提取

(2.1)、离散音频信号预处理

将离散音频信号进行分帧处理,共计分成M段,每段离散音频信号中设置N个采样点;

(2.2)、语音特征提取

(2.2.1)、提取短时能量

对每一段离散音频信号进行加窗处理,得到音频信号yi,再通过浮点计算单元计算每段音频信号yi的短时能量E(i);

其中,E(i)为第i段离散音频信号的短时能量;

(2.2.2)、提取短时谱熵

将每一段离散音频信号进行FFT运算,得到N个频率分量fn,n=0,1,…,N-1;

计算每一段离散音频信号的谱概率密度pi(n):

其中,pi(n)为第i段离散音频信号的第n个频率分量fn对应的概率密度,Yi(n)为第n个频率分量fn的能量谱;

计算第i段离散音频信号的短时谱熵Hi:

(2.2.3)、提取语音亮度

其中,Bi为第i段离散音频信号的语音亮度,wn为第n条谱线对应的频率大小,yn为第n条谱线频率分量对应能量谱的值;

(2.2.4)、提取语音共振峰

1)、对每一段离散音频信号xi(n)进行离散傅里叶变换;

2)、对Xi(k)取幅值后再进行对数运算;

3)、对进行离散傅里叶反变换,计算出倒谱序列;

4)、在倒频率轴上设置一低通窗函数window(n);

5)、将低通窗函数window(n)与倒谱序列相乘;

6)、把hi(n)进行离散傅里叶变换,得到Xi(k)的包络线;

7)、对计算得到的包络线Hi(k)求极大值,其极大值点为对应的语音共振峰;

(3)、心理健康的判定

对步骤(2)提取的语音特征进行离线分析,计算出四个语音特征的平均值,然后对平均值进行加权求和,得到离线分析结果R;

其中,λ1,λ2,λ3,λ4分别对应平均能量平均谱熵平均亮度和平均共振峰求和时的权值;

再利用离线分析结果R与语音特征阈值做比较,如果低于语音特征阈值,则表示佩戴者出现心理健康问题,反之则表示佩戴者心理健康,如果离线分析结果R在语音特征阈值的±20%范围外,则表示佩戴者不良情绪非常严重;

(4)、SD卡初始化

待步骤(1)~(3)结束后,SD重新初始化,删除已完成语音特征处理后的原始离散语音信号,从而保护被测者的个人隐私。

本发明的发明目的为:

本发明一种基于语音特征的可穿戴设备监测心理健康方法,先利用MEMS硅晶麦克风采集左右声道的音频信号,利用音频专用传感器WM8978对左右声道的语音信号进行放大和ADC转换,传输给可穿戴设备上的微控制器STM32F405,接着将原始语音信号按照WAV格式保存为语音文本,接着利用微控制器STM32F405的DSP离散数据信号处理模块对语音文本进行短时能量、谱熵、语音亮度和共振峰这4个语音特征进行语音特征提取,在语音特征提取算法运行完后进行离线分析,从而判断佩戴者的心理健康,最后再删掉原始语音文本文件,这样不仅可以客观地监测出佩戴者的心理健康变化情况,还可以保护其在长时间监测过程中的个人隐私。

同时,本发明一种基于语音特征的可穿戴设备监测心理健康方法还具有以下有益效果:

(1)、基于语音特征的心理健康监测方法适用于对被测者长时间实时监控,自动在可穿戴设备上进行语音特征处理,不用在电脑上进行这些复杂的计算,而且还具有保护个人隐私的功能。

(2)、本发明利用分段保存机制对语音特征进行保存,在长时间的心理健康监测过程中,有利于数据的保存,防止特征数据因为意外情况受损或丢失,而且利用嵌入式实时系统,实现了数据的采集、语音特征的提取和数据的保存同步进行。

附图说明

图1是本发明基于语音特征的可穿戴设备监测心理健康方法流程图;

图2是图1所示提取共振峰的流程图;

图3是可穿戴设备进行语音特征提取算法和Matlab仿真计算对比图;

图4是可穿戴设备进行语音特征提取算法误差分析图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。

实施例

图1是本发明基于语音特征的可穿戴设备监测心理健康方法流程图。

在本实施例中,被测对象主要是在校大学生,以可穿戴设备为载体,监测穿戴者长时间的语音、行为、环境和体征信息,最主要的是对与心理健康相关的语音信号进行监测,并在可穿戴设备上实时提取语音特征;如图1所示,本发明一种基于语音特征的可穿戴设备监测心理健康方法,包括以下步骤:

S1、获取原始语音信号

通过可穿戴设备上的两个MEMS硅晶麦克风采集左右声道的音频信号,然后将采集到的音频信号输入到音频编码芯片,通过音频编码芯片将音频信号转换为离散音频信号,再将离散音频信号输入至微控制器,通过微控制器将离散音频信号保存于SD卡中;

S2、从SD卡中读取离散音频信号并进行语音特征提取

S2.1、离散音频信号预处理

如图1所示,从SD卡中读取离散音频信号,再将离散音频信号进行分帧处理,在本实施例中,一段10分钟的离散音频信号分成M=17545段,每段音频大概在30ms左右,每段离散音频信号中设置N=256个采样点;

S2.2、语音特征提取

S2.2.1、提取短时能量

对每一段离散音频信号增加一个海宁窗,得到音频信号yi,再通过浮点计算单元计算每段音频信号yi的短时能量E(i);

其中,E(i)为第i段离散音频信号的短时能量;

这样,可穿戴设备会计算出每一段离散音频信号的短时能量语音特征,短时能量实质是时域特征,表示长时间语音信号在时域中的能量变化,这个特征与心理健康监测的被测对象的语言使用度及其相关。

计算的原始语音信号如图3中的(a)所示,仅截取了实施例中部分时间图,大约为4分钟左右的离散音频信号,其中,左边是穿戴者激动表达时的语音信号,中间是穿戴者停顿表达时的语音信号,右边是穿戴者连续表达时的语音信号。如图3中的(b)所示,在matlab和可穿戴设备计算一段原始语音信号的短时能量的对比图中可以看出,当被测者激动表达的时候,matlab和可穿戴设备计算的短时能量波动比较明显,而且某一时刻短时能量特别高;当被测者停顿表达时,matlab和可穿戴设备计算的短时能量部分时间接近于0,只有说话的那段时间才有短时能量;当被测者连续语言表达时,matlab和可穿戴设备计算的短时能量大部分时间在10左右,而且短时能量的波动没有激动表达时那么强烈。同时可以从图3中的(b)看出matlab和可穿戴设备计算的短时能量几乎是一样的,为了验证可穿戴设备计算短时能量的正确性,进行了误差计算,如图4中的(a)所示,可以看出可穿戴设备计算短时能量的相对误差为1×10-4左右,而且在激动表达的时候误差稍大,但停顿表达和连续表达时误差的波动还是较小。

S2.2.2、提取短时谱熵

将每一段离散音频信号进行FFT运算,得到N个频率分量fn,n=0,1,…,N-1;

计算每一段离散音频信号的谱概率密度pi(n):

其中,pi(n)为第i段离散音频信号的第n个频率分量fn对应的概率密度,Yi(n)为第n个频率分量fn的能量谱;

计算第i段的短时谱熵Hi:

一个系统越有序,其熵就越低,反之,一个系统越是混乱,熵就越高,所以语音谱熵特征主要能够表征穿戴者的情绪波动情况,如果情绪波动越大,谱熵就会越高,如果情绪波动越小,谱熵就会越低。

如图3中的(c)所示,在matlab和可穿戴设备计算一段原始语音信号的谱熵的对比图中可以看出,当被测者激动表达和停顿表达时,谱熵的波动比较明显,而且大部分时间谱熵较低,但当被测者连续表达的时候,谱熵值波动不是特别明显,而且较大;同时也可以从此图看出matlab和可穿戴设备计算的谱熵基本是一样的。谱熵的误差分析如图4中的(b)所示,可穿戴设备计算谱熵的相对误差为6×10-5左右,而且不管是激动表达,停顿表达还是连续表达,可穿戴设备计算的相对误差的波动都比较小。

S2.2.3、提取语音亮度

语音的亮度是与情绪相关度比较高的一个语音特征,其实质是能量频谱的质心,具体计算公式定义如下:

其中,w是频谱分量相对应的频率,F(w)为对应频率的幅值大小,w0表示能量频谱的截止频率。

在可穿戴设备中,由于把原始语音信号进行了数字化,上述公式可以转换为离散型,其计算公式如下所示:

其中,Bi为第i段离散音频信号的语音亮度,wn为第n条谱线对应的频率大小,yn为第n条谱线频率分量对应能量谱的值;

语音亮度主要通过能量谱的质心和佩戴者的焦虑、紧张、高兴等心理情绪建立关系,已有大量的相关论文证明了语音亮度能够客观地反应一个人的情绪变化。

如图3中的(d)所示,在matlab和可穿戴设备计算一段原始语音信号的语音亮度的对比图中可以看出,当被测者激动表达时,亮度大部分时间比较高,小分部时间又特别低,而且亮度的波动特别大;当被测者停顿表达时,没有说话时亮度几乎为零,但亮度会随着说话声慢慢变大;当被测者连续表达时,亮度的平均值在2000左右,不高也不低,并且波动比激动表达和停顿表达时的波动都小。从图3中的(d)中还可以看出matlab和可穿戴设备计算一段原始语音信号的语音亮度也几乎一样,进一步地,在如图4(c)所示的可穿戴设备计算语音亮度的误差图中,不难看出可穿戴设备计算语音亮度的相对误差在5×10-3左右,而且不管是激动表达,停顿表达还是连续表达,可穿戴设备计算的相对误差的波动都比较小。

S2.2.4、提取语音共振峰

语音共振峰的提取算法有倒谱法、LPC法和HHT变换法,可穿戴设备使用的是计算量小、易于实现的倒谱法。

如图2所示的倒谱法计算共振峰的过程图,首先对原始语音信号进行预处理、预加重、加窗和分帧,然后对处理后的数据进行快速离散傅里叶变换,对变换后的数据进行取对数运算,进一步地,对对数运算后的数据进行离散傅里叶反变换处理,然后对反变换的数据设置一个低通窗函数进行低通滤波处理,最后在对滤波的数据进行离散傅里叶变换得到原始信号的包络线,对包络线取极大值就能得到一帧原始数据的共振峰,任意一帧原始语音数据的共振峰个数一般在2~5个。

下面我们对具体的提取过程进行描述:

1)、对每一段离散音频信号xi(n)进行离散傅里叶变换;

2)、对Xi(k)取幅值后再进行对数运算;

3)、对进行离散傅里叶反变换,计算出倒谱序列;

4)、在倒频率轴上设置一低通窗函数window(n);

其中,n0是低通窗函数控制系数;

5)、将低通窗函数window(n)与倒谱序列相乘;

6)、把hi(n)进行傅里叶变换,得到Xi(k)的包络线;

7)、对计算得到的包络线Hi(k)求极大值,其极大值点为对应的语音共振峰;

语音信号的共振峰是指在声音的频谱中能量相对集中的一些区域,共振峰不但是音质的决定因素,而且反映了声道(共振腔)的物理特征。共振峰主要表征的是一帧原始信号主要能量分布的频率点,在一个人语音信号的基频一定的情况下,共振峰能够客观地放映环境声音对穿戴者心理变化的影响,同时还能表征穿戴者自身受自身生理如鼻孔、咽腔、口腔大小的影响对应共振峰区的变化。可穿戴设备通过共振峰的变化反映咽喉、嘴形等生理变化,进一步地反应穿戴者的心理健康状态。

如图3中的(e)所示,在matlab和可穿戴设备计算一帧原始语音信号的共振峰的对比图中可以看出,matlab计算得出了4个共振峰,而可穿戴设备计算得到了3个共振峰,可穿戴设备计算共振峰特征时可能在平坦的包络线上丢失一个共振峰,此图中可以看出丢失了1500Hz处的共振峰,但实际情况中,这种特殊例子特别少。同样地,为了验证可穿戴设备计算共振峰的正确性,在如图4中的(d)所示的图中进行了共振峰的误差分析,在此图中可以看出可穿戴设备计算共振峰对应频率的相对误差为10Hz左右,当被试者激动表达,停顿表达和连续表达时,可穿戴设备计算共振峰的相对误差的波动都差不多,而最大的误差出现在停顿表达和连续表达之间的过度时间内。

S3、心理健康的判定

对佩戴者长时间监测得到的语音特征进行离线分析,和之前通过心理问卷调查表逻辑回归确定的语音特征阈值做比较,如果低于这个阈值,说明佩戴者可能有焦虑、自闭、抑郁、消极、暴躁等心理问题,如果离线分析值与这个阈值相差越大,不良情绪可能越严重。

离线分析方法为:计算出四个语音特征的平均值,然后对平均值进行加权求和,得到离线分析结果R;

其中,λ1,λ2,λ3,λ4分别对应平均能量平均谱熵平均亮度和平均共振峰求和时的权值;

再利用离线分析结果R与语音特征阈值做比较,如果低于语音特征阈值,则表示佩戴者出现心理健康问题,反之则表示佩戴者心理健康,如果离线分析结果R在语音特征阈值的±20%范围外,则表示佩戴者不良情绪可能越严重;

在本实施例中,权重λi针对不同的个体和想监测的心理状态可能要有一些细微的调整,但默认情况下一般取λ1和λ2为0.2,取λ3为0.5,取λ4为0.1;因为每帧的共振峰一般有2~5个,其有效值是频率值,不能让共振峰的权重太大,固取值为0.1,而亮度已有大量相关论文已经证明其与人的心理状态和情绪波动具有强相关性,所以权值取为0.5,能量和谱熵分别是时域和频域的语音特征,所以权值各取0.2。

比较阈值的确定:阈值主要是通过大量的实验得到的经验值。对100左右的人群进行焦虑分析实验,对他们心理问卷调查表和实际语音特征进行逻辑回归,得到了高焦虑分数对应上述加权求和的离线语音特征,然后这些离线语音特征对实验人群进行分类,把这个分类正确率最高的离线语音特征值作为比较阈值。实际实验得到的经验值为210左右,所以阈值可以取为210,但根据要监测的心理障碍或心理状态的不同,这个阈值应该进行微调,而且实验发现完全安静和禁止的情况下(无人佩戴可穿戴设备),离线分析的语音值为150左右。

S4、SD卡初始化

待步骤S1~S3结束后,SD卡初始化,删除已完成语音特征处理后的原始离散语音信号,从而保护被测者的个人隐私。

尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1