面向脑瘫儿童的语音和面部表情数据处理方法及系统与流程

文档序号:37109998发布日期:2024-02-22 21:08阅读:105来源:国知局

本发明涉及神经网络,特别涉及一种面向脑瘫儿童的语音和面部表情数据处理方法及系统。


背景技术:

1、脑瘫(cerebral palsy),全称脑性瘫痪,是引起小儿机体运动残疾的主要疾病之一,大多数脑瘫儿童行为表达有限,难以被察觉,导致脑瘫儿童常伴有的抑郁、焦虑、悲伤和淡漠等精神心理问题被忽视,因此及时、有效的针对脑瘫儿童进行抑郁的早期筛查和干预,对改善患者康复和长期预后十分必要。

2、目前对脑瘫儿童的抑郁程度进行度量的方式主要依赖于量表,包括《力量和困难问卷》(sdq和简明婴幼儿社会情感评估表 (bitsea)等,虽然这些量表已经过一系列的临床验证具有较好的信度和效度,其仍具有以下不足:(1)主要依赖于父母或照顾者的报告,容易受到主观因素的影响。脑瘫儿童的行为表达往往有限,父母或照顾者可能无法准确地评估其情绪状态;(2)难以捕捉脑瘫儿童情绪的微妙变化;(3)评估操作相对不方便。


技术实现思路

1、基于此,本技术实施例提供了一种面向脑瘫儿童的语音和面部表情数据处理方法及系统,能够基于语音和面部表情数据对目标用户进行评分,从而辅助医生对目标用户的心理状态进行判断。

2、第一方面,提供了一种面向脑瘫儿童的语音和面部表情数据处理方法,该方法包括:

3、通过摄像头和麦克风来采集目标用户的视频和语音数据;

4、对视频和语音数据进行预处理操作;具体地对视频进行预处理操作包括采用预先训练好的mtcnn模型来识别视频中的人脸,并将检测出的人脸进行追踪及对齐,并对经过人脸追踪和对齐操作后的视频进行切片;对语音数据进行预处理操作包括对于语音数据进行切片,并将切片后的音频序列转换为对应mel语谱图;其中,语音数据每个切片的时长与视频数据每个切片的时长相同;

5、将经过预处理的视频输入到3d的cnn中、音频数据对应的mel频率谱输入到2d的cnn中使用双向注意力机制来处理视频内部和音频内部不同时间点的相关性得到目标用户的状态评分结果;其中,所述状态评分结果用以表征目标用户的心理健康状态。

6、可选地,采用预先训练好的mtcnn模型来识别视频中的人脸,并将检测出的人脸进行追踪及对齐,具体包括:

7、将每一帧的图像进行不同尺度的缩放,以构建图像金字塔;

8、对于金字塔中的每个尺度,将视频图像传递给p-net;其中,p-net是完全卷积网络;用于检测视频图像中的各种比例的人脸,其使用边界框回归向量来校准各种尺度图像上收集的候选窗口,并应用非最大抑制来过滤高度重叠的候选窗口;

9、将p-net处理后的候选窗口传递到r-net中;其中r-net包括一个密集层,并通过边界框回归进行校准,并使用非最大值抑制来合并重叠的候选窗口,r-net输出信息包括输入是否是人脸、包含人脸的边界框以及面部关键点的位置;

10、将r-net输出信息进行修正,进一步确定面部关键点特征信息;其中,面部关键点具体包括眼睛、鼻子和嘴巴;

11、根据所述面部关键点特征信息计算出对应变换矩阵,将检测到的人脸对齐到标准大小和位置;

12、遍历视频中的所有视频帧,直到完成整个视频的处理。

13、可选地,将p-net处理后的候选窗口传递到r-net中,具体包括:

14、获取候选窗口坐标和大小信息;

15、修正边界框坐标;

16、根据修正后的边界框坐标坐标,在原始测试图像上裁剪出相应的图像块;

17、对裁剪并调整大小后的图像块进行归一化操作;

18、将经过归一化操作的图像块输入到r-net中,通过r-net对图像块进行处理并预测出人脸边界框的偏移量和概率;

19、根据r-net的输出概率,筛选出具有高概率的候选窗口;

20、对保留的候选窗口应用nms算法,以过滤掉高度重叠的窗口;

21、并对通过nms筛选的边界框进行进一步的校准;其中,进一步的校准包括将边界框转换为正方形;四舍五入边界框的坐标,以获得整数值的坐标;将边界框的坐标还原到原始图像的坐标空间;最终的人脸检测结果保存在 bboxes 数组中,每个边界框包含了修正后的坐标、置信度分数和其他信息。

22、可选地,将r-net输出信息进行修正,进一步确定面部关键点特征信息,包括:

23、确定图像块大小和数量;

24、使用correct_bboxes函数修正边界框;

25、创建空的图像块数组,用于存储裁剪和调整大小后的图像块;

26、遍历每个候选窗口,在原始测试图像中复制像素值裁剪并复制对应的像素区域,使用插值法调整到指定大小,并将处理后的图像块存储进图像块数组;

27、将处理后的图像块输入到o-net中,o-net用于对图像块进行处理并预测出人脸边界框的偏移量、概率和面部关键点位置;

28、根据o-net输出的概率,筛选出具有高概率的候选窗口;

29、根据o-net的输出,更新边界框的得分,并保留这些得分;同时,取面部关键点的位置坐标;

30、使用更新后的边界框信息,计算面部关键点在原始测试图像上的坐标位置;

31、对通过概率筛选后的边界框进行进一步的校准,通常包括对边界框应用修正偏移;然后使用nms算法对保留的边界框应用非最大抑制;

32、获取面部关键点特征信息,包括了更新后的边界框信息和面部关键点位置。

33、可选地,根据所述面部关键点特征信息计算出对应变换矩阵,将检测到的人脸对齐到标准大小和位置,包括:

34、左右眼坐标提取:从输入图像中提取左眼和右眼的坐标;

35、确定旋转方向:根据左眼和右眼的坐标,确定旋转的方向;

36、计算三角形边长:通过左眼、右眼和第三个点之间的坐标差来计算三角形的边长;

37、应用余弦定理:使用余弦定理来计算旋转角度;

38、旋转图像:根据旋转方向和计算得到的角度,将输入图像旋转相应的角度;

39、返回旋转后的图像:将旋转后的图像作为函数的输出。

40、可选地,对语音数据进行预处理操作包括对于语音数据进行切片,并将切片后的音频序列转换为对应mel语谱图,包括:

41、通过预加重、分帧、加窗、短时傅里叶变换获得音频序列的频域线性谱,然后采用mel滤波器组进一步将频域线性谱转换为mel语谱图。

42、可选地,所述预加重过程具体包括:

43、通过对每个音频样本进行差分运算来实现,通过公式

44、y[n]=x[n]-α·x[n-1]

45、确定预加重后的信号;其中,x[n]是音频帧,α是预加重系数。

46、可选地,所述分帧、加窗过程具体包括:

47、将预加重后的音频信号分成短时帧;

48、将每个分帧后的音频帧会与窗函数进行逐元素相乘,其中,窗函数的公式为:

49、w[n]=0.54-0.46·cos[(2πn)/(n-1)]

50、其中,w[n]是窗函数的值,n是窗口中的样本索引,n是信号长度。

51、可选地,短时傅里叶变换获得音频序列的频域线性谱具体包括:

52、将加窗后的音频帧通过短时傅里叶变换转换成频域线性谱,并通过mel滤波器组将频域线性谱转换为mel语谱图;其中,短时傅里叶变换的公式为:

53、

54、其中,n是信号长度; x[n]是加窗后的音频帧;w[n]是窗函数,ω是离散时间信号的频率,是复指数项,表示信号在频域上的变化。

55、第二方面,提供了一种面向脑瘫儿童的语音和面部表情数据处理系统,该系统包括:

56、采集模块,用于通过摄像头和麦克风来采集目标用户的视频和语音数据;

57、处理模块,用于对视频和语音数据进行预处理操作;具体地对视频进行预处理操作包括采用预先训练好的mtcnn模型来识别视频中的人脸,并将检测出的人脸进行追踪及对齐,并对经过人脸追踪和对齐操作后的视频进行切片;对语音数据进行预处理操作包括对于语音数据进行切片,并将切片后的音频序列转换为对应mel语谱图;其中,语音数据每个切片的时长与视频数据每个切片的时长相同;

58、评分模块,用于将经过预处理的视频输入到3d的cnn中、音频数据对应的mel频率谱输入到2d的cnn中使用双向注意力机制来处理视频内部和音频内部不同时间点的相关性得到目标用户的状态评分结果;其中,所述状态评分结果用以表征目标用户的心理健康状态。

59、本技术实施例提供的技术方案带来的有益效果至少包括:

60、本技术实施例提供的技术方案中首先通过摄像头和麦克风来采集目标用户的视频和语音数据;然后对视频和语音数据进行预处理操作;包括识别视频中的人脸,并将检测出的人脸进行追踪及对齐进行切片;对于语音数据进行切片,并转换为对应mel语谱图;最后将经过预处理的视频输入到3d的cnn中、音频数据对应的mel频率谱输入到2d的cnn中使用双向注意力机制来处理视频内部和音频内部不同时间点的相关性得到目标用户的状态评分结果。可以看出,本发明的有益效果在于:用户可以轻松访问得到的抑郁评分,以更好地了解被测对象情感状态;也可以分享给医疗专业人员,以帮助制定干预计划和治疗方案。

当前第1页1 2 
当前第1页1 2 
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!
1