基于非社会性声音刺激行为范式的孤独症初级筛查装置的制作方法

文档序号:17076049发布日期:2019-03-08 23:45阅读:547来源:国知局
基于非社会性声音刺激行为范式的孤独症初级筛查装置的制作方法

本发明涉及多媒体音视频处理领域,尤其涉及到一种基于非社会性声音刺激行为范式的孤独症初级筛查装置,基于语音处理,计算机视觉,采集被试观测人的面部,眼神以及手势信息并加以分析,以评估孤独症谱系障碍风险系数的早期筛查装置。



背景技术:

孤独症谱系障碍(autismspectrumdisorder,asd),是一种神经发育性疾病。患者的表现包括社交沟通障碍,重复刻板行为,狭隘兴趣等,医护人员需要对每个疑似患者从行为外表型方面进行判断。虽然现有的asd评估方法非常有效,但却费时费力,对医学素养和临床经验都有较高要求,评估结果具有一定的主观性。现在最广泛应用的测量方法包括孤独症诊断观察量表(autismdiagnosticobservationschedule,ados)等。

这些基于asd的通用判断指标,可以程序化地对疑似病患进行初步的诊断,而这种程序化就使计算机技术应用于自闭症诊断成为了可能。在评判疑似病患是否患有asd时,会综合考量受测试者的叫名反应、指物反应、跟随现象等,最后根据医生的治疗经验给出最终结果。在计算机方面,可以在各个项目给受测者打分,然后通过数据科学的方式结合各项得分来预测受测者患asd的风险系数。在这一过程中选取合适高效的算法,就能够替代医生的经验,让计算机来完成自动化的儿童asd早期筛查。

使用语音处理及计算机视觉技术来辅助医生和家长对疑似asd儿童进行自动化早期筛查,主要通过摄像头与识别算法分别从面部、目光和手部动作三个方面综合考量儿童在自闭症诊断中指物反应这一环节的表现,进而为最后儿童的确诊提供计算机技术上的支持。但是,儿童离摄像头的距离较大,使得眼睛,手势,甚至是整个受测儿童在视频的画面中占据的面积较小,怎样在这样的数据中提取出较为准确的信息并以此评估患asd的风险系数,是一个具有挑战性的问题。



技术实现要素:

针对上述现有技术存在的问题,本发明的目的在于提供一种基于非社会性声音刺激行为范式的孤独症初级筛查装置。本发明以评估儿童对非社会性声音刺激及医生的指令作出的行为反应来预测其患有孤独症谱系障碍的风险系数,可用于孤独症早期筛查。

为实现上述目的,本发明是根据以下技术方案实现的:

一种基于非社会性声音刺激行为范式的孤独症初级筛查装置,其特征在于,包括:

采集模块:用于吸引儿童注意力的可控制发声物体,控制发声物体发声的遥控器以及摄像头,用以采集参与实验儿童对非社会性声音刺激及医生指令的行为反应的音视、视频数据;

预处理模块:采用语音活动检测处理音频数据,检测发声物体开始发声的时间,并以此为起始端点截取视频数十秒后的内容,作为视频分析数据;

特征提取模块:对视频数据逐帧分析处理,获取面部、眼神和手势的特征;

训练分类模块:利用已获得的特征训练分类器,得到预测asd的分类器模型;

预测模块:采用特征提取模块计算出的面部、眼神以及手势特征对测试者的asd进行评估预测。

上述技术方案中,所述特征提取模块包括正脸检测单元、目光追踪单元、手势检测单元;所述正脸检测单元对已提取的视频数据,检测儿童的正脸,得到面部特征,若儿童看向该发声物体,并被发声物体旁的摄像头检测到正脸,将再针对面部区域生成一个只包含面部的较小窗口,作为后续图像分析数据;所述目光追踪单元对已提取的正脸图像数据,进一步判断目光是否集中在物体上,得到眼神特征;所述手势检测单元对视频数据逐帧分析,定位实验人员位置,剔除背景色彩,对手部进行定位并切分出手部图片数据,对已提取的数据进行训练得到手势分类器模型,在此模型的基础上检测手势指向,得到手势特征。

上述技术方案中,所述手势检测单元通过以下步骤完成定位儿童的手在视频每一帧画面中的位置,其包括:

步骤s1:使用训练好的基于图像的目标检测与识别算法模型将医生与受测儿童在图像中的位置提取出来获取到医生和受测儿童的位置;

步骤s2:根据人的皮肤色彩范围,保留画面中的色彩度处于这个范围的部分,并将范围之外的区域置黑,从而做到将画面按照色彩值过滤,完成背景色彩剔除;

步骤s3:使用基于haar特征的级联分类器进行最终定位,其中级联分类器由若干个弱分类器级联而成,在构建弱分类器时,检测窗口在画面中由左向右、由上至下滑动,每个滑动窗口判断一种特征并计算结果数值,得到结果后与阈值做比较以判断该窗口是否符合此特征并进行分类,当窗口内的图像顺利通过分类器的检验,认为该窗口内就是预期的目标。

上述技术方案中,所述训练分类模块使用监督学习分类器对已标记的特征进行训练分类。

上述技术方案中,所述预测模块分别采用有监督学习分类器方法和加权相加方法来预测孤独症的风险系数。

本发明与现有技术相比,具有如下优点:

本发明提出了基于机器学习的框架,通过采集实验人员的音视频数据,提出了以分析面部,眼神和手势特征以预测asd的软硬件一体化装置。相比于传统的ados评估方法,本发明提出的方法有显著的客观性以及不需要有经验的医生的参与。虽然本发明提出的装置并不能完全替代传统的asd诊断方法,但它能被视作一个asd风险系数评估的辅助装置,使得早期的asd筛查更加准确与方便。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。

图1是本发明基于机器学习的孤独症初级筛查装置的总框架结构图;

图2是指物反应的流程示意图;

图3是采集场地的布局示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。

本发明针对传统的asd诊断方法的人工成本高、诊断周期长且主观性较高,通过量化指物反应中的各项指标,提取测试人的面部,眼神和手势特征,并根据这些特征训练数据,从而评估孤独症谱系障碍的风险系数,从而能够对asd进行早期筛查,减少人工成本,节省了大量的时间。

如图1所示,本发明的的基于非社会性声音刺激行为范式的孤独症初级筛查装置,包括:

采集模块:用于吸引儿童注意力的可控制发声物体,控制发声物体发声的遥控器以及摄像头,用以采集参与实验儿童对非社会性声音刺激及医生指令的行为反应的音视、视频数据;

具体地,实验人员与医护人员位于实验场地中心,在实验人员的非正面但余光可见(斜前方)的位置放置一个摄像头,摄像头正上方悬挂一个可以遥控发声的飞机外形玩具,医护人员可控制玩具发声。摄像头录制实验全过程,作为原始数据。

在本实施例中,asd行为分析数据的实验人员为115个儿童,包括58个确诊为孤独症的儿童和57个正常儿童,这些儿童年龄分布在24~48个月,具有充足的行为反应能力。对于每一个参与实验的儿童,都会经历一次完整的指物反应测试流程,其流程图如图2所示。图3描述了采集场地的布局格式。

预处理模块:采用语音活动检测处理音频数据,检测发声物体开始发声的时间,并以此为起始端点截取视频数十秒后的内容,作为视频分析数据;

在本实施例中,使用基于能量的语音活动检测(voiceactivitydetection,vad)算法,检测玩具发声的时刻,并记录为实验开始阶段,截取视频数十秒的视频内容,作为后续待处理的音视频数据。

特征提取模块:对视频数据逐帧分析处理,获取面部、眼神和手势的特征;

本发明的特征提取模块包括正脸检测单元、目光追踪单元、手势检测单元;所述正脸检测单元对已提取的视频数据,检测儿童的正脸,得到面部特征,若儿童看向该发声物体,并被发声物体旁的摄像头检测到正脸,将再针对面部区域生成一个只包含面部的较小窗口,作为后续图像分析数据;所述目光追踪单元对已提取的正脸图像数据,进一步判断目光是否集中在物体上,得到眼神特征;所述手势检测单元对视频数据逐帧分析,定位实验人员位置,剔除背景色彩,对手部进行定位并切分出手部图片数据,对已提取的数据进行训练得到手势分类器模型,在此模型的基础上可以较为准确的检测手势指向,得到手势特征。

具体地,本发明的正脸检测单元使用dlib库(http://dlib.net/)方法来实现面部的正面检测。dlib人脸定位在未优化的情况下,会出现许多图像中的侧脸无法检测到的情况,正好可以利用这一特性来筛除掉儿童侧面对摄像头的情况。接着,对已识别出的正脸,针对其面部区域再生成一个只包含面部的较小窗口,作为后续图像分析数据。

具体地,本发明的目光追踪单元采用端到端的卷积神经网络进行训练并能够在手机上得到较为精确的效果,但由于实验采用普通独立摄像头来采集数据,需修改判定受测儿童正视摄像头的条件。不考虑目光的纵坐标,在横坐标的选取上结合实际情况,即受测儿童处于画面的左侧,因此将目光正视的判定条件右移。本实验中选取了[-9,1]这个区间,即仅当-9<=x<=1的时候可以认为受测儿童直视了摄像头,也即目标物体。

本发明的手势检测单元通过以下步骤完成定位儿童的手在视频每一帧画面中的位置,其包括:

步骤s1:使用训练好的yolo(youonlylookonce)算法模型将医生与受测儿童在图像中的位置提取出来获取到医生和受测儿童的位置;等同于分别获得了两张子图,原本画面中其余的背景等信息就可以被过滤掉。此外,本发明还可以采用fastregion-basedconvolutionalnetworkmethod(fastr-cnn)算法。

步骤s2:根据人的皮肤色彩范围,保留画面中的色彩度处于这个范围的部分,并将范围之外的区域置黑,从而做到将画面按照色彩值过滤,完成背景色彩剔除;

此外,尽管找到每帧画面中人的位置能够去除掉很多背景信息,但是由于人的身体和紧靠这身体的背景依然存在,仍然无法实时地定位到手部。为了能够再去除掉上述干扰,可利用肤色来做进一步的过滤操作。

在对人体皮肤颜色的分离时,可采用呈锥型的hsv(hue,saturation,value)空间而非rgb空间。根据hsv空间的统计结果,人类的皮肤色彩范围在9<=h<=15,50<=s<=255,50<=v<=255之中,根据这一界定范围,保留画面中的色彩度处于这一范围的部分,并将不属于这一范围的区域置黑,从而做到将画面按照色彩值过滤。

步骤s3:使用基于haar特征的级联分类器进行最终定位,其中级联分类器由若干个弱分类器级联而成,在构建弱分类器时,检测窗口在画面中由左向右、由上至下滑动,每个滑动窗口判断一种特征并计算结果数值,得到结果后与阈值做比较以判断该窗口是否符合此特征并进行分类,一个弱分类器就足够被构建来做弱分类。将若干个弱分类器结合起来,形成一种树状的级联结构,由此建成一个强分类器。当窗口内的图像顺利通过这个强分类器的检验即最后得到了一个正结果时,程序就认为此窗口内就是我们想要的目标。该分类器能够对手势进行分类,从而选出指向目标物体的手势。

定位并切分出手部图片数据后,所述手势检测单元采用微软出品的开源深度学习工具包(computationalnetworktoolkit,cntk)工具来做迁移学习,并使用resnet_18作为基础的深度模型。实际情况中可以切除掉该模型中的最后一层特征,并使用采集数据训练的卷积层替换该层特征。在成熟的模型基础上做修改,可以避免对庞大数据的需求。只需使用数百个图像数据作为训练集,即可训练出表现理想的迁移学习分类器。

其中,基于haar特征的级联分类器能够在一个图像区域内用分类的方法找到与标签为正的数据类似的物体,这是一个常用的图像物体定位算法。我们基于此项目使用的数据建立分类器能够有效地剔除图像中的人的面部以及其他区域。这个算法中使用到了两个重要特征:haar特征和级联分类器。

haar特征是一种反映图像的灰度变化的,像素分模块求差值的一种特征,它分为:边缘特征、线性特征、中心特征和对角线特征,在计算机视觉技术中被广泛使用。haar特征包含了三种算子:边算子、线算子以及矩形算子,这些算子内都包含两个对称区域,通过将一个区域内的像素和与另一个区域内的像素和相减可以得出这整个算子的值。使用haar特征能够避免程序直接对单位像素进行操作,以此提升整个程序的运算速率。另外,为了加速计算过程,可使用积分图的计算方法,该方法在遍历图像矩阵的时候,记录了每个点到原点构成的子矩阵的像素和,这样在后续步骤中计算任意一个子矩阵的像素和时所需要的时间复杂度就极大地降低。

但是在实际应用中,除了提取面部,眼神和手势信息,还可以加入两个记录时间的连续变量,即从环节开始到受测儿童注意力到目标物体上的反应时间和从儿童注意力在目标物体上到注意力从目标物体上转移的持续时间。共5个特征,作为训练模型的数据。

训练分类模块:利用已获得的特征训练分类器,得到预测asd的分类器模型;本发明训练分类模块使用支持向量机对已标记的特征进行训练分类。

本发明训练分类模块使用有监督学习分类器对已标记的特征进行训练分类,监督学习分类器包括支持向量机、逻辑回归、k近邻、神经网络等。

在本实施例中,使用支持向量机(supportvectormachine,svm)对已标记的特征进行分类。线性svm从训练数据中学习到了一个边界,使得两种不同类别的特征区分度尽可能大。但本实施例中得到的特征并不是线性可分的,所以本实施例中使用核svm,通过引入一个非线性的边界来区分特征。

预测模块:采用特征提取模块计算出的面部、眼神以及手势特征对测试者的asd进行评估预测。

本发明的预测模块分别采用svm方法和加权相加的方法来预测孤独症的风险系数。

所述预测模块分别采用有监督学习分类器方法和加权相加方法来预测孤独症的风险系数。同样的,监督学习分类器包括支持向量机、逻辑回归、k近邻、神经网络等。

使用svm方法时,采用由训练分类模块获取的预测asd的模型对测试者进行测试,预测其患孤独症的风险系数。

使用加权相加的方法时,打分已经处于标准化的范围之内,即以0-2的分数来评判受测儿童表现的好坏程度。由于这些特征均处于同一个数量级甚至于同一个范围,可以直接将各项特征的得分做加权相加,根据在开发集上的效果来调整权重系数,将得到的结果与事先设定的阈值进行比较,从而得到其患孤独症的风险系数。

本发明的实验设置为:

1:获取测试数据与训练数据。

具体地,采用交叉比对策略,即按照顺序依次选择每一个个体的数据作为测试数据,同时把其余参与者的数据作为训练数据。

2:预测方法。

除了svm之外,直接将各项特征的得分做加权相加,将得到的结果与事先设定的阈值进行比较,也可以预测儿童患asd的风险系数。

3:评估基准

正脸检测准确率:准确检测出转头与否的人数与总人数的比值。

眼神检测准确率:准确检测出眼神注释在目标物体与否的人数与总人数的比值。

手势检测准确率:准确检测出手指向目标物体与否的人数与总人数的比值。

asd风险系数评估准确率:准确预测出患asd风险较高的人数与真实确诊asd儿童数量的比值。

本实验的实验结果如表1所示:

表1

本发明较好的验证了依据指物反应,经过一系列特征提取,可以达到较好的预测结果72%。

虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1