一种基于自适应图卷积的步态情感识别方法与流程

文档序号:26008532发布日期:2021-07-23 21:27阅读:364来源:国知局
一种基于自适应图卷积的步态情感识别方法与流程

本发明涉及情感识别领域,尤其涉及一种基于自适应图卷积的步态情感识别方法。



背景技术:

随着人工智能技术的发展,机器能否理解人类情感引起广泛关注,由此情感识别任务也逐渐成为研究的热点。用于情感识别研究的数据种类有很多,大多数研究采用面部图片、文本、语音、生理信号的数据,近期的一些研究使用步态信息进行情感识别。步态信息相比其他模态数据有着更难以模仿、远距离可观察、不需要被测人很高的参与度等优势,有着更高的实际应用价值。

目前基于步态的情感识别相关方法通过人体骨架关节点坐标的时间序列表征步态,通过传统机器学习方法或深度学习的方法进行特征提取并根据特征进行情感预测。人体骨架关键点的时间坐标序列获取方式一般有两种:一种是采用成熟的人体姿态评估算法从步态视频中提取,另外一种是在参与者身上安装追踪标记并通过相应的检测设备获取各标记点的坐标信息。现有大多数基于步态的情感识别方法采用传统机器学习技术,坐标信息经过处理后,从中提取并筛选有效的相关特征,例如关节点速度、加速度等,最后通过支持向量机、朴素贝叶斯、随机森林、决策树等经典的分类算法进行情感分类。除此之外,少部分方法采用深度学习技术,通过深度神经网络自动学习和提取情感相关特征并进行分类。采用的深度学习技术主要包括长短期记忆(longshort-termmemory,lstm)、时空图卷积(spatialtemporalgraphconvolutionalnetworks,st-gcn)网络模型。randhavane等人采用长短期记忆(lstm)网络模型,将步态序列按照时间顺序输入到lstm中对应的时间步(time-step),利用步态数据的时间信息来提取步态特征;bhattacharya等人提出了以时空图卷积(spatialtemporalgraphconvolutionnetworks,st-gcn)为基本模块搭建的step(spatialtemporalgraphconvolutionalnetworksforemotionperception)网络模型,通过构建骨架时空图从而生成图的拓扑结构,从时间、空间两个维度分别对步态时序信息进行图卷积操作,以获取步态信息的时空特征;zhuang等人对时空图卷积进行了改进,基于情感识别任务特点提出了从步态的整体状态感知情绪的globallink,globallink与原始的图结构结合构成了新的骨架时空图,并进一步基于此提出了全局图卷积网路(global-graphconvolutionnetwork,g-gcn)。以上两个方法是基于先验知识等,手工设计出的固定的图结构,会忽略除固定的图结构之外的节点间的依赖关系,使得特征传递和特征提取都不够充分。

本发明基于步态的情感识别问题,创新提出了自适应骨架时空图,并进一步提出了自适应图卷积网络,基于自适应的图结构进行自适应卷积操作来更有效地提取出与情感相关的步态特征。



技术实现要素:

本发明目的在于针对现有技术的不足,提出一种基于自适应图卷积的步态情感识别方法,本发明创新提出了可训练链接(trainablelink),与手工设计的图结构共同构成自适应的骨架时空图。手工设计的图结构包括人体骨架物理结构的自然链接naturallink和全局链接globallink。可训练链接通过网络训练可以挖掘手工设计的固定的图结构之外节点之间的依赖关系,随着网络的优化构建更恰当的的图结构,与手工设计的图结构互为补充。此外,基于自适应图提出了自适应图卷积网络,以更充分、更有效地提取情感相关的步态特征。

本发明的目的是通过以下技术方案来实现的:一种基于自适应图卷积的步态情感识别方法,具体步骤如下:

(1)从步态视频中获取步态数据,构造网络输入;

(2)构建自适应图卷积网络;所述自适应图卷积网络主要包括三个依次连接自适应图卷积块;所述的自适应图卷积块主要依据自适应图的邻接矩阵进行图卷积操作,自适应图包括以下三部分:

第一部分:自然链接naturallink,按人体物理结构将骨架上关节点相连形成的自然链接;

第二部分:全局链接globallink,是以脊椎节点为中心,其他节点与中心节点相连构成的全局链接;

第三部分:可训练链接trainablelink,是一种可训练的图结构构造方式,将其转化为图结构的邻接矩阵形式放入网络中训练;

(3)将步骤(1)中获得步态数据输入到自适应图卷积网络中,根据网络提取到的特征进行步态情感类别的预测。

进一步地,步骤(2)中,网络中自适应图卷积有三层,每层有不同的语义信息,需要的可训练链接trainablelink可能是不同的,所以每层的可训练链接trainablelink使用不同的参数进行训练,使得网络更加灵活。

进一步地,所述可训练链接trainablelink通过网络的训练自动学习到合适的图结构,能够挖掘到除手工设计的固定图结构之外节点之间存在的关联关系,通过节点之间的特征交互,发掘相关特征,从而丰富图的结构,使得在图卷积过程中能更充分的进行特征的传递和提取。

本发明的有益效果:

(1)本发明提出基于可训练链接(trainablelink)的新的骨架时空图构造方法,通过网络训练,不断优化图结构,使其能更好的挖掘除手工设计的固定图结构之外的节点间的依赖关系;使得网络对于情感识别的性能明显提升。

(2)本发明将手工设计的固定的图结构和可训练链接通过网络训练得到的非固定的图结构相结合,保留双方优势,互为补充,构成自适应骨架时空图。

(3)本发明基于自适应骨架时空图提出用于步态情感识别任务的自适应图卷积网络。自适应图卷积网络通过堆叠自适应图卷积块搭建,随着网络层数加深,每层语义信息各不相同。每层的自适应图中trainablelink使用不同的参数来满足不同层的语义需求,使得网络更加灵活。与现有技术相比,本发明方法可以达到当前基于步态的情感识别的最好性能。

附图说明

图1为本发明提出中自适应图卷积网络示意图;

图2为自适应图卷积过程示意图;

图3为自适应图的组成部分:自然链接(naturallink)示意图;

图4为自适应图的组成部分:全局链接(globallink)示意图;

图5为自适应图的组成部分:可训练链接(trainablelink)邻接矩阵示意图。

具体实施方式

以下结合附图对本发明具体实施方式作进一步详细说明。

如图1所示,本发明提供的一种基于自适应图卷积(adaptivegraphconvolutionnetwork,agcn)的步态情感识别方法,具体步骤如下:

(1)从步态视频每一帧中提取出表征步态的人体关节点的坐标序列,并按照时间顺序排列成规整矩阵,作为步骤(2)中网络的输入;

(2)构建自适应图卷积网络;所述自适应图卷积网络包括三个依次连接自适应图卷积块(agc),一个全局平均池化层,一个全连接层和一个softmax层;其中图卷积块是以时空图卷积为基础模块,结合了自适应图的构建方法,形成新的图结构,并以此图结构生成邻接矩阵从而进行自适应图卷积操作。所述自适应图卷积块先进行空间图卷积(spatialgraphconvolution,sgc)再进行时间图卷积(temporalgraphconvolution,tgc)

如图2所示,所述结合自适应图构建方法的新的图结构是由时间维度图结构和空间维度图结构共同构成。时间图卷积的图结构是由相邻帧间相同节点相连(时间维度链接)所构成的,由于输入的特征图在位置结构上符合时间维度图结构的邻接关系,可以直接进行普通卷积操作;所述空间图卷积的图结构即为改进的自适应图,由于空间维度的图结构属于非欧几里得结构,其需要借助自适应图的邻接矩阵进行图卷积操作。自适应图结构包括以下三部分:

第一部分:自然链接naturallink。按人体物理结构将骨架上关节点相连形成的链接,即为自然链接,见图3;

第二部分:全局链接globallink。以脊椎节点为中心,其他节点与中心节点相连构成的链接,即为全局链接,见图4;

第三部分:可训练链接trainablelink,将图结构的邻接矩阵作为可训练参数的形式放入网络中,初始化为1e-6,见图5;网络中自适应图卷积有三层,每层都有不同的语义信息,需要的可训练链接trainablelink可能是不同的,所以每层的可训练链接trainablelink使用不同的参数进行训练,使得网络更加灵活。

自适应图卷积网络相较于已有的方法依据手工设计的图结构进行图卷积的网络,所述可训练链接trainablelink通过网络的训练自动学习到合适的图结构,在训练中不断优化,能够挖掘到除手工设计的固定图结构(naturallink和globallink)之外节点之间存在的关联关系,通过节点之间的特征交互,发掘相关特征,从而丰富图的结构,使得在图卷积过程中能更充分的进行特征的传递和提取。

每层网络的自适应图卷积具体表示为:

其中,是每层的输入,是每层的输出;m是权重参数,w是权重矩阵,用以转换特征图的通道数,m,w是通过训练得到的;⊙是指两个矩阵按元素相乘;分别是naturallink、globallink、trainablelink所构成的图的邻接矩阵,邻接矩阵的大小为(v,v),v为骨架图中关节点的个数,矩阵中所有元素初始化为1e-6,这三个图的邻接矩阵相加构成了自适应图的邻接矩阵。

(3)将步骤(1)中获得的人体关节点的坐标序列输入到步骤(2)的网络中,经过三个依次连接自适应图卷积块提取到的特征,再经过全局平均池化(globalaveragepooling,gap)和全连接(fullyconnected,fc)操作得到情感识别的初步结果,最后通过softmax函数得到各类情感的预测分值,分值最高的即为该步态的情感识别结果。

进一步地,步骤(2)中,三个自适应图卷积块的输出维度分别为32、64、64,时间图卷积的步长分别为1、2、1。

进一步地,步骤(2)中,每个自适应图卷积块中均添加了残差连接操作。

本发明在emotiongait数据集上进行实验。emotiongait是gamma实验室公开的情感步态数据集,数据集中共有2177个真实步态,四种情感——生气、开心、中立、悲伤。其中342个步态数据采集自90个志愿者,志愿者想象四种不同的情绪分别走出7米的距离,录制形成步态视频;其余1835个步态来自elmd数据集,由领域专家将步态数据分别标注成四种情感类别。每个视频都经过处理给出了人体骨架16个关节点的坐标时间序列。

如表1所示,自适应图卷积网络通过对图结构的改进使得网络对于情感识别的性能明显优化。在emotion-gait数据集上,只使用naturallink的图结构进行图卷积操作的步态情感识别准确率为78.24%;在naturallink的基础上结合globallink进行改进,识别准确率为81.10%;本发明在此基础上再结合trainablelink,使得准确率能达到82.11%,相比前两种方法分别提升了3.87%和1.01%。实验结果充分说明了可训练链接在图结构完善上起着重要作用,它能自适应地发掘潜在的有价值的节点之间的依赖关系,帮助图卷积更加充分地提取步态的情感特征。

表1改进方法准确率对比

如表2所示,与现有的基于传统机器学习方法相比较,本发明方法有非常大的性能优势;与深度学习的方法比较,本发明方法也有更好的性能。本发明方法提出了可训练链接,将其作为固定图结构的补充,发掘潜在的有价值的节点间的依赖关系。除此之外,本发明方法还考虑了语义信息的重要性,并针对网络中不同层级的自适应图卷积的图结构进行了改进,最终本发明方法能达到82.11%的识别准确率。实验结果充分说明了本发明的方法提高了图卷积中图结构的表达能力,以及网络的学习能力,在基于步态的情感识别任务中准确率超过现有的方法。

表2与现有的算法性能对比

表2中,base-step方法参照:bhattacharya,u.,mittal,t.,chandra,r.,randhavane,t.,bera,a.,manocha,d.:step:spatialtemporalgraphconvolutionalnetworksforemotionperceptionfromgaits.in:aaai.(2020)1342–1350.

表2中,g-gcn方法参照:zhuang,y.,lin,l.,tong,r.,liu,j.,iwamoto,y.,chen,y.:g-gcsn:globalgraphconvolutionshrinkagenetworkforemotionperceptionfromgait.inproceedingsoftheasianconferenceoncomputervision(accv),2020.

表2中,ventureetal.方法参照:venture,g.,kadone,h.,zhang,t.,gr`ezes,j.,berthoz,a.,hicheur,h.:recognizingemotionsconveyedbyhumangait.internationaljournalofsocialrobotics6(2014)621–632.

表2中,kargetal.方法参照:karg,m.,k¨uhnlenz,k.,buss,m.:recognitionofaffectbasedongaitpatterns.ieeetransactionsonsystems,man,andcybernetics,partb(cybernetics)40(2010)1050–1061.

表2中,daoudietal.方法参照:daoudi,m.,berretti,s.,pala,p.,delevoye,y.,delbimbo,a.:emotionrecognitionbybodymovementrepresentationonthemanifoldofsymmetricpositivedefinitematrices.in:internationalconferenceonimageanalysisandprocessing,springer(2017)550–560.

表2中,wangetal.方法参照:wang,w.,enescu,v.,sahli,h.:adaptivereal-timeemotionrecognitionfrombodymovements.acmtransactionsoninteractiveintelligentsystems(tiis)5(2015)1–21.

表2中,crennetal.方法参照:crenn,a.,khan,r.a.,meyer,a.,bouakaz,s.:bodyexpressionrecognitionfromanimated3dskeleton.in:2016internationalconferenceon3dimaging(ic3d),ieee(2016)1–7.

表2中,st-gcn方法参照:randhavane,t.,bhattacharya,u.,kapsaskis,k.,gray,k.,bera,a.,manocha,d.:identifyingemotionsfromwalkingusingaffectiveanddeepfeatures.arxivpreprintarxiv:1906.11884(2019).

表2中,lstm方法参照:yan,s.,xiong,y.,lin,d.:spatialtemporalgraphconvolutionalnetworksforskeleton-basedactionrecognition.arxivpreprintarxiv:1801.07455(2018).

上述实施例用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1