动作理解方法、装置、计算机设备及存储介质与流程

文档序号:21781772发布日期:2020-08-07 20:09阅读:127来源:国知局
动作理解方法、装置、计算机设备及存储介质与流程

本发明实施例涉及图像处理领域,尤其是一种动作理解方法、装置、计算机设备及存储介质。



背景技术:

模拟人类实际神经网络的数学方法问世以来,人们已慢慢习惯了把这种人工神经网络直接称为神经网络。神经网络在系统辨识、模式识别、智能控制等领域有着广泛而吸引人的前景,特别在智能控制中,人们对神经网络的自学习功能尤其感兴趣,并且把神经网络这一重要特点看作是解决自动控制中控制器适应能力这个难题的关键钥匙之一。

现有技术中,神经网络模型在图像处理领域具有较好的表现,通过采用大量同类型的图片反复的对神经网络模型进行训练,使神经网络模型学习到识别一种或多种图像类别的能力。神经网络模型能够对输入的图片进行较为准确的分类,但是,神经网络模型对图像的理解是独立的不具有连贯性的,因此,神经网络模型对于连续关联图像的判断准确率较低。



技术实现要素:

本发明实施例提供一种能够基于图像的输入时序,对输入图像进行连贯性理解的动作理解方法、装置、计算机设备及存储介质。

为解决上述技术问题,本发明创造的实施例采用的一个技术方案是:提供一种动作理解方法,包括:

获取待识别的目标图像,其中,所述目标图像中包括目标用户的肢体动作图像;

提取所述目标图像中所述肢体动作图像中的关键点信息;

将所述关键点信息输入至预设的动作分析模型中,其中,所述动作分析模型为预先训练至收敛状态,用于对人体的肢体动作进行图像分析的长短期记忆神经网络模型;

读取所述动作分析模型中输出的分类结果,其中,所述分类结果中包括所述肢体动作图像的理解信息。

可选地,所述提取所述目标图像中所述肢体动作图像中的关键点信息包括:

将所述目标图像输入至预设的图像提取模型中,其中,所述图像提取模型为预先训练至收敛状态,用于提取图像中关键点信息的神经网络模型;

读取所述图像提取模型中输出的特征信息,其中,所述特征信息中包括所述肢体动作图像的关键点信息。

可选地,所述读取所述动作分析模型中输出的分类结果之后,包括:

将所述分类结果反馈输入至所述动作分析模型的输入接口,以使所述动作分析模型将所述分类结果传递至下一个动作理解的理解节点中,使动作理解在时序上具有连贯性。

可选地,所述分类结果为所述人体在未来时序中的肢体动作的预测结果,所述将所述分类结果反馈输入至所述动作分析模型的输入接口之后,包括:

获取预设的动作映射列表,其中,所述动作映射列表中记载动作行为与危险性数值之间的映射关系;

以所述分类结果为检索条件在所述动作映射列表查找与所述动作行为具有映射关系的危险性数值;

根据所述危险性数值识别所述目标用户在未来时序中的动作是否具有危险性,当所述目标用户在未来时序中的动作具有危险性时,执行预设的警示指令。

可选地,所述动作分析模型的训练方法包括;

获取标记有分类参照信息的训练样本数据,其中,所述训练样本数据包括若干人体关键点图像;

将所述训练样本数据输入初始化的长短期记忆神经网络模型中,以获取所述训练样本数据的分类判断信息;

比对所述训练样本数据内同一人体关键点图像中所述分类参照信息与所述分类判断信息是否一致;

当所述分类参照信息与所述分类判断信息不一致时,反复循环迭代的更新所述长短期记忆神经网络模型中的权重,至所述分类参照信息与所述分类判断信息一致时结束。

可选地,所述若干人体关键点图像在时序上具有连贯性,所述分类判断信息为各个人体关键点图像的标定信息,且所述各个人体关键点图像的标定信息为下一个时序节点处人体关键点图像表征的肢体动作信息。

可选地,所述当所述分类参照信息与所述分类判断信息不一致时,反复循环迭代的更新所述长短期记忆神经网络模型中的权重,至所述分类参照信息与所述分类判断信息一致时结束之后,包括:

统计所述长短期记忆神经网络模型输出的分类判断信息的准确率;

将所述准确率与设定的第一阈值进行比对;

当所述准确率大于所述第一阈值进时,所述长短期记忆神经网络模型训练至收敛状态。

为解决上述技术问题,本发明实施例还提供一种动作理解装置,包括:

获取模块,用于获取待识别的目标图像,其中,所述目标图像中包括目标用户的肢体动作图像;

提取模块,用于提取所述目标图像中所述肢体动作图像中的关键点信息;

处理模块,用于将所述关键点信息输入至预设的动作分析模型中,其中,所述动作分析模型为预先训练至收敛状态,用于对人体的肢体动作进行图像分析的长短期记忆神经网络模型;

执行模块,用于读取所述动作分析模型中输出的分类结果,其中,所述分类结果中包括所述肢体动作图像的理解信息。

可选地,所述动作理解装置还包括:

第一处理子模块,用于将所述目标图像输入至预设的图像提取模型中,其中,所述图像提取模型为预先训练至收敛状态,用于提取图像中关键点信息的神经网络模型;

第一执行子模块,用于读取所述图像提取模型中输出的特征信息,其中,所述特征信息中包括所述肢体动作图像的关键点信息。

可选地,所述动作理解装置还包括:

第二处理子模块,用于将所述分类结果反馈输入至所述动作分析模型的输入接口,以使所述动作分析模型将所述分类结果传递至下一个动作理解的理解节点中,使动作理解在时序上具有连贯性。

可选地,所述动作理解装置还包括:

第一获取子模块,用于获取预设的动作映射列表,其中,所述动作映射列表中记载动作行为与危险性数值之间的映射关系;

第一查找子模块,用于以所述分类结果为检索条件在所述动作映射列表查找与所述动作行为具有映射关系的危险性数值;

第二执行子模块,用于根据所述危险性数值识别所述目标用户在未来时序中的动作是否具有危险性,当所述目标用户在未来时序中的动作具有危险性时,执行预设的警示指令。

可选地,所述动作理解装置还包括:

第二获取子模块,用于获取标记有分类参照信息的训练样本数据,其中,所述训练样本数据包括若干人体关键点图像;

第三处理子模块,用于将所述训练样本数据输入初始化的长短期记忆神经网络模型中,以获取所述训练样本数据的分类判断信息;

第一比对子模块,用于比对所述训练样本数据内同一人体关键点图像中所述分类参照信息与所述分类判断信息是否一致;

第三执行子模块,用于当所述分类参照信息与所述分类判断信息不一致时,反复循环迭代的更新所述长短期记忆神经网络模型中的权重,至所述分类参照信息与所述分类判断信息一致时结束。

可选地,所述若干人体关键点图像在时序上具有连贯性,所述分类判断信息为各个人体关键点图像的标定信息,且所述各个人体关键点图像的标定信息为下一个时序节点处人体关键点图像表征的肢体动作信息。

可选地,所述动作理解装置还包括:

第四处理子模块,用于统计所述长短期记忆神经网络模型输出的分类判断信息的准确率;

第二比对子模块,用于将所述准确率与设定的第一阈值进行比对;

第四执行子模块,用于当所述准确率大于所述第一阈值进时,所述长短期记忆神经网络模型训练至收敛状态。

为解决上述技术问题,本发明实施例还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器上述所述动作理解方法的步骤。

为解决上述技术问题,本发明实施例还提供一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述所述动作理解方法的步骤。

本发明实施例的有益效果是:在进行用户肢体动作识别时,对用户肢体动作中的关键点信息进行提取,以降低图像数据的总体数据体量,降低后续处理的难度,提高图像识别的效率。然后采用长短期记忆神经网络模型训练而成的动作分析模型,对关键点信息进行处理得到肢体动作图像的分类结果。由于,长短期记忆神经网络模型在图像处理时具有记忆性,因此,当对连续的用户动作进行判断识别,能够记忆上一个识别节点的处理结果,并将其与当前处理的目标图像内容进行关联性识别,使图像识别在时序上具有关联性,提高了动作分析模型对连续关联图像识别的准确率。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例动作理解方法的基本流程示意图;

图2为本发明实施例通过神经网络模型提取关键点信息的流程示意图;

图3为本发明实施例对用户危险动作进行警示的流程示意图;

图4为本发明实施例训练动作分析模型的流程示意图;

图5为本发明实施例验证长短期记忆神经网络模型的流程示意图;

图6为本发明实施例动作理解装置基本结构示意图;

图7为本发明实施例计算机设备基本结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。

在本发明的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本技术领域技术人员可以理解,这里所使用的“终端”、“终端设备”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,执行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;pcs(personalcommunicationsservice,个人通信系统),其可以组合语音、数据处理、传真和/或数据通信能力;pda(personaldigitalassistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或gps(globalpositioningsystem,全球定位系统)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是pda、mid(mobileinternetdevice,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。

具体请参阅图1,图1为本实施例动作理解方法的基本流程示意图。

如图1所示,一种动作理解方法,包括:

s1100、获取待识别的目标图像,其中,所述目标图像中包括目标用户的肢体动作图像;

获取待识别的目标图像,其中,目标图像是采集目标用户的肢体动作图像。目标图像中除记录用户的肢体动作图像之外还包括背景图像。在一些实施方式中,目标图像是在连续的视频文件中抽取的视频帧画面图像。

目标用户是指采用本实例中出现在目标图像中的任意一个人物图像,不具体限定为指定的人。但是在一些实施方式中,本实施例的动作理解方法被用于图像追踪时,在指定被追踪人物的情况下,目标用户特指被选定的追踪人物。

本实施方式中肢体动作图像包括人脸图像、身体图像或者人体整体图像。

s1200、提取所述目标图像中所述肢体动作图像中的关键点信息;

提取目标图像中肢体动作图像中的关键点信息,其中,关键点信息是指目标图像中目标用户的五官、肩部、肘部、手部、胸部、腰部胯部、膝部和足部的关键点坐标,以及上述关键点之间的连接线的坐标。

在一些实施方式中,采用神经网络模型对关键点信息进行提取。例如采用图像提取模型对关键点信息进行提取,其中,图像提取模型为训练至收敛状态,用于提取人体图像中关键点坐标的神经网络模型。

本实施方式中,图像提取模型能够为已经训练至收敛状态的卷积神经网络模型(cnn),但是图像提取模型还能够是:深度神经网络模型(dnn)、循环神经网络模型(rnn)或者上述三种网络模型的变形模型。

图像提取模型在训练时,采用大量的人体图像进行关键点坐标提取的训练,训练至收敛状态后,能够准确的提取人体图像中的关键点坐标。

提取的关键点信息能够生成关键点坐标矩阵,如,将关键点信息中的各个人体部位的关键点坐标按设定的规则记性排列生成关键点坐标矩阵。但不局限于此,在一些实施方式中,提取的关键点信息为关键点图像,关键点图像由人体关键点和关键点之间的连接线组成。

s1300、将所述关键点信息输入至预设的动作分析模型中,其中,所述动作分析模型为预先训练至收敛状态,用于对人体的肢体动作进行图像分析的长短期记忆神经网络模型;

将提取的关键点信息转换为关键点坐标矩阵或者关键点图像,并将关键点坐标矩阵或者关键点图像输入至预设的动作分析模型中。其中,动作分析模型为预先训练至收敛状态,用于对人体的肢体动作进行图像分析的长短期记忆神经网络模型,图像分析方式为对关键点坐标矩阵或者关键点图像进行分析。

长短期记忆神经网络模型是一种时间递归神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。长短期记忆神经网络模型中进行特征提取的卷积层被定义为“神经细胞”,神经细胞中会有选择的继承上一个时序节点处提取的特征向量,将其继承至当前的关键点坐标矩阵或者关键点图像特征提取当中,由于其递归继承的特性,能够使动作分析模型学习到不同时序内用户动作的关联性。例如,动作分析模型在t时刻提取的目标用户的肢体动作特征xt,是动作分析模型根据上一个动作理解时序t-1时刻提取的特征xt-1的基础上补入t时刻的变化特征形成的,t-1时刻目标用户在目标图像中具有曲腿的动作,t时刻目标用户在目标图像中具有跳跃动作,当动作分析模型学习到t时刻与t-1时刻目标图像之间的特征变化后,动作分析模型就具有了在t-1时刻预测t时刻用户动作变化的能力。

动作分析模型对输入其中的关键点坐标矩阵或者关键点图像进行特征提取和分类,得到目标图像中目标用户肢体动作所表达的含义,或者预测目标用户当前目标图像的动作会引发未来时间内的何种动作或结果。

s1400、读取所述动作分析模型中输出的分类结果,其中,所述分类结果中包括所述肢体动作图像的理解信息。

读取动作分析模型中输出的分类结果,该分类结果为动作分析模型对图标图像中用户动作的理解信息,该理解信息为目标图像中目标用户肢体动作所表达的含义,或者预测目标用户当前目标图像的动作会引发未来时间内的何种动作或结果。

上述实施方式在进行用户肢体动作识别时,对用户肢体动作中的关键点信息进行提取,以降低图像数据的总体数据体量,降低后续处理的难度,提高图像识别的效率。然后采用长短期记忆神经网络模型训练而成的动作分析模型,对关键点信息进行处理得到肢体动作图像的分类结果。由于,长短期记忆神经网络模型在图像处理时具有记忆性,因此,当对连续的用户动作进行判断识别,能够记忆上一个识别节点的处理结果,并将其与当前处理的目标图像内容进行关联性识别,使图像识别在时序上具有关联性,提高了动作分析模型对连续关联图像识别的准确率。

在一些实施方式中,使用神经网络模型对目标图像中的关键点信息进行提取。请参阅图2,图2为本实施例通过神经网络模型提取关键点信息的流程示意图。

如图2所示,图1所示的s1200步骤包括:

s1211、将所述目标图像输入至预设的图像提取模型中,其中,所述图像提取模型为预先训练至收敛状态,用于提取图像中关键点信息的神经网络模型;

采用图像提取模型对关键点信息进行提取,其中,图像提取模型为训练至收敛状态,用于提取人体图像中关键点坐标的神经网络模型。

本实施方式中,图像提取模型能够为已经训练至收敛状态的卷积神经网络模型(cnn),但是图像提取模型还能够是:深度神经网络模型(dnn)、循环神经网络模型(rnn)或者上述三种网络模型的变形模型。

图像提取模型在训练时,采用大量的人体图像进行关键点坐标提取的训练,训练时首先人工对每一张人体凸显中的关键点进行标注生成标签信息,将人体图像输入至神经网络模型中,神经网络模型输出该人体图像的分类信息,比对分类信息与标签信息是否一致,不一致时采用反向传播算法矫正神经网络模型的权重,以使分类信息趋向于与标签信息一致。通过大量人体图像的反复训练,训练至收敛状态后,神经网络模型能够准确的提取人体图像中的关键点坐标,此时,定义神经网络模型为图像提取模型。

s1212、读取所述图像提取模型中输出的特征信息,其中,所述特征信息中包括所述肢体动作图像的关键点信息。

读取图像提取模型中输出的特征信息,其中,特征信息中包括肢体动作图像的关键点信息。特征信息为图像提取模型最后一个卷积层输出的特征向量。

提取的关键点信息能够生成关键点坐标矩阵,如,将关键点信息中的各个人体部位的关键点坐标按设定的规则记性排列生成关键点坐标矩阵。但不局限于此,在一些实施方式中,提取的关键点信息为关键点图像,关键点图像由人体关键点和关键点之间的连接线组成。

通过采用神经网络模型对目标图像中的关键信息进行提取,提高了关键点信息的提取效率和提取的准确率。

在一些实施方式中,当前时刻计算得到的分类结果被用于计算未来时刻目标用户的肢体动作。

如图1所示的s1400步骤之后包括:

s1410、将所述分类结果反馈输入至所述动作分析模型的输入接口,以使所述动作分析模型将所述分类结果传递至下一个动作理解的理解节点中,使动作理解在时序上具有连贯性。

长短期记忆神经网络模型是一种时间递归神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。长短期记忆神经网络模型中进行特征提取的卷积层被定义为“神经细胞”,神经细胞中会有选择的继承上一个时序节点处提取的特征向量,将其继承至当前的关键点坐标矩阵或者关键点图像特征提取当中,由于其递归继承的特性,能够使动作分析模型学习到不同时序内用户动作的关联性。例如,动作分析模型在t时刻提取的目标用户的肢体动作特征xt,在对下一个未来理解时序t+1时刻进行动作预测时,将肢体动作特征xt反馈至下一个理解时序的输入接口处,使动作分析模型对用户动作的理解具有连贯性。

例如,在t时刻目标用户在目标图像中具有抬腿的动作,t+1时刻目标用户在目标图像中具有跑动的动作,当动作分析模型学习到t时刻与t+1时刻目标图像之间的特征变化后,动作分析模型就学习到用户抬腿与跑步动作之间的关联性,从而使动作分析模型具有了预测能力。

在一些实施方式中,动作分析模型输出的分类结果被用于预测用户动作的危险度,以便于在用户进行危险动作时,预先进行警示。请参阅图3,图3为本实施例对用户危险动作进行警示的流程示意图。

如图3所示,s1410步骤之后包括:

s1421、获取预设的动作映射列表,其中,所述动作映射列表中记载动作行为与危险性数值之间的映射关系;

本实施方式中,预设有动作映射列表,动作映射列表中记载动作行为与危险性数值之间的映射关系。危险性数值的取值范围0-100范围之间,但是危险性数值的取值范围不局限于此,根据具体应用场景的不同,在一些实施方式中,危险性数值的表示方式能够为:通过语言文字、颜色或声音音调。

动作映射列表中将用户的各种动作进行危险度定义,定义各种用户行为的危险性数值。

s1422、以所述分类结果为检索条件在所述动作映射列表查找与所述动作行为具有映射关系的危险性数值;

当动作分析模型输出目标图像的分类结果后,以该分类结果作为检索关键字,以遍历的方式在动作映射列表中查找与分类结果表征的用户动作的危险性数值。例如,动作分析模型判断目标用户的行走动作即将造成用户跌倒时,则用户当前的行走动作的危险性数值为80,属于高危险性行为。

s1423、根据所述危险性数值识别所述目标用户在未来时序中的动作是否具有危险性,当所述目标用户在未来时序中的动作具有危险性时,执行预设的警示指令。

根据分类结果检索得到的危险性数值识别用户当前的肢体动作是否会导致未来时序中的危险出现,危险性的评判取决于危险性数值的大小,危险性数值越大则目标用户在未来时序中的危险性越大,反之,则危险性越小。

当判断得到目标用户的行为动作会导致未来时序内的危险出现时,则向目标用户发出警示。危险性的判断需要通过危险性阈值进行判断,在一些实施方式中危险性阈值为60,当危险性数值大于或等于60时,则向目标用户进行警示。但是危险性阈值的设定不局限于此,在一些实施方式中,危险性阈值呈梯度设置,当危险性数值在不同的梯度区间内时,向目标用户做出不同的警示。

用户警示的发出方式为执行预设的警示指令,警示指令的执行结果为通过语音的方式提醒用户注意可能在未来发生的危险。但是警示方式不局限于此,根据具体应用场景的不同,在一些实施方式中,通过警示灯或者文字信息的方式警示用户。在一些实施方式中,警示的方式随危险性数值的不同而不同,危险性数值越大警示的级别越高。

通过警示的方式,提醒目标用户规避在未来时间内的未知危险,能够有效地保证目标用户的安全性。

在一些实施方式中,为了增强动作分析模型的预判能力与准确性,在对动作分析模型进行训练时,需要有意识的训练动作分析模型的预判能力。请参阅图4,图4为训练动作分析模型的流程示意图。

如图4所示,动作分析模型的训练方法如下:

s1010、获取标记有分类参照信息的训练样本数据,其中,所述训练样本数据包括若干人体关键点图像;

训练样本数据是整个训练集的构成单位,训练集是由若干个训练样本数据组成的,训练样本数据包括:若干人体关键点图像,若干人体关键点图像在时序上具有连贯性,分类判断信息为各个人体关键点图像的标定信息,且各个人体关键点图像的标定信息为下一个时序节点处人体关键点图像表征的肢体动作信息。即训练样本数据为人体一连串连续动作的若干人体关键点图像,且若干人体关键点图像按时序进行排列。

分类参照信息是在人工观察了若干人体关键点图像后,对各个关键点图像进行人工标注,标注结果被定义为分类参照信息。分类参照信息记载的内容为当前人体关键点图像在下一个时序节点的肢体动作。时序节点与时序节点之间的间隔为1秒,但是时间间隔的设置不局限于此,根据具体应用场景的不同,时间间隔的设置能够更短或者更长。时间间隔的设置决定动作分析模块预测时间的长短。例如,当前人体关键点图像显示人体具有抬腿的动作,而下一个时序节点的人体关键点图像显示人体具有倾倒的动作,则定义当前人体关键点图像的分类参照信息为“倾倒”。

s1020、将所述训练样本数据输入初始化的长短期记忆神经网络模型中,以获取所述训练样本数据的分类判断信息;

将训练样本集依次输入到长短期记忆神经网络模型中,长短期记忆神经网络模型对人体关键点图像进行特征提取和分类,长短期记忆神经网络模型输出的每一张人体关键点图像的分类结果,被定义为该人体关键点图像的分类判断信息。

分类判断信息是长短期记忆神经网络模型根据输入的人体关键点图像而输出的激励数据,在长短期记忆神经网络模型未被训练至收敛之前,分类判断信息为离散性较大的数值,当长短期记忆神经网络模型未被训练至收敛之后,分类判断信息为相对稳定的数据。

s1030、比对所述训练样本数据内同一人体关键点图像中所述分类参照信息与所述分类判断信息是否一致;

损失函数是被配置为检测长短期记忆神经网络模型中,分类判断信息与期望的分类参照信息是否具有一致性的检测函数。当长短期记忆神经网络模型输出分类判断信息与分类参照信息的期望结果不一致时,需要对长短期记忆神经网络模型中的权重进行校正,以使长短期记忆神经网络模型的分类判断信息与分类判断信息相同。

s1040、当所述分类参照信息与所述分类判断信息不一致时,反复循环迭代的更新所述长短期记忆神经网络模型中的权重,至所述分类参照信息与所述分类判断信息一致时结束。

当长短期记忆神经网络模型的输出的分类判断信息与分类参照信息不一致时,需要对长短期记忆神经网络模型中的权重进行校正,以使长短期记忆神经网络模型的分类判断信息与分类判断信息相同。当分类判断信息与分类判断信息相同时,停止对该人体关键点图像的训练。训练时采用多个训练样本数据进行训练(例如10万个连续动作的训练样本数据),通过反复的训练与校正,当长短期记忆神经网络模型输出分类数据与各训练样本的分类参照信息比对达到(不限于)96%时,训练结束。

训练结束后将训练至收敛状态的长短期记忆神经网络模型定义为动作分析模型。

在训练时将当前时刻的人体关键点图像的分类参照信息定义为未来时刻肢体动作信息,能够加强长短期记忆神经网络模型的预测能力,提高长短期记忆神经网络模型预测分类结果的准确性。

在一些实施方式中,需要对长短期记忆神经网络模型进行验证,以确定长短期记忆神经网络模型是否被训练至收敛状态。请参阅图5,图5为本实施例验证长短期记忆神经网络模型的流程示意图。

如图5所示,图4所示的s1040步骤之后,包括:

s1051、统计所述长短期记忆神经网络模型输出的分类判断信息的准确率;

在长短期记忆神经网络模型进行训练的时,对长短期记忆神经网络模型输出的分类判断信息的准确次数进行统计,同时对进行训练的次数进行统计,然后,根据分类判断信息的准确次数与训练的次数的比值计算得到分类判断信息的准确率。

s1052、将所述准确率与设定的第一阈值进行比对;

将该准确率与设定第一阈值进行比较,第一阈值为设定的用于衡量长短期记忆神经网络模型输出准确率的数值,本实施方式中第一阈值为95%。但是第一阈值设定数值不局限于此,根据具体应用场景的不同,第一阈值的数值设定能够更大或者更小。

s1053、当所述准确率大于所述第一阈值进时,所述长短期记忆神经网络模型训练至收敛状态。

当准确率大于第一阈值进时,确认长短期记忆神经网络模型训练至收敛状态,此时,长短期记忆神经网络模型训练至收敛状态训练完成。

为解决上述技术问题,本发明实施例还提供一种动作理解装置。

具体请参阅图6,图6为本实施例动作理解装置基本结构示意图。

如图6所示,一种动作理解装置,包括:获取模块2100、提取模块2200、处理模块2300和执行模块2400。其中,获取模块2100用于获取待识别的目标图像,其中,所述目标图像中包括目标用户的肢体动作图像;提取模块2200用于提取所述目标图像中所述肢体动作图像中的关键点信息;处理模块2300用于将所述关键点信息输入至预设的动作分析模型中,其中,所述动作分析模型为预先训练至收敛状态,用于对人体的肢体动作进行图像分析的长短期记忆神经网络模型;执行模块2400用于读取所述动作分析模型中输出的分类结果,其中,所述分类结果中包括所述肢体动作图像的理解信息。

动作理解装置在进行用户肢体动作识别时,对用户肢体动作中的关键点信息进行提取,以降低图像数据的总体数据体量,降低后续处理的难度,提高图像识别的效率。然后采用长短期记忆神经网络模型训练而成的动作分析模型,对关键点信息进行处理得到肢体动作图像的分类结果。由于,长短期记忆神经网络模型在图像处理时具有记忆性,因此,当对连续的用户动作进行判断识别,能够记忆上一个识别节点的处理结果,并将其与当前处理的目标图像内容进行关联性识别,使图像识别在时序上具有关联性,提高了动作分析模型对连续关联图像识别的准确率。

在一些实施方式中,所述动作理解装置还包括:第一处理子模块和第一执行子模块。其中,第一处理子模块用于将所述目标图像输入至预设的图像提取模型中,其中,所述图像提取模型为预先训练至收敛状态,用于提取图像中关键点信息的神经网络模型;第一执行子模块用于读取所述图像提取模型中输出的特征信息,其中,所述特征信息中包括所述肢体动作图像的关键点信息。

在一些实施方式中,所述动作理解装置还包括:第二处理子模块,用于将所述分类结果反馈输入至所述动作分析模型的输入接口,以使所述动作分析模型将所述分类结果传递至下一个动作理解的理解节点中,使动作理解在时序上具有连贯性。

在一些实施方式中,所述动作理解装置还包括:第一获取子模块、第一查找子模块和第二执行子模块。其中,第一获取子模块用于获取预设的动作映射列表,其中,所述动作映射列表中记载动作行为与危险性数值之间的映射关系;第一查找子模块用于以所述分类结果为检索条件在所述动作映射列表查找与所述动作行为具有映射关系的危险性数值;第二执行子模块用于根据所述危险性数值识别所述目标用户在未来时序中的动作是否具有危险性,当所述目标用户在未来时序中的动作具有危险性时,执行预设的警示指令。

在一些实施方式中,所述动作理解装置还包括:第二获取子模块、第三处理子模块、第一比对子模块和第三执行子模块。其中,第二获取子模块用于获取标记有分类参照信息的训练样本数据,其中,所述训练样本数据包括若干人体关键点图像;第三处理子模块用于将所述训练样本数据输入初始化的长短期记忆神经网络模型中,以获取所述训练样本数据的分类判断信息;第一比对子模块用于比对所述训练样本数据内同一人体关键点图像中所述分类参照信息与所述分类判断信息是否一致;第三执行子模块用于当所述分类参照信息与所述分类判断信息不一致时,反复循环迭代的更新所述长短期记忆神经网络模型中的权重,至所述分类参照信息与所述分类判断信息一致时结束。

在一些实施方式中,所述若干人体关键点图像在时序上具有连贯性,所述分类判断信息为各个人体关键点图像的标定信息,且所述各个人体关键点图像的标定信息为下一个时序节点处人体关键点图像表征的肢体动作信息。

在一些实施方式中,所述动作理解装置还包括:第四处理子模块、第二比对子模块和第四执行子模块。其中,第四处理子模块用于统计所述长短期记忆神经网络模型输出的分类判断信息的准确率;第二比对子模块用于将所述准确率与设定的第一阈值进行比对;第四执行子模块用于当所述准确率大于所述第一阈值进时,所述长短期记忆神经网络模型训练至收敛状态。

为解决上述技术问题,本发明实施例还提供计算机设备。具体请参阅图7,图7为本实施例计算机设备基本结构框图。

如图7所示,计算机设备的内部结构示意图。该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、存储器和网络接口。其中,该计算机设备的非易失性存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种动作理解方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种动作理解方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

本实施方式中处理器用于执行图6中获取模块2100、提取模块2200、处理模块2300和执行模块2400的具体功能,存储器存储有执行上述模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有人脸图像关键点检测装置中执行所有子模块所需的程序代码及数据,服务器能够调用服务器的程序代码及数据执行所有子模块的功能。

计算机设备在进行用户肢体动作识别时,对用户肢体动作中的关键点信息进行提取,以降低图像数据的总体数据体量,降低后续处理的难度,提高图像识别的效率。然后采用长短期记忆神经网络模型训练而成的动作分析模型,对关键点信息进行处理得到肢体动作图像的分类结果。由于,长短期记忆神经网络模型在图像处理时具有记忆性,因此,当对连续的用户动作进行判断识别,能够记忆上一个识别节点的处理结果,并将其与当前处理的目标图像内容进行关联性识别,使图像识别在时序上具有关联性,提高了动作分析模型对连续关联图像识别的准确率。

本发明还提供一种存储有计算机可读指令的存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述任一实施例动作理解方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory,rom)等非易失性存储介质,或随机存储记忆体(randomaccessmemory,ram)等。

应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1