本发明具体涉及一种基于人体关键点姿态编码的特征行为识别方法,属于计算机视觉。
背景技术:
1、人体关键点(keypoint)是指人体姿势估计技术中,用于标记人体各个部位位置的点,通常情况下,人体关键点包括头顶、颈部、肩膀、肘部、手腕、髋部、膝盖、脚踝等部位。人体多个关键点组成人体的行为动作,人体发生的特定行为动作即为人体的特征行为,如:石油钻井技术领域中脚蹬吊卡、敲击等。
2、目前,计算机视觉领域中目标检测、语义分割、人体关键点识别等技术已经取得了显著进展,并已在工业技术领域也逐渐得到广泛应用,但仅依赖这些技术识别人体特征行为难以达到较好的识别效果。人体特征行为往往持续发生在一段时间内,因此,需要通过识别一段视频才能识别出人体具体发生了哪些特征行为。当前,主流技术手段大多是直接用深度学习构建大型的神经网络,采用端到端的形式,以截取的视频片段作为输入,经过神经网络学习后得到模型,然后模型直接预测出人体发生的特征行为,这种方法普遍存在如下弊端:
3、一、该方法是直接取视频片段进行训练、预测人体的特征行为,具体如何预测是模型的内部机制,是不可解释的,那么当特征行为预测出现不准确时,其不可解释的特性决定了无法借助人工经验去干预特征行为的识别逻辑,因此难以针对性优化,只能依靠进一步采集数据以增加数据来解决。而在大多数工业技术领域的实际应用中,采集数据极为困难,尤其是针对石油、电力等技术领域中,数据采集是一项高危工作,数据采集人员的安全无法确切保证,进而导致无法通过采集以得到大量泛化数据,最终致使训练的效果往往不尽人意;
4、二、视频信息往往是单帧图像的几十倍、上百倍,导致模型需要更大的参数量才能达到较好的预测效果,而模型参数的激增往往也导致所消耗计算量的激增,因此直接导致预测的实时性难以达到要求;
5、三、由于人体各种特征行为发生的时间长短不一,不同特征行为之间的时间差短则几秒,长则有可能达到几十秒、几分钟,而到底截取多长的视频片段进行预测也会对预测结果产生较大影响,目前缺乏可靠的视频时长截取标准。
技术实现思路
1、本发明旨在解决现有技术在识别人体特征行为时需采集数据量大、消耗计算资源大、实时性差等技术问题,而提出了一种基于人体关键点姿态编码的特征行为识别方法。
2、为了实现上述技术目的,提出如下的技术方案:
3、本技术方案第一目的在于,提供:一种基于人体关键点姿态编码的特征行为识别方法,包括:
4、步骤s1:采集包含待识别特征行为的视频,将视频抽帧处理为若干帧图像;
5、步骤s2:分别对每帧图像中的人体关键点进行标注;
6、其中,人体关键点包括头部、颈部、肩膀、肘部、手腕、髋部、膝盖和脚踝等;
7、步骤s3:对经标注后的人体关键点进行第一编码操作和/或第二编码操作,得若干组编码;将若干组编码形成行为动作模板库,其中,若干组编码中的每组编码对应一种人体的行为动作,对应人体的行为动作由该组编码对应的人体关键点组成;
8、步骤s4:取视频之外且具有特征行为的其它图像,训练其它图像中人体关键点数据,得到人体关键点基模型,具体包括:
9、步骤s4.1:标注其它图像中人体关键点数据,形成第一训练集;
10、步骤s4.2:将第一训练集输入至神经网络中,神经网络输出人体关键点基模型;
11、步骤s5:基于人体关键点基模型,得到视频对应的人体关键点识别模型,具体包括:
12、步骤s5.1:将视频输入人体关键点基模型,人体关键点基模型经推理预测后,对视频中人体关键点进行预标注,得到第二训练集;
13、步骤s5.2:人工修正第二训练集中被预标注而存在错误的人体关键点数据,修正完毕后,以第二训练集作为第三训练集;
14、步骤s5.3:将第三训练集输入至神经网络中,神经网络输出人体关键点识别模型,人体关键点识别模型可用于对视频中的人体关键点进行预测识别;
15、步骤s6:运用人体关键点识别模型对视频逐帧预测,识别视频的每帧图像中的人体关键点;
16、步骤s7:对经步骤s6识别视频的每帧图像中的人体关键点进行第一编码操作和/或第二编码操作,得所有编码形成视频对应的人体关键点姿态编码库;
17、步骤s8:判断人体关键点姿态编码库中的编码与经步骤s3形成的行为动作模板库中的编码是否一致;
18、若一致,则判定视频中发生了行为动作模板库中编码对应的行为动作;
19、反之,则判定视频中未发生行为动作模板库中编码对应的行为动作。
20、进一步的,所述第一编码操作:为对视频同一帧图像中的两个以上人体关键点进行编码,第一编码操作用于描述两个以上人体关键点对应的人体姿态,其中,人体姿态指单帧图像中的两个以上人体关键点就能描述的动作。
21、所述第二编码操作:用于描述视频不同帧图像之间在时间序列上的人体行为动作,第二编码操作包括:对视频不同帧图像之间的相同人体关键点的变化进行编码,或,基于第一编码操作对视频不同帧图像之间的人体姿态的变化进行编码。
22、进一步的,所述第一编码操作包括基于关键点之间角度的编码和/或基于关键点之间距离的编码,所述第二编码操作包括基于关键点之间角度的编码和/或基于关键点之间距离的编码;
23、基于关键点之间角度的编码:计算对应关键点之间的角度信息,包括对应关键点之间的旋转角度,并将其作为编码,其中,旋转角度指对应关键点之间的方位角,即一关键点位于另一关键点的多少度方向上,表示对应关键点之间的方位关系;
24、基于关键点之间距离的编码:计算对应关键点之间的距离信息,包括对应关键点之间的直线距离,并将其作为编码。
25、进一步的,所述第二编码操作还包括基于运动信息的编码;
26、基于运动信息的编码:计算对应关键点之间的运动信息,包括对应关键点的速度或加速度等,并将其作为编码。
27、本技术方案第二目的在于,提供:一种计算机可读存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述的基于人体关键点姿态编码的特征行为识别方法的步骤。
28、本技术方案第三目的在于,提供:一种基于人体关键点姿态编码的特征行为识别方法的信息数据处理终端。
29、采用本技术方案,带来的有益技术效果为:
30、一、本发明提出一种基于人体关键点姿态编码的特征行为识别方法,区别于端到端直接对视频进行预测的现有技术,具体为:本发明先对单帧图像进行人体关键点预测,再对人体关键点之间的方位关系进行编码及时间序列上的编码来描述人体行为,该方法极大的缩小了视频特征行为识别过程中的特征变化空间,降低了模型所需要的参数量,减少了计算性能消耗量,提高了预测的实时性;
31、二、在本发明中,训练人体关键点基模型时,采用了待识别视频之外的具有特征行为的其它图像,该其他图像存在于大量可用的公开图像数据中,相对于现有技术直接采用待识别用视频来训练、识别特征行为,所需采集的数据量极大减少,因此,可被有效落地实施应用;
32、三、在本发明中,训包含了识别人体关键点的中间步骤,增加了特征行为识别的可解释性,当特征行为预测出现不准确时,可借助人工经验去干预特征行为的识别逻辑,进行针对性优化,进而保证灵活性和可扩展性更高。