一种基于3D姿态的端到端交警手势识别方法和系统

文档序号：26007945发布日期：2021-07-23 21:27阅读：251来源：国知局

本发明涉及一种基于3d姿态的端到端交警手势识别方法和系统，属于智能汽车的环境感知技术领域。

背景技术：

在交通场景中交警指挥信号优先级高于交通信号灯，在有交警介入的情形下车辆必须服从交警指挥。对于自动驾驶而言，识别并理解交警手势信号可以帮助车辆遵循交通秩序，提升自主驾驶安全性。我国交警指挥手势共有8种，准确识别理解交警8种指挥动作对于智能驾驶汽车及其重要。

目前基于人工智能技术的交警手势识别都是基于图片序列提取交警2d姿态，并针对提取的2d姿态进行时空特征的提取，而2d姿态则是将交警动作映射到2d平面上，并不能真实的反映出交警的空间动作和指挥方向，容易导致交警动作识别失误。

技术实现要素：

针对上述问题，本发明的目的是提供一种基于3d姿态的端到端交警手势识别方法和系统，其能够对交警的3d姿态进行提取，不仅可以反映交警真实空间运动状态，也可以实时、准确地推断出交警的指挥方向。

为实现上述目的，本发明采取以下技术方案：一种基于3d姿态的端到端交警手势识别方法，包括以下步骤：s1获取交警视频图像；s2从交警视频图像中提取交警的2d关节点坐标和骨架；s3将建立2d到3d的转换关系，根据转换关系将2d关节点坐标和骨架转化成3d骨架图像，并重新确定3d关节点坐标；s4根据3d骨架图像和3d关节点坐标建立时空表征信息，将时空表征信息输入时空自适应图网络模型，获得交警手势识别结果。

进一步，步骤s3中2d到3d的转换关系的建立方法为：同时采集批量的交警三维动作信息以及视频图像信息；基于采集的交警三维动作信息，建立转换关系卷积网络，以完成二维关节点及骨架向3d空间映射的映射关系；以提取的2d关节点及骨架作为输入，以交警三维动作信息作为监督数据进行网络训练，获得最终的2d到3d的转换关系模型。

进一步，转换关系卷积网络包括若干组全卷积模块，全卷积模块包括两部分，每个部分均由卷积层、归一化、relu激活函数和dropout正则化组成，两部分之间通过全连接的方式连接，最后通过全连接层输出确定的3d关节点坐标。

进一步，时空表征信息由交警关节点的时空特征向量组成，t时刻交警某关节点pi的时空特征向量表征为：

其中，分别为t时刻交警关节点pi的横坐标、纵坐标以及深度信息，分别为t-1时刻交警关节点pi的横坐标、纵坐标以及深度信息，为t时刻关节点提取的置信度大小。

进一步，时空自适应图网络模型包括自适应空间图网络和自适应时序图网络，自适应空间图网络根据人体结构，将同一帧图像的3d关节点连接成边，组成空间边ls＝{vit，vjt|(i，j)∈b}b，从而组成一组自然连接的人体关节点坐标；自适应时序图网络将连续两帧中相同的关节点连接成边，组成时间边lt＝{vit，vi(t+1)}，其中，vit和vjt分别为t时刻同一帧图像的第i个关节点和第j个关节点的坐标，vi(t+1)为t+1时刻的第i个关节点的坐标，b是同一帧图像中所有关节点的集合。

进一步，自适应空间图网络的构建方法为：将同一帧的关节点分为若干子集；构建初始图卷积网络的邻接矩阵以及度矩阵；并分别对子集中的关节点进行卷积操作，获得图卷积网络。

进一步，子集的个数为3个，第一个子集为空间位置上比根关节点更远离整个骨架中心线的相邻关节点；第二个子集为空间位置上比根关节点更接近整个骨架中心线的相邻关节点；第三个子集为根关节点本身，基于三个子集进行的卷积过程如下：

其中，a为邻接矩阵；i为邻接矩阵；aj为第j个子集划分的邻接矩阵，λ为采用子集划分后归一化的度矩阵；wj为第j个子集划分节点学到的卷积权重；fin为卷积层的输入特征向量；fout为经过卷积层卷积操作后的输出特征向量。

进一步，自适应时序图网络的构建方法为：在时间图卷积网络中设定卷积核的大小为：[time_size]×[1]，其中，[time_size]表示学习相邻[time_size]个关键帧中关节点的变化特征，[1]表示只针对某一关节点；时间图卷积在完成1个节点卷积操作后进行下1个节点的卷积，每次卷积操作结束后移动stride个关键帧进行下一步时间图卷积。

进一步，交警手势识别方法还包括模型准确性验证方法，其包括：根据获取的交警视频图像建立测试数据集，其中每个视频序列中包含若干组交警动作，每组动作包含整套交警动作，将测试数据集中数据输入时空自适应图网络模型中进行测试，则模型准确率acc计算公式为：

本发明还公开了一种基于3d姿态的端到端交警手势识别系统，包括：视频采集模块，用于获取交警视频图像；2d提取模块，用于从交警视频图像中提取交警的2d关节点坐标和骨架；3d转换模块，用于将建立2d到3d的转换关系，根据转换关系将2d关节点坐标和骨架转化成3d骨架图像，并重新确定3d关节点坐标；识别模块，用于根据3d骨架图像和3d关节点坐标建立时空表征信息，将时空表征信息输入时空自适应图网络模型，获得交警手势识别结果。

本发明由于采取以上技术方案，其具有以下优点：

1、相比较于现有的交警手势识别方法，本发明中方法通过提取交警3d姿态可以较好的解决2d姿态不能反映交警真实空间动作的问题。

2、本发明使用信息表征策略来表征时空图卷积网络的输入信息，可以对交警关节点时空特征进行充分利用以及统一表达。

3、本发明以人体的自然骨架结构以及时间序列构建的时空图卷积网络，可以进一步加强对交警手势的空间特征学习与分类，显著提升交警手势识别性能。

4、本发明中端到端交警手势识别框架，实时输入视频流，可以经过算法处理直接输出交警动作，保证了算法的实时性，满足实际应用需求。

附图说明

图1是本发明一实施例中基于3d姿态的端到端交警手势识别方法的流程图；

图2是本发明一实施例中2d关节点坐标与骨架的示意图；

图3是本发明一实施例中的3d骨架提取网络的结构示意图；

图4是本发明一实施例中3d关节点坐标与骨架的示意图；

图5是本发明一实施例中的关节点时空表征信息的示意图；

图6是本发明一实施例中的时空自适应图网络模型的结构示意图

图7是本发明一实施例中的人体关节点坐标子集划分方法的示意图；

图8是本发明一实施例中的端到端交警手势识别算法框架示意图。

具体实施方式

为了使本领域技术人员更好的理解本发明的技术方向，通过具体实施例对本发明进行详细的描绘。然而应当理解，具体实施方式的提供仅为了更好地理解本发明，它们不应该理解成对本发明的限制。在本发明的描述中，需要理解的是，所用到的术语仅仅是用于描述的目的，而不能理解为指示或暗示相对重要性。

本发明涉及一种基于3d姿态的端到端交警手势识别方法和系统，其利用车载摄像头采集交警动作信息，通过深度卷积网络提取出的交警2d关节点2d骨架，并通过2d关节点与2d骨架计算交警3d关节点与3d骨架；通过3d关节点与3d骨架获得时空信息表征策略完成节点时空信息表征；根据人体的自然骨架结构以及时间序列构建时空图卷积网络，通过该网络实现交警手势识别。该方法不仅可以降低由于交警的身高、衣着、交通场景光照以及复杂度等因素的影响，同时克服了2d姿态不能真实反映交警空间动作的缺点，有效提升交警手势检测精度，同时保证识别算法的实时性，以满足实际应用需求。下面通过两个实施例对本发明的技术方案进行详细说明。

实施例一

本实施例公开了一种基于3d姿态的端到端交警手势识别方法，如图1所示，包括以下步骤：

s1通过车载视频装置获取交警视频图像的视频数据流；

s2从交警视频图像中提取交警的2d关节点坐标和骨架。该2d关节点坐标和骨架是根据hrnet算法从交警视频图像的视频数据流中获得。提取的节点编号以及骨架连接方式如图2所示，hrnet算法总共提取人体17个主要关节点：鼻子0、左眼1、右眼2、左耳3、右耳4、左肩5、右肩6、左肘7、右肘8、左腕9、右腕10、左髋11、右髋12、左膝13、右膝14、左踝15和右踝16。需要说明的是，本实施例中虽然采用了hrnet算法进行2d关节点坐标和骨架提取，但其他现有的2d关节点提取方法也可以用于本发明。

s3将建立2d到3d的转换关系，根据转换关系将2d关节点坐标和骨架转化成3d骨架图像，并重新确定3d关节点坐标。

其中，2d到3d的转换关系的建立方法为：同时采集批量的交警三维动作信息以及视频图像信息；使用可穿戴设备同时采集批量的交警三维动作信息和视频图像信息，基于采集的交警三维动作信息，建立转换关系卷积网络3dposeestimationmodel，以完成二维关节点及骨架向3d空间映射的映射关系；如图3所示，转换关系卷积网络包括4组全卷积模块，全卷积模块包括两部分，每个部分均由卷积层、归一化、relu激活函数和dropout正则化组成，两部分之间通过全连接的方式连接，最后通过全连接层输出确定的3d关节点坐标。以提取的2d关节点及骨架作为输入，以交警三维动作信息作为监督数据进行网络训练，获得最终的2d到3d的转换关系模型。

将待转化的2d关节点坐标和骨架输入最终的2d到3d的转换关系模型，获得如图4所示的3d骨架图像及重新确定的3d关节点坐标。本实施例中3d关节点坐标总共包括17个关节点(但此处的关节点是重新确认的，跟2d的关节点不同)：臀部0、右髋1、右膝2、右脚3、左髋4、左膝5、左脚6、脊椎7、胸8、颈部9、头部10、左肩11、左肘12、左腕13、右肩14、右肘15和右腕16。

s4根据3d骨架图像和3d关节点坐标建立时空表征信息，将时空表征信息输入时空自适应图网络模型，获得交警手势识别结果。本步骤中除了明确说明是2d关节点的关节点外，其他关节点均为3d关节点。

使用信息表征策略来表征时空图卷积网络的输入信息，可以对交警关节点时空特征进行充分利用，并进行统一表达。如图5所示，时空表征信息p＝(p0，p1，…，pi，…p16)，由交警关节点的时空特征向量组成，其中i代表三维关节点序号。t时刻交警某关节点pi的时空特征向量表征为：

其中，分别为t时刻交警关节点pi的横坐标、纵坐标以及深度信息，分别为t-1时刻交警关节点pi的横坐标、纵坐标以及深度信息，分别表征了交警关节点pi从前一帧t-1时刻到t时刻的横坐标、纵坐标以及深度信息的变化量，表征了该节点在运动过程中的时间信息。为t时刻关节点提取的置信度大小。置信度的取值范围在0到1之间，置信度越大表明该节点的检测越准确，置信度在步骤s2中由hrnet算法在提取2d关节点坐标和骨架时同时获得。

时空自适应图网络模型建立过程为：首先构造出表示3d骨架序列信息的图网络。将时空表征信息作为时空自适应图网络模型的输入单元，通过一系列时空图卷积操作来提取更高层次的特征，时空图网络通过softmax分类器得到对应的动作分类。

记一个有n个关节点和t帧的骨骼序列的时空图为g＝(v，e)，其节点集合为v＝{vit|t＝1，…，t，i＝1，…，n}。vit为t时刻的第i个关节点坐标。在本实施例中，该图网络结构的节点数目为16。如图6所示，时空自适应图网络模型包括自适应空间图网络和自适应时序图网络，自适应空间图网络根据人体结构，将同一帧图像的3d关节点连接成边，组成空间边ls＝{vit，vjt|(i，j)∈b}b，从而组成一组自然连接的人体关节点坐标，如图6中实线边所示；自适应时序图网络将连续两帧中相同的关节点连接成边，组成时间边lt＝{vit，vi(t+1)}，如图6中虚线边所。其中，vit和vjt分别为t时刻同一帧图像的第i个关节点和第j个关节点的坐标，vi(t+1)为t+1时刻的第i个关节点的坐标，b是同一帧图像中所有关节点的集合。

同一帧的交警人体内部的关节点的连接可以表示为邻接矩阵a，单位阵i表示自连接信息。如图7所示，自适应空间图网络的构建方法为：将同一帧的关节点分为3个子：第一个子集为空间位置上比根关节点更远离整个骨架中心线的相邻关节点，如图7中c节点所示；第二个子集为空间位置上比根关节点更接近整个骨架中心线的相邻关节点，如图7中b节点所示；三个子集为根关节点本身，如图7中a节点所示，用于突出表征交警静止的运动特征。其中，跟关节点可以选择上一步获得的3d关节点中的任一个关节点。构建初始图卷积网络的邻接矩阵以及度矩阵。依据图理论，网络的邻接矩阵a和度矩阵d为：

图深度网络对于单一卷积核的卷积公式为：

aggre(x)＝d^-1ax

上式可以化简为：

为了表征交警不同尺度的运动特征，分别对子集中的关节点进行卷积操作，获得图卷积网络。基于三个子集进行的卷积过程如下：

其中，a为邻接矩阵；i为邻接矩阵；aj为第j个子集划分的邻接矩阵，λ为采用子集划分后归一化的度矩阵；wj为第j个子集划分节点学到的卷积权重；fin为卷积层的输入特征向量；fout为经过卷积层卷积操作后的输出特征向量。中加入最后一项(即0.0001)是为了防止中存在零项。本实施例中根据子集划分情况设定卷积核大小及权重大小，进而对空间图卷积网络完成卷积操作。

空间图卷积网络可以学习到空间中相邻关节的局部特征。在此基础上，本实施例还构建了时间图卷积网络来学习时间中关节点变化的局部特征。在时间图卷积网络中设定卷积核的大小为：[time_size]×[1]，其中，[time_size]表示学习相邻[time_size]个关键帧中关节点的变化特征，[1]表示只针对某一关节点；时间图卷积在完成1个节点卷积操作后进行下1个节点的卷积，每次卷积操作结束后移动stride个关键帧进行下一步时间图卷积，卷积操作中采用[stride]表示步长。

为了对本实施例中识别方法的有效性进行评价，根据获取的交警视频图像建立测试数据集，将测试数据集中数据输入时空自适应图网络模型中进行测试获得评价指标top1准确率。当输入测试集交警动作视频可以实时输出交警手势识别结果，且top1的准确率可以达到96.2％。

同时为了更好的评估交警手势识别算法的有效性，根据获取的交警视频图像建立测试数据集，该数据集中每个测试数据为长时间视频数据(至少包括4个视频数据)，每个视频序列中包含10组交警动作，每组动作包含整套8种交警动作，将测试数据集中数据输入时空自适应图网络模型中进行测试，则模型准确率acc计算公式为：

当输入测试集交警动作视频可以实时输出交警手势识别结果，且编辑准确率可以达到98.76％。

实施例二

基于相同发明构思，为了充分利用交警动作信息，提升交警手势识别结果的准确率，本实施例公开了一种基于3d姿态的端到端交警手势识别系统，如图8所示，包括：

视频采集模块，用于从输入车载相机实时采集到的视频流，获取交警视频图像，本实施例中，采用yolov3对交警的动作进行识别；

2d提取模块，用于从交警视频图像中提取交警的2d关节点坐标和骨架，本实施例中使用hrnet算法识别交警2d姿态，2d姿态包括2d关节点坐标和骨架；

3d转换模块，用于将建立2d到3d的转换关系，根据转换关系将2d关节点坐标和骨架转化成3d骨架图像，并重新确定3d关节点坐标；

识别模块，用于根据3d骨架图像和3d关节点坐标建立时空表征信息，将时空表征信息输入时空自适应图网络模型，获得交警手势识别结果。

对时空自适应图网络模型进行训练时，首先对输入的时空表征信息进行batchnormalization，然后在经过10个时空网络单元后传入到池化层得到256维特征向量，其中每个时空单元由一组空间图卷积网络串联一组时间图卷积网络组成，最后用softmax函数进行分类，得到预测的交警手势类别。前三层的输出有64个通道，中间四层有128个通道，最后三层有256个通道，在每次经过时空图卷积网络单元后，以0.6的概率随机将特征dropout，时域卷积层的stride设置统一设置为2。时空自适应图网络采用sgd(随机梯度下降)优化器训练，学习总代数为500，学习率为0.01。

为了保证了算法的实时性，满足实际应用需求，本实施例采用滑窗切片的方式对数据进行处理，每次保证送入时空图网络的视频帧数为包含当前帧及之前的45帧数据，即窗口的大小为45。当新的数据流进来时，采用切片方式剔除窗口第一帧数据，并补齐当前帧数据，保证每帧数据结果实时输出。

本实施例中系统将交警的关节点信息表征向量与交警骨架信息表征向量分别输入到时空图卷积网络中，经过卷积操作生成更高级的特征图并分别传送到标准的softmax分类器中，得到手势识别结果。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。上述内容仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：江昆;付峥;杨殿阁;杨蒙蒙;王思佳;陈俊杰
技术所有人：清华大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。