一种基于手部检测的驾驶员异常行为识别方法与系统

文档序号：25342927发布日期：2021-06-04 21:42阅读：361来源：国知局

1.本发明涉及图像识别技术领域，尤其涉及一种基于手部检测的驾驶员异常行为识别方法与系统。

背景技术：

2.本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。
3.道路交通安全已经极大地威胁着社会公众生命和财产，导致交通事故率长期居高不下的一个重要原因就是驾驶员的不良驾驶操作行为，由于缺乏规范意识，许多驾驶员在驾驶过程中出现不专注驾驶的行为，如单手操作转向盘、脱手操作方向盘，以及驾驶员接电话、吸烟，与他人用手比划，或者是疲劳驾驶下可能出现转弯不按正常手势执行等，而在驾驶过程中因为非必要操作致使手脱离方向盘是一件非常危险的事情，规范驾驶对于驾驶员来说非常重要，如果驾驶员的手离开方向盘，或者进行一些不良手势的操作，当出现紧急情况时就不能及时作出反应，而他们的危险行为不仅关系到自身的生命安全，还会对他人的生命和财产产生不可估量的损失。所以对于驾驶员的行为检测显得愈发重要，而手作为驾驶员与车辆交互最为重要的一个器官，使得对驾驶员手势的识别与研究也变得迫在眉睫。
4.近几十年来，手检测和跟踪的研究在计算机视觉界得到了广泛的研究，手势的识别研究是许多领域的一个有趣的话题，通过手来研究之间的人类和其所在环境之间的相互作用以及人们的行为，这是一个由一些具有挑战性的元素所主导的研究领域，与穿衣服的人体或脸部不同，手的外观几乎是一致的，缺乏特征性的局部特征，而且手不像身体，它们可以有更复杂的姿势。在对图像中的手部进行识别时，由于手部经常出现外部遮挡以及自遮挡、杂波和模糊的问题，且手部区域尺寸小，手部周围裁剪部分分辨率低，从而导致不能对手势进行准确识别，如何快速、准确地识别驾驶员的手势，对驾驶员的驾驶进行监督，成为目前亟需解决的问题。

技术实现要素：

5.本公开为了解决上述问题，提出了一种基于手部检测的驾驶员异常行为识别方法与系统，实现了对驾驶员手势的准确识别。
6.为实现上述目的，本公开采用如下技术方案：
7.第一方面，提出了一种基于手部检测的驾驶员异常行为识别方法，包括：
8.获取待识别的驾驶员手势图像；
9.将待识别的驾驶员手势图像输入训练好的手势检测模型中，获取驾驶员手势识别结果；
10.其中，手势检测模型以centernet算法为基础，在centernet主干特征提取模块的每个block中添加通道注意力模块。
11.第二方面，提出了一种基于手部检测的驾驶员异常行为识别系统，包括：
12.图像获取模块，用于获取待识别的驾驶员手势图像；
13.手势识别模块，用于将待识别的驾驶员手势图像输入训练好的手势检测模型中，获取驾驶员手势识别结果；
14.其中，手势检测模型以centernet算法为基础，在centernet主干特征提取模块的每个block中添加通道注意力模块。
15.第三方面，提出了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成一种基于手部检测的驾驶员异常行为识别方法所述的步骤。
16.第四方面，提出了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成一种基于手部检测的驾驶员异常行为识别方法所述的步骤。
17.与现有技术相比，本公开的有益效果为：
18.1、本公开在主干特征提取模块的每个block中添加通道注意力模块，且在通道注意力模块中分别使用最大池化和平均池化对特征图在空间维度上进行压缩，得到两个不同的空间分值，再使用由mlp组成的共享网络对这两个不同的空间分值进行计算得到通道的特征图来提高对特征图内容的关注，进而提高了驾驶员手势识别的准确性。
19.本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。
附图说明
20.构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。
21.图1为本公开实施例1公开的centernet网络结构图；
22.图2为本公开实施例1公开的主干特征提取模块结构图；
23.图3为本公开实施例1公开的使用labelimg标注图片的示意图。
具体实施方式：
24.下面结合附图与实施例对本公开作进一步说明。
25.应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
26.需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
27.在本公开中，术语如“上”、“下”、“左”、“右”、“前”、“后”、“竖直”、“水平”、“侧”、“底”等指示的方位或位置关系为基于附图所示的方位或位置关系，只是为了便于叙述本公开各部件或元件结构关系而确定的关系词，并非特指本公开中任一部件或元件，不能理解为对本公开的限制。
28.本公开中，术语如“固接”、“相连”、“连接”等应做广义理解，表示可以是固定连接，
也可以是一体地连接或可拆卸连接；可以是直接相连，也可以通过中间媒介间接相连。对于本领域的相关科研或技术人员，可以根据具体情况确定上述术语在本公开中的具体含义，不能理解为对本公开的限制。
29.实施例1
30.在该实施例中，公开了一种基于手部检测的驾驶员异常行为识别方法，包括：
31.获取待识别的驾驶员手势图像；
32.将待识别的驾驶员手势图像输入训练好的手势检测模型中，获取驾驶员手势识别结果；
33.其中，手势检测模型以centernet算法为基础，在centernet主干特征提取模块的每个block中添加通道注意力模块。
34.进一步的，主干特征提取模块采用resnet50，resnet50由多个block组成，通道注意力模块添加至每一个block里面。
35.进一步的，通道注意力模块对通道的特征图分别进行最大池化和平均池化处理，获得两个不同的空间分值，将两个不同的空间分值进行支持向量机加和，生成掩码。
36.进一步的，手势检测模型包括主干特征提取模块、上采样特征提取模块和解码模块，主干特征提取模块的输出作为上采样特征提取模块的输入，上采样特征提取模块的输出作为解码模块的输入，由解码模块输出预测结果。
37.进一步的，获取驾驶员手势图像；
38.对驾驶员手势图像中驾驶员的手势进行标注分类，构建数据集；
39.通过数据集对手势检测模型进行训练，获取训练好的手势检测模型。
40.进一步的，将构建的数据集进行训练集、测试集和验证集划分；
41.通过划分好的数据集对构建的手势检测模型进行训练。
42.进一步的，对标注的驾驶员手势图像进行预处理，通过预处理后的图像构建数据集，对手势检测模型进行训练。
43.对本实施例公开的一种基于手部检测的驾驶员异常行为识别方法进行详细说明，包括：
44.s1：获取待识别的驾驶员手势图像。
45.s2：将待识别的驾驶员手势图像输入训练好的手势检测模型中，获取驾驶员手势识别结果。
46.在具体实施时，步骤s2包括以下步骤：
47.s21：获取训练手势检测模型的数据集。
48.在具体实施时，使用行车记录仪分别安装在方向盘上方和副驾驶右侧玻璃，从前面和右面的角度用于采集驾驶员的驾驶视频，总共使用2辆大众型轿车采集了12个驾驶员的驾驶视频，驾驶员的动作包括打电话、吸烟、玩手机、喝水、吃东西等，驾驶环境主要在白天包括阴暗环境还有复杂的高光环境。采集后的视频进行筛选，然后将每一帧转化成图片保存，对保存的图片进行筛选得到驾驶员手势图像，通过驾驶员手势图像，对驾驶员手势图像进行反转、缩放、色域变化的预处理操作，获得512
×
512的图片，通过预处理后的驾驶员手势图像构建数据集。使用labelimg软件对所得数据集进行标注分类，标注过程如图3所示，需要将驾驶员的每一个手部用一个矩形框框起来并进行定义命名，其中打电话命名为
phone,吸烟定义为smoke，玩手机定义为phone
‑
play，喝水定义为drink，吃东西定义为eat，其他的手势统一定义为hand。这样可以得到了txt格式的文件作为数据集中驾驶员手部的ground truth，再将标注好的数据集进行分类，按照4：1的比例分为训练集、测试集，训练集和验证集的比例是9：1。使用训练集放入手势检测模型中训练得到模型权重，再对权重训练测试集，计算map和mr分析网络性能并进行修改参数进行对比试验。
49.s22：通过数据集对手势检测模型进行训练。获得训练好的手势检测模型。
50.手势检测模型包括主干特征提取模块、上采样特征提取模块和解码模块，主干特征提取模块的输出作为上采样特征提取模块的输入，上采样特征提取模块的输出作为解码模块的输入，由解码模块输出预测结果。
51.其中，主干特征提取模块采用centernet算法中的主干提取网络resnet50，在主干提取网络resnet50中添加通道注意力模块(channel attention module)。
52.在具体实施时，主干特征提取模块resnet50有两个基本的块，分别名为下采样卷积块(conv block)和连接卷积块(identity block)，其中conv block输入和输出的维度是不一样的，所以不能连续串联，它的作用是改变网络的维度；identity block输入维度和输出维度相同，可以串联，用于加深网络的。输入的预处理图像512
×
512
×
3通过四次下采样输出得到一个初步的特征层，其大小为16x16x2048。主干网络残差块由多个卷积块(block)组成，通道注意力模块添加在每一个block里面，包括conv block和identity block，用于学习通道(channel)之间的相关性，筛选出针对通道的注意力，可以优化学习到的内容。
53.要在centernet里定义出通道注意力模块，然后在卷积块中添加通道注意力模块。进行通道注意力模块的添加仅仅会增加很少的计算量，该计算量和整个centernet的训练量相比可以忽略不计，由于主干提取网络每一个卷积层(stage)卷积池化的特征图大小不同，其中每一个stage中的block之间输出分别是(128，128，256)，(64，64，512)，(32，32，1024)，(16，16，2048)，所添加的通道注意力模块会对不同大小的特征图卷积池化进行自适应融合，通道注意力模块不会改变卷积层和卷积层之间特征图的大小，对通道的特征图分别进行最大池化和平均池化处理，获得两个不同的空间分值，将两个不同的空间分值进行支持向量机加和，生成掩码mask来进行打分，来提高对特征图的学习效果。添加的通道注意力模块如图2所示，将通道注意力模块添加在残差单元的前部，这样可以更好的促使网络自动学出来特征图中需要注意的地方，从而构建出如图3所示的centernet网络结构图。
54.上采样特征提取模块是将获取得到的resnet50的最后一个特征层shape为(16,16,2048)，进行三层的上采样处理，利用三次反卷积进行上采样，从而更高的分辨率输出。为了节省计算量，这3个反卷积的输出通道数分别为256,128,64。每一次反卷积，特征层的高和宽会变为原来的两倍，因此，在进行三次反卷积上采样后，获得的特征层的高和宽变为原来的8倍，此时特征层的高和宽为128x128，通道数为64。最终获得了一个128x128x64的有效特征层(高分辨率特征图)，接下来利用该有效特征层获得最终的预测结果。
55.获取预测和预测结果的解码模块是将上采样特征提取模块所获得的高分辨率特征图进行预测解码处理。128x128x64的高分辨率特征图相当于将整个图片划分成128x128个区域，每个区域存在一个特征点，如果某个物体的中心落在这个区域，那么就由这个特征点来确定。如某个物体的中心落在这个区域，则由这个区域左上角的特征点来约定。
56.利用这个特征层进行三个卷积，分别是：1热力图预测，此时卷积的通道数为num_
classes，最终结果为(128,128,num_classes)，代表每一个热力点是否有物体存在，以及物体的种类；2中心点预测，此时卷积的通道数为2，最终结果为(128,128,2)，代表每一个物体中心距离热力点偏移的情况；3宽高预测，此时卷积的通道数为2，最终结果为(128,128,2)，代表每一个物体宽高的预测情况。最后使用最大池化对预测结果进行解码，利用3x3的池化核在热力图上搜索，然后只保留一定区域内得分最大的框。
57.采集的数据集和xml标注文件转换成voc数据集格式，生成train.txt和test.txt文件来指定训练集或者测试集的图片以及标注文件的位置。定义网络训练的标签phone、smoke、phone
‑
play、drink、eat以及hand，生成2007_train.txt文件用于指向数据集中图片的文件存放位置、该图片所标注目标的位置和标签的命名。下载centernet的权重文件，使用该权重文件通过读取train.txt文件对训练集进行训练。训练结束得到训练所得的权重文件，再使用所得的训练权重文件用读取test.txt文件对测试集进行测试，得到权重测试出来的txt标注文件以及对测试集中驾驶员手部的标注。测试集测试出来的txt文件和开始对测试集标注的作为真实标注(ground truth)的txt文件进行计算得到模型权重的mr和map两个评价指标可以对模型权重进行实验分析。
58.对所构建的手势识别模型修改epoch、batch_size等参数调整进行不同参数下网络模型的训练；将采集的数据集相同比例格式使用retinanet、faster
‑
rcnn等网络结构进行训练，与本实施例所提出的手势识别网络模型的手势识别效果进行比较；对于通道注意力模块在不同的位置集成进行识别效果对照试验。对所有对照试验的结果进行分析，及时优化所提出的网络结构，获取，将通道注意力模块添加至centernet主干特征提取模块的每个block中时，对驾驶员手势的识别效果最佳。
59.s23：将待识别的驾驶员手势图像输入训练好的手势检测模型中，获取驾驶员手势识别结果。
60.本公开的识别方法以深度学习中的centernet算法为基础，在centernet的主干提取网络resnet50(残差网络)中添加通道注意力模块，利用驾驶员手势标注图片对改进后的网络模型进行训练，从而获得驾驶员手势检测的模型权重。进一步使用训练好的网络模型对驾驶过程中采集的待识别的驾驶员手势图像进行测试，输出图像中驾驶员手势的位置信息和行为信息。本发明通过将通道注意力机制模块添加到centernet中主干提取网络resnet50，实现了深度网络中学习内容的优化，既降低了复杂驾驶环境对驾驶员手势识别的影响，又减少了手势识别中不同驾驶员手势的相互干扰，提高了驾驶员手势识别的效果。
61.实施例2
62.在该实施例中，公开了一种基于手部检测的驾驶员异常行为识别系统，包括：
63.图像获取模块，用于获取待识别的驾驶员手势图像；
64.手势识别模块，用于将待识别的驾驶员手势图像输入训练好的手势检测模型中，获取驾驶员手势识别结果；
65.其中，手势检测模型以centernet算法为基础，在centernet主干特征提取模块的每个block中添加通道注意力模块。
66.实施例3
67.在该实施例中，公开了一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成实施例1公开的一
种基于手部检测的驾驶员异常行为识别方法所述的步骤。
68.实施例4
69.在该实施例中，公开了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例1公开的一种基于手部检测的驾驶员异常行为识别方法所述的步骤。
70.以上仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。
71.本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd
‑
rom、光学存储器等)上实施的计算机程序产品的形式。
72.本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
73.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
74.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
75.最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杨晓晖;马哲;冯志全;韩士元;范雪;田京兰
技术所有人：济南大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。