一种驾驶员手势识别方法、系统及存储介质与流程

文档序号:37001227发布日期:2024-02-09 12:45阅读:40来源:国知局
一种驾驶员手势识别方法、系统及存储介质与流程

本发明涉及图像识别,尤其涉及一种驾驶员手势识别方法、系统及存储介质。


背景技术:

1、近年来,随着轨道交通行业的快速发展,铁路运输在国家经济和社会发展之中扮演着重要角色,国家对铁路司机的专业技能与行车安全愈发重视。在铁路运输对安全性要求极高。司机需要在行车过程中与列车调度员和其他列车成员进行有效的通信,以确保列车在轨道上的安全运行。而这其中手指口呼系统起了非常大的作用。即时性:在紧急情况下,即时通信至关重要。手指口呼系统可以让司机和调度员之间立即进行语音通信,这对于处理紧急事件、避免冲突和做出快速决策非常关键。沟通效率:手指口呼系统可以提高沟通的效率。司机可以通过手势、语音命令来报告列车状况、请求指令或提供信息,而不必花时间敲击键盘或使用文字消息。这有助于减少不必要的通信延迟,并提高整个铁路系统的效率。减轻司机负担:长时间的列车行车过程对司机来说可能非常疲劳,因此减轻他们的工作负担非常重要。手指口呼系统的使用可以简化通信过程,使司机能够更轻松地专注于列车操作,减少了他们的工作压力紧急情况应对:如果列车遇到紧急情况,如障碍物、技术故障或危险情况,司机需要立即与调度员和其他相关人员进行沟通。手指口呼系统可以在这些关键时刻提供快速、可靠的通信方式,以便采取适当的措施来处理紧急情况。安全性:手指口呼系统允许司机通过语音指令进行通信,而不需要分散注意力或离开操纵台,因此有助于提高行车过程中的安全性。

2、为了加强司机的行车规范意识,会对新的驾驶司机进行多次培训与测试,以前的司机培训过程中,由培训师对培训司机的行车行为进行判定是一种常见的做法。优点是这些培训师通常具有广泛的知识和经验,能够识别和纠正司机的潜在问题,根据具体情况进行调整和个性化指导,并提供实际的示范和建议。但是缺点也很明显,人工判定可能会受到主观因素的影响,不同培训师可能对相同行为有不同的解释和评价,这可能导致不一致性;人工培训需要投入大量时间和资源,包括聘请专业培训师、提供培训场地和设备。这可能不适用于大规模培训或需要频繁更新的情况,不能时刻对学员进行评估。


技术实现思路

1、本发明的目的在于克服现有技术的不足,提供一种驾驶员手势识别方法、系统及存储介质。

2、本发明的目的是通过以下技术方案来实现的:本发明第一方面提供:一种驾驶员手势识别方法,包括以下步骤:

3、s1:操作台屏幕轮廓及位置图像采集阶段,采集操作台屏幕轮廓及位置图像;

4、s2:驾驶员手部图像采集阶段,采集驾驶员的手部图像得到第一手部图像;

5、s3:手势类型识别阶段,将第一手部图像传入训练好的手势类型识别网络模型,识别手势类型得到手势类型识别结果;

6、s4:指向屏幕识别阶段,根据第一手部图像和操作台屏幕轮廓及位置图像,识别驾驶员手部指向的屏幕;

7、所述的手势类型识别网络模型的训练步骤包括:

8、标注第一手部图像坐标位置的目标框及手势的类型得到第二手部图像;

9、对第二手部图像进行预处理得到第三手部图像;

10、将第三手部图像输入至构建的手势类型基础网络架构进行模型训练,直至训练识别到的手势类型图像满足预设类别置信度和手部图像位置边框偏移量;

11、其中,所述类别置信度是指识别到的第一手部图像属于正确手势类型的概率,所述手部图像位置边框偏移量是指识别到的第一手部图像预测框与第一手部图像的目标框之间的偏移量。

12、优选的,对第二手部图像进行预处理的步骤包括:

13、将第二手部图像缩小或放大到预设大小,并将第二手部图像进行网格划分;

14、基于第一手部图像坐标位置,计算第二手部图像的中心点,并得到所述中心点所在的网格;

15、将第三手部图像输入至构建的手势类型基础网络架构进行模型训练,直至训练识别到的手势类型图像满足预设类别置信度和手部图像位置边框偏移量,包括以下步骤:

16、基于所述中心点所在的网格以及与该网格预设距离范围内的网格进行第一手部图像的类别预测,包括:

17、对第三手部图像进行图像特征提取,得到各层的深层信息,所述深层信息包括类别信息和坐标信息;

18、融合各层的深层信息,适应多尺度下的目标检测,得到多尺度特征信息;

19、融合多尺度特征信息,并对融合后的多尺度特征信息进一步提取,得到第三手部图像的类别置信度和手部图像位置边框偏移量;

20、每一个网格预定义有锚框,将每个网格输出的手部图像位置边框偏移量与对应的锚框进行计算得到预测框。

21、优选的,采用非极大值抑制算法,将多余的预测框去除;对重叠的预测框的类型置信度进行比较,得到类别置信度最大的预测框作为目标预测框。

22、优选的,所述的s3:手势类型识别阶段,还包括以下步骤:

23、根据第一手部图像得到驾驶员手臂图像;

24、基于驾驶员手臂图像识别手臂伸展角度;

25、判断手臂伸展角度是否小于预设角度阈值,如果小于预设角度阈值,则过滤掉该驾驶员手臂图像对应的第一手部图像或手势类型识别结果。包含两个方案:一,先进行手臂伸展角度的识别,过滤掉不符合要求的图像后再进行手势类型识别;二,先进行手势类型识别,再对识别的结果进行不符合角度要求的图像过滤。

26、优选的,所述的手臂伸展角度的识别步骤包括:将驾驶员手臂图像中单手臂的手腕、手肘和肩膀三个点连成一条曲线,计算手腕到手肘和肩膀到手肘两个向量之间的角度作为手臂伸展角度。

27、优选的,所述的s3:手势类型识别阶段,还包括以下步骤:将第一手部图像中与手势识别到的手部区域坐标框对应的图像区域进行截取,得到模糊度对比图像;

28、将所述模糊度对比图像进行傅里叶变换,从而将图像转换为频域;对于模糊度对比图像函数f(x,y),其傅立叶变换由以下公式给出:

29、,其中:(u,v)是频域中的坐标、(x,y)是空域中的坐标、i是虚数单位(i2 = -1)、e是自然对数的底、傅立叶变换将模糊度对比图像分解为不同频率分量的复数值,f(u,v) 表示频域中的复数值;频域中的低频分量对应模糊度对比图像中的低频信息,频域中的高频分量对应模糊度对比图像中的细节和纹理;

30、计算功率谱密度psd来得到模糊度;功率谱密度psd的计算公式为,其中∣ f(u,v)∣ 表示频域中每个点的幅度;

31、判断所述模糊度是否大于预设模糊度阈值,如果模糊度大于预设模糊度阈值,则过滤掉该第一手部图像对应的手势类型识别结果。

32、优选的,所述的s4:指向屏幕识别阶段,还包括以下步骤:

33、基于所述第一手部图像计算手部指尖的中间坐标点;

34、基于所述操作台屏幕轮廓及位置图像,得到与操作台屏幕对应的多边形轮廓及坐标位置;

35、以所述中间坐标点为端点,向平行于x轴正方向延伸设置射线,计算所述射线与所述多边形轮廓相交的次数,将第一个相交次数为奇数的多边形轮廓作为驾驶员手部指向的屏幕。

36、优选的,根据第一手部图像的坐标框得到第一手部图像的坐标框左上角点的x坐标,将第一手部图像的坐标框左上角点的x坐标加上第一手部图像的坐标框的上边缘宽度的二分之一,得到所述中间坐标点的x坐标;将第一手部图像的坐标框左上角点的y坐标作为所述中间坐标点的y坐标。

37、本发明第二方面提供:一种驾驶员手势识别系统,用于上述任一种驾驶员手势识别方法,包括:

38、操作台屏幕轮廓及位置图像采集模块,用于采集操作台屏幕轮廓及位置图像;

39、驾驶员手部图像采集模块,用于采集驾驶员的手部图像得到第一手部图像;

40、手势类型识别模块,用于将第一手部图像传入训练好的手势类型识别网络模型,识别手势类型得到手势类型识别结果;

41、指向屏幕识别模块,用于根据第一手部图像和操作台屏幕轮廓及位置图像,识别驾驶员手部指向的屏幕。

42、本发明第三方面提供:一种计算机可读存储介质,所述的计算机可读存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现上述任一种驾驶员手势识别方法。

43、本发明的有益效果是:

44、1)确保司机正确使用手指口呼系统,根据铁路规范,实现统一的手势评定,并解决大规模、大频率下的司机培训需求,降低培训成本。

45、2)使用傅立叶变换方法将手部图像转换到频域,然后计算频域中的特定频率分量来评估图像的模糊度,模糊图像通常会导致频率分量的扩散,对手势检测结果进行二次筛选,达到自动识别司机行为的目的,并保持高的准确性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1