一种搭载于建筑机器人的人机交互系统

文档序号:29206806发布日期:2022-03-12 01:42阅读:88来源:国知局
一种搭载于建筑机器人的人机交互系统

1.本发明涉及计算机视觉领域,尤其是一种搭载于建筑机器人的人机交互系统。


背景技术:

2.建筑施工中常常因为操作不规范和各种意外事故导致生命财产损失、并降低施工效率。为了提高建筑生产的效率的安全性,建筑机器人在建筑工地中的应用越来越广泛。但建筑机器人无法直接与人类沟通交流,因此需要通过各种人机交互技术实现建筑工人与建筑机器人之间的沟通交流。
3.常见的人机交互技术有摇杆、控制器操作等,但这些技术都需要建筑工人手工操作以实现交互,无法在建筑工人工作的同时实现人机交互。也有在建筑工人身上佩戴传感器以实现建筑机器人对建筑工人的追踪,达成人机交互目的的操作,但佩戴传感器同样可能影响建筑工人的正常工作。
4.相对于上述提到的交互技术,基于机器视觉的人机交互技术有着明显的优势。其不需要建筑工人额外佩戴装备或是输入指令,而是通过特定的动作实现人机交互。手势动作具有易用、自然、直观的特点,方便建筑工人和建筑机器人学习使用。


技术实现要素:

5.有鉴于此,本发明实施例提供一种搭载于建筑机器人的人机交互系统。
6.本发明的第一方面提供了一种搭载于建筑机器人的人机交互系统,其特征在于,包括以下部分:
7.位置跟踪模块,用于检测建筑工人的位置并进行跟踪;
8.手势跟踪模块,用于在检测到建筑工人向机器人作出手势时,对建筑工人的手部动作进行跟踪识别;
9.手势识别模块,用于识别工人手势的含义并输出对应指令。
10.进一步地,所述位置跟踪模块的工作步骤包括:
11.通过建筑机器人实时采集建筑工人的图像信息,通过采集图像建立第一视频序列;
12.识别所述视频序列中的建筑工人,为每个建筑工人建立不同的识别id;
13.绘制建筑工人的边界框,对建筑工人的外观信息进行建模;
14.通过所述视频序列和建筑工人的外观信息,绘制建筑工人的行动轨迹,将采集图像与行动轨迹关联,实现对建筑工人的位置跟踪。
15.进一步地,所述位置跟踪模块,使用卷积神经网络实现位置跟踪,所述卷积神经网络包括yolov3卷积神经网络。
16.进一步地,所述手势跟踪模块的工作步骤包括:
17.接收到建筑工人的手势信号时,以发出信号的建筑工人为中心对第一视频序列进行放大,根据所述建筑工人的边界框调整第一视频序列,得到第二视频序列;
18.对建筑工人的手势进行动作捕捉,生成第三视频序列并输出。
19.进一步地,所述根据所述建筑工人的边界框调整第一视频序列,具体包括:令所述建筑工人的边界框距离采集图像的边缘距离不小于第一视频序列对应径向边长的八分之一。
20.进一步地,所述手势识别模块的工作步骤包括:
21.使用检测器检测手势;
22.在所述检测器检测到手势时,利用分类器识别手势的具体含义;
23.根据手势的具体含义输出具体含义所对应的操作指令。
24.进一步地,所述手势识别模块,通过基于层次结构的卷积神经网络实现。
25.进一步地,所述使用检测器检测手势,具体包括:
26.将所述第二视频序列按单位时间进行裁剪,裁剪为8个视频帧;
27.对视频帧进行逐帧检测,通过resnet-10卷积神经网络提取视频帧中的手势特征;
28.将检测到手势的视频帧标记为第一帧。
29.进一步地,所述利用分类器识别手势的具体含义,具体包括:
30.对所述视频帧进行进一步裁剪,每单位时间的第二视频序列被裁剪为32个视频帧;
31.建立视频帧索引t,从第一帧to开始对后续的视频帧进行识别,当t与t0之间的差等于时间因子l的倍数时,将视频帧中的手势进行分类;
32.通过权重函数计算视频帧索引t中每一帧的加权概率,并计算其中加权概率最高值和次高值之间的差值,在差值大于预设阈值时,根据视频帧中手势在库中寻找对应的手势;
33.输出对应手势的具体含义。
34.进一步地,所述权重函数,公式为:
[0035][0036]
其中,w
t
是指第t帧处的权重,u对应于数据集中手势的平均持续时间(即帧数),s是步幅长度。
[0037]
本发明的有益效果为:在实际施工场景中,借助本发明的一种搭载于建筑机器人的人机交互系统,建筑工人可实现一边移动一边向建筑机器人作出手势,亦不需要佩戴传感器,保证建筑工人的工作效率。实验结果表明本发明具有良好的总体准确率和召回率,验证了本发明的有效性。
附图说明
[0038]
为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0039]
图1是一种搭载于建筑机器人的人机交互系统的总体流程图;
[0040]
图2是一种搭载于建筑机器人的人机交互系统中手势识别模块的工作流程图。
具体实施方式
[0041]
为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
[0042]
本实施例提出了一种搭载于建筑机器人的人机交互系统。采用基于视觉的卷积神经网络,对建筑工人的手势进行捕捉与解释,以指导塔式起重机或其它施工器械的操作。
[0043]
系统具体包括以下模块,模块对应的工作流程如图1所示:
[0044]
位置跟踪模块,用于检测建筑工人的位置并进行跟踪;
[0045]
手势跟踪模块,用于在检测到建筑工人向机器人作出手势时,对建筑工人的手部动作进行跟踪识别;
[0046]
手势识别模块,用于识别工人手势的含义并输出对应指令。
[0047]
本实施例介绍了位置跟踪模块。位置跟踪模块的工作步骤包括:
[0048]
通过建筑机器人实时采集建筑工人的图像信息,通过采集图像建立第一视频序列;
[0049]
识别所述视频序列中的建筑工人,为每个建筑工人建立不同的识别i d;
[0050]
绘制建筑工人的边界框,对建筑工人的外观信息进行建模;
[0051]
通过所述视频序列和建筑工人的外观信息,绘制建筑工人的行动轨迹,将采集图像与行动轨迹关联,实现对建筑工人的位置跟踪。
[0052]
位置跟踪模块的目的是提取在视频序列中做出手势的建筑工人。检测模块识别每个帧中的施工人员并获得其边界框。给定检测结果,对轨迹和外观信息进行建模,以将当前检测与现有轨迹关联,从而跟踪工人。当扫描中出现多个工人时,可以通过跟踪识别号(i d)识别做出手势的施工工人。本实施例采用基于yolov3卷积神经网络的多对象深度简单在线实时(排序)跟踪器跟踪施工人员,将前一过程中检测到的同一名施工人员关联到所有帧,检测结果提供的轨迹和外观信息在视频帧中对施工人员进行跟踪。
[0053]
本实施例介绍了手势跟踪模块。手势跟踪模块的工作流程包括:
[0054]
接收到建筑工人的手势信号时,以发出信号的建筑工人为中心对第一视频序列进行放大,根据所述建筑工人的边界框调整第一视频序列,得到第二视频序列;
[0055]
对建筑工人的手势进行动作捕捉,生成第三视频序列并输出。
[0056]
手势跟踪模块的目的是裁剪从原始帧发出手势的建筑工人的区域,以形成用于检测和分类手势的队列。该组件可分为两个步骤:提取区域的水平延伸和手势识别队列的形成。首先将提取的区域水平扩展25%,以充分捕捉工人在尝试和错误的基础上做出的手势。当工人摆动手臂时,检测和跟踪组件直接获得的区域可能会遗漏手部区域的一部分。在水平延伸到左侧和右侧后,建筑工人的区域可以捕获整个手部区域,这对于手势识别至关重要。生成的手势识别队列将用于后续手势识别模块的工作。
[0057]
本实施例介绍了手势识别模块。手势识别模块的工作流程如图2所示,包括:
[0058]
使用检测器检测手势;
[0059]
在检测器检测到手势时,利用分类器识别手势的具体含义;
[0060]
根据手势的具体含义输出具体含义所对应的操作指令。
[0061]
其中,使用检测器检测手势,具体包括:
[0062]
将所述第二视频序列按单位时间进行裁剪,裁剪为8个视频帧;
[0063]
对视频帧进行逐帧检测,通过resnet-10卷积神经网络提取视频帧中的手势特征;
[0064]
将检测到手势的视频帧记作t0。
[0065]
该环节作为一个开关,决定是否需要激活分类器。如果检测到手势且分类器尚未激活,则分类器将被激活并将当前帧索引记录为第一帧,to为检测到手势时的第一帧索引。
[0066]
其中,利用分类器识别手势的具体含义,具体包括:
[0067]
对视频帧进行进一步裁剪,每单位时间的第二视频序列被裁剪为32个视频帧;
[0068]
建立视频帧索引t,从第一帧to开始对后续的视频帧进行识别,当t与t0之间的差等于时间因子l的倍数时,将视频帧中的手势进行分类;
[0069]
通过权重函数计算视频帧索引t中每一帧的加权概率,并计算其中加权概率最高值和次高值之间的差值,在差值大于预设阈值时,根据视频帧中手势在库中寻找对应的手势;
[0070]
输出对应手势的具体含义。
[0071]
权重函数的公式为:
[0072][0073]
其中,wt是指第t帧处的权重,u对应于数据集中手势的平均持续时间(即帧数),s是步幅长度,可取值为1,该值足够小,不会错过任何手势。
[0074]
关于计算最高和第二高加权概率之间的差值:如果该差值大于阈值τ,则将触发手势识别;否则,这意味着分类器对手势类型的分类信心不足。该架构将进行另一轮手势检测和分类,直到检测器不再检测手势并停用分类器。τ和l的选择取决于用户触发识别的可能性和频率。经反复试验后,τ和l分别取值0.20和15。
[0075]
通过现场实验,验证了本实施理论在手势识别中的有效性,总体准确率和召回率分别达到87.0%和66.7%。此外,还进行了一项实验室研究,以说明如何使用该系统与自动倾卸卡车进行交互。未来的工作将把提出的系统整合到机器人建筑机器中。
[0076]
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
[0077]
此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及
其等同方案的全部范围来决定。
[0078]
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
[0079]
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
[0080]
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换,这些等同的变形或替换均包含在本技术权利要求所限定的范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1