具有动态完整性评分的基于视觉的多摄像头工厂监测的制作方法_4

文档序号:9217576阅读:来源:国知局
析,以提供每一个视图中本体轴线的更高置信度的提取。
[0125]再次参见图4,在图框52中,一个或多个运动轨迹可以基于确定的多视图单应信息和颜色轮廓组合。这些运动轨迹可以图示工作空间中被检测人的有序运动。在一种构造中,使用Kalman滤波来对运动轨迹滤波。在Kalman滤波中,状态变量是人的在地面的位置和速度。
[0126]在图框53中,系统可以确定用户轨迹是否匹配用于具体程序的期望或可接受轨迹。另外,系统也可以试图“预期”人继续沿一定方向行进的意图。该意图信息可用在其他模块,以计算人和检测区域之间的时间和距离的接近速率(closing rate of time,这对于改善具有动态检测区域的区域检测潜在因素来说是尤其重要的,所述动态检测区域跟随设备的运动,例如机器人、传送机、叉车和其他可移动设备)。这也是一种重要的信息,其可预期进入毗邻监视区域的人的运动,人的数据可被传递到该毗邻监视区域中,且在该毗邻监视区域中,接收系统可准备注意机构,以快速获得在该被进入的监视区域中的各个人的追足示O
[0127]如果人的经确定的活动未被验证或在可接受过程外,或如果人被预期离开预定的“安全区域”,则在图框54中系统可以提出警告,将警示传达给用户。例如,警告可以在人步行通过工作空间区域的预定安全区域、警示区域和危险区域时显示在显示装置上。警示区域和危险区域(以及期望配置在系统中的任何其他区域,包括动态区域)是这样的操作区域:在人已经进入相应区域且使得设备减慢、停止或以其他方式避开人时提供警告,该警告如在图框54中被启动。警示区域是人首先被警告人已经进入一区域且足够靠近可动设备以及可能造成设备停止的区域。危险区域是设计在警示区域中的位置(例如包络)。当人处于危险区域中时,更危险的警示可被发出,从而人得知其位置在危险区域中或被请求离开该危险区域。这些警告设置为通过防止麻烦的设备关机而提高处理系统的生产率,其中所述设备关机是因不知道其接近警告区域的人偶然进入到警告区域造成的。这些警告也可以在例如从该过程常规加载或卸载部件的期望相互作用间隔期间被系统消除。还可能的是,暂时静止的人将在沿他的方向运动的动态区域的路径上被检测到。
[0128]除了向在相应区域中时的人发出警告,警告可以根据工作空间区域中人(或可能的动态区域)的预测行进路径来修改或改变靠近的自动设备的运动(例如设备可以被停止、加速、或减速)。即自动设备的运动将在设定的程序下运行,该设定的程序具有预定速度下的预定运动。通过追踪和预测工作空间区域中人的运动,自动设备的运动可以被改变(即被减速或加速),以避免与工作空间区域中的人的任何可能接触。这允许设备保持运行,而不必关闭组装/制造过程。当前的故障保护操作通过基于风险评估的任务的结果管理,且通常在危险区域中检测到人时需要工厂自动设备完全停止。启动过程需要设备的操作者重新设定控制以重新起动组装/制造过程。该过程中这种意外停止通常造成停机和生产率的损失。
[0129]活动顺序监视
[0130]在一种构造中,上述系统可以用于监视通过用户执行的一系列操作,且验证被监视的过程是否被正确执行。除了仅仅分析视频馈送,系统可以进一步监视例如扭矩枪、螺母扳手或螺钉起子等辅助设备的使用和时间选择。
[0131]图7大致示出了使用上述系统执行活动顺序监视的方法100。如所示的,输入的视频在102被处理,以产生内部图示104,其捕获不同种类的信息,例如场景运动、活动等。所述图示用于在106处学习分类器,分类器产生动作标记和动作相似度评分。在108处该信息被整理在一起且转换成为语义描述,其随后在110处与已知的活动模板相比较,以产生差错预防评分。语义和视频概要被存档,以用于将来参考。如果与模板的匹配产生低评分(其表明被执行的顺序与期望的工作任务进程不相似),则在112给出警告。
[0132]该过程可以用于通过确定某些动作在何时何地被执行以及其执行顺序以验证操作者的活动。例如,如果系统识别出操作者手伸入到具体定位的箱中、朝向组装线上车辆的角部行走、屈膝并促动螺帽扳手,则系统可以确定存在操作者将车轮固定到车辆的高概率。但是,如果该顺序仅以三个车轮被固定而结束,则可以指示/警告该过程未完成,因为需要第四个车轮。以相似的方式,系统可以将动作与车辆清单进行匹配,以确保所需用于具体车辆的硬件选项都被安装。例如,如果系统检测到操作者伸手拿具有不正确的颜色的框板,则系统可以在继续行动之前警告用户查证该部件。以这种方式,人监视系统可以用作差错预防工具,以确保在组装过程期间执行所需的动作。
[0133]系统可以具有足够的灵活性,以适应执行一系列任务的多种不同方式,且可以验证该过程,只要在预定车辆位置处最终的人轨迹和活动列表完成了预定目标即可。尽管效率可能不被认为是一系列动作是否正确满足用于组装工作站的目标的因素,但是其可以被单独记录。以这种方式,实际的运动轨迹和活动日志可以与优化的运动轨迹相比较,以对总偏差进行定量,这可以用于建议过程效率改善(例如通过显示或打印活动报告)。
[0134]图8提供了活动监视方案的更详细的框图120。如所示的,在图框32中从摄像头收集视频数据流。在33处,这些数据流通过系统完整性监视模块传送,其检验图像处于正常操作状态。如果视频馈送不处于正常操作状态,则错误被发出且系统无法进入安全模式。在系统完整性监视之后的下一个步骤是人检测器-追踪模块122,其在上面总体描绘在图4中。该模块122获取每一个视频馈送且检测该场景中运动的人。一旦候选的运动区块可得,则系统可以使用分类器处理和过滤掉非运动的情况。该模块的最终输出为3D人轨迹。下一个步骤涉及在124处从3D人轨迹提取合适的图示。该图示方案是补充的且包括用于活动表象模拟图像像素126、代表场景运动的时空兴趣点(STIP) 128、将动作者从背景分离的轨迹130、和整合多个视图中信息的立体像素132。这些图示方案中每一个在下文详细描述。
[0135]一旦在104处以所述补充形式提取和图示了该信息,则系统提取某些特征且让它们经过相应的一组预训练分类器。暂时的SVM分类器134对STIP特征128进行操作且产生例如站立、曲膝、行走、弯腰等动作标记136,空间SVM分类器138对原始图像像素126操作且产生动作标记140,提取的轨迹信息130以及动作标记一起用于动态时间配准142,以将轨迹与典型的期望轨迹进行比较,且产生动作相似度评分144。人姿态估计分类器146被训练,从而其可采取立体像素图示132作为输入且产生姿态估计148作为输出。产生的时间、空间、轨迹比较的组合与基于立体像素的姿态被放入时空标签框150,所述标签框成为用于语描述模块152的构建框。该信息随后用于将任何活动序列分解为构成基元动作且产生AND-OR图表154。在156提取的AND-OR图表154随后与预定的活动卷轴(activityscroll)比较且产生匹配评分。低匹配评分用于发出表明所观察动作不是典型的且是反常的警告。在158处产生语义和视觉概要且将其存档。
[0136]用于图示动作的时空兴趣点(STIP)
[0137]STIP128是被检测的特征,其在空间和/或时间上呈现图像特点的重要局部改变。许多这些兴趣点在通过人执行动作期间产生。使用STIP128,系统可试图确定在被观察的视频序列中会发生什么动作。每一个提取的STIP特征128在134被传递通过SVM分类器组,且表决机构确定特征最可能与哪个动作相关。滑动窗口随后基于时间窗口中被检测的STIP的分类而确定每一个帧中被检测的动作。因为存在多个视图,所以该窗口将考虑来自所有视图的所有被检测特征。每帧中动作形式的最终信息可被精简为显示了被检测动作序列的图表。最后,该图表可以与SVM训练阶段期间产生的图表匹配,以验证被检测动作序列的正确性。
[0138]在一个例子中,在观察运动经过平台以在小汽车的具体区域使用扭矩枪的人时,STIP128可以被产生。该动作可以涉及人从步行姿态转变为许多钻孔姿态中的一个,保持该姿态短暂时间,且转变回到步行姿态。因为STIP是基于兴趣点的运动,所以进入和离开每一个姿态产生的STIP可将一个动作与另一动作区分开。
[0139]动态时间配准
[0140]动态时间配准(DTW)(在142执行)是用于测量时间或速度变化的两个序列之间相似度的算法。例如,经由DTW可在一个观察过程中检测两个轨迹之间步行样式的相似度,即使在一个序列中人慢慢地步行且在另一序列中他是快速步行的,或即使存在加速、减速或多个短暂停止,或即使两个序列沿时间线变换。DTW可以可靠地发现两个给定序列(例如时间序列)之间的最佳匹配。序列在时间尺度下被非线性地配准,以独立于时间尺度下某些非线性变量而测量其相似度。DTW算法使用动态编程技术以解决该问题。第一步骤是将一个信号中的每一个点与第二信号中的每一个点比较,产生矩阵。第二步骤是运行通过该矩阵,在左下角处(对应于两序列的开始)开始,且在右上角结束(两序列的终点)。对于每一个单元,通过选取矩阵中左方或下方具有最低累积距离的邻近单元计算累积距离,且将该值填加到中间单元。在该过程完成时,右上方单元中的值代表根据通过矩阵的最有效路径的两个序列信号之间的距离。
[0141]DTW可仅使用轨迹或使用轨迹加位置标记来测量相似度。在车辆组装的情况下,可以使用六个位置标记:FD、MD RD、RP、FP和步行,其中F、R、M代表小汽车的前部、中间和后部,且D和P分别代表司机侧和乘客侧。DTW的距离成本计算如下:
[0142]cost = α E+ (I— α ) L, O ^ α ^ I
[0143]其中,E为两个轨迹上两个点之间的欧式距离,且L是一定的时间窗口中位置的直方差.,α是加权数,且如果轨迹和位置标记都用于DTW测量的话,则设定为0.8。否则,对于仅轨迹测量,则α等于I。
[0144]使用空间分类器的动作标记
[0145]单个图像辨识系统可以用于在数据中可见的许多可能的全部动作中进行区分:例如步行、弯腰、蹲下和伸手。这些动作标记可以使用尺度不变特征变换法(SIFT)和SVM分类器确定。处于大多数分类技术的最低水平下的是这样一种方法,其以对各种烦扰行为不敏感的方式对图像编码,所述烦扰行为会在图像形成过程中出现(照明、姿态、观察点和堵塞)。SIFT描述符是本领域已知的对照明不敏感的,对姿态和观察点的小的变化稳定,且不因尺度和取向变化而变化。在一点周围的圆形图像区域中以一具体尺度计算SIFT描述符,该尺度确定了域半径和所需的图像模糊度。在使得图像模糊之后,找出梯度方向和大小,且空间箱体网格覆盖圆形图像域。最终的描述符是由空间箱体分隔的通过大小加权(自中心递减的高斯加权)的梯度方向的标准化直方图。因此,如果空间箱体网格为4x4且存在8个取向的箱体,则描述符具有的尺寸是4*4*8 = 128个箱体。尽管SIFT描述符的位置、尺度和取向可以对姿态和观察点不变的方式选择,但是最新分类技术使用固定尺度和取向,且将描述符布置在重叠域的网格中。这不仅提高性能,而且允许非常快速地计算图像中的所有描述符。
[0146]为了使得视觉类别可概括,类别的成员之间必须具有一些视觉相似性,并且和非成员相比时必须具有一些特殊性。另外,任何大的图像组将具有各种冗余数据(墙壁、地面等)。这导致“视觉关键词”的概念——小组原型描述符,其使用向量量子化技术(例如k均值聚类法)从训练描述符的整个集合获得。一旦视觉关键词组被计算——被称为编码本一一则图像可以该关键词在何处以及以何种频率发生而被唯一地描述。使用k均值聚类法形成编码本。该算法在数据空间中寻找k中心,每一个中心代表在该空间最靠近其的数据点集合。在从训练SIFT描述符得知k聚类中心(编码本)之后,任何新的SIFT描述符的视觉
当前第4页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1