基于人工纠错机制与深度学习网络协作机器视觉识别系统的制作方法

文档序号:10697773阅读:359来源:国知局
基于人工纠错机制与深度学习网络协作机器视觉识别系统的制作方法
【专利摘要】基于人工纠错机制与深度学习网络协作机器视觉识别系统,深度学习网络实时接收拍摄的视觉反馈图像,对接收的每帧图像进行深度学习处理,将处理后的图像以及图像上检测目标的坐标、角度和时间信息发送至中间结果综合处理单元;将处理后的图像发送至人机纠错接口;人机纠错接口对接收每帧处理后的图像进行连续显示,由人工根据拍摄的视觉反馈图像的具体情况,在显示的图像上将明显错误目标的着重显示去掉,并将相关信息发送至中间结果综合处理单元;中间结果综合处理单元从接收到的每帧图像的检测目标在图像坐标系下的坐标、角度和时间信息中剔除错误目标的信息,得到图像坐标系下,识别目标的坐标、角度和时间信息,同时在接收的着重显示的视觉反馈图像上将错误目标的着重显示去掉,完成视觉识别。
【专利说明】
基于人工纠错机制与深度学习网络协作机器视觉识别系统
技术领域
[0001] 本发明设及一种基于人工纠错机制与深度学习网络协作机器视觉识别系统。
【背景技术】
[0002] 在机器视觉技术中,现有的图像识别方法,通常是对一定的特征进行提取,得到的 特征与理想值进行比对,比对相似度高的作为识别结果。
[0003] 在多目标分炼领域,需要识别的目标类别、特征种类非常多,例如各种形状、颜色 的瓶子、罐子等,由于特征提取的计算量很大,提取多种特征的方法在实时性上不能满足要 求;并且特征提取的方法的准确率一直不高,在工业自动化生产线上,很难满足使用要求。

【发明内容】

[0004] 本发明的技术解决问题是:克服现有技术的不足,提出一种基于人工纠错机制与 深度学习网络协作机器视觉识系统。
[0005] 本发明的技术解决方案是:一种基于人工纠错机制与深度学习网络协作机器视觉 识别系统,包括深度学习网络、中间结果综合处理单元和人机纠错接口;
[0006] 深度学习网络实时接收拍摄的视觉反馈图像,对接收的每帖图像进行深度学习处 理,即多层卷积、池化操作、分类处理后得到图像上检测目标在图像坐标系下的坐标、角度 和时间,并在拍摄的视觉反馈图像上将图像上检测目标的坐标、角度进行着重显示,将处理 后的图像W及图像上检测目标的坐标、角度和时间信息发送至中间结果综合处理单元;将 处理后的图像发送至人机纠错接口,所述的时间为图像拍摄时间,所述的角度为目标所在 轴线与图像坐标系X轴之间的夹角;
[0007] 人机纠错接口对接收每帖处理后的图像进行连续显示,由人工根据拍摄的视觉反 馈图像的具体情况,在显示的图像上将明显错误目标的着重显示去掉,将着重显示去掉的 目标在人机纠错接口坐标系下的坐标信息W及时间发送至中间结果综合处理单元;
[000引中间结果综合处理单元将人机纠错接口发送的坐标信息转换到图像坐标系下,得 到错误目标的坐标,从接收到的每帖图像的检测目标在图像坐标系下的坐标、角度和时间 信息中剔除错误目标的信息,得到图像坐标系下,识别目标的坐标、角度和时间信息,同时 在接收的着重显示的视觉反馈图像上将错误目标的着重显示去掉,完成视觉识别。
[0009]所述的分类处理为将多层卷积、池化操作后的最后一层即1层的每个结果分别进 行如下处理:
[0010] (1)将1层的第k个结果Mik池化为3个不同尺寸的目标矩阵Mkfi,Mkf2,Mkf3;其中Mkfi的 尺寸为4X4,池化时滑动窗的尺寸号X ^,步长为等,著;Mkf2的尺寸为2X2,池化时 滑动窗的尺寸导X每j步长为罩,每,Mkf3的尺寸为1X1,池化时滑动窗的尺寸m,n, 么 'jL. L· 步长为m,n;mXn为化k的尺寸;
[oow (2)将Mik、Mkf2、Mkf3的元素依次复制到一个向量,作为尺寸规则化向量Vk;将Vk分别 输入到Ξ个全连接神经网络,第一个网络为类别网络,神经元个数为2即背景和目标物两 类,得到结果为Fik,尺寸为2X1;第二个网络为包围盒回归网络,神经元个数为8即分别为背 景和目标物的包围盒坐标信息,得到结果为F2k,尺寸为8X1;第Ξ个网络为角度回归网络, 神经元个数为1,得到结果为的k,尺寸为1 X 1;
[001^ (3)根据P = h(Fik)得到目标物的概率,其中
巧分类参数;取P 的概率作为目标物,其中b为预设的阔值参数;
[001引则,目标物的坐杨
却k为包围盒的坐标(x,y,w,h),其中,巧为包围盒左 上角坐标,Wh为盒子的宽度和高度;F3k的结果为目标物的角度。
[0014] 中间结果综合处理单元具体实现步骤如下:
[0015] (1)将人机纠错接口发送的坐标信息转换到图像坐标系下,得到错误目标的坐标;
[0016] (2)根据错误目标的时间T0,从接收到的深度学习网络处理结果中获取对应帖图 像Q0;
[0017] (3)将错误目标的坐标分别与上述对应帖图像的所有检测目标坐标计算欧氏距 离,欧氏距离最小的目标即为图像Q0上的错误目标^0,¥0,20),将该目标的相关信息剔除;
[0018] (4) WQ0为基准,依次获取下一帖图像上纵坐标为Y0的所有目标,根据拍摄时目标 物的运动速度V及两帖时间差,计算下一帖图像上对应错误目标的理论位置,计算理论位置 与下一帖图像上所有目标的欧氏距离,欧氏距离最小对应的目标位置即为下一帖图像上对 应错误目标的坐标系,直至在某一帖图像上获取不到纵坐标为Y0的目标;
[0019] (5)对步骤(4)处理后的每帖图像所有目标的Y值进行统计,得到同一个目标的连 续被统计的次数,若在规定的时间内统计次数达到预设的阔值,则该目标为识别的正确目 标,否则,将该目标的相关信息剔除。
[0020] 每帖图像上同一目标的确定方法,W-帖图像上的一个目标为基准,依次获取其 他帖图像上与基准目标纵坐标相同的目标,根据拍摄时目标物的运动速度V及两帖时间差, 计算另外一帖图像上对应目标的理论位置,计算理论位置与该另外一帖图像上所有目标的 欧氏距离,欧氏距离最小对应的目标为与基准目标相同的目标。
[0021] 本发明与现有技术相比的有益效果是:
[0022] (1)本发明的基于人工纠错机制与深度学习网络协作机器视觉识别方法,能够克 服上述两点不足,在需要识别的特征种类多的情况下,深度学习网络能够有效的识别目标, 并且实时性能够满足使用要求;但是深度网络的计算的综合特征虽然数量足够多、速度足 够快,但是存在误识别的问题,即错误的将非目标物识别为目标物,人工纠错机制的引入, 能够去除运些非目标物,同时保证了速度要求,有效的提高识别的准确率。
[0023] (2)深度学习网络目前在工业领域还没有成熟应用,主要原因是识别的范围和正 确率不能保证。本发明的待识别目标范围非常广泛,形状、尺寸、颜色差异较大,并且识别环 境恶劣,目标物被遮盖的情况十分严重,运在计算机视觉和机器视觉应用中十分少见,识别 难度大,人工纠错机制和深度学习网络结合的识别方法,很好的解决了被识别目标广泛和 识别环境恶劣的问题。在正确率的保证上,由于有人工纠错机制的引入,正确率大幅提高, 满足了工业稳定性的要求。
【附图说明】
[0024] 图1为本发明系统框图;
[0025] 图2为本发明物理架构实施框图;
[0026] 图3为本发明基于机器视觉的动态目标信息提取示意图;
[0027] 图4为本发明深度学习网络模块示意图。
【具体实施方式】
[0028] 下面结合附图及实施例对本发明做详细说明。
[0029] 如图1、2所示,本发明系统包括深度学习网络、中间结果综合处理单元和人机纠错 接口;按照图2中的物理架构,摄像头实时拍摄传送带上的物品,得到视觉反馈图像,人机纠 错接口可W采用目前常用的触摸屏的方式,深度学习网络和中间结果综合处理单元都运行 在工控机上,各个部分组合完成对传送带上目标物的识别。下面分别对每部分进行详细说 明。
[0030] (一)深度学习网络
[0031] 深度学习网络实时接收拍摄的视觉反馈图像,对接收的每帖图像进行深度学习处 理,即多层卷积、池化操作、分类处理后得到图像上检测目标在图像坐标系下的坐标、角度 和时间,并在拍摄的视觉反馈图像上将图像上检测目标的坐标、角度进行着重显示,将处理 后的图像W及图像上检测目标的坐标、角度和时间信息发送至中间结果综合处理单元;将 处理后的图像发送至人机纠错接口(图4),所述的时间为图像拍摄时间,所述的角度为目标 所在轴线与图像坐标系X轴之间的夹角;
[0032] 图像坐标系描述单个像素在整幅图像中的位置坐标,坐标系原点设在图像左上角 的像素点,坐标为(〇,〇),图像坐标系横轴为水平方向,最大值1600,图像坐标系纵轴为垂直 方向,最大值为1200,即图像宽度为1600X1200。
[0033] (1)对输入的图像分层卷积和池化。
[0034] ①输入图像的数值矩阵为Mo,尺寸为Μ X N,本方案采用1600 X 1200。将数值矩阵为 Mo与卷积核化1作卷积运算:
[003引 Μ巧=舶巧材
[0036] 其中,@表示矩阵卷积。化1为第1层的第k个特征的卷积核矩阵,4=1···256,即第一 层共256个特征卷积核,Hki的参数由VGG16模型得到。Mik为深度网络第1层的第k个输出,即 第一层的卷积输出共256个。
[0037] ②将第一层的卷积结果化k作池化处理,本方案采用最大值池化方法,即将化k中每 2 X 2个局部矩阵合并为一个元素,W四个元素中最大值作为结果,池化时的步长为2。
[003引化k池化后的结果为化kc,Mikc的尺寸为原尺寸的一半。
[0039] ③将第一层的卷积池化结果Mik。输入到第二层,得到第二层的结果M2k。,依次得到 第^1层的结果M(i-I)kc。
[0040]递推得到第1层的卷积和池化操作:
[0041 ] .M煤.'='M(z-1他 0 /;/拍
[0042] 其中化1为第1层的第k个特征的卷积核矩阵,化1的参数由VGG16模型得到。Mik为深 度网络第1层的第k个输出。
[0043] (2)分类器操作。
[0044] ①将化k (尺寸为m X η)池化为3个不同尺寸的目标矩阵Mkf 1,Mkf 2,Mkf 3。其中Mkf 1的尺 寸为4 X 4,池化时滑动窗的尺寸
。同理得至ljMkf2、Mkf3,其中Mkf2 的尺寸为2 X 2,Mkf3的尺寸为1 X 1。
[0045] ②将Mik、Mkf2、Mkf3的元素依次复制到一个向量,作为尺寸规则化向量Vk。将Vk分别 输入到Ξ个全连接神经网络。第一个网络为类别网络,神经元个数为2(背景和瓶子共两 类),得到结果为Fik,尺寸为2X1。第二个网络为包围盒回归网络,神经元个数为8(类别的包 围盒坐标信息),得到结果为F2k,尺寸为8X1。第Ξ个网络为角度回归网络,神经元个数为1, 得到结果为的k,尺寸为IX 1。
[0046] (3)将F化输入至分类器函数:
[0047]
[004引其中目为分类参数。将F化代入上式得瓶子的概率:P = h(Fik)取陪b的概率作为目 标瓶子,其中b为阔值参数。
[0049] F化为包围盒的坐标(x,y,w,h),其中,巧为包围盒左上角坐标,Λ为盒子的宽度和 高度,由此可得瓶子的坐标为:
[0052] F3k的结果为瓶子的角度Α。
[0化3](二)人机纠错接口
[0054] 人机纠错接口对接收每帖处理后的图像进行连续显示,由人工根据拍摄的视觉反 馈图像的具体情况,在显示的图像上将明显错误目标的着重显示去掉,将着重显示去掉的 目标在人机纠错接口坐标系下的坐标信息W及时间发送至中间结果综合处理单元;
[0055] 人机纠错接口坐标系W屏幕的左上角的第一个像素点为原点,横坐标为水平方 向,纵坐标为垂直方向;
[0056] W从传送带上的垃圾中识别瓶子目标为例,触摸屏上将深度学习网络后每帖图像 连续平滑的显示,图像上将深度学习网络得到的检测目标采用最小矩形框或者其他方式进 行着重显示,当人工通过触摸屏上的图像发现,最小矩形框中目标不是瓶子时,人工点击触 摸屏上对应的矩形框,该位置的矩形框W消失或者其他更亮、更暗的方式进行显示,触摸屏 将相应的坐标信息发送至中间结果综合处理单元。
[0057] (Ξ)中间结果综合处理单元
[005引中间结果综合处理单元将人机纠错接口发送的坐标信息转换到图像坐标系下,得 到错误目标的坐标,从接收到的每帖图像的检测目标在图像坐标系下的坐标、角度和时间 信息中剔除错误目标的信息,得到图像坐标系下,识别目标的坐标、角度和时间信息,同时 在接收的着重显示的视觉反馈图像上将错误目标的着重显示去掉,完成视觉识别。具体实 现步骤如下:
[0059] (1)将人机纠错接口发送的坐标信息转换到图像坐标系下,得到错误目标的坐标;
[0060] (2)根据错误目标的时间T0,从接收到的深度学习网络处理结果中获取对应帖图 像Q0;
[0061] (3)将错误目标的坐标分别与上述对应帖图像的所有检测目标坐标计算欧氏距 离,欧氏距离最小的目标即为图像Q0上的错误目标^0,¥0,20),将该目标的相关信息剔除;
[0062] (4) WQ0为基准,依次获取下一帖图像上纵坐标为Y0的所有目标,根据拍摄时目标 物的运动速度V及两帖时间差,计算下一帖图像上对应错误目标的理论位置,计算理论位置 与下一帖图像上所有目标的欧氏距离,欧氏距离最小对应的目标位置即为下一帖图像上对 应错误目标的坐标系,直至在某一帖图像上获取不到纵坐标为Y0的目标;
[0063] WQ0的下一帖图像Q1为例,Q1上对应错误目标的理论位置横坐标X1 = X0+V(T1 - TO) ;Q1的下一帖图像Q2对应错误目标的理论位置横坐标Χ2 = Χ0+ν(Τ2-Τ0),W此类推。当某 一帖图像上获取不到纵坐标为Υ0的目标时,代表该目标由于传送带的移动已经不在摄像范 围内,因此,后续不需要对该目标进行相应的处理。
[0064] 在传送带上的目标识别对象是在不断移动的,摄像头对目标识别对象进行连续拍 照,在摄像头视野范围内,同一目标识别对象会在多张图像的不同位置出现,动态目标信息 提取时,需要剔除那些重复的目标识别信息。为解决同一目标识别对象在连续运动状态下 的信息提取,本文提出了基于机器视觉的动态目标信息提取方法。该方法示意如图1所示。 把目标识别对象在摄像头视野范围内的图像分为两类,一、刚进摄像头视野和出摄像头视 野的目标对象局部图像,如图3中的①和③;二、在摄像头视野范围内的目标对象的完整图 像,如图1中的②。
[0065] 假设传送带的速度为V。,摄像头的帖率为Fps,摄像头在Υ方向的视野范围为Sy,目 标对象的轮廓W不同姿态在Y轴上占用的最大长度Lmax。则:目标对象在图像中完整的成像 次数Nc可W计算为:
[0066]
[0067] Nc取整数部分。
[0068] 因此,上述步骤(4)也可W预先通过计算完整的成像次数N。,当计算下一帖图像上 对应错误目标理论位置的次数达到Nc时,表明目标由于传送带的移动已经不在摄像范围 内。
[0069] (5)对步骤(4)处理后的每帖图像所有目标的Y值进行统计,得到同一个目标的连 续被统计的次数,若在规定的时间内统计次数达到预设的阔值,则该目标为识别的正确目 标,否则,将该目标的相关信息剔除。
[0070] 每帖图像上同一目标的确定方法,W-帖图像上的一个目标为基准,依次获取其 他帖图像上与基准目标纵坐标相同的目标,根据拍摄时目标物的运动速度V及两帖时间差, 计算另外一帖图像上对应目标的理论位置,计算理论位置与该另外一帖图像上所有目标的 欧氏距离,欧氏距离最小对应的目标为与基准目标相同的目标。
[0071] 中间结果综合处理单元输出给后续外部应用的信息为每个目标在图像坐标系下 的坐标、角度、时间。当目标在多帖图像上出现时,根据上述方法确定每帖图像上的相同目 标,选择其中一帖图像上的坐标、角度、时间输出。或者对所有同一目标的坐标、角度、时间 取均值输出。
[0072] 本发明未详细说明部分属于本领域技术人员公知常识。
【主权项】
1. 一种基于人工纠错机制与深度学习网络协作机器视觉识别系统,其特征在于包括深 度学习网络、中间结果综合处理单元和人机纠错接口; 深度学习网络实时接收拍摄的视觉反馈图像,对接收的每帧图像进行深度学习处理, 即多层卷积、池化操作、分类处理后得到图像上检测目标在图像坐标系下的坐标、角度和时 间,并在拍摄的视觉反馈图像上将图像上检测目标的坐标、角度进行着重显示,将处理后的 图像以及图像上检测目标的坐标、角度和时间信息发送至中间结果综合处理单元;将处理 后的图像发送至人机纠错接口,所述的时间为图像拍摄时间,所述的角度为目标所在轴线 与图像坐标系X轴之间的夹角; 人机纠错接口对接收每帧处理后的图像进行连续显示,由人工根据拍摄的视觉反馈图 像的具体情况,在显示的图像上将明显错误目标的着重显示去掉,将着重显示去掉的目标 在人机纠错接口坐标系下的坐标信息以及时间发送至中间结果综合处理单元; 中间结果综合处理单元将人机纠错接口发送的坐标信息转换到图像坐标系下,得到错 误目标的坐标,从接收到的每帧图像的检测目标在图像坐标系下的坐标、角度和时间信息 中剔除错误目标的信息,得到图像坐标系下,识别目标的坐标、角度和时间信息,同时在接 收的着重显示的视觉反馈图像上将错误目标的着重显示去掉,完成视觉识别。2. 根据权利要求1所述的一种基于人工纠错机制与深度学习网络协作机器视觉识别系 统,其特征在于:所述的分类处理为将多层卷积、池化操作后的最后一层即1层的每个结果 分别进行如下处理: (1) 将1层的第k个结果Mik池化为3个不同尺寸的目标矩阵Mkfi,Mkf2,Mkf3;其中Mkfi的尺寸 为4X4,池化时滑动窗的尺寸步长为;Mkf2的尺寸为2X2,池化时滑动 窗的尺X,步长为,Mkf3的尺寸为1X1,池化时滑动窗的尺寸m,n,步长 (2) 将Mik、Mkf2、Mkf3的元素依次复制到一个向量,作为尺寸规则化向量Vk;将Vk分别输入 到三个全连接神经网络,第一个网络为类别网络,神经元个数为2即背景和目标物两类,得 到结果为F lk,尺寸为2X1;第二个网络为包围盒回归网络,神经元个数为8即分别为背景和 目标物的包围盒坐标信息,得到结果为F 2k,尺寸为8X1;第三个网络为角度回归网络,神经 元个数为1,得到结果为F3k,尺寸为1 X 1; ⑶根据P=h(Flk)得到目标物的概率,其中<…为分类参数;取p彡b的 概率作为目标物,其中b为预设的阈值参数;贝1J,目标物的坐标,F2k为包围盒的坐标(x,y,w,h),其中,xy为包围盒左上角 坐标,wh为盒子的宽度和高度;F3k的结果为目标物的角度。3. 根据权利要求1所述的一种基于人工纠错机制与深度学习网络协作机器视觉识别系 统,其特征在于:中间结果综合处理单元具体实现步骤如下: (1) 将人机纠错接口发送的坐标信息转换到图像坐标系下,得到错误目标的坐标; (2) 根据错误目标的时间T0,从接收到的深度学习网络处理结果中获取对应帧图像Q0; (3) 将错误目标的坐标分别与上述对应帧图像的所有检测目标坐标计算欧氏距离,欧 氏距离最小的目标即为图像Q0上的错误目标0〇,¥〇,2〇),将该目标的相关信息剔除; (4) 以Q0为基准,依次获取下一帧图像上纵坐标为Y0的所有目标,根据拍摄时目标物的 运动速度v及两帧时间差,计算下一帧图像上对应错误目标的理论位置,计算理论位置与下 一帧图像上所有目标的欧氏距离,欧氏距离最小对应的目标位置即为下一帧图像上对应错 误目标的坐标系,直至在某一帧图像上获取不到纵坐标为Y0的目标; (5) 对步骤(4)处理后的每帧图像所有目标的Y值进行统计,得到同一个目标的连续被 统计的次数,若在规定的时间内统计次数达到预设的阈值,则该目标为识别的正确目标,否 则,将该目标的相关信息剔除。4.根据权利要求1所述的一种基于人工纠错机制与深度学习网络协作机器视觉识别系 统,其特征在于:每帧图像上同一目标的确定方法,以一帧图像上的一个目标为基准,依次 获取其他帧图像上与基准目标纵坐标相同的目标,根据拍摄时目标物的运动速度v及两帧 时间差,计算另外一帧图像上对应目标的理论位置,计算理论位置与该另外一帧图像上所 有目标的欧氏距离,欧氏距离最小对应的目标为与基准目标相同的目标。
【文档编号】G06K9/03GK106067031SQ201610362686
【公开日】2016年11月2日
【申请日】2016年5月26日 公开号201610362686.8, CN 106067031 A, CN 106067031A, CN 201610362686, CN-A-106067031, CN106067031 A, CN106067031A, CN201610362686, CN201610362686.8
【发明人】王燕波, 梁斌焱, 杨涛, 陈志鸿, 张科, 邹河彬, 由晓明
【申请人】北京新长征天高智机科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1