图像主体的识别、矫正与配准方法与流程

文档序号：11134713阅读：1016来源：国知局

本发明属于图像处理技术，特别是一种基于图像特征和像素分布模式的图像主体的识别、矫正与配准方法。

背景技术：

随着数学、物理学、地理学知识体系的不断完备和卫星技术、计算机技术、互联网技术等多重领域的进步，图像资料越来越多，涉及到图像的处理、存储与检索的技术是大数据时代的利器。图像主体的识别、矫正与配准方法被广泛应用于地理、航海等拥有大量零散图片数据的领域中。在交通运输领域，港口集装箱的箱体识别能有效提高运输效率，降低成本，具有极大的经济效益。而图像主体的识别、矫正与配准方法有利于排除背景干扰，减小箱体识别的样本集，从而提高识别效率。

图像主体的识别、矫正与配准方法是将图片中的主体内容与无关背景分离、矫正镜头畸变、将多张含有相同特征的图片配准拼接成一张图片。该方法主要涉及图像采集和分类、图像分割、图像特征值提取、图像变换、图像配准与拼接等步骤。其中关键问题是边缘检测和图像特征值提取部分。

目前在工业领域，模式识别基本基于原始图片进行直接增强、聚类、识别，但是对目标前景比例较小的图片，无法有效识别区分前景和背景，加大了处理运算过程中的误差，降低了图像分析的准确率和成功率。本文在此基础上提出先对原始图片进行目标前景的提取、矫正和投影，消除无关背景对图像处理构成的误差影响，有效提高分析识别的准确率，同时使得人机交互过程中的中间图像更加直观清晰，增强交互体验。

目前在图像识别方面有统计模式识别、结构模式识别、模糊模式识别。图像分割是图像处理中的一项关键技术。1979年日本学者大津提出了基于图像灰度特性，将图像分成目标和背景两部分的自适应阈值算法(Otsu N.A threshold selection method from gray-level histograms[J].Automatica,1975,11(285-296):23-27.)。1986年加利福尼亚大学的Canny教授提出了一种多级边缘检测算法，在保留原有图像属性的情况下，显著减少图像的数据规模(Canny J.A computational approach to edge detection[J].IEEE Transactions on pattern analysis and machine intelligence,1986(6):679-698.)。图像矫正方面主要运用到数值分析方法中的插值技术，赵庆鹏和马华东分析几何畸变产生的原因，结合数值分析方法提出了一种自适应几何畸变图像矫正方案，实验证明了其算法的有效性(赵庆鹏,马华东.自适应几何畸变图像矫正方法研究[C][C]//第三届和谐人机环境联合学术会议(HHME2007)论文集.2007年,2007.)。在图像配准方面，Flussr对畸变图像的配准问题提出了自适应映射方法，提高了配准的准确率(Flusser J.An adaptive method for image registration[J].Pattern Recognition,1992,25(1):45-54.)。

技术实现要素：

本发明的目的在于提供一种图像主体的识别、矫正与配准方法，对集装箱的箱体进行识别、矩形矫正与配准拼接，为后期的箱体数字和残损识别排除无关背景干扰，减少样本集，提高识别效率。

实现本发明目的的技术解决方案为：一种图像主体的识别、矫正与配准方法，步骤如下：

第一步，目标检测，在原图中提取出车厢的区域。针对大部分车厢都是红色、蓝色、橙色，将图像转换到HSV空间，然后利用色调H特征将前景和背景大致区分开来。然后利用色调直方图、大津算法阈值分割将前景车厢和背景分开，得到二值图像，再通过膨胀处理去除一些噪点。最后根据二值图像保留原图中车厢部分；

第二步，图像特征提取，定位出车厢四个角的位置；对黑色背景部分和白色车厢部分赋值为0-1矩阵，然后根据白色车厢部分的分布特征对黑白边界作出定位，再确认出四个角的位置；

第三步，透视变换，将不规则的凸四边形拉伸至矩形。求解出变换矩阵，其功能是任意四边形和正方形的相互转换，则可以先将四边形转换成正方形，再从正方形转换为矩形；

第四步，配准拼接，将多张箱体图片进行组合。采用Opencv开源库Stitcher类完成侧面多张箱体图的拼接配准拼接。对于不同面的照片，即放缩至高度相同，再利用矩阵性质将图片增广。

本发明结合了现有的图像处理技术和算法，针对性地对集装箱箱体图片进行了预处理，优点有：(1)速度性能好。能迅速处理多张图片的矫正和拼接。(2)图片数量不限。理论上可以实现任意张图片的矫正拼接。(3)算法准确率高。在对交通领域中集装箱体图片的矫正拼接实验中，65％的样本可做到截取后的箱体侧边垂直于高和底，倾斜角约为90°，20％的样本截取后箱体侧边与底倾斜角约为85°，仅有5％的样本会截断原四边形，使效果图不完整。综上，本算法可以有效的恢复图片的线性和非线性失真，并能将图片进行有效的配准拼接。

附图说明

图1是本发明基于图像特征和像素分布模式的图像主体的识别、矫正与配准流程图

图2是原图以及原图经过利用色调直方图、大津算法阈值分割将前景车厢和背景分开，得到的二值图像。

图3是经过膨胀处理后的二值化图片，大量噪点被消除。

图4是四边形变换到正方形的变换矩阵原理示意图。

图5是集装箱图片经过矩阵变换后箱体的结果图。

图6是对两张具有公共特征的图片配准拼接得到的结果图。

具体实施方式

下面结合附图对本发明作进一步详细描述。

结合图1，本发明基于图像特征和像素分布模式的图像主体的识别、矫正与配准方法，步骤如下：

第一步，目标检测，在原图中提取出车厢的区域。针对大部分车厢都是红色、蓝色、橙色，将图像转换到HSV空间，然后利用色调H特征将前景和背景大致区分开来；

(1)将图像RGB空间向量(r,g,b)转换到HSV空间向量(h,s,v)，然后将HSV空间的色调H向量剥离出来，形成一维灰度向量，采用公式

(2)然后利用色调直方图、大津算法阈值分割将前景车厢和背景分开，得到二值图像；对于图像I(x,y)，前景和背景的分割阈值记作T，属于前景的像素点数占整幅图像的比例记为ω₀，其平均灰度μ₀；背景像素点数占整幅图像的比例为ω₁，其平均灰度为μ_1；图像的总平均灰度记为μ，类间方差记为g；假设图像的背景较暗，并且图像的大小为M×N，图像中像素的灰度值小于阈值T的像素个数记作N₀，像素灰度大于阈值T的像素个数记作N₁，则有：

N₀+N₁＝M×N

ω₀+ω₁＝1

μ＝ω₀×μ₀+ω₁×μ₁

g＝ω₀(μ₀-μ)²+ω₁(μ₁-μ)²

将倒数第二个式子代入最后一个式子，得到等价公式：g＝ω₀ω₁(μ₀-μ₁)²；这就是类间方差；采用遍历的方法得到使类间方差g最大的阈值T，即为所求；得到的二值化图像如图2，可以看到白点充斥在黑色背景中，有大量噪点；

(3)再通过膨胀处理去除一些噪点，膨胀算法既是用3×3的结构元素，扫描二值图像的每一个像素，用结构元素与其覆盖的二值图像做“与”运算，如果都为0，结构图像的该像素为0；否则1，结果：使二值图像扩大一圈；膨胀后图片如图3，大量噪点被消除；

第二步，图像特征提取，定位出车厢四个角的位置；

车厢在图片中近似于梯形，但因为背景的不纯净、车道上黄线的干扰、边缘的不稳定性，使得图像中车厢出现冗余的边界；

(1)得到n行m列的0-1矩阵；由于大津算法得到的二值图像只能保证前景与后景相对取值不同，但不能保证绝对取值；故取图片中部区域进行判断，让车厢所在的区域内矩阵值为1，其他区域内矩阵值为0；车厢外延会出现杂质标为1，同时背景中有亮色的区域也被标记为1；

(2)确定车厢的上下界；车厢大致为上大下小的梯形，矩阵每行相加得到累加值s。根据实际拍摄到的图片，发现上界的s值占m的80～90％，但上界上面出现杂质，s值大约在m的10～30％；有些车厢会呈现倾斜。因此从上往下遍历半张图片，待s值增至m的1/3后出现跃变时，即认为到达上边界。下界由类似的方法得到；

(3)确定车厢的端点；矩阵每列相加得到累加值r，由梯形的性质可得，r值在理想情况下从左到右先从0增加至最大值，保持不变，后又减至0；在实际的图形中很难得到等差序列，但中间保持不变的部分可以取样得到平均值，再通过从中间往外得到突变的位置确定左右界，可以依次确定四个端点；

第三步，透视变换，是将图片投影到一个新的视平面，将不规则的凸四边形拉伸至矩形；求解出变换矩阵，其功能是任意四边形和矩形的相互转换，则可以先将四边形转换成矩形；

(1)换算公式

u,v是原始图片坐标，对应得到变换后的图片坐标x,y，同时投影缩放倍数为w.其中

x＝x′/w′，y＝y′/w′

变换矩阵

可以拆成4部分，

表示线性变换，比如按比例缩放，裁剪和旋转；

[a₃₁ a₃₂]

用于平移，

[a₁₃ a₂₃]^T

产生透视变换。重写之前的变换公式可以得到：

所以，已知变换对应的几个点就可以求取变换公式。反之，特定的变换公式也能得到新的变换后的图片；简单地看一个正方形到四边形的变换：

变换的4组对应点可以表示成：

(0，0)→(x₀，y₀)，(1，0)→(x₁，y₁)，(1，1)→(x₂，y₂)，(0，1)→(x₃，y₃)

根据变换公式得到：

a₃₁＝x0

a₁₁+a₃₁-a₁₃x₁＝x₁

a₁₁+a₂₁+a₃₁-a₁₃x₂-a₂₃x₂＝x₂

a₂₁+a₃₁-a₂₃x₃＝x₃

a₃₂＝y₀

a₁₂+a₃₂-a₁₃y₁＝y₁

a₁₂+a₂₂+a₃₂-a₁₃y₂-a₂₃y₂＝y₂

a₂₂+a₃₂-a₂₃y₃＝y₃

定义几个辅助变量：

Δx₁＝x₁－x₂Δx₂＝x₃-x₂Δx₃＝x₀-x₁+x₂-x₃

Δy₁＝y₁-y₂ Δy₂＝y₃-y₂ Δy₃＝y₀-y₁+y₂－y₃

Δx₃，Δy₃都为0时变换平面与原来是平行的，可以得到：

a₁₁＝x₁-x₀

a₂₁＝x₂－x₁

a₃₁＝x₀

a₁₂＝y₁－y₀

a₂₂＝y₂-y₁

a₃₂＝y₀

a₁₃＝0

a₁₂＝0

Δx₃，Δy₃不为0时，得到：

a₁₁＝x₁-x₀+a₁₂x₁

a_2l＝x₃-x₀+a₁₂x₂

a₃₁＝x₀

a₁₂＝y₁-y₀+a₁₃y₁

a₂₂＝y₃-y₀+a₂₃y₃

a₃₂＝y₀

求解出的变换矩阵就可以将一个正方形变换到四边形；反之，四边形变换到正方形也是一样的；于是，我们通过两次变换：四边形变换到正方形，再从正方形变换到四边形就可以将任意一个四边形变换到另一个四边形，如图4；实验效果图如图5；

第四步，配准拼接，将多张箱体图片进行组合；采用Opencv开源库Stitcher类完成侧面多张箱体图的拼接配准拼接；对于不同面的照片，即放缩至高度相同，再利用矩阵性质将图片增广；Opencv开源库Stitcher类涉及到很多的算法，比如：特征点的提取、特征点匹配、图像融合等等；这些过程被封装在Stitcher类中；程序拼接效果如图6。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吴丽丹;王永利;马云涛;龚佳俊;
技术所有人：南京理工大学;
我是此专利的发明人

上一篇：目标对象识别方法及装置与制造工艺
上一篇：一种数据处理方法以及设备与制造工艺

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。