一种塑封邮件图像地址块定位方法与流程

文档序号:17924296发布日期:2019-06-15 00:18阅读:181来源:国知局
一种塑封邮件图像地址块定位方法与流程

本发明属于邮政技术领域,特别涉及是一种塑封邮件图像地址块定位方法。



背景技术:

塑封邮件采用塑料薄膜封装,内装有广告、杂志、报纸等资料,具有自重轻、成本低廉、防潮防水性强、适合批量制作等优点。由于塑料薄膜是透明材质,袋内资料的封面内容会与邮件上的收件人地址相混合,对收件人地址块定位产生干扰。由塑封邮件采集的邮件图像,存在建筑物图案、文字符号图案、邮戳等信息,具有较为复杂的背景。同时收件人地址块的位置、大小不固定,收件人地址块上的文字大小不统一,这进一步加深了塑封邮件地址块的定位难度。在实际分拣流程中,邮件地址块定位作为邮政自动化的第一步,是实现自动分拣的先决条件。因此,研究专门针对具有复杂背景的塑封邮件的地址块定位具有重大意义。



技术实现要素:

本发明的目的是提供一种塑封邮件图像地址块定位方法,来解决塑封邮件在自动分拣中的地址块定位问题。

实现本发明目的的具体技术方案是:

一种塑封邮件图像地址块定位方法,包括以下步骤:

训练阶段:

步骤1:训练产生改进的BING模型;

步骤2:标记训练邮件的正负样本;

步骤3:采用稠密采样方式提取样本的SIFT特征;

步骤4:利用样本SIFT特征构建视觉词典;

步骤5:生成金字塔视觉直方图表征正负样本;

步骤6:训练产生分类器模型;

分类阶段:

步骤7:利用改进的BING模型产生测试邮件的候选域;

步骤8:采用稠密采样方式提取候选域的SIFT特征;

步骤9:生成金字塔视觉直方图表征候选域;

步骤10:利用分类器模型定位邮件图像地址块。

本发明提出的一种塑封邮件图像地址块定位方法中,训练阶段前包括对图像进行预处理,所述预处理过程包括如下步骤:

彩色图像转灰色图像,统一尺寸到480×640大小,像素归一化处理;

本发明提出的一种塑封邮件图像地址块定位方法中,所述步骤1训练产生改进的BING模型,进一步包括:

训练阶段一:

步骤1a:标定出邮件图像的样本集,其中正样本为人工标定的收件人地址块区域,负样本为随机产生的图像区域,该区域相对于收件人地址块的覆盖率低于50%;

步骤1b:将正负样本都缩放到规定8×8大小,计算缩放区域的改进的梯度幅值特征(Normed Gradients,NG),获得8×8的矩阵表征正负样本;

步骤1c:根据步骤1b中样本的特征向量和标签采用台湾大学林智仁教授等开发设计的LIBLINEAR库实现的线性SVM获得线性模型w;

训练阶段二:

步骤1d:将训练邮件图像缩放成16种不同的尺寸,其中缩放尺寸为{(Wo,Ho)},Wo,Ho={40,80,160,320};

步骤le:对于步骤1d中得到的不同尺寸的训练邮件图像,采用模板匹配和非极大值抑制方法(Non-Maximum Suppression,NMS)获得候选窗口集合;

步骤1f:将步骤1e中的候选窗口与步骤1a中的正样本进行交集计算,重合率大于0.5的候选窗口认为是正样本,否则为负样本;

步骤1g:使用线性SVM训练出每个尺寸图像的模型,即系数vi和偏差值ti。

本发明提出的一种塑封邮件图像地址块定位方法中,所述步骤2标记训练邮件的正负样本,进一步包括:

对于每一幅训练邮件:

步骤2a:标记训练邮件的收件人地址块作为正样本;

步骤2b:标记训练邮件的邮戳、邮编和发送地址作为负样本;

步骤2c:标记与收件人地址块不重叠的5个背景区域作为负样本。

本发明提出的一种塑封邮件图像地址块定位方法中,所述步骤3采用稠密采样方式提取样本的SIFT特征,进一步包括:

步骤3a:将步骤2中产生的样本图像划分为相同大小的网格,作为稠密采样窗口;

步骤3b:以每个窗口的顶点为中心周围16×16的图像区块平均划分为16个4×4的小区块;

步骤3c:对小区块进行高斯模糊,在每个4×4的小区块上计算8个方向的梯度方向直方图,绘制每个梯度方向的累加值;

步骤3d:将4×4个8维的梯度累加值合并成4×4×8=128维的向量作为特征点的SIFT描述子,并将该向量归一化。

本发明提出的一种塑封邮件图像地址块定位方法中,所述步骤4利用样本SIFT特征构建视觉词典,进一步包括:

步骤4a:随机指定K个SIFT特征作为K个聚类中心;

步骤4b:计算所有SIFT特征与每个聚类中心的距离,将SIFT特征划分到距离最近的类别中去;

步骤4c:计算每个聚类中心里全部点的平均坐标,将这个平均值作为新的聚类中心,然后反复迭代,直到满足要求。

本发明提出的一种塑封邮件图像地址块定位方法中,所述步骤5生成金字塔视觉直方图表征正负样本,进一步包括:

步骤5a:将训练样本进行层次等级划分;

步骤5b:统计划分的每个子区域的词汇分布情况,生成概率直方图;

步骤5c:将所有直方图逐层按该层权重串联起来构成最终的空间金字塔直方图表示训练样本。

本发明提出的一种塑封邮件图像地址块定位方法中,所述步骤6训练产生分类器模型,采用SVM模型的直方图交叉核训练分类器模型。

本发明提出的一种塑封邮件图像地址块定位方法中,所述步骤7利用改进的BING模型产生测试邮件的候选域,进一步包括:

步骤7a:加载训练产生的改进BING模型;

步骤7b:将测试邮件图像缩放成16种不同的尺寸,并采用模板匹配和NMS方法获得候选窗口集合,其中缩放尺寸为{(Wo,Ho)},Wo,Ho={40,80,160,320};

步骤7c:计算每个窗口的最终分数,基于分数从大到小对相应窗口排序和过滤,产生一系列高质量的候选域集合。

本发明提出的一种塑封邮件图像地址块定位方法中,所述步骤8采用稠密采样方式提取候选域的SIFT特征与步骤3类似,这里不作说明;

本发明提出的一种塑封邮件图像地址块定位方法中,所述步骤9生成金字塔视觉直方图表征候选域与步骤4类似,这里不作说明;

本发明提出的一种塑封邮件图像地址块定位方法中,所述步骤10利用分类器模型定位邮件图像地址块,进一步包括:

步骤10a:提取每个候选域基于视觉词典的金字塔视觉直方图,该直方图作为特征向量输入到分类器模型中,得到每个候选域的概率;

步骤10b:合并概率最高的前5个候选域,提取合并区域的高频文字区域并进行膨胀腐蚀等形态学操作得到测试邮件的地址文字区域。

本发明采用改进的BING模型来提取塑封邮件的候选域,克服了滑动窗口时间复杂度高、自适应差等缺点。BING模型通过训练一种泛化种类的物体识别检测器,产生少量可能包含物体的候选窗口,有良好的泛化能力,这种方式被认为是传统滑动窗口的加速机制。因此,本发明在候选域提取环节中使用BING模型能快速的产生少量高质量的候选窗口,有效降低图像的搜索空间,提高计算效率,在之后的地址块定位环节通过强分类器SVM来获得较高的检测准确率。

附图说明

图1为塑封邮件实例图;

图2为本发明流程图;

图3为不同梯度幅值对比图;

图4为改进的BING模型提取候选域流程图;

图5为训练塑封邮件的样本标记图;

图6为构建视觉词典流程图;

图7为生成金字塔视觉直方图流程图;

图8为塑封邮件收件人地址块定位效果图。

具体实施方式

结合以下具体实施例和附图,对本发明作进一步的详细说明。实施本发明的过程、条件、实验方法等,除以下专门提及的内容之外,均为本领域的普遍知识和公知常识,本发明没有特别限制内容。

本发明中的塑封邮件图像,地址打印在白底贴条上,邮件上存在建筑物图案、文字符号图案、邮戳等,具有较复杂的背景。塑封邮件图像如图1所示。

本发明公开的一种塑封邮件图像地址块定位方法,该方法流程图如图2所示。

分为训练和分类两个阶段:

训练阶段:

步骤1:训练产生改进的BING模型;

步骤2:标记训练邮件的正负样本;

步骤3:采用稠密采样方式提取样本的SIFT特征;

步骤4:利用样本SIFT特征构建视觉词典;

步骤5:生成金字塔视觉直方图表征正负样本;

步骤6:训练产生分类器模型;

分类阶段:

步骤7:利用改进的BING模型产生测试邮件的候选域;

步骤8:采用稠密采样方式提取候选域的SIFT特征;

步骤9:生成金字塔视觉直方图表征候选域;

步骤10:利用分类器模型定位邮件图像地址块。

其中,

步骤1、步骤7为候选域提取;

步骤2、步骤3、步骤4、步骤5、步骤7、步骤8、步骤9为特征提取;

步骤6、步骤10为收件人地址块定位。

下面从候选域提取、特征提取、收件人地址块定位来说明如何定位塑封邮件地址块。

候选域提取

能否快速提取出覆盖地址块的候选域将直接影响塑封邮件地址块定位的性能。本发明采用改进的二进制梯度规范化模型(BING,Binarized Normed Gradients)提取测试邮件的候选域。

BING主要利用了图像的底层视觉特征——梯度幅值特征。NG(Normed Gradients)表示为一个区域内的梯度规范值,对于一个高H宽W的图像,其中的每一个像素点(i,j),灰度值为I(i,j)。计算图像水平方向的梯度值Gx和垂直方向的梯度值Gy,最终得到图像的梯度幅值G。

Gx(i,j)=I(i,j)*T(i,j) (1)

Gy(i,j)=I(i,j)*T′(i,j) (2)

G(i,j)=min(|Gx(i,j)|+Gy(i,j)|,255) (3)

其中*表示卷积算子,T和T′分别表示模板[-1,0,1]和模板[-1,0,1]′。

但原始梯度幅值特征并不能有效的刻画邮件地址的边缘信息。本发明提出了新的梯度幅值计算公式:

对于一个高H宽W的图像,其中的每一个像素点(i,j),灰度值为I(i,j)。计算图像0°、90°、180°、270°的梯度值,分别为G0、G90、G180、G270,最后得到图像的梯度幅值G。

G0(x,y)=I(x-1,y-1)-I(x-1,y+1)+I(x,y-1)-I(x,y+1)+I(x+1,y-1)-I(x+1,y+1) (4)

G90(x,y)=I(x+1,y-1)-I(x-1,y-1)+I(x+1,y)-I(x-1,y)+I(x+1,y+1)-I(x-1,y+1) (5)

G180(x,y)=I(x-1,y+1)-I(x-1,y-1)+I(x,y+1)-I(x,y-1)+I(x+1,y+1)-I(x+1,y-1) (6)

G270(x,y)=I(x-1,y-1)-I(x+1,y-1)+I(x-1,y)-I(x+1,y)+I(x-1,y+1)-I(x+1,y+1) (7)

G=max(|G0(x,y)|+|G90(x,y)|,|G180(x,y)|+|G270(x,y)|,255) (8)

不同梯度幅值对比图如图3所示,图中,(a)为原始邮件图像;(b)为原始梯度幅值图像;(c)为改进梯度幅值图像。

采用改进的BING模型产生候选域的过程如下:

本发明对邮件图像进行缩放和长宽比的调整,从而获得不同大小的图像。根据每个尺寸图像的训练数据,训练出整个测试训练集的线性模型w。因此,每个窗口的分数可以用线性模型w和窗口大小、位置等特征表示:

S1=<w,g1> (9)

1=(i,x,y) (10)

其中,S1表示窗口分数,i表示窗口尺寸,(x,y)表示窗口位置,g1表示该窗口的NG特征。

对于不同尺寸的邮件图像,不能用S1统一表示候选窗口的分数,本发明针对每种图像尺寸,学习它的系数vi和偏差值ti。

Oi=Vi*S1+ti (11)

Oi表示每个窗口的统一分数形式。

采用改进的BING模型提取候选域

步骤如下:

基于改进的梯度幅值公式,BING模型主要分为训练和测试两个阶段。训练阶段采用两阶段的级联SVM过程进行训练。

训练阶段一:

步骤1:准备邮件图像的样本集

生成完备的训练样本集,包括正样本和负样本。其中正样本为人工标定的训练邮件图像的收件人地址块区域,负样本为随机产生的区域,该区域相对于收件人地址块的覆盖率低于50%。

步骤2:计算样本的训练数据

样本的训练数据为训练邮件中每个样本窗口的NG值,表示成一个8×8的矩阵形式。计算某个区域的NG值过程如下:将样本区域缩放到规定的8×8的大小,计算缩放区域的改进的梯度幅值,从而获得一个8×8的矩阵特征表征样本。

步骤3:获得线性模型w

根据步骤2产生的正负训练数据,采用台湾大学林智仁教授等开发设计的LIBLINEAR库实现的线性SVM获得线性模型w。

训练阶段二:

步骤4:将训练邮件图像缩放成16种不同的尺寸,其中缩放尺寸为{(Wo,Ho)},Wo,Ho={40,80,160,320};

步骤5:对于步骤4中得到的不同尺寸的训练邮件图像,采用模板匹配和非极大值抑制方法(Non-Maximum Suppression,NMS)获得候选窗口集合;

步骤6:将步骤5中的候选窗口与步骤1中的正样本进行交集计算,重合率大于0.5的候选窗口认为是正样本,否则为负样本;

步骤7:使用线性SVM训练出每个尺寸图像的模型,即系数vi和偏差值ti。

测试阶段:

步骤8:加载改进的BING模型。

步骤9:对测试邮件图像用不同尺寸进行缩放,采用模板匹配和NMS获得候选窗口集合。

步骤10:计算每个窗口的最终分数,基于分数从大到小对相应窗口排序和过滤,产生一系列高质量的候选域集合。

需要注意的是改进的BING模型没有直接解决塑封邮件的收件人地址块定位问题,只是用来发现潜在可能存在收件人地址块的区域,需要后续使用SVM分类器进一步确定候选域是不是收件人地址块。

改进的BING模型提取候选域流程如图4所示。

特征提取

特征提取环节采用稠密SIFT描述子对改进的BING模型产生的候选域进行特征提取,在词袋模型基础上引入金字塔匹配原理,将候选域进行层级网格划分,逐层基于视觉词典对候选域的SIFT特征进行重新表示。

特征提取环节包括标记训练邮件的正负样本、采用稠密采样方式提取样本的SIFT特征、构建视觉词典、生成金字塔视觉直方图这四个过程。

标记训练邮件的正负样本

步骤如下:

步骤1:标记训练邮件的收件人地址块作为正样本;

步骤2:标记训练邮件的邮戳、邮编和发送地址作为负样本;

步骤3:标记与收件人地址块不重叠的5个背景区域作为负样本。

一幅塑封邮件的训练样本标记情况如图5所示,其中实线矩形框内图像表示正样本,虚线矩形框内图像表示负样本。

采用稠密采样方式提取样本的SIFT特征

稠密SIFT将样本图像划分成相同大小的网格(稠密采样窗口)并对网格提取局部SIFT特征。因为间隔取样,稠密采样能覆盖图像的所有局部,没有遗漏,保留部分空间信息。本发明所用的稠密SIFT网格间距为8个像素。描述点SIFT特征的生成步骤如下:

步骤1:以特征点为中心周围16×16的图像区块平均划分为16个4×4的小区块;

步骤2:对小区块进行高斯模糊,然后在每个4×4的小区块上计算8个方向的梯度方向直方图,绘制每个梯度方向的累加值;

步骤3:将4×4个8维的梯度累加值合并成4×4×8=128维的向量作为特征点的SIFT描述子;进一步将该向量归一化。

构建视觉词典

本发明中采用经典的K-means聚类方法构建视觉词典。聚类后产生的K个聚类中心就是本发明构建的视觉词典中的单词。词袋模型中,视觉词典的单词数目一般都在1000以下。本发明设置词典大小为300,即K=300。K-means步骤如下:

步骤1:初始化迭代次数iter=0;初始化阈值ε;初始化最大的迭代次数maxiter;所有的SIFT特征向量表示为Featurei,(1≤i≤NUM),其中NUM表示所有训练样本产生的SIFT特征的总个数。

步骤2:选取初始的K个SIFT特征向量μ1,μ2,...μK作为K个聚类中心,本方法选取μ1=Feature1,μ2=Feature2,...μK=FeatureK,K=300。

步骤3:对每个SIFT特征向量,将其类别设为距离其最近的聚类中心的类别,即

j=argmin(||Featurei-μj||) (12)

labeli=j (13)

其中labeli表示第i个SIFT特征向量Featurei的类别,1≤labeli≤K

步骤4:将相同类别中的所有特征向量的平均值更新为每个聚类中心的值,即

步骤5:计算聚类中心的变化Δμj,Δμj=||μj′-μj||,同时更新迭代次数。

步骤6:如果Δμj小于规定的阈值ε或者迭代次数iter大于最大的迭代次数maxiter,递归结束。否则更新聚类中心的值μj=μj′,重复步骤1到步骤5。

构建视觉词典流程如图6所示。

生成金字塔视觉直方图

本发明在词袋模型中引入金字塔匹配原理,对整个图像进行单词直方图统计,并对图像进行不同层级的划分,在不同的层级分别对图像进行基于视觉词典的直方图表示。金字塔匹配通过呈现出一种层次金字塔的结构,保留样本图像中较多的局部细节信息,生成金字塔视觉直方图作为特征向量,有效区分正负样本图像。

步骤如下:

步骤1:在第一层金字塔中,训练样本被划分成一个区域R11,在R11上提取的每个SIFT特征与视觉词典中的单词进行匹配。根据单词在区域中的分布情况用表示单词分布的频率直方图向量来表示区域图像。本发明中因为单词个数K=300,所以L11的向量维数是300。

步骤2:依此类推,在第二层金字塔中,训练样本划分成R21,R22,...R24这四个近似相等的子区域,生成4个频率分布直方图向量来表示第二层金字塔的四个子区域。第三层金字塔中,生成16个频率分布直方图向量来表示第三层金字塔的16个子区域。

步骤3:对于训练样本来说,每一层金字塔所占的权重不同。第一层的权重为1/2,第二层和第三层的权重均为1/4。最后将所有直方图逐层按该层权重串联起来构成最终的空间金字塔直方图向量L。本发明中使用三级空间金子塔表现形式,三层金字塔一共划分成21个子区域,每个子区域用300维的频率分布直方图来表示,所以向量L一共有21×300=6300维。

生成金字塔视觉直方图流程如图7所示。

收件人地址块定位

在分类过程中,本发明用改进的BING模型产生若干可能存在收件人地址块的候选域,接着对候选域提取基于视觉词典的金字塔视觉直方图,该直方图作为特征向量输入到训练好的SVM模型,最终得到每个候选域的概率。因为候选域并不能完全覆盖收件人地址块,并且候选域多有重叠,所以本发明选择概率最高的前五个候选域作为收件人地址块。为最终提取收件人地址块的文字区域提供基础。因为塑封邮件的贴条地址区域一般为白底黑字,文字部分有丰富的笔画信息,亮度和灰度变化剧烈,对应图像的高频部分;而贴条背景一般为大片白色色块,亮度和灰度变化不大,对应图像的低频部分。所以本发明提取收件人地址块的高频文字区域并进行膨胀腐蚀等形态学操作得到测试邮件的地址文字区域。

采用本发明定位的塑封邮件收件人地址块效果图如图8所示,其中黑色粗体曲线标定的区域就是使用该发明方法定位出的收件人地址块。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1