基于深度学习的图形图案文字检测方法_2

文档序号:8473336阅读:来源:国知局
其特征在于,包括w下步骤: 步骤1;预处理;输入彩色图像,并将输入的彩色图像转为灰度图,并进行多分辨率分 解,输出不同分辨率的图像; 步骤2 ;特征提取;对步骤1输出的每一个分辨率的图像,分别通过深度卷积自编码网 络提取特征图;其中深度卷积自编码网络是通过训练获得; 步骤3 ;稀疏编码求解;把步骤2提取得到的所有特征图,上采样至原图大小。对该组 特征图进行分块,每一块分别通过稀疏字典和线性分类器进行分类识别。 步骤4 ;图形图案文字定位;对步骤3输出的每个分块的分类识别结果进行区域融合, 合成最终的定位结果。
2. 权利要求1所述的一种基于深度学习的图形图案文字检测方法,其特征在于:步骤 1所述的多分辨率分解,具体步骤是;W灰度图为初始图像,使用高斯金字塔对初始图像进 行下采样(通过对灰度图进行高斯内核卷积,并去除偶数行和偶数列),获得第一下采样图 像;W第一下采样图像为初始图像,使用高斯金字塔对初始图像进行下采样,获得第二下采 样图像;重复上述步骤,获得多个下采样图像,即不同分辨率的图像。
3. 根据权利要求1所述的一种基于深度学习的图形图案文字检测方法,其特征在于: 步骤2所述的深度卷积自编码网络是由多个卷积层级联而成,卷积层之间使用下采样层连 接;每一个分辨率的图像依次通过各层计算后,最后一层卷积层的输出即为所提取的特征 图,其中卷积层计算、下采样层计算的具体过程如下: 卷积层计算: 设输入图像为X,则经过单个滤波器的输出图像为 hkw,b(X) = 0 (Wk*X+bk) 其中,K为卷积层包含的滤波器数量,W是滤波器的集合,b是滤波器偏移量的集合,而Wk表示第k个滤波器,bk表示第k个滤波器的偏移量,kG[1,时。*是图像卷积操作符,0 是非线性激励函数。 下采样层计算: 对卷积层输出的每一个图像分别使用最大值池化进行下采样。最大化池化是取图像中 每一个分块的最大值作为输出。假设输入图像X大小为nXm,用最大值池化进行下采样后 的图像大小为(n/w)X(m/h),其中,wXh为池化大小。 上述卷积层计算和下采用计算中的输入图像为;上一层计算后获得的图像,第一个卷 积层的输入图像为步骤1获得的不同分辨率的图像。
4. 根据权利要求3所述的一种基于深度学习的图形图案文字检测方法,其特征在于: 步骤2所述的深度卷积自编码网络的训练方法是使用训练集进行分层训练、整体调优。具 体过程如下: 步骤2. 1. 1 ;分层训练; 当训练第i层参数时,要求除第i层参数外的其余参数保持不变,同时W前一层的输出 作为后一层的输入,从接近输入端的一层开始依次向输出层训练。 设第i层的输入图像为Xi,则输出的图像是 hk=h\b(Xi) = 0 (Wk*Xi+bk) 其中,*是图像卷积操作符,0是非线性激励函数。 通过K个滤波器的输出图像可重构原图像,即
其中,是Wk旋转180°的重构矩阵,*是图像卷积操作符,C是每个通道的偏移量。 训练目标是使重构的图像与输入图像尽可能接近,即最小化 E(0)二子片-乂)2 其中,Xi和yi分别是单幅输入图像和对应的重构图像。 然后使用梯度下降更新网络参数值,
其中,a是学习速率。 步骤2. 1. 2 ;整体调优: 对网络的参数使用梯度下降法进行整体调优。训练集中的每个训练样本X经深度卷积 自编码器得到输出y,X下采样至输出y的大小为X',W后一层重构的图像作为前一层的 目标输出。每一层均使用步骤2. 1. 1提出的分层训练方式。
5. 根据权利要求4所述的一种基于深度学习的图形图案文字检测方法,其特征在于: 步骤2所述的深度卷积自编码网络的训练集由多个训练样本X组成,训练样本X是通过合 成的方式获得,具体过程是:从本地样本库中随机选取图片P,所述图片P包含有待检测元 素,所述待检测元素包括图形、图案、文字;根据待检测元素的使用频率,生成单个检测元素 或多个检测元素组合的图像Q;对图像Q进行随机的形变,所述形变包括旋转、移动、透射变 换;将形变后的图像Q与随机选择的背景进行融合。其中形变后的图像Q与随机选择的背 景融合过程如下: 步骤2. 2. 1 ;随机背景选取方法如下: 选取不包含检测元素的图片,从该图片中随机选取与图像Q相同大小的窗口,该窗口 中的图像即所选取的背景图。若该背景图的灰度均值大于0. 9或标准差小于0. 2,则重新选 择新的图片。 步骤2. 2. 2 ;图形图案文字与背景融合方法如下: 从均匀线性随机数生成器中取出范围是0. 3到0. 7的随机数0,则合成的训练样本X为: X= (1-P)*Xf+|3*Xb 其中,Xb是背景图、Xf是字符图像。
6. 根据权利要求1所述的一种基于深度学习的图形图案文字检测方法,其特征在于: 步骤3中所述的稀疏字典和线性分类器是通过训练获得,使用的样本是已有的标记样本, 通过步骤2的特征提取,并把特征图像上采样至原图大小再进行切块获得。输入图像切块 和稀疏字典训练,具体过程如下: 步骤3. 1 ;输入图像切块; 对一张输入图像,W及其相应的标记,W步骤2使用的样本大小对图像进行50%的重 叠分块。其中标记是指输入图像中图形图案文字的位置,分别使用单独的矩形来表示。若 分块中图形图案文字的像素点数量大于像素总数的80%,则该分块为正样本;若分块中图 形图案文字的像素点数量小于整块的像素总数的20%,则该分块为负样本;否则丢弃该分 块。 步骤3. 2 ;稀疏字典训练; 稀疏字典的目标函数是
s.t.V/ ||x,-|L<r, 其中,Y是输入图像,D是稀疏字典,X是稀疏编码,E是单位矩阵,H是输入图像的标记 值,A是转换矩阵,T是稀疏性约束,r是线性分类器的权重,丫和y是调整权值。 将目标函数重写为
并通过KSVD算法求解,得到稀疏字典即分类器参数< 化r,A,X>。
7.根据权利要求6所述的一种基于深度学习的图形图案文字检测方法,其特征在于: 步骤3中使用稀疏字典和线性分类器进行分类识别的具体过程为:使用训练得到的稀疏字 典,根据
求得稀疏编码x>。 使用训练得到的线性分类器求得标签 1 =rX*, 则所输入的样本的分类即为1中元素最大值对应的索引。
【专利摘要】本发明公开了一种基于深度学习的图形图案文字检测方法,首先,通过图形图案文字样本合成训练深度卷积自编码网络,然后使用已标记的样本,通过稀疏字典进行分类。随机从样本库中抽取图形图案文字,并进行旋转、平移、透射等变换,再与纯背景图进行融合;之后使用合成的样本集,建立深度卷积自编码网络,并使用分层训练、整体调优的方式学习特征模板;然后对已有的标记样本,使用深度网络学习得到的特征模板进行特征提取;最后把提取的特征上采样至原图大小,并以单个分块作为识别的单位,训练稀疏字典以及分类器。在完成训练步骤后,对待处理的图像进行多分辨率分解,并使用特征模板提取特征,再使用稀疏字典进行分类获取结果。
【IPC分类】G06T7-00, G06K9-66
【公开号】CN104794504
【申请号】CN201510207913
【发明人】于慧敏, 李天豪
【申请人】浙江大学
【公开日】2015年7月22日
【申请日】2015年4月28日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1