基于深度学习的图形图案文字检测方法

文档序号:8473336阅读:331来源:国知局
基于深度学习的图形图案文字检测方法
【技术领域】
[0001] 本发明涉及一种计算机视觉技术领域的图形图案文字检测算法,具体为一种基于 深度学习的图形图案文字检测方法。
【背景技术】
[0002] 随着互联网的发展,网络带宽的不断提高,图像、视频由于易于理解,符合现代人 快速的生活节奏,逐渐取代文本成为主要的信息传播载体。由于微博类网站对文本长度的 限制,要发表较丰富的内容通常需要图文结合的方式,同时,图片分享类网站的蓬勃发展, 给图像检索和理解领域带来新的机遇和挑战。
[0003] 图像检索一般来说有两种方向,一种是直接基于图像的特征进行匹配,另一种是 先对图像进行标记然后再基于标签进行检索。前者计算量较大,相对图像检索,文本搜索技 术相对成熟,使用标签进行检索可有效利用文本搜索的成熟技术,并可通过预处理加快检 索速度。标签的加注可由用户手工完成,但由于大量图片是未经标注,而且用户标注具有随 意性,并一定能准确地描述图像的信息,因此图像的自动标记显得尤为重要。相比于文字, 图像的冗余信息更多,而且信息不明确,使用图像中的特定的图形图案文字作为标签是有 效的图像标注方案之一。
[0004] 对于视频监控和基于位置的服务(LBS)等应用,通过识别图像中的图形图案文 字,如招牌、标识等内容,对定位图像拍摄地点有重要的参考作用。
[0005] 因此,图形图案文字检测和识别作为图像理解的重要一环,一直受到研宄者的关 注。自然图像中的背景复杂,图形图案文字出现的位置随机,大小随意,由于拍摄角度不同, 还可能造成倾斜、旋转和透视变换等变化,这是自然图像中图形图案文字检测问题的主要 难点。除了问题本身的复杂性之外,图形图案文字检测问题可使用的标记样本并不多,标记 样本必须使用人工标记,十分费时。由于样本不足,设计算法时必须要控制参数的数量,同 时在分类器中通常要加入正则项,避免过拟合。
[0006] 总的来说,与其他图像识别的问题相似,图形图案文字检测问题的主要可分为特 征提取和分类器训练两个部分。针对特征提取部分,无监督学习特征在越来越多的图像 的图像识别任务中崭露头角,取得了比人工设计的特征更好的效果。Krizhevsky等人于 2012年在〈〈Advances in neural information processing systems〉〉发表的''Imagenet classification with deep convolutional neural networks"一文,提出建立多层深度 卷积网络学习具有层级的特征进行识别任务,并取得优异的效果。而在分类器的研宄上,稀 疏表达被证实除了可应用于图像去噪和图像还原上,在图像识别领域同样效果明显。Jiang 等人于2011年在〈〈Computer Vision and Pattern Recognition〉〉发表的"Learning a discriminative dictionary for sparse coding via label consistent K_SVD"一问,提 出使用LC-KSVD算法,在稀疏字典的目标函数中加入标记的约束,建立统一的稀疏字典和 分类器的模型,对多分类任务唯一的稀疏字典进行识别,降低系统复杂度。
[0007] 为了挖掘自然图像中表征图形图案文字的有效特征,提高分类器的准确度,以及 图形图案文字检测系统的适用性,本发明使用深度卷积自编码网络无监督学习特征,同时 使用样本合成的方式解决由于深度网络的参数较多而造成的过拟合问题,并使用稀疏字典 作为分类器,提高了自然图像检测系统的准确性和鲁棒性。

【发明内容】

[0008] 本发明为了解决现有技术中的问题,提出一种基于深度学习的图形图案文字检测 方法,利用合成样本和深度卷积自编码网络无监督学习提取最能最佳表达训练样本的特 征,并结合稀疏字典进行识别,从而提升现有图形图案文字检测方法的鲁棒性和准确性。
[0009] 本发明采用以下技术方案:一种基于深度学习的图形图案文字检测方法,包括以 下步骤:
[0010] 步骤1:预处理:输入彩色图像,并将输入的彩色图像转为灰度图,并进行多分辨 率分解,输出不同分辨率的图像;
[0011] 步骤2 :特征提取:对步骤1输出的每一个分辨率的图像,分别通过深度卷积自编 码网络提取特征图;其中深度卷积自编码网络是通过训练获得;
[0012] 步骤3 :稀疏编码求解:把步骤2提取得到的所有特征图,上采样至原图大小。对 该组特征图进行分块,每一块分别通过稀疏字典和线性分类器进行分类识别。
[0013] 步骤4 :图形图案文字定位:对步骤3输出的每个分块的分类识别结果进行区域融 合,合成最终的定位结果。
[0014] 进一步地,步骤1所述的多分辨率分解,具体步骤是:以灰度图为初始图像,使用 高斯金字塔对初始图像进行下采样(通过对灰度图进行高斯内核卷积,并去除偶数行和偶 数列),获得第一下采样图像;以第一下采样图像为初始图像,使用高斯金字塔对初始图像 进行下采样,获得第二下采样图像;重复上述步骤,获得多个下采样图像,即不同分辨率的 图像。
[0015] 进一步地,步骤2所述的深度卷积自编码网络是由多个卷积层级联而成,卷积层 之间使用下采样层连接;每一个分辨率的图像依次通过各层计算后,最后一层卷积层的输 出即为所提取的特征图,其中卷积层计算、下采样层计算的具体过程如下:
[0016] 卷积层计算:
[0017] 设输入图像为X,则经过单个滤波器的输出图像为
[0018] h\b(x) = 〇 (Wk*x+bk)
[0019] 其中,K为卷积层包含的滤波器数量,W是滤波器的集合,b是滤波器偏移量的集 合,而Wk表示第k个滤波器,bk表示第k个滤波器的偏移量,ke[1,K]。*是图像卷积操 作符,?是非线性激励函数。
[0020] 下采样层计算:
[0021] 对卷积层输出的每一个图像分别使用最大值池化进行下采样。最大化池化是取图 像中每一个分块的最大值作为输出。假设输入图像X大小为nXm,用最大值池化进行下采 样后的图像大小为(n/w)X(m/h),其中,wXh为池化大小。
[0022] 上述卷积层计算和下采用计算中的输入图像为:上一层计算后获得的图像,第一 个卷积层的输入图像为步骤1获得的不同分辨率的图像。
[0023] 进一步地,步骤2所述的深度卷积自编码网络的训练方法是使用训练集进行分层 训练、整体调优。具体过程如下:
[0024] 步骤2.L1 :分层训练:
[0025] 当训练第i层参数时,要求除第i层参数外的其余参数保持不变,同时以前一层的 输出作为后一层的输入,从接近输入端的一层开始依次向输出层训练。
[0026] 设第i层的输入图像为Xi,则输出的图像是
[0027] hk=hkff;b(Xi) = 〇 (ffk*Xi+bk)
[0028] 其中,*是图像卷积操作符,〇是非线性激励函数。
[0029] 通过K个滤波器的输出图像可重构原图像,即
[0030]
【主权项】
1. 一种基于深度学习的图形图案文字检测方法,
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1