基于组件树和霍夫森林的文字检测和识别方法

文档序号:8457567阅读:311来源:国知局
基于组件树和霍夫森林的文字检测和识别方法
【技术领域】
[0001] 本发明涉及一种计算机视觉技术领域的文字检测和识别算法,具体为一种基于组 件树和霍夫森林的文字检测和识别方法。
【背景技术】
[0002] 随着互联网的蓬勃发展,人们获取信息的方式发生了巨大的改变。传统媒体,如报 纸、广播等,影响力逐渐让位于互联网的新兴媒体,如社交网络、轻博客等。互联网中的新兴 媒体除了更新速度快、传播覆盖面广之外,同时也成为每一个用户自由发布信息的平台。每 个人都可通过各类的平台,如微博等,发布消息,通过不断的转发,该消息就可能成为新的 热点。图像、视频由于易于理解,符合现代人快速的生活节奏,逐渐取代文本成为主要的信 息传播载体。由于微博类网站对文本长度的限制,要发表较丰富的内容通常需要图文结合 的方式,同时,图片分享类网站的蓬勃发展,给图像理解领域带来新的机遇和挑战。
[0003] 伴随着智能手机的普及,越来越多的图像是由手机拍摄得到,而这部分图像对了 解用户行为、获取用户相关信息有极大价值。这些图像拍摄的场景各式各样,可能是日常的 路边,也有可能是旅途中。由于文字表达的信息相对准确,通过检测和识别场景中的文字, 对图像和视频信息的提取具有重要意义。对于视频监控和基于位置的服务(LBS)等应用, 通过识别图像中的文字,如招牌、标识等内容,对定位图像拍摄地点有重要的参考作用;通 过检测和识别场景中的文字,还可实现实时的翻译服务。
[0004] 自然场景的文字检测和识别作为图像理解的重要一环,一直受到研宄者的关注。 一般来说,对于扫描文本,可以直接通过光学字符识别(OCR)软件进行识别,对于稍复杂的 样本,可能包含有各类不同字体和大小的文字,以及各类格式的混排,如竖排文字,对于该 类样本需要先进行适度的分割,再输入到光学字符识别软件中。但光学字符识别系统只能 处理背景简单且文本相对密集的图像,对于包含复杂背景的自然图像,必须先通过文字定 位取出包含文本的图像块,才能实现准确的识别。对于文字背景较为复杂的图像,还必须经 过文字背景分离才能得到理想的识别结果。在目前大部分的解决方案中,文字检测和识别 作为孤立的两部分的工作分别进行处理。
[0005] 霍夫变换是用于检测具有解析表达式的几何形状的常用目标检测方法,如直线、 圆检测等。霍夫变换的核心思想是把原图像中的像素点或特征变换到霍夫空间进行投票, 而投票的峰值即为检测的目标。广义霍夫变换在霍夫变换的基础上进行扩展,可对一般形 状的目标进行检测。广义霍夫变换的基本思想是通过图像中每一个分块的边缘切向量估算 目标的中心点位置,本质上利用边缘切向量,为不存在解析表达的形状建立参数空间,从而 应用霍夫变换。广义霍夫变换假设的前提是,图像中每个像素都是独立的,在投票过程中对 每一个分块赋予相同的权重,使得该方法在复杂场景下容易失效。Gall等人基于霍夫变换 的思想,在2009年提出通过霍夫森林实现鲁棒的行人等目标的检测方案。霍夫森林对图像 中每一个分块通过一组决策树进行分类(前景和背景),并估算目标的中心位置,使用决策 树输出的概率作为投票权重。

【发明内容】

[0006] 本发明为了解决现有技术中的问题,提出一种基于组件树和霍夫森林的文字检测 和识别方法。通过组件树级联分类器的方式提取文字候选区域以确定目标尺度,解决了霍 夫森林在检测中尺度不准确以及定位漂移的问题。
[0007] 本发明采用以下技术方案:一种基于组件树和霍夫森林的文字检测和识别方法, 包括以下步骤:
[0008] 步骤1 :输入待检测图像,把待检测图像转换至多个颜色空间,同时求出各个颜色 空间的补值;所述的补值即该颜色空间内所有像素值进行二进制取反后组成的新图像;
[0009] 步骤2 :通过构建组件树的方式,分别提取出各个颜色空间和各个补值中具有层 级的连通域,并对每一个具有层级的连通域分别执行步骤3 ;
[0010] 步骤3 :对步骤2提取出的每个连通域分别进行区域特征提取,并把特征向量输入 至分类器,分类器的输出结果为文字或非文字,筛选出分类结果为文字的连通域缩放至同 样的大小,并执行步骤4;
[0011] 步骤4 :每个连通域独立输入至霍夫森林,霍夫森林由一组决策树组成,霍夫森林 输出文字的分布概率,然后根据输出的分布概率识别文字,并估计文字的位置。
[0012] 进一步地,步骤2所述的具有层级的连通域,具有如下层级关系:
[0013] V/;? G 5?:Ξ/7 G 5 m
[0014] 其中,S是像素值小于等于阈值τ的连通域集合;s'是像素值小于等于阈值υ的 连通域集合,且;m为连通域集合S'中的任一元素,η为连通域集合S的任一元素。
[0015] 进一步地,步骤3所述的分类器,和步骤4所述的霍夫森林,均可以通过训练获得, 使用的训练样本是通过图像合成的方式获得。图像合成的具体过程如下:从本地样本库中 随机选取单个文字字符,根据字符的使用频率生成单个字符或字符组合,同时进行随机的 形变,包括旋转、移动、透射变换等,并与随机选择的背景进行融合。
[0016] 进一步地,步骤4所述的,霍夫森林输出文字的分布概率包括如下步骤:
[0017] 步骤4. 1 :霍夫森林的训练:
[0018] 霍夫森林中的每棵决策树的训练互相独立。包含已知文字的合成图像作为输入图 像,逐张输入至决策树中进行训练。其具体过程如下:
[0019] 步骤4. I. 1 :随机采样:
[0020] 从输入图像中随机采样pX q大小的样本X,并记录样本X与图像中心点的距离d, 同时对X提取多维的特征向量g。每一幅输入图像进行多次采样,采样得到的样本集X输入 至决策树的根结点;将根节点按照步骤4. 1. 2进行分类决策;
[0021] 步骤4. 1.2 :若结点的深度大于深度阈值或样本集的元素数量小于数量阈值,则 该结点为叶子结点,该叶子结点保存输入的样本集X,该结点训练完成;所述深度阈值为 5~100,数量阈值为1~0. 05N,N为决策树训练集元素数量;否则根据f0 (X)的判决结果 把样本集X分为两个集合,BP
[0022] Xa= {x e X| f θ (χ) = 〇}
[0023] Xb= {χ e χ| f θ (χ) = 1}
[0024] 其中,f是根据特征g进行判决的二值函数,θ是判决函数的参数。
[0025] 步骤4. I. 3 :参数选择:
[0026] 随机生成多组参数Θ,分别利用步骤4. 1. 2对X进行分类,并根据以下判决规则选 择其中最优的分类参数θ'最优的分类参数P的判决标准为
[0027] Θ *= argmin θ e 0U (X),
[0028] 其中,Θ是参数全集;U是判决的不确定性,由分类的不确定性Ue(X)和中心位置 的聚类不确定性U d(X)两项组成,即
[0029] U (X) = Uc (X) + δ Ud (X),
[0030] 其中δ是调整权重;
[0031] 步骤4. L 4 :迭代训练:
[0032] 根据步骤4. 1. 3求得的最优的分类参数Θ ?把X分割为X 3和X b,并把XJP Xb 分别作为该结点的左儿子和右儿子的输入样本集,然后对左结点和右结点分别执行步骤 4. 1. 2-4. 1. 4,直到所有结点训练完
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1