基于连通分量和支持向量机的图像文本定位方法和装置的制作方法

文档序号:6573360阅读:160来源:国知局
专利名称:基于连通分量和支持向量机的图像文本定位方法和装置的制作方法
技术领域
本发明属于计算机视觉的光学字符识别(OCR)的预处理领域,涉 及一种基于连通分量和支持向量机的真实场景图像或视频序列图像中 文本的定位方法和装置,用于智能数字图像分析和理解。
背景技术
数字图像或视频帧中的文本拥有大量的语义信息,比如路标,广 告,指示标语等。因此一个鲁棒的针对复杂背景图像中的文本定位方法, 并联合文宇识别会带来各种实际的运用,例如基于内容的视频索引和 图像的检索,汽车辅助驾驶,移动机器人的视觉导航等应用。将该方法 加上一个机器翻译系统有助于国际游客克服语言上的障碍。然而由于在 复杂背景图像中文本定位上的困难,传统的针对扫描得到的文档图像的 光学字符识别很难直接运用到针对一般图像中的字符识别。为了能够识 别嵌入在复杂图像中的文字,首先需要能够很好的定位复杂图像中的字 符区域的准确边框,才能很好利用已有的光学字符识别技术。近年来,已有很多研究机构开展了这方面的研究工作,提出了一些方法,而且取得了一定的效果,参考,ZhongY.,KaryK.,JainA.K.的论 文(题目"Locating text in complex color images",发表在"Pattern recognition", Vol.28, No. 10, 1995,ppl523-1535)。这些方法主要分为两类 基于纹理的方法和基于连通分量的方法。基于纹理的方法认为文本区域 是一种纹理,大量的类似于纹理分割的方法的被使用。这类方法首先要 确定一个框,这个框在图像上不断的移动,提取出框中的特征,并用分 类方法对该框进行分类,为了克服大字符纹理特征不明显,这类方法一 般要对原始图像进行金字塔分解,对每个分解得到的图像上进行识别。 这类方法一般很难定位到文本区域准确的外围框,而且对一些字符数较 少的文本区域很难进行有效的识别,对含有丰富纹理特征的一些树叶和窗口等很难得到准确的去除。而基于区域的方法认为字符拥有一致的颜色,先对图像进行分割,然后对各割后图像运用连通分量分析方法得到 每个层的连通分量,接着都运用一些规则的方法进行确认是否是字符的 连通分量。这类方法由于仅仅运用一些规则方法很难对复杂的背景进行 有效的识别。发明内容本发明的目的主要是针对现有的文本区域定位方法的鲁棒性不是 很高,已有的"些方法基于太多的人为假设,而本发明提供一种基于连 通分量和支持向量机、鲁棒的针对各种复杂背景数字图像中文本区域定 位的方法及装置,实现对文字大小、字体、颜色、背景复杂程度高等有 难度的数字图像进行鲁棒的文本区域定位方法,从而为后续的文字识别 做准备。为了实现所述的目的,本发明的第一方面,基于连通分量和支持向 量机的数字图像中文本定位方法,包括步骤步骤Sl:将需要定位的图像根据其灰度值信息进行图像的分割处 理,获得图像分层结果;步骤S2:对分层后的每一层作为前景进行连通域分析,得到候选 字符连通分量集合;步骤S3:提取候选字符连通分量的特征,并用一个级联阈值分类 器的结构排除非字符连通分量;每个阈值分类器的阈值通过统计样本数 据获得;步骤S4:对使用级联阈值分类器未被排除的候选字符连通分量,采用基于支持向量机的分类方法进行是否是字符连通分量的分类,支持向量机的特征向量为上述获取的所有字符连通分量特征;步骤S5:将支持向量机分类结果中为字符的连通分量,根据其在图像中的位置关系和特征一致性进行组合,得到候选字符连通分量集 合,包括子集中所有连通分量的最小矩形框称为该子集对应的文本区域,同时该子集称为文本区域中连通分量集合;步骤S6:计算文本区域中连通分量集合中连通分量特征的方差作为候选文本区域的特征,并使用经验性的阈值确认是否是文本区域。具体地,所述的图像分割是对灰度图像进行分析,如果输入图像是 彩色图像需要将其转换为单色的灰度图像,然后根据像素灰度值与该像 素为中心的窗口中像素灰度值的平均值和方差来确定像素所属的层。具体地,所述提取连通分量的特征和阈值分类器确认构成一个级联 阈值分类器的结构,得到一个特征就用阈值分类器进行判断是否该排除 该连通分量,使之后续的特征计算无需再对排除了的连通分量进行计算。 具体地,阈值分类器的阈值的设定是通过对样本数据库字符连通分量的对应特征进行统计来获取,获mMil保证样本中的字符连通分量都确认为是字符连通分量。具体地,支持向量机釆用了LIBSVM工具,并使用径向基函数作为 所使用的支持向量机的核函数。具体地,对步骤S5所述的组合采用如下步骤步骤S51:通过判断候选连通分量集合中的任意两个连通分量是否相邻,并且是否具有一致的特征来确认它们是否属于同一文本区域;如果是属于同一文本区 域,则在这两个连通分量之间建立一条边,这样候选连通分量集合就转 变为一张无向图;步骤S52:对得到的无向图进行深度优先周游图算法, 得到其中的连通分支, 一个连通分支对应一个候选文本区域中的连通分 量的集合。具体地,对所得到的候选文本区域连通分量集合,如果其包含的元 素大于l,则提取连通分量特征的方差笔画宽度的方差、连通分量高 度的方差、连通分量宽度的方差、连通分量灰度值的方差;设定四个方 差的闳值来确认该文本区域连通分量集合是否有字符构成如果任意一 个方差值大于给定的阈值,则认为该文本区域字符连通分量集合不是有 字符连通分量构成的;如果文本区域字符连通分量集合元素个数等于1 , 则縮小字符连通分量特征阈值对文本区域中的唯一元素重新进行确认。具体地,对确认的文本区域连通分量集合,获取能包含文本区域连 通分量集合中各个连通分量的最小矩形框,作为文本区域的定位结果。为了实现所述的目的,本发明的第二方面,是提供基于连通分量和 支持向量机的数字图像文本定位装置,根据上述的定位数字图像中文字区域的方法提供的装置,包括图像分割单元,用于将输入的数字图像进行图像的分层;连通城分析单元,用于对分层的图像进行连通性分析,得到候选的字符连通分量集合并得到简单的连通分量特征;连通分量特征获取和阀值确认单元,用于提取候选字符连通分量的 特征,并用级联阈值分类器结构进行连通分量的确认,排除明显的非字 符连通分量;支持向量机分类确认单元,用于对使用简单阀值不能排除的候选字 符连通分纛,使用基于支持向量机分类排除非字符连通分量;连通分量组合成文本区域单元,用于对得到的字符连通分量根据位 置相邻和连通分量特征一致进行组合,组合得到的连通分量子集作为一 个文本区域所拥有的连通分量;文本区域统计特征获取并确认单元,用于获取各个文本区域连通分 量集合中连通分量特征的方差作为文本区域的统计特征,并用经验阈值 判别候选文本区域是否有字符连通分量构成。本发明是基于连通分量的方法,并且充分利用字符连通分量的各种 特征,以及利用了支持向量机的分类方法进行识别,级联阈值分类器的 结构减少了支持向量机分类的计算负担,克服了支持向量机分类需要大 计算量的弱点,同时利用了其分类效果突出的优点。而且对组合的文本 区域提取了连通分量的统计值作为特征,这类特征类似纹理特征进行有 效的文本区域确认,使基于纹理方法和基于连通分量方法进行一定程度 上的融合,达到了较高的准确率和召回率。在对2003年,international conference of document analysis and recognition会议上公开的训练图像 数据库上获取本方法中的阈值,并对支持向量机进行训练,然后在其测 试图像数据库上进行测试,达到准确率和召回率分别为0.67和0.61。


图1表示了本发明基于连通分量的字符区域定位装置及方法整个过 程的流程框图。图2表示本发明中级联阈值分类器的结构框图。图3表示判断连通分量边缘像素点为粗糙点的相邻像素情况的两个 例子。图4 (a)实施例中的一幅测试图像。 图4 (b)测试图像经过图像分割后的结果图像。 图4 (c)测试图像经过级联阈值分类器后得到的结果。 图4 (d)测试图像经过文本区域确认后得到的结果,黑框内为定位 的文本区域。图4 (e)测试图像经过未使用支持向量机分类得到的结果,左下角 有一个虚检文本框。图4 (f)测试图像经过整个系统得到结果。
具体实施方式
下面将结合附图对本发明加以详细说明,应指出的是,所描述的实 施例仅旨在便于对本发明的理解,而对其不起任何限定作用。本发明中,其输入的图像可以是各种图像获取单元获取的图像,例如数码相机拍摄得到的图像、带拍摄功能的移动电话、带摄像功能的PDA或者可以是视频图像中的一帧等。如果输入图像是模拟信号,需要一个数目模转换工具,把模拟图像转换为数字图像进行处理。本发明方法处理的图像可以针对各种图像编码格式,例如JPEG、 BMP等,只 要能将该格式的图像转换为位像即可。在此实施例中假定输入的图 像已经是位像。在以下的叙述中,图像就是指数字图像,不在具体 指明。同时本发明方法涉及的参数学习使用的库来之international conference of document analysis and recognition会议上公开的训纟东禾口测 试图像库,其库中图像都为英文字符,所以本实施例是针对英文字符进 行训练得到的参数。但是本发明方法同样可以适用其他各种语言。 下面将参考附图详细介绍本发明的实施例。图1是一个流程框图,表示了本发明基于连通分量和支持向量机的 文本定位方法的流程图。参考图1中图像分割单元10,采用基于局部自适应的分割方法,每 个象素点的分割阈值通过计算以该象素为中心的窗口中象素灰度值的均值与方差来得到。图像分割单元10的图像分割部分是实现对输入图像的分层,分割过程就是根据图像的颜色或灰度信息将图像分为不同的层的过程a对整个方法来说,其分割部分可以使用任何现有的分割方法。 本实施例使用的基于局部象素灰度值均值和方差的分割方法进行图像 的分层。其计算公式如下<formula>formula see original document page 10</formula>I(x,y)是输入图像的一个像素,?10c,力是对应像素I(x,y)的上、下阈值。 r± (;c,力通过计算局部的均值Mean(x,y,WB)和方差Variance(x,y,WF)得到。 Mean(x,y,WB)是以图像中像素I(x,y)为中心,WB为窗口大小的窗口中像 素灰度值的均值。Variance(x,y,WF)是以I(x,y)为中心,Wp为窗口大小的 窗口中像素灰度值的方差。"Offset"是一个正整数,它使得更多的像素 被分割到灰色层,从而使这些像素在后面的处理中不需要再进行处理而 压制了噪声连通分量的数量,减少了后续的处理时间。参数k, offset, WB, WF通过烃验被分别设置为0.2,3,71, 11。为了提高计算的速度,本发明方法不计算图像中全部像素点对应窗 口中像素灰度值的方差,而是对一个3 X 3的窗口中的9个像素都使用3 X3窗口中中心像素以WF为窗口大小的方差。图像经过分割之后得到 的分割结果为一个二维数组,大小为图像宽度X图像高度,每个元素 的值255表示该像素为白色层,0为黑色层,IOO为中间层。附图4(a) 是原始测试图像,附图4(b)经过图像分割后的结果图像。连通域分析单元20,采用基于区域增长的算法进行连通分量分析; 连通域分析部分是对图像分割的结果进行连通性分析,连通性分析可以 为图像中各个相邻的并且属于相同分割层的象素标记为一个唯一的标 识,并得到整个连通分量的大小,位置等信息。在本实施例中把连通域 分析之后得到的所有标记的连通分量称为候选字符连通分量集合。连通域分析的整个过程如下首先,将分割结果值为255的作为前景层进行 连通域分析,其它值做为背景层。使用同样的方法对值为O的黑色层作 为前景层进行连通分量的分析。而对值为100的灰色层不进行连通分量 的分析,因为字符通常写于特定颜色背景上,字符与背景两者有一定的 颜色差,此分割方法很少会将字符分割到灰色层中。连通分量分析方法有很多种,本发明的方法不限已在实施例中所使 用的方法。在本实施例中采用的连通分量分析方法是基于区域增长的算 法(WeslyE.SnyderHairongQi著林学阇崔锦实赵清洁等译机器视 觉教程机械工业出版室第一版P142)。连通性定为八连通。同时对连 通分量分析方法进行了适当的修改,在进行标记各个连通分量的同时, 计算得到各个连通分量的最基础特征,其中包括连通分量的像素个数, 连通分量边缘点个数(以非该连通分量标号相邻的像素个数),连通分 量的外围矩形框大小和位置(连通分量外围框是指包括连通分量所有像 素的最小水平矩形框),以及该连通分量在分割结果中所属的层(白色 层和黑色层)。记录这些特征可以用阈值简单的过滤掉大量非字符的连 通分量。现假定对白色层进行连通分量分析,黑色层可以用同样的步骤 实现,其详细过程如下步骤步骤1):找到一个未标号的像素(即SegmentResult[x,y] = 255, LabelArrx,y] = 0)。为这个像素选取新的标号序号(即N加一)。如果 所有的像素都已被标号,算法停止。步骤2): LabelArr[x,y] = N,该连通分量像素数加一。同时更新外 围框的左上端点值和右下端点值。步骤3):如果SegmentResult[x-l,y] = 255,且LabelArr[x-l,y] = 0, 将坐标(x-l,y)压入堆栈。如果SegmentResult[x+l,y] = 255,且LabelArr[x+l,y] = 0,将坐标 (x+l,y )压入堆栈。如果SegmentResult[x,y+l] = 255,且LabelArr[x,y+1] = 0,将坐标 (x,y+l)压入堆栈。如果SegmentResult〖x,y-l] = 255,且LabelArr[x,y-1 ] = 0,将坐标 (x,y-l)压入堆栈。如果SegmentResult[x-l,y+l] = 255,且LabelArr[x-l,y+l〗=0,将 坐标(x-l,y+l)压入堆栈。如果SegmentResult[x-l,y-l] = 255,且LabelArr[x-l,y-l] = 0,将坐 标(x-l,y-l)压入堆栈。如果SegmentResult[x+l,y+l] = 255,且LabelArr[x+1,y+l] = 0,将 坐标(x+l,y+l)压入堆栈。如果SegmentResult[x+l,y-l] = 255,且LabelArr[x+l,y-l] = 0,将坐 标(x+l,y-l)压入堆栈。其中x-l大于等于零,x+l小于图像宽度,y-l大于等于零,y+l小 于图像高度。如果以上八个相邻点中,有一个像素值不等于255,则该连通分量 的边缘点数加一。步骤4):如果堆栈非空,从堆栈中取出一个值作为新的(x,y),并 跳转到步驟2)。如果堆栈为空,将该连通分量像素数,边缘像素点个数, 外围框数据保存,同时把临时变量赋值为初始值,跳转到步骤l)。通过以上算法过程,我们可以从分割图像中得到所有连通分量,包 括字符连通分量和大量的非字符连通分量。字符特征获取和阈值确认单元30,采用一个级联阈值分类器的方 法,如附图2所示,输入是连通分量。首先,获取连通分量的"特征一", 然后通过该特征值与阈值比较判断是否属于字符连通分量,如果是,则 将该连通分量输入到下一个特征获取器获取"特征二";如果不是连通 分量则将该连通分量丢弃,并不计算后续的特征;如果级联的阈值分类 器都判断连通分量为字符连通分量,则该连通分量就被级联阈值分类器 确认为字符连通分量。级联的分类器结构有助于提高系统的速度,在提 取一个特征之后,如果其不满足特定的阈值,则将该连通分量排除,这 样可以避免计算该连通分量级联分类器后边的特征。本实施例中主要包 括的特征有连通分量的像素个数、边缘像素个数、外围框大小、粗糙 度、笔画宽度、笔画宽度方差、对比度。通过以上的特征可以通过组合 获得与字符大小无关的一致特征,如外围框的高度和宽度比、连通分 量像素个数与外围框面积比、连通分量的像素个数与边缘像素个数的平方比、粗糙度与外围框高度比、笔画宽度与高度比、笔画宽度方差与笔 画宽度比。通过这些简单的组合可以使特征更为的有效,并使方法能够 定位各种大小的字符,而无须再对图像进行多分辨率的分解。以下介绍 各个特征的获取计算方法。连通分量的像素个数、边缘像素个数、外围框大小已经在进行连通 分量分析的时候获得。粗糙度是假设字符连通分量的边缘主要是由相对 较直的线段组成,边缘上的像素点相对的毛刺较少。可以通过使用形态 学滤波操作计算粗糙度。由于基于形态学的方法容易造成对笔画宽度小 于三的字符连通分量误认为有较高的粗糙度,所以在本实施例中,采用 了一种通过判断边缘像素点八领域相邻像素点的结构来判断该像素是 否是一个粗糙点。然后该连通分量所有粗糙像素点个数除于边缘点个数 即为该连通分量粗糙度。粗糙点的八领域局部结构的两个例子如图3所示,1为前景,0为背景。在本方法中一共定义了 180个类似的结构为粗糙点结构,其定义 的准则是边缘上的毛刺被定义为粗糙点像素。本发明并不限于这样的粗 糙度计算方式,其他的计算也适用。连通分量笔画宽度和笔画宽度方差特征的获取方法,笔画宽度和笔 画宽度方差分别是指连通分量的中轴上像素点到非连通分量像素的最 短距离的两倍的平均值和方差。基于字符连通分量都是由相对一致的线 条(笔画)组成,所以笔画宽度方差应该是一个较小的值。本方法采用 Zhang的快速并行算法(T. Y. Zhang and C. Y. Suen, "A fast parallel algorithm for thinning digital patterns", Commun ACM, vol. 27, no. 3, pp. 236—239, 1984)计算笔画的中轴,然后在计算笔画的宽度和方差。对比度是指连通分量的颜色和背景颜色之间的距离。 一般认为字符 连通分量的颜色和背景颜色之间有较大的距离。计算方法是统计连通分 量上各个像素点颜色的平均值作为前景颜色,统计连通分量外围框内非 连通分量的像素颜色平均值作为背景颜色,然后用欧式距离作为对比。 如果输入图像是灰度图像则计算灰度值差作为对比度。在本实施例中使 用灰度差作为对比度。以上是获得各个连通分量特征的计算方法,同时根据连通分量各个特征的计算时间和排除非字符连通分量的能力,排列各个特征在级联阈 值分类器结构中的先后顺序。在本实施例中其先后顺序为连通分量的 像素个数,边缘像素个数,连通分量的外围框,连通分量粗糙度、连通 分量笔画宽度和方差、连通分量对比度。各个分类器的阈值确定是通过 釆用对样本数据库中的字符连通分量的特征值进行统计得到。在本方法 中,用手工方法将采用单元10的方法得到的字符连通分量选择出来, 并计算这些字符连通分量的所有上述特征。对库中图像的所有字符连通分量的每个字符特征求得最大值和最 小值。如果用这些最大值和最小值作为分类器的阈值,这些分类器可以 在训练样本上达到100%的召回率,但是准确率相对较低。我们可以通 过调整这些阈值来平衡准确率和召回率。在经过级联阈值分类器之后, 大量的非字符连通分量被排除,但是仍有一些比较类似字符的非字符连 通分量没能被去除,所以仅仅使用字符连通分量特征不足于获得较好的 定位效果。图4 (a)是测试原始图像,图4(c)经过级联阈值分类器得到的排除非字符连通分量的结果。支持向量机分类单元40,采用支持向量机分类算法;支持向量机是一种有效的机器学习分类方法,特别是针对样本不是很大的情况下。在 本实施例中,采用了开源的LibSvm支持向量机应用程序接口函数库进 行计算。釆用的特征向量是以上计算得到的所有未组合基本连通分量特 征组成一个特征向量,其维数为13维,在进行训练和分类时都使用了 归一化操作。在实施例训练支持向量集的模型时使用的参数如下错误惩罚系数 C为2000, gamma为1.8445,核函数为径向基函数(rbf)。训练的正样本就是在获取连通分量特征阈值时使用的字符连通分量,负样本也是从 样本数据库图像中手工获取的非字符的连通分量。整个训练过程使用了 正负样本数都为4374个。训练后得到的模型的支持向量个数为1512, 其中正向量为397个。通过训练得到的模型可以有效的对未标记的连通 分量进行分类。附图4 (f)为使用支持向量机的结果,而图4 (e)为未使用支持向量机得到的结果,图4 (e)左下角多了一个虚检。连通分量组合文本区域单元50,采用的具体技术方案是首先确认各 个连通分量之间是否是属于同一文本区域,通过判断经过支持向量机分 类方法未排除的所有连通分量两两之间是否具有一致的特征,并且位置 相近,然后利用深度优先周游图算法找到所有连通分支,每个连通分支 对应一个候选文本区域中连通分量的集合;在本实施例中,其使用的样 本数据库中所有的文本都是大致水平排列的所以组合的过程就是找到 水平排列且相近的所有字符连通分量。当然如果针对中文要将垂直排列 的情形考虑其中,其处理方式是一致的。对经过支持向量机分类之后得 到的候选字符连通分量的集合。从集合中査找特征类似、位置大致处于 同一水平线上的且相临的连通分量组合成一个子集,作为一个候选文本 区域对应的连通分量集合。在本实施例中,通过使用两个约束位置约束和特征约束来判断集 合中的两个连通分量是否属于同一候选文本区域中,如果属于同一候选 文本区域就在构建一条边。水平方向上的组合约束条件如下公式所示, CCi和CCj .为候选连通分量集合中的任意两个连通分量,CCj一XXX 为连通分量CCi,的某个属性,例如,CCj一Width为连通分量CCj的宽度 属性。(1)位置约束MinHeight = Min(CCi—Height, CCj—Height)(CCj—Bottom - CC j_top) > *MinHeight(CCj—Bottom - CC"top) > kj *MinHeight ( 1 )式(1)确保可组合的两个连通域在同一水平方向上,、是一个控制文本线可倾斜程度的参数。在本实施例中,设置为0.75。CC; Right - CC ;—Left > k 7 *M inHeight i — j — z(2)II CCj_Right - CCj—Left > k2 *MinHeight 式(2)确保可组合的两个连通域距离很近,k2是一个控制可组合连通域的距离参数。在本实施例中k2设置为3。(2)属性约束CCj—GreyValue - CCj一GreyValue < k3 ( 3 )ICCi一StrokeWi她-CCj_StrokeWidth|CCi一StrokeWi她+ CCj—S加keWidth < k4 (4) ks*MinHeight>MaxHeight 。)式(3) (4) (5)中k3, k4, ks分别为23, 0.15, 2.1。如果以上所有约束被满足,那么这两个连通分量可以被组合到同一 个候选文本区域中,即两个连通分量之间存在一条连接的边。遍历所有 的连通分鼂对,则整个连通分量集合加上获得的边,组成了一个张"无 向图"。使用深度优先周游图将得到图中的各个连通分支。并将获得的 连通分支中所有连通分量定义为一个候选文本区域,同时可以通过候选 文本区域中的连通分量的位置、大小、灰度,计算该候选文本区域的位 置、大小、灰度,并作为候选文本区域的特征。图4 (d)测试图像经过文本区域确认后得到的结果,但是未使用支 持向量机对候选连通分量进行确认,黑框内为定位的文本区域。文本区域统计特征的获取并确认单元60,采用的技术方案是计算文本 区域内字符连通分量特征的方差,然后用经验阈值来确认候选文本区域 是否是有字符构成;因为同一文本区域中的字符连通分量一般都具有一 致的颜色、笔画宽度、高度。通过50步骤得到候选文本区域之后,对候 选文本区域内包含的连通分量个数大于一的区域,可以统计该文本区域 内连通分量特征(灰度,笔画宽度,外围框高度)的方差。如果该区域 是文本区域,这些方差一般具有较小的值,所以通过阈值可以进行有效 的对文本区域进行确认。在本实施例中,文本区域的灰度方差要小于28, 笔画宽度的方差处于笔画宽度均值要小于0.4,高度方差除于高度均值要 小于0.3,如果满足以上条件就认为该候选的文本区域为文本区域。如果 该文本区域内只有一个连通分量,则用更为严格的连通分量特征的阈值进行判断该连通分量是否是字符连通分量,更为严格是指将级联阈值分 类器中所获得的特征的阈值进行调整,使之尽可能的排除非字符连通分 量。这些阈值都通过经验获得,也可以通过已获得的样本统计得到。前面已经具体描述了本发明的实施方案,应当理解,对于一个具有 本技术领域的普通技能的人,在不背离本发明的范围的情况下,在上述 的和在附加的权利要求中特别提出的本发明的范围内进行变化和调整 能同样达到本发明的目的。
权利要求
1. 一种基于连通分量和支持向量机的图像文本定位置方法,其特征在于,步骤如下步骤S1将需要定位的图像根据其灰度值信息进行图像的分割处理,获得图像分层结果;步骤S2对分割后的每一层作为前景进行连通域分析,得到候选字符连通分量集合;步骤S3提取候选字符连通分量的特征,并用一个级联阈值分类器的结构排除非字符连通分量;每个阈值分类器的阈值通过统计样本数据获得;步骤S4对使用级联阈值分类器未被排除的候选字符连通分量,采用基于支持向量机的分类方法进行是否是字符连通分量的分类,支持向量机的特征向量为上述获取的所有字符连通分量特征;步骤S5将支持向量机分类结果中为字符的连通分量,根据其在图像中的位置关系和特征一致性进行组合,得到候选字符连通分量集合中的各个子集,包括子集中所有连通分量的最小矩形框称为该子集对应的文本区域,同时该子集称为文本区域中连通分量集合;步骤S6计算文本区域中连通分量集合中连通分量特征的方差作为候选文本区域的特征,并使用经验性的阈值确认是否是文本区域。
2. 如权利要求1所述的方法,其特征在于,所述的图像分割是对 灰度图像进行分析,如果输入图像是彩色图像需要将其转换为单色的灰 度图像,然后根据像素灰度值与该像素为中心的窗口中像素灰度值的平 均值和方差来确定像素所属的层。
3. 如权利要求1所述的方法,其特征在于,所述提取连通分量的 特征和阈值分类器的确认构成一个级联阈值分类器的结构,得到一个特 征就用阈值分类器进行判断是否该排除该连通分量,使之后续的特征计 算无需再对排除了的连通分量进行计算。
4. 如权利要求3所述的方法,其特征在于,分类器的阈值的设定是通过对样本数据库字符连通分量的对应特征进行统计来获取,获得的阈值保证样本中的字符连通分量都被确认为是字符连通分量。
5. 如权利要求1所述的方法,其特征在于,支持向量机采用了 LIBSVM工具,并使用径向基函数作为所使用的支持向量机的核函数。
6. 如权利要求l所述的方法,其特征在于,对步骤S5所述的组合 采用如下步骤步骤S51:通过判断候选连通分量集合中的任意两个连通分量是否 相邻,并且是否具有一致的特征来确认它们是否属于同一文本区域;如 果是属于同一文本区域,则在这两个连通分量之间建立一条边,这样候 选连通分量集合就转变为 一张无向图;步骤S52:对得到的无向图进行深度优先周游图算法,得到其中的 连通分支, 一个连通分支对应一个候选文本区域中的连通分量的集合。
7. 如权利要求6所述的方法,其特征在于,对所得到的候选文本 区域的连通分量集合,如果其包含的元素大于l,则提取连通分量的特 征为笔画宽度的方差、连通分量高度的方差、连通分量宽度的方差、 连通分量灰度值的方差;设定上述四个方差的阈值来确认该文本区域连通分量集合是否有 字符构成-如果任意一个方差值大于给定的阈值,则认为该文本区域连通分量 集合不是有字符连通分量构成的;如果文本区域字符连通分量集合元素个数等于1,则縮小字符连通 分量特征的阚值对文本区域中的唯一元素重新进行确认。
8. 如权利要求7所述的方法,其特征在于,对确认的文本区域的 连通分量集合,获取能包含文本区域连通分量集合中各个连通分量的最 小矩形框,作为文本区域的定位结果。
9. 一种基于连通分量和支持向量机的图像文本定位装置,其特征 在于,包括图像分割单元(10),用于将输入的数字图像进行图像的分层;连通域分析单元(20),用于对分层的图像进行连通性分析,得到候选的字符连通分量集合并得到简单的连通分量特征;连通分量特征获取和阈值确认单元(30),用于提取候选字符连通分量的特征,并用级联阈值分类器结构进行连通分量的确认,排除明显的非字符连通分量;支持向量机分类单元(40),用于对使用简单阐值不能排除的候选 字符连通分量,使用基于支持向量机的分类排除非字符连通分量;连通分量组合成文本区域单元50,用于对得到的字符连通分量根据 位置相邻和连通分量特征一致进行组合,组合得到的连通分量子集作为 一个文本区域所拥有的连通分量;文本区域统计特征获取并确认单元(60),用于获取各个文本区域 连通分量集合中连通分量特征的方差作为文本区域的特征,并用经验阈 值判别候选文本区域是否有字符连通分量构成。
全文摘要
本发明公开基于连通分量和支持向量机的图像中文本定位的方法和装置,图像分割单元,连通域分析单元;连通分量特征获取和阈值确认单元,支持向量机分类单元,连通分量组合成文本区域单元,文本区域统计特征获取并确认单元;方法将输入图像分割得到图像分层结果,用连通域分析对前景层进行分析得到连通分量的集合;提取出连通分量特征,通过使用级联阈值分类器的结构排除大量的非字符连通分量,对剩下的候选字符连通分量再运用支持向量机分类方法进行识别是否是字符连通分量;对剩余的连通分量根据特征一致和距离相近原则组合成候选文本区域,并提取出这些候选文本区域的特征,对这些特征用经验性的阈值确认是否为文本区域。
文档编号G06K9/72GK101266654SQ200710064388
公开日2008年9月17日 申请日期2007年3月14日 优先权日2007年3月14日
发明者台宪青, 姚金良, 杨一平, 薛文芳 申请人:中国科学院自动化研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1