从自然场景图像中识别多言语、多字体文字的方法

文档序号:6373187阅读:198来源:国知局
专利名称:从自然场景图像中识别多言语、多字体文字的方法
技术领域
本发明属于计算机视觉和模式识别中的文字识别技术领域,具体涉及一种图像中定位文字区域和识别文字的方法,特别是从复杂自然场景图像中识别多字体(包括手写体和毛笔字)、多语目文字的方法.
背景技术
近年来,随着大量价格低廉、功能强大的手持照相机和智能手机的普及,人们可以轻松获得大量的数字图像。在这些图像中可能包含着大量的文字信息,例如出现在广告牌、建筑物的标识、路标、车牌以及路边的公告中。如果我们可以利用这种文字信息,就能使图像和景物理解技术的准确度得到大幅度提升。需要使用这种技术的应用包括车牌识别、自 动地名识别、自动驾驶和导航技术等等。另外,现有的基于图像的搜索引擎技术基本上忽略了这种嵌入到图像中的文字,而文字却是一种非常直观的搜索线索,如果能够有效地识别嵌入到图像中的文字,则可以将嵌入的文字作为检索的重要信息来源,与原有的图像搜索引擎技术有效地结合。导致对嵌入图像中的文字信息的未充分利用的原因是现有技术很难准确的定位和检测处于复杂场景图像中的文字。由于拍摄这些图像的手持设备本身或者拍摄场景的限制,包含这些文字的图像分辨率可能很低,或者可能因拍摄时的强光照射,图像会有一定的模糊,等等。这些因素会使传统的文字识别技术的准确度大大下降。另外,在自然场景图像中的文字本身可能表现为不同的语言、字体、颜色、大小等。而且,由于拍摄视角问题,文字可能还会呈现一定程度的变形,多个文字的排列方式也可能不是尚直线排列。所以,传统的从图像中识别文字的方法在上述情况中遇到了困难。目前,传统的从图像中识别文字的方法可以归纳成三类第一类是用阈值来分离文字(thresholding based);第二类是根据纹理来判断(texture based);第三类是按区域来区分(region based)。第一类方法用一个全局或者局部的阈值来分离前景(文字)和背景。这种方法比较简单,但无法处理背景复杂的情况。同时,它们要求文字的颜色和背景对比强烈,前景颜色要求均一。在自然场景的背景中,这种方法表现不好,准确度和识别率均较低。第二类方法利用文字和背景不同的特征来区分它们。这些特征包括在傅里叶变换域和小波变换中文字部分具有的特殊参数。这类方法需要对图像进行多次扫描,所以非常耗时,并且对变换之后得到的信息无法在后续处理中应用。这类方法也无法处理倾斜或者弯曲的文字。第三类方法以区域为基础。其将具有同样特征的像素,比如说颜色,笔画宽度,组成一个组(CCs)。这些形成的组通过一些几何上的筛选,去掉一定不是文字的部分。然后将剩余的CCs组成文字。比较成功的方法有Stroke Width Transform。这种方法的缺点在于只能寻找一些笔画宽度变化不大的字体,比如说拉丁文和英文,而对例如中文字的象形文字的表现不佳。另外,它也无法检测毛笔字等文字形式。
还有一种检测方法使用特征对比技术。其建立了专门的特征库以检测图像中是否出现的一些特殊的特征。由于这种方法找到的特征只是针对一类言语中的一些特殊的文字,因此只针对一种语言才有效。

发明内容
(一 )要解决的技术问题本发明所要解决的技术问题是现有的从图像中识别文字的技术不能有效地识别处于复杂自然场景图像中文字的问题。(二)技术方案为了解决上述技术问题,本发明提出了一种从图像中识别文字的方法,该方法从图像中提取特征点,并获得所述特征点的特征描述子,并对所获得的特征描述子进行筛选,根据筛选后的特征描述子所描述的特征点的位置和尺度信息,基于特征点生长多个候选区 域,使该每个候选区域中包含多个特征点。该方法还利用一个图片数据库训练得到一个分类器,利用该分类器对所述候选区域中的所有特征描述子进行分类,并根据该分类结果计算表示候选区域为文字区域的可能性参数,将所述可能性参数与一个阈值进行比较,以判断所述候选区域是否为文字区域,并对判断为文字区域的所述候选区域进行文字识别。根据本发明的具体实施方式
,该方法包括如下步骤步骤A、从待识别图像中提取特征点,并获得所述特征点的特征描述子,所述特征描述子是用于描述特征点的算子;步骤B、对所获得的特征描述子进行筛选,筛除明显不包含在图像的文字区域中的特征点的特征描述子;步骤C、根据筛选后的特征描述子所描述的特征点的位置和尺度信息,基于特征点生长多个候选区域,使该每个候选区域中包含多个特征点,并且对某个候选区域中任意一个特征点,必存在属于这个候选区域的另一个特征点,使这两个特征点的距离小于其中一个特征点的尺度。步骤D、利用一个图片数据库训练得到一个分类器,所述图片数据库中包括多个样本图像,并在所述样本图像中已对文字区域进行了标定,利用该分类器对所述候选区域中的所有特征描述子进行分类,并根据该分类结果计算表示候选区域为文字区域的可能性参数;步骤E、将所述可能性参数与一个阈值进行比较,以判断所述候选区域是否为文字区域,并保留判断为文字区域的候选区域;步骤F、对判断为文字区域的所述候选区域进行文字识别。此外,本发明还提出一种与所述对应的装置,所述装置包括装置A、用于从待识别图像中提取特征点,并获得所述特征点的特征描述子,所述特征描述子是用于描述特征点的算子;装置B、用于对所获得的特征描述子进行筛选,筛除明显不包含在图像的文字区域中的特征点的特征描述子;装置C、根据筛选后的特征描述子所描述的特征点的位置和尺度信息,基于特征点生长多个候选区域,使该每个候选区域中包含多个特征点,并且对某个候选区域中任意一个特征点,必存在属于这个候选区域的另一个特征点,使这两个特征点的距离小于其中一个的尺度。装置D、用于利用一个图片数据库训练得到一个分类器,所述图片数据库中包括多个样本图像,并在所述样本图像中已对文字区域进行了标定,利用该分类器对所述候选区域中的所有特征描述子进行分类,并根据该分类结果计算表示候选区域为文字区域的可能性参数;装置E、用于将所述可能性参数与一个阈值进行比较,以判断所述候选区域是否为文字区域,并保留判断为文字区域的候选区域;装置F、用于对判断为文字区域的所述候选区域进行文字识别。(三)有益效果本发明可以在低分辨率、模糊、强光照等困难的条件下检测不同大小、颜色、字体、 语目的文字。本发明所提取的特征描述子可以很好的结合具体应用,例如结合图像搜索引擎可以达到更好的效果。本发明对文字的语言、笔画宽度没有要求。训练所得到的分类器也可以在多语言的情况下使用。


图I是本发明的从图像中识别文字的方法的流程图;图2是本发明的方法中对待识别图像进行特征点的提取和特征描述子的初步筛选的示意图,其中图2(a)是待识别的图像,图2(b)是获得的特征描述子的示意图,图2(c)是图2(b)的局部放大图,用来说明第一类干扰特征点,图2(e)是图2(b)的局部放大图,用来说明第二类干扰特征点,图2(e)是经过两步特征筛选得到的图;图3是本发明的方法中筛选特征描述子的示意图,其中图3(a)是筛除第一类主方向基本平行的特征描述子的示意图,图3(b)是筛除第二类为尺度过大的特征描述子的示意图;图4是本发明的方法的生长候选区域的流程图;图5是本发明的方法的生长候选区域的示意图;图6(a)是本发明的方法对图2(a)所示的图像进行候选区域生长的示意图,图6(b)是对图6(a)所示的候选区域进行分类的示意图;图7是本发明的方法的组合文字区域的示意图;图8是经过本发明的方法对图2(a)处理后得到的最终效果图。
具体实施例方式为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明作进一步的详细说明。为了解决现有的从图像中识别文字的技术中出现的问题,本发明提出了一种可以从图像中稳健定位、检测以及识别文字的方法。图I为本发明的从图像中识别文字的方法的流程图。如图I所示,本发明的方法包括以下依次执行的步骤
步骤A、从待识别图像中提取特征点,并获得特征点的特征描述子。所述特征描述子是用于描述特征点的算子。特征点是图像中的能够反映图像特性的稳健的感兴趣点。现有技术中,可以利用Dog,Affine Hessia等算法寻找图像中的兴趣点。稳健指的是该点的特征描述子在一定程度的旋转和尺度变化下保持基本不变。特征点一般包括位置(图像坐标系下的(x,y)的值)、尺度、主方向等信息。特征描述子是用于描述特征点的算子。例如SIFT特征描述子包含了一个128维的向量用以描述特征点。本发明首先在所要进行识别的图像中提取特征点,并获得这些特征点的特征描述子,如SIFT (Scale Invariant Feature Transform,尺度不变特征转换)特征描述子、SURF (Speeded Up Robust Feature,快速鲁棒性)特征描述子。本发明的实施例以SIFT特征描述子为例,但本发明不限于此,也可以使用其它特征描述子。
特征描述子的提取方法可以直接采用现有技术,例如先做DoG,形成梯度金子塔数组,在此数组中寻找的感兴趣点。用一个128维的向量描述感兴趣点的特性,在此不再赘述。步骤B、根据特征点的尺度和位置等信息对所获得的特征描述子进行筛选,筛除明显不包含在图像的文字区域中的特征点的特征描述子。步骤A所得到的特征点过多,其中包含大量无用的特征描述子,本步骤将从中快速筛除明显不是描述图像中文字区域的特征点的特征描述子,以加快后续步骤的处理速度和准确度。下面参照图2对本发明的特征点的提取与特征描述子的筛选进行说明。图2(a)为待识别的图像。在该图像的场景中,背景对文字区域的识别干扰较大。背景中有灌木,包括树枝和树叶;有波浪型的屋顶和铁栅栏;写有文字的木板之前有铁栅栏进行遮挡;文字本身也是倾斜的。传统的文字识别方法对于该类图像处理效果较差。图2(b)是从图2(a)所示的图像中获得的SIFT特征点的结果示意图。在此,使用箭头来表示SIFT特征点。箭头的起点表示特征描述子所描述的特征点的位置,箭头的方向表示特征描述子的主方向,长度表示特征描述子的尺度。从图2(b)可以看出,步骤A获得的特征描述子较多,但是大部分都是和图像中的文字区域无关的干扰特征描述子。由图2(b)可见,其中有两类明显干扰的特征描述子需要快速去除。第一类为主方向基本相互平行的多个特征描述子。这里所指的基本相互平行定义为多个特征描述子主方向相差小于n /4或大于3 /4。此种特征描述子所描述的特征点一般出现在长、直背景图像中,比如直屋檐、窗台、装饰物、装饰线、铁栅栏中。此类特征描述子参见图2(c)中对图2(a)的栅栏部分局部放大图。这类特征描述子的筛除方法如图3a所示,具体如下以一个待筛选的特征描述子d0所描述的特征点的位置为圆心,尺度为半径作圆CO。将所有位于该圆CO中的特征点的特征描述子以其主方向投影到一个具有8个小区间的统计直方图中。8个小区间将全角度区间
平均分成8份。如果有超过2个小区间中有投影到的特征描述子,则保留d0,否则将d0作为干扰特征描述子被筛除。第二类为尺度过大或者过小的特征描述子。这里所述的尺度过大或过小指的是尺度大于其附近的大部分特征描述子或者尺度小于其附近的大部分特征描述子。由于文字区域的尺度一般比较均一,尺度过大或过小的特征描述子一般是用以描述前景(例如文字)和背景(例如树木等)的关系。由于这种关系在背景改变时有极大的变化,无法稳健的描述前景的性质,所以需要筛除。参见图2(d)中对图2(a)的局部放大图。此类特征描述子筛除方法如图3b所示,具体如下以一个待筛选的特征描述子dl所描述的特征点的位置为圆心,尺度Si为半径作圆Cl。可以得到位于在该圆Cl内的no个特征描 述子(dl不计算在内)。不妨假设其中尺度小于SlXrl的特征描述子的个数为nl,尺度大于slXr2的特征描述子个数为n2。其中rl和r2是用来定义尺度过大和过小的具体参数,rl < l、r2 > I。rl和r2的变化会引起算法准确度的变化,rl, r2可以通过针对训练数据库中的随机抽取的一组图像(例如100幅)进行训练,通过找最佳准确率得到。如果(nl+n2)/n0大于某一阈值,则去除dl,否则保留dl。实施以上步骤后所得结果参见图2(e)。此步骤平均可以去除70%的干扰特征描述子。步骤C、根据筛选后的特征描述子所描述的特征点的位置和尺度信息,基于特征点生长多个候选区域,使该每个候选区域中包含多个特征点,并且对某个候选区域中任意一个特征点,必存在属于这个候选区域的另一个特征点,使这两个特征点的距离小于其中一个的尺度。图4是本发明的方法的生长候选区域的流程图。如图4和图5所示。我们定义已被包含在候选区域内的特征点为已生长特征点,未被包含在候选区域内的特征点为待生长特征点。本发明的候选区域生长方法包括如下步骤步骤Cl、随机选取一个待生长特征点作为种子特征点。初始的候选区域仅包含此种子特征点。步骤C2、将所有处于在该种子特征点影响范围内的特征点加入该候选区域。在此,特征点影响范围定义为以该特征点的位置为圆心,该特征点的尺度为半径的圆C2。步骤C3、将所有位置处于该候选区域影响范围的特征点加入该候选区域。在此,区域影响范围定义为所有在区域中的特征点影响范围之和。步骤C4、重复上述步骤C3,直到没有特征点可以加入该候选区域,此时,一个候选区域生长完成。步骤C5、如果还有待生长特征点,则重复上述步骤Cl至C4产生新的候选区域。图5是本发明的方法的生长候选区域的示意图。如图5所示,以特征点①为圆心画圆,将特征点②加入该区域。再以特征点②画圆,将特征点③加入该区域。如此重复下去,直到没有符合条件的特征点可以加入该区域。对图2(a)中区域生长所得结果如图6(a)所示。生长出的区域(候选区域)将全部落在文字区域中或者落在非文字区域中。根据之前的步骤所提取的特征点的位置和筛选的特征描述子和尺度信息,本步骤能够快速生长出候选区域。本发明的区域生长方式改变了传统的以像素为单位的生长方式。它的单位是特征点提取之后的特征点(keypoints),每一步生长的候选点也变成以这个特征点为圆心,特征点描述子的尺度为半径的圆内的所有特征点。经过这种区域生长出的候选区域拥有以下良好的性质a.整个候选区域覆盖于文字区域,或者整个候选区域不覆盖于文字区域;
b.候选区域包含的特征点较多(超过5个)。由于这样的性质,候选区域中所有的特征点的集体判断的正确率会有大幅度地提闻。步骤D、利用一个图片数据库训练得到一个分类器,所述图片数据库中包括多个样本图像,并在所述样本图像中已对文字区域进行了标定,利用该分类器对所述候选区域中的所有特征描述子进行分类,并根据该分类结果计算表示候选区域为文字区域的可能性参数。在训练过程中,图片数据库中的每幅样本图像通过与本发明的识别步骤中的步骤A和步骤B相同的步骤。即对图片数据库中的样本图像提取特征点,经过特征描述子的筛选之后,将已标定好的位于文字区域内的特征点的特征描述子作为正样本,其他特征描述子 作为负样本进行训练,得到一个针对单个特征描述子的分类器。为了计算表示候选区域为文字区域的可能性参数,首先需要对单个特征描述子给出一个表示其是否为描述文字区域的特征点的参数V。根据一种实施方式,可以设定V= I表示该特征描述子为文字区域的特征点的特征描述子,V = -I表示其为非文字区域的特征点的特征描述子。在建立分类器之后,使用该分类器对候选区域中所有的特征描述子进行分类,即对于候选区域中所有的特征描述子给出V值。图6(b)是对图6(a)所示的候选区域进行分类的示意图。根据上述设定,我们可以将表示候选区域为文字区域的可能性参数定义为该候选区域中所有特征描述子的参数V的平均值V,则-K V SI,越大,则其为文字域的可能性越大。步骤E、将表示候选区域为文字区域的可能性参数与一个阈值进行比较,以判断所述候选区域是否为文字区域,并保留是文字区域的候选区域。如果所述可能性参数大于确定的阈值,则判断为文字区域,否则判断为非文字区域。在所述表示候选区域为文字区域的可能性参数与所述阈值进行比较之前,需要先设定该阈值的大小。本发明借鉴了 OTSU的图像前景背景分割的方法,重新定义了其中的灰度级概率,使得OTSU可以应用在一维自适应求阈值的问题上。具体来说,本发明对所述图片数据库中的所有图片,基于训练过程中筛选的特征描述子所描述的特征点进行候选区域生长,不妨假设生长出N个候选区域。用步骤D所定义的算法给出每一个候选区域的可能性参数V i = 1、2. . . No对于给定的N个一维数据$, ,,设Vm为这列数据中的最大值& n为这列数据中的最小值,将区域[Vmin , Vmax ]平均分成L个小区间,L根据阈值所需要的精度来定。将这N个一维数据投影到每个小区间中,并设每个小区间中投影的数据个数为Iii,则有
N = YjU1!=1L
片>。名 A = I
I.1 yZ=I
这样就将离散一维数据转化成了概率分布。候选区域有两类,文字区域和非文字区域。两类区域的及有一定的可区分的概率分布。文字区域和非文字区域之间的方差越大,说明本发明所区分两类区域的V差别越大,区分也就越成功。当部分文字区域错分为非文字区域,或者部分非文字区域错分为文字区域,都会导致两类差别变小。因此,使区域之间的方差最大的分割意味着错分概率最小。根据以上原贝ij,-的阈值k*满足ojjX)= maxcrl(k)即阈值k* =
权利要求
1.一种从图像中识别文字的方法,所述图像是包括多个像素点的电子图像,所述方法对图像中的文字区域进行定位并对文字区域中的文字进行识别,其特征在于,所述方法包括如下步骤 步骤A、从待识别图像中提取特征点,并获得所述特征点的特征描述子,所述特征描述子是用于描述特征点的算子; 步骤B、对所获得的特征描述子进行筛选,筛除明显不包含在图像的文字区域中的特征点的特征描述子; 步骤C、根据筛选后的特征描述子所描述的特征点的位置和尺度信息,基于特征点生长多个候选区域,使该每个候选区域中包含多个特征点,并且对于某个候选区域中任意一个特征点,必然存在属于这个候选区域的另一个特征点,使这两个特征点的距离小于其中一个特征点的尺度。
步骤D、利用一个图片数据库训练得到一个分类器,所述图片数据库中包括多个样本图像,并在所述样本图像中已对文字区域进行了标定,利用该分类器对所述候选区域中的所有特征描述子进行分类,并根据该分类结果计算表示候选区域为文字区域的可能性参数; 步骤E、将所述可能性参数与一个阈值进行比较,以判断所述候选区域是否为文字区域,并保留判断为文字区域的候选区域; 步骤F、对判断为文字区域的所述候选区域进行文字识别。
2.如权利要求I所述的从图像中识别文字的方法,其特征在于, 在步骤B中,筛除不包含在图像的文字区域中的特征点的特征描述子的步骤为以一个待筛选的特征描述子所描述的特征点的位置为圆心,该特征描述子的尺度为半径作圆。将所有在该圆中的特征点的特征描述子以其主方向投影到一个具有8个小区间的统计直方图中,所述8个小区间将全角度区间[O,2 Ji]平均分成8份,如果有超过2个小区间中有投影到的特征描述子,则保留该特征描述子,否则筛除该特征描述子。
3.如权利要求I所述的从图像中识别文字的方法,其特征在于, 在步骤B中,筛除不包含在图像的文字区域中的特征点的特征描述子的步骤为以一个待筛选的特征描述子所描述的特征点的位置为圆心,该特征描述子的尺度Si为半径作圆,得到位于在该圆内的除了该待筛选的特征描述子的nO个特征描述子,如果(nl+n2)/n0大于一个阈值,则筛除该特征描述子,否则保留该特征描述子,其中nl、n2分别为尺度小于si Xrl和大于si Xr2的特征描述子的个数,其中rl和r2是用来定义尺度过大和过小的具体参数,且满足rI < l、r2 > I。
4.如权利要求I所述的从图像中识别文字的方法,其特征在于, 步骤C包括如下步骤 步骤Cl、随机选取一个待生长特征点作为种子特征点; 步骤C2、将所有处于在该种子特征点影响范围内的特征点加入该候选区域,所述特征点影响范围是以特征点的位置为圆心,特征点的尺度为半径的圆; 步骤C3、将所有位置处于该候选区域影响范围的特征点加入该候选区域,所述区域影响范围是指在区域中的所有特征点的特征点影响范围之和; 步骤C4、重复上述步骤C3,直到没有特征点可以加入该候选区域。
5.如权利要求I所述的从图像中识别文字的方法,其特征在于,在步骤D中,在训练所述分类器时,对所述图片数据库中的每幅样本图像执行步骤A和步骤B相同的步骤。
6.如权利要求5所述的从图像中识别文字的方法,其特征在于,在步骤D中,所述表示候选区域为文字区域的可能性参数为该候选区域中所有特征描述子的参数V的平均值V,其中V = I表示该特征描述子为文字区域的特征点的特征描述子,V = -I表示该特征描述子为非文字区域的特征点的特征描述子。
7.如权利要求6所述的从图像中识别文字的方法,其特征在于,在步骤E中,所述阈值
8.如权利要求I所述的从图像中识别文字的方法,其特征在于, 在步骤F中,通过对所述文字区域的颜色特征及其位置,将属于同一个文字行的文字区域组合起来,形成文字块。
9.如权利要求8所述的从图像中识别文字的方法,其特征在于, 在步骤F中,当组合之后的所述文字块包含多个文字行时,对多个行进行划分。
10.一种从图像中识别文字的装置,所述图像是包括多个像素点的电子图像,所述装置对图像中的文字区域进行定位并对文字区域中的文字进行识别,其特征在于,所述装置包括 装置A、用于从待识别图像中提取特征点,并获得所述特征点的特征描述子,所述特征描述子是用于描述特征点的算子; 装置B、用于对所获得的特征描述子进行筛选,筛除明显不包含在图像的文字区域中的特征点的特征描述子; 装置C、根据筛选后的特征描述子所描述的特征点的位置和尺度信息,基于特征点生长多个候选区域,使该每个候选区域中包含多个特征点,并且对于某个候选区域中任意一个特征点,必然存在属于这个候选区域的另一个特征点,使这两个特征点的距离小于其中一个特征点的尺度。
装置D、用于利用一个图片数据库训练得到一个分类器,所述图片数据库中包括多个样本图像,并在所述样本图像中已对文字区域进行了标定,利用该分类器对所述候选区域中的所有特征描述子进行分类,并根据该分类结果计算表示候选区域为文字区域的可能性参数; 装置E、用于将所述可能性参数与一个阈值进行比较,以判断所述候选区域是否为文字区域,并保留判断为文字区域的候选区域; 装置F、用于对判断为文字区域的所述候选区域进行文字识别。
11.如权利要求10所述的从图像中识别文字的装置,其特征在于, 用于筛除不包含在图像的文字区域中的特征点的特征描述子的装置B用于以一个待筛选的特征描述子所描述的特征点的位置为圆心,该特征描述子的尺度为半径作圆。将所有在该圆中的特征点的特征描述子以其主方向投影到一个具有8个小区间的统计直方图中,所述8个小区间将全角度区间
平均分成8份,如果有超过2个小区间中有投影到的特征描述子,则保留该特征描述子,否则筛除该特征描述子。
12.如权利要求10所述的从图像中识别文字的装置,其特征在于, 用于筛除不包含在图像的文字区域中的特征点的特征描述子的装置B用于以一个待筛选的特征描述子所描述的特征点的位置为圆心,该特征描述子的尺度Si为半径作圆,得到位于在该圆内的除了该特筛选的特征描述子的ηΟ个特征描述子,如果(nl+n2)/n0大于一个阈值,则筛除该特征描述子,否则保留该特征描述子,其中nl、n2分别为尺度小于si Xrl和大于si Xr2的特征描述子的个数,其中rl和r2是用来定义尺度过大和过小的具体参数,且满足rl < I、r2 > I。
13.如权利要求10所述的图像中识别文字的装置,其特征在于, 装置C用于 Cl、随机选取一个待生长特征点作为种子特征点; C2、将所有处于在该种子特征点影响范围内的特征点加入该候选区域,所述特征点影响范围是以特征点的位置为圆心,特征点的尺度为半径的圆; C3、将所有位置处于该候选区域影响范围的特征点加入该候选区域,所述区域影响范围是指在区域中的所有特征点的特征点影响范围之和; C4、重复C3,直到没有特征点可以加入该候选区域。
14.如权利要求10所述的从图像中识别文字的装置,其特征在于, 用于训练所述分类器的装置具有装置A和装置B相同的功能。
15.如权利要求14所述的从图像中识别文字的装置,其特征在于,在装置D中,所述表示候选区域为文字区域的可能性参数为该候选区域中所有特征描述子的参数V的平均值V,其中V = I表示该特征描述子为文字区域的特征点的特征描述子,V = -I表示该特征描述子为非文字区域的特征点的特征描述子。
16.如权利要求15所述的图像中定位文字区域和识别文字的装置,其特征在于, 在装置E中,所述阈值为G= ^rginaxcryjl(A),!彡k彡L,其中 k 5=,μτ=μ^=Σ-ρ,^LN-^j Ili< ι~λζ且其中L为对区域平均划分成小区间的个数,为 "士 ,Pi 二音二1[V V IV ■I iVι=ιL mm , max Jmm所述每个候选区域的平均值 Γ的最小值^叭为所述每个候选区域的平均值 Γ的最大值,Hi每个小区间中投影的数据个数,i为自然数,如果所述可能性参数大于所述阈值,则判断候选区域为文字区域,否则判断为非文字区域。
17.如权利要求10所述的从图像中识别文字的装置,其特征在于, 所述装置F用于根据所述文字区域的颜色特征及其位置,将属于同一个文字行的文字区域组合起来形成文字块。
18.如权利要求19所述的从图像中识别文字的装置,其特征在于, 所述装置F还用于当组合之后的所述文字块包含多个文字行时,对多个行进行划分。
全文摘要
本发明公开了一种从图像中识别文字的方法,该方法从图像中提取特征点,并获得所述特征点的特征描述子,并对所获得的特征描述子进行筛选,根据筛选后的特征描述子所描述的特征点的位置和尺度信息,基于特征点生长多个候选区域,使每个候选区域中包含多个特征点。该方法还利用一个图片数据库训练得到一个分类器,利用该分类器对所述候选区域中的所有特征描述子进行分类,并根据该分类结果计算表示候选区域为文字区域的可能性参数,将所述可能性参数与一个阈值进行比较,以判断所述候选区域是否为文字区域,并对判断为文字区域的所述候选区域进行文字识别。本发明可以在各种困难条件下检测不同大小、颜色、字体、语言的文字。
文档编号G06K9/20GK102799879SQ201210241520
公开日2012年11月28日 申请日期2012年7月12日 优先权日2012年7月12日
发明者毛俊骅, 李厚强, 周文罡, 田奇 申请人:中国科学技术大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1