图像处理装置、文字识别装置、图像处理方法以及程序与流程

文档序号:12142203阅读:348来源:国知局
图像处理装置、文字识别装置、图像处理方法以及程序与流程

本发明涉及一种图像处理,尤其涉及一种适合作为文字识别处理的前处理的图像处理。



背景技术:

对包含字符串的物体进行拍摄,并从拍摄的图像中识别获取字符串的文字识别技术正在普及。一般而言,物体具有立体的形状,而且包含各种材料,因而根据拍摄图像时的照相机(camera)设置位置或照明条件,有时不仅会拍摄到扩散反射光,还会拍摄到镜面反射光。镜面反射光的亮度值与扩散反射光相比非常高,伴随亮度值的饱和,成为文字的抠出处理或文字识别处理精度下降的原因。

例如,作为文字识别处理的前处理,进行图像的二值化。作为二值化的方法,提出有一种被称作动态二值化的方法,即:为了消除局部性的阴影的影响,基于局部区域内的亮度值来动态地决定阈值(专利文献1)。此时,若拍摄图像存在因镜面反射光造成的高亮度区域,则有时无法进行适当的二值化,从而对后段的文字识别处理造成不良影响。

举以车辆的牌照(number plate)为对象来进行文字识别的情况为例,进一步作具体说明。图10(a)表示拍摄牌照所得的图像。在牌照上压印(emboss)加工有文字或数字,在压印加工的阶差部分有时会产生因镜面反射光造成的高亮度区域(饱和区域)。图10(b)中是以黑色表示的区域为高亮度区域的示例。当对此种图像实施动态二值化处理时,会因高亮度区域的影响而产生噪声(noise)。图10(c)表示对图10(a)所示的图像实施动态二值化处理而获得的二值图像。如图10(c)所示,原本应视为高亮度的区域因镜面反射光造成的高亮度区域的存在而被判定为相对低亮度。若基于带着此种噪声的图像来进行文字的抠出或识别,则其精度会下降。

所述的说明不过是因镜面反射光造成的高亮度区域(饱和区域)导致的不良影响的一例。即使在不进行动态二值化处理作为前处理的情况或者对象物体为牌照以外的情况等下,也会因高亮度区域的存在而导致文字识别处理的精度下降。

现有技术文献

专利文献

专利文献1:日本专利特开2003-123023号公报



技术实现要素:

[发明所要解决的问题]

本发明是鉴于所述实情而完成,其目的在于提供一种技术,即使在输入图像存在因镜面反射光等造成的高亮度区域的情况下,也能够实现高精度的文字识别。

[解决问题的技术手段]

为了达成所述目的,本发明中,作为文字识别处理的前处理,决定图像的高亮度区域,并对该高亮度区域的像素值进行转换,由此来抑制因镜面反射光等产生的高亮度区域所造成的不良影响。

具体而言,本发明的一形态是一种图像处理装置,其对输入图像实施图像识别处理的前处理,所述图像处理装置的特征在于包括:生成部件,生成输入图像的亮度值的直方图(histogram);决定部件,基于所述直方图来决定亮度值的基准值,并决定具有比所述基准值大的亮度值的像素即高亮度像素;以及转换部件,将所述高亮度像素的亮度值转换为所述基准值以下的亮度值。

而且,也优选的是,本发明中的所述决定部件基于所述直方图来决定一个或多个亮度值的峰值范围,并基于亮度值最大的峰值范围的上限值来决定所述基准值。

而且,也优选的是,本发明中的所述决定部件基于所述直方图来决定一个或多个亮度值的峰值范围,并基于亮度值第二大的峰值范围的上限值来决定所述基准值。

而且,也优选的是,本发明中的所述决定部件基于对应于亮度值的度数与所述亮度值附近的度数的重心之差,将亮度值进行群集(clustering)为多个范围,并将所述多个范围中的、范围的宽度或范围内的度数的合计为阈值以上的范围,决定为所述峰值范围。

而且,也优选的是,本发明中的所述转换部件将所述高亮度像素的亮度值转换为所述基准值。

而且,也优选的是,本发明中的所述转换部件将所述高亮度像素的亮度值,转换成基于位于所述像素周边的像素的亮度值而算出的亮度值。

而且,本发明的另一形态是一种文字识别装置,其包括:以上所述的图像处理装置;以及识别部件,对由所述图像处理装置实施了处理的图像进行文字识别处理。

而且,也优选的是,所述输入图像包含牌照的至少一部分,所述识别部件对绘制在所述牌照上的文字进行文字识别处理。

另外,本发明能够作为包含所述部件的至少一部分的图像处理装置或文字识别装置而掌握。而且,本发明也能够作为图像处理方法或文字识别方法而掌握。而且,也能够作为用于使计算机(computer)执行这些方法的各步骤的计算机程序(program)、非临时性地存储有该程序且计算机可读取的存储介质而掌握。所述结构及处理能够分别在不产生技术矛盾的范围内彼此组合而构成本发明。

[发明的效果]

根据本发明,能够对输入图像修正因镜面反射光等造成的高亮度区域,从而能够实现抑制了因高亮度区域造成的不良影响的、高精度的文字识别。

附图说明

图1是表示第1实施方式的牌照识别系统的概要的图。

图2是表示第1实施方式中的文字识别装置的结构的框图。

图3是表示第1实施方式中的文字识别处理的流程的流程图。

图4是表示第1实施方式中的前处理(高亮度像素的修正处理)的流程的流程图。

图5是对由输入图像所获得的亮度的直方图与由直方图所求出的峰值范围进行说明的图。

图6是表示第1实施方式中的用于求出峰值范围的群集处理的流程的流程图。

图7是对第1实施方式中的用于求出峰值范围的群集处理进行说明的图。

图8是表示第1实施方式的高亮度像素的修正处理前后的图像的图。

图9是表示第2实施方式中的前处理(高亮度像素的修正处理)的流程的流程图。

图10是对因镜面反射光造成的不良影响进行说明的图。

具体实施方式

以下,参照附图来例示性地详细说明用于实施本发明的优选形态。但是,以下的实施方式中记载的构成零件的尺寸、材质、形状、其相对配置等只要未特别记载,则并非将本发明的范围仅限定于这些内容的主旨。

<第1实施方式>

图1是表示本实施方式的车辆的牌照识别系统的概要的图。牌照识别系统包含:照相机20,设置在竖立于路侧的灯杆上,拍摄道路上的车辆30;以及文字识别装置(图像处理装置)10,从照相机20所拍摄的图像中提取牌照,以确定牌照上所记载的文字。

图2(a)是表示文字识别装置10的硬件(hardware)结构的图。文字识别装置10包含图像输入部11、运算装置12、存储装置13、输入装置14、输出装置15及通信装置16。图像输入部11是从照相机20接收图像数据的接口(interface)。另外,本实施方式中,是从照相机20直接接收图像数据,但也可经由通信装置16来接收图像数据,或者经由记录介质来接收图像数据。运算装置12为通用的处理器(processor),执行保存在存储装置13中的程序,实现后述的处理。存储装置13包含主存储装置及辅助存储装置,保存由运算装置12所执行的程序,并且保存图像数据或程序执行中的临时数据。输入装置14是包含键盘(keyboard)或鼠标(mouse)等,供用户(user)对文字识别装置输入指示的装置。输出装置15是包含显示装置或扬声器(speaker)等,供文字识别装置进行对用户的输出的装置。通信装置16是供文字识别装置10与外部的计算机进行通信的装置。通信的形态既可为有线也可为无线,通信规格可为任意。

运算装置12通过执行程序,从而实现图2(b)所示的功能。即,运算装置12实现前处理部100、文字提取部110、文字识别部120的功能部。前处理部100包含直方图生成部101、高亮度像素决定部102、转换部103、及二值化部104。各部的处理内容在以下说明。

图3是表示由文字识别装置10所进行的文字识别处理的整体流程的流程图。在步骤S10中,文字识别装置10经由图像输入部11而从照相机20获取拍到车辆的图像数据。文字识别装置10从所接收的图像中提取车辆的牌照区域,对该区域执行以后的处理。牌照的提取只要通过模板匹配(template matching)等现有的方法来进行即可,因此省略其说明。

步骤S11是为了使图像数据成为适合于文字识别者而进行的前处理,由前处理部100来执行。在前处理中,包含图像的高亮度像素的亮度值修正处理、二值化处理、噪声去除处理等。

步骤S12中,文字提取部110从前处理后的图像中提取文字区域,并从其中进一步提取逐个文字的文字区域。步骤S13中,文字识别部120从各文字区域提取文字的特征,进行所提取的文字与字典数据内的各文字的比对,以进行所提取的文字的识别。在文字区域的抠出、文字特征量的获取或比对处理中,可适用现有的任意技术。例如,作为获取文字特征的方法,可使用像素特征提取法、轮廓特征提取法、梯度特征提取法等。而且,作为文字识别的方法,可使用局部空间法、神经网络(neural network)、支持向量机(SVM)、判别分析等方法。

以下,对本发明中的特征性处理即前处理中的高亮度像素的亮度值(像素值)修正处理进行说明。图4是对前处理,尤其是高亮度像素的亮度值修正处理的流程进行说明的流程图。

首先,在步骤S20中,进行输入图像的灰度(gray scale)化。灰度图像的阶数并无特别限定,例如可设为256阶。在步骤S21中,直方图生成部101由转换成灰度的图像来生成亮度值的直方图。在本实施方式中,将直方图的组距(bin width)设为1,但组距也可大于1。图5(a)表示所生成的直方图的一例。另外,图5(a)(b)中的纵轴表示显现比例(密度)。

步骤S22中,高亮度像素决定部102以直方图为对象来实施群集处理。该群集处理是以确定亮度值取得峰值的范围为目的,将一个峰值范围决定为一个群集(cluster)。峰值范围以外的亮度值被判定为不属于任何群集。以下,对步骤S22中的群集处理作更详细说明。

图6是表示步骤S22中的群集处理的详细流程的流程图。步骤S30中,对于直方图的各直条(bin)的每一个(本实施方式中与各亮度值的每一个同义),计算周边的N个亮度中的亮度值的重心。N例如设为10左右。亮度值Li中的重心亮度GLi可通过以下的数式来计算。

GLi=∑j(Lj×mj)/∑j(mj)

此处,∑(sigma)(总和)是关于j而表示i-N/2至i+N/2的范围内的和。mj表示直方图中的亮度值Lj的度数。

步骤S31中,计算各直条(各亮度值)中的重心亮度值GLi与亮度值Li之差以作为偏移(shift)量Si。即,设为

Si=GLi-Li,

以决定偏移量Si。

步骤S32中,各直条(各亮度值)中的偏移量被量化为正(plus)(+)、负(minus)(-)、零(0)这三个值。本实施方式中,若偏移量Si为0.5以上,则视为正,若为-0.5以下,则视为负,若为除此以外,则视为零。该量化中的阈值也可采用0.5以外的值。而且,量化的阈值也可通过直方图的组距来变更,例如也可采用组距的一半。

图7(a)是示意性地表示由亮度值的直方图所获得的偏移量与量化偏移量的示例的图。在图7(a)的上段,表示了作为处理对象的直方图的示例。在图7(a)的中段,关于亮度值A、B、C而表示了用于求出重心亮度值的周边亮度的范围(矩形)与重心亮度值(黑圆)。附图中,亮度值A中的重心亮度值比亮度值A大0.5以上,表示亮度值A中的量化偏移量为正(+)。同样,亮度值B中的重心亮度值与亮度值B之差的绝对值小于0.5,表示亮度值B中的量化偏移量为零(0)。而且,亮度值C中的重心亮度值比亮度值C小0.5以上,表示亮度值C中的量化偏移量为负(-)。图中,仅对于亮度值A、B、C表示了重心亮度值,但对所有的亮度值进行同样的计算,对于所有的亮度值求出量化偏移量。在图7(a)的下段表示了量化偏移量。另外,图中仅明示了量化偏移量为正与负的部分,既非正也非负的部分则量化偏移量为零。

返回图6的流程图的说明。步骤S33中,在量化偏移量的排列(也称作量化排列)中,提取连续两个以上的正列及负列,将从正列的起点至负列的终点为止的范围决定为一个群集。将由图7(a)所示的量化偏移量所获得的进行群集结果示于图7(b)。在图7(a)中,正列与负列分别各存在两个,对应于正列与负列的对(pair)而如图7(b)所示般决定两个群集。

步骤S34中,将在步骤S33中求出的群集中的不满足规定基准的群集予以除外。作为基准的示例,可采用:群集的宽度为规定的阈值以上;或者群集内的度数的合计(属于群集的像素数)为规定的阈值以上。将不具备宽度的群集予以去除,例如能够将饱和的像素与其他的峰值区分开来,因此有效。在图像整体明亮的情况下,对在最大亮度值(本实施方式中为亮度值255)下具有宽度的峰值进行检测,在因镜面反射光的影响等而产生了过曝的情况下,对在最大亮度值下无宽度的峰值进行检测。通过制定关于群集宽度的条件,从而能够在存在镜面反射光影响的情况下适当地判定修正对象的像素。

通过以上,图4的流程图所示的步骤S22的群集处理结束。将以图5(a)所示的直方图作为对象的群集结果示于图5(b)。在图5(b)中,获得三个群集51、52、53。

步骤S23中,高亮度像素决定部102将在步骤S22中求出的群集中的亮度值最大的群集的亮度值的上限值(最大值)决定为阈值(基准值)T。该阈值T被用于判定像素是否为高亮度像素,更具体而言,将具有比阈值T大的亮度值的像素决定为高亮度像素。图5(b)的示例中,群集53为亮度值最大的群集,将群集53的亮度的上限值(本例中为153)决定为阈值T,据此来决定高亮度像素。除此以外,通过使用将上限值加上规定的数值来决定为阈值T的方法、或者当在亮度值比亮度值最大的群集大的区域中存在量化偏移量为零的区域时将该区域的亮度值的上限值决定为阈值T的方法,从而也能够限定处理范围来实现高速处理。

步骤S24中,转换部103将具有比阈值T大的亮度值的像素(高亮度像素)的亮度值设定为T。由此,图像中的高亮度像素的亮度值全部被变更为最大群集的上限值(T)的值。图8(a)表示修正前的灰度图像,图8(b)表示修正后的灰度图像。如该图所示,实施减小高亮度像素的亮度值的修正,能够去除因镜面反射光造成的影响。

另外,图4的流程图中仅示出了高亮度像素的修正处理,但也可进行噪声去除处理、二值化处理或二值图像的细线化处理等其他处理。这些处理是一直以来就进行的公知处理,因此省略详细说明,但对于二值化处理进行介绍。作为二值化处理,可采用基于局部区域内的亮度值来动态地决定阈值的动态二值化。由于以消除高亮度像素的方式来进行修正,因此能够通过动态二值化处理来抑制因镜面反射光造成的不良影响,从而能够实现适当的二值化。

根据本实施方式,基于亮度值的直方图来决定修正对象的高亮度像素,因此比起固定地确定修正对象的亮度值范围来进行修正的做法,能够更适当地抑制镜面反射光等的影响。而且,能够抑制因镜面反射光造成的影响,因此能够提高文字识别处理的精度。

<第2实施方式>

第2实施方式是在第1实施方式中的修正处理中,转换部103代入高亮度像素(修正对象像素)的亮度值的决定方法不同。第1实施方式中,将所有的高亮度像素取代为阈值T,但本实施方式中,基于位于修正对象像素周围的像素的亮度值来决定修正后的亮度值。

图9是表示本实施方式中的前处理中的、高亮度像素的亮度值修正处理的流程的流程图。步骤S20至步骤S23的处理与第1实施方式的处理(图4)同样,因此省略说明。本实施方式中,转换部103所进行的第1实施方式中的步骤S24的处理被步骤S41至步骤S48的处理取代。

步骤S41中,对具有比阈值T大的亮度值的像素(高亮度像素)赋予标记(flag)。步骤S42中,进行附有标记的像素的加标(labeling)。步骤S43中,提取标签(label)的轮廓。

步骤S44至步骤S47的处理是对轮廓上的各个像素依序实施。步骤S44中,选择轮廓上的一像素。将此处所选择的像素称作像素P。另外,步骤S43中提取的轮廓上的像素全部具有相同的优先级,从哪个像素开始进行处理皆可。步骤S45中,从像素P的周边像素中提取未附有标记的像素。所谓周边像素,例如既可为以像素P为中心的3×3至7×7的范围内的像素(除像素P外),也可为像素P的四个附近像素等。步骤S46中,算出在步骤S47中提取的像素的亮度值的平均值,将该平均值作为像素P的亮度值而代入。步骤S48中,从像素P去除标记而更新轮廓。在步骤S48中,判定是否残留有附有标记的像素,若仍有残留,则返回步骤S44重复处理。另外,在步骤S44中的像素选择中,作为轮廓而提取的时机(timing)越早的像素,则越优先选择。

根据本实施方式,能够使用周围像素的亮度值来平滑地对高亮度像素区域进行插值。因此,修正后的图像中难以产生伪轮廓,从而能够提高文字识别处理的精度。

<其他实施方式>

所述实施方式的说明不过是例示性地说明本发明者,本发明并不限定于所述的具体形态。本发明能够在该技术思想的范围内进行各种改变。

所述说明中,对进行车辆牌照的识别的系统进行了说明,但该系统能够适用于任意的文字识别系统。本发明能够较佳地适用于图像中不仅映入有扩散反射光还映入有照明等的镜面反射光的情况。例如,能够适用于对记载于铝罐或塑料等的表面的文字进行识别的工厂自动化(FA)用的文字识别系统。而且,所述中说明的前处理不仅作为文字识别处理的前处理而适用,也优选作为其他图像识别处理的前处理而适用。

而且,所述说明中,对进行照相机的图像拍摄、高亮度像素的修正处理、文字识别处理的系统进行了说明,但图像也可通过借助照相机的拍摄以外的方法来获取。例如,能够将本发明构成为下述文字识别装置,该文字识别装置经由数据通信或记录介质来获取图像,并对所获取的图像进行修正处理及文字识别处理。而且,也能够将本发明构成为仅对图像进行修正处理的图像处理装置。

所述说明中,为了从直方图决定峰值范围而采用了群集处理,但也可通过除此以外的方法来决定峰值范围。例如,可考虑根据图像整体的亮度值来决定度数的阈值,将具有该阈值以上的度数的范围决定为峰值范围。此时,也优选的是,当如此般决定的峰值范围的宽度小于规定值,或者峰值范围内的像素数少于规定值时,不将该峰值范围作为峰值范围来处理。而且,该方法中,饱和区域有可能成为峰值范围,此时,也能基于亮度值第二大的峰值范围而非亮度值最大的峰值范围来决定基准值。

所述说明中,对通过通用处理器执行软件程序而提供功能的示例进行了说明,但也可使用专用的硬件电路来提供所述功能。

本实施方式的文字识别装置能够安装于台式(desktop)型计算机、笔记(note)型计算机、平板(slate)型计算机、智能电话终端等任意装置中。而且,所述中说明的文字识别装置的各功能不需要由一个装置来执行,也可由多个装置分担各自的功能来执行。

[符号的说明]

10:文字识别装置(图像处理装置)

100:前处理部

101:直方图生成部

102:高亮度是祖决定部

103:转换部

104:二值化部

110:文字提取部

120:文字识别部

20:照相机

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1