图像处理装置和图像处理方法

文档序号：7594518阅读：109来源：国知局

专利名称：图像处理装置和图像处理方法
技术领域：
本发明涉及用于从所输入的图像中抽取出适于字符识别处理的二值图像的图像处理技术。
背景技术：
以往，对包含在所输入的图像中的字符进行识别的字符识别技术正被实用化。例如，可以在PC中使用字符识别处理，将通过扫描仪获取的图像转换成文本数据。还有，在复印机中以ADF扫描大量的原稿时，通过使用该技术可以判定原稿的朝向，在修正为正确的朝向后再打印出来。
在进行字符识别处理时，处理前将所输入的多值图像转换成适于进行字符识别的图像，变得越来越重要。在这里，所谓的适于进行字符识别的图像，是指从输入的图像所包含的信息中，仅对字符保持其大小、配置、粗细、字体等地进行抽取(即删除字符部分以外的信息)，并以底色为白色、字符部分为黑色来表现的二值图像。而且，为得到这样的二值图像的二值化方法，已经被例如日本特开平08-223409号公报、日本特开平09-305754号公报所公开。
然而，依据上述以往的二值化方法，当所输入的图像中包含有反白字符(reversed character)时，二值图像只能以反白字符原样地被输出，因此存在该反白字符图像部分不被识别为字符，不成为字符识别的对象的情况。但是，对二值化后的图像判定是否为反白字符非常困难，存在当包含有反白字符时字符识别精度降低的问题。
而且，随着近年来因计算机处理能力的提升、存储器的增大、扫描仪的发展等而使彩色文档图像增加，图像中的底色和字符颜色之间的对比度较小的图像、照片等字符以外的图像和字符混合存在的图像在不断增加。其结果是出现了在二值化时，只进行二值阈值的调整和块尺寸(block size)的调整，无法获得适于字符识别的二值图像的情况。例如，如果对整个图像面取单一的二值阈值，一般可以获得不受小的图像不均匀影响的图像，但当是图像中存在多种字符颜色和字符部分的底色的彩色图像时，会招致画质的降低。如果对每一小块适当地确定阈值进行二值化，虽然能够对每个处理块应付字符部分的底色的变化，但另一方面当每个处理块浓度不均匀、或者在同一个处理块内字符区域和照片等其他区域混合存在时，就很容易产生噪声。并且，如果为使处理块内不混合存在多个区域而减小块尺寸，则块内的噪声等的影响变大，反而会使浓度不均匀增大，更容易产生噪声。
这样，在以往的二值化方法中，当包含反白字符时，或者像彩色图像等那样是底色和字符颜色之间的对比度较小的图像，或者是照片等字符以外的图像和字符混合存在的图像时，就无法输出实现高字符识别精度的二值化图像。

发明内容
本发明是鉴于上述课题而设计的，目的在于即使在输入了包含有反白字符的图像或多值图像的情况下，也输出适于进行字符识别处理的图像，从而提高字符识别精度。
为了实现上述目的，本发明的图像处理装置具有以下这样的结构。即，提供一种对输入的图像进行处理的图像处理装置，其特征在于，包括边缘图像生成装置，抽取出上述输入的图像的边缘，生成边缘图像；二值图像生成装置，从上述输入的图像生成二值图像；部分二值化装置，根据上述所生成的边缘图像和二值图像，抽取出字符区域，对于该抽取出的字符区域，将上述输入的图像二值化，并生成输出二值图像；以及输出装置，输出由上述部分二值化装置生成的输出二值图像；
其中，上述部分二值化装置判断从上述所生成的边缘图像抽取出的字符区域的字符是否为反白字符，在判断为是反白字符时，对该字符进行反白二值化，生成输出二值图像。
通过本发明，即使在输入了包含有反白字符的图像或者多值图像的情况下，也输出适于进行字符识别处理的图像，从而能够提高字符识别精度。
本发明的其他特点和优点，将通过接下来的参照附图进行的说明得到明确，在所有的附图中，对相同或类似的部分附以相同的标号。

附图构成本说明书的一部分，用于说明本发明的实施例，并与该说明一起用于阐明本发明的原理。
图1是表示本发明第1实施形式的图像处理装置的结构的图。
图2是表示本发明第1实施形式的图像处理装置的处理的流程的流程图。
图3是表示本发明第1实施形式的图像处理装置中的部分二值化处理的处理流程的流程图。
图4是表示在本发明第1实施形式的图像处理装置中处理的数据的流向的数据流的图。
图5是表示多值图像的具体实例的图。
图6是表示多值图像的具体实例的图。
图7是表示多值图像的具体实例的图。
具体实施例方式
以下，使用附图对本发明的各实施形式进行说明。
第1实施形式<图像处理装置的结构>
图1是表示本实施形式的图像处理装置的结构的图。101是CPU，102是存储CPU101的程序和数据的ROM。103是RAM，临时保存将要处理的文档图像等，作为CPU101的工作区而发挥作用。104是存储装置，存储文档图像、文件等。105是扫描仪，读入成为对象的文档图像。106是打印机，将文档图像打印输出。107是网络I/F，分发所生成的压缩图像。108、109分别为键盘、显示器，是用于操作、显示的用户I/F。
<图像处理装置中的处理流程>
图2是表示本实施形式的图像处理装置的处理流程的流程图，图4是表示按照该流程图处理的数据流向的数据流的图。
在步骤S201中，从存储装置104或者扫描仪105将多值的文档图像作为多值图像401读入到RAM103中。多值图像401的具体实例如图5的501所示。
在步骤S202中，从步骤S201输入的多值图像401中通过边缘抽取处理(402)抽取出图像的边缘，生成边缘图像404。边缘图像404的具体实例如图5的502所示。
在步骤S203中，对边缘图像404进行区域识别处理(406)，抽取出字符区域408。
在步骤S204中，从多值图像401通过二值化处理(403)生成二值图像405。二值化方法可以是任意的方法，但最好是如日本特开平08-223409号公报或日本特开平09-305754公报那样字符部分的画质较好的二值化方法。二值图像405的具体实例如图5的503所示。
在步骤S205中，通过对二值图像405进行区域识别处理(407)，抽取出字符区域409。
区域识别处理(406、407)作为数据流是分开的，但可以使用相同处理。观察502可知，边缘图像404中所包含的比较小的字符与粗体字符几乎相同，而比较大的字符具有与空心字相同的形状，因此可以通过相同的区域识别方法而抽取出字符区域。
在步骤S206中，判定是否可以进行字符区域的抽取，在步骤S203和步骤S205的两个步骤中不能进行字符区域的抽取时，将在步骤204中生成的二值图像407作为输出结果进行输出(步骤S210)。
在步骤S207中，进行输出二值图像412的存储器的初始化。这是因为，虽然在步骤S202和步骤S204中对多值图像401的全部区域进行了边缘抽取和二值化处理，但在以下的步骤S208、S209的处理中，只对字符区域部分进行输出，因此需要以白像素对整个画面进行初始化。
在步骤S208中，对于基于步骤S203的区域识别结果408而得到的字符区域，将多值图像401进行部分二值化处理，将二值图像输出到存储器中保存。并且，在步骤S209中，对于基于步骤S205的区域识别结果409得到的字符区域，将多值图像401进行部分二值化处理，将二值图像输出到存储器中保存。
在步骤S210中，将步骤S208、S209处理后的结果输出到输出二值图像412的存储器。图5的504是该输出二值图像412的具体实例，是通过本方法对多值图像的具体实例501进行处理后的结果。由于只将字符部分作为输出二值图像412进行二值化输出，因此反白字符部分和非反白字符部分的边界部分能够以看不出来的自然的形态进行输出(另外，在像以往那样对图像的整个区域进行输出的情况下，该边界部分变成不自然的形态，会对使用该输出二值图像412的后面的处理带来不良的影响)。
图3是表示步骤S208和步骤S209所示的部分二值化处理的处理流程的流程图。
在步骤S301中选择所抽取出的字符区域。在步骤S302中如果有被选择的字符区域则进入步骤S303，如果没有就结束处理。
在步骤S303中进行确定被选择的字符区域的二值化阈值的二值化阈值运算处理。阈值运算的方法是任意的，但最好是字符画质好的运算方法。
下面进入步骤S304，判定当前正在处理的区域是区域识别结果408的数据，还是区域识别结果409的数据。当判定为是区域识别结果408的数据，即是从边缘图像抽取出的字符区域时，进入步骤S305，否则进入步骤S308。步骤S305是反白/非反白字符区域判定处理，判定对象字符区域是亮底暗字的非反白字符区域，还是暗底亮字的反白字符区域。
根据步骤S305的判定结果，在步骤S306中判定为是反白字符时，在步骤S307中根据在步骤S303中确定的阈值进行反白二值化处理，只将该字符区域的部分输出到输出二值图像412的存储器。反之在步骤S306中判定为是非反白字符时，在步骤S308中根据在步骤S303中确定的阈值进行通常的二值化处理，只将该字符区域的部分输出到输出二值图像412的存储器。
步骤S307、S308的处理结束后返回步骤S301，转到下面的字符区域的处理。
<反白/非反白判定方法>
这里，对在上述步骤S305中使用的反白/非反白字符区域判定方法，举出具体的实例进行以下说明。关于反白/非反白字符区域判定方法，可以使用以下任一方法，也可以使用其他的方法。
(反白/非反白字符区域判定方法之1)在该字符区域的反白/非反白判定方法中，对于该被选择的区域，计算以在步骤S303中运算出的阈值进行二值化后的白黑比，如果白的比例大则判定为是非反白字符区域，如果黑的比例大则判定为是反白字符区域。
(反白/非反白字符区域判定方法之2)对于成为对象的字符区域的边界部分，计算以在步骤S303中运算出的阈值进行二值化后的白黑比，如果白的比例大则判定为是非反白字符区域，如果黑的比例大则判定为是反白字符区域。
(反白/非反白字符区域判定方法之3)在步骤S303的二值化阈值运算处理中，使用日本特开平08-223409号公报、日本特开平09-305754号公报的方法，根据直方图(histogram)的偏态(skew)的符号确定是反白还是非反白。如果偏态的值是负值则为非反白，如果是正值则为反白区域。由于偏态值在确定二值化阈值的时候运算已经结束，因此能够实现处理的高速化。
(反白/非反白字符区域判定方法之4)当在上述反白/非反白判定方法(之1)中白黑比的差比预先确定的值小，在上述反白/非反白判定方法(之3)中偏态值的绝对值比预先确定的值小的时候，进行反白/非反白判定方法(之2)的判定。
(反白/非反白字符区域判定方法之5)由于在普通文档中非反白字符存在的概率较高，所以在反白/非反白字符区域判定方法之1～之4中将判定的基准设定为非反白优先。
<部分二值化处理的顺序>
字符区域的部分二值化处理在对从边缘图像抽取出的字符区域进行处理后，处理从二值图像抽取出的字符区域。重叠(overlap)的区域虽然会留下在后处理的结果，但通过先处理从边缘图像抽取出的字符区域，关于重叠的部分，可以通过在后的对二值图像的字符区域的处理而盖写，从而具有避免反白/非反白的误判定的效果。
<图像处理装置中的处理的特点>
以下对图4所示流程图中的各处理的特点进行说明。
A.边缘图像404的优点在本实施形式的图像处理装置中，具有也从边缘图像404进行区域识别的特点。通过进行边缘抽取402而获得的边缘图像404，无论是非反白字符还是反白字符都同样地被输出，因此能够不特别区分地进行区域识别处理。
图6的601是某输入图像的一部分，602是其边缘图像、603是二值图像。在如601那样输入图像的一部分具有较浓的底时，如以往那样只是对输入图像整体同样地进行二值化处理，有时会变成603那样，无法在区域识别处理407中被判断为是图像区域，并作为字符区域进行抽取。对此，因为通过边缘抽取407得到的边缘图像404只对像素间的相对亮度位移(brightness difference)有反应，因此即使在输入了601所示那样的图像的情况下，也能得到边缘图像602，其结果是可以不受底色的影响地抽取出字符区域。因此输出的二值图像412成为604那样。
B.二值图像405的优点在本实施形式的图像处理装置中，还具有一并使用边缘抽取402和二值化处理403，进行互补的特点。
边缘抽取(402)受底色的浓淡的影响较小，作为图像来看，由于边缘存在于字符的周边部分，因此字符的大小会变大。由此，例如，对图7的图像701所示的表中的字符进行边缘抽取后，由于框线部分也较粗，因此字符和框线就变得容易接在一起(参照702)。其结果，分离同其他部分接在一起的字符的难度较高，因此在进行区域识别处理时，无法稳定地抽取出字符区域。而且，边缘抽取是文件处理，有时对局部的亮度位移产生反应而产生噪声，成为字符抽取的障碍。对此，通过二值化处理403得到的二值图像405保持了字符的大小，因此在图7的情况下，如图703所示那样，字符和框线不接触，能够容易地分离字符(参照704)。
C.字符区域单位的二值化(410、411)在本实施形式的图像处理装置中，还具有如下特点对于从二值图像403抽取出的字符区域409，针对多值图像401计算二值化阈值，再次进行二值化处理(部分二值化处理)。
这是因为，作为以往技术的问题点，如上述的那样，只用步骤S204的二值化方法会产生以下这样的问题。即，在利用全画面单一阈值时，虽然可以不出现小噪声地进行二值化，但另一方面，当图像中的字符颜色、字符部分底色存在多种时，会出现画质较差的字符部分。而且，在将输入图像格子状地划分成预先确定的大小的块(处理块)，并对每一个处理块适当地确定阈值进行二值化时，虽然可以应付每一个处理块的字符底色的变化，但另一方面在每个处理块单位出现浓度不均匀、或者处理块内字符区域和照片等其他区域混合存在时，就容易产生噪声。并且，如果为使处理块内不混合存在多个区域而将块尺寸变小，则块内的噪声等的影响就变大，因此会使浓度不均匀增大，更容易出现噪声。
对此，通过在步骤S208、S209中对字符区域进行部分二值化处理，对每个字符区域确定阈值，就可以应付每个区域的字符底色的变化，且能够从由字符区域限定的比较广的区域稳定地计算阈值。即，由于进行与适当地确定最佳的处理块尺寸等价的工作，因此可以获得浓度不均匀和噪声较少的、字符画质高的图像。
如通过以上说明所明确的那样，根据本实施形式，通过对输入的图像进行边缘抽取，在包含反白字符的情况下也能够获得适于进行字符识别的图像。而且，通过一并使用二值化处理，能够补偿通过边缘抽取进行处理时的不足。并且，通过对由边缘抽取或二值化处理的结果所得到的字符区域再次进行二值化处理，可以获得最佳的块尺寸的二值化图像。其结果是，可以输出适于进行字符识别处理的图像，能够使字符识别精度比以往提高。
第2实施形式关于上述边缘图像404，如果得到了区域识别结果408就不再需要，二值图像405在得到了区域识别结果409的时刻就不再需要。因此，通过使边缘图像404、二值图像405、输出的二值图像412共用存储器，可以节约存储器。
另一方面，由于图4的402、404、406、408和403、405、407、409的数据流的处理是独立的，因此通过分配独立的资源(存储器)，并行地进行处理，可以实现处理的高速化。
并且，还可以在S208、S209的处理的基础上，将输入图像整体的二值图像405反白，生成反白图像，并对该反白图像进行区域识别处理，从而对反白字符进行特殊化的字符抽取处理。但是，在这种情况下，从图3的S304分支进入S307。
第3实施形式当在上述步骤S303中得到的二值化阈值，和二值化处理405中的阈值的差处于预先确定的范围内时，可以通过将保存着的二值化图像405的该部分复制到要输出的输出二值图像412，从而缩短二值化处理时间。
其他的实施形式另外，本发明既可以使用于由多台设备(例如主计算机、接口设备、读出装置、打印机等)构成的系统，也可以适用于由一台设备构成的装置(例如复印机、传真机装置等)。
而且，显然本发明的目的也可以通过将记录有实现上述实施形式的功能的软件的程序码的存储介质提供给系统或者装置，该系统或者装置的计算机(或者CPU、MPU)读出并执行存储在该存储介质上的程序代码来实现。
在这种情况下，从存储介质读出的程序代码本身就实现上述实施形式的功能，存储该程序代码的存储介质就构成本发明。
作为用于提供程序码的存储介质，可以使用例如软盘(Floppy注册商标)、硬盘、光盘、光磁盘、CD-ROM、CD-R、磁带、非易失性的存储卡、ROM等。
而且，显然不仅是计算机执行读出的程序代码，来实现上述实施形式的功能，在计算机上运行着的OS(操作系统)等根据该程序代码的指示，执行实际的处理的一部分或者全部，通过该处理实现上述实施形式的功能的情况也包含在本发明的范围内。
另外，显然，在从存储媒体读出的程序代码，被写入到插在计算机中的功能扩张板或与计算机连接的功能扩张单元所具有的存储器中后，该功能扩张板或功能扩张单元所具有的CPU等，根据该程序代码的指示，执行实际的处理的一部分或者全部，通过该处理实现上述实施形式的功能的情况也包含在本发明的范围内。
在不脱离本发明的精神和范围的前提下，本发明可以有各种不同的实施方式，并且应该理解为，本发明不受特定的实施方式的限定，其范围由所附的权利要求限定。
权利要求
1.一种对输入的图像进行处理的图像处理装置，其特征在于，包括边缘图像生成装置，抽取出上述输入的图像的边缘，生成边缘图像；二值图像生成装置，从上述输入的图像生成二值图像；部分二值化装置，根据上述所生成的边缘图像和二值图像，抽取出字符区域，对于该抽取出的字符区域，将上述输入的图像二值化，并生成输出二值图像；以及输出装置，输出由上述部分二值化装置生成的输出二值图像；其中，上述部分二值化装置判断从上述所生成的边缘图像抽取出的字符区域的字符是否为反白字符，在判断为是反白字符时，对该字符进行反白二值化，生成输出二值图像。
2.根据权利要求1所述的图像处理装置，其特征在于上述部分二值化装置，针对从由上述边缘图像生成装置生成的边缘图像抽取出的字符区域，将上述输入的图像进行二值化，然后针对从由上述二值图像生成装置生成的二值图像抽取出的字符区域，将上述输入的图像进行二值化。
3.根据权利要求1所述的图像处理装置，其特征在于上述部分二值化装置，在由上述二值图像生成装置生成二值图像时的二值化阈值，和生成上述输出二值图像时的二值化阈值的差小于或等于预定值时，将与该字符区域对应的上述二值图像作为输出二值图像进行输出。
4.一种对输入的图像进行处理的图像处理方法，其特征在于，包括边缘图像生成步骤，抽取出上述输入的图像的边缘，生成边缘图像；二值图像生成步骤，从上述输入的图像生成二值图像；部分二值化步骤，根据上述所生成的边缘图像和二值图像，抽取出字符区域，对于该抽取出的字符区域，将上述输入的图像二值化，并生成输出二值图像；以及输出步骤，输出由上述部分二值化步骤生成的输出二值图像；其中，上述部分二值化步骤判断从上述所生成的边缘图像抽取出的字符区域的字符是否为反白字符，在判断为是反白字符时，对该字符进行反白二值化，生成输出二值图像。
5.根据权利要求4所述的图像处理方法，其特征在于上述部分二值化步骤，针对从由上述边缘图像生成步骤生成的边缘图像抽取出的字符区域，将上述输入的图像进行二值化，然后针对从由上述二值图像生成步骤生成的二值图像抽取出的字符区域，将上述输入的图像进行二值化。
6.根据权利要求4所述的图像处理方法，其特征在于上述部分二值化步骤，在由上述二值图像生成步骤生成二值图像时的二值化阈值，和生成上述输出二值图像时的二值化阈值的差小于或等于预定值时，将与该字符区域对应的上述二值图像作为输出二值图像进行输出。
全文摘要
本发明提供一种图像处理装置和图像处理方法，在输入了包含有反白字符的图像或多值图像的情况下，也输出适于进行字符识别处理的图像。本发明的图像处理装置包括抽取多值图像(401)的边缘，生成边缘图像(404)的装置(402)；从多值图像(401)生成二值图像(405)的装置(403)；根据所生成的边缘图像(404)和二值图像(405)抽取出字符区域(406)，对于该字符区域，将多值图像(401)二值化，并生成输出二值图像的部分二值化装置(410、411)；以及输出由部分二值化装置(410、411)生成的输出二值图像(412)的装置。其中，部分二值化装置(410、411)，在从边缘图像(404)抽取出的字符区域的字符为反白字符时，对该字符进行反白二值化，生成输出二值图像(412)。
文档编号H04N1/40GK1607542SQ20041005714
公开日2005年4月20日申请日期2004年8月24日优先权日2003年8月25日
发明者田中哲臣申请人:佳能株式会社

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：田中哲臣
技术所有人：佳能株式会社
我是此专利的发明人

上一篇：定位服务系统以及方法
上一篇：用于组播数据转发的增强型距离矢量组播路由协议的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。