彩色图象处理装置及图案抽取装置的制作方法

文档序号:6367453阅读:203来源:国知局
专利名称:彩色图象处理装置及图案抽取装置的制作方法
技术领域
本发明涉及彩色图象处理装置及图案抽取装置,特别涉及适于从彩色图象抽取标题等的这类装置。
背景技术
近年来,由于计算机及其外围装置诸如打印机的普及,以及它们的价格的降低,彩色图象已经用于各个领域。于是,希望有一种技术,用来把彩色图象划分为几个区域并只抽取特定区域。例如,希望有一种技术,用来从彩色图象抽取相同颜色的区域。当由CCD像机拍摄的彩色风景图象用作为待处理的输入图象时,在很多应用中已经广泛需要这种技术,用来选择果实和观察汽车及人以为安全。
当彩色文件图象用作为输入图象时,希望这种技术能从图象自动抽取文档的名称和关键字。这种技术的例子有数据检索系统,诸如图书馆中的图书分类系统,和自动管理系统。此外,这种技术在用于作为数据库而存储和共享图象数据的群件中,用来自动设定关键字和文件名。这种信息能够用来从大量彩色文档图象中检索所需的数据。
作为用于从彩色图象抽取特定区域的技术,已经提出以下方法。
(1)RGB彩色空间聚类(clustering)方法在RGB彩色空间聚类方法中,产生彩色分离的图象。换言之,由CCD相机拍摄的RGB图象的象素在RGB空间中被聚类。使用一个聚类中的象素,产生每一颜色的图象。这样就抽取了相同颜色的区域。这种方法中产生的区域被组合以便抽取新的区域。
图1是用来说明传统的RGB彩色空间聚类方法的示意图。
图1中,假设彩色文档图象501被输入,相同颜色的图案被抽取并被聚类。例如,假设图案502和507是蓝色的分组颜色,图案503是绿色的分组颜色,而图案504到506是红色的分组颜色,则在RGB空间中产生包含蓝色的分组颜色图案502和507的集群508、包含绿色分组颜色图案503的集群509、以及包含红色的分组颜色图案504到506的集群510。
当产生了集群508到510时,则产生了具有包含在其中的象素的集群508到510的图象。这样,对于集群508,产生了由图案502’和507’组成的颜色分开的图象501a。对于集群509,产生了由图案503’组成的颜色分开的图象501b。对于集群510,产生了由图案504’到506’组成的颜色分开的图象501c。
(2)非RGB彩色空间聚类方法所有RGB空间中表示的RGB图象的象素被转换为另一彩色空间,诸如HSV。象素在彩色空间中按特定的方式被聚类。使用包含在每一集群中的象素产生图象,以便抽取相同颜色的区域。对获得的区域进行组合以便抽取新的区域。
已知有以下描述用于从彩色文档图象抽取字符区域的技术的技术文章。
Senda et.al.,"Method for extracting a character pattern from acolor image due to a single color of characters",The Institute ofElectronics,Information and Communication Engineers,Japan,PRU94-04,pp 17-24,Uehane et.al.,"Extracting a character area from a color imageusing iso-color line process",The Institute of Electronics,Informationand Communication Engineers,Japan,PRU 1594-09,pp9-16,Matsuo et.al.,"Extracting a single color character area from acolor document image",1997 Annual Convention,The Institute ofElectronics,Information and Communication Engineers,Japan,D-12-19,
Matsuo et.al.,"Extracting a character string from a sceneryimage with gradation and color information",The Institute ofElectronics,Information and Communication Engineers,Japan,PRU92-121,pp25-32.
(3)区域扩展法在区域扩展法中,对相邻的象素设定只对应于色彩相似性的标号。换言之,获得以RGB表示的象素的每一(R,G,B)颜色要素最大值(max)并正规化为(R/max,G/max,B/max)。这样,就产生了正规化的图象。
图2是表示传统的区域扩展法的示意图。
图2中,图象中的象素P1、P2等以颜色要素RGB表示为P1(R1,G1,B1),P2(R2,G2,B2)等[1]。然后,获得每一颜色要素的最大值。例如,象素P1的R1,G1,B1的最大值由max1表示。类似地,象素P2的R2,G2,B2的最大值由max2表示。使用最大值对每一颜色要素进行正规化。这样就获得正规化的象素P1’(R1/max1,G1/max1,B1/max1),P2’(R2/max2,G2/max2,B2/max2)[2]。
获得正规化象素P1’和P2’的每一颜色要素的方差。累计其结果以便获得相邻象素P1’和P2’之间的距离,如d=(R1/max1-R2/max2)2+(G1/max1-G2/max2)2+(B1/max1-B2/max2)2[3]。
这样,当距离d小于预定的阈值THO时,把象素P1和P2当作相同颜色的象素处理并设定相同的标号。在对所有的图象设定了标号之后,抽取具有相同标号的相同颜色的区域。
在区域扩展法中,由于只处理相邻的象素,这种方法的处理时间比RGB彩色空间聚类方法要短。
对于区域扩展法的细节,请参见日本专利公报No.5-298443。
此外,作为从色彩分离图象抽取字符区域的一种方法,已知上面提及的方法(Uehane et.al.,"Extracting a character area from a color imageusing iso-color line process",The Institute of Electronics,Informationand Communication Engineers,Japan,PRU 15 94-09,pp9-16)。在这一方法中,使用以下步骤从彩色图象抽取字符区域。
-从单色分离的图象获得连接区域中的包围矩形。
-把包围矩形限制在其尺寸和形状预定范围内。
-设定每一矩形的相邻矩形搜索范围。在每一搜索范围将矩形作为一个组来搜索。
-具有重心高线性的矩形保持在每一组中。
-获得每一组的包围矩形,并抽取与组成该组的区域颜色相同颜色的图案。
然而,用于对彩色图象的相同颜色区域进行聚类的传统聚类方法有以下问题。
在RGB彩色空间聚类方法或其它彩色空间聚类方法中(例如,HSV空间聚类方法),聚类图象的所有象素。这样,即使图案502的颜色不同于图案507的颜色,当它们的颜色彼此类似时,图案502和507也可能被分类为相同的集群508。这种情形下,由于图案507的颜色,改变图案502的颜色的集群形状。这样使图案502的颜色集群的色彩范围畸变。于是,图案502不能被精确地抽取。例如,当要被抽取的图案同与其颜色类似的图案507分开时,如果它们作为一个集群508被抽取,则集群508的颜色成为图案502的颜色与聚类507的颜色的混合颜色。集群508的颜色不能覆盖图案502的颜色范围和图案507的颜色范围。这样,作为抽取的结果可能在图案502’和图案507’中发生孔洞511和512。另外,图案502’和507’的轮廓可能不能被清晰地抽取。
在RGB彩色空间聚类方法或其它彩色空间聚类方法中(例如,HSV彩色空间聚类方法),由于要聚类所有图象的很多象素,故用于聚类处理的计算时间变长。
另一方面,在区域扩展方法中,为了如图2中所示正规化象素,由于要对每一象素进行划分,故检索的数目变得很大。对于所有的象素划分的结果应当作为浮点数据存储。这样,由于该处理所需要的存储器资源变得很大。而且,在象素正规化后,与这些象素的颜色的相似性的定义有关,就观察者所见相同的相邻象素可能对固定的阈值有很大偏差。这样,在一区域中可能发生孔洞。另外,区域的轮廓可能不能被正确地抽取。此外,由于仅考虑相邻象素的关系,当在字符区和背景区的边界处颜色逐渐变化时,字符区和背景区就被设定相同的标号。
在传统的字符区抽取方法,对应于整个图象的颜色数产生颜色分离的图象。这样,要用很长的时间产生颜色分离的图象。例如,当从图象抽取标题时,标题可能受到其它颜色的不利的影响。这样,降低了标题抽取的精确性。当获得连接区域的包围矩形时,要对每一被抽取的颜色分离的图象的整个图象进行处理。于是,对于一种颜色的图象需要相同尺寸的多个图象(对应于抽取的颜色数)。这样,需要用很长的时间处理彩色图象。
此外,由于包围矩形对应于整个彩色图象的各个颜色分离的图象被分组,故要花很长的时间处理彩色图象。当要抽取的字符聚类为不同的颜色分离的图象时,它们就不能被正确地抽取。
当图案被分组时,仅抽取相关搜索范围内的矩形。这样,小的部分可能从相关的分组中漏掉。为了恢复漏掉的部分,最后要抽取类似颜色的图案。然而这时,可能被抽取的是类似颜色的干扰。

发明内容
本发明的第一个目的是要提供一种彩色图象处理装置,该装置对图象区域的部分进行距离计算处理,而无需进行正规化处理。
本发明的第二个目的是要提供一种图案抽取装置,该装置在抑制图案被漏掉的同时能以高速抽取图案。
本发明的第三个目的是要提供一种图案抽取装置,该装置允许图案即使在其边界不清的情形下也能被精确地抽取。
为了解决上述的问题,本发明的一个方面是一种彩色图象处理装置,该装置具有用于输入彩色图象并输出彩色图象信号的彩色图象输入单元、用于保持彩色图象信号的保持单元、以及用于处理彩色图象信号的计算单元,包括用于对应于所考虑的象素的颜色信息设定阈值的阈值设定单元、以及用于比较相邻象素的颜色信息并当它们的距离为阈值或更小时为象素设定相同标号的标号单元。
这样,用于确定是否为相邻的象素设定相同的标号的距离阈值能够对应于所考虑的象素的颜色信息被设定,而不是一个固定的值。这样,就可精确地确定象素是否在相同的区域中。于是,能够从所希望的区域中精确地抽取象素。
本发明的一个方面是一种彩色图象处理装置,该装置还包括用于获得设定了相同标号的象素的平均颜色的平均颜色计算单元,以及用于比较与所考虑的象素相邻的象素的颜色与平均颜色的平均颜色比较单元,其中只有当比较的结果处于预定的范围时,标号单元才为象素设定相同的标号。
这样,即使一个要被抽取的区域的颜色逐渐变化而且其边界不清,也能区分开要抽取的区域及其背景区域。于是,能够改进区域抽取的精确性。
本发明的一个方面是一种彩色图象处理装置,该装置具有用于输入彩色图象并输出彩色图象信号的彩色图象输入单元、用于保持彩色图象信号的保持单元、以及用于处理彩色图象信号的计算单元,包括用于缩小彩色图象信号并产生缩小图象的图象缩小单元,其中从缩小的图象获得相同颜色的区域,并且只对应于从缩小图象抽取的颜色抽取对应于所获得的区域的区域。
这样,使用缩小图象可获得看作为相同颜色的区域。于是,用于抽取被认为是相同颜色的区域的处理处理能够以高速进行。
本发明的一个方面是一种彩色图象处理装置,其中标号单元获取标号图象和缩小图象的标号区域的包围矩形、其代表性颜色、每一标号区域中的颜色数、及来自缩小图象的颜色,获取与之对应的原始图象的矩形,搜索与矩形中的代表性颜色具有类似颜色的象素,并从被搜索的象素开始进行标号处理。
这样,从缩小图象获得了标号图象的包围矩形和标号、其代表性颜色、相同标号区域中的颜色数、及颜色。对应于所获得的结果,获得了原始图象的矩形。能够在矩形中执行标号处理。这样,标号处理可以高速进行。
本发明的一个方面是一种彩色图象处理装置,其中标号单元确定缩小图象的区域的所有的颜色和相似性,并当区域颜色的相似性小于阈值时,为区域设定相同的标号。
这样,确定了从缩小图象获得的所有颜色及其相似性、以及缩小图象的区域的相似性。当区域颜色的相似性小于预定的阈值时,可以为这些区域设定相同的标号。这样,可以按肉眼的观察抽取所需的区域。
本发明的一个方面是一种彩色图象处理装置,其中阈值设定单元以可变的三种颜色要素的阈值确定区域颜色的相似性,当区域的三种颜色要素的色差距小于可变的阈值时,确定区域的颜色相似性为0,并当区域的三颜色要素的色差距等于或大于该阈值时,确定区域的颜色相似性为大于阈值。
这样,分别对三种颜色要素设定阈值元素。当两种颜色的所有的三颜色要素小于各自的阈值(元素)时,这些颜色作为相同的颜色对待。于是,可以降低阈值表的容量。此外,可以很精确地进行标号处理。
本发明的一个方面是一种图案抽取单元,包括用于对应于输入图象图案的颜色信息和几何信息对输入图象的图案进行分类的分类单元。
这样,当从彩色输入图象抽取相同颜色的标题区域时,输入图象的颜色部分限制为标题区域。图案对应于颜色信息被分类。从被分类的对象中除去与标题区域相分离的图案。此外,可从对应于颜色信息被分类的对象中除去不是标题字符的小图案和大图案。
本发明的一个方面是一种图案抽取装置,包括用于对应于相邻象素的颜色信息把输入图象的象素进行聚类的聚类单元,以及用于对应于通过聚类单元获得的集群的颜色信息和几何信息,把集群分类为组的分组单元。
这样,为了对输入图象的象素进行聚类,对所考虑的象素的颜色信息及其相邻象素的颜色信息进行比较。当比较了输入图象的所有象素时,相邻象素颜色信息的比较处理的次数变为输入图象的象素数的平方。反之,当对所考虑的象素的颜色信息与其相邻象素的颜色信息进行比较时,比较处理的次数变为输入图象象素数。这样,聚类处理能够以高速进行。
由于集群被分类为组,故可对相同集群中的象素进行整体处理。这样,不必处理个别的象素。于是,分组处理能够以高速进行。此外,在输入区域的限定范围内,可把类似颜色的集群分类为相同的组。这样,分组处理进而也能以高速进行。
本发明的一个方面是一种图案抽取装置,用于在按第一分辨率确定区域为相同颜色、而按第二分辨率确定为不同颜色的情形下,在按第二分辨率确定的颜色变化范围内抽取区域作为相同颜色的区域。
这样,由于输入图象图案的颜色是以基色的点的大小的组合表示的,故即使输入图象中表示为相同颜色的区域被检测为与读取分辨率相关的不同颜色的集合,当读取输入图象时,也可以精确抽取区域的相同颜色范围。于是,能够防止漏掉或丢失输入图象中表示为相同颜色图案的部分。
本发明的一个方面是一种图案抽取装置,包括用于产生标号图象的包围矩形的单元、用于从所抽取的包围矩形抽取具有预定范围内的尺寸的包围矩形的单元、用于在抽取的包围矩形预定区域内设定搜索区域的单元、以及用于设定在搜索区域中、或在搜索区域中局部配置的包围矩形作为被抽出的包围矩形待分类为组的选择对象的单元。
这样,在所产生的具有标号图象的包围矩形中,成为用于设定搜索区域的参照的包围矩形可被限制为预定尺寸的包围矩形。这样,当从输入图象抽取字符区域时,能够防止把诸如干扰这样的小图案及诸如背景或边框这样的大图案的包围矩形,选择为用于搜索字符串的搜索区域的参照。于是,能够抑制把非字符串的图案分类为组。这样,只有字符串被有效地抽取。
由于在所考虑的包围矩形的预定范围内设定了用于搜索字符串的搜索区域,故只能够搜索在所考虑的包围矩形的邻域中的字符串。当从输入图象抽取标题等时,能够防止把与标题相分离的以及不构成标题的字符串抽取为标题组。这样,只有标题字符串可被有效地抽取。
本发明的一个方面是一种图案抽取装置,包括用于比较输入图象相邻象素的颜色信息的第一颜色信息比较单元、用于对由第一颜色信息比较单元比较过的象素的颜色信息与同其相邻的标号图象的颜色信息进行比较的第二颜色信息比较单元、以及用于对应于第一颜色信息比较单元的比较结果和第二颜色信息比较单元的比较结果为象素设定标号的标号单元。
这样,在颜色逐渐变化的情形下,只有当相邻象素的颜色类似时,对这些象素设定相同的标号。当这些象素被追踪时,色差积累。这样,不同颜色的象素可能被设定相同的标号。然而,根据本发明,由于能够对已经设定了标号的图案的颜色信息进行比较,标号处理能够对应于色差的累计值进行。这样,当为其颜色逐渐变化的区域设定对应于相邻象素的颜色信息的比较结果的标号时,能够防止对具有不同颜色的象素设定相同的标号。
本发明的一个方面是一种图案抽取装置,包括用于计算以特定颜色表示的区域的相邻象素之间的色差的色差计算单元、用于对应于色差设定阈值的阈值设定单元、以及用于为与使用对应于阈值的预定颜色表示的象素相邻的象素设定标号的标号单元。
这样,由于输入图象是通过半色调打印方法打印的,即使输入图象以相同颜色表示,也能依靠读取分辨率将其检测为不同颜色的集合。这种情形下,能够精确地抽取相同颜色的区域。这样,能够防止图案的一部分从输入图象中表示为相同颜色的区域漏掉或丢失。
本发明的一个方面是一种图案抽取装置,该装置还包括具有基色网格的打印模型产生单元,基色点配置在网格的网格点处,网格被旋转并彼此叠加,基色点的尺寸是变化的,以便产生作为打印模型的颜色。
这样,由半色调打印方法产生的颜色在计算机上虚拟产生。无需使用实际打印文档分析半色调打印方法的颜色变化,就能够区分半色调打印方法产生的颜色变化。
本发明的一个方面是一种图案抽取装置,该装置还包括用于产生色差表的色差表产生单元,色差表存储由打印模型产生单元产生的颜色的亮度值以及对应于打印模型每一读取分辨率中的亮度值的相邻象素之间的色差。
这样,不论从实际打印文档读取数据的装置的分辨率如何,都能够易于获得用来确定从实际打印文档读取的颜色是否相同的阈值。
本发明的一个方面是一种图案抽取装置,该装置还包括模型分辨率的估计处理单元,用于对于输入图象估计打印图案的读取分辨率。
这样,能够使用在计算机上虚拟产生的打印模型处理由一装置读取的实际打印文档。能够使用以打印模型产生的一阈值对由一装置读取的实际打印文档执行标号处理。
本发明的一个方面是一种图案抽取装置,其中模型分辨率估计处理单元估计一分辨率作为输入图象的打印模型的读取分辨率,记录在色差表中的该分辨率的颜色亮度值和色差对整个输入图象最优确认。
这样,对于由装置读取的实际打印文档,由打印模型产生的最优阈值用于整个输入图象,以便进行标号处理。
本发明的一个方面是一种图案抽取装置,其中模型分辨率估计处理单元估计一分辨率作为输入图象的局部区域的打印模型的读取分辨率,记录在色差表中的该分辨率的颜色亮度值和色差对输入图象的该局部区域最优确认。
这样,在由装置从实际打印文档读取的输入图象中,对于超过整个输入图象的预定阈值的区域,能够使用对该区域最优的阈值对该区域执行标号处理。于是,能够改进标号处理的精确性。
本发明的一个方面是一种图案抽取装置,其中模型分辨率估计处理单元使打印模型的读取分辨率成为一固定值。
这样,能够省去实际打印文档的模型分辨率估计处理。于是该处理能够以高速进行。
本发明的一个方面是一种图案抽取装置,还包括用于对由标号单元标号的标号图象分类为组的分组单元。
这样,通过标号处理抽取的字符区域能够分类为字符串区域。于是,能够有效地抽取标题。
本发明的一个方面是一种图案抽取装置,其中分组单元确定是否把标号的图象分类为对应于标号图象包围矩形的颜色信息和几何信息的相同的组。
这样,当从输入的彩色图象抽取相同颜色的标题区域时,从输入的彩色图象的限定区域抽取一图案。与标题区域相分离的图案能够从被分类的对象中除去。此外,可以从待处理的对象中略去非标题字符的诸如干扰的小区域和诸如背景的大区域。于是,能够改进对于标题区域抽取处理的速度。由于标号的图案由包围矩形表示,故组成字符等的复杂图案能够以简单的形状表示。这样,能够降低用于图案的存储容量。此外,当获得了图案的位置关系时,能够简化处理处理。
本发明的一个方面是一种图案抽取装置,其中颜色信息是包含在包围矩形中的图案的代表性颜色。
这样,能够把标号的图案作为包围矩形。当把图案分类为对应于颜色信息的组时,不必比较组成图案的每一象素。这样,由于能够降低被比较的元素数目,故处理处理能够以高速进行。
本发明的一个方面是一种图案抽取装置,其中几何信息是出现在所考虑的包围矩形的预定范围中的另一包围矩形。
这样,当从输入图象抽取标题区域等时,能够把要被分类为一组的包围矩形的范围限定为适合于标题区域的范围。对于从标题区域伸出的区域可以省去分组处理。这样处理处理能够以高速进行。
本发明的一个方面是一种图案抽取装置,其中几何信息计算单元具有用于存储对应于每一包围矩形的垂直和水平坐标的矩形号码的矩形号码存储单元、用于抽取包含在所考虑的包围矩形的预定范围内每一垂直和水平坐标中的矩形号码的矩形号码抽取单元、以及相邻矩形抽取单元,用于抽取作为所考虑的包围矩形预定范围内另一矩形包含在垂直和水平坐标两者内的矩形号码。
这样,能够有效地搜索所考虑的包围矩形预定范围内的另一包围矩形。
本发明的一个方面是一种图案抽取装置,其中矩形号码存储单元按坐标值顺序存储包围矩形的矩形号码,且其中矩形号码抽取单元按坐标值升序搜索矩形号码并抽取每一坐标值中的矩形号码。
这样,当为每一坐标值准备用于存储包围矩形的矩形号码的区域时,则需要对应于预期出现在所考虑的包围矩形的预定范围内的包围矩形的存储容量。反之,根据本发明,由于存储了对应于实际包围矩形的坐标值,故能够降低存储量。
本发明的一个方面是一种图案抽取装置,其中当两个包围矩形出现在所考虑的包围矩形的预定范围内,且两个包围矩形的代表性元素的色差小于从色差表获得的色差时,确定单元把两个包围矩形分类为相同组。
这样,当从输入图象抽取标题区域等时,能够把待分类的包围矩形的范围限制为适合于标题区域的范围。当对包围矩形进行比较并使用颜色信息把图案分类为一组时,能够考虑到实际打印文件的读操作中颜色的变化。这样,处理处理能够以高速进行。此外,改进了读取的精确性。
本发明的一个方面是一种图案抽取装置,其中分组单元把标号图象分类为对应于标号图象图案粗度的一组。这样,由于能够把不同粗度的字符分类为不同的组,当从输入图象抽取标题等时,只有以具有相同粗度的字符组成的字符串能够被抽取为标题。这样,能够改进抽取标题的精确性。
本发明的一个方面是一种图案抽取装置,其中分组单元具有用于获得图案轮廓长度的轮廓追踪单元、用于获得图案区域的区域计算单元、以及用于获得对应于图案区域与图案轮廓长度之比的图案粗度的粗度计算单元。
这样,能够精确地获得图案的粗度。
本发明的一个方面是一种图案抽取装置,其中轮廓追踪单元以作为图案轮廓的第一象素搜索作为图案轮廓的第二象素,其搜索方式是,第二象素从与第一象素相邻并与第一象素的源象素相邻的八个象素中搜索。
这样,为了从变为图案轮廓的第一象素搜索变为图案轮廓的第二象素,在预定的方向搜索与第一象素相邻的八个象素。当其象素的级别从背景级别变为图案级别的点为第二象素时,能够防止已经抽取的第一象素再次作为轮廓的图案点被抽取。这样,能够提高轮廓追踪处理的速度。
本发明的一个方面是一种图案抽取装置,还包括用于估计对应于分类为一组的包围矩形尺寸的字符尺寸的字符尺寸估计单元、以及用于从包围矩形组中删除超出字符尺寸预定范围的包围矩形的矩形删除单元。
这样,即使图片的图案等出现在标题邻域内,且图片的图案被分类为构成标题的字符组,也能够把图片的该图案从组中除去。这样,能够改进抽取标题的精确性。
本发明的一个方面是一种图案抽取装置,还包括字符串方向估计单元,该单元用于对应于由分组单元分类为一组的包围矩形的配置估计字符串的方向,以及字符串抽取单元,该单元用于对应于由分组单元分类为一组的包围矩形的配置抽取字符串。
这样,能够区分其包围矩形不规则配置的区域和其包围矩形规则配置的区域。这样,能够把其包围矩形规则配置的区域作为标题区域处理。这样,只能够有效抽取标题区域。
本发明的一个方面是一种图案抽取装置,还包括再分组单元,用于对应于分类为一组的包围矩形的尺寸把一组中的包围矩形再分组。
这样,不同尺寸的字符能够分类为不同的组。因而,当从输入图象抽取标题等时,只有由相同尺寸的字符组成的字符串能够作为一个标题处理。这样,能够改进对标题的抽取精确性。
本发明的一个方面是一种图案抽取装置,还包括用于从由分组单元分类为一组的包围矩形中抽取预定尺寸的包围矩形的包围矩形抽取单元、用于为被抽取为相邻包围矩形且其上边缘或下边缘封闭的包围矩形设定水平配置标记的水平配置标记设定单元、用于为被抽取为相邻包围矩形且其左边缘或右边缘封闭的包围矩形设定垂直配置标记的垂直配置标记设定单元、用于确定对应于水平配置标记和垂直配置标记的组的字符串方向的字符串方向确定单元、以及字符串确定单元,用于对应于分组的包围矩形数与对应于确定了字符串方向的标记数的比率,确定分组的包围矩形是否为字符串包围矩形。
这样,能够确定一组中的包围矩形是否配置在一行。配置在一行中的一组包围矩形能够作为一个标题区域处理。这样,能够从输入图象有效地抽取标题。
本发明的一个方面是一种图案抽取装置,还包括用于产生由分组单元分类为一组的包围矩形的包围矩形产生单元、以及用于计算对应于由分组单元分类为组的图案的代表性颜色的组的代表作颜色的代表性颜色计算单元。
这样,对应于标题区域的所有颜色,能够计算标题的颜色。能够减轻色差在标题区域的局部区域中的影响。因而,能够改进标题区域的抽取精确性。
本发明的一个方面是一种图案抽取装置,还包括用于组合对应于组的代表性颜色的组的相邻包围矩形的分组组合单元。
这样,即使由于轻微的色差组成同一标题的字符被分类为不同的组,但这些字符能够分类为相同的组。这样,就能够有效地抽取标题区域。
本发明的一个方面是一种图案抽取装置,其中当相邻的包围矩形在预定的范围且组的代表性颜色的差别在预定范围时,分组组合单元组合分组的相邻包围矩形。
这样,当组合分组的包围矩形时,只能有效地组合组成同一标题的字符。
本发明的一个方面是一种图案抽取装置,还包括用于对应于分组的代表性颜色在分组的包围矩形范围内再抽取原始图象的象素的再抽取装置。
这样,即使组成标题的字符包含浊音符号或半浊音符号且由于标题区域的局部色差浊音符号或半浊音符号从标题的分组中漏掉,能够对浊音符号或半浊音符号的颜色与整个标题区域的颜色进行比较,以便再抽取浊音符号或半浊音符号。于是,能够改进对标题的抽取精确性。
本发明的一个方面是一种图案抽取装置,还包括用于对已经抽取的象素数字化的数字化单元、用于为数字化的图象设定标号的第二标号单元、以及用于把已经由第二标号单元设定了标号且大于预定阈值的包围矩形添加到分组的添加单元。
这样,当从标题区域再抽取浊音符号或半浊音符号时,即使与标题相同颜色的细小的干扰出现在标题区域,只能把干扰删除。于是,能够改进对标题的抽取精确性。
本发明的一个方面是一种图案抽取装置,还包括用于对应于分类为组的包围矩形的区域、其位置、及它们的位置关系确定分组中图案的输出顺序的输出顺序确定单元。
这样,即使从输入图象抽取多个标题选择对象,也可以评估标题的似然性。于是,能够按标题的最大似然性的顺序输出标题选择对象。
本发明的一个方面是一种图案抽取装置,还包括用于产生对其包围矩形分类为组的标号图象设定了级别1的二进制图案的二进制图案产生单元。
这样,能够使用标以颜色信息的标号图象产生二进制图象。于是,能够有效地识别从彩色图象抽取的图案。
借助于如附图中所示其最佳图案实施例的以下详细说明,本发明的这些和其它目的、特点和优点将更为明显。


图1是表示用于产生传统颜色分离图象方法的示意图;图2是表示传统区域扩展方法的示意图;图3是表示根据本发明第一实施例的图案抽取装置的结构框图;图4是表示根据本发明第二实施例的图案抽取装置的结构框图;图5是表示根据本发明第三实施例的图案抽取装置的结构框图;图6是表示根据本发明第四实施例的图案抽取装置的结构框图;图7是表示根据本发明的一实施例的图案抽取装置的系统结构框图;图8是表示根据本发明第五实施例的图案抽取装置的结构框图;图9是表示根据本发明第六实施例的图案抽取装置的结构框图;图10是表示图9中所示图案抽取装置的操作的流程图;图11A和11B是用于解释规根据本发明的一个实施例缩小图象产生方法的示意图;图12A和12B是用于解释规根据本发明的一个实施例标号方法的示意图;图13A和13B是表示根据本发明一个实施例的阈值参照表的结构一例的示意图;图14是表示根据本发明一个实施例的阈值参照表的结构另一例的示意图;图15A、15B和15C是用于解释根据本发明的一个实施例的包围矩形产生处理和原始图象标号设定处理的示意图;图16A和16B是用于解释半色调打印方法中彩色图象表示方法的示意图;图17是表示半色调打印方法中彩色图象的放大图示;图18A是表示通过半色调打印方法以单色打印的区域的示意图;图18B是表示图18A中所示区域中读取网格的示意图;图18C是表示个别象素读结果的示意图;图19A到19D是表示根据本发明一实施例打印模型产生方法的示意图;图20是表示根据本发明一实施例色差表结构的示意图;图21是表示根据本发明的一实施例色差表产生装置结构的框图;图22是表示根据本发明的第七实施例图案抽取装置结构的框图;图23是表示图9中所示图案抽取装置的操作的流程图;图24是用于解释根据本发明的一实施例模型分辨率估计处理的示意图;图25是用于解释根据本发明的一实施例颜色标号处理的示意图;图26是用于解释根据本发明的一实施例对于所考虑的矩形的邻域中搜索范围设定方法的示意图;图27是用于解释根据本发明的一实施例所考虑的矩形邻域中搜索范围内矩形抽取方法的示意图;图28A、28B和28C是用于说明根据本发明的一实施例所考虑的矩形邻域中搜索范围内矩形信息存储方法的示意图;图29A和29B是用于说明根据本发明的一实施例字符线粗度计算方法的示意图;图30是用于说明根据本发明的一实施例对应于字符线粗度再分组处理的示意图;图31A、31B、31C和31D是用于说明根据本发明的一实施例在轮廓跟踪处理中象素搜索开始点的设定方法的示意图;图32是表示根据本发明的一实施例从当前象素所看到的方向代码的示意图;图33A和33B用于说明根据本发明的一实施例从一个分组删除大矩形的处理的示意图;图34A和34B用于说明根据本发明的一实施例用于计算矩形高度最大频率值的方法的示意图;图35A和35B用于说明根据本发明的一实施例用于组合分组中重叠矩形的处理的示意图;图36A和36B用于说明根据本发明的一实施例用于从一分组中抽取字符串的处理的示意图;图37A和37B用于说明根据本发明的一实施例用于组合字符串的分离字符处理的示意图;图38A和38B用于说明根据本发明的一实施例对应于分组中字符的尺寸再分组处理的示意图;图39A和39B用于说明根据本发明的一实施例分组的组合处理的示意图;图40A和40B用于说明根据本发明的一实施例对作为字符串似然的矩形和分组的抽取处理的示意图;图41用于说明根据本发明的一实施例对干扰分组删除处理的示意图;图42A和42B用于说明根据本发明的一实施例用于从分组抽取相同颜色图案的处理的示意图;图43A是表示根据本发明的一实施例原始图象的示意图;图43B是表示图43A的标号图象的示意图;图43C是表示图43B所示标号图象中设定的所考虑的矩形的示意图;图43D是表示分组抽取结果的示意图;图44A是表示图43D中所示分组抽取结果以字符线的粗度被再分组的结果的示意图;图44B是表示图44A中所示重叠矩形被组合的结果的示意图;图44C是表示从图44B中所示的图象抽取作为字符串似然的矩形和分组的结果的示意图;图44D是表示从图44C所示的图象抽取分组中的图案的结果的示意图;图45A是表示从图43A所示的图象抽取的标题的第一可替代图案的示意图;以及图45B是表示从图43A所示的图象抽取的标题的第二可替代图案的示意图。
具体实施例方式
以下将参照

根据本发明的一实施例的图案抽取装置。
图3是表示根据本发明的第一实施例的图案抽取装置的结构的框图。图3中,颜色信息计算单元1计算输入图象的图案的颜色信息。几何信息计算单元2计算输入图象的图案的几何信息。对应于由颜色信息计算单元1计算的颜色信息和由几何信息计算单元2计算的几何信息,分类单元3对输入图象的图案进行分类。例如颜色信息是在彩色空间中图案的颜色。几何信息例如是特定图案的尺寸、特定图案在输入图象中的位置、或特定图案与其它图案位置之间的关系。
当输入图象的图案被分类时,图案的几何信息也与其颜色信息一同被使用。这样,在从彩色输入图象抽取具有相同颜色的标题区域的情形下,在彩色输入图象被限制的范围中,相同颜色和不同标号的图案能够被分类为一组。特定位置的图案或特定尺寸的图案,即使对它们设定了不同的标号,也可能被分类为一组。
这样,只有在标题区域以高概率出现的区域的范围内,能够进行标号处理。此外,诸如干扰等不是标题区域的小图案以及诸如背景等大图案可以从被处理的对象中除去。这样,能够改进对标题区域抽取处理的速度。此外,能够降低非标题区域的颜色的影响。于是,能够改进标题区域抽取的精确性。
图4是表示根据本发明的第二实施例图案抽取装置的结构的框图。
图4中,聚类单元11对应于相邻象素的颜色信息对输入图象的象素进行聚类。对应于通过聚类单元11所获得的每一集群的颜色信息和几何信息,分组单元12对集群进行分组。
于是,当对输入图象的象素进行聚类时,对所考虑的象素的颜色信息与每一相邻象素的颜色信息进行比较。这样,就不必对输入图象的所有象素的颜色信息进行比较。
当对输入图象的所有象素的颜色信息彼此进行比较时,每一象素颜色信息的比较处理的次数数量达输入图象的象素数的平方。反之,当特定象素的颜色信息与每一相邻象素的颜色信息进行比较时,每一象素颜色信息的比较处理次数变为输入图象的象素数。这样,能够以高速进行聚类处理。
当聚类的象素被分组时,同一集群中的象素能够被整体处理。这样,就不必处理个别象素。于是,能够以高速进行分组处理。此外,集群的象素能够在输入图象的限制范围内被分组。而且,作为干扰的小图案能够在分组处理中被排除。这样,能够以很高速度进行分组处理。特别地,当标号的数目如彩色图象这样大时,能够获得显著的效果。
图5是表示根据本发明的第三实施例图案抽取装置的结构的框图。
图5中,色差计算单元21计算在由预定颜色表示的一区域中相邻象素的色差。对应于由色差计算单元21所计算的色差,阈值设定单元22设定一阈值。对应于由阈值设定单元22所设定的阈值,标号单元23对与由预定颜色表示的象素相邻的象素进行标号。
假设输入图象是从通过半色调打印方法打印的文档获得的,并假设输入图象的图案颜色是以基色点的尺寸的组合表示的。由于基色点的尺寸很小,当一种颜色以基色点的尺寸的组合表示时,即使点的色差不能由肉眼区分,并被看作为单独一个点,当装置的读取分辨率很高而使得每一点的颜色能够被区分时,被肉眼看作为单色的区域可能被装置确定为非单色区域。
这样,当对装置的读取结果进行标号时,被肉眼看作为单色的图案被设定不同的标号。当对应于不同的标号所抽取的图案由肉眼观看时,在以肉眼识别为一图案的区域中出现孔洞或断开。这样,图案抽取精确性变坏。
为了避免这种问题,对于以内眼看作为单色的区域,获取由装置读取的颜色的变化。对颜色变化的范围中的象素设定相同的标号。这样,能够对由肉眼看作为单色的一图案设定相同的标号。于是,能够避免在由肉眼看作为一个图案的区域中出现孔洞或断开。
图6是表示根据本发明第四实施例图案抽取装置的结构的框图。
图6中,第一颜色信息比较单元31比较输入图象相邻象素的颜色信息。第二颜色信息比较单元32对由第一颜色信息比较单元31比较过的象素的颜色信息及与该象素相邻的标号图象的颜色信息进行比较。对应于第一颜色信息比较单元31的比较结果和第二颜色信息比较单元32的比较结果,标号单元33对象素进行标号。标号图象的颜色信息例如是有相同标号的象素的颜色信息的平均值。
假设输入图象标题区域的颜色是逐渐变化的,从而标题的字符串及其背景的边界不清晰。这种情形下,如果比较相邻象素的颜色信息,由于相邻象素颜色的相似,故这些象素被设定相同的标号。当这些象素被顺序地跟踪时,在标题区域读取了背景图案。这样,来自标题的不同颜色的象素可能被设定相同的标号。
不是比较相邻象素的颜色信息,而是对标号图案的颜色信息与每一象素的颜色信息进行比较。此外,对象素设定标号。这样,即使颜色逐渐变化,也能够检测出标题区域和背景之间的边界。
图7是表示根据本发明的一个实施例图案抽取装置的系统结构的框图。
图7中,图案抽取装置包括中央处理器(CPU)41、只读存储器(ROM)42、随机存取存储器(RAM)43、通信接口44、通信网络45、总线46、输入/输出接口47、显示诸如标题字符串等识别结果的显示单元48、打印诸如标题字符串等识别结果的打印机49、暂时存储由扫描仪51等读取的数据的存储器50、读取输入图象等的扫描仪51、键盘52、驱动存储介质的驱动器53、硬盘54、IC存储卡55、磁带56、软盘57、及光盘58(诸如CD-ROM或DVD-ROM)。
引起系统执行图案抽取处理的程序存储在诸如硬盘54、IC存储卡55、磁带56、软盘57、或光盘58等存储介质中。当系统从这种存储介质把用于图案抽取处理的程序读取到RAM 43时,系统执行图案抽取处理。用于图案抽取处理的程序可存储在ROM 42中。
可以从通信网络45通过通信接口44获得用于图案抽取处理的程序。连接到通信接口44的通信网络45的例子有LAN(局域网)、WAN(广域网)、因特网、模拟电话网、数字电话网(ISDN综合业务数字网)、PHS(个人便用系统)、及无线通信网(诸如卫星通信)。
当用于图案抽取处理的程序启动时,CPU 41设定一阈值,由扫描仪51读取的输入图象标以该阈值,并产生对应于由扫描仪51读取的输入图象的标号图象。在产生了标号图象之后,CPU 41产生对应于其标号的输入图象的图案的包围矩形。对应于其区域中的颜色信息及其几何信息CPU 41对包围矩形进行分组。对应于被分组的包围矩形的配置状态和尺寸,CPU 41抽取标题区域等。当CPU 41抽取标题区域时,它向显示单元48和打印机49输出标题区域中的图案作为从输入图象抽取的标题。CPU 41识别标题区域中的图案的字符,并自动检索对应于识别结果的文档。
图8是表示根据本发明的第五实施例的图案抽取装置结构的框图。
图8中,图案抽取装置包括彩色图象输入单元61、外部输出单元62、存储器63、中央处理器(CPU)64、图象缩小单元65、可变阈值设定单元66、及标号单元67。
当图象缩小单元65从彩色图象输入单元61输入一彩色图象的信号时,图象缩小单元65产生一缩小图象,其原始图象象素数降低到1/9倍。标号单元67使用诸如区域扩展方法的技术对缩小图象标以某种程度的色差,并获得表示相同标号区域的标号图象和围绕同一标号区域的包围矩形。
这里,作为相邻象素具有相同标号的色差值的阈值不是固定的(与区域扩张方法不同),而是依赖于相关颜色可变的。阈值是对应于相关颜色通过可变阈值设定单元66获得的。可变阈值设定单元66参照对应于相关颜色的特定的表格。
从缩小图象搜索表示具有相同标号的区域的颜色的所有数字串如(R,G,B)。所获得的数字串作为标号的属性存储。此外,标号的代表性颜色是对应于各颜色获得的。
然后,从缩小图象获得的包围矩形反映给原始图象。只扫描矩形的内部以检测与代表性颜色相似的颜色。对与相关象素相邻的象素设定标号。这种情形下,当作相同颜色的各颜色是已经由上述处理作为相同颜色处理的那些颜色。
从原始图象获得的标号图象抽取预定的区域。当从彩色文档抽取诸如由大字符或关键字组成的标题的字符区域时,使用字符串抽取技术对应于包围矩形的尺寸和配置信息只抽取相关字符串区域。
图9是表示根据本发明第六实施例的图案抽取装置的结构的框图。
图9中,图案抽取装置包括彩色图象输入单元71、外部输出单元72、存储器73、及中央处理器74。
彩色图象输入单元71输入外部彩色图象作为RGB信号。彩色图象输入单元71的例子有CCD相机或扫描仪。
外部输出单元72输出由中央处理器74处理的各种结果。外部输出单元72的例子有显示单元。
存储器73存储图象信息和阈值信息。例如,存储器73存储从彩色图象输入单元71输入的彩色图象信号及由中央处理器74对存储的彩色图象信号处理的结果。
中央处理器74产生对应于从彩色图象输入单元71输入的彩色图象信号的缩小图象,并执行各种处理,诸如标号处理和特定的区域抽取处理。中央处理器74包括图象缩小单元75、可变阈值设定单元76、标号单元77、包围矩形处理78、原始图象标号单元79、及特定区域抽取单元80。
图10是表示图7中所示彩色图象处理装置的操作的流程图。
图10中,诸如彩色文档等对象由诸如CCD相机或扫描仪等摄相单元这样的彩色图象单元71输入。被摄相的彩色图象存储在存储器73中(步骤S1)。
然后,图象缩小单元75对存储在存储器73中的彩色图象,以固定的缩小比率或所希望获得的图象尺寸的特定缩小比率进行缩小。被缩小的图象存储在存储器73中(步骤S2)。缩小比率也被存储。作为缩小方法,如图11 1A所示,当彩色图象被缩小到1/3倍时,由(R,G,B)表示的原始图象的区域(3×3)设定为缩小图象(1×1)。这种情形下,以原始图象的区域(3×3)的九个象素的颜色的(R,G,B),产生一图11B所示的直方图。把最频值设定为缩小图象的相关象素值。
如果有多个值作为最频值,对应于预定算法选择多个值之一作为缩小图象相关象素值。
一般来说,当设定原始图象的区域(n×n)为缩小图象(1×1)时(即原始图象被缩小为1/n倍),则以原始图象的区域(n×n)的象素的颜色的(R,G,B)产生一直方图。例如,直方图的中间值或最频值用作为缩小图象的相关象素值。
设定给缩小图象的值不是诸如原始图象的区域(n×n)象素颜色的平均值这样的生成值,而是原始图象的一个值。
然后,标号单元77对缩小图象进行标号处理。即,标号单元77对具有与缩小图象具有类似颜色的相邻象素设定相同的标号(在步骤S3)。换言之,标号单元77对缩小图象从左上位置进行光栅扫描,并对非标号象素设定一最大标号值加1的标号值。
例如,图12A所示,假设所考虑的象素C的色值为(Rc,Gc,Bc),所考虑的象素C的八个相邻象素以1到8标记,,且八个相邻象素的色值标以(Ri,Gi,Bi)(其中i=1到8),则获得这些象素的色值(Ri,Gi,Bi)。换言之,获得象素1,2,…8的色值(R1,G1,B1)、(R2,G2,B2),…(R8,G8,B8)。
获得所考虑的象素的色值(Rc,Gc,Bc)和每一相邻象素的色值(Ri,Gi,Bi)之间的距离dci(其中i=1到8)。当对于(R,G,B)的距离dci小于阈值(Rth,Gth,Bth)时,对相关的象素分配与所考虑的象素相同的标号。例如,当获得了象素1与所考虑的象素C之间的距离dc1时,分别确定象素1的R,G,B是否小于Rth,Gth,Bth。当三个颜色的值小于三色的阈值(即,象素1的颜色所考虑的象素C的颜色)时,为距离dci设定小的值,以便为象素i设定与C相同的级别。然而,当象素1的三色至少之一大于三色的阈值时,则为距离dc1设定大的值(大于阈值th),以便设定不同于所考虑的象素C的一标号。距离dc1是通过如下获得的。
dc1=|Rc-R1|<Rth且|Gc-G1|<Gth以及|Bc-B1|<Bth……(1)当公式(1)被满足时,作为dc1=0而设定相同的标号。当公式(1)不满足时,作为dc1=1000设定大于阈值的一个值。一般来说,如图12B所示,距离dci(这里i=1到8)可以由以下公式表示。
如果|Rc-Ri|<Rth且|Gc-Gi|<Gth以及|Bc-Bi|<Bth,则为0否则为1000注意,设定的值不限于1000。而是可以使用任何大于阈值的值。
从与输入单元(诸如CCD相机或扫描仪)和对象相关的样本所获得的表格而获取三色的阈值(Rth,Gth,Bth)。此外,使用所考虑的象素的色值(R,G,B)的关键值,对应于它们预先设定阈值。
例如,如图13A所示,参照具有输入图象可预测的所考虑象素色值(R,G,B)的所有组合项的表格,获得三色的阈值(Rth,Gth,Bth)。在图13A所示的表中,当所考虑的象素的色为值(R1,G1,B1)时,R,G,B的阈值为(Rth1,Gth1,Bth1)。当所考虑的象素的色值为值(R2,G2,B2)时,其阈值为(Rth2,Gth2,Bth2)。
在图13A所示的情形下,使用了阈值的参照表。阈值的参照表具有从样本分布预测的所考虑象素的所有色值的组合关键项。使用所考虑象素的颜色组合,参照阈值参照表。这样,表的大小取决于各个颜色的组合数。换言之,表的大小可以很大。
为了防止阈值参照表变大,可以使用只有以(R,G,B)聚类的代表性项的表。这种情形下,就获得了所考虑的象素的色值与代表性项的色值之间的距离值(换言之,获得了所考虑的象素与代表性项之间的相似性)。抽取最近的代表性项。使用最近的代表性项的关键字,能够获得三色的阈值(Rth,Gth,Bth)。
另外,为了防止阈值参照表变大,以N个级别表示各颜色的值(例如,N=256)。为各个颜色准备好阈值参照表。从各个阈值参照表获得各个颜色的阈值。这种情形下,阈值参照表的大小变为256×3项这样小。例如,当所考虑的象素的色值为(R1,G2,B2)时,如图13B所示,作为对于R1的阈值,参照阈值参照表R从而获得Rth1。作为对于G2的阈值,参照阈值参照表G从而获得Gth2。作为对于B2的阈值,参照阈值参照表B从而获得Bth2。
作为用于获得阈值的阈值参照表的格式,如图14所示,把色值分类为多个组,并对每一组获得阈值,而不是如图13A所示所有的(R,G,B)的组合。图1 4中,一个阈值设定给每种颜色的各四个值。对R1到R4设定相同的阈值Rt1。对R5到R8设定相同的阈值Rt2。类似地,对G1到G4设定相同的阈值Gth1。对BN-3到BN设定相同的阈值BtM。
当对象是打印文档且由扫描仪输入时,这种阈值参照表能够使用打印文档的模型自动产生。
然后,包围矩形处理单元78对作过标号的缩小图象(即标号图象)执行包围矩形处理处理(在步骤S4)。换言之,在步骤S3,作为对缩小图象的标号处理的结果,对相同的区域设定了相同的标号值。对于相同的区域,获得一包围矩形。
例如,如图15A所示,当彩色图象具有字符区域93到95和另外的区域92时(字符区域93到95的颜色与区域92的颜色不同),产生了如图15B所示的缩小标号图象96。这样,使用缩小的标号图象96,能够获得包围矩形98到100。
图15B中,矩形区域97对应于图15A中所示的背景区域92。矩形区域98到100分别对应于图15A中所示的字符区域93到95。
在标号图象中,扫描以相同标号记录的象素。象素的所有颜色作为各个包围矩形的属性信息被记录。从在标号图象中以相同标号记录的所有象素获得每一标号的代表性颜色。能够按以下方式获得代表性颜色。获得每一颜色的频率分布。具有最高频率的颜色当作为代表性颜色。代表性颜色信息作为相关包围矩形的属性信息被记录。
作为标号处理的结果标号单元77产生以下输出信息。
作为每象素两字节信息的标号图象,表示出缩小图象的高度、宽度和缩小比。此外,表示出缩小图象区域中矩形数(nr)和矩形信息。作为矩形信息,输出区域中的矩形数(nr)、矩形号码、矩形中的标号图象的标号、矩形左上坐标(x1,y1)、矩形的右下坐标(x2,y2)、矩形中的代表性颜色(Rs,Gs,Bs)、颜色数(nc)、颜色(R0,G0,B0),(R1,G1,B1),…(Rn-1,Gn-1,Bn-1)。
原始图象标号单元79接收输出信息,把矩形信息的左上坐标值和右下坐标值以缩小比分割,并获得原始图象中的相对坐标。当缩小比为1/n时,原始图象矩形的左上坐标和右下坐标分别为(x1*n,y1*n)和{(x2*n)-1,(y2*n)-1}(这里*表示乘法,而“-1”是各从右下坐标的x轴和轴y减)。
原始图象标号单元79对由坐标表示的矩形的内部进行光栅扫描,并搜索具有与代表性颜色(Rs,Gs,Bs)类似颜色的象素。当特定象素的颜色与代表性颜色类似时,满足以下条件。
|Rs-Ri|<Rth和|Gs-Gi|<Gth以及|Bs-Bi|<Bth这种情形下,阈值Rth,Gth和Bth是固定的。
当原始图象标号单元79检测到满足上述条件的象素时,它对该象素设定最大标号值加1的标号值。
然后,原始图象标号单元79扫描与所考虑的象素相邻的八个象素,并获得每一相邻象素的色值(Ri,Gi,Bi)。当每一相邻象素的色值(Ri,Gi,Bi)和所考虑的象素的色值(Rc,Gc,Bc)满足以下条件时,原始图象标号单元79对相关象素设定与所考虑的象素相同的标号(在步骤S4)。
|Rc-Ri|<Rth和|Gc-Gi|<Gth以及|Bc-Bi|<Bth当原始图象标号单元79不为相关象素设定相同标号时,它对相关象素的颜色与作为所考虑的矩形的属性信息的所有颜色进行比较,并获得它们的距离。当距离小于阈值时,原始图象标号单元79为相关象素设定与所考虑的象素相同的标号。
这样,如图15C所示,原始图象标号单元79为具有类似于矩形97到100中的代表性颜色的颜色的象素设定标号,并抽取具有与矩形97到100相同色值的矩形102到105。在实际的彩色文档中,与图15A的情形(即,图象区域具有背景和各种尺寸的彩色字符)不同当图象区域并不粗糙时,与图15C所示的情形不同,相同的标号区域变得复杂。
特定区域抽取单元80从由原始图象获得的标号区域101抽取特定区域(在步骤S6)。当从彩色文档抽取作为诸如摘要或标题的关键字的字符区域时,对应于使用给定的包围矩形的尺寸和配置信息的传统的字符串抽取方法,特定区域抽取单元80能够抽取相关字符串区域。
例如,特定区域抽取单元80获得具有抽取的矩形的信息的相邻矩形的关系,并抽取其坐标值彼此接近(即坐标值之间的差小于阈值)且其(R,G,B)的色差小于阈值的相邻矩形作为字符串。外部输出单元72显示抽取的字符串。
当从彩色景色图象抽取一个对象时,标号图象相邻区域的代表性颜色被转换为诸如HSV(色调,饱和度,能见度)信息。对相似色调的区域进行组合。这样,由于阴影而被分离的区域能够被组合为一个区域。具有特定尺寸的区域能够被作为对象的可选择区域输出。
这样,根据本发明的第六实施例,从缩小图象获得了相似颜色的区域。所获得的区域是从原始图象被精确地抽取的。因而,能够显著减少处理的时间。此外,只有相邻的象素标以对应于象素颜色的阈值。于是,能够对象素局部地并精确地进行颜色聚类。于是,即使待抽取的区域的颜色类似于其背景颜色,它们也能被区分。这样,能够精确地抽取区域。
当获取对应于所考虑的象素颜色的阈值时,参照具有所考虑的象素的三种颜色要素的关键值的表。这样,降低了为获得阈值的所需计算数目。
当获取对应于所考虑的象素颜色的阈值时,就获得了所考虑的象素的三种颜色要素与表的项的特定颜色的三种颜色要素之间的距离的相似性。使用与所考虑的象素的颜色最相似的项,获取表的项的阈值。这样,能够降低存储阈值的表的大小。
此外,三种颜色要素的阈值是从存储了样本分布的表获得的,样本分布与诸如CCD相机或扫描仪等输入单元及对象都有关。这样,由于表存储了与输入单元相关的阈值,故输入图象被精确地标号。
以下将说明按根据本发明的一实施例的标号处理设定阈值的方法。
彩色图象是以各种不同的方法打印的,诸如凹版方法。然而,大多数彩色图象是以半色调打印方法打印的。当放大由半色调打印方法打印的文档时,在肉眼看来是相等颜色的区域中发生彩色波纹图案。
图16A和16B是表示发生在由半色调打印方法打印的文档中彩色波纹图案的示意图。
图16A中,原始图象111区域“の”(日语中的“の”)是以橙色单色打印的。然而,如图16B所示,当区域“の”的部分被放大时,很明显该区域是由各种颜色组成。
这样,当对相邻象素的色差(RGB的亮度差)与固定阈值进行比较并确定是否对这些象素设定相同的标号时,可能不能抽取特定的区域。例如,对图16B中所示区域“の”中的象素112到115设定不同于其它象素的标号。这样,当从原始图象111抽取字符“の”时,由于象素112到114漏掉,抽取的精确性变差。
使用打印模型,获取对于每一扫描仪的读取分辨率的相邻象素的RGB平均亮度值和RGB亮度差并存储在色差表中。参照色差表,控制每一颜色的阈值,以便进行标号处理。
例如,当区域“の”中的象素114和115之间的色差为最大时,设定其色差为用于抽取橙色区域的阈值。这样,当从原始图象111抽取字符“の”时,能够对象素112到114设定与区域“の”中其它象素相同的标号。于是,能够防止象素112到114漏掉。
以下将说明用于生成存储颜色平均值、相邻象素色差、及扫描仪读取分辨率的色差表的方法。色差表是以根据本发明的一个实施例的彩色打印模型和扫描仪读取模型生成的。
图17是表示通过半色调打印方法打印的文档的放大视图。
图17中,按半色调打印方法,其大小在每一位置变化的青色(天蓝色)、品红色(紫红色)、和黄色点121到123规则地配置在网格图案中。
按半色调打印方法,在预定的网格区间打印三原色(或包括黑色的四原色)的第一色着色圆圈,使获得所需的浓度。然后,随着转动的网格,在与第一色相同的网格区间以不同的尺寸打印第二色的着色圆圈。然后,再次转动网格,在与第一色相同的网格区间以不同的尺寸打印第三色的着色圆圈。在这一打印方法,打印的圆圈以肉眼可看作是相等的颜色。
图18A,18B和18C是用于说明,在以半色调打印方法以一个网格点打印一种颜色的情形下,为什么各象素的亮度值彼此不同的原因。
图18A中,当以半色调打印方法打印一种颜色时,半径为r1的着色圆圈D1被打印在打印网格M1的网格点处。当在半色调打印方法中打印颜色改变时,着色圆圈D1的半径r1改变。这样,在通过半色调打印方法打印另一颜色的区域中,半径r1的着色圆圈D1被分散配置。
当图18A所示的打印文档由扫描仪等读取时,打印文档的图象以扫描仪等固定的分辨率读取。这样,如图18B所示,着色的圆圈D1被读取为按对应于扫描仪等的分辨率读取网格M2分段的象素。由于着色的圆圈D1是分散分布的,故包含在以读取网格M2分段的象素中的着色圆圈D1的区域不相等。这样,如图18C所示,在网格M2中心所考虑的象素的亮度不同于与所考虑的象素相邻的八个象素P1到P8的平均亮度。
另一方面,当从图18A所示的打印文档抽取相同颜色的区域时,由于图18A所示的文档通过半色调打印方法以单色打印,故与所考虑的象素相邻的八个象素P1到P8应当抽取为与所考虑的象素相同颜色的象素。这样,就获得了所考虑的象素与每一象素P1到P8之间的亮度差,并记录亮度差的最大值(在图18C所示的例子中,即所考虑的象素与象素P4之间的亮度差)。当从输入图象抽取相同颜色的区域时,所考虑的象素与其每一相邻象素之间的亮度差的最大值用作为阈值。具有不大于阈值亮度差的相邻象素作为与所考虑的象素相同颜色的象素被抽取。
以下,将说明用于构成精确对应于半色调打印方法的扫描仪读取模型的一种方法。
图19A,19B,19C和19D是表示对应于半色调打印方法的扫描仪读取模型的示意图。
图19A,19B,19C和19D中,对于青色、品红色、和黄色的打印网格M11、M12和M13被旋转并组合为一打印模型。为了调节青色、品红色、和黄色的浓度,要调节打印网格M11、M12和M13的网格点处的着色圆圈D11、D12和D13的大小。
这里,扫描仪读取模型的参数如下。
-打印网格M11、M12和M13的网格距离md(然而,网格距离md对黄色、青色、品红色是共用的)
-黄色网格M11相对于水平线的角度θ11-品红色网格M12相对于水平线的角度θ12-青色网格M13相对于水平线的角度θ13-黄色着色圆圈D11的半径r11-品红色着色圆圈D12的半径r12-青色着色圆圈D13的半径r13然而,本实施例中,为了避免复杂,转动参数为以下非变量值。
-黄色网格M11相对于水平线的角度θ11=15度-品红色网格M12相对于水平线的角度θ12=30度-青色网格M13相对于水平线的角度θ13=45度-网格距离md=20个点使用打印模型,对受颜色、品红色、和青色的着色圆圈D11、D12、D13的半径r11、r12和r13影响的平均RGB值(Rm,Gm,Bm)进行仿真。实际中,对比打印网格M11、M12、M13的网格距离md大得多的单位区域考虑如下。
Rm=255-单位面积中青色面积×255/单位面积Gm=255-单位面积中品红色面积×255/单位面积Bm=255-单位面积中黄色面积×255/单位面积以下将说明,由扫描仪读取以一种颜色(Rm,Gm,Bm)均一打印的图象的扫描仪读取模型。在这模型中,引入具有与打印网格M11、M12、M13的网格距离不同的距离sd的读取网格M14。获得读取网格M4(即,各颜色的区域)中的RGB亮度。
这种情形下,读取网格M14的距离sd等价于扫描仪的读取分辨率。当读取具有平均颜色(Rm,Gm,Bm)的图象时,如果扫描仪的读取分辨率高,则相邻象素的RGB亮度值变化大。反之,当扫描仪的读取分辨率低时,读取的象素的颜色接近平均颜色(Rm,Gm,Bm)。相邻象素的RGB亮度差接近0。
读取网格M14中的RGB(Rc,Gc,Bc)亮度值如下。
Rc=255-读取网格面积中青色面积×255/读取网格面积
Gc=255-读取网格面积中品红色面积×255/读取网格面积Bc=255-读取网格面积中黄色面积×255/读取网格面积获得了具有网格距离sd的读取网格M14的RGB(Rc,Gc,Bc)亮度值。获得了亮度值(Rc,Gc,Bc)与每一相邻象素的亮度值之间的亮度差。一适当的值(例如,最大值)记录到色差表中。
在一打印模型中,网格点处的着色圆圈对每一种RGB颜色重叠。这样,这些着色圆圈对应于RGB的亮度值相互彼此影响。于是,严格来说,不能说打印模型的RGB是独立的。然而,在扫描仪读取模型中,为了简单,假设模型RGB是独立的。
这样,RGB亮度值、读取分辨率、和所考虑的象素与每一相邻象素之间的亮度差存储到RGB独立的表中。
图20是表示对于R的表的一例的一个表。
图20中,对应于亮度值(0到255)和扫描仪的读取分辨率(14到35)列出相邻象素亮度差的最大值。在图20所示的表中,R亮度值以3为间隔进行记录。通过插值处理能够获得从0到255范围的任何R亮度值。
图20中所示对于R的表适用于对于G和B的表。
当生成对于半色调打印方法的打印模型时,能够通过计算机再现在半色调打印方法中生成的颜色。这样,不必分析以半色调打印方法打印的文档,就能够生成对于RGB的表。
参照对于RGB表,能够获得从输入图象检测相同颜色范围所必须的阈值。
图21是表示根据本发明的一实施例的色差表产生装置结构的框图。
在图21中,色差表产生装置包括彩色图象输入单元111、外部输出装置112、存储器113、及中央处理器(CPU)114。中央处理器(CPU)114具有打印模型产生单元115和色差表产生单元116。打印模型产生单元115按图19中所示的方法产生打印模型,并在计算机上再现半色调打印方法中产生的颜色。色差表产生单元116使用对应于半色调打印方法的打印模型产生扫描仪读取模型,并产生如图20所示对于RGB各颜色的色差表。
图22是表示根据本发明第七实施例图案抽取装置的结构的框图。
图22中,根据第七实施例的图案抽取装置包括彩色图象输入单元131、存储器133、及中央处理器(CPU)134。中央处理器(CPU)134具有色差表135、颜色分离图象产生单元136、及字符区抽取单元137。
色差表135是图20所示的表。色差表135存储亮度值、读取分辨率、及每一RGB颜色的相邻象素的亮度差。
颜色分离图象产生单元136对应于输入图象的读取分辨率和RGB亮度值搜索色差表,并对应于输入图象的读取分辨率和RGB亮度值获得相邻象素的亮度差。相邻象素的亮度差用作为对相邻象素进行标号的阈值。当输入图象的读取分辨率和RGB亮度值变化时,参照色差表135更新用于对相邻象素进行标号的阈值。
使用所考虑的象素的颜色(R,G,B)的关键信息,搜索色差表135获取作为相同颜色处理的相邻象素的亮度差阈值。所获得的阈值用于所考虑的象素的相邻象素。当对每一颜色RGB相邻象素和所考虑的象素之间的亮度值不大于阈值时,则为所考虑的象素和相邻象素设定相同的标号。
在进行标号处理中,只处理与所考虑的象素相邻的象素。此外,为象素设定具有对应于象素的颜色的阈值的标号。这样,能够对输入图象局部地精确地进行色聚类。于是,能够产生无孔洞的且具有平滑轮廓的标号图象。
此外,能够快速且精确地从彩色文档图象抽取具有均一颜色的字符区域。
从具有背景及颜色局部相似的对象、并具有其颜色与另一区域颜色相似的区域的图象,能够抽取其颜色局部地且精确地相同的区域。
在其颜色作为相同颜色处理的区域中,即使象素的色值与其相邻象素的色值稍微不同,也能够防止区域抽取成为孔洞和不平滑的轮廓。这样,能够精确地抽取区域。
当产生了标号图象时,对应于图案的标号而产生输入图象图案的包围矩形。对应于包围矩形的颜色信息及其几何信息包围矩形被分组。
对应于由色分离图象产生单元136分组的包围矩形的布局和尺寸,字符区域抽取单元137从由原始图象获得的标号图象抽取字符串区域。
当从彩色文档抽取作为诸如以大字模描述的摘要和标题的关键字的字符区域时,使用包围矩形的尺寸和布局信息抽取的只是字符区域。
图23是表示图22所示的图案抽取单元操作的流程图。
图23中,执行图象的输入处理(在步骤S11)。在图象输入处理中,使用诸如CCD相机或扫描仪等输入彩色图象并存储在存储器中。
然后,进行模型分辨率估计处理(在步骤S12)。在模型分辨率估计处理中,将从表示彩色打印文档的纹波图案的打印模型和扫描读取模型获得的色差表中的平均亮度值和相邻象素的亮度差值的最大值,与输入图象的平均亮度值和亮度差值的最大值进行比较。这样,就获得了对整个输入图象的扫描仪读取分辨率。
图24是用于说明根据本发明的一个实施例模型分辨率估计处理的示意图。
图24中,输入图象被分为对应于网格142的(3×3)象素块。对整个输入图象141的每一块求出(3×3)象素a到i的平均RGB亮度值(Rm,Gm,Bm)和相邻象素的亮度差值的最大值(Rd,Gd,Bd)。在(3×3)象素a到i中有20个相邻方向。求出象素的20个相邻方向中的亮度差值。使用亮度差值的最大值(Rd,Gd,Bd)。
使用平均RGB亮度值(Rm,Gm,Bm)和相邻象素的亮度差值的最大值(Rd,Gd,Bd)的关键信息,搜索色差表,求出对于记录在色差表中的平均亮度值和相邻象素的亮度差值最大值是最优的扫描仪读取分辨率值。当从输入图象141获得的相邻象素的亮度差值的最大值(Rd,Gd,Bd)与具有色差表中最优的扫描仪读取分辨率的相邻象素的亮度差值的最大值之间的差不在预定范围内时,向(3×3)象素a到i返回拒绝代码(-1)。否则,返回确认代码(0)。
这种处理是对整个输入图象141进行的。这样,为网格142的所有块的所有(3×3)象素a到i设定拒绝代码(-1)或确认代码(0)。对于在(3×3)象素a到i中设定了确认代码(0)的象素,获得其扫描仪读取分辨率的平均值。该平均值是作为输入图象141的扫描仪读取分辨率对待的。
以下将示例说明对R的处理。
对R表的分辨率值固定在特定的值。搜索R表的R亮度值以查找满足Ri<Rm<Ri+1的R亮度值Ri(其中Rm是平均亮度值)。在这里,假设对于R亮度值Ri相邻象素亮度值的最大值为Rdi,且对于R亮度值Ri+1相邻象素亮度值的最大值为Rdi+1,则平均亮度值Rm是通过对R亮度值Ri和R亮度值Ri+1线性插值获得的。该关系用于相邻象素亮度值的最大值,以便获得对于被估计的相邻象素亮度值的最大值infered_delta。换言之,满足以下关系。
rl=Ri-Rirm=Rm-Rirn=Ri+1-Rminfered_delta=Rri*rn/rl+Rri+1*rm/rl对相邻象素亮度值的估计最大值infered_delta与从图象获得的亮度值的最大值Rd之间的差delta_r是如下获得的。
delta_r=|Rd-infered_delta|对R和G执行相同的处理以便获得delta_g和delta_b。和delta如按下公式获得。
delta=delta_r+delta_g+delta_b对分辨率参数进行搜索以获得具有最小delta值的分辨率resol及delta值delta_min。当delta_min满足以下条件时delta_min>TH_SUB(其中TH_SUB是固定的阈值),确定相关的(3×3)块不符合模型。这样,返回拒绝代码(-1)。否则,返回确认代码(0)。只对设定了确认代码的块,获得其分辨率值resol的平均值作为输入图象的分辨率。
分辨率=(∑设定了确认代码的块的分辨率)/设定了确认代码的块数目在说明中所使用的术语“分辨率”表示在输入图象施加到准备的模型的情形下的读取分辨率,而不是由扫描仪读取的输入图象的读取分辨率。
然后,进行颜色标号处理(在步骤S13)。在颜色标号处理中,为具有类似颜色的相邻象素设定相同的标号。获得作为具有与标号图象相同标号的连接区域的包围矩形。作为包围矩形的信息,存储包围矩形的坐标值、包围矩形连接区域的平均颜色(R,G,B),包围矩形连接区域的标号号码、及连接区域的面积(连接区域的象素数)。
实际上,是从左上位置对输入图象进行扫描。考虑非标号象素。使用象素的RGB亮度值和估计分辨率,搜索色差表以对每一RGB寻找相邻象素的亮度值的最大值。该最大值作为用于对所考虑的象素进行标号的阈值。
在标号处理中,对于从一个象素扩展的具有相同标号的区域,只要添加一个象素,就获得标号区域中的平均颜色(R,G,B)。确定是否为标号区域中相邻的象素设定与标号区域相同的标号。当要被新标号的相邻象素的颜色不同于已经由阈值标号的标号区域的平均颜色时,即使相邻象素的色差不大于阈值,也为要被新标号的相邻象素设定不同于已经标号的标号区域的标号。这样,即使字符区域和背景区域的边界颜色逐渐变化,也能正确地抽取字符区域。
图25是用于说明根据本发明的一实施例进行颜色标号处理的示意图。
图25中,假设象素e的颜色为黑色,且与象素e分离开的象素的颜色从黑色变为红色。当象素e和除了象素e之外相邻象素a到i之间的色差为阈值或更小时,对象素e和相邻象素a到i(除了象素e)设定相同的标号。
当为象素j设定一标号时,确定象素f和j之间的色差是否为阈值或更小,以及象素a到i的颜色平均值与象素j的颜色之间的色差是否为阈值或更小。即使象素f和j之间的色差为阈值或更小,当象素a到i的颜色平均值与象素j的颜色之间的色差超过阈值时,对象素j设定与象素f的标号不同的一标号。
当与象素e分离的象素的颜色从象素e的颜色逐渐变化时,虽然象素j的颜色类似于象素f的颜色,但是象素j和e之间的色差是显著的。这样,当已经设定了标号的象素a到i的颜色平均值与象素j的颜色比较时,象素a到i的颜色平均值受到象素e的颜色的影响。这样,这一色差大于象素f和j之间的色差。
这样,即使颜色逐渐变化,在象素f和j之间也能形成边界。于是,能够防止对黑色区域和红色区域设定相同的标号。
以下说明对R亮度值的实际方法。
将R表的分辨率值固定在估计的分辨率值。扫描R表以获得满足条件Ri≤R≤Ri+1的所考虑象素的亮度值。这里,假设相对于R亮度值Ri的相邻象素的亮度值的最大值为Rdi,且相对于R亮度值Ri+1的相邻象素亮度值的最大值为Rdi+1,则所考虑的象素的亮度值R是通过对R表的R亮度值Ri和R表R亮度值Ri+1进行线性插值获得的。这一关系用于相邻象素亮度值的最大值,以便获得相邻象素亮度值的估计最大值delta_r。换言之,最大值delta_r是如下获得的。
rl=Rl-Ri+1rm=R-Rirn=Ri+1-Rdelta_r=Rri*rn/rl+Rri+1*rm/rl这关系适用于G和B。
这样,使用尚未处理的所考虑的象素的色值(R,G,B),获取所考虑的象素与相邻象素之间的亮度差的最大值(delta_r,delta_g,delta_b)作为用于对相邻象素进行标号的阈值。
假设扫描与尚未处理的所考虑的象素相邻的八个象素,已经设定了标号的一象素与所考虑的象素相邻出现,以及标号的象素的RGB亮度值(Rs,Gs,Bs)满足以下条件|R-Rs|<=delta_r和|G-Gs|<=delta_g以及|B-Bs|<=delta_b由于所考虑的象素的颜色类似于相邻象素的颜色,故相邻象素的标号作为当前标号区存储。对所考虑的象素设定当前标号区。此外,作为设定了当前标号区的区域的平均颜色(Rm,Gm,Bm),获得所考虑的象素的颜色添加到相邻标号的平均颜色的新的平均颜色。
否则,对所考虑的象素设定最大标号值加1的新标号值作为当前标号。这种情形下,作为区域的平均值(Rm,Gm,Bm),设定所考虑的象素的RGB值。
任何情形下,所考虑的象素的坐标值存储在处理坐标阵列中。
然后,执行以相同的颜色围绕所考虑的象素扩展区域的处理。这一处理中,顶部坐标值是从处理坐标阵列抽取的。具有顶部坐标值的象素作为所考虑的象素对待。获得作为与所考虑的象素的RGB亮度值和相邻象素的亮度值之间的差的估计阈值(delta_r,delta_g,delta_b)。
平均颜色的每一RGB信号的亮度差的阈值(delta_rm,delta_gm,delta_bm)是使用区域中的平均颜色(Rm,Gm,Bm)和估计的分辨率获得的。
然后,如图12A所示,扫描与所考虑的象素相邻的八个象素,以便获得与所考虑的象素相邻象素的(Ri,Gi,Bi)值(其中i=1到8)。对于RGB值获得所考虑的象素的颜色(Rc,Gc,Bc)与相邻象素的平均颜色的(Rm,Gm,Bm)值之间的亮度差。当该亮度差值满足以下条件时|Ri-Rc|<=delta_r和|Gi-Gc|<=delta_g以及|Bi-Bc|<=delta_b|Ri-Rm|<=delta_rm和|Gi-Gm|<=delta_gm以及|Bi-Bm|<=delta_bm对相邻象素设定与所考虑的象素相同的标号,且相邻象素的坐标值存储在处理坐标阵列中。从处理坐标阵列中删除所考虑的象素。
然后,获得处理坐标(x,y)的最大值和最小值并作为标号区域的包围矩形与作为包围矩形属性的标号区域的平均颜色一同存储。
重复这一处理直到处理坐标阵列中没有点为止。
作为标号处理的结果,获得了围绕具有与标号图象相同标号的区域的一包围矩形。
标号处理的输出信息如下。
-标号图象4字节/象素-包围矩形矩形数maxcount矩形信息lbtbl内含标号图象的标号号码Label矩形的左上坐标(xmin,ymin)矩形的右下坐标(xmax,ymax)矩形中的代表性颜色(r,g,b)相关组号码string_label轮廓长度contour然后,进行所考虑的矩形的抽取处理(在步骤所S14)。在所考虑的矩形抽取处理中,从具有所有颜色的包围矩形抽取预定尺寸范围内的包围矩形作为所考虑的矩形。
实际上,抽取其x长度为23个点或更多(在100dpi)且图象宽度的1/2或更小、以及其y长度为23个点或更多(在100dpi)且图象高度的1/2或更小的包围矩形作为所考虑的矩形。
在所考虑的矩形抽取处理中,包围矩形的尺寸可限制为用于对它们分组的参照。例如,当抽取标题时,参照对应于标题字符尺寸的包围矩形,能够对包围矩形进行分组。这样,能够防止在分组处理中参照诸如在标题中没用的干扰和背景等的包围矩形。于是,能够防止不必要的处理,能够提高处理的速度。
然后,进行抽取围绕所考虑象素的搜索范围的处理(在步骤S15)。在该处理中,所考虑的矩形周围设定预定尺寸的搜索范围,以便在该搜索范围内抽取矩形。
图26是用于说明根据本发明的一实施例用于设定围绕所考虑矩形的搜索范围的方法的示意图。
图26中,抽取具有矩形号码1到30的包围矩形。假设矩形号码1的包围矩形151为所考虑的矩形。此外,还假设围绕包围矩形151设定一搜索范围152。作为相对于包围矩形151待分组的对象,只选择搜索范围内具有矩形号码2到24的包围矩形。反之,不选择不在搜索范围152内的具有矩形号码25到30的包围矩形作为相对于包围矩形151待分组的对象。
在对包围矩形进行分组的情形下,当包围矩形的搜索范围限制在围绕所考虑的矩形时,则只能抽取出现在预定范围内的字符串。例如,当抽取标题区域时,不必考虑与标题分离的字符。这样,就能够有效地抽取标题区域。
实际上,假设所考虑的矩形151较长的边以len标记,而其较小的边为100dpi的30个点,并且围绕所考虑矩形的搜索范围以range_size标记。
为了获得围绕所考虑矩形的搜索范围range_size的包围矩形,使用以下方法。
图27是用于说明根据本发明的一实施例用来抽取围绕所考虑矩形的搜索范围中的矩形的方法。
图27中,假设已经抽取矩形号码为1到4的包围矩形161到164,则获得矩形号码和矩形数并对应于各XY坐标值记录。
由于包围矩形161到164在X坐标值1到4的位置没有出现,故记录矩形数n=0及矩形号码=零。由于具有矩形号码4的包围矩形164出现在X坐标值5到13的位置,故记录矩形数n=1和矩形号码=4。由于具有矩形号码3的包围矩形163和具有矩形号码4的包围矩形164出现在X坐标值14的位置,故记录矩形数n=2和矩形号码=3和4。由于具有矩形号码4的包围矩形164出现在X坐标值15到16的位置,故记录矩形数n=1和矩形号码=4。在所有XY坐标值的位置进行类型的操作。
然后,假设具有矩形号码3的包围矩形163为所考虑的矩形,并围绕包围矩形163设定搜索范围165,则获得包含在搜索范围165中的XY坐标值。获得在各个XY坐标值位置的矩形号码。出现在XY坐标值两个位置的矩形号码是在搜索范围165的那些包围矩形号码。例如,在搜索范围165中的X坐标值位置的包围矩形的矩形号码是2到4。在搜索范围165中的Y坐标值位置的包围矩形的矩形号码是1到4。这样,在XY坐标值的两个位置的矩形号码是2到4。于是,作为搜索范围165中的矩形获得具有矩形号码2到4的包围矩形162到164。
实际上,执行以下步骤a)到d)。
a)矩形号码被投影到整个图象的XY轴。
对于整个图象的XY轴上的每一象素记录矩形数和矩形号码的集合。例如,假设矩形号码i出现在X轴上范围(x1,x2)内,则号码i包含在X轴上从坐标值x1到x2的范围内的矩形号码集合中。对XY坐标上的所有矩形执行相同的操作。
b)围绕所考虑的矩形设定范围range_size。
c)在范围range_size中的X轴上的坐标值部分的矩形为ORed,以便抽取矩形号码集合。
在Y轴上执行相同的操作。
d)X轴上的矩形号码集合与Y轴上的矩形号码集合为ANDed,以便获得围绕所考虑的矩形的矩形集合。
图27中所示的矩形号码存储方法中,对每一坐标值需要存储整个图象所有矩形号码的存储容量。这样,就需要大的存储容量。
为了不增加存储器的存储容量而以高速获得各个坐标处的矩形数及矩形号码,使用以下方法。
图28A、28B、28C是简化的图示,用于说明根据本发明的一实施例用来存储在搜索范围内、或者在围绕所考虑的矩形的区域中局部配置的矩形信息的方法。
在图28A中,假设已经分别抽取了具有矩形号码1和2的包围矩形171和172,包围矩形171出现在X坐标值155到165的位置,而包围矩形172出现在X坐标值160到163的位置。这样,如图28B所示,对于包围矩形171,矩形号码1记录在X坐标值155到165的位置。对于包围矩形172,矩形号码2记录在X坐标值160到163的位置。
然后,如图28C所示,矩形号码1和2按其顺序并按X坐标值155到165的升序配置。这样,能够获得具有相等坐标值矩形号码。
实际上,执行以下步骤i)到v)。
i)所有矩形的水平长度相加。对应于矩形的整个水平长度准备具有矩形号码和坐标信息的数据结构。
ii)对该数据结构设定矩形的坐标值和矩形号码。
iii)按坐标值存储数据结构的数据。
iv)在每一坐标值对矩形数计数。对应于每一坐标值准备用于矩形数的存储区域。从开头扫描存储的数据结构。当坐标值不变时,对矩形数计数。当坐标值变化时,设定并存储矩形数。
v)在准备的区域中把具有相同坐标值的矩形号码存储所存储的数据结构中。从开头扫描存储的数据结构。当坐标值不变时,把矩形号码存储在存储区域。
然后,执行相同的彩色分组抽取处理(在步骤S16)。在相同的彩色分组抽取处理中,如标号处理,使用所考虑的矩形中的图案的平均颜色获得RGB亮度差值的阈值。抽取其对所考虑的矩形的RGB亮度差值不大于阈值的矩形作为相同组中的矩形,并存储在分组信息中。然后,使用新添加到分组中的包围矩形,执行相同的操作直到没有被添加的矩形。
实际上,一个所考虑的矩形的值(Rc,Gc,Be)与围绕所考虑的矩形的矩形集合的包围矩形i在RGB空间中的值之间的距离定义如下。
dist=|Rc-Ri|+|Gc-Gi|+|Bc-Bi|此外,假设使用所考虑的矩形与分辨率的色值(Rc,Gc,Bc)获得的RBG亮度差由delta_r、delta_g、delta_b标记。当所考虑的矩形的值(Rc,Gc,Bc)与围绕所考虑的包围矩形集合的一个包围矩形i的值(Ri,Gi,Bi)满足以下条件时,确定围绕所考虑的矩形的包围矩形包含在所考虑的矩形的分组中。围绕所考虑的矩形的包围矩形存储在所考虑的矩形的分组中。
dist<TH_RGB(TH_RGB=20)或者(|Rc-Ri|<delta_r以及|Gc-Gi|<delta_g以及|Bc-Bi|<delta_b)
此外,新添加到分组中的矩形号码存储到新添加的矩形区域中。
然后,从新添加的矩形区域抽取顶部矩形号码作为新的所考虑矩形。获得围绕新的所考虑矩形的包围矩形。通过重复这些步骤,获得包含在分组中的包围矩形,直到没有添加到分组中的矩形为止。
在上述处理中,获得了被抽取的分组信息的以下数据结构。
分组中的矩形数num组成分组的矩形号码child重叠矩形被组合之后的矩形数overlap num重叠矩形被组合之后的矩形信息overlap(数据类型矩形信息lbtbl类型)分组中的字符串方向代码orient分组中的字符串数gyou_num字符串的矩形信息gyou然后,进行抽取分组中的字符线平均粗度的处理(在步骤S17)。在该处理中,对于对应于分组中的包围矩形的标号图象的图案,进行轮廓跟踪处理。换言之,包含在分组中的一个包围矩形的矩形范围内,对对应于包围矩形的标号号码的标号图象进行轮廓跟踪处理。把轮廓的抽取长度设定为矩形的轮廓的长度属性。按轮廓的长度划分图案的区域,以便获得字符线的平均厚。所获得的平均粗度作为矩形的属性记录到矩形信息。
图29A和29B是用于说明根据本发明的一实施例用于计算字符线粗度方法的示意图。
图29A中,假设抽取了图案“フ”。通过对包含在图案“フ”中的象素象素数计数,计算图案“フ”的面积S。
然后,如图28B所示,抽取图案“フ”的轮廓。计算轮廓的长度L。图案“フ”的面积S除以轮廓的长度,以便得出图案“フ”的平均粗度W。
然后,进行对应于字符线的粗度对包围矩形重新分组的处理(在步骤S18)。在该处理中,分组中的包围矩形对应于字符线的平均粗度被重新分组,以便构成新的分组信息。换言之,对于分组中的包围矩形重复图23中所示的步骤S14到S16。当在步骤S16进行相同的颜色分组抽取处理时,除了在步骤S15处所使用的颜色信息外还使用估计的字符线粗度(=矩形中的图案的面积/图案的轮廓长度)。
图30是用于说明根据本发明的一个实施例用于对应于字符线的粗度对包围矩形重新分组的处理。
图30中,假设以相同的颜色描述并靠近配置字符串“グル一プ1”(分组1)及字符串“グル一プ2”(分组2)。于是,假设字符串“グル一プ1”及字符串“グル一プ2”被分在相同的分组181。
计算字符串“グル一プ1”的粗度及字符串“グル一プ2”的粗度。不同粗度的字符分类为不同组。这样,字符串“グル一プ1”被分类为分组182。字符串“グル一プ2”被分类为分组183。
在该处理中,能够把已被分类为相同组的背景和字符图案分类为不同组。此外,具有不同字模或不同字符规格的字符串可分类为不同组。
实际上,使用第一包围矩形的字符线的根据粗度(thick1)和第二包围矩形的字符线的根据粗度(thick2),字符线的粗度比(thick_rate)可如下获得。
thick_rate=max(thick1,thick2)/min(thick1,thick2)正如步骤S15的情形,当满足以下条件时,把两个包围矩形记录为相同组。
thick_rate<TH_THICK_RATE以及(dist<TH_RGB或(|Rc-Ri|<delta_r以及|Gc-Gi|<delta_g以及|Bc-Bi|<delta_b)假设TH_THICK_RATE为2.5。
对原始分组中的所有矩形执行这一处理,以便把包围矩形分组为新的分组。
当获得字符线的粗度时,必须获得图案的轮廓。然而,为了高速跟踪轮廓,要执行以下处理。
图31A、31B、31C、和31D是示意图,用于说明根据本发明的一实施例用于设定象素的搜索开始点以跟踪轮廓的方法。
图31A中,假设获得了象素a到i构成的图案的轮廓,从左上位置对标号图象进行光栅扫描。这样,获得象素。在获得象素之后,使用与该象素相邻的八个象素之一并已经搜索了象素a之前的两个象素的象素a’的搜索开始点,顺时针搜索与该象素相邻的八个象素。当使用作为与象素e相邻的八个象素之一并且是作为轮廓在象素e之前刚被搜索过的象素的下一个象素的象素e’的搜索开始点,如图31B所示,获得象素e时,顺时针搜索与象素e相邻的八个象素。当使用作为与象素i相邻的八个象素之一并且是作为轮廓在象素i之前刚被搜索过的象素e的下一个象素的象素i’的搜索开始点,如图31C所示,获得象素i时,顺时针搜索与象素i相邻的八个象素。类似地,如图31D所示,抽取象素a→象素e→象素i→象素h→象素g→象素f→象素b→象素c作为象素a到i组成的图案的轮廓。
实际上,执行以下步骤a)到f)。
a)准备矩形尺寸处理完成标记。作为初始值,所有的矩形尺寸处理完成标记设置为“0”。
b)用处理完成标记和标号图象左上位置搜索矩形范围,以便搜索具有处理完成标记=0和标号号码=当前矩形的标号号码的象素i。轮廓长度设置为0。
c)如图32所示从象素0顺时针搜索与象素i相邻的八个象素。当有一个象素具有处理完成标记=0和标号号码=当前矩形的标号号码时,抽取象素的方向代码DC。
图32是表示根据本发明的一实施例从当前象素所看见的方向代码的示意图。
图32中,象素C是当前象素。象素0到7是与当前象素C相邻的象素。方向代码DC是从当前象素所见。从象素i,按顺序搜索八个象素。
d)作为组成轮廓的下一个象素,搜索从当前象素C检测到的方向代码DC的方向中的一象素。这时,已经计算出的轮廓长度增加1。对新的当前象素C’设定下一个待搜索的象素。从与当前象素C’相邻的八个象素搜索具有处理完成标记=0和标号号码=当前矩形的标号号码的象素。这时,用于搜索与新的当前象素C’相邻的八个象素的开始方向代码是DC’,这是从先前的方向代码(DC+5)除以8的余数。在方向DC’顺时针搜索相邻的象素。
这样,由于防止了象素被冗余地搜索,故能够以高度进行轮廓跟踪处理。
e)轮廓跟踪处理继续直到搜索到开始坐标处的一个象素。以矩形中标号值抽取这点轮廓的长度作为图案的一个轮廓的轮廓长度。
f)对同一图案的其它轮廓执行步骤c)到e)。使所有的轮廓长度相加并最后抽取为图案的轮廓长度。
然后,执行从分组中删除大矩形的处理(在步骤S19)。在该处理中,为了消除干扰,获得分组中的矩形的平均尺寸。对应于平均尺寸,删除过大的矩形。
图33A和33B是用于说明根据本发明的一实施例从分组中删除大矩形的处理的示意图。
图33A中,假设包围矩形192到201分类为组191,获得分组191中的包围矩形192到201的尺寸。假设包围矩形192的尺寸远远大于包围矩形193到201的尺寸,如图33B中所示,则从分组191中删除包围矩形192,从而产生由包围矩形193到201组成的分组202。
实际上执行以下步骤a)到d)。
a)生成分组中的包围矩形高度的直方图。按以下方法获得表示最大频率值的矩形高度freq_height。
i)使用分级窗口,对直方图进行卷积计算(即获得它们的移动和)。实际上,例如分级窗口是由“11111”五个象素组成的。
ii)事先获得最小高度值(实际上在100dpi情形下是23个点)。获得大于最小高度值并表示最大频率的矩形高度freq_height。
图34A和34B是用于说明根据本发明的一个实施例用来计算表示最大频率值的矩形高度的方法的示意图。
图34A中,当获得图33A所示包围矩形192到201的高度的频率时,使用分级窗口205,如图34B所示,计算图34A中所获得的矩形高度的频率移动和。在获得了矩形高度的频率移动和之后,从包围矩形192到201的高度获得表示最大频率的矩形高度freq_height。
b)当表示最大频率值的矩形高度freq_height小于最小高度值(实际上在100dpi情形下是23个点)时,把最小高度值作为表示最大频率值的矩形高度freq_height对待。
c)获得确定大矩形的阈值th_large为th_large=freq_height*10。
d)垂直和水平尺寸小于th_large的包围矩形被保留在分组中。其余的包围矩形作为干扰从分组中删除。
然后,进行组合分组中的重叠矩形的处理(在步骤S20)。在该处理中,新生成一个围绕重叠的包围矩形的矩形并记录到分组信息中。
换言之,重叠的包围矩形(即使包围矩形部分地重叠)被组合。生成围绕被组合的包围矩形的包围矩形。
图35A和35B是用于说明根据本发明的一实施例用于组合分组中的重叠矩形处理的示意图。
图35A中,一包围矩形211包含在包围矩形212中。包围矩形212与包围矩形213重叠。这种情形下,包围矩形211到213被组合。这样,除了包围矩形211到213以外,生成包围矩形214。
在这个处理中,当一个字符由多个分开的图案诸如“画”(日语的意思是图片)及“噁”(日语的意思是检查站)等组合时,这种图案可被集体处理,并能够有效地执行相继的处理。
然后,进行从分组中抽取字符串的处理(在步骤S21)。在该处理中,估计分组中的字符串的方向。抽取该方向中的字符串。对每一分组存储所抽取的字符串的方向和坐标信息。
图36A和36B用于说明根据本发明的一实施例用于从分组中抽取字符串的处理的简略图示。
图36A中,假设包围矩形1到29被分类为分组221,在右侧搜索与包围矩形1在最左位置相邻的包围矩形。当获得了与包围矩形1相邻的包围矩形2时,对所获得的包围矩形分配矩形号码1。所获得的包围矩形的矩形号码2变为号码1。类似地,在右侧搜索与所获得的具有矩形号码1的包围矩形相邻的一包围矩形。当获得一包围矩形时,把左侧的包围矩形的矩形号码赋予给右侧的包围矩形。
当没有包围矩形在右侧与具有矩形号码的包围矩形相邻时,在右侧搜索与具有矩形号码15的包围矩形相邻的一包围矩形。当获得了与具有矩形号码15的包围矩形相邻的一包围矩形时,矩形号码15赋予所获得的包围矩形。
在这种处理中,如图36B所示,矩形号码1赋予与具有矩形号码1的包围矩形在右侧相邻的包围矩形。类似地,矩形号码15赋予与具有矩形号码15的包围矩形在右侧相邻的包围矩形。在矩形号码转移完之后,生成围绕具有同一设定的矩形号码1的包围矩形的包围矩形222。类似地,生成围绕具有同一设定的矩形号码15的包围矩形的包围矩形223。
实际上,执行以下步骤a)到e)。
a)对应于分组中的包围矩形估计字符串的方向。
b)获得对包围矩形在向里和向外方向最接近(上、下、左、右位置)的矩形的相邻关系。
c)当字符串配置在水平方向时,从最左位置的一矩形,把开始的矩形号码转移给右侧的矩形,直到右侧没有矩形为止。这一处理施加于垂直方向。
d)向与一矩形在最左位置相邻的矩形转移其矩形号码。所设定的矩形号码被转移给与其在右侧相邻的矩形,直到没有矩形关系。
e)在对分组中所有的矩形进行了上述处理之后,获得了具有相同设定的矩形号码的矩形。抽取围绕具有设定的相同的矩形号码的矩形的包围矩形作为字符串。
然后,执行对字符串的分开的字符进行组合的处理(在步骤S22)。这一处理中,用于组合水平字符串垂直地分开的字符的处理施加于字符串的矩形(在垂直字符串的情形下,用于组合水平分开的字符的处理施加于字符串的矩形)。被组合的矩形以一包围矩形代替。这种情形下,字符串矩形被垂直组合。换言之,在水平字符串的情形下,围绕字符(例如“て”)的上笔画和下笔画的各矩形被组合并作为一个矩形处理。
图37A和37B是用于说明根据本发明的一实施例用于组合字符串分开的字符的处理的示意图。
图37A中,产生围绕在分组221中水平相邻的多个包围矩形的包围矩形222和223。在包围矩形222中,出现了垂直相邻的包围矩形224和225,以及垂直相邻的包围矩形226和227。在包围矩形223中,出现了垂直相邻的包围矩形228和229,以及垂直相邻的包围矩形230和231。
这种情形下,如图37B所示,产生了围绕包围矩形224和225的包围矩形232。产生了围绕包围矩形226和227的包围矩形233。包围矩形226和227被组合。产生了围绕包围矩形228和229的包围矩形234。包围矩形228和229被组合。产生了围绕包围矩形230和231的包围矩形235。包围矩形230和231被组合。
实际上,执行以下步骤a)到c)。在以下的例子中,将说明水平字符串的情形。然而,这些步骤适用于垂直字符串的情形。
a)字符串中的矩形按X坐标值的升序存储。
b)设定第一个矩形为当前矩形。当下一个矩形与当前矩形在当前矩形的X坐标值范围内重叠时,这些矩形被组合。当前矩形的X坐标值的范围变为被组合的矩形的X坐标值的范围。重复这一处理,直到没有要组合的矩形为止。当没有矩形要组合时,存储已被组合的矩形。
c)在没有要组合的矩形之后,设定下一个矩形为新的当前矩形。使用新的当前矩形,重复步骤b)。
然后,对应于字符串的字符的尺寸执行用于对矩形重新分组的处理(在步骤23)。在该处理中,对应于分组中的字符串的字符的垂直尺寸,对矩形重新分组。结果存储在新的分组信息中。
这样,具有相同颜色和不同字符尺寸的字符串能够分为不同的组。此外,干扰和字符串能够被分为不同的组。
图38A和38B是用于说明根据本发明的一实施例用于对应于字符串的字符的尺寸对矩形重新分组的处理的示意图。
在图38A中,假设已经产生围绕在分组221中水平相邻的包围矩形的包围矩形222和223,计算出包围矩形222的高度H1和包围矩形223的高度H2。当包围矩形222的高度H1和包围矩形223的高度H2之间的差大于预定阈值时,包围矩形222和包围矩形223被分到不同的组。
实际上,当水平字符串的两个矩形的高度差(垂直字符串的两个矩形的宽度差)小于预定的阈值,并且两个矩形彼此重叠,或两个矩形彼此之间的距离小于预定的阈值时,这两个矩形被分到相同的组并被设定相同的分组号码。对所有的分组进行这一处理。
然后,使用具有相同的分组号码的字符串产生新的分组。这一处理中,具有不同字符尺寸而在图23所示的步骤S18被分为相同分组的字符串,可能被分到不同的组。
然后,执行从分组中删除大矩形的处理(在步骤S24)。在该处理中,为了消除干扰,获得分组中的矩形的平均尺寸。参照这平均尺寸,再次删除大尺寸矩形。换言之,对于在上述处理中已经改变的分组,再次执行图21所示步骤S19的处理,以便消除分组中的干扰。
然后,矩形分组的组合处理(在步骤S25)。在该处理中,水平或垂直相邻并具有相同颜色的分组被组合。换言之,在两个分组的颜色类似、相邻、且分组的包围矩形在一行的情形下,这两个分组被组合为一个分组。进行这一处理,以便对应于稍后所要描述的矩形配置确定分组的字符串的相似性。
图39A和39B是用于说明根据本发明的一实施例用于对分组进行组合的处理的示意图。图39A中,假设分组1的包围矩形241和分组2的包围矩形242为水平配置,获得包围矩形241和242之间的距离L1,包围矩形241的上边缘和包围矩形242的上边缘之间的坐标差E1,包围矩形241的下边缘和包围矩形242的下边缘之间的坐标差E2。在矩形241和242之间的距离L1、包围矩形241的上边缘和包围矩形242的上边缘之间的坐标差E1、包围矩形241的下边缘和包围矩形242的下边缘之间的坐标差E2小于各自的阈值,并且分组1的代表性颜色和分组2的代表性颜色之间的差不大于预定的阈值的情形下,包围矩形241和242被组合,并产生围绕包围矩形241和242的包围矩形243。
实际上,在两个分组的包围矩形的坐标接近,且其距离短,并假设两个包围矩形能够被组合为一个字符串的情形下,包围矩形按以下条件被分为一个组。
-两个分组的平均RGB值的亮度差值小于预定阈值。
-当两个分组水平配置时,其水平距离小于固定的阈值(当两个分组垂直配置时,其垂直距离小于固定的阈值)。
-当两个分组水平配置时,两个分组的包围矩形的上边缘之间的坐标差小于固定的阈值,且两个分组的包围矩形的下边缘之间的坐标差小于固定的阈值(当两个分组垂直配置时,两个分组的包围矩形的右边缘之间的坐标差小于固定的阈值,且两个分组的包围矩形的左边缘之间的坐标差小于固定的阈值)。
重复这一处理直到没有要被组合的分组。
然后,执行用于抽取对应于矩形配置可能为字符的分组的处理(在步骤S26)。在该处理中,对于满足尺寸和形状这种特定条件的矩形,当一个矩形的上边缘或下边缘靠近相邻矩形的上边缘或下边缘时,确定矩形是在同一行。这种情形下,设置一行标志。获得表示满足预定条件的分组的矩形一行中矩形数的行矩形比率。抽取具有超过预定阈值的行矩形比率的分组作为字符串。
图40A和40B是用于说明根据本发明的一实施例用于抽取可能是对应于矩形配置的字符串的分组的处理的示意图。
图40A中,使用输入图象产生了包围矩形252到256以及包围矩形258到269。包围矩形252到256被分为一组。这样,产生了围绕包围矩形252到256的包围矩形251。类似地,包围矩形258到269被分到另一组。这样,产生了围绕包围矩形252到269的包围矩形257。
然后,确定分组的包围矩形的尺寸和位置。对水平配置的包围矩形设定水平配置标志1。对垂直配置的包围矩形设定垂直配置标志2。由于包围矩形252到256是随机配置在包围矩形251中,故对包围矩形252到256既不设定水平配置标志1也不设定垂直标志2。另一方面,由于包围矩形258到269是水平配置在包围矩形257中的,故对包围矩形258到269设定水平配置标志1。
在完成了对包围矩形252到256和包围矩形258到269的标志设定处理之后,在每一分组计算所有矩形中的设定了标志的矩形的比率。抽取具有高矩形比率的分组作为字符串。作为干扰除去具有低矩形比率的分组。
这样,如图40B所示,由于包围矩形252到256没有被设定标志,其分组作为干扰被除去。反之,由于已经对包围矩形258到269设定了水平配置标志1,故其分组被抽取为字符串。
实际上,执行以下标志a)到e)。
a)当分组中两个相邻矩形满足尺寸和形状的预定条件、并且两个矩形的上边缘之间的坐标差小于预定的阈值(高度WID_RATE(=0.2)倍)时,对两个矩形设定水平配置标志1。
当两个矩形为相邻矩形时,它们应当出现在参照矩形的宽度乘以WID_RATE_DIST(=0.5)的范围内。
b)当分组中两个相邻矩形满足尺寸和形状的预定条件、并且一个矩形的左边缘和另一矩形的右边缘之间的坐标差小于预定的阈值(宽度的WID_RATE倍)时,对两个矩形设定垂直配置标志2。
当两个矩形为相邻矩形时,它们应当出现在参照矩形的高度乘以WID_RATE_DIST倍的范围内。
c)在分组中比较设定了水平配置标志的矩形数和设定了垂直配置标志的矩形数。字符串的方向对应于比较的结果。
d)通过“分组中配置的矩形数/满足诸如尺寸或形状的预定条件的所有矩形数”获得分组中配置的矩形比率作为分组中矩形的条件,通过图34中所示的方法获得表示分组中矩形最高(most)频率值的高度。由large_rect标记高度×3。矩形的高度大于固定尺寸(在100dpi下为23个点)并小于large_rect。
e)当配置在分组中的矩形的比率大于预定的阈值NUM_RATE(0.8)时,保持该分组为字符串似然的分组。否则,分组作为干扰被除去。
分组中的点“·”和破折号“-”作为字符保持。
然后,执行干扰分组的删除处理(在标志S27)。在该处理中,抽取并删除由两个矩形组成并作为对应于形状或坐标作为干扰对待的分组。换言之,由两个矩形组成并且两个矩形的上边缘和下边缘(或左边缘与右边缘)之间的距离小的分组作为干扰被删除,除非确定这两个矩形在一行。
图41是用于说明根据本发明的一实施例用来删除干扰分组的处理的示意图。
图41中,假设抽取两个包围矩形272和273作为一个分组,并产生围绕两个包围矩形272和273的包围矩形271。这种情形下,包围矩形272的下边缘与包围矩形273的下边缘一致。然而,由于包围矩形272的上边缘大大不同于包围矩形273的上边缘,故包围矩形272和273作为干扰对待,并从作为字符串的似然的分组中删除其分组。
实际上,执行以下的处理。
假设分组的两个矩形的平均高度由hei表示,其平均宽度由wid表示,用于设定阈值的比率DEL RATE为0.1,则保留满足以下条件的分组。不满足以下条件的分组作为干扰被删除。
(I第一矩形的上边缘坐标-第二矩形的上边缘坐标|<hei×DEL_RATE以及|第一矩形的下边缘坐标-第二矩形的下边缘坐标|<hei×DEL_RATE或者(|第一矩形的左边缘坐标-第二矩形的左边缘坐标|<wid×DEL_RATE以及第一矩形的右边缘坐标-第二矩形的右边缘坐标|<wid×DEL_RATE)然后,执行从分组中抽取具有相同颜色的图案的处理(在步骤S28)。在该处理中,获得分组的代表性颜色作为分组中矩形的代表性颜色的平均颜色。还没有被抽取并且具有类似于原始图象的颜色的图案被抽取为分组范围中的二值图象。对抽取的图案设定用于二值图象的标号,以便获得连接部分的包围矩形。当获得的包围矩形大于预定的阈值时,把包围矩形作为字符图案的一部分添加到分组中。
例如,获得分组中的图案的平均颜色(RGB)。在分组的包围矩形范围内获得具有与平均颜色类似的颜色的象素。从二值图象中除去图案部分。对保留的二值图象设定用于二值图象的标号,以便获得新的包围矩形。当新的包围矩形的尺寸和形状超过预定的阈值时,把新的包围矩形中的图案添加到分组中。
在该处理中,由于字符宽度信息、颜色偏移等等在以上处理中失去并作为字符的一部分的图案能够被重新抽取。这种图案的一例是字符“ば”的浊音符号“"”图42A和42B是用于说明根据本发明的一实施例用于从分组中抽取具有相同颜色的图案的处理的示意图。
图42A中,使用图23所示从步骤S11到S27的处理,假设从输入图象抽取了字符串“クロ一ハル化ヘの3つの成功モデル”,并产生了围绕该字符串的包围矩形280。这例子中,浊音“"”从“ク”和“ハ”中除去。
这种情形下,由于浊音符号“"”的颜色与“ク”的颜色之间的差超过预定的阈值,故浊音符号“"”被分为不同于“ク”的组的一个组。
此外,由于浊音符号“"”的颜色与“ハ”的颜色之间的差超过预定的阈值,故浊音符号“"”被分为不同于“ハ”的组的一个组。
在步骤S16的处理中,由于对待抽取的字符串局部颜色进行比较,当由于颜色剪裁字符串的颜色局部变化时,字符的一部分丢失。
这样,重新抽取“グ”的浊音符号“””和“バ”的浊音符号“"”。当这些浊音符号被重新抽取时,对应于整个字符串“クロ一ハル化ヘの3つの成功モデル”,获得其代表性颜色。从标号图象抽取具有代表性颜色的类似颜色的图案。浊音,减轻了字符串局部颜色的变化的影响。于是,能够抽取“グ”和“バ”的浊音符号“"”。当重新抽取浊音符号“"”时,浊音符号“"”的抽取范围限制在包围矩形280。当限制了抽取范围时,能够避免被抽取的字符的浊音符号“"”从范围伸出。这样,由于被处理的图案的范围变得狭窄,在不破坏抽取精确性的情形下能够以高速执行处理处理。
于是,如图42B所示,这样“グ”和“バ”的符号“"”被正确地抽取,从而能够从输入图象抽取字符串“グロ一バル化ヘの3つの成功モデル”。
作为重新抽取的结果,当字符串“グロ一バル化ヘの3つの成功モデル”和相同颜色的干扰在包围矩形280的范围内时,由于干扰也被抽取,故作为干扰除去被重新抽取的小图案。
实际上,执行以下步骤a)到h)。
a)存储在分组矩形信息中的代表性颜色信息对分组中的所有的矩形求平均,以便获得分组的代表性颜色(Rm,Gm,Bm)。
b)作为mfw和mfh分别获得分组的矩形的高度和宽度最频值。当最频值的宽度mfw和高度mfh大于最小矩形的尺寸的阈值minsize(=2)时,以minsize代替最频值的宽度mfw和高度mfh。
c)获得分组的包围矩形。在包围矩形的范围内,产生一个二值图象。该二值图象的所有象素设置为“0”。
d)检验分组的包围矩形范围内原始图象的象素的颜色。当原始图象象素的颜色(R,G,B)和分组的代表性颜色满足以下关系时,记录原始图象的象素位置。把二值图象的相同的位置处的象素设置为“1”。
|Rm-R|+|Gm-G|+|Bm-B|<THR×10(THR=10)e)从二值图象抽取分组的矩形。只有在先前处理中被漏下并具有与代表性颜色类似的颜色的图案保留在二值图象中。
f)对二值图象设定用于二值图象的标号,以便获得连接区域的包围矩形。
g)保留满足以下条件的矩形。删除其余的矩形。
w<mfw/2以及h<mfh/2h)组成其余矩形的连接矩形的图案被添加到分组中。
然后,执行用于确定分组的输出顺序的处理(在步骤S29)。在该处理中,当抽取了包含字符串的多个分组时,计算分组的包围矩形的面积。按最大面积的顺序存储分组。所存储的结果成为输出的顺序。
然后,执行用于产生二值图案的处理(在步骤S30)。在该处理中,作为二值图象产生组成分组的图案,以便能够把图案识别为字符。
实际上,执行以下步骤a)到c)。
a)产生具有分组的包围矩形的尺寸的二值图象。把二值图象所有的象素设置为“0”。
b)抽取分组中矩形的标号。在相关矩形中搜索标号图象,抽取具有标号的一象素。把在二值图象中坐标处的象素设置为“1”。
c)对于所有的矩形执行步骤b)。作为二值图象产生组成分组的图案。
以下将以实际的彩色图象为例说明上述处理。
图43A是表示输入的原始图象一例的示意图。在原始图象中,标题字符301和302、图片303、文本字符304、框305等以彩色打印。标题字符301和302作为标题抽取。此外,标题字符是以一种颜色打印的。
图43B是表示图43A中所示的标号图象的示意图。
在图43中,标号图象是通过图23所示步骤13处的颜色标号处理获得的。在颜色标号处理中,对相同颜色的连接区域设定相同的标号。产生具有相同标号的图案的包围矩形。这里,包围矩形的数量计有大约几千到几万个。
图43C是表示从图43B所示的标号图象获得的所考虑的矩形的示意图。
图43C中,通过图23中所示步骤S14处的所考虑的矩形抽取处理获得所考虑的矩形。在图43C中所示的例子中,抽取了具有矩形号码1到64的所考虑的矩形。
在步骤S14所考虑的矩形抽取处理中,在从标号图象获得的包围矩形之中,具有预定尺寸的包围矩形作为所考虑的矩形对待。这样,应当被抽取的标题字符301和302的包围矩形从图43C所示的区域311和312漏掉。在这例子中,应当在图43C中所示的区域312中被抽取的标题字符302是对应于图43A中所示的字符“に”。然而,在图43B所示的标号图象中,对组成字符“に”的三个笔画设定了不同的标号。这样,笔画的包围矩形的尺寸变小。
在所考虑的矩形抽取处理中,当把包围矩形分类为组时,对应于文本字符304的包围矩形313(未示出)、干扰的包围矩形、和框305的包围矩形能够从搜索区域中的参照包围矩形中被除去。这样,能够以高速执行该处理。在图43B所示的状态中,包围矩形的数目计有几千到几万个。另一方面,在图43C中,包围矩形的数目降低到几十个。
图43D是表示分组抽取的结果的示意图。
在图43D中,通过图23中所示步骤S16处用于抽取具有相同颜色的分组的处理获得分组抽取的结果。在图43D中,产生具有矩形号码1到21的包围矩形。在该处理中,从图43B所示的标号矩形获得的包围矩形被分类为相同的分组,这些矩形在图43C所考虑的矩形的预定范围内并具有类似的代表性颜色。产生出围绕分类为相同组的包围矩形的一个包围矩形。
这样,产生对应于图43A所示标题字符301“日经400社经营者アンケ一ト”的分组的包围矩形321。此外,产生对应于标题字符302“贸易不均衡の要因に微妙な差”的分组的包围矩形322。在分组处理中,组成标题字符301和302各个字符串可被组合成一个字符串。此外,应当在图43C所示的区域311和312中被抽取的标题字符301和302的包围矩形323和324能够被正确地抽取。
当具有类似的代表性颜色的另一包围矩形的标号图象不能在图43C中所示的所考虑的矩形的预定区域中获得时,由于所考虑的矩形不组成分组,故所考虑的矩形被除去。
图44A是表示重新分组的结果的示意图,其中图43D所示分组抽取结果对应于字符线的粗度被重新分组。
图44A中,通过图23所示步骤S18处用于对应于字符线粗度对包围矩形重新分组的处理而获得重新分组的结果。作为一分组产生具有矩形号码0到12的包围矩形。在该处理中,产生对应于图43A所示标题字符“日经400社经营者アンケ一ト”的分组的包围矩形331。此外,产生对应于图43A所示标题字符“贸易不均衡の要因に微妙な差”的分组的包围矩形332。
在图43D所示的包围矩形之中,不能被分组为对应于字符线粗度的那些包围矩形被除去。
图44D是表示重叠的矩形被组合的结果的示意图。
图44D中,通过图23所示步骤S20处用于组合重叠矩形的处理获得矩形的组合结果。产生了具有矩形号码0到12的包围矩形。在该处理中,对应于图片303的区域333中的大部分包围矩形是重叠的,故它们被组合并被除去。在组合处理中,减少了被处理的包围矩形的数目。这样,处理能够以高速进行。
图44C是表示从输入图象中抽取可能是字符串的分组的结果的示意图。
图44C中,通过图23所示步骤S26处的用于对应于矩形配置抽取可能是字符串的分组的处理而获得可能是字符串的分组。图44C中,具有矩形号码0和1的包围矩形被抽取为一个分组。在该处理中,用于图44B所示区域342中的分组的包围矩形是随机配置的,故它们被删除。这样,只抽取图44B中所示区域341中的包围矩形。
图44D是表示从图44C所示的图象中抽取分组的图案的结果的示意图。
图44D中,通过图23中所示步骤S28处用于从分组中抽取具有相同颜色的图案的处理获得分组的图案。抽取图44C中获得的分组的包围矩形的区域中的一个图案。这样,获得了图43A所示的标题字符301“日经400社经营者アンケ一ト”和标题字符302“贸易不均衡の要因に微妙な差”。
图45A是表示从图43A中所示的图象抽取的标题第一选择对象的图案的示意图。图48B是表示从图43A中所示的图象抽取的标题第二选择对象的图案的示意图。
在图45A和45B所示的例子中,对应于所抽取的图案的包围矩形401和402的区域尺寸,设定从图43A所示的原始图象抽取的标题的输出顺序。
这样,图43A所示的标题字符302“贸易不均衡の要因に微妙な差”作为标题的第一选择对象而出现。图43A所示的标题字符302“日经400社经营者アンケ一ト”作为标题的第二选择对象而出现。
如上所述,根据本发明,能够对应于所考虑的象素的颜色信息设定用于确定是否为相邻的象素设定相同标号的距离阈值而不是固定值。这样,就能够精确地确定象素是否在相同的范围。于是,能够从所希望的区域精确地抽取象素。
这样,根据本发明的一个方面,使用缩小图象能够获得看作为相同颜色的区域。于是,能够以高速执行用于抽取看作为相同颜色的区域的处理。
这样,根据本发明的一个方面,从缩小图象获得了标号图象的包围矩形和标号、其代表性颜色、相同标号区域中的颜色数、及颜色。对应于获得的结果,获得了原始图象的矩形。标号处理能够在矩形中进行。这样,标号处理能够以高速进行。
于是,根据本发明的一个方面,从缩小图象获得了所有颜色和相似性,并确定了缩小图象的区域的相似性。当区域的颜色的相似性小于预定的阈值时,能够为区域设定相同的标号。这样,能够按肉眼所见抽取所需的矩形。
这样,对各个阈值元素设定三个颜色要素。当两个颜色的所有三个颜色要素小于各个阈值时,这些颜色可被当作相同的颜色对待。于是,能够降低阈值表的容量。此外,标号处理能够非常精确地进行。
根据本发明的一个方面,对应于其图案的颜色信息和几何信息,把输入图象的图案分类。这样,当从彩色输入图象抽取颜色相同的标题区域时,限制了彩色输入图象的部分作为标题区域。抽取的是具有相同颜色的图案。与标题区域分离的相同颜色图案从被分类的对象中除去。此外,对应于颜色信息,可能从被分类的对象中除去不是标题字符的小图案和大图案。这样,能够改进标题区域抽取处理的速度。
根据本发明的一个方面,为了聚类输入图象的象素,对所考虑的象素的颜色信息与同它相邻的象素的颜色信息进行比较。当比较输入图象的所有象素时,相邻象素颜色信息的比较处理的次数成为输入图象的象素数的平方。反之,当所考虑的象素的颜色信息与同它相邻的象素的颜色信息进行比较时,比较处理的次数变为输入图象的象素数。这样,聚类处理能够以高速进行。
此外,当输入图象的象素被分类为组时,预定范围内的集群被分类为组。这样,相同集群中的象素能够被集成处理。这样,就不必处理单个象素。于是,分组处理能够以高速进行。此外,在输入区域被限制的范围内,相同颜色的集群能够被分类为相同的分组。这样,分组处理能够以更高的速度进行。
根据本发明的一个方面,抽取对应于预定的分辨率被确定为颜色偏移范围内的区域作为相同颜色的区域。这样,由于输入图象的图案的颜色是以基色的点的尺寸的组合表示的,即使与读取分辨率相关作为不同颜色的集合检测到输入图象中表示为相同颜色的区域,当读取输入图象时,能够精确地抽取相同颜色的范围的区域。于是,能够防止输入图象中表示为相同颜色的图案的部分漏掉或丢失。
根据本发明的一个方面,在使用标号图象所产生的包围矩形之中,能够把成为用于设定搜索区域参照的包围矩形限制在预定尺寸范围内的包围矩形。这样,当从输入图象抽取字符区域时,能够防止把诸如干扰的小图案和诸如背景或框架的大图案的包围矩形,选择为用于搜索字符串的搜索区域的参照。于是,能够抑制把非字符串的图案分类为组。这样,只有字符串能够被有效地抽取。
由于在从所考虑的包围矩形的预定范围内设定用于搜索字符串的搜索区域,故被搜索的只能是所考虑的包围矩形的邻近区域内的字符。当从输入图象抽取标题等时,能够防止把与标题分离的以及不组成标题的字符抽取为标题的分组。这样,被有效地抽取的只能是标题字符。
根据本发明的一个方面,在颜色逐渐变化的情形下,只有当比较相邻象素的颜色信息时,由于相邻象素的颜色相似,这些相似被设定相同的颜色。当跟踪这些相似时,色差累计。这样,可能对不同颜色的象素设定相同的标号。然而,根据本发明,由于能够比较已经设定了标号的图案的颜色信息,故能够对应于累计的色差值执行标号处理。这样,当对应于相邻象素的颜色信息的比较结果对其颜色逐渐变化的区域设定标号时,能够防止对不同颜色的象素设定相同的颜色。
根据本发明的一个方面,对应于由特定颜色表示的区域中相邻象素之间的色差,对标号处理设定阈值。这样,由于输入图象是通过半色调打印方法打印的,故即使输入图象以相同颜色表示,与读取分辨率相关可以作为不同颜色的集合检测出该图象。这种情形下,能够精确地抽取相同颜色的区域。这样,能够防止图案的一部分从输入图象中表示为相同颜色的区域漏掉或丢失。
根据本发明的一个方面,通过半色调打印方法产生的颜色是在计算机上虚拟产生的。无需通过使用实际打印的文档分析通过半色调打印方法颜色的变化,即可区分出通过半色调打印方法颜色的变化。
根据本发明的一个方面,产生了存储颜色的亮度值和对应于打印模型的每一读取分辨率的相邻象素之间色差的色差表。这样,不论从实际打印文档读取数据的装置的分辨率如何,能够易于获得用于确定从实际打印文档读取的颜色是否相同的阈值。
根据本发明的一个方面,对输入图象估计打印模型的读取分辨率。这样,能够使用计算机上虚拟产生的打印模型处理由装置读取的实际打印的文档。使用由打印模型产生的阈值能够对由装置读取的实际的打印文档进行标号处理。
根据本发明的一个方面,估计一种分辨率作为输入图象的打印模型的读取分辨率,该分辨率使记录在色差表中的颜色的亮度值和色差对整个输入图象是最优确认的。这样,对于由装置读取的实际的打印文档,由打印模型产生的最优阈值用于整个输入图象,以便进行标号处理。
根据本发明的一个方面,估计一种分辨率作为输入图象的局部区域的打印模型的读取分辨率,该分辨率使记录在色差表中的颜色的亮度值和色差对输入图象的局部区域是最优确认的。这样,在由装置从实际打印文档读取的输入图象中,对于超过整个输入图象的预定阈值的区域,标号处理能够对具有对该区域最优的阈值的区域进行。于是,能够改进标号处理的精确性。
根据本发明的一个方面,打印模型的读取分辨率是一固定值。这样,能够省略实际打印文档的模型分辨率估计处理。因而,能够以高速执行该处理。
根据本发明的一个方面,能够把标号图象分类为组。这样,能够把通过标号处理抽取的字符区域分类为字符串区域。因而,能够有效地抽取标题。
根据本发明的一个方面,对应于标号图象的包围矩形的颜色信息和几何信息把标号区域分类为相同组。这样,当从输入的彩色图象抽取具有相同颜色的标题区域时,从输入的彩色图象的限制区域抽取了图案。能够从被分类的对象除去与标题区域分离的图案。此外,能够从被处理的对象删除非标题字符的诸如干扰的小图案及诸如背景的大图案。于是,能够改进对标题区域抽取处理的速度。由于标号图案由包围矩形表示,故包含字符等的复杂图案能够以简单的形状表示。这样,能够降低用于图案的存储量。此外,当获得图案的位置关系时,能够简化处理处理。
根据本发明的一个方面,对包含在包围矩形中的图案的代表性颜色进行比较并分类为组。这样,能够把标号的图案作为包围矩形进行比较。当对应于颜色信息图案被分类为组时,不必比较组成图案的每一象素。这样,能够降低被比较的元素数,故处理能够以高速进行。
根据本发明的一个方面,在所考虑的包围矩形的预定范围内出现的另一包围矩形被分类为组。这样,当从输入图象抽取标题区域等时,能够把被分类为组包围矩形的范围限制在适合于标题区域的范围。能够省略对从标题区域伸出的区域的分组处理。于是,处理能够以高速进行。
根据本发明的一个方面,抽取包含在所考虑的包围矩形的预定范围内每一垂直和水平坐标中的包围矩形。这样,能够有效地搜索在所考虑的包围矩形的预定范围内的另一包围矩形。
根据本发明的一个方面,包围矩形的矩形号码按坐标值的顺序存储。按坐标值的升序搜索矩形号码。使具有相等的坐标值的矩形号码与坐标值相关。这样,当为每一坐标值准备用于存储包围矩形的矩形号码的区域时,需要对应于出现在所考虑的包围矩形预定范围的包围矩形的存储量。反之,根据本发明,由于存储了对应于实际包围矩形的坐标值,故能够降低存储量。
根据本发明的一个方面,当两个包围矩形出现在所考虑的包围矩形的预定范围内,且两个包围矩形的代表性颜色的色差小于从色差表获得的色差时,这两个包围矩形被分类为相同组。这样,当从输入图象抽取标题区域等时,能够把要被分类的包围矩形限制在适用于标题区域的范围。当对包围矩形进行比较且使用颜色信息把图案分类为组时,能够考虑实际打印文档的读取操作中颜色的变化。这样,能够以高速执行处理。而且,改进了读取精确性。
根据本发明的一个方面,对应于标号图象的图案粗度标号图象分类为组。这样,由于能够把具有不同粗度的字符分类为不同的组,当从输入图象抽取标题等时,故只能把由具有相同粗度的字符组成的字符串抽取为标题。这样,能够改进标题的抽取精确性。
根据本发明的一个方面,对应于图案的面积和图案的轮廓长度的比率获得图案的粗度。这样,能够精确地获得图案的粗度。
根据本发明的一个方面,不搜索已经作为图案轮廓被搜索过的象素。这样,防止了成为图案轮廓的象素被重新抽取。于是,能够改进轮廓跟踪处理的速度。
根据本发明的一个方面,从包围矩形的分组中删除超过字符尺寸预定范围的包围矩形。这样,即使图形、图片等的图案出现在标题的邻域内,且图形或图片的图案被分类为组成标题的字符的分组,也能够从分组中除去图形或图片的图案。这样,能够改进抽取标题的精确性。
根据本发明的一个方面,对应于包围矩形的配置抽取字符串。这样,能够区分开其包围矩形无规则分布的区域以及其包围矩形规则分布的区域。于是,能够把其包围矩形规则分布的区域作为标题区域对待。这样,被有效抽取的只能是标题区域。
根据本发明的一个方面,不同尺寸的字符被分类为不同的组。于是,当从输入图形抽取标题等时,只把由相同尺寸的字符组成的字符串作为标题对待。这样,能够改进对标题抽取的精确性。
根据本发明的一个方面,能够确定分组中的包围矩形是否配置在一行。配置在一行中的包围矩形能够作为标题区域对待。这样,能够有效地从输入图形抽取标题。
根据本发明的一个方面,对应于分组的图案的代表性颜色计算分组的代表性颜色。这样,对应于标题区域的所有颜色,能够计算标题的颜色。能够减轻标题区域局部区域中色差的影响。于是,能够改进对标题区域的抽取精确性。
根据本发明的一个方面,能够对应于分组的代表性颜色组合分组的相邻的包围矩形。这样,即使由于轻微的色差组成同一标题的字符被分为不同的分组,这些字符也能够被分类到相同的组。于是,能够有效地抽取标题区域。
根据本发明的一个方面,当包围矩形的尺寸差在预定范围且分组中的包围矩形的代表性颜色差在预定范围时,分组的相邻的包围矩形被组合。这样,当分组的包围矩形被组合时,能够被有效地抽取的只是组成同一标题的字符。
根据本发明的一个方面,对应于分组的代表性颜色,在分组的包围矩形范围内重新抽取原始图象的象素。这样,即使组成标题的字符包含浊音符号或半浊音符号,且由于标题区域的局部色差致使浊音符号或半浊音符号从标题的分组中漏掉,能够对浊音符号或半浊音符号的颜色与标题区域的整个颜色进行比较,以便重新抽取浊音符号或半浊音符号。于是,能够改进对标题抽取的精确性。
根据本发明的一个方面,已经被重新抽取的且大于预定阈值的图案的包围矩形被添加到分组中。这样,当从标题区域重新抽取浊音符号或半浊音符号时,即使与标题颜色相同的轻微的干扰出现在标题区域,被删除的只能是干扰。于是,能够改进对标题的抽取精确性。
根据本发明的一个方面,对应于分类为组的包围矩形的区域、其位置、以及其位置的关系,确定分组中图案的输出顺序。这样,即使从输入图象抽取多个标题选择对象,能够估计标题的相似性。于是,可按标题最大性相似性的顺序输出标题选择对象。
根据本发明的一个方面,使用分类为组的包围矩形中的标号图象产生二值图案。能够有效地识别从彩色图象抽取的图案。
虽然对本发明就其优选实施例进行了展示和说明,但本领域技术人员应当明白,在不背离本发明的精神和范围的情形下,可以在其中作出在其形式及细节上以上和其它各种改变、省略、和增加。
权利要求
1.一种彩色图象处理装置,该装置包括用于输入彩色图象并输出彩色图象信号的彩色图象输入装置;用于保持彩色图象信号的保持装置;用于处理彩色图象信号的计算装置;用于设定对应于所考虑的象素的颜色信息的阈值的阈值设定装置;以及用于比较相邻象素的颜色信息并当它们的距离为阈值或更小时为象素设定相同标号的标号装置。
2.如权利要求1所述的一种彩色图象处理装置,还包括用于获得设定了相同标号的象素的平均颜色的平均颜色计算装置;以及用于将与所考虑的象素相邻的象素的颜色和平均颜色进行比较的平均颜色比较装置,其中只有当比较的结果处于预定的范围时,所述标号装置才为象素设定相同的标号。
3.一种彩色图象处理装置,该装置包括用于输入彩色图象并输出彩色图象信号的彩色图象输入装置;用于保持彩色图象信号的保持装置;用于处理彩色图象信号的计算装置;用于缩小彩色图象信号并产生缩小图象的图象缩小装置,其中从缩小的图象获得相同颜色的区域,并且只对应于从缩小图象抽取的颜色从原始图象抽取对应于所获得的区域的区域。
4.如权利要求3所述的一种彩色图象处理装置,还包括标号装置,该装置用于获取缩小图象的标号图象和标号区域的包围矩形、其代表性颜色、每一标号区域中的颜色数、及颜色,获取与之对应的原始图象的矩形,搜索与矩形中的代表性颜色具有类似颜色的象素,并从被搜索的象素开始进行标号处理。
5.如权利要求3所述的一种彩色图象处理装置,还包括标号装置,该装置用于确定缩小图象的区域的所有的颜色和相似性,并且当区域颜色的相似性小于阈值时,为区域设定相同的标号。
6.如权利要求1所述的一种彩色图象处理装置,其中所述阈值设定装置以可变的三种颜色要素阈值的各要素确定区域颜色的相似性,当区域的三种颜色要素的色差距小于可变的阈值时,确定区域的颜色相似性为0,当区域的三种颜色要素的色差距等于或大于该阈值时,确定区域的颜色相似性为大于阈值。
7.一种图案抽取装置,包括对组成彩色图象的第一颜色设定第一阈值的第一阈值设定装置;对组成彩色图象的第二颜色设定第二阈值的第二阈值设定装置;用于设定第一颜色的象素为彩色图象第一考虑的象素的第一考虑的象素设定装置;用于设定第二颜色的象素为彩色图象第二考虑的象素的第二考虑的象素设定装置;用于检测与第一考虑的象素相邻的第一相邻象素的第一相邻象素检测装置;用于检测与第二考虑的象素相邻的第二相邻象素的第二相邻象素检测装置;第一标号装置,用于当第一考虑的象素的颜色与第一相邻的象素的颜色之间的差小于第一阈值时,为第一相邻的象素设定与第一考虑的象素相同的标号;以及第二标号装置,用于当第二考虑的象素的颜色与第二相邻的象素的颜色之间的差小于第二阈值时,为第二相邻的象素设定与第二考虑的象素相同的标号。
8.一种图案抽取装置,包括用于计算输入图象图案的颜色信息的颜色信息计算装置;用于计算图案的几何信息的几何信息计算装置;用于对应于颜色信息和几何信息对图案进行分类的分类装置。
9.一种图案抽取装置,包括用于对应于相邻象素的颜色信息对输入图象的象素进行聚类的聚类装置;以及用于对应于通过所述聚类装置获得的聚类的颜色信息和几何信息,把集群分类为组的分组装置。
10.一种图案抽取装置,用于在按第一分辨率确定区域为相同颜色、而按第二分辨率确定为不同颜色的情形下,从按第二分辨率确定的颜色变化范围内抽取区域作为具有相同颜色的区域。
11.一种图案抽取装置,包括用于对应于输入图象的彩色信息产生标号图象的标号图象产生装置;用于产生标号图象的包围矩形的包围矩形产生装置;用于从由所述包围矩形产生装置产生的包围矩形,抽取具有预定范围尺寸的包围矩形的第一包围矩形抽取装置;用于从所述第一包围矩形抽取装置抽取的包围矩形设定预定范围的搜索区域的搜索区域设定装置;第二包围矩形抽取装置,用于从由所述包围矩形产生装置产生的包围矩形抽取在搜索区域中、或局部配置在搜索区域中的包围矩形;分组装置,用于对应于由所述第一包围矩形抽取装置抽取的包围矩形的区域的颜色信息及由所述第二包围矩形抽取装置抽取的包围矩形的区域的颜色信息,把由所述第一包围矩形抽取装置抽取的包围矩形及由所述第二包围矩形抽取装置抽取的包围矩形分类为组;以及用于对应于由所述分组装置分类的组抽取字符串的字符串抽取装置。
12.一种图案抽取装置,包括用于比较输入图象相邻象素的颜色信息的第一颜色比较装置;用于对由第一颜色信息比较装置比较过的象素的颜色信息与同其相邻的标号图象的颜色信息进行比较的第二颜色信息比较装置;以及用于对应于所述第一颜色信息比较装置的比较结果和所述第二颜色信息比较装置的比较结果为象素设定标号的标号装置。
13.如权利要求12所述的图案抽取装置,其中标号图象的颜色信息是设定了相同标号的象素的颜色信息的平均值。
14.一种图案抽取装置,它包括用于产生对应于包含在输入图象中的图案的包围矩形的包围矩形产生装置;第一包围矩形抽取装置,用于从由所述包围矩形产生装置产生的包围矩形,抽取预定范围尺寸内或预定范围位置处的包围矩形;搜索区域设定装置,用于从所述第一包围矩形抽取装置抽取的包围矩形设定预定区域内一搜索区域;第二包围矩形抽取装置,用于从由所述包围矩形产生装置产生的包围矩形抽取在搜索区域中、或局部配置在搜索区域中的包围矩形;以及图案抽取装置,用于对应于所述包围矩形抽取装置的抽取结果从输入图象抽取特定图案。
15.如权利要求14所述的图案抽取装置,其中所述第二包围矩形抽取装置具有矩形号码存储装置,用于存储对应于由所述包围矩形产生装置产生的包围矩形的垂直和水平坐标的矩形号码;矩形号码抽取装置,用于从由所述第一包围矩形抽取装置抽取的包围矩形,抽取包含在预定区域中的垂直和水平坐标中的矩形号码;以及相邻矩形抽取装置,用于将矩形号码是由所述矩形号码抽取装置抽取的,且包含在包围在其垂直和水平坐标两者中的矩形作为搜索区域中或局部配置在搜索区域中的包围矩形抽出。
16.如权利要求15中所述的图案抽取装置,其中所述矩形号码存储装置按坐标值的顺序存储包围矩形的矩形号码,以及其中所述矩形号码抽取装置按坐标值的升序搜索矩形号码,并抽取具有相等坐标值的矩形号码。
17.一种图案抽取方法,该方法包括以下步骤计算所考虑的彩色图象的象素的颜色信息;以及控制阈值,该阈值用于对应于所述颜色信息确定是否为与所考虑的象素相邻的象素设定与所考虑的象素相同的标号。
18.一种图案抽取方法,包括以下步骤当彩色图象的颜色以颜色要素点的组合表示时,在对应于彩色图象的读取分辨率的相邻象素之间的色差范围内抽取一区域作为相同颜色的区域。
19.一种图案抽取方法,包括以下步骤以基色点的组合组成一彩色图象;以预定的分辨率读取象素图象;对于彩色图象的颜色计算以预定分辨率读取的相邻象素之间的亮度差;以及对应于亮度差抽取输入图象相同颜色的范围。
20.一种图案抽取方法,包括以下步骤当区域被放大时,即使区域看上去具有不同颜色,如果以肉眼观看区域为相同颜色,则把区域作为相同的区域抽取。
21.一种图案抽取方法,包括以下步骤按第二分辨率检测区域中的色差,该色差按第一分辨率确定为相同颜色;设定一阈值,该阈值用于确定对应于按第二分辨率检测的色差区域的颜色是否为相同;以及对应于阈值抽取按第一分辨率确定为相同颜色的区域。
22.一种图案抽取方法,包括以下步骤产生对应于输入图象颜色信息的标号图象;从标号图象抽取预定范围尺寸的第一图案;从第一图案抽取预定范围内的第二图案;对应于第一图案的颜色信息和第二图案的颜色信息把第一图案和第二图案分类为组;以及从分类为组的图案抽取字符串。
23.一种图案抽取方法,包括以下步骤为具有预定范围色差的连接象素设定相同的标号;抽取具有预定范围尺寸的图案,为该图案设定第一标号;从设定了第一标号的图案抽取在预定范围中设定了第二标号的图案;对设定了第一标号的图案颜色与设定了第二标号的图案的颜色进行比较;当设定了第一标号的图案和设定了第二标号的图案之间的色差处于预定范围时,把设定了第一标号的图案和设定了第二标号的图案分类为相同组。
24.一种存储介质,计算机从其读取使计算机执行以下步骤的程序对应于所考虑的彩色图象的象素的颜色信息设定阈值;以及比较相邻象素的颜色信息,并当颜色信息的距离小于阈值时为相邻象素设定相同的标号。
25.一种存储介质,计算机从其读取使计算机执行以下步骤的程序计算输入图象图案的颜色信息;计算图案的几何信息;以及对应于颜色信息和几何信息对图案分类。
26.一种存储介质,计算机从其读取使计算机执行以下步骤的程序按第二分辨率检测区域中的色差,该色差按第一分辨率确定为相同颜色;设定一阈值用于确定对应于按第二分辨率检测的色差区域的颜色是否为相同;以及对应于阈值抽取按第一分辨率确定为相同颜色的区域。
全文摘要
本发明提供了彩色图象处理装置及图案抽取装置。阈值设定单元设定对应于所考虑的象素的颜色信息的阈值。标号单元比较相邻象素的颜色信息,并当象素的颜色信息之间的距离小于由阈值设定单元设定的阈值时,对象素设定相同的标号。
文档编号G06T5/00GK1516073SQ0314123
公开日2004年7月28日 申请日期1999年2月5日 优先权日1998年2月6日
发明者胜山裕 申请人:富士通株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1