半色调点消除方法及其系统的制作方法

文档序号:6482275阅读:291来源:国知局
专利名称:半色调点消除方法及其系统的制作方法
技术领域
本发明涉及用于在字符识别设备等中从半色调点网图象(half-tone dot meshed image)精确地提取字符的半色调点消除方法及其系统。
近来,随着类似扫描仪等输入设备的普及,处理图象的机会增加了,因此,对于字符识别设备(软件)OCR(光学字符识别)的需求正在增加。
下面描述传统的半色调点消除方法。
传统方法1在从含有半色调点网区域的图象中提取字符时,传统上,检测出带有高图案密度的部分并将其指定为半色调点网区域。然而,由于该区域不能被准确地识别,在半色调网状区域中的字符就不能被精确地识别,字符识别不能被应用于该区域,因为半色调点网区域不是字符识别的目标。
传统方法2根据半色调点密度等,尺寸小于一个特定值的图案被从一个已判定的半色调点网区域中检测出来,然后,字符识别被应用于该区域。
依据传统方法1,没有字符识别可以被执行。依据传统方法2,由于检测出尺寸小于一个特定值的图案,如果半色调点的大小不同的话,半色调点不能被消除。如果半色调点相互重叠并且垂直/水平尺寸也分别大于特定值的话,半色调点不能被消除。即使半色调点被消除了,由于字符半色调点对字符的覆盖而造成的字符变形也使精确的字符识别无法进行。因此,根据传统方法,只有在预定的半色调点阈值与目标半色调点匹配并且半色调点对字符的覆盖所造成的字符变形没有影响字符识别时,字符识别才是可能的。否则,字符识别就不可能进行,这就产生了问题。
本发明的半色调点消除方法从半色调点网图象中去除半色调点。该方法包括根据目标区域的黑象素连接图案密度来指定半色调点网区域(网状区域指定步骤)并根据对该半色调网状区域的黑象素连接图案尺寸的统计来去除小于规定尺寸的黑象素连接图案(连接图案消除步骤)。
本发明的半色调点消除系统从半色调点网图象中消除半色调点。该系统包括一个根据目标区域的黑象素连接图案密度来指定半色调点网区域的半色调点网区域指定单元和根据对该半色调点网区域的黑象素连接图案尺寸的统计来去除小于规定尺寸的黑象素连接图案的连接图案消除单元。
依据本发明,一个唯一的图象,如在半色调点网区域中的一个字符,可以通过有效地消除半色调点而被提取出来。因此,如果字符被提取出来,就可以获得更精确的字符识别结果。
可替换地,可以生成在一个判定出的半色调点网区域中所有图案尺寸的直方图,将该直方图的槽底设为阈值,尺寸小于该阈值的图案可以被当作半色调点而去除。
即使垂直/水平图案尺寸很大,如果该图案比另一个字符图案淡或者黑象素不集中而是分散的话,由于与半色调点的重叠,该图案是一个噪音。如果每个图案的(轮廓线长度/黑象素数目)超过一个特定值,则判定这样一个半色调点不是字符图案并将其去除。
然后,由于半色调点在字符上的重叠而造成的投影被消除。从中消除了半色调点的字符图案被从二值化图象转换为灰度图象,并对该灰度图象进行色调渐变(gradation)处理。通过对灰度图象进行色调渐变,细微的投影被吸收。然后,通过再次将分级灰度图象转换为二值化图象,细微的投影被消除。
要被消除的投影的宽度与长度也根据所消除的半色调点尺寸都被估算出来,并且根据估算结果消除该投影。
例如,显示了这样一种情况,一个带有格线图表结构的文件的单元格具有半色调点。任何方法都可以被接受,只要被格线所包围的单元格区域能够被从文件中提取出来。例如,下面描述了一种用于从文件中提取格线并提取四边被格线包围的单元格的方法。


图1显示了一个带有格线图表结构的文件示例。
在图1中,由于图表的“住所”部分被网状的半色调点遮盖,单词(字符)“住所”必须被从该网状部分中提取出来,其中“住所”是一个日文汉字,表示“地址”的意思。注意,在日文汉字单词中“住”的意思是居住,而“所”的意思是地点,并且它们都是一个日文汉字字符,组合在一起的意思是“地址”。此后,在本发明的描述中,这两个日文汉字的出现及其图形应当被认为是代表一个图象的示例。在这种情况下,一个包含“住所”的单元格被设定为一个处理单元。虽然,在本例中,带有图表结构的文件的单元格被指定为一个处理单元,在非图表结构的文件中,任意处理单元可以被确定而该文件可以在这些单元中被处理。
输入图象一个输入图象是一个不带剧烈倾斜角(steep inclination)的二值化图象。设置“不带剧烈倾斜角”这个条件是为了使图表可以容易地被检测出来,并且使单元格可以被容易地指定,它与本优选实施例的主要处理没有直接的关系。因此,一般来说,一个简单二值化图象可以被输入。
连接图案提取一个连接图案提取单元通过进行标记提取一个八连接(eight-connection)图案,从而使得每个图案可以被稳定地提取而不考虑多帧位置之间的相关关系(见日本专利申请号7-203259)。
掩盖(mask)处理掩盖(mask)处理从图象中消除剧烈倾斜角并将垂直/水平因子转换为细线,以便可以容易地提取出只位于帧中的长直线。为了准确地提取直线因子候选对象,一个等于100dpi的低分辨率图象被应用到该处理中(见日本专利申请号7-203259)。
图块(segment)提取这是一种用于将经掩盖的图象的环绕行或列投影值与相邻投影值(特定行或列的投影值)相加并将相加值指定为一个新投影值的方法。以这种方法,能够比例正确地看到环绕物。(见日本专利申请号5-103257)。在垂直/水平方向上的一条直线或者直线的一部分被近似为矩形并检测出来。相同的处理被应用于垂直与水平两个方向。掩盖处理所获得的图象被应用于该处理。
直线提取通过将图块提取单元提取并被近似为矩形的所有图块的相邻图块联合起来可以检测出一条长直线。所检测出的长直线也被近似为矩形(见日本专利申请号7-203259)。
单元格提取使用在上述处理中所选择的格线候选对象来提取单元格。任何提取单元格的方法都可以被接受,其中单元格是四边被直线所环绕的一个区域(见日本专利申请号7-203259)。
半色调点消除/由于半色调点的重叠造成的字符投影的消除这是本优选实施例的主要处理过程。首先,在提取单元格之后,对每个单元格执行半色调点网区域的判定、半色调点的消除以及由于半色调点重叠字符投影的消除。在这种情况下,提取一个四连接(four-connection)图案,并且计算每个点阵图案的尺寸与这种点阵图案的数目。这是因为即使每个都属于不同点阵图案的半色调点相互倾斜重叠,也可以识别出每个半色调点属于不同图案,并且不会识别出半色调点属于相同点阵图案。
在提取单元格之后,判断每个单元格是否包括半色调点网区域。如果图案数目的密度达到或者超出一个特定值,其中图案的尺寸小于在单元格中的一个特定值,则判定该单元格包括半色调点网区域。如果图案密度低于特定值,则判定该单元格只包含字符图案。图案密度被计算为(图案数目/单元格面积)。
如果判定单元格包括半色调点的话,半色调点被消除。
首先,包含在单元格中的图案的垂直/水平尺寸各自的平均值与标准偏差都被计算出来。由于半色调点网区域中的点阵图案数目与字符图案数目相比非常庞大,各自的平均值与标准偏差值受点阵图案尺寸与尺寸的离散度的影响。如果标准偏差很小,则判定点阵图案尺寸的离散度较小,该尺寸几乎为常量并且每个半色调点的尺寸与平均值偏差很小,将一个很小值与平均值相加而得的一个值被用作阈值,以从点阵图案中分辨出字符图案。如果标准偏差很大,则判定点阵图案尺寸的离散度很大,并且半色调点大小有时会与平均值偏离很远,将一个很大值与平均值相加而得的一个值被用作阈值。在这种情况下,阈值可以被表示为阈值=平均值+标准偏差*α。
在上述等式中,α被假设为一个常量。尺寸小于所得阈值的图案被作为半色调点图案而去除。
可替换地,可以生成在判定的半色调点网区域中所有图案尺寸的直方图,直方图的槽底可以被设为阈值,而尺寸小于该阈值的图案可以被作为半色调点图案而去除。该阈值可以根据直方图,通过与Otsu的灰度图象二值化的二值化法相同的处理来计算。
对于Otsu二值化法,见以下文献。
N.Otsu,“A threshold Selection Method from Grey levelHistograms”,IEEE Trans.Systems,Man,以及Cybernetics,Vol.9,No.1,PP.62-66,1979。
即使图案的垂直/水平尺寸很大,点阵图案也可以被消除,如果该图案与另一个字符图案相比很淡,或者如果黑象素没有集中在一起而是分散的,这是因为点阵图案是由于半色调点的重叠而造成的噪音。如果每个图案的(轮廓线长度/黑象素数目)超出一个特定值的话,判定这样的半色调点不是字符图案并将其去除。如果(轮廓线长度/黑象素数目)很大,图案宽度就会变窄。如果该值很小,则图案宽度会变宽。
图2显示了图案尺寸与轮廓线长度之间的不同。
左边的图案与右边的图案是由相同数目的黑象素组成的(左边的图案与右边的图案具有相同的尺寸)。然而,由于在左图中黑象素集中在一起,左图的轮廓线就比右图的短。由于字符图案的图案宽度与半色调点图案相比是相当宽的,(轮廓线长度/黑象素数目)就变得很大,就可以从半色调点图案中辨别出字符图案。替代轮廓线长度,图案的外切矩形的边长也可以被使用。非半色调点的噪音也可以被消除。
上述的半色调点消除方法不能消除与字符重叠的半色调点,由于半色调点的重叠而造成的投影会使字符图案变形。如果字符识别被应用到这种带有投影的图象上,而没有进行任何处理,则识别率会由于字符变形而降低。因此,这种投影要被去除并且字符图案要被整形。
字符投影与字符图案的原始形状相比会比较小。因此,可以通过将图象色调渐变到投影造成的变形可以被吸收的程度来消除投影。首先,目标区域被从二值化图象转换为灰度图象,并使用退化滤波器(degradation filter)对图象进行退化处理,例如高斯滤波器等。然后,通过将图象再次二值化,就可以获得一个不带投影的图案。
字符投影的宽度与长度也依据所消除的半色调点尺寸来估算,并且所有估算尺寸的投影都被消除。
图3显示了高斯滤波器的操作概要。
如果在图3中左图上显示了黑象素图案,高斯滤波器取包含在图案中的每个相邻象素的平均密度,并将该值指定为关联象素的值。由于在图案周围的象素值是图案黑象素值与空白纸象素值的平均值,该值变小而颜色变成比黑色更浅的灰色。通过重复这样一种处理,可以获得这样的图象,其中的图案内部为黑色而周围是退化(变浅)的灰色。
通过对要被提取的字符应用这样一种处理,附着在字符周围的每个投影的形状与颜色被退化。因此,如果该字符被再次二值化,投影的影响可以被减轻。换句话说,作为二值化的结果,可以获得一个清晰的字符。
字符识别最后,如果要求的话,字符识别被应用于对每个单元格消除半色调点和半色调点重叠造成的字符投影之后所获得的图象上。对于本优选实施例来说,字符识别并非总是必不可少的。这是因为如果当没有进行字符识别就消除了半色调点并且提取出了清晰的字符时,数据被储存为字符数据的话,例如,清晰字符可以在字符被打印时获得。
图4显示了在本优选实施例与现在技术之间半色调点消除能力的差别。
图4A显示了一个原始图象,其中一个日文汉字字符“住”被半色调点所遮盖。图4B显示了采用消除尺寸小于一个特定值的半色调点的方法的现有技术消除半色调点之后所获得的图象。从图4B可以清楚地看出,半色调点并没有被充分地消除,并且不能期望在对字符采用字符识别时可以得到充分的结果。然而,依据上述优选实施例,字符“住”周围的半色调点被完全消除并且可以期望在对字符采用字符识别时得到充分的结果。
图5是一个流程图,显示了本优选实施例的处理流程。
首先,在步骤S1中,输入一个图象。在步骤S2中,从输入的图象中提取一个连接图案。然后,在步骤S3中,对图象应用一个掩盖处理。在步骤S4中,提取一个图块。在步骤S5中,提取一条直线。在步骤S6中,提取一个单元格。然后,在步骤S7中,选择一个目标单元格。如果判定没有处理目标单元格,则处理终止。
如果确定了一个处理目标单元格,则在步骤S8中,提取一个单元格内部连接图案(inter-cell connection pattern)。在本例中,提取四连接图案。然后,在步骤S9中,判断在连接图案中的(尺寸小于一个特定值的图案数目/单元格面积)是否超过了一个特定阈值。如果判断为“No”,则流程返回到步骤S7。如果在步骤S9中的判断为“yes”,则判定该单元格是一个半色调点网单元格,流程进行到步骤S10。
在步骤S10中,计算连接图案的垂直/水平尺寸各自的平均值与标准偏差。在步骤S11中,尺寸小于(平均值+标准偏差*α(α为常量))的图案被去除。在步骤S10中,可替换地,生成的所有图案尺寸直方图的槽底可以被设为阈值,尺寸小于该阈值的图案被去除。
然后,在步骤S12中,在尺寸小于特定值的连接图案中轮廓线长度/黑象素数目都超过特定值的图案被去除。通过步骤S11和12的处理,大量半色调点去除了。在步骤S13中,把被消除的半色调点尺寸作为投影尺寸的投影被去除。投影被以这种方式从字符图案中去除。然而,在步骤S13中,可替代地,可以通过退化处理与重二值化处理来消除投影。
然后,在步骤S14中,字符识别被应用于图象。在步骤S15中,后续的单元格被选中。如果还有未处理的单元格,程序返回到步骤S7。如果所有单元格都已被处理过了,处理终止。
如前所述,步骤S14中的字符识别处理在本优选实施例中并非必不可少。
图6显示了依据本优选实施例的半色调点消除方法对半色调点的消除。
计算原始图象的图案尺寸的平均值(在x和y轴向上的平均尺寸分别为sizex_ave和sizey_ave,其中x和y轴被正确地定义)与标准偏差(在x和y轴向上的标准偏差分别为hx和hy)。然后,根据平均值与标准偏差来计算阈值(在x和y轴向上的阈值分别为thx=sizex_ave+hx与thy=sizey_ave+hy)。如果每个图案的垂直/水平长度小于阈值(sizex<thx与sizey<thy),图案被判定为半色调点图案并被去除。图6中所显示的半色调点消除1显示了在此处理之后的一个图象。
然后,消除所有未被消除的图案中(轮廓线长度/黑象素数目)超过特定值的图案。图6中所示的半色调点消除2显示了在此处理之后的图象。最后,通过根据已消除的半色调点尺寸估算投影尺寸(或者通过退化处理)来去除投影。图6中所示的投影消除显示了在此处理之后的图象。
如从图6中所看到的,通过完整地执行依据本优选实施例的半色调点消除,大部分半色调点可以被去除,而且适用于字符识别的字符可以被提取出来。
图7显示了一台计算机的硬件环境,它执行使该计算机能够实施本优选实施例的程序。
CPU10与总线61相连。CPU10从ROM11或者RAM12中读取程序并执行该程序。该程序通常被储存在便携存储介质19或者存储设备17中,便携存储介质可以是软盘、CD-ROM、DVE等,存储设备可以是硬盘等。程序可以被由一个读取设备18从便携存储介质19或者存储设备17中读取出来,被储存在RAM12中,并被CPU10执行。
使用一个输入/输出设备20通过总线16向CPU10传达用户的指令并向用户表现CPU10的操作结果。设备20包括显示器、键盘、鼠标、模板等。
通信接口13通过网络14访问信息提供商的数据库,并下载程序,以使CPU10能够执行该程序。或者,CPU10可以在与信息提供商15连接时在网络环境中执行该程序。
如上所述,依据本发明的优选实施例,一种从单色二值化图象中消除半色调点图案的方法通过图案密度提取半色调点网区域,计算每个图案的垂直/水平尺寸作为消除小图案的手段,并删除尺寸小于阈值的图案。因此,即使半色调点尺寸根据图象而不同,半色调点也可以被精确地去除掉。
当被用作去除半色调点图案手段的每个图案的(轮廓线长度/黑象素数目)超过一个特定值时,判定该图案不是字符图案并将该图案去除。通过使用图案的外切矩形尺寸来代替轮廓线长度,即使半色调点相互重叠而外切矩形变得很大,也能够消除图案。在这种情况下,与字符图案相比较淡的噪音图案也可以被消除。
当生成已判定的半色调点网区域中所有图案尺寸的直方图作为消除半色调点图案的手段时,该直方图的槽底被设为阈值,尺寸小于该阈值的图案会被去除。在这种情况下,即使半色调点尺寸因图象而异,半色调点也能够被精确地去除掉。
当单色二值化图象被转换为灰度图象时,使用退化滤波器对字符图案进行退化处理,通过再次将退化的图案二值化可以去除在字符上由于半色调点重叠而造成的字符投影,对字符识别造成的不良影响可以被减轻,并从而提高识别的准确率。
当根据所去除的半色调点尺寸估算出投影尺寸,并根据所估算的宽度与长度从图案中去除由于半色调点在字符上的重叠而造成的字符投影时,对字符识别的不良影响可以被减轻,从而提高字符识别的准确率。
依据本发明,半色调点可以被有效地去除,并且可以有效地提取出适于字符识别的字符。
权利要求
1.一种半色调点消除方法,用于从被半色调点网图象中消除半色调点,该方法包括根据一个目标处理区域的黑象素连接图案密度来确定一个半色调点网区域;以及根据包含在该半色调点网区域中的黑象素连接图案尺寸的统计来消除尺寸小于一个特定值的一个连接图案。
2.依据权利要求1的半色调点消除方法,还包括消除包含在半色调点网区域中的所有连接图案中“轮廓线长度/包含在连接图案中的黑象素数目”超过一个预定值的连接图案。
3.依据权利要求2的半色调点消除方法,其中连接图案外切矩形的边长被用于轮廓线长度。
4.依据权利要求1的半色调点消除方法,还包括消除附着于除包含在半色调点网区域中的半色调点之外的图象上的投影。
5.依据权利要求4的半色调点消除方法,其中所述投影消除步骤消除尺寸小于所述连接图案消除步骤中消除的连接图案尺寸的投影。
6.依据权利要求4的半色调点消除方法,其中所述投影消除步骤将二值化图象转换为灰度图象,对半色调点网区域采用退化处理并在退化处理之后将该图象再次二值化。
7.依据权利要求1的半色调点消除方法,其中所述连接图案消除步骤使用根据连接图案尺寸的平均值与标准偏差确定的阈值进行处理。
8.依据权利要求1的半色调点消除方法,其中所述连接图案消除步骤使用连接图案尺寸直方图的槽底作为阈值来进行处理。
9.一种半色调点消除系统,用于从半色调点网图象中消除半色调点,该系统包括网状区域确定单元,它根据目标处理区域的黑象素连接图案密度来确定一个半色调点网区域;以及连接图案消除单元,它根据对包含在该半色调点网区域中的黑象素连接图案尺寸的统计来消除尺寸小于一个特定值的连接图案。
10.一种用于使计算机能够实施从半色调点网区域中消除半色调点的半色调点消除方法的程序,该程序包括根据目标处理区域的黑象素连接图案密度来确定一个半色调点网区域;以及根据对包含在该半色调点网区域中的黑象素连接图案尺寸的统计来消除尺寸小于一个特定值的连接图案。
全文摘要
在一个包括半色调点网遮盖字符的原始图案被输入并且对该原始图象使用了预定处理之后,黑象素连接图案被从目标处理区域中提取出来。如果所提取的图案的密度超出预定密度,则判定该图案是被半色调点网遮盖的,并且计算连接图案的垂直/水平尺寸各自的平均值和标准偏差。然后,根据各自的平均值和标准偏差来计算各自的阈值,并且半色调点图案被消除。进而,在剩余的所有连接图案中与所包含的黑象素相比轮廓线较长的图案被当作不必要的图案而消除。最后,附着于字符上的投影被删除,字符提取就结束了。
文档编号G06K9/34GK1403937SQ0210580
公开日2003年3月19日 申请日期2002年4月10日 优先权日2001年8月23日
发明者小原敦子, 藤本克仁, 直井聪 申请人:富士通株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1