单据处理方法和装置的制作方法

文档序号:6561407阅读:331来源:国知局
专利名称:单据处理方法和装置的制作方法
技术领域
本发明涉及一种单据处理方法和装置,用于以电子方式自动处理表单之类的单据。
背景技术
作为金融机构中表单处理操作电子化的一部分,实现图章印记核对自动化的要求与日俱增。例如,一种以电子方式将与帐户对应的套合图章印记和在不同借据单上的图章印记进行核对/确认的技术,可以大大减轻业务操作中的劳动量,并提高处理速度。
所谓的图章印记核对技术就是一种以电子方式核对两个图章印记的技术。二个图章印记都用光电方式转换为数字图象,其中,一个是套合的图章印记,一个是实际的表单。当二个图章印记的像素数据彼此重叠时,该技术根据所获得的重合率来确定重合情况。
实际上,套合的图章印记和实际表单图章印记制作角度并不总是相同。因此,考虑到图章角度之间的区别,在旋转印记时必须进行核对。而且,手工盖章操作是不准确的。因此,即便盖章位置固定,图章印记也可能与正确位置略有不同,或者在颜色深浅上有差异。考虑到上述因素,所以要进行核对确认。
如上所述,由于核对技术包括复杂的处理过程,在核对中,核对装置必须能准确知道图章印记在实际表单上的位置;否则,准确度会变差,或者需要很长的处理时间来搜索图章印记。
若要有效地执行图章印记自动核对,就要从通过光电转换读取的表单图象上确定图章印记的位置,这一点很重要。常规核对技术的前提是,图章盖在表单上一个预定的框架内。在此框架内对像素进行扫描,并且确定被当成图章印记的像素块,从而计算出图章印记的位置。还有一种情况,表单本身的设计采用漏色方式,在进行光电转换时,得到的图象上只出现用来核对的图章印记,因而简化了计算图章印记位置的工作。
实际上,所使用的表单并不局限于金融机构中的表单,也不能指望总是以漏色方式书写数据。当需要处理具有未知形状的表单时,图章印记的位置根本无法预测。这就使得搜索图章印记的整个图象并将其提取出来成为必要。
此外,由于图章是手工加盖,在实际表单上盖章的位置通常是不确定的。例如,图章印记可能突出到预定框架以外,或者如果第一次没盖好,会在框架之外的位置再盖一次。既使是在这样的图章印记状态下,只要能用眼睛核对,就必须把这个图章印记作为一个有效的图章印记来处理。在这种情况下,除非是漏色表单,否则,表单中线条和字符与图章印记彼此交织在一起,导致搜索图章印记很困难。
技术方案本发明考虑到上述问题,其目的在于有效确定图章印记的位置,并改进图章印记自动核对的可实现性。
从下面结合附图进行的描述中,可以明显看出本发明的其他特征和优点。图中相同的附图标记在所有图中代表相同或相似的部件。


附图包含在说明书中并构成说明书的一部分,图解说明了本发明的实施例。附图与说明书一起,解释了本发明的原理。
图1是一张透视图,根据第一实施例,示意性说明了图章印记核对装置;图2是一张框图,根据第一实施例,表明图章印记核对装置的功能安排;图3是一个流程图,根据第一实施例,解释了图章印记核对处理的过程;图4是一个流程图,根据第一实施例,解释了分块处理过程;图5是一个流程图,根据第一实施例,解释了图章印记元素提取过程;图6A和6B是解释分块处理过程的视图;图7A和7B是表明执行表单分块处理过程后所获得的结果示例;图8A是显示8个连续的黑色像素区域示例的视图;图8B是显示4个连续的白色像素区域示例的视图;图9A、9B和9C这组视图分别显示一组4个连续的内部白色像素区域的示例;图10是显示由分块所获得的各元素构成的树状结构的示例的视图;图11是显示分块所获得的一个元素的信息的示例的视图;图12是一个示例的视图,显示一个框架内白色区域中的黑色像素如何被强制裁掉;以及图13是一个解释弧与半径关系的视图。
图1根据一个实施例,示意性地说明了一个图章印记核对装置。附图标记101代表根据本实施例用于执行表单分类程序的计算机。计算机101包括用来向用户显示处理状态、表单图象等的显示单元102,以及用来接受用户所执行操作的诸如键盘或鼠标的输入接口103。附图标记104代表扫描仪,以光学方式读取纸上表单,进行数字化处理,然后将最终的图象数据发送到计算机101。注意,在本实施例中,用扫描仪104读取表单。当然,也可以使用数字相机或类似装置将表单数字化成图象数据。
图2是一张说明本发明第一实施例的框图。
附图标记201代表输入单元,用于从扫描仪输入图象数据形式的表单数据;202代表分块单元,用于将图象数据转换为元素数据,如字符、非字符、框架和行线数据;203代表图章印记选择单元,用于有选择地从元素数据中提取类似图章印记的数据;204代表一个中央计算单元,用来计算所选图章印记数据的中心坐标;205代表一个图章印记核对单元,用来根据图章印记的图象和中心位置执行图章印记的核对。
根据具有上述功能安排的本实施例,下面对图章印记装置使用进行说明。
图3是一个流程图,解释了本实施例中图章印记核对处理中的大致过程。在步骤S301中,带有图章印记的表单图象由扫描仪转换为数字图象数据。在本实施例中,使用二进制图象执行分块处理,然后在多层图象而不是二进制图象上执行图章印记核对。因此,所输入的表单图象被存储为多层图象,然后从该多层图象生成一个二进制图象。
在步骤S302中,表单上的二进制图象要进行分块处理。通过分块处理,图象的相应元素被提取为元素数据。此处,分块处理是一种从纸上表单扫描所得到的图象中提取字符和符号位置的技术,如图6A和6B所示。更具体地讲,从二进制的目标图象提取8个连续黑色像素区域的集合,从黑色像素集合提取4个连续白色像素区域的集合,从而根据提取结果将目标数据分块为单据的元素特征,例如,字符(文本)、图案/图、表格、框架和行线。例如,在美国专利5,680,478“字符识别的方法和装置”(Shin-Ywan Wang etaI./Canon K.K)中公开了这种技术。
在本实施例中,分块处理在确定为框架(表格)的区域内的每个字段(列)中,以递归的方式进行,最终确定每个框架中存在的字符元素、非字符元素等。图7A和7B表明了执行表单分块处理后所获得的结果。分块处理的详细内容将在后面描述。
在步骤S303中,将可以作为图章印记或图章印记一部分的元素从分块处理所获得的元素数据中选择/提取出来,然后通过所选择/提取的元素来估计图章印记的中心位置和半径。有关该处理过程的详细内容将在下文描述。
在步骤S304中,根据在步骤S303中获得的中心位置和半径(R),从实际输入表单上的多层图象获得图章印记部分,并与套合图章印记的图章印记图象进行核对。注意,只有圆形的图象会从图章印记部分提取出来,用于和套合图章印记图象核对,或者只有包含图章印记部分的矩形图象会提取出来,用于和套合的图章印记图象核对。例如,如果一个方形图象区域的边长为2R,所求得的中心位置与该矩形的中心重合,则进行提取,并使用所提取的图象和套合图章印记图象进行图章印记核对。注意,有一种现有技术可以用于这种核对过程,因而此处不再赘述。
下面将详细说明要在步骤S302中执行的分块处理过程。图4是一个流程图,说明了本实施例中的分块处理过程。
在步骤S401中,从图象中提取了8个连续黑色像素区域的所有集合。8个连续黑色像素区域的一个集合是在垂直、水平和倾斜方向彼此接触的黑色像素的集合,如图8A所示。这种区域在下文中将称为黑色区域,这是组成图象的最小元素。包括此黑色区域的最小矩形在下文中将简称为黑色区域矩形(用图8A中的虚线矩形表示)。
在步骤S402中,如果黑色区域矩形中的黑色区域所具有的高度和宽度小于所预测的最大字符高度和宽度上限值时,该区域被确定为一个“字符”。在步骤S403中,如果黑色区域矩形中的黑色区域,其横向或纵向的高度宽度比等于或大于预定的比值,或表现出一种具有预定粗细的斜线的形状,则被确定为一条“线”。在步骤S404中,将检查黑色区域矩形是否等于或大于预定的大小。如果在步骤S404中的检查结果是“是”,则前进至步骤S405。如果在步骤S404中的检查结果是“否”,则确定出黑色区域是“非字符”。注意,“非字符”被看成是一个包含图案、照片、图章印记或其组成部分等的集合。
在步骤S405中,在一个矩形黑色区域中存在有4个连续白色像素区域的集合(将4个连续像素区域的概念应用到白色像素的原因在于,如果像黑色像素那样,将8个连续像素区域应用到白色像素,则在斜线部分,白色像素块就会从黑色像素块突出来)。如图8B所示,4个连续白色像素区域是只在水平和垂直方向彼此接触的白色像素集合。如图8A所示,8个连续黑色像素区域集合被提取为一个区域。与此相比,如图8B所示,4个连续白色像素区域的集合被提取为两个区域。这种区域在下文中称为白色区域,包含此白色区域的最小矩形在下文中将称为白色区域矩形(用图8B中的虚线矩形表示)。
如果在步骤S406中确定从黑色区域矩形提取的一个或多个白色区域矩形在填充黑色区域时没有重叠,此黑色区域被确定为“框架”。如果步骤S406的执行结果是“否”,则该区域被确定为“非字符”区域。例如,在图9A和9B所示的情况中,由于提取白色区域时没有重叠,则该区域被确定为框架。在图9C所示的情况中,由于提取了重叠的白色区域矩形,该区域被确定为非字符区域。
在步骤S407,从每个矩形范围中“框架”内的每个白色区域矩形提取8个连续黑色像素区域。在步骤S408,具有等于或大于预定大小的黑色像素块如果与“框架”内白色区域矩形之间的边界接触,则沿着要提取为黑色区域的边界强行裁掉。图12所示为一个示例,说明如何将黑色像素块强行从框架内的白色区域矩形裁掉。也就是说,在步骤S407,一个单元中的字符或图章印记的黑色像素块从表格框架中与各单元相对应的白色区域矩形提取出来。在步骤S408中,未在步骤S407提取,且与单元边界接触的黑色像素块被强行提取,因而将白色区域矩形中的黑色像素块提取为黑色区域。在步骤S408中,如图12所示,如果有一个黑色像素块,等于或大于预定大小,且位于表格中的一个框架区域,并与内框架相接触。则该黑色像素块将强制提取为一个黑色区域。也就是说,通过从黑色区域中构成有意义的块或内框架的像素集合中,收集与相应白色区域相切的矩形中存在的黑色像素,来生成黑色区域。
针对在步骤S407和步骤S408中提取的黑色区域集合,通过步骤S402以及后续步骤的处理过程将重复进行。此过程在这种递归搜索停止时结束。
在上述处理过程中,当分块终止时,从黑色和白色区域生成一个类似图10所示的元素的树状结构。每个元素都具有一种属性,限制矩形的左上坐标和右下坐标,以及构成元素的像素块的轮廓信息。在这些数据当中,轮廓信息是一个列表集合,列出了在每个Y坐标上对元素水平切割时,连续黑色像素的起点和终点。图11所示为一个元素所具有的信息的示例。
可以作为图章印记或图章印记一部分的元素是从元素数据中选择的,所述元素数据通过在如上所述的步骤S303中执行分块处理获得,图章印记的中心位置和半径可以估计得出。下面将详细描述该处理过程。
图5是一个流程图,根据本实施例,解释了图章印记元素提取过程(图3中的步骤S303)。在步骤S501中,根据预定上限值,确定图10中所示树结构的一个元素大小是否与图章印记或图章印记的一部分对应。如果步骤S501的执行结果是“是”,则前进至步骤S502。在步骤S502中,得到一个点序列,连接相应Y坐标上最左端的X坐标点。在步骤S503中,检查此点序列是否是一个坐标值逐渐变化的弧形。
在这一确定过程中,要检查对点序列X坐标偏移求微分所获得的值是否单调增加,以及点序列长度是否等于或大于预定值。如果在步骤S503中确定点序列是一个弧,则前进至步骤S504。
在本实施例中,执行步骤S504的过程是,从元素轮廓信息获得由相应Y坐标上最左端的X坐标组成的点序列,然后找出包括图章印记左半部一部分的弧。此外,还可以从元素轮廓信息获得由相应Y坐标上最右端的X坐标组成的点序列,检查对步骤S504中X坐标的偏移求微分所获得的值是否单调下降,点序列长度是否等于或大于预定值,从而找出包括图章印记右半部一部分的弧。在本实施例中,找出的是包括图章印记左半部一部分的弧。但是,也可以找出包括图章印记右半部一部分的弧,或者找出同时包含左半部和右半部一部分的弧。在本实施例中,通过检查对点序列的X坐标偏移求微分所获得的值是否单调增加(或单调减少),可以确定给定的点序列是否为“在一个方向上逐渐弯曲的曲线”。因此,可以把这种点序列当作一个弧。但是,本发明不限于这种确定方法,只要能确定出一条弧线,任何方法都可以使用。
在步骤S504中,假定由点序列代表的弧线是圆的一部分,弧的半径和中心位置可以计算得出。图13说明了弧的半径和中心位置的计算方法。如果设置X-Y坐标系时,把图13中的弧AB的切线作为Y轴,切点作为原点,则与Y轴相切的圆的公式为(x-r)2+y2=r2因此,由下面的公式可以求出弧AB的半径RR=(X2+Y2)/2X此外,中心位置在X轴上,因而可以很容易地从半径计算得出。在本实施例中,将所提取的弧AB的中间点设为切点(原点),进行坐标变换,将与直线AB平行并且穿过切点的直线设为Y轴。然后使用上面的公式计算圆的半径和中心位置。(注意,由于在使用上述公式时进行了坐标变换,可以进行反向坐标变换,然后求得原坐标系中圆的半径和中心位置。)注意,此切点(原点)可以设在弧线上的任何位置,先进行坐标变换,使得过切点的一条切线作为Y轴,然后使用上述公式求得半径和中心位置。
本发明不局限于使用上述公式,只要能通过所提取的弧求得圆的半径和中心位置,任何其他数学公式都可以使用。
在步骤S505中,检查在步骤S504中计算出的半径是否在预定长度(大小)范围内。如果步骤S505的执行结果为“是”,则估计出此元素是具有上述半径和中心位置的图章印记。
假设在计算半径和中心时,从多个元素计算得出的半径和中心是相同的(在预定的误差范围内)。这时,通过求所有半径和所有中心位置的平均值得出估计的图章印记的半径和中心位置。假定从单个元素左轮廓、上轮廓和下轮廓找出了不同的弧段,可以求得这些弧段的半径和中心位置。这时,可以求出所有半径和所有中心位置的平均值,得到从元素估计出的图章印记的半径和中心位置。
如上所述,根据本实施例,对于其位置在表单二进制图象上未知的候选图章印记的像素块,首先通过分块提取为独立的元素数据,然后再提取满足给定条件的的元素数据,进而只从整个图象有效地提取出图章印记。由于跨框架的图章印记通过步骤S408提取为一个元素,特别一提的是,即使一个图章印记从表格框架里突出来,或者盖章时跨过了格线,也能被有效地提取出来。
因此,根据本实施例,通过在图章印记核对的图章印记位置提取过程中使用分块技术,即使图章印记所在位置未知,或者跨越了表格框架或格线,也能有效地进行提取。
<其他实施例>
在上述实施例中,要对通过分块提取出来的所有元素进行检查,判断是否可能为图章印记。但是,如果提取了表格之类的框架区域,则可以只对框架区域中的元素进行检查,判断是否可能为图章印记。如果,例如,在某种表格中保证有图章印记,即使表单的格式未知,也可以通过执行上述过程有效地提取图章印记。
同样在这种情况下,即使图章印记所在位置未知,或者图章印记跨出表格框架或格线,也可以在图章印记核对的图章印记位置提取过程中,使用分块技术有效地进行提取。
在上述实施例中,使用所提取的图章印记执行图章印记核对过程。当然,所提取的图章印记也可以用于套合图章印记。例如,通过执行所读取表单的字符识别处理过程可以获得数据,对应这些数据可以套合/存储所提取的图章印记。
在上述实施例中提取的是圆形的图章印记。但是,也可以提取椭圆形的图章印记。这时,从分块所提取的元素中选择具有弓形轮廓的元素,从弧线的形状判断椭圆区域。这时,步骤S504中使用的数学表达式可以以由椭圆公式推导的数学表达式所取代。如果要提取的椭圆图章印记类似于圆形,则可以使用上述实施例中基于圆的公式的数学表达式简便地求取椭圆的半径和中心位置,近似提取包含该椭圆图章印记的区域。
本发明可以适用于由多种装置(例如,主机、接口设备、阅读器、打印机等)组成的系统,也可以适用于包括单个设备(例如,复印机、传真机等)的装置。
甚至通过为系统或装置提供一种存储介质,存储能实现上述实施例的各功能的软件程序代码,并引发系统或装置的计算机(或CPU或MPU)读取并执行存储在存储介质中的程序代码,也可以实现本发明的目的。这时,从存储介质读出的程序代码本身就可以实现上述实施例的各种功能,而存储程序代码的存储介质则构成本发明。上述实施例的各种功能不仅可以在计算机执行所读出的程序代码时实现,也可以在计算机上所运行的操作系统根据程序代码的指令执行部分或全部实际处理过程时实现。
上述实施例的各种功能也可以下列情况下实现,即,从存储介质读出的程序写进插入到计算机的功能扩充卡或连接到计算机的功能扩充装置的存储器时,并且功能扩充卡或功能扩充装置的CPU根据程序代码的指令执行部分或全部实际处理过程时。
如上所述,根据本发明,可以有效确定图章印记的位置。此外,自动图章印记核对和图章印记套合的可实现性提高了。
由于本发明有众多不同的实施例没有背离本发明的核心思想和范围,可以理解本发明除所附的权利要求外,并不限于特定的实施例。
权利要求
1.一种单据处理装置,包括;元素图案采集装置,用于从分块处理过程所获得的处理目标图象数据采集元素图案;选择装置,用于从所述采集装置获得的元素图案中有选择地提取一个被确定为至少代表图章印记一部分的元素图案;计算装置,用于根据所述选择装置选择的元素图案计算预定图案的中心位置;以及预定图案采集装置,用于根据所述计算装置计算出的中心位置获得预定图案的图象数据。
2.根据权利要求1的单据处理装置,还包括如下装置,用于以光学方式读取单据图象,根据所获得的经光电转换的信号获取处理目标图象数据,以及给所述元素图案采集装置提供图象数据。
3.根据权利要求1的单据处理装置,还包括核对装置,用于将由所述预定图案采集装置获取的预定图案与套合的预定图案进行核对。
4.根据权利要求1的单据处理装置,其中预定图案是一个图章印记。
5.根据权利要求1的单据处理装置,其中,所述选择装置从由所述元素图案采集装置获取并落在预定大小范围内的元素图案中提取元素图案,然后从所提取的具有弓形图案的元素图案中选择一个元素图案。
6.根据权利要求5的单据处理装置,其中所述计算装置根据弓形图案的一部分计算中心位置。
7.根据权利要求5的单据处理装置,其中,所述计算装置根据弓形图案的一部分计算出半径和中心位置,并且所述预定图案采集装置根据计算出的半径和中心位置获取预定图案的图象数据。
8.根据权利要求4的单据处理装置,其中所述选择装置从被分块处理过程当作表格的区域内的元素图案中有选择地提取一个被确定为至少代表图章印记一部分的元素图案。
9.根据权利要求1的单据处理装置,还包括套合装置,用于套合由所述预定图案采集装置获取的预定图案。
10.一种单据处理方法,包括;元素图案采集步骤,从分块处理过程得到的处理目标图象数据中获取元素图案;选择步骤,从在采集步骤获取的元素图案中有选择地提取一个被确定为至少代表图章印记一部分的元素图案;计算步骤,根据在选择步骤中选择的元素图案计算预定图案的中心位置;以及预定图案采集步骤,根据在计算步骤中计算出的中心位置获取预定图案的图象数据。
11.根据权利要求10的单据处理方法,还包括如下步骤,以光学方式读取单据图象,根据所获得的经光电转换的信号获取处理目标图象数据,以及为元素图案采集步骤提供图象数据。
12.根据权利要求10的单据处理方法,还包括核对步骤,将在预定图案采集步骤得到的预定图案与套合的预定图案进行核对。
13.根据权利要求10的单据处理方法,其中预定图案是一个图章印记。
14.根据权利要求10的单据处理方法,其中,在选择步骤,从在元素图案采集步骤中获取并落在预定大小范围内的元素图案中提取元素图案,然后从具有弓形图案的所提取的元素图案中选择一个元素图案。
15.根据权利要求14的单据处理方法,其中,在计算步骤,根据弓形图案的一部分,计算出中心位置。
16.根据权利要求14的单据处理方法,其中,在计算步骤,根据弓形图案的一部分,计算半径和中心位置,以及在预定图案采集步骤,根据计算出的半径和中心位置获得预定图案的图象数据。
17.根据权利要求13的单据处理方法,其中,在选择步骤,从被分块处理过程当作表格的区域内的元素图案中有选择地提取一个被确定为至少代表图章印记一部分的元素图案。
18.根据权利要求10的单据处理方法,还包括套合步骤,用来套合在预定图案采集步骤获得的预定图案。
19.一种计算机可读存储器存储可引发计算机执行单据处理的控制程序的方法,包括;元素图案采集步骤,从分块处理过程得到的处理目标图象数据获取元素图案;选择步骤,从被分块处理过程当作表格的区域内的元素图案中有选择地提取一个被确定为至少代表图章印记一部分的元素图案;计算步骤,根据在选择步骤中选择的元素图案计算预定图案的中心位置;以及预定图案采集步骤,根据在计算步骤计算出的中心位置,获得预定图案的图象数据。
全文摘要
一种单据处理装置,从分块处理过程得到的处理目标图象数据获取元素图案。从所获得的元素图案中有选择地提取一个被确定为至少代表图章印记一部分的元素图案。根据所选择的元素图案计算图章印记的中心位置和半径。根据计算出的中心位置和半径获得图章印记的图象数据。以这种方式获得的图章印记将与本装置中套合的图章印记进行比较/核对。
文档编号G06Q10/10GK1334543SQ01124398
公开日2002年2月6日 申请日期2001年7月25日 优先权日2000年7月25日
发明者金津知俊, 金田北洋 申请人:佳能株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1