介质处理设备、介质处理方法及介质处理系统的制作方法

文档序号:85318阅读:238来源:国知局
专利名称:介质处理设备、介质处理方法及介质处理系统的制作方法
技术领域
本发明涉及一种用于基于通过读取其上表示有信息的介质而获得的图像数据来鉴别介质(例如文档、分类帐页)的技术,具体地,涉及一种用于高精度地识别表示在介质中的信息内容的技术。
背景技术
对于通过将其上表示有诸如字符、代码、数字字符、图片、划线、条码等的数据介质(例如文档、分类帐页)作为图像数据进行读取来执行数据介质识别或字符识别的设备,这些年来已开发出诸如光学字符读取设备[OCR(光学字符识别/读取器)设备]等的文档识别设备。各种企业广泛使用文档识别设备以例如提高业务效率。
例如,在金融机构等中进行窗口工作的操作员使用文档识别设备来有效地处理文档介质(以下简称为文档),从而提高他/她的工作效率。
对于这种文档识别设备,存在这样一种技术,其不仅用于处理大量相同类型的文档而且用于自动处理各种格式的文档,以更高效地执行文档处理(例如,参见以下专利文献1和2)。
在某些情况下,为了提高文档处理作业的效率,要求综合地并且自动地处理不同类型的多个文档组。例如,如在金融机构的合并和撤销之后经常看到的,当应当将均具有不同金融机构的不同格式的多个文档组统一成一个系统时,或者当应当由总部(总店)组织等综合地处理多个分部(分店)的文档组时(集中式外理),要求一起处理类型均不同的多个文档组。
同时,对于用于高效并且高精度地处理不同类型的多个文档组的常规技术,在各文档组的前头插入有识别文档,在该识别文档上记录(表示)有用于识别该文档组的类型、内容以及页数等的文档组信息,介质识别设备在处理文档组中的各文档之前首先识别该识别文档,在按照该识别文档识别了文档组的类型和页数之后,执行对这些文档组的处理。
具体来说,例如,将如图48所示的识别文档100置于各文档组的前头,然后执行对文档组的读取。即,将文档ID(在本示例中是数字字符“1234”)记录(添加)到识别文档100,以对识别文档100本身进行识别,并且还记录有文档组信息,如随后的文档组的类型(在本示例中是“P”)、页数(在本示例中是“500页”)等。
因此,在通过扫描仪设备将该识别文档100和文档组读取为图像数据之后,文档识别设备首先对前头处的识别文档100的文档ID进行识别并辩识识别文档100。
换句话说,文档识别设备基于预先保持在数据库等中的示出了文档ID与识别文档中的文档组信息的记录部分位置和记录项之间的对应的信息,辩识在识别文档100中记录有什么文档组信息,然后识别这种文档组信息的内容。
由此,文档识别设备可以有效地执行对识别文档100之后的文档组的内容的识别,并且可以有效地执行对类型均不同的多个文档组的识别处理。
此外,类似于识别文档100,在文档组中的每个文档中都记录有文档ID,当文档识别设备对各文档进行识别时,它通过首先识别该文档ID来辩识在该文档的何处记载了什么信息。
由此,该文档识别设备可以针对各文档有效地执行识别处理。
顺便指出,对于上述常规文档识别设备,用于对识别文档中的文档ID进行识别的处理和用于对构成文档组的各文档中的文档ID进行识别的处理是非常重要的。
因此,应当高精度地识别这些文档ID。
然而,文档识别设备不一定能够按100%的识别率识别字符,并且字符识别的精度存在限制,因而有可能错误地识别文档ID,此外,有可能丢弃构成文档ID的字符(也就是说,不能将一个字符识别为一个字符),或者在最差的情况下,根本就不能识别文档ID。
当如上所示的情况那样未正确地识别文档ID时,在文档识别设备的自动文档处理(识别处理)一旦被中断之后需要进行校正处理,并且应当通过扫描仪设备再次读取未正确识别其文档ID的文档,或者由操作员输入该文档的文档ID。
当文档识别设备正在自动识别类型均不同的多个文档组时由于如上所述的校正处理而使处理中断一次时,导致了处理的很大延迟。
因此,希望应当高精度地识别文档ID,以使得可以高精度地对文档进行辩识。
顺便指出,为了实现更高精度的识别处理,出现了一个想法提高用于将文档读取为图像数据的扫描仪设备的分辨率。然而,如果提高扫描仪设备的分辨率,则处理速度相反地降低了,或者字符识别精度降低了(尽管稍微地降低了)。与中等速度机器相比,对于高速扫描仪,该趋势非常明显。
国际公报WO97/05561号[专利文献1]日本专利特开2003-168075号公报
发明内容
鉴于上述多个问题提出了本发明,本发明的一个目的是基于通过读取介质(例如,其上表示有信息的文档)而获得的图像数据来对介质进行高精度的识别,特别地,另一目的是对记录在介质中的信息的内容进行高精度的识别。
一种用于实现上述目的的介质处理设备包括提取单元,用于从通过读取其上在多个区中表示有满足预定关系的多个信息项的介质而获得的图像数据提取所述多个信息项中的每一个;识别单元,用于对所述提取单元所提取的所述多个信息项中的每一个的内容进行识别;以及确认单元,其基于所述预定关系对所述识别单元所识别的所述多个信息项的内容是否正确进行评估,如果该评估显示了肯定的结果,则将所述多个信息项的内容确认为被所述识别单元识别出,如果该评估显示了否定的结果,则基于所述预定关系对由所述识别单元识别的识别内容进行校正,以确认所述多个信息项的内容。
优选地,所述介质处理设备还包括介质辩识单元,该介质辩识单元用于在所述确认单元确认了所述信息的内容之后基于所述信息的内容对所述介质进行辩识。
此外,为了实现上述目的,本发明的介质处理方法包括以下步骤从通过读取其上在多个区中表示有满足预定关系的多个信息项的介质而获得的图像数据提取所述多个信息项中的每一个;对所提取的所述多个信息项中的每一个的内容进行识别;基于所述预定关系对所识别的所述多个信息项的内容是否正确进行评估;如果所述评估显示了肯定的结果,则将所述多个信息项的内容确认为被识别出;如果所述评估显示了否定的结果,则基于所述预定关系对所识别的识别内容进行校正,以确认所述多个信息项的内容。
此外,为了实现上述目的,本发明的介质处理系统包括介质,在该介质上的多个区中表示有满足预定关系的多个信息项;扫描仪设备,用于通过读取所述介质获得所述介质的图像数据;以及介质处理设备,用于基于通过所述扫描仪设备获得的图像数据对所述信息的内容进行识别,其中,所述介质处理设备包括提取单元,用于从所述图像数据提取所述多个信息项中的每一个;识别单元,用于对所述提取单元所提取的所述多个信息项中的每一个的内容进行识别;以及确认单元,其基于所述预定关系对所述识别单元所识别的所述多个信息项的内容是否正确进行评估,如果该评估显示了肯定的结果,则将所述多个信息项的内容确认为被所述识别单元识别出,如果该评估显示了否定的结果,则基于所述预定关系对由所述识别单元识别的识别内容进行校正,以确认所述多个信息项的内容。
此外,为了实现上述目的,本发明的计算机可读记录介质记录有介质处理程序,该介质处理程序使得计算机实现用于基于通过读取其上在多个区中表示有满足预定关系的多个信息项的介质而获得的图像数据对所述信息的内容进行识别的功能,所述介质处理程序使得所述计算机充当提取单元,用于从所述图像数据提取所述多个信息项中的每一个;识别单元,用于对所述提取单元所提取的所述多个信息项中的每一个的内容进行识别;以及确认单元,其基于所述预定关系对所述识别单元所识别的所述多个信息项的内容是否正确进行评估,如果该评估显示了肯定的结果,则将所述多个信息项的内容确认为被所述识别单元识别出,如果该评估显示了否定的结果,则基于所述预定关系对由所述识别单元识别的识别内容进行校正,以确认所述多个信息项的内容。
如上所述,根据本发明,所述确认单元在对其上表示有满足预定关系的多个信息项的介质进行识别时对所述识别单元的识别内容是否正确进行评估,当评定为不正确时,基于所述预定关系对所述介质中的所述多个信息项进行校正,以确认这些信息的内容,因此,可以高精度地执行对表示在所述介质中的所述多个信息项的内容的识别。
此外,由于可以高精度地对表示在介质中的所述多个信息项的内容进行识别,因此介质辩识单元可以确信地对介质执行辩识,结果,可以抑制诸如扫描仪设备对介质的再读取、操作员的手动输入等(其中断了本发明的文档识别设备的自动处理)的耗时的事件,从而使得可以高效并且高速地对介质执行辩识处理。
图1是示出作为本发明一个实施例的文档识别系统的构成的框图。
图2是示出作为本发明一个实施例的文档识别系统的文档的一个示例的图。
图3是对图2所示的文档的第一文档ID与第二文档ID之间的关系进行说明的图。
图4是对图2所示的文档的构成第一文档ID的字符与构成第二文档ID的字符之间的一对一的对应关系进行说明的图。
图5是对图2所示的文档的第一文档ID与第二文档ID之间的关系进行说明的图。
图6(a)和图6(b)是分别对图2所示的文档的构成第一文档ID和第二文档ID的字符进行说明的图,其中图6(a)是示出各字符的识别率的图,图6(b)是示出各字符的一对一的对应关系的图。
图7是对其中图2所示的文档的第一文档ID和第二文档ID满足图4所示的一对一的对应关系的情况的识别率进行说明的图。
图8(a)到8(d)是分别对构成待记录在作为本发明一个实施例的文档识别系统的文档中的文档ID的字符的一个示例进行说明的图,其中图8(a)是示出它们的候选字符的识别率的图,图8(b)和图8(c)是分别对候选字符中的类似字符进行说明的图,图8(d)是示出构成文档每个字符的识别率和各字符的图。
图9(a)到9(e)是分别示出构成待记录在作为本发明一个实施例的文档识别系统的文档中的文档ID的字符的一个示例的图,其中图9(a)是示出构成该文档的字符的识别率的图,图9(b)到9(d)是分别对图9(a)所示的字符的类似字符进行说明的图,图9(e)是示出使用图9(a)所示的字符记录了其文档ID的文档的示例的图。
图10是示出作为本发明一个实施例的文档识别系统的文档的一个示例的图。
图11是示出由作为本发明一个实施例的文档识别系统的扫描仪设备读取的图2所示的介质的图像数据的图。
图12是示出计算机的构成示例的图,通过该计算机实现了作为本发明一个实施例的文档识别系统的文档识别设备。
图13是示出由作为本发明一个实施例的文档识别系统的文档识别设备的文档ID数据库保持的表的一个示例的图。
图14是示出由作为本发明一个实施例的文档识别系统的文档识别设备的文档ID数据库保持的表的一个示例的图。
图15是示出由作为本发明一个实施例的文档识别系统的文档识别设备的文档ID数据库保持的表的一个示例的图。
图16是对作为本发明一个实施例的文档识别系统的文档识别设备的提取单元的构成进行说明的图。
图17是示出当由作为本发明一个实施例的文档识别系统的文档识别设备的提取单元提取文档ID时使用的搜索模板的一个示例的图。
图18是说明了由作为本发明一个实施例的文档识别系统的文档识别设备的提取单元使用图17所示的搜索模板进行的搜索处理的图。
图19是示出当由作为本发明一个实施例的文档识别系统的文档识别设备的提取单元通过图17所示的搜索模板搜索文档ID时的搜索模板的图。
图20是说明了由作为本发明一个实施例的文档识别系统的文档识别设备的识别单元进行的字符识别处理的图。
图21(a)和图21(b)是分别说明了由作为本发明一个实施例的文档识别系统的文档识别设备的识别单元对文档ID进行的识别处理的一个示例的图,其中图21(a)是示出识别对象的文档ID的图,图21(b)是示出识别结果的图。
图22(a)和图22(b)是分别说明了由作为本发明一个实施例的文档识别系统的文档识别设备的识别单元对文档ID进行的识别处理的一个示例的图,其中图22(a)是示出识别对象的文档ID的图,图22(b)是示出识别结果的图。
图23(a)到图23(c)是分别说明了由作为本发明一个实施例的文档识别系统的文档识别设备的校正单元对文档ID进行的校正处理的一个示例的图,其中图23(a)是示出校正对象的文档ID的图,图23(b)是示出用于进行校正处理的计算的图,图23(c)是示出校正结果的图。
图24(a)到图24(c)是分别示出了由作为本发明一个实施例的文档识别系统的文档识别设备的校正单元对文档ID进行的校正处理的一个示例的图,其中图24(a)是示出校正对象的文档ID的图,图24(b)是示出用于进行校正处理的计算的图,图24(c)是示出校正结果的图。
图25(a)到图25(c)是分别说明了由作为本发明一个实施例的文档识别系统的文档识别设备的校正单元对文档ID进行的校正处理的一个示例的图,其中图25(a)是示出校正对象的文档ID的图,图25(b)是示出用于进行校正处理的计算的图,图25(c)是示出校正结果的图。
图26(a)和图26(b)是分别示出了由作为本发明一个实施例的文档识别系统的文档识别设备的确认单元对文档ID的内容进行的确认处理的一个示例的图,其中图26(a)是示出内容确认对象的文档ID的图,图26(b)是示出内容确认结果的图。
图27(a)和图27(b)是分别说明了由作为本发明一个实施例的文档识别系统的文档识别设备的确认单元对文档ID的内容进行的确认处理的一个示例的图,其中图27(a)是示出内容确认对象的文档ID的图,图27(b)是示出内容确认结果的图。
图28(a)和图28(b)是分别示出了由作为本发明一个实施例的文档识别系统的文档识别设备的确认单元对文档ID的内容进行的确认处理的一个示例的图,其中图28(a)是示出内容确认对象的文档ID的图,图28(b)是示出内容确认结果的图。
图29(a)和图29(b)是分别示出了由作为本发明一个实施例的文档识别系统的文档识别设备的确认单元对文档ID的内容进行的确认处理的一个示例的图,其中图29(a)是示出内容确认对象的文档ID的图,图29(b)是示出内容确认结果的图。
图30是示出由作为本发明一个实施例的文档识别系统的文档识别设备的文档信息数据库保持的表的一个示例的图。
图31是对作为本发明一个实施例的文档识别系统的文档识别设备的文档辩识单元的构成进行说明的图。
图32(a)和图32(b)是分别对由作为本发明一个实施例的文档识别系统的文档识别设备的判断单元进行的判断示例进行说明的图,其中图32(a)是示出判断对象文档的图,图32(b)是示出该识别单元对图32(a)所示的文档进行识别的结果的图。
图33(a)和图33(b)是分别对由作为本发明一个实施例的文档识别系统的文档识别设备的判断单元进行的判断示例进行说明的图,其中图33(a)是示出判断对象文档的图,图33(b)是示出该识别单元对图33(a)所示的文档进行识别的结果的图。
图34是示出作为本发明一个实施例的文档识别系统的文档识别设备的图像状态检测单元的图像状态检测对象的区的一个示例的图。
图35(a)和图35(b)是分别示出了由作为本发明一个实施例的文档识别系统的文档识别设备的图像状态检测单元进行的图像状态检测处理的一个示例的图,其中图35(a)是示出检测对象文档的图,图35(b)是示出检测结果的图。
图36(a)和图36(b)是分别示出了由作为本发明一个实施例的文档识别系统的文档识别设备的图像状态检测单元对图像状态进行的检测处理的一个示例的图,其中图36(a)是示出检测对象文档的图,图36(b)是示出检测结果的图。
图37(a)和图37(b)是分别示出了由作为本发明一个实施例的文档识别系统的文档识别设备的图像状态检测单元对图像状态进行的检测处理的一个示例的图,其中图37(a)是示出检测对象文档的图,图37(b)是示出检测结果的图。
图38(a)到图38(e)是分别示出了由作为本发明一个实施例的文档识别系统的文档识别设备的图像状态检测单元对图像状态进行的检测处理的一个示例的图,其中图38(a)是示出检测对象文档的图,图38(b)是示出对含有图38(a)所示的文档的第一文档ID的预定区进行检测的结果的图,图38(c)是示出对含有图38(a)所示的文档的第二文档ID的预定区进行检测的结果的图,图38(d)是示出对含有图38(a)所示的文档的第三文档ID的预定区进行检测的结果的图,图38(e)是示出对含有图38(a)所示的文档的第四文档ID的预定区进行检测的结果的图。
图39是示出作为本发明一个实施例的文档识别系统的文档识别设备的操作过程的一个示例的流程图。
图40是示出作为本发明一个实施例的文档识别系统的文档识别设备的操作过程的一个示例的流程图。
图41(a)到41(c)是分别对与图40所示的操作过程相对应的文档识别设备的处理内容的实施例进行说明的图,其中图41(a)是示出处理对象文档的图,图41(b)是示出该识别单元的识别结果的图,图41(c)是对确认单元的相互校正单元的校正处理进行说明的图。
图42(a)到42(c)是分别对作为本发明一变型例的文档识别设备的校正单元的校正处理的一个示例进行说明的图,其中图42(a)是示出识别对象文档的图,图42(b)是示出识别单元进行的识别的结果的图,图42(c)是对校正单元的校正处理进行说明的图。
图43(a)和43(b)是分别对作为本发明一变型例的文档识别设备的相互校正单元的校正处理的一个示例进行说明的图,其中图43(a)是示出识别单元对作为校正对象的文档ID进行的识别的结果的图,图43(b)是示出由文档信息数据库保持的表的一个示例的图。
图44(a)到44(e)是分别对作为本发明一变型例的文档识别设备的相互校正单元的校正处理的一个示例进行说明的图,其中图44(a)是示出处理对象文档的图,图44(b)是示出识别单元的识别结果的图,图44(c)和图44(d)是分别示出了包括由识别单元计算出的一致度的识别结果的图,图44(e)是示出了与预先保持的由识别单元计算出的一致度有关的表的图。
图45是对作为本发明一变型例的文档识别设备的判断单元的判断处理的操作过程进行说明的流程图。
图46是对作为本发明一变型例的文档识别设备的判断单元的判断处理的操作过程进行说明的流程图。
图47是示出作为本发明一变型例的文档识别设备的文档(用于识别的文档)的一个示例的图。
图48是示出可对其应用常规文档识别设备的文档的一个示例的图。
具体实施方式下面参照附图,对本发明的多个实施例进行描述。
本发明的一个实施例[1-1]介质处理系统的构成首先,参照图1所示的框图,对作为本发明一个实施例的文档识别系统(介质处理系统)1的构成进行描述。如图1所示,文档识别系统1是识别(处理)客体,并包括其上在多个区处记录有满足预定关系的多个信息项[字符、符号、数字字符图片、条码等(以下通称为字符)]的多个文档(介质)30、用于通过读取多个文档30中的每一个来获得文档30的图像数据的扫描仪设备40、以及用于基于由扫描仪设备40获得的图像数据来识别在文档30中记录(表示)的信息的文档识别设备(介质处理设备)10。
在以下描述中,分别对介质30、扫描仪设备40以及文档识别设备10的构成进行描述。
关于文档首先,对文档识别系统1中的文档30进行说明。如图2所示,在文档30中,在区31中记录(表示)有作为信息项的第一文档ID 31a(在图中被表示为“ID1”)并在区32中记录有作为信息项的第二文档ID 32a(在图中被表示为“ID2”)。
将第一文档ID 31a(以下也称为文档ID 31a)和第二文档ID 32a(以下也称为文档ID 32a)设置为满足稍后要描述的预定关系(相互关系或覆盖关系)。
关于第一文档ID与第二文档ID之间的预定关系通过给出一实施例对文档30的第一文档ID 31a与第二文档ID 32a之间的预定关系进行说明。例如,在文档ID 31a与文档ID 32a之间,设置有这两个文档ID相同的关系,或者如图3所示的文档ID 31a与文档ID 32a之和恒定的关系。
根据图3所示的关系,文档ID 31a和文档ID 32a均由具有3个数位数字的大于100的数字字符组成,并且文档ID 31a和文档ID 32a满足它们的和始终为“1000”的关系。
作为另一示例,在某些情况下,将构成文档ID 31a的各字符与构成文档ID 32a的各字符设置成相互具有一对一的对应关系,但是均仍由不同的字符组成。
即,如图4所示,当文档ID 31a和32a由数字字符组成时,例如,通过具有相对于文档ID 31a中的各数字字符0到9的一对一的对应关系的不同数字字符来设置文档ID 32a中的数字字符。在本示例中,文档ID31a中的各“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”、“9”分别对应于文档ID 32a中的“5”、“8”、“9”、“6”、“7”、“0”、“3”、“4”、“1”、“2”。
换句话说,将构成文档ID 31a和32a的数字字符设置成使得在文档ID 31a与文档ID 32a之间“0”与“5”呈彼此一对一的对应关系、“1”与“8”呈彼此一对一的对应关系、“2”与“9”呈彼此一对一的对应关系、“3”与“6”呈彼此一对一的对应关系以及“4”与“7”呈彼此一对一的对应关系。
因此,如图5所示,当文档ID 31a和ID 32a是具有3个数位的数字字符并且文档ID 31a在100到500的范围内时,例如,当文档ID 31a是“100”时,文档ID 32a变成“855”,当文档ID 31a是“237”时,文档ID 32a变成“964”,当文档ID 31a是“500”时,文档ID 32a变成“055”。按此方式,基于图4所示的对应关系,通过不同的数字字符设置文档ID 31a和文档ID 32a,使得这两个文档ID可以具有彼此一对一的覆盖关系。
同时,优选地,基于文档识别设备10(具体地,后述识别单元15)对各数字字符的识别率来确定图4所示的一对一的对应关系。
即,如图6(a)所示,在文档识别设备10中字符(在本示例中为数字字符0到9)的识别率(其为对字符的正确识别的比率)是不同的。
因此,按图4所示的一对一的对应关系,优选地,基于图6(a)所示的文档识别设备10对各数字字符0到9的识别率,设置成最高识别率“1”与最低识别率“8”相互对应,第二高识别率“3”与第九高识别率“6”、第三高识别率“7”与第八高识别率“4”、第四高识别率“5”与第七高识别率“0”以及第五高识别率“9”与第六高识别率“2”相互对应,并且显示出上述一对一的对应性的数字字符对的总识别率可以变得尽可能地均匀。
按此考虑,可以减少构成文档ID 31a和32a的数字字符的识别率的变化,并且与构成文档ID 31a和32a的字符无关地,文档识别设备10可以以稳定的识别率执行字符识别。
此外,当将文档30的文档ID 31a和文档ID 32a设置成满足如图4所示的一对一的对应关系时,与其中简单地使文档ID 31a与文档ID 32a相同的情况相比,可以改进文档识别设备10的识别率。
即,例如,如图7所示,当文档ID 31a是“8888”并且文档ID 32a也是“8888”时(情况1),和当文档ID 31a是“8888”并且文档ID 32a是基于上述图4的覆盖关系而设置的“1111”时(情况2),如果对这两种情况进行比较,则文档识别设备10对“8”的识别率是99.99%,并且文档识别设备10对“1”的识别率是99.999%,在情况1中对文档ID 31a和32a的识别率分别为99.99%的四次方,并且可以将对文档ID 31a与文档ID 32a的组合识别率(文档辩识率)表示为“(99.99%×99.99%)^4”,因此,文档不可辩识率(即,不能识别这些文档ID 31a和32a的可能性)变成“0.08%”。
与之对照的是,在情况2中,对文档ID 31a的识别率是99.99%的四次方,并且对文档ID 32a的识别率变成99.999%的四次方。因此,可以将对这些文档ID 31a与32a的识别率表示为“(99.99%×99.999%)^4”,因此文档不可辩识率变成“0.044%”。
按此方式,在情况1与情况2之间文档不可辩识率之差为0.036%,因此与文档ID 31a与32a简单地相同的情况1相比,在将文档ID 31a与32a设置成满足图4所示的覆盖关系的情况2中对识别率的提高更显著。
构成第一文档ID和第二文档ID的字符接下来,对构成文档ID 31a和32a中的每一个的字符进行说明。如图8(a)所示,当使用数字字符和字母字符(在此情况下是首字母)作为构成文档ID 31a和32a中的每一个的字符时,基于各字符的识别率,不使用具有低于预定级的识别率的字符作为构成文档ID 31a和32a的字符。
此外,如图8(b)所示,当使用数字字符和字母字符时,由于作为数字字符的“0”与作为字母字符的“O”和“Q”非常类似,因此文档识别设备10难于以清楚的辨识率来识别这些类似字符(如图中的“类似字符组1”所示)。
此外,如图8(c)所示,对于文档识别设备10,作为数字字符的“1”与作为字母字符的“I”也是类似字符(如图中的“类似字符组2”所示)。
因此,确定出对于这些类似字符,在各组中可以使用一个字符。例如,如图8(d)所示,应当优先使用数字字符,使得在类似字符组1中,从构成文档ID 31a和32a的字符中排除字母字符“O”和“Q”。此外,在类似字符组2中排除字母字符“I”。
按此方式,当将构成文档ID 31a和32a的字符局限于具有预定识别率的那些字符时,可以提高文档识别设备10对文档ID 31a和32a的识别率,并且文档识别设备10可以按更高的精度对文档30进行识别。
此外,当使用多种类型的字符作为构成文档ID 31a和32a的字符时,对于文档识别设备10难以辩识的字符,只使用类似字符组中的一个字符作为构成文档ID 31a和32a的字符,从而提高文档识别设备10的识别率。
此外,尽管在图8(a)到8(d)中对使用两种类型(数字字符和字母字符)的字符的情况进行了说明,但是如图9(a)到9(e)所示可以由三种类型(在此情况下是数字字符、字母字符以及符号)以上的字符来组成文档ID 31a和32a。在此情况下,如图9(b)所示,在三种类型中的每一个之间并且在所有三种类型之中存在类似字符,当如图9(c)和图9(d)所示只使用类似字符组中的一个字符作为构成文档ID 31a和32a的字符时(见图9(a)),可以通过文档识别设备10实现高精度的字符识别。
同时,图9(e)示出了由数字字符与符号的组合所组成的文档ID 31a的示例。
文档的变型例如图10所示,作为本文档识别系统1中的文档的变型例,除文档ID31a和32a以外,文档30a还可以包括区33和34中的文档ID 33a(在图中表示为“ID3”)和文档ID 34a(在图中表示为“ID4”),以具有不小于三个(在此情况下为四个)的文档ID31a至34a。
关于扫描仪设备接下来,给出对文档识别系统1的扫描仪设备40的说明,其中,扫描仪设备40用于将介质(在本情况下是文档30)作为图像数据光学地进行读取。
在图11中,示出了扫描仪设备40通过读取图2所示的文档30而获得的图像数据40a。如前面参照图2所述的,文档30具有其中记录有第一文档ID 31a(在图中表示为“ID1”)的区31和其中记录有第二文档ID 32a(在图中表示为“ID2”)的区32。
关于文档识别设备的构成接下来,给出对文档识别系统1中的本发明的文档识别设备10的构成的说明,其中,如图1所示,文档识别设备10包括图像数据读取单元11、ID数据库(IDDB)12、IDDB读取单元13、提取单元14、识别单元15、检查单元16、校正单元17、确认单元18、文档信息数据库(文档信息DB)21、文档辩识单元(介质辩识单元)22、判断单元23、图像状态检测单元24以及选择单元25。
同时,例如,如图12所示,由包括显示单元3、作为输入接口的键盘4和鼠标5以及存储单元6的计算机2的操作单元7(例如,CPU中央处理器)来实现文档识别设备10。
即,当将文档识别系统1的扫描仪设备40连接到操作单元7并且操作单元7执行预定应用程序(例如,后述介质处理程序)时,实现了文档识别设备10的图像数据读取单元11、IDDB读取单元13、提取单元14、识别单元15、检查单元16、校正单元17、确认单元18、文档辩识单元22、判断单元23、图像状态检测单元24以及选择单元25。
在以下说明中,除非特别指出,否则参照其中文档识别设备10对图2所示的文档30进行识别的情况(即,图11所示的图像数据40a)给出说明。
图像数据读取单元11用于读取由扫描仪设备40通过读取文档30而获得的图像数据40a。
IDDB 12是用于保持示出了文档类型与关于文档中的文档ID的信息之间的对应的表的数据库,例如,作为与文档30中的第一文档ID 31a和第二文档ID 32a有关的信息,保持有以下信息(1)到(6)(1)文档30中的各区31和32的原点坐标(在此情况下是区中的左上端)。即,图11中的坐标(X1,Y1)和(X2,Y2)。
(2)第一文档ID 31a和第二文档ID 32a中的每一个的位数(字符数)。
(3)在第一文档ID 31a和第二文档ID 32a中的每一个中校验位的位置。
(4)第一文档ID 31a和第二文档ID 32a中的每一个的字符类型。
(5)区31和32中的每一个的尺寸。
(6)在提取单元14用以提取区31和32的搜索模板中的空白区(空余部分)。
这里,在图13到15中示出了由IDDB 12保持的表的组成的示例。首先,在图13所示的第一示例中,由IDDB 12保持的表12a以图11所示的文档30为处理对象,并保持有上述项(1)到(4)的信息。在表12a中,“ID”项的“1”表示第一文档ID 31a,“2”表示第二文档ID 32a。
如图11所示,表12a保持区31的原点坐标(X1,Y1)和区32的原点坐标(X2,Y2)作为以上信息(1)。
此外,表12a保持第一文档ID 31a和第二文档ID 32a中的每一个的位数“4”作为以上信息(2)。
此外,表12a保持第一文档ID 31a的校验位的位置“前端”(在图中由“CD”表示)和第二文档ID 32a的校验位的位置“末端”作为以上信息(3)。其中,“前端”表示文档ID 31a和32a的左端,“末端”表示文档ID 31a和32a的右端。
最后,表12a保持第一文档ID 31a和第二文档ID 32a中的每一个的字符类型“数字字符”作为以上信息(4)。
此外,给出关于作为图14所示的第二示例的表12b的说明,在该示例中,文档识别设备10以多种类型的文档为识别对象,并且对于各文档类型(在本示例中为“类型01”和“类型02”)表12b保持图13所示的表12a的相同的内容。在表12b中,“类型01”的文档的第一文档ID的原点坐标是(X11,Y11),第二文档ID的原点坐标是(X12,Y12),类似地,“类型02”的文档的第一文档ID的原点坐标是(X21,Y21),第二文档ID的原点坐标是(X22,Y22)。此外,“类型02”的文档的第一文档ID和第二文档ID的位数是“6”并且字符类型是“字母字符”。
此外,给出关于作为图15所示的第三示例的表12c的说明,在该示例中,表12c保持主要是提取单元14用以从文档30提取文档ID(即,区31和32)所需的信息并保持以上信息(2)到(6)。
其中,以上信息(2)到(4)与表12a的信息(2)到(4)相同。在表12c中,与表12a类似,“ID”项的“1”表示第一文档ID 31a,“2”表示第二文档ID 32a。
对于文档ID 31a和32a中的每一个,表12c保持表示区31和32中的每一个的大小的尺寸(区31和32是矩形,因此这里是高度和宽度)“3mm×10mm”作为以上信息(5)。
此外,表12c保持由提取单元14用以提取文档ID 31a和32a中的每一个中的区31和32的搜索模板(见后述图17)中的空白区(在图中简单地表示为“空白区”)“上下左右5mm”作为以上信息(6)。
IDDB读取单元13用于读取提取单元14用以从IDDB 12(例如,从表12a到12c中的任一个)提取文档ID 31a和32a所需的信息。
提取单元14基于由IDDB读取单元13读取的信息从正在由图像数据读取单元11读取的文档30的图像数据40a提取各文档ID 31a和32a。
具体来说,提取单元14通过使用基于由IDDB读取单元13获得的上述信息项(1)、(5)、(6)中的至少一项的搜索模板14a(见后述图17)对图像数据40a执行搜索。
这里,参照其中提取单元14基于表12c所示的上述信息(5)和(6)提取区31的情况的图16到19给出说明。
如图16所示,提取单元14包括文档ID特征分析单元14-1和文档ID搜索单元14-2,其中文档ID特征分析单元14-1对由IDDB读取单元13正在读取的IDDB 12中的表12c的信息进行分析。特别地,文档ID特征分析单元基于作为表12c中的上述信息(5)的区31和32的尺寸(“3mm×10mm”)并基于作为上述信息(6)的空白区[上(上侧)下(下侧)左(左侧)右(右侧)5mm]来确定图17所示的搜索模板14a。
即,提取单元14的文档ID特征分析单元14-1生成具有与区31和32相同的尺寸“3mm×10mm”的矩形阴影区14b,和从该区14b的各侧垂直地相隔5mm(见各方向箭头a到d)的矩形搜索模板14a。
然后提取单元14的文档ID搜索单元14-2使用搜索模板14a对图像数据40a中的文档30执行横向搜索。对于该横向搜索,通过从文档30的左上端向右方向移动搜索模板14a来开始进行搜索,当到达了文档30的右端时,将搜索模板14a向下移动预定间隔,并将其从左端向右方向移动,以继续进行搜索。文档ID搜索单元14-2一直执行该搜索处理,直到提取了文档ID 31a和32a(在此情况下只有文档ID 31a)。
例如,当第一文档ID 31a是“1237”时,如果如图19所示,在区31中,在搜索模板14a的阴影区14b的内部清楚地表示有“1237”(即,阴影区14b与区31相互重合),则提取单元14提取文档ID 31a(区31),由此完成了处理。
根据使用该搜索模板14a的处理,提取单元14可以在没有上述信息(1)的情况下从图像数据40a的文档30提取区31和32。
此外,下面将给出对与通过提取单元14使用搜索模板14a提取区31和32的文档ID 31a和32a的方法不同的实施例的说明,在该情况下,提取单元14可以使用上述信息(1)和(2)提取区31和32的文档ID 31a和32a。
即,例如,提取单元14利用保持在表12a和12b中的区31和32的原点坐标和文档ID 31a和32a的字符数量从图像数据40a直接提取记录在区31和32中的文档ID 31a和32a。
识别单元15对由提取单元14提取的区31的第一文档ID 31a和区32的第二文档ID 32a中的每一个的内容(即,字符)进行识别,并利用由IDDB读取单元13读取的上述信息(2)和(4)执行字符识别。
即,识别单元15针对文档ID 31a和32a中的每一个的每个字符对与多个候选字符的一致度(确定度)进行计算,并将具有计算出的最高一致度的候选字符识别为文档ID 31a和32a中的每一个的一个字符。
这里,参照通过提取单元14提取的区31中的文档ID 31a是“1237”的示例对识别单元15针对文档ID 31a进行的字符识别处理的详情进行说明。
即,如图20所示,将识别单元15连接到包括日本字符字典15a-1、数字字符字典15a-2、字母字符字典15a-3以及符号字典15a-4的字符字典15a,当通过提取单元14提取的文档ID 31a是“1237”时,识别单元15基于由IDDB读取单元13读取的上述信息(4)(字符类型信息)识别出文档ID 31a是数字字符,并使用字符字典15a中的数字字符字典15a-2来执行字符识别。
此外,识别单元15基于由IDDB读取单元13读取的上述信息(2)(字符数量信息)识别出文档ID 31a具有4个字符,并执行字符识别。
然后,识别单元15针对由提取单元14提取的文档ID 31a的每个字符基于数字字符字典15a-2计算关于候选字符的一致度,并采用具有计算出的最高第一位一致度的候选字符作为构成文档ID 31a的字符。在本示例中针对每个4位字符执行该作业,并且识别单元15将文档ID 31a识别为“1237”。
然而,例如,当如图21(a)所示在数字字符“1”上写有诸如X标记的涂写(覆写)作为文档30中的文档ID 31a时,尽管识别单元15针对被覆写的“1”计算关于候选字符的一致度,但是涂写导致了操作噪声,识别单元15如图21(b)所示地不能正确地识别文档ID 31a,在某些情况下,丢弃数字字符“1”或者不能将其识别为字符(在图中由“?”表示)。
其中,识别单元进行丢弃是指识别单元不能将识别对象字符识别为一个字符的情况,如其中存在多个候选字符具有第一位一致度或者第一位候选字符与第二位候选字符之间的一致度差很小的情况。
此外,其中识别单元15不能将对象识别为字符的情况例如是其中所有候选字符的一致度等于或小于预定值的情况。
如图22(a)所示,当在由扫描仪设备40读取的图像数据40a上作为文档ID 31a的数字字符“2”部分由于文档30的原始污染或皱褶、或由于在由扫描仪设备40读取时附着的污染或皱褶而被污染时,该污染导致了操作噪声,识别单元15如图22(b)所示地不能正确地识别数字字符“2”(在图中由“?”表示)。
检查单元16针对由识别单元15识别出的文档ID 31a和32a中的每一个的字符使用校验位来执行检查。
即,检查单元16利用由IDDB读取单元13从IDDB 12读取的上述信息(3)从上述文档ID 31a和32a中的每一个提取校验位,并基于由此提取的校验位检查识别单元15是否正确地识别了文档ID 31a和32a。
例如,当通过识别单元15将文档ID 31a识别为“1247”时,如图13的表12a所示,文档ID 31a的校验位的位置位于“前端(左端)”处,因此检查单元16基于该信息提取“1”作为校验位。
这里使用的校验位算法是这样的在4位文档ID中,将表示最后3个数位的数字(在此情况下是“247”)除以右端数字(在此情况下是“7”),并将该右端数字减去该除法的余数,其差等于校验位。
检查单元16基于上述算法执行以下(A)和(B)的计算247/7=35...2…(A)7-2=5…(B)检查单元16接着判断上述计算(B)的结果“5”与校验位“1”是否相同,在此情况下,这两者不相同,因此,检查单元16判断识别单元15对文档ID 31a的“1247”的识别不正确。
当通过由检查单元16使用校验位进行的检查揭示出由识别单元15识别的文档ID 31a和32a不正确、或者在由识别单元15进行的字符识别中丢弃或未识别出文档ID 31a或32a中的任一个的字符时,校正单元17要么利用这种校验位来校正文档ID 31a和32a的内容,要么基于由识别单元15计算出的一致度来校正文档ID 31a和32a的内容。
例如,如图23(a)所示,当识别单元15丢弃了校验位(在图中的表示为“CD”)时(即,将文档ID识别为“?237”),校正单元17执行图23(b)所示的计算(C)和(D),并将计算(D)的结果“1”视为所丢弃的校验位。即,如图23(c)所示,将由识别单元15识别的文档ID校正为“1237”。
此外,如图24(a)所示,当由识别单元15丢弃了从左端起第三数位的字符时(即,将文档ID识别为“12?7”),校正单元17执行图24(b)所示的计算(E)和(F)。然后,如图24(c)所示,作为计算(F)的结果,校正单元17将丢弃的字符“?”校正为“3”,以将由识别单元15识别的文档ID校正为“1237”。
此外,如图25(a)所示,当由识别单元15丢弃了从左端起第二数位的字符时(即,将文档ID识别为“1?37”),校正单元17执行图25(b)所示的计算(G)和(H)。然后,如图25(c)所示,作为计算(H)的结果,校正单元17将丢弃的字符“?”校正为“2”或“9”。
同时,在识别单元15中基于这些“2”、“9”的一致度执行对上述“2”或“9”的选择,并且校正单元17使用具有由识别单元15计算出的最高一致度的数字字符对文档ID进行校正。
确认单元18对由识别单元15识别的文档ID 31a和32a的内容(字符)进行确认,并且包括如图1所示的判断单元19和相互校正单元20。
判断单元19基于预先设置的在这些文档ID 31a与32a之间的预定关系,判断由识别单元15识别的文档ID 31a和32a的每个字符是否正确,或者判断由校正单元17执行了校正处理后的文档ID 31a和32a的每个字符是否正确,参照上述图3到图6(a)和6(b)对此进行了说明。
同时,与检查单元16的检查结果无关地,判断单元19执行判断处理。
当判断单元19判断由识别单元15执行的字符识别是正确的时,相互校正单元20确认文档ID 31a和32a的字符为被由识别单元15识别出。
同时,当判断单元判断由识别单元15执行的字符识别不正确时,相互校正单元20基于文档ID 31a与32a之间的预定关系对识别单元15的识别内容进行校正,并确认文档ID 31a和32a的字符。
这里,将参照图26(a)和26(b)到图29(a)和29(b)对确认单元18(判断单元19和相互校正单元20)的具体操作示例进行说明。图26(a)和26(b)所示的实施例示出了其中不执行由校正单元17进行的校正处理的情况,而图27(a)和27(b)到图29(a)和29(b)所示的实施例示出了其中执行校正单元17进行的校正处理的情况。
首先,图26(a)和26(b)所示的示例是这样的如图26(a)所示,丢弃了文档ID 31a的从左端起的第二数位(即,识别为“1?37”)并且丢弃了文档ID 32a的左端(即,识别为“?237”)。在此情况下,如果在文档30中满足文档ID 31a与32a相同的关系,则判断单元19判断图26(a)所示的识别单元15的识别内容不正确。
由于在文档ID 31a和32a中丢弃了互不相同的数位,因此相互校正单元20通过使用在文档ID 31a和32a中未丢弃的数字字符校正各数位的数字字符,将文档ID 31a和32a校正并确认为如图26(b)所示的“1237”。
此外,如图27(a)所示,当校正单元17计算出多个文档ID 31a时(即,计算出“1237”和“1937”),判断单元19判断该识别内容不正确,因为存在多个内容。当在文档30中满足文档ID 31a与32a相同的关系时,相互校正单元20接着基于对文档ID 32a的识别结果(即,“1237”)如图27(b)所示地将文档ID 31a的内容确认为“1237”。
此外,如图28(a)所示,当与图27(a)类似地由校正单元17计算出多个文档ID 31a并且在文档30中满足各文档ID 31a与32a的总和分别为“10000”的关系时,如图28(b)所示,相互校正单元20求多个候选文档ID 31a与文档ID 32a“8763”的总和,并将结果是“10000”的内容“1237”确认为文档ID 31a。
此外,如图29(a)所示,当与图27(a)类似地由校正单元17计算出多个文档ID 31a时,并且在文档30中由不同的字符构成文档ID 31a和32a使得文档ID 31a与32a满足上述图4所示的一对一的对应关系时,如图29(b)所示,相互校正单元20将通过将文档ID 32a“8964”的各字符转换成具有图4所示的对应关系的其他字符而获得的“1237”确认为文档ID 31a。
文档信息DB 21针对各文档ID保持与记录了文档ID的类型和记载内容有关的文档信息(即,关于在文档中的何处记载了什么信息的信息),并且例如保持根据如图30所示的构成的表21a,该表21a示出了在文档ID与对应于该文档ID(文档信息)的类型和记载内容等之间的对应。
同时,在该表21a中,针对第一文档ID和第二文档ID的3种类型中的每一个,保持有项名称(坐标、字符类型、字符数量)和日期类型(日本日历或西方日历)作为文档的类型和字符识别项(记载项)。
在确认单元18确认了文档30的文档ID 31a和32a的内容之后,文档辩识单元22基于确认的文档ID 31a和32a的内容对文档30进行辩识,并包括如图31所示的文档ID验核单元22a、定义信息辩识单元22b以及记载内容识别单元22c。
文档ID验核单元22a基于保持在文档信息DB 21中的表21a对与文档ID 31a或文档ID 32a相对应的文档类型和记载内容(例如,在文档30的何处以什么类型的字符和多少数量的字符记载了什么项)进行辩识,具体来说,对在保持在文档信息DB 21中的表21a的文档ID中是否存在由确认单元18确认的文档ID 31a和32a进行验核,如果作为该验核的结果从表21a检测到相同的文档ID,则提取与所检测的文档ID相对应的文档类型和字符识别项(即,文档信息)。
当文档ID验核单元22a没有从表21a检测到与文档ID 31a和32a相同的文档ID时,即,确认单元18没有确认文档30的文档ID 31a和32a的内容,或者尽管当确认单元18确认了文档ID 31a和32a但是在表21a中不存在所确认的文档ID 31a和32a时,则定义信息辩识单元22b例如基于用于识别除预先保持在文档信息DB 21中的文档ID 31a和32a以外的文档的信息(定义信息)对文档30进行辩识。
同时,对于定义信息,例如,考虑与文档30的版面有关的信息(例如,关于刻度线和项配置的信息)、或预定特殊符号(标记)及其位置以及与文档的设计有关的信息。
然后定义信息辩识单元22b基于辩识的文档30的类型从表21a提取文档30的文档信息。
记载内容识别单元22c基于由文档ID验核单元22a或定义信息辩识单元22b辩识的文档30的文档信息,从文档30的图像数据40a识别出除在文档30中记载的文档ID 31a和32a以外的记载内容,并且记载内容识别单元22c例如使得以上图12所示的显示单元3显示所识别的记载内容(识别结果),或者将其作为数据记录在存储单元6中。
当文档辩识单元不能辩识文档30时,判断单元23基于识别单元15对文档30的文档ID 31a和32a的识别状态,评估是否使得扫描仪设备40再读取文档30或者使得操作员手动输入除文档30的文档ID 31a和32a以外的记载内容。操作员例如通过使用图12所示的键盘4或鼠标5来执行手动输入过程。
例如,当识别单元15识别出文档ID 31a和32a中的每一个的2个或2个以上字符时,判断单元23进行评估以使得扫描仪设备40再读取文档30,而当未识别出文档ID 31a和32a中的任一个的3个或3个以上字符时,判断单元23进行评估以使得操作员进行手动输入。
具体来说,例如当如图32(a)所示在文档30的文档ID 31a和32a的部分处存在皱褶23a时,并且当如图32(b)所示作为识别单元15对文档ID 31a和32a的识别的结果若针对文档ID 31a和32a中的每一个不能识别出2个字符时,判断单元23判定应当通过扫描仪设备40重新读取该文档30。
然而,当如图33(a)所示在文档30的文档ID 31a处存在皱褶23a并且盖印有个人印章(印戳)23b,此外在文档ID 32a处还写有字迹23c时,并且当如图33(b)所示作为识别单元15对文档ID 31a和32a的识别的结果所有字符都不能识别时,判断单元23判定应当由操作员手动输入该文档30。
当判断单元23判定应当由操作员进行手动输入时,例如通过使图12所示的显示单元3相应地显示该意图来向操作员通知手动输入处理。
图像状态检测单元24用于在通过扫描仪设备40获得的图像数据40a(见图11)中检测出包括文档ID 31a和32a(即,区31和32)在内的这些文档ID 31a和32a的各周缘区域的图像状态(即,文档30的纸张状态),并且例如通过计算与目标区中的颜色(在此情况下是黑和白的梯度0到255)有关的直方图来检测图像状态。
例如,如图34所示,如果针对其中图像状态检测单元24检测其中记录有文档ID 31a的区31的周围的预定区(图中的阴影区)31x的图像状态的情况进行说明,当如图35(a)所示在文档30的区30x中即没有污染又没有褶皱时,如图35(b)所示,在由图像状态检测单元24计算出的直方图中表示有表示字符(黑)的部分和表示背景(白)的部分。
然而,当如图36(a)所示在文档30的区31的附近附着有皱褶24a时,皱褶24a充当了噪声,并且,如图36(b)所示,如在由图像状态检测单元24计算出的直方图中示出的那样,字符部分和背景部分受到了影响。
在图36(b)所示的示例中,与图35(b)所示的表示正常状态(文档30处于良好状态)的直方图相比,表示字符部分的区变得更厚并且更大同时靠近背景部分。此外,背景部分变形了,呈梯形,并且其面积也增大了。
此外,当如图37(a)所示存在个人印章24b或字迹24c时,个人印戳24b或字迹24c充当噪声,并且,如图37(b)所示,字符部分和背景部分在由图像状态检测单元24检测到的直方图中受到了很大影响。
在图37(b)所示的示例中,相对于图35(b)所示的正常状态,表示字符部分的区变得厚并且大很多,同时,表示背景部分的区也变得厚并且大很多。
按此方式,使用图像状态检测单元24,可以通过计算直方图来确定地检测出图像状态(文档30的状态)。
选择单元25用于基于由图像状态检测单元24检测的图像状态使得识别单元15选择用于执行字符识别的文档ID。
这里,参照图38(a)到38(e)给出对识别单元15、图像状态检测单元24以及选择单元25的操作的说明,其中,在文档识别设备10中,尤其是在对其中如上述图10所示地记录有3个或3个以上文档ID 31a到34a的文档30a执行识别处理时对图像状态检测单元24和选择单元25进行操作。
即,当提取单元14提取3个或3个以上文档ID 31a到34a时,图像状态检测单元24对包括3个或3个以上文档ID 31a到34a在内的各文档ID 31a到34a的周缘区的图像状态进行检测。
在此情况下,如果如图38(a)所示在文档30a的第一文档ID 31a的周围存在皱褶24a并且在第四文档ID 34a上存在字迹24c,则图像状态检测单元24计算出包括第一文档ID 31a的预定区的如图38(b)所示的直方图,计算出包括第二文档ID 32a的预定区的如图38(c)所示的直方图,计算出包括第三文档ID 33a的预定区的如图38(d)所示的直方图,并计算出包括第四文档ID 34a的预定区的如图38(e)所示的直方图。
接着,选择单元25基于图38(b)到38(e)所示的图像状态检测单元24的检测结果,选择2个文档ID 32a和33a。
然后识别单元15对选择单元25选择的2个文档ID 32a和33a执行字符识别。
按此方式,选择单元25基于由图像状态检测单元24检测的图像状态选择处于良好状态的图像作为识别单元15的字符识别对象,因此,识别单元15可以高效地并且以更高精度执行字符识别。此外,最终减少了在识别单元15执行的识别处理中的诸如丢弃等的错误,并且可以高效地执行对文档30的辩识和对文档ID 31a和32a的内容识别。
文档识别设备的操作示例接下来,参照附图给出对文档识别设备10的具体操作示例的说明。在以下说明中,也将文档30用作文档识别设备10的处理对象。
第一操作示例首先,参照图39所示的流程图(步骤S1到S10)对文档识别设备10(文档处理方法)的第一操作示例进行说明。首先,图像数据读取单元11读取由扫描仪设备40读取的文档30的图像数据40a(步骤S1)。
此外,IDDB读取单元13从IDDB 12读取与文档30的文档ID 31a和32a有关的信息(步骤S2)。
接着提取单元14从图像数据40a提取其中记录有文档ID 31a的区31和其中记录有文档ID 32a的区32(步骤S3)。
接着,识别单元15对由提取单元14提取的文档ID 31a和32a的内容(字符)进行识别(步骤S4)。
接着,检查单元16基于由IDDB读取单元13读取的与文档ID 31a和32a有关的信息,对由识别单元15识别的文档ID 31a和32a中的每一个的校验位进行识别,并进行检查以利用该校验位来判断文档ID 31a和32a中的每一个是否正确(步骤S5)。
其中,如果作为检查单元16的检查的结果识别单元15的识别内容是正确的(在步骤S5中的“是”路线),则确认单元18的判断单元19基于预先设置的文档ID 31a与32a之间的预定关系(见上述图3到图6(a)和6(b))再次对识别单元15的识别内容是否正确进行评估(步骤S8)。
同时,当识别单元15的识别内容不正确时(在步骤S5中的“否”路线),校正单元17评估是否可以使用校验位进行校正(步骤S6),如果判定这里可以使用校验位进行校正(在步骤S6中的“是”路线),则校正单元17使用校验位对文档ID 31a和32a的内容进行校正(步骤S7)。
当校正单元17不能使用校验位进行校正时(在步骤S6中的“否”路线),跳过上述步骤S7的校正处理。
在由校正单元17使用校验位执行校正处理的情况下,确认单元18的判断单元19还基于所述预定关系来评估由校正单元17向其施加了校正处理的文档ID 31a和32a的识别内容是否正确(步骤S8)。
当作为判断单元19的判断的结果,判定文档ID 31a和32a的识别内容不正确时(在步骤S8中的“否”路线),相互校正单元20基于所述预定关系对文档ID 31a和32a的识别内容进行校正(步骤S9)。
当作为判断单元19的判断的结果,判定文档ID 31a和32a的识别内容正确时(在步骤S8中的“是”路线),跳过上述步骤S9的处理。
最后,文档辩识单元22基于文档信息DB 21,利用文档ID 31a和32a的识别内容对文档30进行评估(步骤S10),并结束处理。
按此方式,根据文档识别设备10的第一操作示例,由于针对由识别单元15识别的文档ID 31a和32a的内容执行了由检查单元16使用校验位进行的检查和由判断单元19基于预定关系进行的判断,因此最终对识别内容进行了两次核验,由此以更高的精度识别了文档ID 31a和32a的内容。
此外,可以通过校正单元17和相互校正单元20对识别单元15的识别内容执行校正处理,因此,可以更确定地识别文档ID 31a和32a的内容。
第二操作示例接下来,参照图40所示的流程图(步骤S1到S4、S5a以及S8到S10)对文档识别设备10(文档处理方法)的第二操作示例进行说明。图40中的与前述处理步骤相同的处理步骤具有与前述处理步骤相同或接近相同的处理步骤,因此这里将略去对其的详细说明。
除了不执行校正单元17的使用校验位进行的校正处理以外,图40所示的第二操作示例与上述图39所示的第一操作示例相同。
即,在图40所示的第二操作示例中,在由识别单元15对文档ID 31a和32a执行了字符识别之后(步骤S4),检查单元16使用校正位执行检查(步骤S5a)。
然而,这里不执行校正单元17的基于检查的结果进行的校正处理,并且与检查单元16的检查结果无关地,进行到确认单元18的判断单元19的判断处理(步骤S8)。
例如,如图41(a)所示,根据第二操作示例,当识别单元15由于由折叠纸张导致的折线30b而未正确地识别文档30的文档ID 31a的一部分(在此情况下是左端处的“1”部分)时(在图中由“?”表示),相互校正单元20如图41(c)所示地执行校正处理,而不进行校正单元17使用校验位的校正处理。即,当丢弃了文档ID 31a或32a的校验位时,校正单元17不执行校正处理。这里,相互校正单元20基于文档ID 31a与32a相同的预定关系将文档ID 31a和32a唯一地校正为“1237”。
因此,根据文档识别设备10的第二操作示例,可以获得与在上述第一操作示例中获得的操作效果相同的操作效果,同时,在校正单元17不执行校正处理的情况下,可以按比上述第一操作示例更高的速度执行识别处理。
文档识别系统的效果按此方式,根据作为本发明一个实施例的文档识别系统1,当对其中记录有满足预定关系的多个文档ID 31a和32a的文档30进行识别时,文档识别设备10的确认单元18基于预先设置给文档ID 31a和32a的预定关系来评估识别单元15的识别内容是否正确,当判定为不正确时,确认单元18基于所述预定关系对文档ID 31a和32a进行校正,并对其进行确认。
因此,通过使用多个文档ID 31a和32a对这些文档ID 31a和32a的内容进行了识别,而不是仅通过一个文档ID对文档ID的内容进行识别,从而使得可以高精度地对文档ID 31a和32a的内容进行识别。此外,基于这些文档ID 31a与32a之间的预定关系对识别内容是否正确执行判断处理,并执行校正处理,从而使得可以按更高的精度对文档ID 31a和32a的内容进行识别。
此外,由于可以按更高的精度对文档ID 31a和32a的内容进行识别,因此文档辩识单元22可以按更高的精度对文档30执行判断。结果,使用该文档识别系统1,可以抑制诸如扫描仪设备40对文档30的再读取、操作员的手动输入等(其中断了文档识别设备10的自动处理)的耗时的处理,从而使得可以高效并且高速地对文档30执行高效并且高速的辩识处理。
此外,当确认单元18未确认文档ID 31a和32a的内容时,文档辩识单元22基于定义信息对文档30进行评估,由此可以更确定地对文档30进行辩识。
此外,由于检查单元16使用校验位执行检查,因此检查单元16和判断单元19最终对由识别单元15识别的文档ID 31a和32a的识别内容检查了两次,结果,可以执行更精确的字符识别。
注意,当可以使用校验位进行校正时,校正单元17使用校验位校正文档ID 31a和32a的内容,因此在不通过相互校正单元20进行校正的情况下可以通过识别单元15有效地校正识别内容。
此外,当识别单元15丢弃了文档ID 31a或32a的校验位时,校正单元17不执行使用校验位的校正处理,因此,可以避免诸如对校验位的逆运算的处理(其处理时间相对较长),在此情况下,在相互校正单元20执行校正处理时,识别单元15可以非常高效地执行对识别内容的校正处理。
本发明的变型例顺便指出,本发明并不限于上述多个实施例,在不脱离本发明的范围和精神的情况下可以进行修改。
第一变型例在上述实施例中,对其中文档识别设备10的校正单元17基于校验位执行校正处理的情况进行了说明,然而本发明并不限于该实施例,可以构造出这样的构成,即,校正单元17基于由识别单元15计算出的一致度执行校正处理,通过该构成可以获得与通过上述实施例获得的操作效果类似的操作效果。
同时,当作为检查单元16的检查结果将文档ID 31a和32a均判定为不正确时,优选地,校正单元17基于由识别单元15计算出的一致度执行校正处理。
即,如图42(a)所示,当文档30的各文档ID 31a和32a分别为“1237”和“2964”时,如图42(b)所示,考虑识别单元15将文档ID 31a识别为“1737”并将文档ID 32a识别为“2984”的情况。
在此情况下,如图42(c)所示,当根据检查单元16使用校验位进行检查的结果判定文档ID 31a和32a均不正确(在图中由匹配性“X”表示)时,针对文档ID 31a,校正单元17将在“1737”中具有最低一致度的从左端起的第二数位的“7”校正为具有第二位一致度的“2”(即,校正为“1237”),并使得检查单元16执行检查。然后,如图42(c)所示,当检查单元16判定为正确的(在图中由匹配性“0”表示)时,将该数字字符视为文档ID 31a。
另一方面,针对文档ID 32a,将在“2984”中具有最低一致度的右端的“4”校正为具有第二位一致度的“9”(即,校正为“2989”)。
然后,当作为检查单元16的检查结果再次判定为不正确时,将在识别单元15最初识别出的“2984”中的具有第二最低一致度的从左端起的第三数位的“8”校正为具有第二位一致度的“6”(即,校正为“2964”)。
然后,再次经受检查单元的检查,当此时判定为正确的时,将该数字字符视为文档ID 32a。
由此,可以获得与通过上述实施例获得的效果类似的效果。
第二变型例尽管在上述实施例中使用的构成是当判断单元19将识别单元15的识别内容判定为不正确时,确认单元18的相互校正单元20必定执行校正处理,但是本发明并不限于该构成,例如,当如图43(a)所示满足文档ID 31a与32a相同的关系时,并且当识别单元15丢弃了这些文档ID 31a和32a中的每一个的校验位(在此情况下,参见左端处的“?”)时,并且由排除文档ID 31a和32a的校验位以外的部分构成由文档信息DB 21(在此情况下是表21b)保持的文档信息,相互校正单元20不执行校正处理。
即,确认单元18仅将后3个数位“237”确认为文档ID 31a和32a,在此情况下,文档辩识单元22基于文档ID 31a、32a“237”和表21b来对文档30进行评估。
因此,在此情况下,可以略去相互校正单元20的校正处理,由此使得可以对文档ID 31a和32a高效地进行识别,同时,在不执行由相互校正单元20进行校正处理的情况下,可以高速地执行对文档30的判断处理。
第三变型例尽管在上述实施例中对其中确认单元18的相互校正单元20基于预先设置的文档ID 31a与32a之间的预定关系执行校正处理的示例进行了说明,但是本发明并不限于该示例,例如,可以构造这样的构成,即,相互校正单元20基于由识别单元15计算出的一致度执行校正。
例如,如图44(a)所示,当在文档30中文档ID 31a与32a相同时,由于从文档ID 32a的左端起的第三数位的“3”处产生了折线30b,因此如图44(b)所示识别单元15的识别结果是“8”,如图44(c)所示,相互校正单元20基于从文档ID 31a和32a中的每一个的左端起第三数位的数字字符的一致度执行校正处理。
在本示例中,对图44(c)所示的文档ID 31a和32a中的每一个的第一位字符的一致度进行比较,当为了利用具有最高一致度的“3”对从左端起第三数位数字字符进行确认时,将文档ID 32a的“8”校正为“3”。
由此,可以获得与通过上述实施例获得的效果类似的效果。
同时,如图44(d)所示,当文档ID 31a中的“3”的一致度(在此情况下为90%)与文档ID 32a中的“8”的一致度(在此情况下为90%)相同时,相互校正单元20对由识别单元15针对文档ID 31a和32a中的每一个计算出的具有第一位一致度的内容的一致度与具有第二位一致度的内容的一致度之差进行计算(在此情况下,文档ID 31a的是“50%”,文档ID 32a的是“20%”),并执行校正,以将具有较大差值的文档ID 31a和32a的第一位的内容确认为文档ID 31a和32a的内容。
在本示例中,当为了利用具有较大一致度差的文档ID 32a的“3”对从左端起第三数位的数字字符进行确认时,将文档ID 32a的“8”校正为“3”。
由此,可以更确定地识别文档ID 31a和32a的内容。
此外,当预先准备了如图44(e)所示的示出了由识别单元15计算出的一致度(第一位和第二位候选字符的一致度)的表15b时,并且相互校正单元20对图44(c)或图44(d)所示的一致度与该表15b所示的一致度进行比较,如果存在差异,则可以作出具有不同一致度的字符不正确的判定,因此通过本构成也可以获得与通过上述实施例获得的效果类似的效果。
即,在本示例中,由于文档ID 32a的“8”的一致度(见图44(c)、图44(d))与表15b的“8”的一致度不同,因此相互校正单元20判定该“8”不正确,并将其校正为“3”。
由此,可以获得与通过上述实施例获得的效果类似的效果。
第四变型例在上述实施例中对其中判断单元23基于识别单元15对文档ID 31a和32a的识别状态执行判断处理的示例进行了说明,可以构造这样的构成,即,判断单元23基于扫描仪设备40对文档30的再读取次数确定是否应当由操作员进行手动输入。
即,如图45的流程图(步骤S20到S25)所示,当文档辩识单元22最初不能进行判断时,将再读取次数(Nre)设置为“1”(步骤S20),判断单元23使得扫描仪设备40执行再读取,并由文档辩识单元22执行处理(步骤S21)。
当此时可以对文档进行评估时(在步骤S22中的“是”路线),处理结束。
然而,如果此时尚不可以对文档进行评估(在步骤S22中的“否”路线),则判断单元23对再读取次数进行一次计数(步骤S23),进而对再读取次数是否小于预定次数(NreMax)进行评估(步骤S24)。
当再读取次数小于预定次数时(在步骤S24中的“否”路线),再次执行上述步骤S21到S24的处理。
同时,当再读取次数超过了预定次数时(在步骤S24中的“是”路线),判断单元23判定应当由操作员进行手动输入(步骤S25),从而结束该处理。
由此,可以与上述实施例类似地高效并且以更高精度地执行对文档的判断处理。
此外,优选地,例如,如图46的流程图(步骤S30到S36)所示的预定时间之后或在达到了预定页数之后执行判断单元23所判断的操作员的手动输入,由此,操作员可以在一定程度上集中地执行手动输入处理,并且可以在不中断文档识别设备10的自动识别处理的情况下执行高效的识别处理。
即,文档辩识单元22从处理时间Tng(NG时间)到当前时间(Now)执行判断处理(步骤S31),并且文档辩识单元22不能评估而应当由操作员手动输入的文档的页数(NG页数Nng)的初始状态是“0”(步骤S30),然后判断单元23评估是否使操作员进行手动输入(步骤S32)。
当作为该判断的结果不判定进行手动输入处理时(在步骤S32中的“是”路线),文档辩识单元22对下一文档进行评估(步骤S31)。
同时,当判定进行手动输入处理时(在步骤S32中的“否”路线),判断单元23对NG页数进行一次计数(步骤S33),以对NG页数是否小于预定页数进行评估(步骤S34)。
这里,当NG页数等于或大于预定级时(在步骤S34中的“否”路线),判断单元23判定应当由操作员执行手动输入,并使得操作员执行手动输入处理(步骤S36)。
与之对照的是,当NG页数小于预定级时(在步骤S34中的“是”路线),判断单元23对当前时间是否到了预先设置的预定时间(TngMax)进行评估(步骤S35)。
此时,当尚未到预定时间时(在步骤S35中的“否”路线),再次执行上述步骤S31到S34的处理。
同时,当到了预定时间时(在步骤S35中的“是”路线),判断单元23执行上述步骤S36的处理。
按此方式,在从文档识别处理开始起的预定时间之后或者在达到了预定页数的NG页数之后,可以由操作员执行手动输入。
第五变型例尽管在上述实施例中对其中确认单元18基于预先设置的多个文档ID之间的预定关系对文档ID的内容进行确认的示例进行了说明,但是本发明并不限于该示例,例如,确认单元18可以基于图像状态检测单元24检测的图像状态对文档ID的内容进行确认,根据该构成,可以获得与通过上述实施例获得的效果类似的效果。
即,当在识别对象的文档中记录有3个或3个以上文档ID时,并且当确认单元18的判断单元19判定这些文档ID的内容不正确时,图像状态检测单元24对3个或3个以上文档ID的周缘区的各图像状态进行检测,并且确认单元18可以排除从识别对象检测到的具有最差图像状态的文档ID,并且可以将具有良好图像状态的文档ID的内容确认为在文档中记载的文档ID的内容。
由此,确认单元18可以高效地并且以更高精度地执行确认处理。
其他同时,通过由计算机(包括CPU、信息处理装置以及各种中断设备)执行预定应用程序(文档识别程序),可以实现上述文档识别设备10的图像数据读取单元11、IDDB读取单元13、提取单元14、识别单元15、检查单元16、校正单元17、确认单元18、文档辩识单元22、判断单元23、图像状态检测单元24以及选择单元25的功能。
以记录在计算机可读记录介质中的形式来提供该程序,例如,软盘、CD(CD-ROM、CD-R、CD-RW等)、DVD(DVD-ROM、DVD-RAM、DVD-R、DVD-RW、DVD+R、DVD+RW等)。在此情况下,计算机从记录介质读取文档识别程序,将其传送给内部存储器或外部存储器,并将其存储起来以供使用。
此外,可以先将程序记录在存储单元(记录介质)(例如,磁盘、光盘、磁光盘等)中,并可以通过通信线路从存储单元将其提供给计算机。
在此情况下,计算机是包括硬件和OS(操作系统)的概念,并表示该硬件在OS的控制下进行操作。
此外,在不需要OS并且单独由应用程序来操作硬件的情况下,硬件本身对应于计算机。
硬件至少配备有诸如CPU的微处理器和用于读取记录在记录介质中的计算机程序的装置。
上述文档识别程序的应用程序包括使得上述计算机实现以下单元的功能的程序代码图像数据读取单元11、IDDB读取单元13、提取单元14、识别单元15、检查单元16、校正单元17、确认单元18、文档辩识单元22、判断单元23、图像状态检测单元24以及选择单元25。此外,OS可以代替应用程序来实现这些功能的一部分。
顺便指出,对于作为本实施例的记录介质,除上述软盘、CD、DVD、磁盘、光盘以及磁光盘以外,可以使用其上记录有诸如条码等的符号的各种计算机可读介质,如IC卡、盒式ROM、磁带、穿孔卡、计算机的内部存储器(诸如RAM或ROM的存储器)、外部存储器或印刷品等。[4]本发明的工业应用性如上所述,根据本发明,对于其中记录有满足预定关系的多个文档ID的文档,基于这种预定关系可以高精度地识别多个文档ID。
因此,优选地,本发明用于文档识别系统,当对类型不同的多个文档组进行处理时,在识别文档中在各文档组的前头插入了用于识别文档组的识别信息,在处理文档组中的各文档之前首先识别该识别文档,在确认了该识别文档之后的文档组的类型和页数之后,对这些文档组执行处理,本发明的应用性被认为非常高。
在此情况下,例如,考虑在该文档识别系统中使用如图47所示的识别文档30c。即,在识别文档30c中记录有多个文档ID 31a和32a,同时,记录有随后的文档组的类型(在此情况下为“P”)和页数(在此情况下为“500页”)作为识别信息。
根据本发明,通过使用这种识别文档30c,可以对类型不同的多个文档组高精度并且高效地执行识别处理。
权利要求
1.一种介质处理设备,其包括提取单元,用于从通过读取其上在多个区中表示有满足预定关系的多个信息项的介质而获得的图像数据中提取所述多个信息项中的每一个;识别单元,用于对所述提取单元所提取的所述多个信息项中的每一个的内容进行识别;以及确认单元,其执行以下操作(i)基于所述预定关系,对所述识别单元所识别的所述多个信息项的内容是否正确进行评估;(ii)如果所述评估显示了肯定的结果,则将所述多个信息项的内容确认为被所述识别单元识别出;(iii)如果所述评估显示了否定的结果,则基于所述预定关系对所述识别单元所识别的识别内容进行校正,以确认所述多个信息项的内容。
2.根据权利要求
1所述的介质处理设备,还包括介质辩识单元,该介质辩识单元用于在所述确认单元确认了所述信息的内容之后基于所述信息的内容对所述介质进行辩识。
3.根据权利要求
2所述的介质处理设备,其中,当所述信息的内容不被所述确认单元确认时,所述介质辩识单元基于所述介质的定义信息对所述介质进行辩识。
4.根据权利要求
2所述的介质处理设备,还包括判断单元,该判断单元用于当所述介质辩识单元不能对所述介质进行辩识时,根据所述识别单元对所述介质的信息的识别状态进行判断使所述介质辩识单元再读取不能被辩识的所述介质,还是使操作员进行手动输入。
5.根据权利要求
4所述的介质处理设备,其中,当对所述介质的再读取次数超过了规定值时,所述判断单元决定将手动输入保持在所述介质中的所述多个信息项。
6.根据权利要求
1所述的介质处理设备,还包括检查单元,该检查单元用于在所述多个信息项中的每一个都包含校验位时,基于所述校验位对所述识别单元所识别的所述多个信息项中的每一个的内容进行检查。
7.根据权利要求
6所述的介质处理设备,还包括校正单元,所述校正单元用于当作为所述检查单元使用所述校验位进行检查的结果,所述识别单元所识别的信息的内容不正确时,使用所述校验位对所述信息的内容进行校正。
8.根据权利要求
7所述的介质处理设备,其中,当所述识别单元将多个字符作为所述信息进行识别时,针对每个候选字符计算一致度,并且当作为所述检查单元进行的所述检查的结果,作为所述识别单元所识别的信息的多个字符不正确时,所述校正单元基于所述一致度使用所述多个候选字符对所述信息进行校正。
9.根据权利要求
8所述的介质处理设备,其中,所述多个信息项由第一信息和第二信息构成,并且当作为所述检查单元进行的所述检查的结果第一信息和第二信息均不正确时,所述校正单元执行所述校正。
10.根据权利要求
7所述的介质处理设备,其中,当所述识别单元丢弃了或未识别出所述多个信息项中的任何一个的校验位时,所述校正单元不使用校验位执行校正。
11.根据权利要求
2所述的介质处理设备,还包括检查单元,用于在所述多个信息项中的每一个都包含校验位时,基于所述校验位对所述识别单元所识别的所述多个信息项中的每一个的内容进行检查,校正单元,用于当作为所述检查单元使用所述校验位进行检查的结果,所述识别单元所识别的信息的内容不正确时,使用所述校验位对信息的内容进行校正,其中,当在所述多个信息项中的每一个中所述识别单元只丢弃了或未识别出校验位时,所述校正单元不使用校验位执行校正,并且所述介质辩识单元使用所述多个信息项中的每一个中的除校验位以外的内容对所述介质进行辩识。
12.根据权利要求
1所述的介质处理设备,其中,将所述识别单元构成为在识别出所述信息的内容时,针对所述内容计算一致度,并且,其中,当所述识别单元所识别的所述多个信息项中的每一个的内容不满足所述预定关系时,那么所述确认单元判定所述识别单元的识别内容不正确,并针对其中所述多个信息项中的每一个中的所述内容不相同的部分,基于所述识别单元的所述一致度来执行所述校正。
13.根据权利要求
12所述的介质处理设备,其中,将所述识别单元构成为使得当所述识别单元识别了所述信息的内容时,采用多个候选中的具有最高的所述一致度的第一位内容作为针对所述信息的识别内容,其中,当所述识别单元所识别的所述多个信息项中的每一个的内容不满足所述预定关系时,那么所述确认单元针对所述多个信息项中的每一个对所述识别单元中的具有最高的所述一致度的第一位内容的一致度与第二位内容的一致度之差进行计算,并基于计算出的所述多个信息项中的每一个的差值来执行所述校正。
14.根据权利要求
1所述的介质处理设备,还包括图像状态检测单元,用于在所述提取单元提取了3条或3条以上信息时,对所述图像数据中的包括所述3条或3条以上信息在内的这些3条或3条以上信息的周缘区中的每一个中的图像的状态进行检测;和选择单元,用于基于所述图像状态检测单元所检测的图像状态,从所述3条或3条以上信息选择至少2条信息,其中,所述识别单元对所述选择单元所选择的所述至少2条信息项的内容进行识别。
15.根据权利要求
1所述的介质处理设备,还包括图像状态检测单元,用于在所述确认单元判定所述识别单元所识别的所述多个信息项的内容不正确时并且在所述多个信息项的数量等于或多于3个时,对包括所述3条或3条以上信息在内的这些3条或3条以上信息的周缘区中的每一个中的图像的状态进行检测;并且其中,所述确认单元基于所述图像状态检测单元所检测的图像状态,对所述多个信息项的内容进行确认。
16.一种介质处理方法,其包括以下步骤从通过读取其上在多个区中表示有满足预定关系的多个信息项的介质而获得的图像数据中提取所述多个信息项中的每一个;对所述提取单元所提取的所述多个信息项中的每一个的内容进行识别;基于所述预定关系对所述识别单元所识别的所述多个信息项的内容是否正确进行评估;如果所述评估显示了肯定的结果,则将所述多个信息项的内容确认为被所述识别单元识别出;如果所述评估显示了否定的结果,则基于所述预定关系对所述识别单元所识别的识别内容进行校正,以确认所述多个信息项的内容。
17.一种介质处理系统,其包括介质,在其上的多个区中表示有满足预定关系的多个信息项;扫描仪设备,用于通过读取所述介质获得所述介质的图像数据;以及介质处理设备,用于基于通过所述扫描仪设备获得的图像数据来对所述信息的内容进行识别,其中,所述介质处理设备包括提取单元,用于从所述图像数据提取所述多个信息项中的每一个;识别单元,用于对所述提取单元所提取的所述多个信息项中的每一个的内容进行识别;以及确认单元,其执行以下操作(i)基于所述预定关系对所述识别单元所识别的所述多个信息项的内容是否正确进行评估;(ii)如果所述评估显示了肯定的结果,则将所述多个信息项的内容确认为被所述识别单元识别出;(iii)如果所述评估显示了否定的结果,则基于所述预定关系对所述识别单元所识别的识别内容进行校正,以确认所述多个信息项的内容。
18.根据权利要求
17所述的介质处理系统,其中,将第一信息和第二信息表示为针对所述介质的所述多个信息项,构成所述第一信息的每个字符和构成所述第二信息的每个字符由均具有一对一的对应关系的不同字符构成,并且所述介质处理设备的所述确认单元基于所述对应关系来执行所述判断。
19.根据权利要求
18所述的介质处理系统,其中,通过所述介质处理设备的所述识别单元由具有不低于规定值的识别率的字符来构成所述介质的第一信息和第二信息,并且还通过所述识别率确定所述对应关系。
20.一种计算机可读记录介质,其上记录有介质处理程序,该介质处理程序使得计算机实现基于通过读取其上在多个区中表示有满足预定关系的多个信息项的介质而获得的图像数据来对所述信息的内容进行识别,所述介质处理程序使得所述计算机充当提取单元,用于从所述图像数据中提取所述多个信息项中的每一个;识别单元,用于对所述提取单元所提取的所述多个信息项中的每一个的内容进行识别;以及确认单元,其执行以下操作(i)基于所述预定关系对所述识别单元所识别的所述多个信息项的内容是否正确进行评估;(ii)如果所述评估显示了肯定的结果,则将所述多个信息项的内容确认为被所述识别单元识别出;(iii)如果所述评估显示了否定的结果,则基于所述预定关系对所述识别单元所识别的识别内容进行校正,以确认所述多个信息项的内容。
专利摘要
介质处理设备、介质处理方法、介质处理系统以及其上记录有介质处理程序的计算机可读记录介质。为了使得能够基于通过读取介质而获得的图像数据来精确地识别表示在该介质中的信息的内容,本发明包括提取单元,用于从通过读取其中在多个区中表示有满足预定关系的多个信息项的介质而获得的图像数据中提取所述多个信息项中的每一个;识别单元,用于对所述多个信息项中的每一个的内容进行识别;以及确认单元,其基于所述预定关系对识别单元所识别的多个信息项的内容是否正确进行评估,如果正确,则将多个信息项的内容确认为被识别单元识别出,如果不正确,则基于所述预定关系对所述识别单元所识别的识别内容进行校正,以确认多个信息项的内容。
文档编号G06K9/20GK1991863SQ200610082620
公开日2007年7月4日 申请日期2006年5月19日
发明者金元浩一, 江口真一 申请人:富士通株式会社, 富士通先端科技株式会社导出引文BiBTeX, EndNote, RefMan
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1