表单处理系统、ocr装置、表单制作装置的制作方法

文档序号:6424772阅读:186来源:国知局
专利名称:表单处理系统、ocr装置、表单制作装置的制作方法
技术领域
本发明涉及一种对表单进行制作以及读取的表单处理系统、OCR装置、OCR处理程序、表单制作装置、表单制作程序以及表单处理方法。
背景技术
近年来,在各领域中进行着无纸化,但是例如在组织的基础业务中,发票、考勤表、 调查表、试卷以及医院的诊断表等仍然使用印刷在纸张上的表单。用户为了有效地管理之后通过手写等填写在表单上的信息,利用扫描仪读取表单,利用OCR (Optical Character Reader 光符阅读机)装置实施OCR处理。但是,在表单的布局、格式不正确的情况下,有时无法正确地进行OCR处理。因此, 公开了一种技术,即根据由用户输入的OCR型号、行字段数、字符数自动生成表单格式(例如专利文献1)。另外,提出了一种信息处理装置,即将从表单读取到的图像数据与作为选择基准的多个选择基准图像数据进行比较,选择对应于从表单读取到的图像数据的选择基准图像数据,根据该选择基准图像数据来进行OCR处理(例如专利文献2)。专利文献1 日本特开平8-30659号公报专利文献2 日本特开2000-132542号公报

发明内容
发明要解决的问题以往,无法利用OCR装置对扫描仪所读取到的表单的图像数据正确地进行OCR处理。因此,本发明是鉴于这种问题而完成的,目的在于提供一种能够提高表单的OCR 处理精度的表单处理系统、OCR装置、OCR处理程序、表单制作装置、表单制作程序以及表单处理方法。用于解决问题的方案为了解决上述问题,本发明的表单处理系统包括表单制作装置和OCR装置,表单制作装置具有布局生成部,其生成表示表单布局的布局信息;以及布局发送部,其将所生成的布局信息发送给OCR装置,其中,OCR装置具有布局获取部,其获取从表单制作装置发送过来的布局信息;以及OCR处理部,其根据获取到的布局信息对扫描仪所读取出的表单的图像数据进行OCR处理。OCR装置还可以具有辅助生成部,其生成用于辅助生成布局信息的辅助信息;以及辅助发送部,其将辅助信息发送给表单制作装置,其中,表单制作装置还具有辅助获取部,该辅助获取部获取发送过来的辅助信息,布局生成部根据所获取到的辅助信息来生成布局信息。在辅助信息中还可以包含与使用于OCR装置的OCR处理部的算法有关的算法信肩、ο
辅助生成部根据OCR处理的结果来生成表示所获取到的布局信息的改进点的改进信息,在辅助信息中也可以包含改进信息。表单制作装置可以还具有基准生成部,该基准生成部根据所生成的布局信息来生成基准数据,该基准数据为与OCR处理的结果进行比较的基准,布局发送部将基准数据发送给OCR装置,OCR装置还具有基准获取部,该基准获取部获取发送过来的基准数据,辅助生成部根据所获取到的基准数据和OCR处理的结果来生成改进信息。表单制作装置还可以具有数据输出部,该数据输出部将所生成的布局信息输出到打印机,在所生成的布局信息中包含用于定义可变表单的可变信息,该可变表单是表单中的输入区域可变的表单,当数据输出部将已确定可变信息中的输入区域的布局信息输出到打印机时,布局发送部将已确定可变信息中的输入区域的布局信息发送给OCR装置。当数据输出部将至少已确定输入区域的形状或者数量的布局信息输出到打印机时,布局发送部也可以将已确定该输入区域的布局的图像数据的一部分或者全部作为布局信息的至少一部分发送给OCR装置。布局发送部也可以以印刷出布局的一部分可变的可变表单的情况为条件,将相当于可变表单的可变部分的图像数据发送给OCR装置,以与相当于可变部分的图像数据不同的定时将相当于可变表单的非可变部分的图像数据发送给OCR装置,OCR处理部将从布局发送部分别发送过来的可变表单的可变部分的图像数据与非可变部分的图像数据进行合成而使用于OCR处理。OCR装置还可以具有组管理单元,该组管理单元将根据同一可变表单生成且可变部分不同的多个布局的图像数据与各自的可变表单相关联地进行管理,OCR处理部根据可变表单的识别信息来确定由组管理单元进行管理的可变表单,使用与所确定的可变表单相关联的图像数据中的某一个来进行OCR处理。表单制作装置还可以具有印刷信息发送单元,在进行了印刷可变表单的印刷处理的情况下,该印刷信息发送单元将与该印刷处理有关的信息发送给OCR装置,OCR处理部根据由印刷信息发送单元发送的与印刷处理有关的信息以及获取到的布局信息来进行OCR处理。印刷信息发送单元也可以将可变表单的印刷张数与已确定可变部分的可变表单相关联地发送,OCR装置还具有优先顺序决定单元,该优先顺序决定单元根据由印刷信息发送单元发送的印刷张数来决定由组管理单元管理的多个图像数据的优先顺序,OCR处理部按照由优先顺序决定单元决定的优先顺序将与可变表单相关联的多个图像数据中的每个图像数据与由扫描仪读取到的表单的图像数据进行比较。印刷信息发送单元也可以将表示印刷出可变表单的年月日的日期信息与已确定可变部分的可变表单相关联地发送,OCR装置还具有删除单元,该删除单元根据由印刷信息发送单元发送的日期信息以及印刷张数来决定由组管理单元管理的多个图像数据中的要删除的图像数据。为了解决上述问题,本发明的OCR装置具有布局获取部,其获取从制作表单的表单制作装置发送过来的表示表单布局的布局信息;以及OCR处理部,其根据所获取到的布局信息对扫描仪所读取出的表单的图像数据进行OCR处理。还具有存储单元,该存储单元在由布局获取部获取到布局的一部分可变的可变表单的布局信息的情况下,存储根据该可变表单的布局信息生成且可变部分不同的多个布局的图像数据,OCR处理部将存储在存储单元中的多个图像数据与扫描仪所读取出的表单的图像数据进行比较来进行OCR处理。为了解决上述问题,本发明的OCR处理程序使计算机作为以下部分而发挥功能 布局获取部,其获取从制作表单的表单制作装置发送过来的表示表单布局的布局信息;以及OCR处理部,其根据获取到的布局信息对扫描仪读取到的表单的图像数据进行OCR处理。为了解决上述问题,本发明的表单制作装置具有布局生成部,其生成表示表单布局的布局信息;以及布局发送部,其向OCR装置发送所生成的布局信息,该OCR装置对在表单中填写的填写信息进行分析。为了解决上述问题,本发明的表单制作程序使计算机作为以下部分而发挥功能 布局生成部,其生成表示表单布局的布局信息;以及布局发送部,其向对填写于表单的填写信息进行分析的OCR装置发送所生成的布局信息。为了解决上述问题,本发明的表单处理方法通过表单制作装置以及与表单制作装置通信连接的OCR装置来进行表单管理,表单制作装置生成表示表单布局的布局信息,并将所生成的布局信息发送给OCR装置,OCR装置获取从表单制作装置发送过来的布局信息, 并根据所获取到的布局信息对扫描仪所读取出的表单的图像数据进行OCR处理。发明的效果如上所述,本发明能够提高表单的OCR处理精度。


图1是表示表单处理系统的概要连接关系的说明图。图2是表示表单制作装置的结构的功能框图。图3是表示表单布局的一例的说明图。图4是用于说明布局信息的说明图。图5是表示OCR装置的结构的功能框图。图6是用于说明改进信息的说明图。图7是表示表单处理方法测试时的整体处理流程的序列图。图8是表示表单处理方法使用时的整体处理流程的序列图。图9是例示布局的一部分可变的表单的图。图10是表示变形例1的表单制作装置110的结构的功能框图。图11是表示变形例1的OCR装置120的结构的功能框图。图12是例示变形例1中存储在存储装置204中的表的图。图13是表示变形例1中的使用时的整体处理流程的序列图。附图标记说明100 表单处理系统;110 表单制作装置;120 :0CR装置;130 打印机;140 扫描仪;152 表单;170 布局生成部;172 辅助获取部;174 基准生成部;176 布局发送部; 178 数据输出部;220 布局获取部;2 :0CR处理部;2 辅助生成部;2 基准获取部; 230 辅助发送部。
具体实施例方式下面参照附图详细说明本发明的优选实施方式。上述实施方式示出的尺寸、材料、 其它具体的数值等仅是用于使发明的理解变得容易的例示,除了具有特别说明的情况以外,并不限定本发明。此外,在本说明书以及附图中,对实质上具有相同的功能、结构的要素附加相同的附图标记来省略重复说明,另外省略与本发明没有直接关系的要素的图示。(表单处理系统100)图1是表示表单处理系统100的概要连接关系的说明图。表单处理系统100构成为包括表单制作装置110、0CR装置120、打印机130、扫描仪140。表单制作装置110通过因特网、LAN(LocalArea Network 局域网)、专用线路等通信网150与OCR装置120相连接。 另外,表单制作装置110例如通过LAN与打印机130相连接,OCR装置120例如通过LAN与扫描仪140相连接。当接收到由用户输入的制作布局的输入时,表单制作装置110生成表示表单152 布局的布局信息。并且,打印机130印刷所生成的该布局信息的表单152。用户在印刷出的表单152上通过手写、盖印以及冲压等例如记载业务上的信息。当向表单152的记载完成时,扫描仪140读取记载有信息的表单152,OCR装置120对读取到的该图像数据进行OCR 处理,获取填写在表单152上的填写信息。例如,提出了一种表单制作装置,即根据由用户手动输入的OCR型号、行字段数、 字符数来自动生成表单格式。但是,这种表单制作装置仅自动地调整要制作的表单的文本框、表单尺寸,存在要确定OCR型号等麻烦。并且,在反复读取同一布局的表单的情况下,为了提高OCR处理精度,用户必须对OCR装置指定成为读取对象的表单的读取位置等。本实施方式所涉及的表单处理系统100在表单制作装置110生成布局信息时,还将该布局信息共用于OCR装置120的OCR处理。因而,根据该表单处理系统100,能够在减轻用户的作业负担的同时提高OCR处理精度。下面,按照表单制作装置110、OCR装置120 的顺序详细说明表单制作装置110、OCR装置120的结构。(表单制作装置110)图2是表示表单制作装置110的结构的功能框图。表单制作装置110构成为包括显示部160、操作部162、中央控制部164。显示部160包括液晶显示器、有机EL(ElectroLuminescence 电致发光)显示器等。操作部162包括设置于显示部160的显示面上的触摸面板、设置有多个操作键的键盘、 鼠标等指示装置、十字键以及操纵杆等。表单制作装置110在显示部160中显示布局制作画面,接受用户通过操作部162输入的操作而生成表单152的布局。图3是表示表单152的布局的一例的说明图。如图3所示,作为表单152的布局, 例如设定文本框182a、字符18 、基准标记182c、条形码182d等的配置。在此,在OCR装置 120对扫描仪140所读取的图像数据实施OCR处理时,基准标记182c成为表单152的方向以及布局位置的基准。另外,条形码182d是按照规定的规则对任意的信息进行编码而得到的,例如表示用于识别表单152的表单ID。表单制作装置110根据用户通过操作部162输入的操作来设定图3示出的布局。 此时,表单152包括作为汇总具有规则性的输入方式的区域的多个输入区域184。输入区域184例如被文本框18 包围。在输入区域184中能够按照每个输入区域184而设定假设为要填写的字符种类(英文、数字、日文、符号等)、属性(手写字符、铅字等)等。中央控制部164通过半导体集成电路来控制表单制作装置110整体,其中,该半导体集成电路包括中央处理装置(CPU)、存储有程序等的ROM、作为工作区的RAM等。另外,中央控制部164还作为布局生成部170、辅助获取部172、基准生成部174、布局发送部176、数据输出部178、输出控制部180以及读取控制部182而发挥功能。布局生成部170根据用户通过操作部162输入操作而设定的布局来生成表示表单 152布局的布局信息。图4是用于说明布局信息的说明图。特别是,图4的(a)示出文本框18 的布局信息,图4的(b)示出字符182b的布局信息,图4的(c)示出输入区域184的布局信息。如图4的(a)所示,文本框18 的布局信息例如包括布局ID 190a、表单ID 190b、基准点坐标190c、行歹Ij 190d、尺寸190e、线宽190f、线类型190g、颜色190h等。布局ID 190a是识别该文本框18 的识别信息。表单ID 190b是识别成为表单 152的源的布局信息的识别信息。基准点坐标190c表示成为该文本框18 的基准的点、例如文本框18 左下角的点的坐标。在本实施方式中,坐标系例如以表单152左下角基准标记182c为原点,将横向方向设为χ轴而将纵向方向设为y轴。行列190d表示进一步分割被该文本框18 包围的区域的情况下的行和列的数量。另外,布局信息也可以是不以表为单位设定文本框18 而以进一步分割被该文本框18 包围的区域而得到的块为单位设定该文本框18 的信息。尺寸190e例如表示进一步分割被该文本框18 包围的表而得到的块的宽度和高度,在行、列不同而宽度、高度不同的情况下,按照每个行或者每个列进行设定。文本框18 的线宽190f、线类型190g、颜色190h也同样地,在由于行、列不同而不同的情况下,按照每个行或者每个列进行设定。此时,在相邻的行、列的文本框18 的线宽190f、线类型190g、 颜色190h不同的情况下,文本框18 夹持的部分例如以通过用户的操作输入而在后面进行的设定优先。另外,并不限于利用格线包围四周的文本框182a,还能够单独地设定格线。如图4的(b)所示,字符182b的布局信息例如包括布局ID190a、表单ID 190b、基准点坐标190c、大小190i以及内容190j等。大小190i表示字符182b的大小,内容190j 表示“采购发票” “年” “月” “日”等要实际印刷的字符182b本身。另外,在字符182b例如为连号的发票编号、用户不同而不同的用户编号而可变的情况下,也可以使布局信息包含表示字符182b的变更规则的可变信息。如图4的(c)所示,输入区域184的布局信息例如包括布局ID190a、表单ID 190b、 基准点坐标190c、尺寸190e、字符种类190k、属性1901以及颜色190m等。如上所述,字符种类190k是假设为被填写的字符的种类,例如能够设定英文、数字、日文平假名、日文片假名、标记、日文等。关于属性1901,如果填写的方法为手写则能够设定手写字符、如果为印刷、数据符号等则能够设定铅字等。图4示出的布局信息仅是一例,除了设定基准标记182c、条形码182d以外还可设定能够记载于表单152的各种结构要素的信息。辅助获取部172获取从后述的OCR装置120发送过来的辅助信息。在辅助获取部 172获取到辅助信息的情况下,布局生成部170能够根据该辅助信息生成布局信息。在辅助信息中包含与使用于OCR装置120的OCR处理部中的算法有关的算法信息,例如为OCR装置120的型号名称或者在OCR装置120的OCR处理部中使用的OCR处理软件的名称或者版本。布局生成部170与辅助获取部172所获取的算法信息相应地对布局信息施加限制。例如在根据用户的操作输入配置文本框18 的情况下,布局生成部170对该文本框 18 的线宽190f设置下限值。例如在算法信息为OCR处理软件的名称和版本的情况下,根据以该OCR处理软件和版本确定的算法的性能来设定该下限值。同样地,布局生成部170根据算法信息对基准标记182c的大小190i和配置(基准点坐标190c)、条形码182d的大小190i、扫描仪140无法读取的脱落颜色、字符种类190k、 属性1901等设定项目施加限制。另外,在用户指示了文本框18 等结构要素的配置的情况下,布局生成部170也可以根据算法信息来决定该结构要素的布局信息所含的上述设定项目的初始值。根据使用算法信息的结构,能够减少用于确认表单152的OCR处理精度的测试以及观察该测试的OCR处理结果来修正布局信息这种作业的反复次数,能够大幅减轻用户的作业负担。基准生成部174根据布局生成部170所生成的布局信息来生成成为与OCR装置 120中的OCR处理的结果进行比较的基准的基准数据。后面详细说明基准数据。布局发送部176将布局信息、基准数据发送给OCR装置120。数据输出部178将布局信息变换为与印刷对应的形式之后输出到打印机130。输出控制部180在印刷表单152的情况下控制打印机130使其在预定的印刷条件下进行印刷。输出控制部180并不限于直接控制打印机130的情况,也可以是以下情况输出控制部180将禁止变更的印刷条件等控制信息输出到打印机130,打印机130根据该控制信息来设定印刷条件。当随意地在打印机130中变更印刷条件而例如进行缩小印刷时,印刷出的表单 152的字符大小变小或者线的粗细变细,从而有可能使OCR处理精度下降。输出控制部180 控制打印机130使其在预定的印刷条件下进行印刷,从而能够避免以上的情况。读取控制部182将指定扫描仪140读取表单152并转换为图像数据时的分辨率、 读取后执行的应用程序或命令的指定信息通过通信网150输出到扫描仪140。并不限于通过上述通信网150输出,读取控制部182也可以将指定信息例如作为条形码182d嵌入于表单152,扫描仪140从该条形码182d获取指定信息。根据具备上述读取控制部182的结构,能够以适合于OCR处理的分辨率生成图像数据或者利用扫描仪140的应用程序、命令来校正生成后的图像数据,从而能够进一步提高OCR处理精度。(OCR 装置 120)图5是表示OCR装置120的结构的功能框图。OCR装置120构成为包括显示部 200、操作部202、存储装置204、中央控制部206。显示部200包括液晶显示器、有机EL显示器等。操作部202包括设置于显示部200 的显示面上的触摸面板、设置有多个操作键的键盘、鼠标等指示装置、十字键、操纵杆等。存储装置204包括HDD (Hard Disk Drive 硬盘驱动器)、快闪存储器、非易失性 RAM (Random Access Memory 随机存取存储器)等,存储布局信息等。在本实施方式中,存储装置204与OCR装置120 —体地形成,但是并不限于上述情况,也可以是独立的例如 NAS (Network Attached Storage 网络附加存储)、外置 HDD、USB (Universal Serial Bus 通用串行总线)存储器等。中央控制部206通过半导体集成电路来控制OCR装置120整体,其中,该半导体集成电路包括中央处理装置(CPU)、保存有程序等的ROM、作为工作区的RAM等。另外,中央控制部206还作为布局获取部220、图像获取部222、0CR处理部224、辅助生成部226、基准获取部228以及辅助发送部230而发挥功能。布局获取部220获取从表单制作装置110发送过来的布局信息,存储到存储装置 204。图像获取部222从扫描仪140获取读取表单152而生成的图像数据。OCR处理部2M例如以图像获取部222获取到的图像数据的图像中的基准标记 182c的位置为基准,读取以条形码182d等形式记载的表单152的表单ID。另外,OCR处理部2M从存储装置204读出包含该表单ID的布局信息,根据读出的布局信息对扫描仪140 所读取的表单152的图像数据进行OCR处理(从图像数据中抽取该图像数据所示的字符、 数字等内容的处理)。本实施方式的OCR装置120根据从表单制作装置110获取到的布局信息进行OCR 处理,因此例如可知文本框18 的位置、读取写入信息的位置,从而能够提高OCR处理精度。另外,在OCR装置120中共用由表单制作装置110生成的布局信息,因此用户不需要分别在表单制作装置110和OCR装置120中进行相同的设定,从而能够减轻用户的作业负担。 并且,在根据条件变更、根据OCR处理的结果需要提高OCR处理精度,而要对一次制作的表单152进行布局信息的修正的情况下,也同样地在表单制作装置110和OCR装置120中共用在表单制作装置110中修正过的布局信息,从而能够减轻用户的作业负担。另外,在布局信息中包含可变信息,该可变信息用于对表单152中的输入区域184 的例如形状、大小190i、配置、分割数等可变的可变表单进行定义。在处理这种可变表单的情况下如果不采用某些方法,则OCR处理部2M不得不仅根据图像数据估计该输入区域184,有时无法得到适当的OCR结果。因此,在本实施方式中, 表单制作装置110根据用户的输入操作来确定布局信息中的作为可变信息的输入区域184 的形状、大小190i、配置、分割数等,当数据输出部178将包含确定了可变信息中的输入区域184的可变信息的布局信息输出到打印机130时,以该数据输出部178的输出为契机,布局发送部176将确定了该输入区域184的布局信息发送给OCR装置120。另外,在打印机 130中输入区域184的形状、大小190i、配置、分割数等确定的情况下,布局发送部176也可以以来自打印机130的表单152的实际印刷为契机,将确定了该输入区域184的布局信息发送给OCR装置120。根据上述结构,在OCR装置120中布局信息的输入区域184已确定,因此能够根据正确的输入区域184的信息来提高OCR处理精度,并且由于成为OCR处理的对象的区域缩小,因此能够降低处理负载。另外,这种情况下的布局信息也可以是与用户的操作输入相应的表单152的布局的图像数据。例如,OCR装置120对扫描仪140所读取的表单152的图像数据例如格线的位置等进行校正以与作为布局信息的图像数据一致之后,进行OCR处理。即使根据上述结构也能够提高OCR处理精度。辅助生成部2 生成辅助信息,该辅助信息辅助布局信息的生成。并且,在布局信息中还包含表示布局信息的改进点的改进信息。以上说明了辅助信息中的算法信息,因此在此详细说明改进信息。图6是用于说明改进信息的说明图。特别是,图6的(a)表示布局信息的一例,图 6的(b)表示改进信息的一例,图6的(c)表示基准数据的一例。辅助生成部2 参照由布局获取部220获取到的、例如图6的(a)示出的与输入区域184有关的布局信息。使用图4的(c)说明了上述布局信息,因此省略说明。另外,辅助生成部2 对由OCR处理部2M进行OCR处理的结果、即是否读取出以所参照的布局信息表示的、应该读取写入信息的分割得到的输入区域184的写入信息(读取成功与否)进行确认。例如在读取手写字符的情况下,OCR处理部2M对于与登记于OCR 处理软件的基准字符进行对照的结果是判断为最近的字符,将表示与基准字符匹配的程度的指标值与规定阈值进行比较,判断读取成功与否。该阈值能够根据用户的操作输入来变更。辅助生成部2 根据OCR处理结果,如图6的(b)所示生成将布局信息中表示分割得到的该输入区域184的布局ID 190a与读取成功与否(读取成功与否250)相关联的
改进信息。这样,改进信息例如表示OCR处理的结果、准确地说是在应该读取写入信息的分割得到的输入区域184中读取失败的情况。在布局生成部170中根据该改进信息例如以红色填充读取失败的分割得到的输入区域184或者染红包围分割得到的该输入区域184的文本框18 来促使用户改进。并且,根据用户的操作输入,例如进行增大输入区域184、文本框18 的大小190i等布局信息的修正来实现提高OCR处理精度。根据使用上述改进信息的结构,即使不按照每个输入区域184确认写入信息的读取成功与否也能自动地进行提示,因此能够减轻用户的作业负担,并且能够避免看漏要改进的点这种情况。另外,使用上述表单制作装置110的基准生成部174所生成的基准数据,能够使改进信息成为更有益的信息而有效地实现改进。基准生成部174所生成的基准数据是不包含于布局信息的、使用于确认OCR处理精度的测试中的数据。基准数据例如图6的(c)所示, 包含表示分割得到的输入区域184的布局ID190a、用户用于进行测试而写入到分割得到的该输入区域184的字符的大小^Oa以及内容^0b。在这种情况下,用户预先对在表单152中分割得到的输入区域184内写入被决定为基准数据的、例如大小^K)a、内容^Ob的字符。另外,并不限于手写字符,也可以利用打印机130印刷被决定为基准数据的字符。在这种情况下,不受到用户手写字符的好坏限制, 能够可靠地检测由扫描仪140的图像失真等引起的读取失败来改进OCR处理精度。之后, OCR装置120的图像获取部222通过扫描仪140获取该表单152的图像数据。基准获取部2 获取布局发送部176所发送的基准数据。辅助生成部2 根据基准获取部2 所获取到的基准数据以及OCR处理的结果来生成改进信息。辅助生成部2 例如将表示确定了大小沈彻、内容^Ob的字符等基准数据与实际被写入了字符等的表单152的图像数据的OCR处理结果进行比较,生成改进信息,后述的辅助发送部230将该改进信息发送给表单制作装置110。表单制作装置110根据该改进信息来修正布局信息。根据使用上述基准数据的结构,能够进行是否存在字符错误识别等详细的比较,从而能够提高布局信息的改进精度。如上所述,通过使用算法信息、改进信息这种辅助信息,表单制作装置110能够共享在OCR装置120侧能够掌握的信息,表单制作装置110的布局生成部170能够生成容易进行OCR处理的布局信息。辅助发送部230将由辅助生成部226生成的辅助信息发送给表单制作装置110。以上,通过所说明的表单制作装置110和OCR装置120,能够在大幅减轻用户的作业负担的同时提高OCR处理精度。另外,还提供使计算机作为表单制作装置110而发挥功能的表单生成程序以及作为OCR装置120而发挥功能的OCR处理程序、存储有该表单生成程序或者OCR处理程序的计算机可读取的软盘、光磁盘、ROM、EPR0M、EEPR0M、CD (Compact Disc 致密光盘)、DVD (Digital Versatile Disc 数字多功能光盘)、BD (Blu-rayDisc 蓝光光盘)等存储介质。在此,程序是指通过任意的语言、描述方法描述的数据处理方法。另外,该表单生成程序和OCR处理程序也可以被存储在通过通信网150与表单制作装置110或者OCR装置120相连接的任意的应用程序服务器,根据需要还能够下载其全部或者一部分。(表单处理方法)接着,说明进行上述表单处理系统的使用的表单处理方法。图7是表示表单处理方法测试时的整体处理流程的序列图。图8是表示表单处理方法使用时的整体处理流程的序列图。如图7所示,当OCR装置120将包含算法信息的辅助信息发送给表单制作装置110 时(S300),在表单制作装置110中,布局生成部170根据用户的操作输入来生成表示表单 152的布局的布局信息(S302)。然后,按照印刷表单152的操作输入,数据输出部178将确定了输入区域184的布局信息变换为与印刷对应的形式之后输出到打印机130(S304)。 打印机130印刷表单152(S306)。然后,基准生成部174根据确定了输入区域184的布局信息来生成基准数据(S308)。布局发送部176将布局信息、基准数据发送给OCR装置 120(S310)。用户在印刷出的表单152中记载例如显示在显示部160中的基准数据所示的确定了大小260a、内容^Ob的字符等。在印刷出的表单152中记载了信息之后,扫描仪140读取记载了该信息的表单 152 (S312),将图像数据发送给OCR装置120 (S314)。OCR装置120的OCR处理部2M根据布局信息对图像数据进行OCR处理(S316)。然后,辅助生成部2 根据OCR处理的结果和基准数据来生成改进信息(S318)。辅助发送部230将改进信息发送给表单制作装置110(S320)。 表单制作装置110的布局生成部170根据改进信息来促使用户改进,修正布局信息(S322)。如图8所示,在使用时,按照印刷表单152的操作输入,表单制作装置110的数据输出部178将确定了输入区域184的布局信息变换为与印刷对应的形式之后输出到打印机 130(S340)。表单制作装置110的布局发送部176将布局信息发送给OCR装置120(S342)。 打印机130印刷表单152(S344)。将此时的表单152的布局信息设成通过图7示出的表单处理方法根据改进信息已经修正的信息。然后,用户通过手写等方式将业务上的信息记载于表单152之后,扫描仪140读取已记载的表单152 (S346),当读取到的图像数据发送给OCR装置120时(S348),0CR装置 120的OCR处理部2 对该图像数据进行OCR处理而获取写入信息(S350)。上述图像数据的布局在图7中已经进行了修正,因此OCR处理精度也变高。根据这种表单处理方法,在图7示出的测试时以及图8示出的使用时都能够减轻用户的作业负担,并且通过使用根据改进信息修正的布局信息来提高OCR处理精度。[变形例1]接着,说明上述实施方式的变形例。在变形例1中,说明对于图9的(A)例示的布局的一部分可变的表单(下面称为可变表单)的处理。如图9的(A)例示,在可变表单中包含布局固定的固定部分以及布局可变的可变部分。如图9的(B)所示,在可变部分中,由于输入区域的数量发生变化而可变区域整体的形状也发生变化。如本例所示,在可变部分为表单的主要部分的情况下,将这些部分也使用于OCR处理,能够期望提高OCR处理精度。此外,在本例的OCR处理中包括以下步骤将布局的图像数据与扫描得到的图像数据进行比较,校正扫描得到的图像数据;以及根据布局信息从校正后的图像数据确定字符列等,因此更理想。因此,在利用表单制作装置100设计可变表单的情况下,本变形例的表单处理系统100将由打印机130印刷出的可变表单(即,已确定可变部分的可变表单)存储在OCR装置120,根据所存储的可变表单的布局信息以及布局的图像数据来进行OCR处理。此外,在本变形例中,以将已确定可变部分的可变表单的布局信息以及布局的图像数据存储到OCR 装置120的方式为具体例进行说明,但是也可以将布局信息以及布局的图像数据存储到外部的服务器等,根据需要将这些数据提供给OCR装置120。图10是表示变形例1的表单制作装置110的结构的功能框图。此外,对本图示出的各结构中的与图2示出的结构实质上相同的部分附加相同附图标记。如图10例示,表单制作装置110具有将印刷信息发送部184追加到图2的表单制作装置的结构。在表单制作装置110中,在由打印机130印刷出可变表单的情况下,印刷信息发送部184将与该印刷处理有关的信息发送给OCR装置120。在与印刷处理有关的信息中包含印刷张数(印刷部数)、印刷日期(年月日)以及印刷时的可变部分的数量(可变的量(可变量))等。本例的印刷信息发送部184以由数据输出部178将可变表单的数据输出到打印机130的情况为条件,将要由打印机130印刷的印刷张数以及印刷年月日与要印刷的可变表单的表单ID以及可变量相关联地发送到OCR装置120。即,在已确定可变表单的可变部分的情况下,本例的印刷信息发送部184将其印刷张数以及印刷年月日与已确定的可变表单相关联地发送给OCR装置120。变形例1的布局发送部176以由打印机130印刷出可变表单为条件,将已确定可变部分的可变表单的布局信息的全部或者一部分发送给OCR装置120。例如,布局发送部 176以与相当于可变表单的固定部分的图像数据不同的定时将相当于可变表单的可变部分的图像数据发送给OCR装置120。更具体地说,布局发送部176以由布局生成部170生成可变表单的布局信息为条件,将相当于可变表单的固定部分的图像数据以及布局信息发送给OCR装置120,之后,根据该可变表单的布局信息,以由打印机130印刷出可变表单为条件 (即,以已确定可变表单的可变部分为条件),将相当于可变表单的可变部分的图像数据以及布局信息发送给OCR装置120。此外,OCR装置120对从布局发送部176分别接收的、固定部分的图像数据与可变部分的图像数据进行合成,设为表单布局的图像数据,将固定部分的布局信息与可变部分的布局信息合并设为整体布局信息。图11是表示变形例1的OCR装置120的结构的功能框图。此外,对本图示出的各结构中的与图5示出的结构实质上相同的部分附加相同附图标记。如图11例示,本变形例的OCR装置120具有将组管理部232、优先顺序决定部234 以及布局删除部236追加到图5的OCR装置的结构。在OCR装置120中,组管理部232对根据同一可变表单(未确定)生成且可变部分不同的多个布局的图像数据与可变表单(未确定)的识别信息相关联地进行管理。艮口, 组管理部232将根据同一可变表单(未确定)生成且可变部分不同的多个布局信息以及其图像数据作为组来进行管理。本例的组管理部232将已确定可变部分的可变表单的布局信息以及其图像数据与可变表单(未确定)的表单ID相关联地保存到存储装置204,由此将根据同一可变表单生成的多个可变表单(确定)的布局信息以及其图像数据作为组来进行管理。如图12例示,存储装置204将已确定可变部分的可变表单的布局信息以及其布局的图像数据,与通过组管理部232相关联的可变表单(未确定)的表单ID、根据布局信息确定的可变量(可变部分所含的输入区域的数量)、由印刷信息发送部184发送的印刷张数和最终印刷年月日、由扫描仪140扫描的各可变表单(确定)的读取张数和最终读取年月日、 由优先顺序决定部234决定的组内的优先顺序以及由布局删除部236决定的删除预定日期相关联地进行存储。优先顺序决定部234根据基于同一可变表单(未确定)印刷出且可变部分不同的各可变表单(确定)的印刷张数来决定已确定的各可变表单在组内的优先顺序。更具体地说,优先顺序决定部234根据属于各个组的可变表单(S卩,可变部分不同的可变表单)的印刷张数和最终印刷年月日以及各可变表单的读取张数和最终读取年月日来决定各可变表单(确定)在组内的优先顺序。优先顺序决定部234设为印刷张数越多优先顺序越高、最终印刷年月日越近优先顺序越高、最终读取年月日越近优先顺序越高。另外,优先顺序决定部234根据各可变表单(确定)的印刷张数和读取张数来估计未读取的表单的张数,所估计的未读取的表单张数越多优先顺序越高。布局删除部236根据基于同一可变表单(未确定)印刷出且可变部分不同的各可变表单(确定)的印刷张数以及该可变表单(确定)的读取张数来决定要从组管理排除的可变表单(确定),从存储装置204删除所决定的可变表单。更具体地说,布局删除部236 根据基于同一可变表单(未确定)印刷出且可变部分不同的各可变表单(确定)的印刷张数和最终印刷年月日以及各可变表单(确定)的读取张数和最终读取年月日来按照每个可变表单决定要从组管理排除的删除预定日期,按照所决定的删除预定日期,从存储装置204 删除可变表单(确定)的布局信息以及其图像数据。布局删除部236设为印刷张数越多删除预定日期越迟、最终印刷年月日越近删除预定日期越迟、最终读取年月日越近删除预定日期越迟。另外,布局删除部236根据各可变表单(确定)的印刷张数和读取张数来估计未读取的表单的张数,设为所估计的未读取的表单张数越少删除预定日期越早。变形例1的OCR处理部224以由图像读取部222获取到的图像数据的图像中的基准标记182c的位置为基准,读取以条形码182d等方式记载的表单152的表单ID,根据读取到的表单ID来确定组。接着,OCR处理部2M按照由优先顺序决定部234决定的优先顺序来将属于确定的组的布局的图像数据与由扫描仪140扫描的图像数据进行比较,在发现特征在预定条件以上一致的图像数据的情况下,根据发现的布局的图像数据来校正扫描得到的图像数据,按照该布局的布局信息(输入区域的位置和属性等),从校正后的图像数据抽取字符列等。校正处理例如为图像的倾斜校正、图像的位置偏差校正以及图像的失真校正寸。图13是表示变形例1中的使用时的整体处理流程的序列图。如图13所示,按照印刷可变表单的操作输入,表单制作装置110的数据输出部 178将确定了输入区域的数量的布局信息变换为与印刷对应的形式之后输出到打印机 130(S340)。表单制作装置110的布局发送部176将可变部分的布局信息和图像数据发送给OCR装置120(S34》。此外,可变表单的固定部分的布局信息以及图像数据已预先发送给 OCR 装置 120。打印机130印刷可变表单(确定)(S344)。当可变表单的印刷处理完成时,打印机130将完成的印刷处理的印刷张数以及印刷年月日通知给表单制作装置110(S346)。表单制作装置110将从打印机130通知的印刷张数和印刷年月日以及已印刷的可变表单的表单ID和可变量发送给OCR装置120 (S348)。OCR装置120更新图12例示的数据库(S350)。 具体地说,OCR装置120对新印刷完的可变表单的印刷张数进行相加,并且以所通知的印刷年月日来改写最终印刷时刻。通过该数据库的更新,优先顺序决定部234更新各可变表单的优先顺序,布局删除部236更新已印刷的可变表单的删除预定日期。然后,用户通过手写等方式将业务上的信息记载于表单上之后,扫描仪140读取已记载的表单(S352),当读取到的图像数据发送给OCR装置120时(S354),OCR装置120 的OCR处理部2 对该图像数据进行OCR处理而获取写入信息(S356)。具体地说,OCR处理部2M确定表单ID,按照优先顺序来将与已确定的表单ID相关联的组的图像数据与扫描得到的图像数据进行比较,基于特征预定以上一致的可变表单的图像数据来校正扫描得到的图像数据,根据与该可变表单相关联的布局信息,从校正后的图像数据获取写入信息。当OCR处理完成时,OCR装置120针对与扫描得到的图像数据对应的可变表单,更新图12例示的数据库(S358)。具体地说,OCR装置120对读取张数进行相加,将最终读取时刻改写为当前年月日,随之,更新删除预定日期。根据该表单处理方法,能够期望提高对于可变表单的OCR处理精度。特别是,可变表单的可变部分作为OCR处理的对象是重要的部分的情况较多,因此优选提高该部分的 OCR处理精度。此外,在本变形例1中,说明了表单制作装置110生成可变表单的图像数据并发送给OCR装置120的方式,但是并不限于此,例如,OCR装置120也可以根据未确定的可变表单的布局信息来生成可变部分不同的多个布局的图像数据,对根据同一布局信息生成的多个图像数据进行分组,保存到存储装置204。以上,参照

了本发明的优选实施方式,但是当然本发明并不限于上述实施方式。本领域技术人员在记载于权利要求的范围内的范畴中能够想得到各种变更例或者修正例是显而易见的,这些也当然理解为属于本发明的技术范围。
此外,本说明书的表单处理方法中的各工序不一定按照记载为序列图的顺序以时间序列进行处理,还可以包含并列或者子程序的处理。
权利要求
1.一种表单处理系统,包括表单制作装置和OCR装置, 上述表单制作装置具有布局生成部,其生成表示表单布局的布局信息;以及布局发送部,其将所生成的上述布局信息发送给上述OCR装置, 其中,上述OCR装置具有布局获取部,其获取从上述表单制作装置发送过来的布局信息;以及 OCR处理部,其根据获取到的上述布局信息对扫描仪所读取出的表单的图像数据进行 OCR处理。
2.根据权利要求1所述的表单处理系统,其特征在于, 上述OCR装置还具有辅助生成部,其生成用于辅助生成上述布局信息的辅助信息;以及辅助发送部,其将上述辅助信息发送给上述表单制作装置,其中,上述表单制作装置还具有辅助获取部,该辅助获取部获取发送过来的上述辅助 fn息,上述布局生成部根据所获取到的上述辅助信息来生成上述布局信息。
3.根据权利要求2所述的表单处理系统,其特征在于,在上述辅助信息中包含与在上述OCR装置的OCR处理部使用的算法有关的算法信息。
4.根据权利要求2或者3所述的表单处理系统,其特征在于,上述辅助生成部根据上述OCR处理的结果来生成表示所获取到的上述布局信息的改进点的改进信息,在上述辅助信息中包含上述改进信息。
5.根据权利要求4所述的表单处理系统,其特征在于,上述表单制作装置还具有基准生成部,该基准生成部根据所生成的上述布局信息来生成基准数据,该基准数据为与上述OCR处理的结果进行比较的基准, 上述布局发送部将上述基准数据发送给上述OCR装置, 上述OCR装置还具有基准获取部,该基准获取部获取发送过来的上述基准数据, 上述辅助生成部根据所获取到的上述基准数据和上述OCR处理的结果来生成上述改进fe息。
6.根据权利要求1至5中的任一项所述的表单处理系统,其特征在于,上述表单制作装置还具有数据输出部,该数据输出部将所生成的上述布局信息输出到打印机,在所生成的上述布局信息中包含用于定义可变表单的可变信息,该可变表单是表单中的输入区域可变的表单,当上述数据输出部将已确定上述可变信息中的输入区域的布局信息输出到上述打印机时,上述布局发送部将已确定上述输入区域的布局信息发送给上述OCR装置。
7.根据权利要求6所述的表单处理系统,其特征在于,当上述数据输出部将至少已确定上述输入区域的形状或者数量的布局信息输出到上述打印机时,上述布局发送部将已确定该输入区域的布局的图像数据的一部分或者全部作为上述布局信息的至少一部分来发送给上述OCR装置。
8.根据权利要求7所述的表单处理系统,其特征在于,上述布局发送部以印刷出布局的一部分可变的可变表单的情况为条件将相当于可变表单的可变部分的图像数据发送给上述OCR装置,以与相当于可变部分的图像数据不同的时刻将相当于可变表单的非可变部分的图像数据发送给上述OCR装置,上述OCR处理部将从上述布局发送部分别发送过来的可变表单的可变部分的图像数据与非可变部分的图像数据进行合成而使用于OCR处理。
9.根据权利要求7所述的表单处理系统,其特征在于,上述OCR装置还具有组管理单元,该组管理单元将根据同一可变表单生成且可变部分不同的多个布局的图像数据与各自的可变表单相关联地进行管理,上述OCR处理部根据可变表单的识别信息来确定由上述组管理单元进行管理的可变表单,使用与所确定的可变表单相关联的图像数据中的某一个来进行OCR处理。
10.根据权利要求9所述的表单处理系统,其特征在于,上述表单制作装置还具有印刷信息发送单元,在进行了印刷可变表单的印刷处理的情况下,该印刷信息发送单元将与该印刷处理有关的信息发送给上述OCR装置,上述OCR处理部根据由上述印刷信息发送单元发送的与印刷处理有关的信息以及获取到的上述布局信息来进行OCR处理。
11.根据权利要求10所述的表单处理系统,其特征在于,上述印刷信息发送单元将可变表单的印刷张数与已确定可变部分的可变表单相关联地发送,上述OCR装置还具有优先顺序决定单元,该优先顺序决定单元根据由上述印刷信息发送单元发送的印刷张数来决定由上述组管理单元管理的多个图像数据的优先顺序,上述OCR处理部按照由上述优先顺序决定单元决定的优先顺序将与可变表单相关联的多个图像数据中的每个图像数据与由上述扫描仪读取到的表单的图像数据进行比较。
12.根据权利要求11所述的表单处理系统,其特征在于,上述印刷信息发送单元将表示印刷出可变表单的年月日的日期信息与已确定可变部分的可变表单相关联地发送,上述OCR装置还具有删除单元,该删除单元根据由上述印刷信息发送单元发送的日期信息以及印刷张数来决定由上述组管理单元管理的多个图像数据中的要删除的图像数据。
13.根据权利要求1所述的表单处理系统,其特征在于, 还包括打印机和图像读取装置,上述表单制作装置还具有输出控制部,其在由上述打印机印刷表单的情况下,控制打印机使其在预先确定的印刷条件下进行印刷;以及读取控制部,其在由上述图像读取装置读取表单的情况下,指定图像读取装置的动作方法。
14.一种OCR装置,具有布局获取部,其获取从制作表单的表单制作装置发送过来的表示表单布局的布局信息;以及OCR处理部,其根据所获取到的上述布局信息对扫描仪所读取出的表单的图像数据进行OCR处理。
15.根据权利要求14所述的OCR装置,其特征在于,还具有存储单元,该存储单元在由上述布局获取部获取到布局的一部分可变的可变表单的布局信息的情况下,存储根据该可变表单的布局信息生成且可变部分不同的多个布局的图像数据,上述OCR处理部将存储在上述存储单元中的多个图像数据与扫描仪所读取出的表单的图像数据进行比较来进行OCR处理。
16.一种表单制作装置,具有布局生成部,其生成表示表单布局的布局信息;以及布局发送部,其向OCR装置发送所生成的上述布局信息,该OCR装置对在上述表单中填写的填写信息进行分析。
全文摘要
提供一种表单处理系统、OCR装置、表单制作装置,提高表单的OCR处理精度。本发明的表单处理系统(100)包括表单制作装置(110)和OCR装置(120),表单制作装置具有布局生成部(170)和布局发送部(176),该布局生成部(170)生成表示表单(152)布局的布局信息,该布局发送部(176)将所生成的布局信息发送给OCR装置,OCR装置具有布局获取部(220)和OCR处理部(224),该布局获取部(220)获取从表单制作装置发送过来的布局信息,该OCR处理部(224)根据获取到的布局信息对扫描仪(140)读取到的表单的图像数据进行OCR处理。
文档编号G06K9/00GK102262616SQ20111013642
公开日2011年11月30日 申请日期2011年5月24日 优先权日2010年5月24日
发明者杉田敏彦, 桑村良则, 萩泽章一, 道场乡 申请人:株式会社Pfu
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1