表格形式识别设备与方法

文档序号:6362148阅读:199来源:国知局
专利名称:表格形式识别设备与方法
技术领域
本发明涉及一种系统,用于通过例如扫描器之类的输入装置等将文件与图样转换为图像数据,给图像数据增加处理信息并积累结果数据;同时涉及一种设备,用在图像识别中来识别图像中的分格线的结构,还涉及到进行上述处理的方法。
背景技术
近来,将信息存储于纸上的传统方法已转换为将数据存储于电子媒体上的方法。例如,电子文件编排系统可以用如图像扫描器等光电转换器等将纸上存储的文件转换为光盘,磁盘上的经过转换文件图像,同时将检索用关键字之类的管理信息添加到此已转换的文件图像上。
由于在上述方法中是把文件作为图像数据存储,与在字符识别技术中编码好来存储文件所有字符的方法相比,就需有较大的盘存储容量。但是上述方法易配合以高的处理速度,同时还可以原样地存储含有异于字符的数据的图像与表。另一方面,所存储的信息则要利用附加的管理信息如关键字、序号等与文件图像在一起检索。这类常规的系统需要耗费很大的气力与时间来指派关键字,不能提供用户友好工艺。
为了解决上述传统系统的这一棘手问题,可将文件的标题设定为关键字,自动地提取,作为字符识别,并编码用于和文件图像一同存储。
当前,识别字符的速度达每秒几十个字符,处理一张标准的文件页(约21cm×29.5cm)需约30秒至数分钟。为此,建议不要去识别整个文件的所有字符,而首先是从文件的图像中提取必要的标题,然后去识别它们。
通过光电转换器来读取文件从获得的文件图像来提取文件的一部分例如文件标题的传统技术,已描述于本发明申请人提出的美国专利申请08/694503与日本专利申请H7-341983中,题名为“用于从文件图像中提取标题的标题提取设备及其相应方法”。图1A表明了这种标题提取设备的原理。
图1A所示的标题提取设备包括字符区生成单元1、字符串区生成单元2以及标题提取单元3。字符区生成单元1通过标记图像元素的连接成份而提取通过扫描器等从文件图像输入的例如作为字符一部分的部分图案。然后通过组合若干个部分图案而提取(生成)一字符区。字符串区生成单元2组合一批字符区而提取(生成)一字符串区。标题提取单元3则提取作为一标题区的可能是一标题的字符串区。
此时,标题提取单元3则利用一些显著的点,例如顶部与中心位置、比文件主体字符大小大的字符大小、字下划线的表示,等等,作为标题区的概率。此概率表示为各个字符串区的分数,用来依照从最高分到最低分的秩序获得标题区的一批候选者。在上面所述的方法中,能够从不含表的文件中提取标题区。
而当文件含有表时,标题提取单元3则在字符中区生成单元2于该表中提取一字符串后,在考虑到字符数的条件下来提取标题区。例如,表明隐含标题存在性的项目名称的字符数,如“Subject”、“Name”等等是比较小的。构成表示标题本身的字符串的字符数则可能较大,例如“...relatiug to...”。这样,可能是一个标题的字符串便能够从相邻的字符串利用其中的字符数探测出。
但是,存在着许多使用分格线的表格式文件,例如单据票证等。于是,上述传统的技术就有着很少可能从表中成功地提取出标题的问题。
例如当标题是写在表的中心或底部周围时,仅仅依靠优先从顶部提取字符串是不可能正确地提取标题的。此外,如图1B所示,批准栏11位于表的顶部。要是在此批准栏11中存在有许多过量的字符串,如“general monager”(总经理)、“manager”(经理)“sub-manager”(副经理)、“person in charge”(负责人)等,则这些字符串将被优先提取,从而就不能正确地提取标题。
如项目名称12与标题13相组合的结果所表示,标题可以写于项目名称12之下而不是在其右侧。此时项目名称与标题便只能根据相邻字符串字符数的信息来识别。此外,在日文中,项目名称不仅写作水平的而且也有写成垂直的。于是就很难明确项目名称的位置。当一个文件包含两个表时,标题有可能位于较小表上的某处。
由于包含表的文件可以写作不同格式,表的前述概率便取决于各个文件,因而便降低了从表中提取标题的精确性。要是输入文件图像的状态不佳,则提取的精确性将进一步降低。
在电子文件编排系统中,提取的标题区通过光学字符阅读器(OCR)进行字符识别生成字符码,并将其作为管理信息添加到图像上。这样便可以用字符码来检索数据库的图像。
这时,要是可由OCR读取标题区中的字符串就不会有问题。但要是背景显示纹理图形或字符是设计的字型,则当前的OCR不能识别字符串。于是这时不能将管理信息添加到图像上。

发明内容
本发明的目的在于提供设备与方法以提取合适的管理信息,用来管理各种格式下的文件图像,同时提供根据此管理信息来累积图像的设备与方法。
具有本发明的管理信息提取设备与图像累积设备的图像管理系统包括用户入口单元、计算单元、词典单元、比较单元、提取单元、存储单元、组生成单元与检索单元。
根据本发明的第一方面,在此提供一种表格形式识别设备,此设备包括存储装置,用来存储表格形式的分格线信息;组生成装置,用来获得从输入图像提取的且与此存储装置分格线信息中所含分格线对应的分格线的一批可能组合,并从这批组合中提取两或多个可兼容的组合,其中不能够包含另一个组中的组合;以及比较装置,用来根据有关此一或多个提取组中所含组合的信息使输入图像与前述表格形式比较。
根据本发明的第二方面,在此提供一种表格形式识别方法,此方法包括下述步骤求出从输入图像提取出的分格线与预存储的表格形式中对应分格线的一批可能组合;从这批组合中提取两或多个可兼容的组合,其中不能够包含另一个组中的组合;以及根据有关一个或多个提取出的组中所含组合的信息,使输入图像与前述表格形式比较。


图1A示明根据提出的专利申请的标题提取设备的配置;图1B示明表格式的文件;图2A示明管理信息提取设备的原理;图2B示明管理信息提取过程;图3是表明在学习一种表格形式时所进行的过程的第一流程图;图4是表明在作业中所进行的过程的第一流程图;图5示明信息处理设备的配置;图6是表明在学习一种表格形式时所进行的过程的第二流程图;图7示明分格线结构提取过程;图8表明管理信息位置的确定过程;图9表明粗分类中第一分格线的特征;图10表明粗分类中第二分格线的特征;图11表明粗分类中第三分格线的特征;图12表明粗分类中第四分格线的特征;
图13表明提取相交字符串的方法;图14表明相交字符串;图15是表明交比计算过程的流程图;图16表明采用交比指示轮廓的分格线的特征;图17是表明作业中所进行过程的第二流程图;图18表明DP(动态程序设计)匹配;图19是表明DP匹配过程的流程图;图20是表明管理信息位置计算过程流程图(1);图21是表明管理信息位置计算过程流程图(2);图22是表明管理信息位置计算过程流程图(3);图23表明应用用户输入方式与自动学习方式提取管理信息的过程;图24是表明表内管理信息提取过程流程图;图25是表明无分格线的文件图像的管理信息提取过程的流程图;图26是表明管理信息存储过程的流程图;图27是管理信息存储表;图28是表明管理信息检索过程的流程图;图29是相关曲线图;图30是表明形式识别过程的流程图;图31表明基准宽度、基准高度与基准点;图32表明水平分格线;图33表明垂直分格线;图34表明有关水平分格线的细节信息;图35表明有关垂直分格线的细节信息;图36表明模型匹配过程的流程图;图37是匹配表;图38表明阈的功能;图39表明顺序反转的情形;
图40表明指定两组相对应的分格线的情形;图41表明由最佳路径集表示的分格线的对应关系;图42是表明节点布置过程的流程图;图43是表明路径生成过程的流程图(1);图44是表明路径生成过程的流程图(2);图45表明存储单元的节点串;图46表明应用细节信息的确定过程;图47是表明最佳路径集确定过程的流程图;图48是表明节点数更新过程的流程图;具体实施方式
下面参考附图详述本发明的最佳实施例。
图2A表明包括本发明的管理信息提取设备与信息积累设备的图像管理系统的原理。此系统包括本发明的第一、第二、第三与第四组成部分且包括用户输入单元21、计算单元22、词典单元23、比较单元24、提取单元25、存储单元26、组生成单元27与检索单元28。
根据本发明的第一组成部分,计算单元22根据有关相对于包含输入图像的表区轮廓部的分格线位置的信息,来计算此输入图像中所含管理信息的位置。提取单元25则根据计算单元22计算出的位置从输入图像中提取管理信息。
例如,作为关于表区轮廓部的信息,应用了表区的参考尺寸或是接近此表区轮廓部的参考点的位置。计算单元22将从表区提取的分格线的位置表示为有关相对参考点的位置的信息,同时据包含管理信息的分格线的位置信息来求出管理信息的位置。提取单元25提取对应于作为管理信息的位置的图像数据并在必要时识别字符。
通过对于表的轮廓部中或一批方向中的一批参考点获得了包含管理信息的分格线的相对位置后,即使输入图像因中断或噪声等而处于劣态时,也能以良好的精度等提取管理信息。
依据本发明的第二组成部分,词典单元23存储着一或多个表格形式中分格线结构的特征以及各个表格形式中的管理信息。比较单元24比较输入图像中分格线结构特征与词典单元23中存储的分格线结构特征。提取单元25根据比较单元24得到的比较结果,参考关于存储于词典单元23中管理信息的位置信息,同时提取输入图像的管理信息。用户入口单元21则进行词典单元23中由用户确定的管理信息位置。
表格形式指形成此表格的分格线的布局结构。词典单元23预存储有分格线结构特征以及用户入口单元21所确定的管理信息。比较单元24则求得一种表格形式,后者具有的分格线结构特征与输入图像中的类似。提取单元25从上述表格形式中所明确的位置提取管理信息。
这样,即使是输入有各种表格形式的图像时,通过预先输入用户所要求的管理信息的位置并在此确定的位置从输入图像提取管理信息,就能从各个图像中精确地提取管理信息。
根据本发明的第三组成部分,存储单元26存储作为积累图像的管理信息的图像信息,检索单元28则检索此图像信息。
例如在用于积累许多图像的电子文件编排设备中,从各个图像中提取出的图像码的作为管理信息存储于存储单元26中。检索单元28通过例如模板匹配使给定的图像码与存储单元26中的图像码比较,检索图像信息。
于是,本发明不仅能存储/检索字符码的管理信息的字符串,而且还能存储/检索作为图像本身的字符串。这样,例如有纹理的字符、设计字型、徽标等难以正确识别的字符,可以作为管理信息处理。
依据本发明的第四组成部分,存储单元26存储有关表格形式的分格线信息。组生成单元27获得从输入图像中提取出的分格线与存储单元26的分格线信息中所含分格线间一批可能的组合,并从这批组合中提取包含可相互匹配的两种或多种组合的组,但所提取的组中不得包含另一个组中的组合。比较单元24将输入的图像与根据有关含于一个或多个提取组中组合的信息作比较。
组生成单元27获得输入图像中的分格线与表格形式中分格线的可能组合,用存储单元26中存储的表格形式来识别输入图像中的表格形式。与此同时,例如相对于整个表格在尺寸与位置上相互类似的规格线便作为可能的组合而被检索。
然后,通过使输入图像中所含分格线间的关系与一表格形式中的分格线间的关系比较,来确定两种组合是否匹配。此时,作匹配性检验的对象数可以减少,而通过这样地形成一个新组,使得它不包括其它组中业已含有的组合时,就能有效地进行这个过程。
比较单元24考虑到各组的最佳集之中含有较多个数的组合时,就表明输入图像与表格形式间有较高的相似性,而确定出具有最高相似性的表格形式作为对应于输入图形的表格形式。
这样就能很快地识别输入的图像并有效地执行管理信息提取过程。
例如,图2A所示出的用户输入单元21对应于后述图5所示的输入单元43,而词典单元23与存储单元26则对应于图5中的外存储单元45。此外,计算单元22、组生成单元27与检索单元28则对应于图5中的中央处理机(CPU)41与存储器42。
根据本发明,可以学习熟知的表格中的分格线的布局结构供各种应用。学得的信息可用来从未知的表格格式中精确地提取标题。为此设定了表格形式学习方式与作业方式。上述布局结构以后称作格式结构或表格形式。
图2B概示了管理信息提取过程。管理信息提取设备首先在学习过程中学习已知格式的文件A、B、...中分格线的布局以及正确标题区等之中的用户明确的位置。然后生成一包括上列信息的布局词典(格式词典)31。
上述用户明确标题位置的方式可以是未对文件A与B作出格式识别的用户输入方式,或是格式已识别的自动学习方式。各种方式中的作业描述于后。
作业中,管理信息提取设备从输入的未知文件32中提取分格线布局,使此布局与布局词典31匹配。这样就能识别格式上与布局词典中存储的布局匹配的文件。在这一例子中,文件32的布局与文件A的布局匹配。
然后,管理信息提取设备参考有关由对应文件A所明确的标题位置的信息,并高精确地从文件32的字符串区提取标题。此外,通过指示用户去明确不仅是标题而且是例如日期等的其它标记区作为管理信息,就能高精度地提取有关各种文件的管理信息。
由于管理信息应在用户于作业中用扫描器输入文件时快速而自动地提取,本发明中采用了以交互操作为特征的高速算法。在这种算法中,首先按粗的分类,通过给输入文件的相应形式明确候选者,高速地进行分类过程,然后再进行细分类(识别)。在格式学习过程中还进行相应的过程。
图3是概示表格形式学习方式中过程的流程图。过程开始时,管理信息提取设备首先输入拟学习的文件图像(步骤S1)并提取分格式结构(步骤S2)。然后,管理信息提取设备询问用户有关管理信息的位置,并指示用户明确此位置(步骤S3)。
随后,管理信息提取设备通过在提取的分格线结构中区别实线与虚线,而提取用于粗分类的分格线特征(步骤S4),同时提取指明用于详细识别的外形(轮廓)的分格线结构(步骤S5)。例如,对数据转换稳定的分格线结构的特征即用作为粗分类的特征。作为详细识别的特征,当考虑到高速过程时,则采用与表的轮廓有关的交比。
之后,管理信息提取设备在布局词典31中存储提取的分格线特征与管理信息所明确的位置步骤S6,而中止此过程。所存储的信息在作业方式中作为参考,并用来从未知文件中提取管理信息。
图4是概示作业方式中过程的流程图。当过程开始,管理信息提取设备首先输入待处理的文件图像(步骤S11),并提取分格线结构(步骤S12)。
接着,管理信息提取设备从分格线结构提取粗分类的分格线特征(步骤S13),使它们与布局词典31中的相应信息比较,并进行分格线结构的粗分类(步骤S14)。结果,能与布局词典31的分格线结构相匹配的布局词典31中的分格线结构便被提取作候补者。
随后,管理信息提取设备从分格线结构中提取指明详细识别轮廓的分格线特征(步骤S15),使它们与有关粗分类中提取出的候补者的对应信息比较,并识别分格线结构的细节(步骤S16)。在此步骤中,例如对交比进行一维匹配过程以明确与输入文件相对应的候补者。
之后,管理信息提取设备根据以候补者形式明确的管理信息位置计算输入文件图像中管理信息的位置(步骤S17),并中止此过程。这样,根据已知文件中由用户明确的位置信息,就能高精度地从输入文件图像中提取管理信息。由于这种表格形式比较过程是在操作中于粗分类和细节识别两个步骤中进行的,因而详细区分的候补者是有限的,从而能加速提取过程。
本实施例的管理信息提取设备可以由图5所示的信息处理装置(计算机)来实现。图5所示的信息处理装置包括CPU 41、存储器42、输入单元43、输出单元44、外存储单元45、媒体驱动单元46、网络连接单元47、光电转换单元48,而各个单元通过总线互连。
CPU 41执行应用存储器42的程序,并进行图3与4所示的各过程。存储器42可以是只读存储器(ROM)、随机存储器(RAM)等。必要的数据例如布局词典31等则暂存于RAM中。
输入单元43例如可以是键盘、定点装置等,用在用户输入请求或指令时。输出单元44例如可以是显示装置、打印机等,用于给用户发出询问或输出处理结果时。
外存储单元45例如可以是磁盘装置、光盘装置、磁光盘装置等,存储程序与数据,它也可用作存储图像与布局词典31的数据库。
媒体驱动单元46驱动便携式存储媒体50并存取其中内容。便携式存储媒体50可以是任意的计算机可读的存储媒体,例如存储插件、软磁盘、致密盘只读存储器CD-ROM、光盘、磁光盘等。便携式存储媒体50不仅存储数据还存储执行各个上述过程的程序。
网络连接单元47连到任意的通信网络例如局域网(LAN)等,执行与通信有关的数据转换。上述处理信息提取设备通过网络连接单元47从外数据库等接收必要的数据与程序。光电转换单元48例如可以是图像扫描器,接收待处理的文件图像、图样等。
下面参看图6至16说明表格形式学习过程中所进行的各个步骤。
图6是流程图,表明表格形式学习过程中执行的各个步骤的细节。图6中与图3中过程步骤上对应的步骤采用相同的标号。在步骤2的分格线提取过程中,管理信息提取设备从输入的文件图像中提取垂直与水平虚线(步骤S2-1)和垂直与水平实线(步骤S2-2),如图7所示,然后提取由垂直与水平分格线所包围的矩形网目(矩形区)(步骤S2-3)。
在提取分格线与矩形网目时,用到了本发明申请者所公开的工艺设备,如图像提取设备(日本专利(公开)H7-28937)、字符框提取设备与矩形提取设备(日本专利申请H7-203259)等。根据上述工艺设备,可以不需输入有关一格中分格线的位置等信息而从图像中提取或去掉字符框。下面概述分格线结构的提取过程。
(1)减薄过程、于屏蔽过程减薄垂直与水平线,消除字符与框之间的厚度差。
(2)线段提取过程用相邻投影法提取较长的线段。相邻投影法将目标行或列中所含图像元素的投影值以及周围的行或列的投影值的和定义为目标行或列的投影值。根据此投影法,围绕特定的行或列的图像元素分布可从全局观点加以识别。
(3)直线提取过程顺序地检索提取出的线段,检验等于或大于线段间预定距离的距离中是否有间断性。然后将不存在这种间断性的线段顺次组合以提取长的直线。
(4)直线组合过程重新组合提取出的线段。将断开的两或多个线段重组成直线。
(5)直线延伸过程因断裂而缩短的直线只当文件写作为正规表格式才延伸并复原至原长。
(6)确定形成部分框的水平线;根据“字符框提取设备与矩形提取设备”(日本专利申请H7-203259)中指出的规则,形成一排输入框的一对水平直线,是从表的上部顺序地作为形成部分字符框架的水平线按双线单元提取的。
(7)确定形成部分框的垂直线对于上述输入框的各行确定形成部分字符框架的垂直线。两端够到形成目标行的两条水平线的垂直线定义为形成部分行的垂直线。
(8)矩形网目提取过程形成一框的两条水平线与两条垂直线所包围的矩形网目作为一个字符区提取。
然后,在步骤S3的管理信息位置的确定过程中,管理信息提取设备于显示单元的屏幕上显示输入的文件图像,并指示用户用鼠标去指点表明标题的字符串中的任何点,并存储包含有已点明位置的矩形网目51的位置信息。
有关矩形网目51的位置信息是根据表的轮廓上任意交点而确定的,并对应于有关从此交点到矩形网目51的位置的矢量的信息。例如,要是左上顶点52、左下顶点53、右上顶点54、右下顶点55为一矢量的起点,则存储从各个顶点分别到左上顶点56、左下顶点57、右上顶点58、右下顶点59的差向量A、B、C与D的数据。同时还存储表的高度ho与宽度wo及矩形网目的高度H1与宽度W。
在步骤S4的粗分类分格线特征的提取过程中,管理信息提取设备首先计数水平与垂直分格线的交点(步骤S4-1)。然后提取各交点的交叉状态以获得频率分布(步骤S4-2)。此交叉态由码(K1、K2、K3与K4)表示,指明从交点引伸出的垂直或水平分格线的存在性以及分格线的类型。
元素K1指交点上方的分格线。元素K2指交点下方的分格线。元素K3指交点左方的分格线。元素K4指交点右方的分格线。当无分格线存在时,各元素的值为0,当存在实线时此值为1,当存在虚线时此值为2。例如图9所示交点的交叉态表示为(1,1,1,1),图10所示交点的交叉态表示为(1,1,1,0)。图11所示交点的交叉态表示为(0,2,2,2)。图12所示交点的交叉态表示为(1,1,2,2)。由于(K1,K2,K3,K4)中的每个元素可以指派三个值中的任一个,可能的码数是34(=81)。在步骤S4-2,对81种码的各个码求得其发生数(频率)并加以存储。
下面计算各矩形网目的宽-高比,并计算其频率分布作为矩形网目的频率分布(步骤S4-3)。当矩形网目的高为H1而且宽为W1时,此宽-高比表示为W1/H1。通过使W1/H1的值从0开始依次增加5,并计算具有对应于各个值的宽-高比的矩形网目,可求得此宽-高比的频率分布。在此同时,超过某个阈值(例如10)的矩形网目则汇点计数。
在步骤S5的细节识别轮廓分格线特征的提取过程中,管理信息提取设备首先依序地从包括有交点的各行或各列中,在水平与垂直方向上从外部检索包括四个交点的交点串。
例如在图13所示分格线结构的情形,当从第二行的左端依次检索四个交点时,检索到交点65、64、63与62。当顺序地于第三列从上起检索四个交点时,检索到交点66、63、67与68,当从这列底部起依序检索四个交点时,则检索到交点70、69、68与67。
计算与所检索的交点串有关的维堆投影不变量的交比。例如,要是如图14所示检索到包括四个交点X1、X2、X3与X4的交点串时,此交比表示为 式中|xi-xj|指交点xi与xj(i,j=1,2,3或4)之间的宽度(距离)。式(1)中的交比例如是依据图15所示的流程图计算的。在交比计算过程开始时,管理信息提取设备输入四个交点X1、X2、X3、X4的坐标数据(步骤S21)。
然后,计算交点X1与X2间的距离而输入变量a(步骤S22),计算交点X3与X4间的距离而输入变量b(步骤23),计算交点X1与X3间的距离而输入变量c(步骤S24),再计算交点X2与X4间的距离输入变量d(步骤S25)。随即计算ab/cd,将此结果作为交比存储(步骤S26),至此结束此过程。
这样,通过计算所有交点串的交比,能够使围绕表的轮廓的一系列交点的特征定量化。结果,此表轮廓的二维特点便为一列一维数值表示,如图16所示。这一列交比值以后将称作交比串。
图16中,在交比串R〔1〕、R〔2〕、R〔3〕、...R〔n〕对应于表明各行最右部特征的交比。在交比中L〔1〕、L〔2〕、L〔3〕、...L〔M〕对应于表明各行最左部特征的交比。上交比串U〔1〕、U〔2〕、U〔3〕...U〔W〕对应于指明各行顶点特征的交比。下交比串D〔1〕、D〔2〕、D〔3〕、...D〔V〕对应于表明各行底部特征的交比。
一般情况下,由于分格线结构并非在表的最左与最右部分对称,或是在部分图像中的线道有可能断裂或变形,n就并不常常与M匹配。类似地,W也未必与V一致。
将四个方向上的这些交比串组合成一串,就可生成一以各交比的值为元素的特征向量(R〔1〕、...、R〔n〕、L〔1〕、...、L〔m〕,U〔1〕、...、U〔w〕,D〔1〕、...、D〔V〕)。
上例中是把四个交点间距离的比作为表明用于细节识别的轮廓的分格线特征。但是也可采用任意多个(至少四个)交点间的距离比。这种情形下,同样可将这些比排成一维序列来表示上述轮廓特征。
在步骤S6的过程中,管理信息提取设备于布局词典31中存储步骤S3中明确的管理信息位置,以及步骤S4与S5中求得的分格线特征,作为有关表格式文件的识别信息(表格形式信息)。
下面参看图17~22描述上述作业中的各个过程。
图17是表明学习一表格形式中所进行的过程的细节。图17中,对应于图4所示步骤的过程步骤赋以相同的标号。首先,在步骤S12的分格线结构提取过程中,管理信息提取设备从输入的文件图像中提取垂直与水平虚线(步骤S12-1)、垂直与水平实线(步骤S12-2)以及为垂直与水平分格线所围成的矩形网目,这和步骤2中学习表格形式中进行的过程相同。
在步骤S13中粗分类分格线特征提取过程中,管理信息提取设备计算水平与垂直分格线网的交点数(步骤13-1),求出各交叉态的频率分布,同时计算各矩形网孔的宽-高比的频率分布,这和步骤4中学习表格形式中的过程相同。
在步骤S14的粗分类过程中,管理信息提取设备应用交点数、交叉态频率分布以及矩形网目宽-高比的频率分布,将获得的数据与有关布局词典31中许多表的表格形式信息相比较,用以限制相应的表的候选者数。本例中,考虑到图像中线道的断裂或变形,对于交点数、交叉态的频率与矩形网目的宽-高比的频率的相应特征,均设定了适当的预定阈值。要是布局词典31的表格形式信息与预定允限内有关输入图像的信息匹配,则它就被确定为表的候选者。
例如,假定输入的文件图像的交点数是Ki而存储于布局词典31中表格形式t的交点数是kt,则当这两个值之间差的绝对值|ki-kt|在阈值THk内时,便将此表格形式t定作候选者。这样,要是输入文件图像的元素与布局词典31中的表格形式相应信息间的差都在各有关阈值内,则此表格形式便规定为与输入文件对应的表格形式的候选者。
由于交点数、交叉态、矩形网目频率分布等特征通常相对于图像数据的波动是稳定的,它们可以用作与文件图像精确比较的数据来表明此图像线道的断裂或变形情形。
在步骤S15中细致识别轮廓分格线特征的提取过程中,管理信息提取设备如同在学习表格形式中进行的步骤S5的过程中一样从四个方向计算一维投影不变量。
在步骤S16的细致识别过程中,管理信息提取设备只对依据粗分类的表就候选者比较交比串。在此过程中,这些交比串分别是在四个方向中在输入的表格形式和所学习的表格形式之间相关联的。由于目标的表格形式的结构是一种表,分格线的序列在行或列之间是不反转的。因此,只就因考虑到断裂或变形的分格线的部分损失进行动态程序设计(DP)匹配。
DP匹配是周知的作为匹配时间序列数据如声音等的一种方法,例如详述于Kyoritsu出版社出版的,Noboru Funakubo著“图像识别”p62~67中。在此方法中,给数据的局部特征指派了相似性,并在比较两个数据组时,用指派的相似性定义了表明整个对应关系可接受性的评价函数。确定数据的对应关系来获得此评价函数的最高值。
图18表明用DP匹配的右交比串的比较过程。图18中,输入表格形式的右交比串R〔1〕、R〔2〕、R〔3〕、...、R〔n〕对应于布局词典31中学习的表格形式的右交比串R’〔1〕、R’〔2〕、R’〔3〕、...R’〔n’〕。
在上述比较过程中,考虑了分格线的可靠性,因而由可靠的分格线求得的交点中的交比与由其它分格线求得的交比,它们之间评价函数的对应权值是不同的。例如,对由可靠的分格线求得的交比的相似性赋予较高的权值。
图19是示明用DP匹配的右交比串比较过程的例子的流程图。过程开始时,管理信息提取设备首先将输入表格形式的右交比串存储于阵列R〔i〕(i=1,2...,n)中,同时将学习到的表格形式的存交比串存储于阵列R’〔k〕(k-1,2,...,n’)中(步骤S31)。
然后,初始化误差阵列E〔i,k〕(步骤S32),并通过下述递归公式(i=1,...,n,k=1,...,n’)进行计算(步骤S33)。
E〔i,h〕=min{E〔i-1,k〕+d〔i,k〕,E〔i-1,k-1〕+λ·d〔i,k〕,E〔i,k-1〕+d〔i,k〕}(2)式中E〔i,k〕指,当一部分交比串(R〔1〕,...,R〔i〕)与(R’〔1〕,...,R’〔k〕)相关联时,累积误差的最小值。于是,在计算作业中将累积误差用作评价函数时,E〔i,k〕就提供它的最小值。d〔i,k〕则R〔i〕与R’〔k〕关联时的误差,例如可由下式计算。
d(i,k)-|R〔i〕-R’〔k〕| (3)前一式中的λ指d〔i,k〕的权值,而min{}指{}中各元素的最小值。
接着计算包括用来确定E〔n,n’〕值的正交比对应关系的E{n,n’}路径(步骤S34)。然后将此结果作为交比串(R〔1〕,...,R〔2〕与(R’〔1〕,...,R’〔n’〕)间的对应关系存储(步骤S35),而结束此过程。这样便确定了为获得评价函数的最小值的交比间的对应关系。类似地,对左、顶部与底部的交比串进行了比较过程。
在步骤S16中,对由粗分类获得的所有学习的表格形式进行了上述一维DP匹配,并将表明最小(最佳)评价函数的表格形式确定为对应于输入的表格形式的表格形式。这样,在此细节识别中,就能通过一维匹配由利用表结构的外形(轮廓)特征的识别,进行高速处理。
在步骤S17的管理信息位置计算过程中,管理信息提取设备参考布局词典31检索细节区别中明确的有关学习表格形式的位置信息,并根据检索出的位置信息从输入的图像中提取管理信息。
在此过程中,利用上述DP匹配中交比串的对应结果,于各行和各列的两端的交点(端点)处检验匹配水平,以确定这些端点是否为稳定的。在一端点处的匹配水平是指输入表格形式的交比与学习形式中交比间对应的概率。
例如,由于R〔1〕与R〔1’〕在图18中是一一对应,就可确定第一行的右端点不是稳定的。由于R〔3〕与R’〔4〕也是一一对应,因而相应行的右端点同样是稳定的。但由于R〔2〕对应于R’〔2〕和R’〔3〕两者,即它们之间不是一一对应,故可断定相应行的右端点是稳定的。这样,对于各左上、左下、右上、右下顶点求得了稳定端点,并以之为所述轮廓上的稳定点。
然后根据上述稳定的轮廓点来求出输入表格形式与学习表格形式表中的高度ho与宽度wo,并使它的相互比较而求出学习表格形式和输入表格形式中高度与宽度间的相对比。再据图8所示差向量A、B、C与D以及矩形网目的高H1与宽W1计算管理信息的位置。
上述相对比表明了输入表格形式的表对学习表格形式表的放大比或缩小比,并用来使两表之间的变动标准化。
例如,当输入表格形式的高与宽对图8所示表的高与宽之比是α时,则将差向量A、B、C和D乘以α。然后在输入表格形式的表中,便求得了包含着管理信息的矩形网目中左上顶点的近似位置。类似地,利用差向量B、C与D乘以α所获得的向量,可以求出矩形网目的右上、左下与右下的顶点,而以右上、左下和右下顶点处的稳定轮廓点为起始点。
其次,寻求出位于求得的结果邻边并具有分别近似于H1*α与W1*α的高与宽的矩形网目。然后提取此矩形网目的数据作为所需的管理信息。
图20、21与22是流程图,表明管理信息位置计算过程的例子。过程开始时,管理信息提取装置首先输入DP匹配中与四个方向中交比串相关联的结果(步骤S41)。
在上述过程中,输入右交比串(R〔1〕,...,R〔n〕)与R’〔1〕,...,R’〔n’〕的相关结果、左交比串(L〔1〕,...,L〔m〕与(L’〔1〕,...,L’〔m’〕)的相关结果、上交比串(U〔1〕,...U〔W〕)与U’〔1〕,...,U’〔w’〕)的相关结果、以及下交比串(D〔1〕,...,D〔v〕)与(D’〔1〕,...,D’〔v’〕的相关结果。
然后,根据上述数据计算出输入表格形式的稳定端点,并把它们确定为稳定轮廓点的候选者(步骤S42)。对应于这些候选者的交比分别表示为R〔nmin〕、R〔nmax〕、L〔mmin〕、L〔mmax〕,U〔wmin〕、U〔wmax〕、D〔vmin〕与D〔vmax〕。
“nmin指对应于表中所有稳定的右上点的最小Y坐标值的最上点的行数。“nmax”指对应于表中所有稳定的最右点的最大Y坐标的行数。“mmin”指表中所有稳定的最左点是最高点的行数。“nmax”指表中所有稳定的最左点中最低点的行数。
“wmin”指对应于表中所有稳定的最上点中最小x坐标值的最左点的列数。“wmax”指对应于表中所有稳定的最上点中最大x坐标值的最右点的列数。“vmin”指表中所有稳定的最低点中最左点的列数。“vmax”指表中所有稳定的最低点中最右点的列数。
然后根据求得的候选者的数据计算稳定的轮廓点的位置(步骤S43)。求出各个候选者的x与y坐标的最大与最小值,而把这些值用作稳定的轮廓点的坐标元素。
图20中,例如XMIN{R〔nmin〕,R〔nmax〕,L〔mmin〕,L〔mmax〕,U〔wmin〕,U〔wmax〕,D〔vmin〕与D〔vmax〕}指对应于{}中各交比值的端点中x坐标的最小值。类似地,XMAX{}指各端点x坐标的最大值,YMIN{}指各端点的y坐标的最小值,而YMAX{}指各端点的y坐标的最大值为简单起见,这些值XMIN{}、XMAX{}、YMIN{}与YMAX{}分别由XMIN、XMAX、YMIN与YMAX表示。同时,这些稳定的轮廓点在左上、右上、右下与右下部的坐标,分别由(XMIN,YMIN)、(XMAX,YMIN),(XMIN,YMAX)与(XMAX,YMAX)表示。
然后计算词典表格形式即学习表格形式中的稳定端点,并把它们规定为稳定轮廓点的候选者(图21中的步骤S44)。对应于这些候选者的交比分别表示为R’〔nmin’〕,R’〔nmax’〕,L’〔mmin’〕,L’〔mmax’〕,U’〔wmin’〕,U’〔wmax’〕,D’〔vmin’〕与D’〔vmax’〕。
nmin’、nmax’、mmin’、mmax’、wmin’、wmax’、vmin’与vmax’的意义与前述nmin、nmax、mmin、mmax、wmin、wmax、vmin与vmax的意义相同。
应用获得的候选者的数据,按步骤S43中相同过程计算词典表格形式中稳定轮廓点的位置(步骤S45)。在图21中,XMIN’{}、XMAX’{}、YMIN’{}与YMAX’{}的意义与上述XMIN{}、XMAX{}、YMIN{}与YMAX{}的意义相同。
为简便见,这些值XMIN’{}、XMAX’{}、YMIN’{}与YMAX’{}分别表示为XMIN’、XMAX’、YMIN’与YMAX’。同时,左上、右上、左下、与右下部处稳定轮廓点的坐标则分别表示为(XMIN’、YMIN’)、(XMAX’,YMIN’)、(XZMIN’、YMAX’)与(XMAX’,YMAX’)。
根据步骤S43中获得的有关稳定轮廓点的坐标信息,输入表格形式中的高ho与wo可由下式计算(图22中步骤S46)。
wo=XMAZ-XMIN (4)ho=YMAZ-YMIN (5)根据步骤S45中获得的有关稳定轮廓点的坐标信息,词典表格形式的高ho’与宽wo’则按下式计算(步骤S47)。
wo’=XMAZ’-XMIN’ (6)ho’=YMAZ’-YMIN’ (7)应用高ho与ho’和宽wo与wo’。计算了输入表格形式的大小对词典表格形式的大小之比Sw与Sh(放大比或缩小比)(步骤S48)。
Sw=wo/wo’ (8)Sh=ho/ho’ (9)获得了作为始点的,具有词典表格形式的表中稳定轮廓点的差向量中元素的大小,以此作为表明管理信息位置的相对坐标值(步骤S49)。这时,来自一批邻近对应于交比R’〔1〕,...,R’〔n’〕、L’〔1〕,...,L’〔m’〕、U’〔1〕,...,U’〔w’〕与D’〔1〕,...,D’〔v’〕的轮廓点中各顶点的差向量作为位置信息预存储于词典31中。
来自上左、上右、下左与下右稳定点的相对坐标值则分别设定为(fxm1,fymin1),(fxmaf1,fymin2)、f(xmin2,fymax1)以及(fxmax2,fymax2(。
然后,根据上述相对坐标值以及输入表格形式的大小对词典表格形式的大小之比Sw与Sh,对输入表格形式中管理信息的位置进行粗估(步骤S50)。在此过程中,求出具有下述坐标值的四个点作为管理信息的位置。
(XMIN+Sw·fxmin1,YMIN+Sh·fymin1)(XMAX-Sw·fxmaz1,YMIN+Sh·fymin2)(ZMIN+Sw·fxmin2,YMAX-sh·fymax1)(XMAX-Sw·fxmax2,YMAX-sb·fymax2)随即提取包含这些候选者位置的输入表格形式的矩形网目(步骤S51)。要是此网目的高近似于Sh乘词典表格形式中明确的矩形网目的高H1,而宽近似于Sw乘词典表格形式中明确的矩形网目的宽W1,则确定这一矩形网目中含有管理信息。
这时将该矩形网目中的字符串图像数据等作为管理信息输出(步骤S52),至此结束此过程。于是,根据细节识别的结果从输入图像中提取出管理信息。
本例中,词典31将对应于此词典表格形式中交比的一批轮廓点的一部分的差向量作为始点存储。但是,可将来自所有轮廓点的差向量预先存储,来把不仅是近似表的顶点的轮廓点而且是周边上任意的轮廓点选择作为稳定的轮廓点。
并不是常常需要提取四个稳定的轮廓点。具体地说,根据作为基准点的任意一个稳定的轮廓点,应用此参考点位置的相对坐标值可以求得管理信息的位置来快速进行此过程。一般地说,用于这一过程的稳定轮廓点的个数是任意确定的。
在步骤S51,提取包含四个候选位置的矩形网目。但是可以提取包含一或多个候选位置的矩形网目,或也可以选取这样的矩形网目,它与一或多个候选位置的距离是在预定值的范围内。
在上述管理信息提取过程中,输入文件的表格形式以及管理信息的位置可以在布局词典31中学习并存储于其中。根据这种信息,可以处理各种表格形式的文件并能高精度地计算此管理信息的位置。
下面详述图6所示步骤S3中确定管理信息位置的方法。在本实施例中,由用户确定管理信息位置的方法能够依随用户被指示来明白地确定这一位置的用户输入方式,或是自动提取管理信息候选者的自动学习方式。
在用户输入方式中,管理信息提取设备指令用户从构成图8所示一中的一批矩形网目中直接确定管理信息的位置。例如,当存在大量的具有相同形式设计图样等的文件且在第一个文件中确定了管理信息位置时,则只需从第二个和后续的文件中读出位置信息,然后应用自动文件输送装置来实现批输入。
在自动学习方式中,用前述申请08/684503中所述的标题提取技术来提取作为含有管理信息的区域的一批候选区域,由用户从一批区域中选取一区域的一位置是自动学习的,而这一位置则确定为继后作业的第一候选者。要是用户不选择任何候选者但却任意地确定了一个新位置,则这一位置的信息自动地输入用户的交互操作中。
另一方面,前述申请公开的标题提取技术也可应用于用户输入方式,以从一批候选者中选取管理信息。这时,在图4所示的过程中于学习方式中去识别或区别一种表格形式,以检验输入图像是否与词典31中的表格形式匹配。要是此输入图像与词典31中任一表格形式匹配,则检索其位置信息并提供给用户。除非此输入图像与词典31中的任一形式匹配,就应通过前述申请的标题提取技术来提取管理信息的候选者。
图23表明了用上述两种方式的管理信息提取过程。在图23所示用户输入方式中,管理信息提取设备根据前述申请中的技术,于表内标题提取过程中,从表格形式文件的输入图像71中提取管理信息的一批候选者。
图24是表明表内管理信息提取过程的流程图。过程开始时,管理信息提取设备读取文件71并将其作为文件图像存储于存储器中(步骤S61)。本例中,原始图像是在转换为压缩图像之后存储的。
然后对此文件图像标号,根据矩形高度的最高频率值提取大的矩形(步骤S62),从已提出的大的矩形中提取包围有表的矩形(表矩形)(步骤S63),再从表矩形中选择包含管理信息的矩形。本例中,例如选择了占据最大区域的表矩形。
随即,从选择的表矩形中提取字符串,获得包围有字符串的矩形(字符串矩形),并将其坐标存储于存储器中(步骤S65)。随即从所存储的字符串矩形中将具有短宽度或即长大于宽的矩形作为噪声矩形除去(步骤S66),并将两或更多个字符串矩形组合成一个矩形(步骤67)。
于上述过程中获得了从表中提取的字符串矩形。这些字符串矩形可以包含表中的一部分分格线。于是从字符串矩形内提取这些规格线部分并把它们用作分开字符串矩形的边界(步骤S68)。
再对字符串矩形中的字符计数以提取与管理信息相对应的字符串矩形(步骤S69)。获得的字符数用于步骤S72中作为此字符串矩形的一种属性。
在步骤S68中,对为表中分格线包围成的各个框提取字符串矩形。如果原表的轮廓不是矩形的,则表外可能存在字符串矩形。于是,当搜索上部分界线而字符串矩形没有表的上部分界分界线时,则可认为此字符串矩形是在表外而将其除去(步骤S70)。
然后对表中的字符串矩形依照从最接近左上角的坐标的一个矩形的程序开始重排(步骤S71)。当此字符串矩表中的字符数满足一预定条件时,则提取此字符串矩形作为管理信息(步骤S72),至此结束该过程。要是有一批字符串矩形满足此条件,则可以将它们依照从最接近表矩形在上角的那一个开始的顺序确定为候选者。
本例中,于图像77内提取了用于管理信息的三个候选者C1,C2与C3,而管理信息提取设备的用户界面78则依照最高优先程序的顺序把它们提供给用户。用户当有适当的候选者作为管理信息提供时,即由鼠标指点它而将其选出。要是没有适当的候选者出现,则用户可以用鼠标指点另一矩形网目,而把它明确地规定为管理信息的候选者以对原先的候选者进行修正。
管理信息提取设备学习用户选择/修正的管理信息的位置,并将此位置信息与分格线结构存储于词典31中作为用户词典73。这样,管理信息提取设备就能在继后的过程中应用由用户直接确定的位置信息。
在图23所示自动学习方式中,管理信息提取设备首先参考一批用户词典73并识别输入图像71、72等的表格形式。
要是表格式的输入图像71输入,并作为参考粗分类与细节识别的结果已然确定它与用户词典73的任一表格形式匹配,则将最终表格形式74中明确的位置处的管理信息C1输出并提供给用户。要是用户接受此管理信息C1,就原样地采用此信息。要是用户不接受此管理信息,便指令用户从其它位置信息C2、C3等来选取适当的信息。
要是输入图像71不与用户词典73中任一表格形式匹配,则进行上述表面管理信息提取过程,并从最终的图像75中提取管理信息的候选者C1、C2、C3等。用户界面78将上述候选者按照最高优选程序的顺序提供给用户,然后用户从提供的候选者中选取适当的候选者作为管理信息。要是没有出现适当的候选者,则可以通过明确另一矩形网目来修正管理信息的候选者。
管理信息提取设备于输入图像71中学习用户选择的/修正的管理信息位置,并将此位置信息与分格式结构作为用户词典73而存储于词典31中供给后续过程之用。
要是输入通常的非表格式文件图像72,则由于识别表格形式的结果可以确定其中不存在分格线。然后依据前述申请中的工艺,从无分格线的文件图像中,于标题提取过程中提取管理信息的一批候选者。
图25是表明上述管理信息提取过程的流程图。过程开始时,管理信息提取设备读取文件72并将其作为文件图像存储于存储器中(步骤S81)。在此过程中,原图像是在转换为压缩图像后存储的。
然后标记上述文件图像,作为标记过程结果提取一字符串,此字符串矩形的坐标则存储于存储器中(步骤S82)。再从存储的字符串矩形中将短宽度的即高度大于宽度的矩形作为噪声矩形除去(步骤S83),此外还除去不似字符串的矩形。此时可确定出文件区(步骤S84)。
于垂直方向(y坐标方向)重排其余的字符串矩形(步骤S85)。提取包含字符框图像的矩形(字符框矩形),然后将此字符框矩形中的字符串矩形标记为常字符框的矩形(步骤S86)。此外,提取包含底线图像的矩形,并将在此提取的矩形右上方的字符串矩形标记为底线矩形(步骤S87)。
随即进行分数计数过程,根据例如字符串矩形在文件中的位置、字符大小、以及它是否是带有字符框的矩形或是底线矩形等,来决定标题的概率,来提取一或多个高分数的字符串矩形作为标题的候选者(步骤S88)。根据此结果,提取有关此文件的源信息与终点信息(步骤S89与S96)。这样便提取了标题、终点信息与源信息作为管理信息的候选者。
上例中于图像76内提取了三个候选者C4、C5与C6用作标题、终点与源信息。用户界面按照最高的优先程序顺序输出这些数据并把它们提供给用户。用户在有适当候选者提供作管理信息时,即用鼠标指点它而将其选出。当没有适当的候选者出现时,管理信息的候选者就可以在此指点过程中通过明确另一字符串矩形来修正。
下面参考图26~28说明所提取的管理信息的用途。通常在处理图像时只是把文件名称的关键字或字符码等用作管理信息。但是,设有本发明的管理信息提取设备的电子文件编排系统则具有将部分文件图像作为字符码之外的索引存储的功能。这样,当字符码的可靠性低时,应用图像检索就会是有效的。
本发明的系统允许用户选择采用字符码或图像码作为存储管理信息的方法。根据选择的结果,把选择的数据存储为管理信息。在检索图像时,此系统指令用户选择一种检索管理信息的方法,并根据选择结果用字符码或图像码来检索此管理信息。此系统还具有只是浏览存储的字符码或图像的功能。
图26是示明图像信息存储过程的流程图。过程开始时,电子文件编排系统首先接收文件图像(步骤S101),于图4所示过程中计算管理信息的位置,同时提取管理信息的字符串(步骤S102)。然后,此系统指令用户对于所提取的字符串选择一种存储管理信息的方法。
此存储方法继随一字符识别方式,其中的字符串是字符识别的并转换为字符码;或继随一图像方式,其中的字符串不是字符识别的而是作为图像存储的。要是用户选择字符识别方式,则字符是识别的(步骤S109),而存储方法的选择取决于识别结果的可靠性(步骤S105)。
计算字符识别可靠性的方法例如可采用前述申请(日本专利申请H8-223720)“字符识别方法与设备”中所公开的技术。依据这项技术,上述系统首先根据作为识别结果求得的字符码与输入字符模式间的距离值来计算概率参数,同时应用一组字形和正确识别的码来生成一种转换表,用以将上述概率参数转换为正确识别概率。根据此转换表,可以求得相对于概率的正确识别概率,而把后者用作识别结果的可靠性的测度。
要是字符识别的可靠性低于预定的阈值,则通知用户存储了一幅图像,并已将字符串的图像以及其字符码作为管理信息存储(步骤S106),至此终止该过程。要是可靠性等于或高于预定的阈值,则将字符码作为管理信息存储而终止此过程。
要是用户选择图像方式,则将字符串的图像作为管理信息存储(步骤S108)而结束此过程。在步骤S103中,能够进入这样一种方式,其中作为一种替换的存储方法既存储字符码也存储图像码。假定作为识别结果求得的字符码与输出字形间的距离值表示在步骤S105中的可靠性,则能断定此距离值越小时,可靠性就越高。
图27表明用于存储管理信息的存储表的例子。此管理信息存储表具有字符码存储区、图像存储区、以及表明信息是以字符码还是以图像码存储的类型标志区。
例如类型标志O指只存储字符码。类型标志1指只存储图像码。类型标志2指既存储字符码又存储图像。
图28是表明用于检索这种管理信息的信息检索过程的流程图。过程开始时,电子文件编排系统首先指令用户选择一种检索管理信息的方法(步骤S111)。此检索方法继随三种方式,即采用字符码的方式、采用图像的方式、以及显示一供用户浏览的字符码与图像的列表的方式。
当用户选择字符码检索时,则用字符码检索管理信息(步骤S112)。当用户选择图像检索时,则用图像检索管理信息(步骤S113)。当用户选择浏览时,则显示存储于管理信息存储表中的一个字符码与图像的列表(步骤S114)。在选择之后即结束此过程。
当于步骤S113中用图像检索信息时,指令用户去指定具体的图像文件或是去选择和显示适当的图像。然后指令用户去指定具体的矩形部分作为检索键,并将用户指定的部分图像与管理信息存储表中存储的信息作比较。图像间的比较例如用shokodo出版的Jun’ichiroToriwaki著的“Digital Image Process for Recognizing Image〔I〕”中所述的周知的模板匹配法进行。
在这种模板匹配中,将指定的部分图像用作模型(模板),而使其与各个管理信息存储表中的图像比较以计算它们之间的相似性,来获取表明最高相似性或表明高于一预定值的相似性的管理信息。所获得的对应于这一管理信息的文件图像则作为检索结果显示。
根据上述电子文件编排系统,管理信息的字符串不仅可用字符码而且还能用图像存储/检索。于是,例如有纹理的字符、设计的字型以及徽标等难以正确识别的字符,可以作为管理信息处理。
在图17中的步骤S15与S16中,采用交比DP匹配来识别表格式文件形式(格式结构)。但是可以用任何其它方法来进行细节识别。
在另一种周知的自动表格形式识别方法中,已知的表格式文件的特征是作为一种模型输入词典31中的。当把未知的表格式文件的图像输入时,即根据此图像计算上述特征,并用模型匹配法与词典中的模型比较,而求得表明最高相似性的模型。
在模型匹配法中,首先将整个表标准化,计算各矩形网目中心点的位置,然后表决这样的模型,它所具有的中心点所在位置与上述矩形网目的基本上相同。将获得了最高表决票数的模型规定作最佳模型。模型的标准化是指一种调节过程,例如使整个图像按照宽-高比为一比一的转换。
另一种进行匹配过程的方法是采用连通图。在这种方法中,提取分格线,使整个表标准化,然后在输入的未知文件与各个模型间求出长度与位置近似等同的分格线的组合。如图29所示,表明分格线组合的节点排列在一个平面上,通过路径连接满足预定几何限制的节点便生成连通网。
上述几何限制指一种限制条件,即未知文件与比较模型间分格线的顺序是保持的,或这样的限制条件,即禁止一个表中的一条分格线对应于另一个表的一批分格线。在图29所示的包括四个节点的结合图中,未知文件的分格线a1、a2、a3与a4分别对应于模型的分格线b1、b2、b3与b4。
当所有的节点能通过连通图一部分的子图中的路径与所有其它节点连接时,则此子图称之为小集团。图29所示的连通图本身便是一个小集团。通过于结合图中求出具有最多节点数的小集团便可求出未知文件与模型间的相似性,然后取出表明最高相似性的模型作为最佳模型。
在上述模型匹配法中,先将输入文件标准化然后与一模型作特征比较。但要是表的轮廓的提取精度低或是表格形式由于增加了行等而略有修正时,则全部特征会受影响将使识别不稳定。特别是,所述以矩形网目中心位置为基础的方法会受到上述这种结果的较大影响。
在采用连通图的上述方法中,生成节点的条件可以减弱,但连通图的大小则会增大,特别是为了获得最大小集团时需用很长的时间。
为此,说明本发明的下述实施例,适应因表格形式中的残条断裂或是噪声与变化等导致分格线提取误差的高速而牢靠的匹配方法。所谓牢靠是指匹配结果不易受误差或变化的影响。
在这种匹配法中,分格线相对于整个表的尺寸与位置视作为检验未知文件与各模型间分格线对应可能性的特征,以求得对应分格线的组合。本例中,通过设定一种宽可能性的条件,能够让一批分格线对应于一条分格线。此外,当未能正确地提取出表的轮廓时,要是失误是在允许范围内时,则允许冗余对应可防止漏掉分格线之间的正确对应。
然后,将可匹配的对应关系集总到所获得的对应关系集的一个组中,并把分格线的每个对应关系分配到一个组中。此时,分格线的位置与分格线间的距离用作为特征。利用了分格线间的这种相对关系作为特征,就能防止线条的断裂或噪声影响分格线的全部特征。
此外,当对应关系分组后,与通过设定可使兼容性性能够成为过渡的严格兼容性条件来生成连能图的情形相比,就能显著地减少检验兼容性的步骤。由于各组的对应关系可用一个平面上的单一路径表示,就只需很短的时间来计数对应关系的数目。
上述过渡的兼容性是指,例如当对应A与对应B兼容性而对应B与对应C兼容性时,对应A总能与对应C兼容性。这时,由于不必检验对应A与对应C间的兼容性,便可以高速地进行这一过程。
最后,从一致组合的组中求出包括有最大对应数的所获的组的组合。这样,即使在文件中有了少量的修正,例如在一个表中只添加了一行时,只要一个模型中的绝大多数分格线能同输入文件中的正确对应时,就可以提取出这一模型。
图30是表明上述匹配法中表格形式识别过程的流程图。此过程相当于图4中所示的步骤S11、S12、S15与S16,并具体涉及到输入图像的细节识别。过程开始时,管理信息提取设备首先接收一图像(步骤S121)并从其中提取分格线(步骤S122)。
使各分格线依包括此分格线的矩形(分格线矩形)的左上顶点的坐标按这样的顺序重排对于水平分格线从最小的y坐标值开始,而对于垂直分格线从最小的x坐标值开始(步骤S123)。如果水平分格线显示出相同的y坐标,它们就按x坐标的递增顺序分类。
然后相对于各水平与垂直分格线提取概略的信息(步骤S124)。概略信息是指分格线的长度与位置对于整个表的相对值,由三个整数所成的集表示。同时,考虑到两条分格线于垂直和水平的各方向上的组合,可提取与各个组合有关的细节信息(步骤S125)。这种细节信息表明了两条分隔线间长度与位置的相对关系。
预先提取有关将与输入图像比较的模型的概略信息和细节信息,并存储于布局词典31中。这样,有关输入图像的概略信息和细节信息便同有关用于模型匹配的模型的进行比较(步骤S126)。将最佳模型作为识别结果输出而终止此过程(步骤S127)。
下面参看图31至41详述步骤S124、S125、S126与S127的过程。
在步骤S124中,在获得概略信息前进行预处理而求出基准宽度W、基准高度H、基准x坐标x0与基准y坐标y0。首先对水平分格线求出最大长度。从显示出长度比高于或等于一预定阈值(例如0.8)的水平分格线中求出最先和最后的分格线作为基准轮廓水平分格线。
对于垂直分格线也同样求出最大长度。与水平分格线的情形相同,求出两条基准轮廓垂直分格线。然后,相对于所求得的四条基准轮廓分格线所围成的矩形,定出了基准宽度W、基准高度H、以及在具有基准坐标(x0、y0)的左上顶点处的基准点。
例如在图31所示的表格式文件中,提取水平分格线81与82作为基准轮廓水平分格线,同时提取垂直分格线83与84作为基准轮廓垂直分格线。这些基准轮廓分格线所围成的矩形的宽度与高度分别作为基准宽度W与基准高度H。此围成的矩形的左上顶点85的坐标作为基准坐标(x0,y0)。
通过从比根据最大长度计算出的长度要长的一批分格线中选取基准轮廓分格线,可以从基准轮廓分隔线的候选者中除去例如水平分格线86与87这样的短的分格线。
上述的基准宽度W、高度H与坐标(x0,y0)也能够依下述方式求得。首先将坐标值Vmaxx、Vminx、Vmaxy、Vminy、hmaxx、hminx、hmaxy、hminy规定为基准坐标的候选者如下。
Vmaxx=垂直分格线矩形右下顶点x坐标的最大值。
Vminx=垂直分格线矩形左上顶点x坐标的最小值。
Vmaxy=垂直分格线矩形右下顶点y坐标的最大值。
Vminy=垂直分格线矩形左上顶点y坐标的最小值。
hmaxx=水平分格线矩形右下顶点x坐标的最大值。
hminx=水平分格线矩形左上顶点x坐标的最小值。
hmaxy=水平分格线矩形右下顶点y坐标的最大值。
hminy=水平分格线矩形左上顶点y坐标的最小值。
然后根据这些坐标值由下式求出基准宽度与基准高度的候选者W1=Vmaxx-VminxW2=hmaxx-hminx
H1=hmaxy-hminyH2=Vmaxy-vminy (11)基准宽度W求得为W=max{W1,W2} (12)在此x0=Vminx当W=W1而x0=hminx当W=W2。
基准高度H求得为H=min{H1,H2} (13)在此y0=hminy当H=H1而y0=vminy当H=H2。
这样便求出了基准宽度W、基准高度H与基准坐标(x0,y0)。但是,这种方法与上述方法相比会受到噪声等影响,而且牢靠性也较差。
四条基准轮廓分格线围成的矩形的左上顶点选作为基准点。此外,也可把此围成的矩形周边上的任意点例如左上顶点、右上顶点、右下顶点等选作为基准点。任何情形下,一般要进行下述过程。
根据所求得的大小与基准坐标,从各分格线矩形的长度与中心位置求得三个特征(概略信息)长度1、卷曲度与位置。在水平分格线情形,通过下式,根据图32所示的分格线矩形91的长度L1及其中心坐标(x1,y1),计算出以上特征长度1=〔(L1/W)×100〕的整数部分卷曲度=〔((x1-x0)/W)×100〕的整数部分 (14)位置=〔((y1-y0)/H)×100〕的整数部分在垂直分格线情形,通过下式,根据图33所示的分格线矩形92的长度L1以及中心坐标(x1,y1),计算以上特征长度l=〔(L1/H)×100〕的整数部分卷曲度=〔((y1-y0)/H)×100〕的整数部分位置=〔((x1-x0)/W)×100〕的整数部分(15)在所计算的特征中,长度1指分格线的长度相对于表的尺寸的相对比,而卷曲率与位置则指分格线对表的基准点的相对位置。
随后,在步骤S125中,求出表中两条分格线间的相对关系的细节信息。这种细节信息可以由三个值表示,具体地说,假定一个分格线矩形的长度是1,则这三个值是另一个分格线矩形的长度2、两分格线矩形中心间沿x方向上的位移长度差、以及在两分格线矩形中心间沿y方向上的位移长度高度。
首先,提取两条水平分格线的所有组合。在各个组合中,一个分格线矩形93的长度(较高的分类阶)是L1,矩形93的中心坐标是(x1,y1),另一分格线矩形94的长度(较低的分类阶)是L2,而矩形94的中心坐标是(x2,y2),如图34所示,此时,两分格线矩形中心间在x方向上的位移dw和y方向上的位移dh,是根据分格线矩形93的中心由下式计算的。
dw=x2-x1dh=y2-y1 (16)根据上述规定,要是分格线矩形94的中心位于分格线矩形93的中心之右,则dw为正值。要是分格线矩线94的中心位于分格线矩形的中心之左,则dw是负值。类似地,要在分格线矩形94的中心位于分格线矩形93的中心之下,则dh是正值。要是分格线矩形94的中心位于分格线矩形93之上,则dh是负值。
上述三个特征长度2、差与高是由下式计算长度2=L2/L1差=dw/L1 (17-1)高=dh/L1类似地,提取两条垂直分格线的所有组合。在各个组合中,一个分格线矩形95的长度(较高的分类阶)是L1,矩形95的中心坐标是(x1,y1),另一分格线96的长度(较低的分类阶)是L2。然后可由式(16)求出dw与dh,并由下式计算出长度2、差与高。
长度2=L2/L1差=dh/L1(17-2)高=dw/L1在式(17-2)中,与式(17-1)比较,差与高的定义相反。然后在步骤S126中,通过将有关输入图像的概略信息与细节信息与有关各模型的加以比较,计算一种表格形式的相似性。对于水平分格线与垂直分格线分别进行上述比较。
图36是表明这种模型匹配过程的流程图。过程开始时,管理信息提取设备首先生成图37中所示的PXM表,其中P是一未知文件的输入图像的水平分格线的数,而M是一模型的水平分格线的数(步骤S131)。
在此例子中,p=12,m=15,而表的行数与列数自0开始。表中i行内j列的元(项)是表明输入图像的i分格线与模型的j分格线的对应关系的数据。这种表以后称之为匹配表。
然后根据概略信息确定输入图像的i水平分格线IP(i)是否对应于模型的j水平分格线MO(j)。要是存在它们相互对应的可能性,就将一个节点指派给匹配表中i行中的j列处的元素。这样,在匹配表上就描述了水平分格线IP(i)与水平分格线MO(j)的一种组合。此时并未严格地设定对应可能性的条件,而是允许一条分格线能与一批分格线对应。
本例中,分格线IP(i)的概略信息(长度1,卷曲度与位置)分别设定为(ip1,ipt与ipp),而分格线MO(j)的概略信息分别设定为(mol,mot与mop)。当对应值之间的差小于一预定值时,就可确定分格线IP(i)能对应于分格线MO(j)上述可能性的具体条件由下式设定|ip1-mol|<β|ipt-mot|<β (18)|ipp-mop|<α式中参数α与β是阈值,各取决于表中的水平分格线数与垂直分格线数。
这些取决于表中分格线数的参数α与β是正数。分格线数愈小,则它们所指的这种值就越大。此时,不等式(18)的条件在表中分格线的密度低时便扩充了匹配过程中的搜索范围,而在分格线的密度高时便缩小了匹配过程中的搜索范围。参数α与β例如可以定义为如图38所示的,取决于水平与垂直分格线的数的单纯下降的函数。
这样,通过用节点来表示在概略信息中相似的分格线之间的对应关系,就能提取输入图像与模型之间对于表的轮廓部有关特征中的相似性。
随后,根据细节信息搜索能满足预定关系的组合的排列节点,即那些能相互兼容的节点(步骤S133),而这种可兼容的节点则视之为属于同一组并通过路径使其互连。
当i行中j列处的节点n(i,j)与k行中1列处的节点n(k,1)满足预定关系时,就表明输入图像中i分格线与k分格线间的关系正比于模型中j分格线与1分格线间的关系。这就是说,当输入图像的i分格线重叠于模型中的j分格线上时,输入图像的k分格线便与模型的1分格线重叠。
通过路径连接这些节点就能将它们分成几个组。一个组中所含的节点数越多,这个组所表示的输入文件与模型间的相似性就越高。于是,在模型兼容过程中能在这种包含较多节点数的组中有效地进行相似性的计算。
当搜索一能与一具体节点相匹配的节点时,为了提高这一过程的效率,通常是在此具体节点右斜下方的区域中的节点中进行搜索。这样不会生成图29中所示的小集团,同时能高速度地求得连接多数节点的路径。下面描述生成一路径的实际过程。
此时,从所获得的路径集中求出路径的一致性的组合,并搜索包含最多节点的路径(步骤S134)。探测出的路径组合定义为最优路径集。路径的一致性的组合表明了对应于各路径中节点的分格线集的范围并不相互重叠。
在图37所示的匹配表中,考虑了两个分格线集相互重叠范围的两种情形。一种情形如图39所示,输入图像与模型间的顺序关系反转。另一种情形如图49所示,有两或更多的分格线对应于一条分格线。
在图39所示的匹配表中,属于由实线表明的组中在模型一侧分格线的范围视作为包括从第0至第9条分格线。属于由虚线表明的组中在模型一侧的分格线范围视作为包括从第7至第8条分格线。于是,这两个分格线集的范围便相互重叠。类似地,于图40中,由实线与虚线表明的这些组中分格线集的范围在模型侧重叠。
在不含有不一致路径组合的最佳路径集中,分格线集的范围并不相互重叠于输入图像或模型的任一侧,如图41所示。这样,由最佳路径集中包含的节点所表示的分格线中的对应关系便称之为最佳对应。
下面假定输入图像中水平分格线数为ph,模型中水平分格线数是mh,而水平分格线的最佳路径集之中所含节点数是maxh,则输入图像与模型两者中水平分格线间的相似性可由下式计算(步骤S135)SH=maxh/ph+maxh/mh(19)相似性SH表明了对应于输入图像分格线中最佳路径集的分格线比与对应于模型的分格线中最佳路径集的分格线比之和。通常,输入图像的特征对模型的特征愈相似,则上述和也愈大。
管理信息提取设备如在步骤S131至S135对水平分格线所进行的处理那样处理垂直分格线。假定输入图像的垂直分格线数是pv,模型的垂直分格线数是mv,而垂直分格线的最佳路径集中所含节点数是maxv,则输入图像与模型两者的垂直分格线间的相似性SV可由下式计算SV=maxv/pv+maxv/mv (20)最后,用SH和SV计算输入图像与模型间分格线的相似性,结束此模型匹配过程。
S=SH+SV (21)例如,利用粗分类中求得的表的各个候选者作为模型来进行上述匹配过程以计算模型与输入图像间的相似性。在步骤S127,将显示出最高相似性的模型作为最佳模型输出。这样可以求得对应于输入图像的词典形式。
下面参看图42至48详述图36所示的节点排列过程、路径生成过程以及最佳路径设定过程。
图42是表明图36所示步骤S132中的节点排列过程。在图42中,输入图像的i分格线的概略信息长度1、卷曲度与位置分别用ip1(i)、ipt(i)与ipp(i)表示,而有关模型的j分格线的概略信息则由mol(j)、mot(j)与mop(j)表示。
表明匹配表中i行内j列处的元素的数据表示为符号(i,j)。当符号(i,j)=0,则不把节点设于对应元素处。当符号(i,j)=1,则于对应元素处设定一节点。
过程开始时,管理信息提取设备首先确定是否满足条件|ipp(i)-mop(j)|<α(步骤S141)。要是不满足上述条件,则将符号(i,j)设定为0(步骤S142),从而结束此过程。
要是步骤S141中的条件满足,则管理信息提取设备确定是否满足条件|ipt(i)-mot(j)|<β(步骤S143)。要是不满足此条件,则将符号(i,j)设定为0(步骤S144),而结束此过程。
要是步骤S143中的条件满足,则管理信息提取设备确定是否满足条件|ip1(i)-mol(j)|<β(步骤S145)。要是不满足上述条件则将符号(i,j)设定到0(步骤S146),则结束此过程。要是步骤S145的条件满足,则将记号(i,j)设定为1,同时将节点设定于i行内j列处的位置而终结此过程。
对匹配表中所有位置(i,j)执行上述过程,使得表明概略信息相互类似的两分格线间对应的节点设定于与分格线对应的位置处。
图43与44是表明图36中所示步骤S133的路径生成过程的流程图。过程开始时,管理信息提取设备首先进行初始化过程(图43中所示步骤S151)。在此过程中,匹配表中设定节点处的元素的位置(i,j)作为字符串存储于存储器的存储中区中。在此存储区中,节点依行的序数i按增序排列。当节点被指定同一行数i时,它们就按列数j的增序排列。给节点串中的各节点指派一表明它是否通过路径连通的标志。
例如,对应于图37中所示匹配表的存储区中的节点串即如图45中所示。在图45所示的存储区中,于匹配表上顺序地存储着节点的位置(0,0)、(1,0)、(1,1)、(2,0)、...、(11,14),而标志的值初始化为1。如果标志的值是1,则表明对应的节点仍未经路径连通。
随即存取此存储区中的前导数据(步骤S152),并从存储点读出(i,j),于匹配表上标明与相应位置对应的元素(步骤S153)。标明元素的节点规定为基准节点而将此元素的“符号”设定为0,同时将存储区中对应的标志设定为0(步骤S154)。
然后,将控制变量“计数”设置为0(步骤S155),并且检验此已标明的元素是否已对应匹配表中的最后一列,或者“计数”值是否已达到预定常数h(步骤S156)。要是不满足上述条件,则使标明的位置向右移过一列(步骤S157),并且检验上述标明位置是否对应于最后一行(步骤S158)。
要是上述标明位置对应于最后一行,则给“计数”的值加1(步骤S159),并重复步骤S156中及其以后的过程。要是此标明位置不对应于最后一行,则使此标明位置下移一行(步骤S160),同时检验此已标明的元素是0或1(步骤S161)。
如果此值是0,则在此标明的位置处不设置节点。于是重复步骤S158中的及其以后的过程。要是“符号”表明的是1,则将节点设于此标明的位置,并且确定此节点是否能通过路径与所述基准节点连接(步骤S162)。利用对应于这些节点的分格线之间的长度2、差与高度等细节信息,确定这两个节点是否能由路径连接。
例如,如图46所示,表明对应于基准节点的分格线101和对应于输入图像中待确定的节点的分格线102之间的关系的细节信息经设定为长度2=L2/L1,差=dw/L1而高=dh/L1。
在此模型中,表明对应于基准节点的分格线103和对应于待确定的节点的分格线104之间关系的细节信息经设定为长度2=L2’/L1’,差=dw’/L1’和高=dh’/L1’。
此时,要是用经验阈值ε1、ε2与ε3能满足下述不等式,则基准节点能与待确定的节点兼容并能通过路径互连|L2/L1-L2’/L1’|<ε1|dw/L1-dw’/L1’|<ε2|dh/L1-dh’/L1’|<ε3 (22)通过将阈值ε1、ε2和ε3设定得充分小,不等式(22)即表明包括分格线101与102的图形与包括分格线103与104的图形相似。要是这些分格线图形相互相似,则在分格线101对应于分格线103时,分格线103就有很高的可能性对应于分格线104。这时,这两个节点就视为可相互兼容。
于是,在设定路径的相似性条件下,可以减少节点间可兼容性的判定次数。例如,如果节点97是图37所示匹配表中的基准节点,则当此节点97可与节点98兼容且能同时与节点99兼容时,可以认为节点98与节点99是可兼容的。
要是确定了节点99能经一路径与基准节点97相连接时,则可以确定节点99也能通过一路径与业已经路径与基准节点97相连的节点98相连。
当位于前述标明位置处的节点不能经路径与基准节点相连时,则重复步骤S158中及其后的过程去检验同一列中的另一节点。如果这两个节点能经一路径相互连接,则对应于标明位置处的接点的存储区中的标志即改写为0(步骤S163)。这样就记录下与基准节点连接的节点或在路径上紧邻此节点前的节点,然后重复步骤S156中及其后的过程去检验下一列中的节点。
在步骤S156中及其后的过程中,将标明的位置前移一列然后再前移一行去搜索右斜下方的元素。通过重复上述过程,可于匹配表中将一路径沿朝斜下方顺序地右延。
要是步骤S156中的条件满足,则去检验从基准节点延伸出的路径的命中数是否为二或更多(图44中所示步骤S164)。命中数是指此路径上的节点数。要是此路径上的结点数是二或更多,就将此路径正式寄存同时存储有关此路径上节点的信息(步骤S165)。要是此路径上的节点数是1,则它表明从基准节点没有路径延伸到任何其它节点。结果就不寄存此路径。
随后检验存储区中是否余留有数据未存取(步骤S166)。要是有这样的数据,则将存储区中的存取点前移一(步骤S167),然后检验此位置的标志值(步骤S168)。要是此标志表示0,则在此位置的节点业已加到该路径上,而重复步骤S166中及其后的过程去检验下一个数据。
要是此标志指1,则此位置上的节点未增加到路径上。于是重复步骤S153中及其后的过程。这样,将此节点规定为一新的节点而生成一新的路径。在S166的步骤中,要是此存取区中的存取点到达了结尾点,则结束此过程。
图47是表明图36所示步骤S134中的最佳路径集的确定过程。在此过程中,应用表明供最佳路径集用的暂定路径集中节点数的阵列分数(i)(i=0,1,2,...,m),来处理p行与i列的水平分格线或垂直分格线的匹配表。
过程开始时,管理信息提取设备首先设表示最佳路径集的节点数的的初始值的分数为0,并将表明行数初始值的rireki(m)设定为p-1(步骤S171)。
其次将表明列数的变数i设定为m-1(步骤S172),同时在寄存的路径中,将包括对应于列数i的作为起始点的左上点的路径集设定作路径(i)(步骤S173)。然后将分数(i)设定等于分数(i+1),并将rireki(i)设定等于rireki(i+1)(步骤S174)。分数(i)指从第i列到最后一列(第m-1列)范围内的暂定路径集的节点数。
然后从路径集(i)中求出一条路径并根据有关其节点的信息更新分数(i)(步骤S175)。此时检验路径集(i)中是否尚留有路径。如果尚有,则求出下一个路径并重复分数(i)的计算。
在完成了路径集(i)中所有的路径计算时,确定此i是否到达0(步骤S177)。要是i等于或大于1,则将i设定为i-1(步骤S178),并重复步骤S173之中和其后的过程。当i达到0时,则将所求得分数(0)的值定作为最终最佳路径集的节点数(步骤S179),并结束此过程。
据水平分格线匹配表求得的分数(0)的值用作式(19)中的maxh去计算相似性。由垂直分格线的匹配表求得的分数(0)的值用作式(20)中的maxv去计算相似性。
下面参看图48描述图47中所示步骤S175的节点数更新过程。当此节点数更新过程开始时,管理信息提取设备首先从路径集(i)中检索一条路径。此路径起点的行数设定为sg,此路径右下终点处的节点的列数与行数分别设定为er与eg。此路径中所含节点数设定为“命中数”(步骤S181)。
例如在图37所示的匹配表中,路径集(11)在i=11时于右斜下方斜区包括路径p1与p2。对于路径p1,值sg、er与eg分别为8、14与11。对于路径p2,值sq、er与eg分别为6、12与7。
其次将表明列数的变数j设定为er+1(步骤S182),并将eg的值与rireki(j)比较(步骤S183)。这时,如果eg的值大于rireki(j),则要确定是否满足分数(j)+命中数>分数(i),或是满足分数(j)+命中数=分数(i)以及eg<rireki(i)(步骤S184)。
要是上述任一项条件满足,则将分数(i)设定为分数(j)+命中数,将rireki(i)设定为eg(步骤S185),而结束此过程。
要是于步骤S183中eg等于或小于rireki(j)或是步骤S84中任何条件都不能满足,则将j设定到j+1(步骤S186),并将j与m比较(步骤S187)。要是j等于或小于m,则重复步骤S183中和其后的过程。如果i超过m,则终止此过程。
这样,在紧接前述过程之后,从各由增加一条路径给暂定路径集所获得的一批集中。提取用于最佳路径集的新的暂定集,并将它的节点记录于分数(i)中,用于最佳路径集的暂定路径集中在第i列至最后一列范围内的节点数,可以通过对路径集(i)中所有路径重复上述过程而求得。
例如在图37中,从第11列至最后一列范围内,有两种组合即只是路径p1以及路径p2与p3的组合可以看作是一致路径的组合。由于这些组合在任一情形下的节点数是4,所以分数(11)等于4。
上述表格形式识别方法不仅可以用于管理信息提取设备,还可以用于任何图像识别设备如文件识别设备、图样阅读设备等,还能有效地用于识别任意图像中分格线的结构。
在本实施例的表格形式识别过程中是把分格线间的关系用作特征。于是,在从输入的表格式文件中提取分格线结构并使其与输入的表格式文件的表格形式相匹配时,即使是由于线道断裂或噪声等使一部分操作不能提取时,也能获得稳定的正确的识别。特别是在由于噪声影响可能成为不稳定的提取轮廓线的过程中,通过给节点的排列设置宽广的条件来减少对精度的破坏,能达到很高的牢靠度。
要是将最佳路径集作为一或多条路径的组合来求出时,通过增加或减少一行来变更表格形式时,可以实现稳定和正确的识别。此外,通过设定有关两个节点的过渡性相容条件,可以减少相容性检验过程数,从而能进行高速的识别处理。
根据本发明,表格式文件等的图像形式以及管理信息的位置能够自动学习并存储于词典中。于是,根据所存储的信息,可以高精度地计算任意输入图像中管理信息的位置。
特别是,由于应用了对图像信息的波动为稳定的特征,便可以成功地从破碎的或变形的文件图像中提取管理信息。再者,由于在进行表格形式学习和比较过程的同时,是把候选者渐次地限制于粗分类和细节识别的两个步骤中,而且细节识别又是利用表的轮廓形式特征于一维匹配方式下进行,故能高速度地提取管理信息。
此外,由于管理信息不仅是用字符码而且还用图像本身进行存储与检索,因而即使是一些难以识别的字符如带纹理的字符等,也能作为管理信息处理。
权利要求
1.表格形式识别设备,此设备包括存储装置,用来存储表格形式的分格线信息;组生成装置,用来获得从输入图像提取的且与此存储装置分格线信息中所含分格线对应的分格线的一批可能组合,并从这批组合中提取两或多个可兼容的组合,其中不能够包含另一个组中的组合;以及比较装置,用来根据有关此一或多个提取组中所含组合的信息使输入图像与前述表格形式比较。
2.权利要求1所述的表格形式识别设备,此设备还包括集确定装置,用来从一或多个组中提取几个组构成的集,集中的分格线对应关系相互一致,同时用来求得一最佳集,它在这些组的集中具有最大个数的分格线组合数,其中,前述比较装置根据此最佳集的各组中包括的组合的信息,使输入图像与所述表格形式比较。
3.权利要求1所述的表格形式识别设备,其中所述组生成装置使输入图像中轮廓部的特征的相对值与前述表格形式中相应特征的相对值比较,确定此输入图像中分格线与表格形式中分格线之间对应的可能性,并生成分格线的可能组合。
4.权利要求1所述的表格形式识别设备,其中前述组生成装置使输入图像中所含分格线间相对关系与表格形式中分格线之间的相对关系比较,并确定所述的两或多个组合是否相互相容。
5.权利要求1所述的表格形式识别设备,其中所述组生成装置包括表生成装置,它通过在第一方向中排列输入图像的分格线,于第二方向中排列表格形式的分格线,并将输入图像中i分格线与表格形式中的j分格线的组合定义为元素(j,j)位置处的节点;以及路径生成装置,用来将对应一可相容组合的两个节点与匹配表上一路径连接。
6.权利要求5所述的表格形式识别设备,其中所述路径生成装置在x>i与y>j的范围内搜索可与元素(i,j)位置处的节点相容的下一个节点,并在下一个节点求得时据此节点而确定一个与元素(x,y)范围类似的搜索范围。
7.表格形式识别方法,此方法包括下述步骤求出从输入图像提取出的分格线与预存储的表格形式中对应分格线的一批可能组合;从这批组合中提取两或多个可兼容的组合,其中不能够包含另一个组中的组合;以及根据有关一个或多个提取出的组中所含组合的信息,使输入图像与前述表格形式比较。
全文摘要
表格形式识别设备,它在表格形式学习过程中学习文件的分格线结构以及用户明确的管理信息如标题等的位置,并将它们存储于布局词典中。作业中,使从输入文件的图像中提取出的分格线结构与上述布局词典中文件内的分格线结构匹配。然后参考此布局词典中的位置信息而从输入文件中提取管理信息。
文档编号G06K9/20GK1534539SQ0313285
公开日2004年10月6日 申请日期1997年12月26日 优先权日1996年12月27日
发明者直井聪, 明, 胜山裕, 武部浩明 申请人:富士通株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1