帐票识别装置、方法、数据库生成装置、方法以及程序的制作方法

文档序号:6578846阅读:287来源:国知局
专利名称:帐票识别装置、方法、数据库生成装置、方法以及程序的制作方法
技术领域
本发明涉及用于对在帐票上任意的表结构内存在的字符串进行识别 的技术。
背景技术
在企业中,在各种业务中使用帐票。例如在金融机构中,准备多种 帐票,根据顾客写入在帐票上的信息,提供该顾客期望的服务。在中心 集中地迸行用于提供该服务的处理的情况下,帐票进行电子化而被传送 到中心。
在帐票的电子化中,通常对记载在该帐票上的内容进行识别(字符 识别)。帐票识别装置使用通过由图像读取装置读取记载在帐票上的内容 而进行了电子化后的其图像来进行识别。 一般,传送到上述中心的帐票、 即帐票识别装置的识别结果可由操作者根据需要进行修正。
帐票在任意的表结构中配置有信息(字符串)。因此,作为用于识别 在帐票图像上应进行字符识别的字符串的方法,有登记成为识别对象的 帐票的布局结构的方法。在该方法中,可根据所登记的布局结构,立即 确定在所读取的帐票图像上应进行字符识别的字符串存在的区域。还可 以从所登记的布局结构中自动提取与所读取的帐票图像对应的布局结构
(专利文献7)。布局结构的登记还可以从帐票图像中提取布局特征来自 动进行(专利文献6)。
在企业等中使用的帐票通常不是1种。 一般存在多种。往往由于某 种原因而变更帐票的设计(布局)。在金融机构中,顾客方不一定总是使 用预先准备好的帐票。即,顾客有时使用独自的帐票来请求服务。因此, 在现有的帐票识别装置中有这样的帐票识别装置不用登记与特定的帐 票相关的布局结构就能进行帐票识别、即能识别记载在帐票上的内容(专利文献1 3)。然而,在专利文献1 3中分别记载的现有的帐票识别装 置均如以下所述,通用性低且不实用。
在专利文献1记载的现有的帐票识别装置中,准备了从帐票应读取 的项目名、以及用于识别该项目名的内容的信息,识别各项目名的内容。
然而,在帐票中存在这样的帐票多个项目名被分配给一个数据(记载), 或者由于用途不同而记载了多个相同项目名。因此,能识别的帐票的种 类受到限定。
在专利文献2记载的现有的帐票识别装置中,以全部项目名配置在 一个框内为前提,将预先设定的具有规则性的框作为项目框、并将其他
框作为数据框来进行字符识别。然而,在帐票中存在这样的帐票表示 项目名的字符串未配置在框内,或者在1个框内配置有多种字符串。后 者相当于由顾客将数据记载在例如印刷好的配置有项目名的框内。
在专利文献3记载的现有的帐票识别装置中,按帐票的各种类,使 记载在该帐票上的项目名成组,提取在所读取的帐票上存在的项目名所 属的组,从所提取的组估计成为候补的帐票种类(逻辑结构)。然而,由 于一个以上的项目名属于各组,因而各组具有的信息量小。原因是,各 组的信息与属于组的全部项目名有关系。因此,只能以是订单还是入会 申请书这样的水准来识别帐票种类。
在专利文献3记载的现有的帐票识别装置中,通过将各项目名的数 据类型与跟该项目名所属的组对应的模式(schema)信息表示的数据类 型进行对照,确认它们是否一致,将其确认结果用于识别帐票种类。然 而,该确认事实上只能用于确认与项目名对应的记载(数据)。原因是, 在项目名与该项目名中记载的数据类型之间通常存在以非常高的概率成 立的关系。具体地说,这是因为,在例如"金额"、"单价"和"支付额" 这样的能汇总为l组的项目名中,数据一般均由数值来表现。
在帐票中,认为有可能与项目名对应的数据往往存在多个。因此, 一般有必要确定项目名与数据的对应关系。由于有时数据类型根据项目 名而不同,因而数据类型可用作用于确定与项目名对应的数据的信息(专 利文献1)。上述对照当然只有在确定了该对应关系后才能进行。因此,
14在能进行该对照的情况下,越是能预先确定按各项目名记载有与其对应 的数据的区域、或者越是无需进行该确定,帐票设计就越要简单。因此 可知,只能以非常低的水准识别帐票种类。
专利文献1日本特开平9—274634号公报专利文献2日本特开平10—116314号公报专利文献3日本特开2006—134106号公报专利文献4日本特开平11 — 110479号公报专利文献5日本特开2000—339406号公报专利文献6日本特许第3088019号公报专利文献7日本特开2004 —164674号公报专利文献8日本特开2004—334913号公报专利文献9日本特许第3465667号公报

发明内容
本发明的目的是提供一种不用将用于识别记载内容的信息按照设计 不同的各个帐票进行登记即能范围广泛地应对帐票的技术。
能应用本发明来构建的帐票识别装置均是对在帐票上任意的表结构 内存在的字符串进行识别的装置,并分别具有以下单元。
应用了本发明的一个方式的帐票识别装置具有图像取得单元,其 取得帐票进行了电子化后的帐票图像;字符串识别单元,其识别在图像 取得单元所取得的帐票图像上存在的字符串;字符串提取单元,其从字 符串识别单元所识别的字符串中提取预定的字符串即标题语句;表结构 判定单元,其根据字符串提取单元所提取的标题语句、以及标题语句在 帐票图像上的配置,判定在该帐票图像上存在的表结构;以及对应关系 确定单元,其使用由表结构判定单元进行的表结构的判定结果,确定标 题语句与在该标题语句以外由字符串识别单元所识别的字符串之间的对 应关系。
在帐票上存在的表结构根据帐票用途(类别或形式等)具有特有的 特征。该特征表现在项目名的配置上。配置在表结构内的项目名的范围,即认为有可能在该表结构内输入(填写)的数据的种类和数量可根据帐
票用途(类别或形式等)来确定。因此,通过采用项目名这样的对相同
表结构和相同用途的帐票公共的字符串作为标题语句,可通过所提取的
标题语句确定填写帐票内的数据的种类和数量。可通过标题语句的配置
确定帐票的表结构。其结果,即使不将用于识别记载内容的信息按各帐
票进行登记,也能范围广泛地高精度地应对帐票。
应用了本发明的另一方式的帐票识别装置具有图像取得单元,其
取得帐票进行了电子化后的帐票图像;字符串识别单元,其识别在图像 取得单元所取得的帐票图像上存在的字符串;字符串提取单元,其从字
符串识别单元所识别的字符串中提取预定的字符串即标题语句;位置确
定单元,其根据字符串提取单元所提取的结果,确定字符串识别单元未
识别的标题语句存在于帐票图像上的位置;语句生成单元,其生成在位
置确定单元所确定的位置应存在的标题语句;以及对应关系确定单元,
其将语句生成单元所生成的标题语句包含在内,确定该标题语句与在该
标题语句以外由字符串识别单元所识别的字符串之间的对应关系。
上述字符串识别单元未识别的标题语句是在帐票上未填写的、或者 不能识别的标题语句。由于不能识别的标题语句是产生了识别差错的字 符串,因而其位置可根据识别结果来确定。在帐票上未填写的标题语句 可着眼于表结构来确定。这是因为,该表结构根据帐票用途(类别或形 式等)具有特有的特征,该特征可根据所识别的标题语句来确定。艮卩, 这是因为,通过确定表结构,可利用与其他能识别的标题语句之间的关 系、或者同一表结构中的其他识别结果。由此,作为未识别的标题语句, 可分配在表结构上不产生逻辑矛盾的标题语句。因此,可避免或减少由 标题语句的遗漏或不能识别引起的不良影响。结果,不用将用于识别记 载内容的信息按各帐票进行登记,可适当地应对识别差错和漏填写等。 这意味着,可范围广泛地应对产生识别差错或者存在漏填写等的帐票。
应用了本发明的另一方式的帐票识别装置具有图像取得单元,其 取得帐票进行了电子化后的帐票图像;存储单元,其按照作为在帐票上 填写1个以上的关联数据的单位的表结构即单位表结构各方,存储有以分层结构定义了有可能在该单位表结构中出现的标题语句的数据库;字 符串识别单元,其识别在图像取得单元所取得的帐票图像上存在的字符
串;字符串提取单元,其参照存储在存储单元内的数据库,从字符串识 别单元所识别的字符串中提取预定的字符串即标题语句;标题追加单元, 其根据字符串提取单元的提取结果,提取在帐票图像上存在的单位表结 构的范围,着眼于在该提取的范围内所识别的标题语句、以及在该单位 表结构中被识别为数据的字符串中的至少一方,追加与该数据对应的标 题语句;以及对应关系确定单元,其将标题追加单元所追加的标题语句 包含在内,确定该标题语句与在该标题语句以外由字符串识别单元所识 别的字符串之间的对应关系。
在帐票上存在的表结构的特征可如上所述根据所识别的标题项目来 确定。配置在单位表结构内的项目名(标题语句)的范围,即认为有可 能在该表结构内输入(填写)的数据的种类和数量可根据帐票用途(类 别或形式等)来确定。有时,项目名不同,作为数据所输入的字符串的 种类(属性)、字符数、所附加的特有符号、该符号的位置等也有不同。 因此,可着眼于所识别的标题语句、以及在单位表结构中被识别为数据 的字符串中的至少一方,高精度地确定与该数据对应的标题语句。由此, 不用将用于识别记载内容的信息按各帐票进行登记,能以对操作者来说 更期望的形式提供帐票识别结果。由于能以更适当的形式对标题语句数 量少、内容难以把握的帐票进行处理,因而可范围广泛地应对帐票。
本发明的一个方式的数据库生成辅助装置是辅助生成用于由上述帐 票识别装置识别帐票上的字符串的数据库的装置,该数据库生成辅助装 置具有语句输入单元,其输入标题语句;以及分层结构生成单元,其
生成语句输入单元所输入的标题语句间的分层结构。
在将上述分层结构用于帐票上的字符串的情况下,能进行使用更上 位的概念的识别、或者识别结果的确认等。即,能进一步抑制字符串的 识别和识别结果的确认等所需要的信息量。由此,能更容易地实现更高 的通用性。
在应用了本发明的系统中,不用将用于识别记载内容的信息按照设计不同的各个帐票进行登记,可范围广泛地应对帐票。


图1是示出本实施方式的帐票识别装置的功能结构的图。
图2是表结构分析处理的流程图。
图3是关键字提取处理的流程图。
图4是标题得分计算处理的流程图。
图5是注释判定处理的流程图。
图6是帐票类别判定处理的流程图。
图7是表结构判定处理的流程图。
图8是标题语句判定处理的流程图。
图9是单元格校正处理的流程图。
图IO是无格线表的表结构分析处理的流程图。
图11是第1逻辑结构分析处理的流程图。
图12是未读标题恢复处理的流程图。
图13是基于排他关系和数据信息的再提取处理的流程图。
图14是重复详査处理的流程图。
图15是DR GR—标题语句详査处理的流程图。
图16是单元格内项目候补提取处理的流程图。
图17是单元格内多个项目候补提取处理的流程图。
图18是右项目候补提取处理的流程图。
图19是下项目候补提取处理的流程图。
图20是梯子形单元格提取处理的流程图。
图21是连记项目候补提取处理的流程图。
图22是项目分析需要与否判定处理的流程图。
图23是第2逻辑结构分析处理的流程图。
图24是示出帐票例的图(之l)。
图25是示出帐票例的图(之2)。
图26是示出帐票例的图(之3)。图27是示出帐票例的图(之4)。
图28是示出帐票例的图(之5)。
图29是示出帐票例的图(之6)。
图30是示出帐票例的图(之7)。
图31是示出具有相同位置的标题语句的变化的图。
图32是说明相同表记的标题语句根据设计而变化的意思的图。
图33是示出输入帐号的表结构的变化的图。
图34是说明标题语句和与其对应的数据的位置关系例的图。
图35是示出着眼于标题GR和标题DR的表结构的变化的图(之1 )。
图36是示出着眼于标题GR和标题DR的表结构的变化的图(之2)。
图37是说明通过执行表结构分析处理来进行的分析内容的图(之1)。
图38是示出根据表结构而生成的单元格的图。 图39是示出标题语句的排序方法的图。
图40是示出使用所提取的标题语句来计算的标题得分例的图。
图41是说明注释语句例的图。
图42是示出登记在关键字DB31内的内容例的图。
图43是示出使用所提取的标题语句来计算的标题得分例的图。
图44是说明在图43 (c)所示的内容被存储在逻辑结构分析DB 25
内的情况下来计算的标题得分MTn的图。
图45是说明根据帐票类别而生成的单元格的差异的图。
图46是说明基于标题语句的配置的帐票类别判定方法的图。
图47是说明根据帐票类别判定结果进行的单元格校正的图。
图48是说明根据无格线表而生成的虚拟单元格的图。
图49是示出基于标题位置信息的再提取处理内容例的图。
图50是示出基于标题位置信息的再提取处理内容的另一例的图。
图51是说明在基于排他关系和数据信息的再提取处理中实施的标
题语句再提取的第l例的图。
图52是说明在基于排他关系和数据信息的再提取处理中实施的标
19题语句再提取的第2例的图。
图53是说明在基于排他关系和数据信息的再提取处理中实施的标 题语句再提取的第3例的图。
图54是说明标题语句恢复方法的图。
图55是说明根据标题语句恢复结果进行的单元格校正的图。 图56是说明重复详查处理内容的图。 图57是说明DR GR—标题语句详査处理内容的图。 图58是说明从单元格内提取其他字符串的方法的图(之l)。 图59是说明从单元格内提取其他字符串的方法的图(之2)。 图60是说明从单元格内提取其他字符串的方法的图(之3)。 图61是说明从单元格内提取其他字符串的方法的图(之4)。 图62是说明从单元格内提取其他字符串的方法的图(之5)。 图63是说明从单元格内提取其他字符串的方法的图(之6)。 图64A是说明从单元格内提取其他字符串的方法的图(之7)。 图64B是说明从单元格内提取其他字符串的方法的图(之8)。 图65是说明从单元格内提取其他字符串的方法的图(之9)。 图66是说明从单元格内提取其他字符串的方法的图(之10)。 图67是说明从单元格内提取其他字符串的方法的图(之ll)。 图68是说明从单元格内提取其他字符串的方法的图(之12)。 图69是说明明细分割的图。 图70是说明使用删除线的删除的图。
图71是说明通过执行第2逻辑结构分析处理而得到的识别结果的图。
图72是示出实际帐票识别结果的图。
图73是能实现本实施方式的帐票识别装置的计算机的结构图。 图74是示出本实施方式的数据库生成辅助装置的功能结构的图。 图75是示出生成代表标题的处理流程的流程图。 图76是示出生成标题关系的处理流程的流程图。 图77是示出重复语句例的图。图78是说明表形式的定义以及与该定义对应的帐票设计(表结构) 的图。
图79是说明数据整形的定义以及根据该定义进行的数据整形的图。
图80是说明标题关系生成方法的图。
图81是说明根据标题GR关系而生成的帐票设计的图。
图82是说明根据标题GR关系从帐票设计生成的标题关系的图。
图83是说明根据标题DR关系而生成的帐票设计的图。
图84是说明根据标题DR关系从帐票设计生成的标题关系的图。
标号说明
11:输入部;12:图表字符分离部;13:格线提取部;14:表结构 分析部;15:文本提取部;16:字符识别部;17:关键字提取部;18: 帐票类别判定部;19:表结构分析(无格线)部;20:逻辑结构分析(项 目候补提取)部;21:项目分析部;22:逻辑结构分析(项目确定)部; 23:输出部;24:数据库存储部;25:逻辑结构分析DB; 26:存储器; 701:标题和数据信息输入部;702:代表标题生成部;703:标题关系输 入部;704:标题关系生成部;705: DB输出部。
具体实施例方式
以下,参照附图详细说明本发明的实施方式。
图1是示出本实施方式的帐票识别装置的功能结构的图。该帐票识 别装置1输入通过读取帐票而获得的电子化后的帐票图像,识别在该帐 票图像上存在的字符串(由1个以上的字符构成的字符串)。
如图1所示,该帐票识别装置1具有输入部11,其输入由扫描仪 等读取而电子化后的帐票图像;图表字符分离部12,其将输入部11所输 入的帐票图像上存在的记载按其类别分为例如图、表和字符(字符串) 来将其分离;格线提取部13,其从由图表字符分离部12所分离的表中提 取格线;表结构分析部14,其将表分割为由格线识别的单元格并进行分 析;文本提取部15,其提取在表内外存在的字符;字符识别部16,其识 别由文本提取部15所提取的字符;关键字提取部17,其将成为用于识别帐票类别的信息的字符串作为关键字来提取;帐票类别判定部18,其使 用所提取的关键字来判定读取了帐票图像的帐票的类别;表结构分析(无 格线)部19,其对不能根据格线识别单元格的表的结构进行分析;逻辑 结构分析(项目候补提取)部20,其对表的逻辑结构进行分析,提取应 识别的对象的候补;项目分析部21,其对表上的应进行详细分析的项目 进行分析;逻辑结构分析(项目确定)部22,其确定分配给应识别的对 象的候补;输出部23,其在显示装置上显示或者经由通信网络等发送识 别结果;数据库存储部24,其能将该识别结果存储在未作图示的数据库 内;以及存储部26,其存储在各种分析中使用的逻辑结构分析数据库 (DB) 25。
图24 图30分别是示出不同种类的帐票例的图,图31 图36分别 是示出在不同标题中采用的设计例的图。首先参照图24 图36,对本实 施方式的帐票识别装置的识别对象帐票进行具体说明。
在图24 图30中,图24示出用于委托向指定账户缴纳的单票,图 25示出用于通知缴纳完成的税款额的单票,图26 图28分别示出按各 物品填写该物品涉及的数据(字符串)的连记型货单,图29示出用于按 各收款人委托薪金转帐的连记型转帐委托书,图30示出用于按各收款人 委托薪金转帐的复表(转帐用纸)。从图24 图30可以看出,即使是按 相同种类来分类的帐票,设计(表结构)按各帐票也不同。这里,只要 未特别事先说明,"种类"是根据设计对帐票加以区别的情况下使用的。 在表示单票和货单等的差异的情况下,使用"类别(type)"或"用途"。
并且,帐票图像上的"数据"是以仅指利用者在帐票上所输入的字符串 的意思来使用的。
图31是示出表记不同而具有相同意思的标题语句的变化的图。如图 31 (a) (e)所示,"金额"、"缴纳金额"、"薪金额"、"小计金额"以 及"合计金额"有时用作表现支付或缴纳金额的语句。
图32是说明相同表记的标题语句根据设计而变化的意思的图。该标 题语句相当于"合计"。该合计的意思在图32 (a)中是合计金额,而在 图32 (b)中除了合计金额以外还具有合计件数(物品数)的意思。在图
2232 (c)中,"10/10"表示10张一册的帐票中最后的1张。由此在图32
(c) 中,意味着10张一册的所有帐票的合计金额。
图33是示出输入帐号的表结构的变化的图。图33 (a—l)和(a—2) 是使用同一标题语句输入不同金融机构的帐号的情况。作为帐号,假定 在图33 (a—l)中记载邮局的帐号,在图33 (a—2)中记载银行等的帐 号。图33 (b)是为了能在同一帐票内输入委托人和收款人的帐号而采用 了独立的2张表(单位表结构)的情况。图33 (c)是为了能在同一帐票 内输入多个收款人的帐号而采用了 1张表(具有多个单位表结构的表结 构)的情况。图33 (d)是为了能在同一帐票内输入委托人和多个收款人 的帐号而采用了l张表(具有多个单位表结构的表结构)的情况。
图34是说明标题语句和与其对应的数据的位置关系例的图。该标题 语句是"帐号"。由此在图34中示出作为标题语句的"帐号"存在的区 域与作为数据的帐号存在的区域之间的位置关系的变化。
要输入的1个数据的标题语句不一定总是一个。例如如图33 (b)
(d) 所示,有时除了标题语句"帐号"以外还存在别的标题语句"委托 人"或"收款人"。在图33 (b) (d)中,在逻辑的上下关系中,标题 语句"委托人"和"收款人"配置在标题语句"帐号"的上位。在帐票 中,在表结构上,有时存在这样的标题语句间的上下关系。在本实施方 式中,将该上下关系(分层关系)用于识别。以下,为了方便起见,将 视为位于最上位的标题语句称为"标题DR",将认为有可能属于该标题 DR的下一分层的标题语句称为"标题GR"。为了吸收按各帐票釆用的标 题语句的不同,准备了代表认为有可能在相同状况下使用的标题语句的 标题语句(以下称为"代表标题")。该代表标题不重复。由此,各代表 标题具有作为表示1个以上的标题语句所属的组的识别信息的功能。
在成为填写1个以上的关联数据,例如与收款人或委托人有关的数 据的单位的表结构即单位表结构中,例如在图33 (c)或(d)所示的单 位表结构中,标题语句"收款人"和"委托人"用作标题DR或GR,标 题语句"帐号"用作位于其下位的代表标题。因此,在有必要填写某种 程度的数据的表结构中, 一般存在标题DR或GR。图35和图36是分别示出着眼于标题GR和标题DR的表结构的变 化的图。
在图35中,标题GR相当于"转帐地址"。如图35 (a) (d)所 示,该标题GR"转帐地址"有时配置在包含其他项目、即别的标题语句 的位置,或者配置在输入数据的输入栏直接表示的位置。并且,如图35 (e)或(f)所示,作为标题语句有时也采用包含标题GR "转帐地址" 的标题语句(在图中是"转帐地址银行名")。如图35 (g)所示,有时不 存在标题GR"转帐地址"。
在图36中,标题DR相当于"收款人"。该标题DR "收款人"与标 题GR不同,如图36 (a) (c)所示,即使表结构不同,在视为最上 位的位置仍配置该语句的可能性也非常高。
在本实施方式中,如图24 图36所示,实现了假定不仅根据用途 而不同、而且采用各种设计的帐票的识别。回到图l,详细说明用于实现 该识别的动作。在图1中,双线表示的构成要素采用用于实现本发明的 特征的技术。因此,以重视双线表示的构成要素的形式进行说明。在说 明上,为了方便起见,针对逻辑结构分析DB 25的内容,仅假定缴纳用 或转帐用这样的往往在金融机构中使用的帐票涉及的内容。
构成由图表字符分离部12所分离的表的线即格线由格线提取部12 提取。表结构分析部14使用格线提取结果,将表分解为单元格来分析结 构。该单元格是指没有尺寸概念的区域。表是指认为有可能用作记载1 个字符或字符串的栏的区域。这样通过使用单元格来处理字符串,可以 减少在处理字符串方面所需要的信息量。BP,在减轻负荷的同时,能更 容易进行各种操作。
图2是表结构分析部14执行的表结构分析处理的流程图。图37和 图38是说明通过执行该表结构分析处理而进行的分析内容的图。参照图 2、图37和图38,具体说明表结构分析部14进行的分析。
首先,在步骤S1中,判定是否有所提取的格线。在进行了格线提取 的表(以下称为"对象表")是图37 (a—l)所示的表的情况下,由于格 线提取部13不能提取格线,因而判定为没有格线,在步骤S2中判定为表是没有格线的无格线表,之后结柬该表结构分析处理。在不是这样的
情况下,即是图37 (a—2) (a—4)中的任一方的表的情况下,由于 存在所提取的格线,因而判定为有格线,转移到步骤S3。
在步骤S3中,判定在所提取的格线中是否有纵格线。在对象表是图 37 (a—2)或(a—4)所示的对象表的情况下,判定为有纵格线,转移 到步骤S5。在不是这样的情况下,即对象表是图37 (a—3)所示的对象 表的情况下,判定为没有纵格线,在步骤S4中根据对象表生成临时的纵 格线,之后转移到步骤S7。如图37 (b—1)和(b—2)所示,该临时的 纵格线生成在字符串(1个以上连续的字符)的横向上的间隔在某种程度 上宽的位置。
另一方面,在步骤S5中,判定在所提取的格线中是否有横格线。在 对象表是图37 (a—3)或(a—4)所示的对象表的情况下,判定为有横 格线,转移到上述步骤S7。在不是这样的情况下,即对象表是图37 (a —2)所示的对象表的情况下,判定为没有横格线,在步骤S6中根据对 象表生成临时的横格线,之后转移到该步骤S7。该临时的横格线与临时 的纵格线一样生成在字符串的纵向上的间隔在某种程度上宽的位置。
在步骤S7中,如图37 (c—l)或(c一2)所示,提取纵格线和横格 线(都包含临时的格线)相交的交点。在随后的步骤S8中,判定所提取 的交点数是多还是少。该判定是考虑由例如连接交点的线划分的矩形区 域数和对象表内存在的字符串数来进行的。换句话说,是着眼于1个字 符串对应于1个矩形区域的比例来进行的。由此,在如图37 (c—2)所 示提取了交点的情况下,判定为交点多,转移到步骤SIO。在不是这样的 情况下,即如图37 (c—l)所示提取了交点的情况下,判定为交点少, 转移到步骤S9。在该步骤S9中去除临时的格线,之后转移到上述步骤 S2。
在步骤S10中,生成由连接交点的线划分的矩形区域。在接下来的 步骤S11中,进行斜行和歪曲校正,使对象表处于更适当的状态。之后, 在步骤S12中进行矩形区域的连接关系的详査,在步骤S13中生成反映 了该详查结果的单元格,之后结束该表结构分析处理。这样,通过执行表结构分析处理,着眼于在帐票图像上存在的格线,将配置有字符串的 区域作为单元格来生成并提取。
图38是示出根据表结构而生成的单元格的图。如图38 (a) (e) 所示,由线包围的矩形区域分别用作单元格,根据是否连接来将矩形区 域汇总。连接关系的详査是为了确定矩形区域(单元格)的汇总而进行 的。
例如如图38所示,大多采用将关联数据输入到1个表内的设计。在 输入有标题语句(例如项目名)或数据的栏间的位置关系中, 一般以能 适当输入数据的方式来考虑。详查连接关系来生成单元格是为了更容易 确定该位置关系,从而能进行考虑了该位置关系的识别。
图1的文本提取部15在生成了单元格的情况下按各单元格提取在该 单元格内存在的字符串。即使在未生成单元格的范围内也进行字符串的 提取。所提取的字符串由字符识别部16分割成字符来识别。该识别结果 被输入到关键字提取部17。在该关键字提取部17之后,使用识别结果作 为字符串。
用于输入相同数据的标题语句有时根据帐票而不同。也有可能由于 某种原因而不能识别标题语句的1个字符以上。因此在本实施方式中, 不仅使用按各帐票使用的标题语句,而且使用与该标题语句对应的代表 标题来进行标题语句的确认。代表标题以及分配有该代表标题的标题语 句例如如图43 (a) (c)所示来定义。
在逻辑结构分析DB 25内,按各代表标题存储有表示分配有该代表 标题的标题语句的信息。关键字提取部17参照该DB25,提取在帐票图 像上存在的标题语句,确定与所提取的标题语句对应的代表标题。
图3是关键字提取部17执行的关键字提取处理的流程图。这里参照 图3来详细说明该提取处理。
首先,在步骤S21中,判定是否指定了按行业的DB。在未指定行业 的情况下,判定为否,在步骤S22中参照逻辑结构分析DB 25,读入所 登记的标题语句,之后转移到步骤S24。在不是这样的情况下,即在指定 了行业的情况下,判定为是,在步骤S23中参照对应的按行业的DB,读
26入所登记的标题语句,之后转移到步骤S24。假定这里读入的标题语句的 总数为N个。
逻辑结构分析DB 25是不论行业的通用性高的DB。因此,所登记 的标题语句非常多。然而,标题语句数在限定行业的情况下可以更少。 因此在本实施方式中,准备了按行业的DB,可减轻不必要的负荷。逻辑 结构分析DB 25可以是能用作按行业的DB那样的逻辑结构分析DB。
在步骤S24中,关于所读入的标题语句,按各代表标题进行标题语 句的同一字符排列顺序的字符单位排序。在接下来的步骤S25中,设定 标题合格分MTth。之后转移到步骤S26。
图39是示出标题语句排序方法的图。这里,以在分配有代表标题"金 额"的标题语句中"金额"、"缴纳金额"和"缴纳额"在帐票图像上存 在的情况为例,示出这些标题语句"金额"、"缴纳金额"和"缴纳额" 的排序方法。由于重视相同字符的相同排列顺序来进行排序,因而将第1 位的标题语句设定为"缴纳额"时,将有相同"缴纳"的"缴纳金额" 排序在第2位,将"金额" 一致的"金额"排序在第3位。因此,在图3 中根据排序结果,表记的"C1" "C6"都表示不同字符。
在图3中,步骤S26 S31是按所读入的标题语句的总数N次重复 执行的。由此,按所登记的各标题语句执行步骤S26 S31。
同一标题语句有时存在多个。例如除了作为项目名以外,有时还存 在于用于进行说明等的注释语句中。因此,其中的步骤S27 S31是按通 过检索所提取的标题语句数(图中表记为"检索数")重复执行的。由此, 即使是相同标题语句,也确认它们之间的差异。
在步骤S26中,选择所排序的标题语句中的一个,检索所选择的标 题语句。按通过该检索找到的相同标题语句数重复执行步骤S27 S31。
根据帐票,有可能使用所登记的标题语句以外的字符串。因此在步 骤S27中,执行标题得分计算处理,即:计算表示通过检索所提取的标 题语句与所登记的标题语句的一致度的标题得分MTn (n是表示第n个 检索出的标题语句的得分的符号。在不特别需要考虑检索顺序的情况下 也表记为"MT")。在该执行后,转移到步骤S28。。在满足了该大小关系的情况下,判定为是,在步骤S29中执行用 于判定标题语句包含在注释语句内的可能性的注释判定处理,之后转移 到步骤S30。在不是这样的情况下,判定为否,结束一系列处理。由此, 本次成为对象的标题语句不被视为关键字。因此标题合格分MTth可用作 用于排除在所提取的标题语句中不成为关键字的标题语句的阈值。
在注释判定处理中,对在步骤S27的标题得分计算处理中计算出的 标题得分MTn进行更新。在步骤S30中,根据更新后的标题得分MTn 判定标题语句是否包含在注释语句内。例如,在该标题得分MTn小于被 设定为阈值的值的情况下,判定为是,在此结束一系列处理。由此,标 题语句不被视为关键字。另一方面,在不是这样的情况下,判定为否, 在步骤S31中登记标题语句作为标题(关键字)候补,之后结束一系列 处理。
这样,在通过检索所提取的标题语句与所登记的标题语句(以下也 表记为"登记标题语句")没有明显不同、或者不被视为包含在注释语句 内的情况下,该标题语句与表示所提取的单元格的单元格ID、标题得分、 获得了该得分的登记标题语句、以及代表标题这样的信息一起被登记。 由此,有可能在标题语句内存在多个相同代表标题,即分配有相同代表 标题的多个登记标题语句。与标题语句对应的代表标题是1个。整理是 在步骤S32以后进行的,其包含从分配有相同代表标题的多个登记标题 语句中选择一个登记标题语句。
在步骤S32中,按照通过检索所提取的标题语句顺序对结果进行排 序。在接下来的步骤S33中,将相同标题语句的结果按代表标题顺序进 行排序。在之后转移到的步骤S34中,判定在通过检索所提取的标题语 句中是否存在分配有相同代表标题的多个登记标题语句。在存在这样的 标题语句的情况下,判定为是,在步骤S35中从多个登记标题语句中删 除标题得分MT最高以外的登记标题语句,之后结束该关键字提取处理。 在不是这样的情况下,判定为否,在此结束该关键字提取处理。这样提 取并整理后的标题语句与单元格ID、代表标题、标题得分以及登记标题语句一起被登记在关键字DB31内。
图4是作为上述步骤S27执行的标题得分计算处理的流程图。这里 参照图4来详细说明该计算处理。图4中的"ML"和"MLO"分别表示 登记标题语句的字符数、以及所提取的标题语句与登记标题语句一致的 字符数。
在该计算处理中,按登记标题语句的字符数ML,进行与一致字符 数MLO对应的标题分数MT的计算。该分数MT的初始值是0,该分数 MT按以下来更新。
在字符数ML是1的情况下,作为标题分数MT计算使一致字符数 MLO乘以100后的值(S41—S42)。在字符数ML是2的情况下,标题 分数MT在一致字符数MLO是1的情况下被更新为70 (S41—S43—S44 —S45),在该一致字符数MLO是2的情况下被更新为100 (S41—S43 —S44—S46—S47),在该一致字符数MLO是1和2以外的数值即是0 的情况下仍为0 (S41—S43—S44—S46—end)。在字符数ML是3的情 况下,标题分数MT在一致字符数MLO是2的情况下被更新为70 (S41 —S43—S48—S49—S50),在该一致字符数MLO是3的情况下被更新为 100(S41—S43—S48—S49—S5i—S52),在该一致字符数MLO是1和2 以外的数值即是0的情况下仍为0 (S41—S43—S48—S49—S51 end)。 在字符数ML大于3的情况下,作为标题分数MT,计算使一致字符数 MLO乘以100后的值除以字符数ML得到的值(=MLOX 100/ML) (S41 —S43—S48—S53—S54)。在更新了标题分数MT之后,结束标题得分计 算处理。这样的更新方法是一例,并不作特别限定。
图40是示出使用所提取的标题语句来计算的标题得分MT例的图。 图40 (a)示出按各代表标题对标题语句进行了排序的结果,图40 (b— 1)示出所提取的标题语句"缴纳?额"("?"表示字符识别失败的字符) 的处理结果,图40 (b—2)示出所提取的标题语句"缴纳*" ("*"表示 内容、字符数不清楚的字符串)的处理结果。在图40 (b—2)中,存在 多个(二个)相同代表标题。在图40 (b—l)和(b—2)中, 一并表记 了在图4所示的标题得分计算处理内计算标题得分MT的处理步骤。图40 (b—l)或(b—2)所示的处理结果是通过执行图4的步骤S33来获 得的。
图44是说明在图43 (c)所示的内容被存储在逻辑结构分析DB 25 内的情况下来计算的标题得分MTn的图。图44 (a)示出代表标题"金 额"的识别成功的情况,图44 (b)示出该1个字符的识别失败的情况。
图42是示出登记在关键字DB31内的内容例的图。如图42所示, 在通过检索所提取的标题语句(图中表记为"检索字符串"。以下也使用 该表记)中有时提取多个分配有相同代表标题的登记标题语句。在该情 况下,仅保留标题得分MT最高的登记标题语句。由此,在检索字符串 "Ml"中仅保留有登记标题语句"MG4"和"MG5"中的语句"MG4"。 在检索字符串"M3"中,登记标题语句"MG3"和"MG6"的得分MT 都是100,登记标题语句"MG7"的得分MT是70,因而保留登记标题 语句"MG3"和"MG6"这2个。这样使得可以保留多个登记标题语句 是因为把省去认为不需要的处理对象作为着重点。
图5是在图3所示的关键字提取处理内作为步骤S29执行的注释判 定处理的流程图。下面参照图5来详细说明该判定处理。
如图41 (a) (d)所示,成为项目名的标题语句"金额"有时在 相同框(单元格)内或者表外作为说明用、即注释语句而存在。在说明 用的情况下,一般满足与其他字符串一起存在(图41 (a) (d))、以 及颜色或大小不同(图41 (c)或(d))这样的条件中的至少一方。是着 眼于标题语句是否是构成注释语句的标题语句这样的条件来进行的。标 题得分MTn是根据满足的条件来更新的。
首先在步骤S62中,判定"*"括弧记号或者"注意"等的注释语句 内存在的可能性高的符号是否在标题语句附近。在这样的符号在附近的 情况下,判定为是,在步骤S63中从标题分数MTn减去规定值CMl,之 后转移到步骤S64。在不是这样的情况下,判定为否,转移到该步骤S64。
在步骤S64 S69中,同样进行用于根据标题语句满足的条件更新标 题得分MTn的处理。由此,在标题语句的左右上下的任一方存在字符的 情况下,从标题得分MTn减去规定值CM2 (S64—S65—S66),在标题
30语句的颜色与周围字符或格线的颜色不同的情况下,减去规定值CM3
(S64或S65—S66—S67),在字符尺寸与其他字符相比较极端(明显) 小或大的情况下,减去规定值CM4 (S66或S67—S68—S69)。通过减去 规定值CM4、或者在步骤S68中判定为否,转移到步骤S70。
在步骤S70中,判定标题得分MTn的值是否不足标题合格分MTth。 在满足了该大小关系的情况下,判定为是,在此结束注释判定处理。在 不是这样的情况下,判定为否,在歩骤S71中使标题得分MTn加上规定 值CMO,之后结束该注释判定处理。由此,对于不应视为包含在注释语 句内的标题语句,进行进一步提高标题得分MTn的操作。
在关键字提取部17中,执行上述那样的各种处理,作为该执行结果 而得到的关键字及其涉及的信息被存储在关键字DB 31内。帐票类别判 别部18参照该关键字DB31,判定帐票类别(type)。由此,这里确定帐 票是单票、连记和复票中的哪一方。
图6是帐票类别判别部18执行的帐票类别判定处理的流程图。这里 参照图6来详细说明该判定处理。
首先,在步骤S81中,判定帐票类别是否定义完成。例如在操作者 指定了帐票类别、或者表示帐票类别的信息存在于帐票上的情况下,判 定为是,在步骤S82中设定帐票类别,之后转移到步骤S94。在都不是这 样的情况下,判定为否,转移到歩骤S83。
在步骤S83中,判定是否是无格线表。执行了图2所示的表结构分 析处理的结果,在判定为无格线表的情况下,判定为是,转移到步骤S85。 在不是这样的情况下,判定为否,在步骤S84中执行用于判定无格线表 的结构的表结构判定处理,之后转移到步骤S85。
在步骤S85中,执行用于着眼于标题语句来判定帐票类别的标题语 句判定处理。在该执行后,转移到步骤S86,计算最大值MaxSyu。在该 计算后,转移到步骤S87。
在上述表结构判定处理中,按各帐票类别,准备了用于计算得分的 变量,根据需要更新代入该变量的得分。该变量在复票中是FRT,在单 票中是TRT,在连记中是RPT。在标题语句判定处理中也根据需要更新这些变量的值(得分)。在步骤S86中的最大值MaxSyu的计算是使用这 些变量中的例如变量FRT和RPT的各值来进行的。该计算方法不作特别 限定,例如也包含将这些值相加的方法。
在步骤S87中,判定最大值MaxSyu是否大于表的最低点SyuTh。 在最大值MaxSyu是最低点SyuTh以下的情况下,判定为否,在步骤S88 中将类别设定为单票,之后转移到上述步骤S94。在不是这样的情况下, 判定为是,转移到步骤S89。
在步骤S89中,判定最大值MaxSyu是否是变量PRT的值。在3个 变量中变量PRT的值最大的情况下,判定为是,在步骤S90中将类别设 定为连记,之后转移到上述步骤S94。在不是这样的情况下,判定为否, 转移到步骤S91。
在步骤S91中,判定最大值MaxSyu是否是变量FRT的值。在3个 变量中变量FRT的值最大的情况下,判定为是,在步骤S92中将类别设 定为复票,之后转移到上述步骤S94。在不是这样的情况下,判定为否, 在步骤S93中将类别设定为单票,之后转移到该步骤S94。
在步骤S94中,判定是否是无格线表。在上述步骤S83中判定为无 格线表的情况下,判定为是,在步骤S95中执行用于分析无格线表的结 构的无格线表结构分析处理,之后结束该帐票类别判定处理。在不是这 样的情况下,判定为否,在步骤S96中执行单元格校正处理,之后结束 该帐票类别判定处理。
如上所述,帐票根据类别具有特有的表结构。因此,通过判定(确 定)帐票类别,可准确地确定标题语句与数据的对应关系。由此可高精 度地识别帐票。
这里,参照图7 图9来详细说明在上述帐票类别判定处理内执行 的各种子程序处理。
图7是作为上述步骤S84执行的表结构判定处理的流程图。首先参 照图7来详细说明该判定处理。
在该表结构判定处理中,根据帐票类别着眼于单元格的配置来分析 特有的结构。在连记中,该单元格的配置如图45 (a—l〉或(a—2)所
32示,往往各行的单元格几乎或大致一致。在复票中,如图45 (b—1)或 (b—2)所示,往往多行的单元格的配置重复出现。在单票中,如图45 (c一l)或(c一2)所示,往往单元格不接近或不一致但接近。着眼于
这样的根据帐票类别而不同的单元格(包含具有标题语句的单元格)的
配置特征,进行上述变量FR1、 TR1和RP1的更新。这些变量的初始值是O。
首先,在步骤S101中,按各行计算横向(l行)排列的单元格的个 数ClYn。在接下来的步骤S102中,计算1行排列的单元格的平均个数 ClYave。在随后的步骤S103中,按各行计算在横(行)方向排列的单元 格中、邻接单元格间存在的角,即划分相邻单元格的格线的个数KDYn。 在之后转移到的步骤S104中,按各行计算使个数KDYn除以个数ClYn 后的值作为单元格偏差度ZRY。在该计算后,转移到步骤S105。在歩骤 S104中计算的单元格偏差度ZRY是表示在1行的单元格中邻接单元格存 在的比例的值。由此,单元格偏差度ZRY表示在行方向单元格一致的程 度。为了判定在行方向单元格是否一致,设定阈值ZRYth。
在步骤S105 S108中,同样着眼于列来计算各种个数以及单元格偏 差度ZRT。
首先,在步骤S105中,按各列计算纵向(l列)排列的单元格的个 数ClTn。在接下来的步骤S106中,计算1列排列的单元格的平均个数 ClTave。在随后的步骤S107中,按各列计算在纵(列)方向排列的单元 格中、在纵方向上的邻接单元格间存在的角,即划分相邻单元格的格线 的个数KDTn。在之后转移到的步骤S108中,按各列计算使个数KDTn 除以个数ClTn后的值作为单元格偏差度ZRT。该单元格偏差度ZRT表 示在列方向单元格一致的程度。为了判定在列方向单元格是否一致,设 定阈值ZRTth。
按上述计算的单元格偏差度ZRY和ZRT都表示该值越大则越一致。 在继步骤S108之后的步骤S109中,判定单元格偏差度ZRY是否大于阈 值ZRYth、且单元格偏差度ZRT是否大于阈值ZRTth。在全都满足这些 大小关系的情况下,即在能认为纵横大致一致的情况下,判定为是,认为具有连记的特征,在步骤S110中将规定值R1加上截至目前的RRT值 后的值代入变量RRT,之后结束该表结构判定处理。在未满足这些大小 关系中的l个以上的情况下,判定为否,转移到步骤Slll。
在步骤Slll中,判定每行的单元格的个数ClYn是否以2行重复。 在该重复存在多个的情况下,判定为是,认为具有复票的特征,在步骤 S112中将规定值Fl加上截至目前的FRT值后的值代入变量FRT,之后 结束该表结构判定处理。在不是这样的情况下,判定为否,转移到步骤 S113。
在步骤S113中,判定每行的单元格的个数ClYn是否以3行重复。 在该重复存在多个的情况下,判定为是,认为具有复票的特征,在步骤 S114中将规定值F1加上截至目前的FRT值后的值代入变量FRT,之后 结束该表结构判定处理。在不是这样的情况下,判定为否,转移到步骤 S115。
在步骤S115中,判定单元格是否接近。在该状况下,单元格接近是 指图45 (c—1)所示的单元格的配置。由此,在是图45 (c—l)所示的 单元格的配置的情况下,判定为是,认为具有单票的特征,在步骤S116 中将规定值Tl加上截至目前的TRT值后的值代入变量TRT,之后结束 该表结构判定处理。在不是这样的情况下,判定为否,在此结束该表结 构判定处理。
图8是在图6所示的帐票类别判定处理内作为步骤S85执行的标题 语句判定处理的流程图。下面参照图8来详细说明该判定处理。
在图30所示的复票中,在不同部位按相同顺序检索同一标题语句, 因而如图46 (a—l)所示提取关键字。与此相对,在图24和图25所示 的单票以及图26 图29所示的连记中,如图46 (a—2)所示提取关键 字,相同标题语句很少存在于别的单元格内。
另一方面,在复票中,如图46 (b—l)所示,相同检索字符串存在 的单元格的配置一般在纵或横方向上为相同位置。在单票和连记中,如 图46 (b—2)所示,不同检索字符串有时排列在纵或横方向上。这种情 况,连记出现的更多。在单票中,如图46 (b—3)所示,在检索字符串
34存在的单元格的位置往往没有关联性(规则性)。在单票和连记中,如图
46 (b—4)所示,有时只能仅1t索一个检索字符串。在标题语句判定处 理中,着眼于根据这样的帐票类别而不同的关键字的提取结果(标题语 句的配置),更新变量FRT、 TRT或RRT的值。
首先,在步骤S121中,判定是否存在3个以上的同一检索字符串。 在同一检索字符串作为关键字被提取的情况下,判定为是,在步骤S122 中将规定值F2加上截至目前的FRT值后的值代入变量FRT,之后转移到 步骤S127。在不是这样的情况下,判定为否,转移到步骤S123。
在步骤S123中,判定作为检索字符串所提取的标题GR或DR的种 类数是否是2以上、且是否提取了 2个以上的同一检索字符串。在标题 GR或DR的种类数是2以上、且提取了 2个以上的同一检索字符串的情 况下,判定为是,在步骤S124中将规定值F3加上截至目前的FRT值后 的值代入变量FRT,之后转移到步骤S127。在不是这样的情况下,判定 为否,转移到步骤S125。
在步骤S125中,判定同一检索字符串是否全部是1个。在所提取的 检索字符串相互不同的情况下,判定为是,在步骤S126中将规定值T2 和R2加上截至目前的TRT和RRT值后的值分别代入变量TRT和RRT, 之后转移到步骤S127。在不是这样的情况下,判定为否,转移到该步骤 S127。
在步骤S127中,判定相同检索字符串是否在纵或横方向上为相同配 置。在从纵或橫方向上的相同位置提取了多个相同检索字符串的情况下, 判定为是,在步骤S128中将规定值F4加上截至目前的FRT值后的值代 入变量FRT,之后结束该标题语句判定处理。在不是这样的情况下,判 定为否,转移到步骤S129。
在步骤S129中,判定不同检索字符串是否排列在纵或横方向上。在 不同检索字符串这样排列的情况下,判定为是,在步骤S130中将规定值 T3和R3加上截至目前的TRT和RRT值后的值分别代入变量TRT和 RRT,之后结束该标题语句判定处理。在不是这样的情况下,判定为否, 在此结束该标题语句判定处理。图9是在图6所示的帐票类别判定处理内作为步骤S96执行的单元 格校正处理的流程图。下面参照图9来详细说明该校正处理。
在转移到步骤S96的阶段中,只要不是具有无格线表的帐票,该帐 票类别就为判定完成。在单元格校正处理中,根据该判定结果,对单元 格的形状和配置进行校正。由此,如图45 (a—2)和(b—2)分别所示 的单元格的形状和配置如图47 (a)和(b)所示来校正。
首先,在步骤S141中,判定所判定的帐票类别是否是连记。在该类 别不是连记的情况下,判定为否,转移到步骤S145。在不是这样的情况 下,判定为是,转移到步骤S142。
在歩骤S142中,提取作为检索字符串所提取的标题语句排列的行或 列(图46 (b—2))。在隨后的步骤S143中,所提取的行或列以排列在l 条直线上的方式进行校正。在之后的步骤S144中,其他行或列也按照校 正后的行或列进行校正。之后,结束该单元格校正处理。
另一方面,在步骤S145中,判定所判定的帐票类别是否是复票。在 该类别不是复票的情况下,判定为否,在此结束该单元格校正处理。在 不是这样的情况下,判定为是,转移到步骤S146。
在步骤S146中,以多行为单位计算各行的平均排列。在接下来的步 骤S147中,根据计算出的平均排列判定是否有较大不同的行。在存在这 样的行的情况下,判定为是,在步骤S148中将该行的排列校正为平均排 列,之后结束该单元格校正处理。在不是这样的情况下,即在不存在需 要校正的行的情况下,判定为否,在此结束该单元格校正处理。
图10是在图6所示的帐票类别判定处理内作为步骤S95执行的无格 线表结构分析处理的流程图。最后参照图IO来详细说明该分析处理。图 1的表结构分析(无格线)部19是通过执行该分析处理来实现的。
在该分析处理中,着眼于检索字符串,虚拟生成包含该检索字符串 的单元格(以下,为了方便起见,将虚拟生成的单元格总称为"虚拟单 元格",将检索字符串的虚拟单元格称为"标题虚拟单元格")。根据所生 成的虚拟单元格的配置以及各虚拟单元格内存在的检索字符串,考虑帐 票类别判定结果,生成包含数据的虚拟单元格(以下称为"数据虚拟单元格")。将这样生成的虚拟单元格设定为实际单元格。图48是示出这样 生成单元格的过程的图,实际设计分为生成标题虚拟单元格的阶段、生 成数据虚拟单元格的阶段、以及最终生成单元格的阶段,示出该过程。 图48 (a)和(b)分别示出连记和复票的情况。
首先,在步骤S151中,在提取出检索字符串的部位生成标题虚拟单 元格。在随后的步骤S152中,根据生成了标题虚拟单元格的位置以及各 标题虚拟单元格的检索字符串,判定帐票类别是否是连记。在不同检索 字符串的标题虚拟单元格不能以排列在纵或横方向的方式生成的情况 下,判定为否,转移到步骤S156。在不是这样的情况下,即在如图48 (a) 所示能生成标题虚拟单元格的情况下,判定为是,转移到步骤S153。
在步骤S153中,考虑别的行或列,根据需要生成或校正配置了该标 题虚拟单元格的行或列的虚拟单元格,以将标题虚拟单元格排列在纵或 横方向上。在接下来的步骤S154中,在与配置了标题虚拟单元格的行或 列不同的行或列生成数据虚拟单元格。在该生成完成后转移到的步骤 S155中,所生成的虚拟单元格的排列以作为连记更适合的方式进行校正。 在进行了该校正后,转移到步骤S161。
在步骤S156中,根据生成了标题虚拟单元格的位置以及各^^题虚拟 单元格的检索字符串,判定帐票类别是否是复票。在不能将检索字符串 相同的标题虚拟单元格生成在多个纵或横方向的相同位置的情况下,判 定为否,转移到步骤S160,生成视为数据的字符串的虚拟单元格。在该 生成后,转移到步骤S161。在不是这样的情况下,即在如图48 (b)所 示己生成标题虚拟单元格的情况下,判定为是,转移到步骤S157。
在步骤S157中,生成虚拟单元格的配置图形重复的多个行或列的区 域。在随后的步骤S158中,按所生成的各区域生成数据虚拟单元格。在 之后的步骤S159中,按重复的多个行或列,即所生成的各区域,按照平 均的配置图形校正虚拟单元格的配置。之后转移到步骤S161。
在步骤S161中,判定视为应一致的虚拟单元格间的偏差大小。在该 偏差较小的情况下,判定为偏差较小,转移到步骤S162,以进一步减小 该偏差的方式校正虚拟单元格的配置。在该校正后,转移到步骤S163,详査与周围的虚拟单元格的位置关系,在有应校正配置的虛拟单元格的 情况下,校正该配置。在进行这样的校正、且将虚拟单元格的配置调整
为整体上更适当的配置之后,转移到步骤S164,将虚拟单元格生成为通 常的单元格。之后,结束该无格线表结构分析处理。
另一方面,在视为应一致的虚拟单元格间的偏差较大的情况下,在 步骤S161中判定为偏差较大,转移到步骤S165。在该步骤S165中,进 行使在存在该偏差的方向相邻的虚拟单元格连接的操作。之后转移到步 骤S164,将虚拟单元格生成为通常的单元格。
这样,即使帐票是无格线表,也能生成单元格。由此,在逻辑结构 分析(项目候补提取)部20中,对由单元格表现的帐票的结构进行逻辑 分析,提取并修正在结构上被认为不适当的部位或者不能适当识别的标 题语句。通过该修正,即使是没有格线的表结构,也能进行更高精度的 帐票识别,即识别标题语句与数据的关系。
图11是逻辑结构分析(项目候补提取)部20执行的第1逻辑结构 分析处理流程图。下面参照图11来详细说明实现逻辑结构分析(项目候 补提取)部20的该分析处理。
首先,在步骤S171中,详査通过检索所提取的标题语句,即检索字 符串。在随后转移到的步骤S172中,根据登记在逻辑结构分析DB 25内 的定义,判定未识别的标题语句是否不足。当根据该定义在被认为应识 别的标题语句中存在未被识别的标题语句的情况下,判定为是,在步骤 S173中执行未读标题恢复处理,在随后的步骤S174中执行单元格校正处 理,之后转移到步骤S175。在不是这样的情况下,即在全部识别出被认 为应识别的标题语句的情况下,判定为否,然后转移到步骤S175。
这里,对上述未读标题恢复处理和单元格校正处理进行具体说明。
图12是未读^^题恢复处理的流程图。该恢复处理是用于估计并提取 由于噪声、污浊或破损等原因而不能识别的标题语句的处理。在该恢复 处理中,在步骤S201和S202中分别执行基于标题位置信息的再提取处 理、以及基于排他关系和数据信息的再提取处理。
图49是说明基于标题位置信息的再提取处理内容例的图。图49 (a)示出定义在逻辑结构分析DB 25内的内容摘录,由项目"标题位置"定义的是表示标题语句应存在于帐票上的位置的标题位置信息。图49(b)
(e)是按照图49 (a)所示的内容摘录而准备的图,分别示出帐票设计、根据该帐票设计上的标题位置信息而提取的字符串、对该字符串的操作、以及通过该操作而得到的识别结果。
在图49 (b)中,表示在位于帐票上部的字符串"平成OO年度OOO县汽车税"中"税"不能识别。然而,该字符串通过参照图49 (a)所示的摘录的标题位置信息来再提取,从而使用逻辑结构分析DB 25进行图49 (d)所示的操作。在该操作中,字符串"000县"由于是没有被包含在代表标题"税名"内的语句而被忽略,字符串"汽车税"即使
"税"是未读(即使不能识别)也能正确估计。字符串"平成OO年度"与跟其对应的代表标题"年"有关系。结果,识别为如图49 (e)所示的结果。
图50是说明基于标题位置信息的再提取处理内容的另一例的图。与图49一样,图50 (a)示出定义在逻辑结构分析DB25内的内容摘录。图50 (b—1)和(b—2)分别示出基于帐票设计的处理内容。
在图50(a)所示的摘录中,标题位置信息表示的位置为上部和下部。成为提取对象的语句是最后为"市"的字符串。因此,在图50 (b—l)所示的例子中,由于字符串"〇〇〇市"分别存在于帐票的上部和下部,因而该字符串"〇〇〇市"被再提取。另一方面,在图50 (b—2)所示的例子中,存在于帐票上部的字符串"000税"被忽略。由此,认为在帐票的上部和下部不存在应提取的字符串。
图51是说明在基于排他关系和数据信息的再提取处理中实施的标题语句的再提取的第1例的图。图5Ka)示出定义在逻辑结构分析DB25内的内容摘录,图51 (b—1)和(b—2)分别示出根据在相同帐票设计中不能识别的标题语句数而不同的处理内容。
图51 (b—1)和(b—2)分别所示的帐票设计是与图51 (a)所示的摘录对应的连记的帐票设计。为了简单起见,标题语句全部采用代表标题。由此这里,标题语句按照与代表标题相同的意思来使用。这在图52和图53中也一样。在图51 (b—1)中,在代表标题"帐号"上盖上印而不能识别,在图51 (b—2)中,除了代表标题"帐号"以外,在代表标题"金额"上也盖上印而不能识别。
如上所述,代表标题以不重复的方式来决定。由此在连记中,排列的代表标题使禁止重复的排他关系成立。因此,在图51 (b—1)所示的例子中,参照逻辑结构分析DB25,可确定在代表标题中欠缺的仅是"帐号"这一个。由此,不能识别的标题语句可准确地估计(恢复)为"帐号"。
另一方面,在图51(b—2)所示的例子中,参照逻辑结构分析DB25,可确定在代表标题中欠缺的是"帐号"和"金额"这2个。然而,由于多个代表标题欠缺,因而甚至配置有欠缺的代表标题的位置也不能确定。因此,为了确定该位置,使用具有属性、格式、附带记号的各信息的数据信息。
代表标题"帐号"的数据信息,其数据是7位数字串,表示该数据未附有附带记号。在代表标题"金额"的数据信息中,其数据是位数不受限定的数字串,表示在该数据的幵头(最初)附有语句"¥"、在最后附有语句"日元"、或者在数字间配置有语句","的可能性。因此,与语句"¥"被附在数字串的开头的数据对应的代表标题可准确地估计(恢
复)为是"金额"。通过该估计,剩余的代表标题可准确地估计(恢复)为是"帐号"。
图52是说明在基于排他关系和数据信息的再提取处理中实施的标题语句的再提取的第2例的图。图52 (a)示出存在不能识别的标题语句的帐票例,图52 (b)示出定义在逻辑结构分析DB 25内的与该帐票对应的内容。
在图52 (a)中,代表标题"分行名"和"帐号"全都未提取。然而,代表标题"分行名"和"帐号"的各数据分别附有"分行"作为附带记号、或者为数字串。因此,可根据这样的数据差异, 一并准确地估计未检测的代表标题"分行名"和"帐号"。
这样根据标题语句,有可能作为其信息存在的字符串被附有"¥"或
40"曰元"或"分行"等特有的附带记号(符号)。附有这样的附带记号的位置根据附带记号是特有的。因此,附带记号以及表示其位置的信息(附带记号信息)在高精度地确定与标题语句对应的信息(字符串)方面是有效的。由此,针对认为有可能在对应的字符串中附有附带记号的标题语句,准备了附带记号信息。
在复票中,具有一个以上的相同代表标题的表结构是重复的。在该重复的表结构的部分(也称为"明细范围")内,在相同位置存在相同代表标题。因此,当虽然有在某明细范围内未提取代表标题的单元格、但
在其他明细范围内从该位置提取了代表标题的情况下,如图54所示,能准确地估计未提取的代表标题。然而,在不是这样的情况下,即在全部明细范围内未能提取相同代表标题的情况下,不一定能准确地估计未能提取出的代表标题。例如在作为未能提取出的代表标题来考虑的代表标题仅是一个、以及未能提取出的代表标题的数据属性与其他代表标题的数据属性都不同的这样的条件的任一方不成立的情况下,不能进行准确估计。因此在本实施方式中,在不能准确地估计未提取的代表标题的情况下,生成应分配给未提取的代表标题的代表标题、以及其优先位次(数据位置位次),从而将有可能性的代表标题分配给未提取的代表标题。
图53是说明在基于排他关系和数据信息的再提取处理中实施的标题语句的再提取的第3例的图。该图53示出这样情况的例子由于即使使用代表标题具有的排他关系和数据信息也不能估计未检测的代表标题,因而生成数据位置位次来估计代表标题。图53 (a)是存在不能识别的标题语句的帐票例,图53 (b)是定义在逻辑结构分析DB 25内的与该帐票对应的内容,图53 (c)示出所生成的数据位置位次。
在图53 (a)中,代表标题"银行名"和"分行名"都未提取。然而,代表标题"银行名"和"分行名"的各数据的属性相同,未附有能对这些数据加以区别的附带记号。因此,处于不能获得用于确定未检测的代表丰示题的信息的状况。由此,生成使代表标题"银行名"和"分行名"分别为1位和2位的数据位置位次,生成了该数据位置位次的代表标题按照预定的规则被分别分配给未检测的代表标题。
41这样,通过将某些代表标题分配给未检测的代表标题,操作者只要根据需要修正所提取的代表标题即可。因此,与使操作者全部输入未检测的代表标题的情况相比较,可进一步减轻操作者的负担。
图13是参照图51 图53所说明的基于排他关系和数据信息的再提取处理的流程图。下面参照图13来更详细地说明该再提取处理。
首先,在步骤S211中,判定是否没有所检测的标题语句。在一个标题语句都不能检测出的情况下,判定为是,在此结束该再提取处理。在不是这样的情况下,判定为否,转移到步骤S212。
在步骤S212中,判定帐票类别是否是连记。在帐票类别判定部18的判定不是连记的情况下,判定为否,转移到步骤S224。在不是这样的情况下,判定为是,转移到步骤S213。
在步骤S213中,提取标题语句排列的行(标题行)。在随后的步骤S214中,参照逻辑结构分析DB 25,判定在标题行中未提取的标题语句是否是一个、且未发现标题语句的数据串是否是一个。在作为数据串的标题语句来考虑的标题语句仅是一个的情况下,判定为是,在步骤S215中将该代表标题确定为未检测的代表标题的候补,之后结束该再提取处理。在不是这样的情况下,判定为否,转移到步骤S216。
步骤S216 S220形成按未检测的标题语句数而执行的处理环。由此,从未检测的标题语句中选择一个,着眼于所选择的标题语句来确定与该标题语句对应的代表标题。
首先,在步骤S216中,选择未检测的标题语句,提取该标题语句存在的单元格、以及与该单元格对应的数据存在的数据串。在随后的步骤S217中,提取数据串的数据信息。在该数据信息提取后,转移到步骤S218,参照逻辑结构分析DB 25,着眼于代表标题具有的排他关系和数据信息,选出代表标题。该选出是如参照图51和图52所说明的那样来进行的。
在继步骤S218之后的步骤S219中,判定通过选出所提取的代表标题是否是一个。在能提取的代表标题仅是一个的情况下,判定为是,转移到步骤S220,将提取出的代表标题确定为未检测的标题语句的代表标题,之后结束一系列处理,回到上述步骤S216。在不是这样的情况下,判定为否,在此结束一系列处理。
当按未检测的标题语句数执行了上述的一系列处理时,转移到步骤
S221。在该步骤S221中,判定未检测的标题语句数是否等于所提取的数 据串数。在按未检测的各标题语句未能提取出与其对应的数据串的情况 下,判定为否,在此结束基于排他关系和数据信息的再提取处理。这是 因为,认为存在未检测的标题语句的判定等有误的可能性。在不是这样 的情况下,判定为是,转移到步骤S222。
在步骤S222中,生成数据位置位次,按该位次顺序将代表标题分配 给未检测的标题语句。在接下来的步骤S223中,确定所分配的代表标题。 之后,结束基于排他关系和数据信息的再提取处理。
在上述步骤S212的判定为否而转移到的步骤S224中,判定帐票类 别是否是复票。在帐票类别判定部18的判定不是复票的情况下,即在帐 票类别被判定为单票的情况下,判定为否,在此结束基于排他关系和数 据信息的再提取处理。在不是这样的情况下,判定为是,转移到步骤S225。
在步骤S225中,提取重复的表结构部分即明细范围。在该提取后转 移到的步骤S226中,判定在所提取的明细范围间未检测的标题语句是否 不是全部一致,即在某明细范围内未检测的标题语句是否在其他明细范 围内被检测出。在明细范围内存在的标题语句全部在任一明细范围内检 测出的情况下,判定为是,在步骤S227中如图54所示确定未检测的标 题语句(的代表标题),之后结束基于排他关系和数据信息的再提取处理。 在不是这样的情况下,判定为否,转移到步骤S228。
步骤S228 S233与上述的步骤S216 S220 —样,形成在全部明细 范围内按未检测的标题语句数而执行的处理环。由此,从未检测的标题 语句中选择一个,着眼于所选择的标题语句,确定与该标题语句对应的 代表标题。
首先,在步骤S228中,选择未检测的标题语句,提取该标题语句存 在的单元格以及与该单元格对应的数据。在随后的步骤S229中,提取数 据的数据信息。在该数据信息提取后,转移到步骤S230,参照逻辑结构 分析DB 25,着眼于代表标题具有的排他关系和数据信息,选出代表标
43题。
在继步骤S230之后的步骤S231中,判定通过选出所提取的代表标 题是否是一个。在提取出的代表标题仅是一个的情况下,判定为是,转 移到步骤S232,将提取出的代表标题确定为未捡测的标题语句的代表标 题,在接下来的步骤S233中使该确定结果反映在其他明细范围上,之后 结束一系列处理,回到上述步骤S228。在不是这样的情况下,判定为否, 在此结束一系列处理。
当按未检测的标题语句数执行了上述的一系列处理时,转移到步骤 S234。在该步骤S234中,判定未检测的标题语句数是否等于所提取的数 据数。在按未检测的各标题语句未能提取出与其对应的数据的情况下, 判定为否,在此结束基于排他关系和数据信息的再提取处理。这是因为, 认为存在未检测的标题语句的判定等有误的可能性。在不是这样的情况 下,判定为是,转移到步骤S235。
在步骤S235中,生成数据位置位次,按该位次顺序将代表标题分配 给未检测的标题语句。在接下来的步骤S236中,确定所分配的代表标题。 在之后转移到的步骤S237中,使该确定结果反映在其他明细范围上。在 进行了该反映后,结束基于排他关系和数据信息的再提取处理。
在执行了包含上述的子程序处理的未读标题恢复处理的情况下,有 可能代表标题或标题语句被分配给未读标题语句。因此,在图ll所示的 步骤S174中执行的单元格校正处理中,根据未读标题恢复处理的执行结 果,即,将代表标题或标题语句分配给未识别的标题语句来进行的恢复 结果,如图55所示生成单元格。在图55中,未能识别的标题语句表记 为"标题"。单元格有时即使未能识别也会生成。在该情况下,如图55 (a—l) ~ (a—3)所示新生成数据的单元格。在未生成单元格的情况下, 如图55 (b—l) ~ (b—4)所示,新生成标题语句用和数据用的单元格。
回到图ll的说明。
在执行了步骤S174的单元格校正处理后,转移到步骤S175,判定 代表标题、标题GR和DR中的任一方是否有多个。在其中至少一方存在 多个的情况下,判定为是,在步骤S176中执行重复详查处理,之后转移
44。在 该步骤S177中,执行DR^GR—标题语句详査处理,在该执行后,转移 到步骤S178。
这里,对在步骤S176和S177中分别执行的子程序处理进行更详细 说明。
图14是作为步骤S176执行的重复详査处理的流程图。首先参照图 14来具体说明该详查处理。
标题DR和GR被设定为在输入一个以上的关联数据的范围的表结 构(单位表结构)内仅存在一个。在该表结构中,不存在多个相同代表 标题。因此,重复详査是为了评价(提取)标题DR和GR与代表标题的 对应关系而进行的。由于仅存在1个标题DR或GR的范围的表结构在复 票中相当于明细范围,因而以下"明细范围"也按照指该表结构的意思 来使用。
图56是说明重复详查处理内容的图。图56 (a)示出帐票设计例, 图56 (b)示出与该帐票设计例对应的逻辑结构分析DB 25的内容,图 56 (c)示出通过逻辑结构分析DB25的合作而更新的关键字提取结果, 图56 (d)示出按各标题DR或GR而设定的区域(标题DR,GR区域), 图56 (e)示出重复详査后的关键字提取结果。标题DR GR区域相当 于输入一个以上的关联数据的表结构存在的范围,在该范围内仅存在一 个标题DR或GR。在重复详査处理中,通过按该范围即标题DR,GR区 域各方确定该区域内存在的代表标题,提取标题DR或GR与代表标题的 对应关系。
首先,在步骤S251中,判定是否有多个相同代表标题。在相同代表 标题仅是一个的情况下,判定为否,在此结束重复详査处理。在不是这 样的情况下,判定为是,转移到步骤S252。
在步骤S252中,判定存在多个的代表标题的全部标题得分MT是否 大于阈值即标题合格分MTth。在代表标题均是不视为关键字的代表标题 的情况下,判定为否,在此结束重复详査处理。在不是这样的情况下, 判定为是,转移到步骤S253。在该步骤S253中,将代表标题数代入变量DMn。在该代入后,转移到步骤S254。
步骤S254 S261形成按所提取的相同标题语句(检索字符串)数重 复执行的处理环。其中的步骤S259 S261在该处理环内,进一步形成按 代表标题数重复执行的处理环。步骤S254 S261是仅把作为检索字符串 的代表标题作为对象,以着眼于1个代表标题的标题DR或GR的形式来 执行的。由此,设定1个标题DR,GR区域,对认为有可能存在于该区 域内的代表标题进行评价。
首先,在步骤S254中,使用关键字提取结果,进行从逻辑结构分析 DB 25中提取代表标题的标题DR或GR的检索。在接下来的步骤S255 中,从帐票中提取标题DR或GR的语句,在随后转移到的步骤S256中, 使用该提取结果来进行标题DR ,GR区域的设定。之后转移到步骤S257, 判定标题DR,GR区域内有无注释。在该区域内存在注释的情况下,判 定为存在注释,转移到步骤S258,将该注释存在的注释区域从标题 DRvGR区域中排除,之后转移到步骤S259。在不是这样的情况下,判 定为不存在注释,转移到该步骤S259。
在步骤S259中,着眼于在步骤S254中的检索中使用的代表标题, 从通过关键字提取所得到的代表标题中选择一个,判定所选择的代表标 题存在的单元格的ID是否在标题DR *GR区域内。在该单元格构成了标 题DR GR区域的情况下,判定为是,在步骤S260中将标题得分MTn 更新为使规定值(图中表记为"标题DR'GR的合格(OK)分")加上 截至目前的MTn值后的值,之后结束重复详查处理。在不是这样的情况 下,判定为否,在步骤S261中将标题得分MTn更新为从截至目前的MTn 值减去不同的规定值(图中表记为"标题DR,GR的不合格(NG)分") 后的值,之后结束重复详查处理。通过这样以更新标题得分MTn的形式 进行评价,使与各单元格的代表标题(标题语句)对应的标题DR或GR 相对应(图56 (e))。
图15是作为上述步骤S177执行的DR GR—标题语句详査处理的 流程图。下面参照图11来详细说明该详查处理。
标题DR和GR在输入一个以上的关联数据的范围的表结构(明细范围)内仅存在一个。然而,在该表结构内不一定存在代表标题或者分
配有代表标题的标题语句。因此,DR'GR—标题语句详查是为了估计并 补足表内不存在的代表标题而进行的。通过追加该代表标题,能以使操 作者更容易理解帐票内容的方式进行辅助。由于自动生成标题语句与数 据的对应关系,因而降低了进行信息输入的必要性。
图57是说明DR'GR—标题语句详査处理内容的图。在图57 (a) 和(b)中,图57 (a—l)和(b—l)示出帐票设计(明细范围)例,图 57 (a—2)和(b—2)示出逻辑结构分析DB 25的内容,图57 (a—3) 和(b—3)示出根据帐票设计使用DB 25来估计和追加的代表标题。该 估计和追加的代表标题在图中表记为"虚拟标题"。该虚拟标题本来是根 据与帐票上的单元格不同维数的连接关系来设定的。配置了虚拟标题的 单元格(由双点划线表示的单元格)在表结构上配置在上部。因此,在 DR,GR—标题语句详查处理中,除了确定(生成)虚拟标题以外,还确 定该虚拟标题与数据的连接关系。关于该DR GR-标题语句详查处理, 参照图15来详细说明。
首先,在步骤S271中,判定有无标题DR和GR。在标题DR和GR 都不存在的情况下,判定为不存在,在此结束该详查处理。在不是这样 的情况下,判定为存在,转移到步骤S272,判定在存在的标题DR或GR 内是否存在代表标题。在任一标题DR或GR内都存在代表标题的情况下, 判定为不存在,结束该详査处理。在不是这样的情况下,即在存在有不 存在代表标题的标题DR或GR的情况下,判定为存在,在步骤S273中 将代表标题数代入变量DMn,之后转移到步骤S274。此时,代入变量m 的代表标题数是例如代表标题未检测的标题DR或GR数。这是因为,只 要仅以应估计(生成)代表标题的表结构(明细范围)为对象即可。
步骤S274 S285形成按变量DMn的初始值重复执行的处理环。由 此,按应估计代表标题的各表结构,进行代表标题的估计。
首先,在步骤S273a中将0代入变量m,在随后的步骤S274中,在 表结构(明细范围)内检索在分配有标题DR或GR的标题语句中所设定 的数据信息中的附带记号。在接下来的步骤S275中,判定有无通过检索
47提取出的附带信号。在提取出该附带记号的情况下,判定为存在,转移
到歩骤S278。在不是这样的情况下,即在未能提取出附带记号、或者在 数据信息中未定义附带记号的情况下,判定为不存在,转移到步骤S276。
在步骤S276中,根据数据位置位次提取分配虚拟标题的数据单元格 的范围。该提取是例如如图57 (b)所示,通过根据数据位置位次提取数 据存在的数据单元格来进行的。在接下来的步骤S277中,生成与所提取 的数据单元格连接的虚拟单元格。之后转移到步骤S283。
在步骤S278中,判定在由数据信息定义的位置配置有附带记号的单 元格是否存在。例如如图57 (a)所示,在具有在位置定义的最后附有附 带记号"银行"的数据"ABC银行"的数据单元格存在的情况下,判定 为有对象单元格,在步骤S279中生成与该数据单元格连接的虚拟单元格, 之后转移到步骤S283。在不是这样的情况下,判定为不存在,转移到步 骤S280。在步骤S279中,根据数据单元格唯一确定虚拟标题。
在步骤S280中,在附有附带记号的数据(字符串)中检索能分配代 表标题的数据,判定有无能分配代表标题的数据。在存在能分配的数据 的情况下,判定为存在,在步骤S281中生成与该数据的单元格连接的虚 拟单元格,之后转移到步骤S283。在不是这样的情况下,判定为不存在, 在步骤S282中更新对应的标题得分MTn,之后结束一系列处理。对应的 标题得分MTn是当前作为对象的表结构(明细范围)的标题DR或GR 的标题得分MTn,该得分MTn的更新是通过从截至目前的MTn值减去 用于评价不存在成为候补的代表标题的规定值来进行的。由此,标题DR 或GR作为标题降低评价。在步骤S281中,根据通过检索所提取的数据 单元格或者数据位置位次确定虚拟标题。
在步骤S283中,在所生成的虚拟单元格内分别设定(生成)虚拟标 题。在随后的步骤S284中,更新变量m的值。该更新是通过使截至目前 的m值加上从所设定的虚拟标题数减去1后的值来进行的。减去1是因 为,fi定为针对标题DR或GR设定至少一个代表标题。在该更新后转移 到的步骤S285中,作为所设定的虚拟标题的标题得分MTn,分别设定作 为虚拟标题的初始值所设定的值即虚拟标题分。之后结束一系列处理。回到图11的说明。
当上述DR'GR—标题语句详査处理结束时,转移到步骤S178,判 定帐票类别是否是连记。在帐票是连记的情况下,判定为是,转移到步 骤S190。在不是这样的情况下,判定为否,转移到步骤S179。
通过执行DR GR—标题语句详查处理,除了从帐票上作为关键字 所提取的标题语句以外,还提取应视为存在的标题语句(代表标题),确 定应考虑的标题语句。步骤S179 S185形成按所确定的标题语句数重复 执行的处理环。由此,按各标题语句进行其评价。
首先,在步骤S179中,从标题语句中选择一个,判定在所选择的标 题语句的单元格(以下为了与其他单元格区别开,表记为"对象单元格") 内有无其他字符串。在对象单元格内仅是标题语句的情况下,判定为没 有其他字符串,转移到步骤S182。在不是这样的情况下,判定为有其他 字符串,转移到步骤S180。
在步骤S180中,作为用于按各行评价对象单元格内的字符串的分数 DTnm的初始值,设定规定值(图中表记为"同一单元格内数据分")。在 接下来的步骤S181中,执行用于从对象单元格内提取能成为别的项目名 或数据候补的字符串的单元格内项目候补提取处理。在该执行后,转移 到步骤S182。分数DTnm的n和m表示是在第n个标题语句存在的对象 单元格内第m行的字符串。
在步骤S182中,判定右侧的单元格中有无字符。在位于对象单元格 右侧的单元格内存在字符的情况下,判定为有字符,转移到步骤S183, 执行用于使有该字符的情况反映在分数DTnm上的右项目候补提取处理。 之后转移到步骤S184。在不是这样的情况下,判定为没有,转移到该歩 骤S184。使在位于右侧的单元格内是否有字符的情况反映在分数DTnm 上是因为,采用使数据输入到项目名右侧的设计的可能性高。
在步骤S184中,判定在下侧的单元格内有无字符串。在位于对象单 元格下侧的单元格内存在字符串的情况下,判定为有字符串,转移到步 骤S185,执行用于使有该字符串的情况反映在分数DTnm上的下项目候 补提取处理。之后结束一系列处理。在不是这样的情况下,判定为没有,在此结束一系列处理。使在位于下侧的单元格内是否有字符串的情况反
映在分数DTnm上是因为,釆用使数据输入到项目名下侧的设计的可能 性高。
如上所述,按所提取的各标题语句进行评价。当该评价全部完成时, 转移到步骤S186。
标题语句和数据的提取是以图1的字符识别部16的识别结果为对象 来进行的。字符识别不一定能全部准确进行。在该识别有误的情况下, 有可能不能适当进行标题语句提取。因此,在步骤S186中,着眼于识别 精度,执行用于判定是否应进行标题语句分析的项目分析需要与否判定 处理。在该执行后转移到步骤S187。从字符识别部16取得用于判定识别 精度的各种信息。
在步骤SI87中,判定项目分析需要与否判定处理的执行结果是否为 应进行项目分析。在存在识别精度较低的标题语句的情况下,认为需要 项目分析。结果,判定为是,在步骤S189中进行需要的项目分析,之后 结束该逻辑结构分析处理。在不是这样的情况下,判定为否,在此结束 逻辑结构分析处理。
在上述步骤S178的判定为是而转移到的步骤Sl卯中,提取应视为 项目名的标题语句排列的标题行。在接下来的步骤S191中,提取与标题 行相连的数据串。之后转移到步骤S192。
步骤S192和S193形成按在标题行作为项目名所提取的标题语句数 重复执行的处理环。
在该处理环中,首先在步骤S192中从在标题行存在的标题语句(项 目名)中选择一个,判定与该标题语句对应的数据串的单元格是否明确 地为梯子形状,即数据串的单元格例如如图45 (a—l)或(a—2)所示 是否不是大致一致。在如图45 (a—i)或(a—2)所示大致一致的情况 下,判定为否,在步骤S193中对单元格以一致的形式进行综合,之后结 束一系列处理。在不是这样的情况下,判定为是,在此结束一系列处理。 重复标题语句数量次,之后转移到步骤S194。
在步骤S194中,执行用于按与检测出标题语句的项目相当的单元格数提取除了该单元格以外还存在的能成为标题语句的字符串的连记项目
候补提取处理,之后转移到步骤S186。
下面,对作为上述步骤S181、 S183、 S185、 S186和S194分别执行 的子程序处理进行详细说明。
图16是作为上述步骤S181执行的单元格内项目候补提取处理的流 程图。首先参照图16来详细说明该提取处理。该提取处理是仅着眼于对 象单元格来执行的。
如图58 (a) (e)所示,有时在相同单元格内存在多个能区别的 字符串。该单元格内项目候补提取处理是为了从单元格内提取能成为别 的项目名或数据候补的字符串而执行的处理。该提取是通过这样来进行 的提取能成为候补的字符串,从所提取的字符串中排除应视为不需要 的字符串,将剩余的字符串根据需要进行综合。该综合相当于图5S(a) (e)中的图58 (d)和(e)所示的情况。在该图58中,"标题"表示已 提取完成的标题语句,由虚线包围的字符串表示所提取的字符串或者所 登记的字符串。并且"预打印"是帐票上存在的识别对象外的字符串, 其判定可根据例如颜色、字符形状或者内容来进行。
首先,在步骤S301中,判定在对象单元格内是否存在多个标题语句。 在对象单元格内存在多个标题语句的情况下,判定为是,转移到步骤 S302,执行用于从多个标题语句中提取能成为项目名候补的标题语句的 单元格内多个项目候补提取处理,之后结束该单元格内项目候补提取处 理。在不是这样的情况下,判定为否,在步骤S303中将0代入变量m, 之后转移到步骤S304。
步骤S304 S315形成按在标题语句以外从对象单元格内所提取的 字符串数重复执行的处理环。由此,在变更要着眼的字符串的同时,按 各字符串进行作为数据的评价,根据需要更新其分数DTnm。这里将要着 眼的字符串表记为"对象字符串"。
首先,在步骤S304中,判定对象字符串是否仅由有可能附给在标题 语句中输入的数据上的附带记号构成。在仅该附带记号作为对象字符串 存在的情况下,判定为是,在步骤S305中更新标题得分MTn,之后结束
51—系列处理。该更新是通过使例如截至目前的MTii值加上预先设定的标 题附带分来进行的,由此可将标题语句评价得更高。在不是这样的情况 下,判定为否,转移到步骤S306。
在步骤S306中,判定对象字符串是否是预打印。在对象字符串是预 打印的情况下,判定为是,在此结束一系列处理。由此,在图58 (a)所 示的例子中,排除预打印。另一方面,在不是这样的情况下,判定为否, 转移到步骤S307。
在步骤S307中,判定对象字符串的属性与在标题语句中输入的数据 的属性是否相同。在它们的属性相同的情况下,判定为是,在步骤S309 中更新得分DTnm,之后转移到步骤S310。在不是这样的情况下,判定 为否,在步骤S308中将对象字符串设定为属性差错,之后结束一系列处 理。得分DTnm的更新是通过使截至目前的DTnm值加上预定的值即单 元格内数据分来进行的。由此,作为在标题语句中输入的数据评价得更 高。
在步骤S310中,判定对象字符串是否包含有可能附给在标题语句中 输入的数据上的附带记号。在对象字符串附有该附带记号的情况下,判 定为是,在步骤S311中更新得分DTnm,之后转移到步骤S312。在不是 这样的情况下,判定为否,然后转移到该步骤S312。在步骤S311中的得 分DTnm的更新是通过使截至目前的DTmn值加上预定的值即附带分来 进行的。由此,作为数据评价得更高。
在步骤S312中,对象字符串由于与在标题语句中输入的数据至少属 性相同,因而设定为该数据的候补。在接下来的步骤S313中,判定对象 字符串是否与前行(例如上行)靠近。在与图58 (d)和(e)所示的字 符串"k一卜银行"、"XX镇"和"口口栋OO号"中的任一方对应的 位置存在对象字符串的情况下,判定为是,在步骤S314中将前行的字符 串和对象字符串综合为一个字符串,之后结束一系列处理。在不是这样 的情况下,判定为否,在步骤S315中加上变量m的值,之后结束一系列 处理。
这样,对象字符串进行作为数据候补的评价,并根据需要与其他字符串进行综合。在对全部字符串进行了这种处理之后转移到步骤S316。 此时,在对象单元格内作为数据候补应考虑的字符串数被代入变量m。
在步骤S316中,判定是否没有成为数据候补的字符串。转移到步骤 S312,在不存在字符串的情况下,判定为是,转移到步骤S322。在不是 这样的情况下,判定为否,转移到步骤S317。在该S317中,判定成为数 据候补的字符串是否是一个。在该字符串仅是一个的情况下,判定为是, 转移到步骤S322。在不是这样的情况下,判定为否,转移到步骤S318。
在步骤S318中,通过从截至目前的DTnm值减去预先设定的分割分, 更新各字符串的得分DTnm。在接下来的步骤S319中,将变量m表示的 数的字符串进行综合(图58 (a)、 (d)、 (e))。在之后转移到的步骤S320 中,使变量m的值递增。在该递增后,在步骤S321中将上述相同单元格 内数据分设定为得分DTnm,之后转移到步骤S322。
在步骤S322中,判定综合后的m个字符串中是否有具有数据的附 带记号的字符串。在存在具有该附带记号的字符串的情况下,判定为是, 转移到步骤S323,通过使截至目前的DTnm值加上上述附带分,更新各 字符串的得分DTnm。之后转移到步骤S324。在不是这样的情况下,判 定为否,转移到该步骤S324。
在步骤S324中,判定综合后的m个字符串中有无设定了属性差错 的字符串。在存在设定了属性差错的字符串的情况下,判定为有设定了 属性差错的字符串,转移到步骤S325,通过从截至目前的DTnm值减去 预定的属性差错分,更新各字符串的得分DTnm。之后结束单元格内项目 候补提取处理。在不是这样的情况下,判定为没有,在此结束单元格内 项目候补提取处理。 ,
这里,参照图17所示的流程图,对作为上述步骤S302执行的单元 格内多个项目候补提取处理进行详细说明。该提取处理如上所述,是为 了从多个标题语句中提取能成为项目名候补的标题语句而执行的。
如图59 (a) (d)所示,当在1个单元格内存在包含"标题1" 和"标题2"这两个标题语句的多个字符串的情况下,如图60 (a) (d) 所示提取标题语句以外的字符串。即在例如图59 (a)所示的例子中,如
53图60 (a)所示,提取2个"预打印"、"〇〇〇〇〇"、"△△△△"、"银 行"和"分行"。在其他图59 (b) (d)中也一样,提取在图60 (b) (d)中由虚线包围的字符串。如图61 (a) (d)所示,虚拟单元格是 以所提取的字符串与标题语句不在一起的方式来生成的。在该生成后, 如参照图58所说明的那样,将应认为不需要的字符串排除在外,将剩余 的字符串根据需要进行综合。由此在图59 (a) (d)所示的例子中, 最终获得图62 (a) (d)所示的字符串作为数据候补。单元格内多个 项目候补提取处理可实现这样的操作。
首先,在步骤S351中,将表示标题语句排列的方向的值代入变量 HKm。在该代入后,转移到步骤S352。
步骤S352 S356形成按在标题语句以外从对象单元格内所提取的 字符串数重复执行的处理环。步骤S352 S358中的步骤S353 S358形 成按标题语句数重复执行的处理环。由此,在变更要着眼的字符串的同 时,按各字符串考虑各标题语句并进行作为数据的评价。这里将要着眼 的字符串表记为"对象字符串"。
首先,在步骤S352中,对象字符串在是预打印的情况下去除。在随 后转移到的步骤S353中,判定对象字符串是否仅由有可能附给在标题语 句中输入的数据上的附带记号构成。在仅该附带记号作为对象字符串存 在的情况下,判定为是,在步骤S354中设定附带记号的存在,之后结束 一系列处理。在不是这样的情况下,判定为否,转移到步骤S355。
在步骤S355中,将对象字符串的属性与在标题语句中输入的数据的 属性进行比较。在它们的属性相同的情况下,判定为相同,在步骤S356 中判定与前面的字符串距离是否靠近。在与该字符串距离靠近的情况下, 判定为是,由于在步骤S357中为前行接下来的字符串,因而与其进行综 合。在不是这样的情况下,判定为否,在步骤S358中将对象字符串新设 定为数据候补,之后结束一系列处理。在不是这样的情况下,判定为否, 在此结束一系列处理。由此,按标题语句确认是否应将对象字符串设定 为数据候补,在该确认结束后,转移到步骤S361。
在步骤S361中,判定字符串中有无数据候补。在任一字符串被设定为数据候补的情况下,判定为有数据候补,转移到步骤S362。在不是这 样的情况下,判定该意思,转移到步骤S368。
在步骤S362中,获得表示数据候补和与其对应的标题语句之间的排 列关系的信息。在随后的步骤S363中,判定标题语句和数据候补的排列 方向。在如图59 (d)所示它们全部排列在相同方向的情况下,判定为排 列相同,在步骤S364中如图61 (d)所示生成标题语句用的虚拟单元格, 之后转移到步骤S365。在不是这样的情况下,即在标题语句和数据候补 排列为如图59 (a) (c)中的任一方所示的情况下,判定为排列方向 垂直,转移到步骤S365。
在步骤S365中,如图61 (a) (c)中的任一方所示生成虚拟单元 格。在接下来的步骤S366中,作为用于按各行评价对象单元格内的字符 串的分数DTnm的初始值,设定上述同一单元格数据分。在随后转移到 的步骤S367中,按标题语句数执行图16的单元格内项目候补提取处理。 在该执行后,结束该单元格内多个项目候补提取处理。在该单元格内项 目候补提取处理中成为对象的单元格是不包含标题语句的单元格。
图18是在图11所示的第1逻辑结构分析处理内作为步骤S183执行 的右项目候补提取处理的流程图。下面参照图18来详细说明该提取处理。
首先,在步骤S401中,判定在对象单元格内标题语句是否仅是一个。 在存在两个以上的标题语句的情况下,判定为否,转移到步骤S408。在 不是这样的情况下,判定为是,转移到步骤S402。
在步骤S402中,判定在包含有标题语句的对象单元格的右侧有无存 在多个单元格。在存在该多个单元格的情况下,判定为有,转移到步骤 S403。在不是这样的情况下,判定为无,在此结束右项目候补提取处理。
位于右侧的多个单元格不一定全部是相同形状。并且,也不一定在 相同线上准确地一致。因此,如图63 图65所示,在本实施方式中,根 据多个单元格的形状和排列,提取与平均较不相同的单元格(梯子形单 元格)并进行校正。在步骤S403中,执行实现该校正的梯子形单元格提 取处理。在该执行后,在步骤S404中作为用于按各行评价对象单元格内 的字符串的分数DTnm的初始值,设定预定的右多个单元格内数据分,
55在步骤S405中执行图16的单元格内项目候补提取处理。在该执行后, 结束该右项目候补提取处理。
如图58所示,由于有可能在包含标题的单元格内存在成为数据候补 的字符串,因而在上述步骤S401的判定为是的情况下,执行步骤S406 和S407。在该步骤S406中,作为用于按各行评价对象单元格内的字符串 的分数DTnm的初始值,设定预定的右单元格内数据分,在步骤S407中 执行图16的单元格内项目候补提取处理。在该执行后,结束该右项目候 补提取处理。这样改变分数DTnm的初始值来执行单元格内项目候补提 取处理是因为,根据在对象单元格的右侧是否排列多个单元格,在对象 单元格内存在成为数据候补的字符串的概率不同。
在上述步骤S401的判定为否而转移到的步骤S408中,作为用于按 各行对对象单元格内的字符串进行评价的分数DTnm的初始值,设定预 定的右单元格内多个数据分。在接下来的步骤S409中,执行图17的单 元格内多个项目候补提取处理。在该执行后,结束该右项目候补提取处 理。
图19是在图11所示的第1逻辑结构分析处理内作为步骤S185执行 的下项目候补提取处理的流程图。
在该提取处理中,除了在分数DTnm中设定的初始值等不同以外, 与上述的右项目候补提取处理相同。因此,省略详细说明。在标题语句 和数据的位置关系如图34 (4)所示的位置关系的情况下,转移到步骤 S453。
这里,参照图20所示的流程图,对作为图18和图19的步骤S403 和S453执行的梯子形单元格提取处理进行详细说明。
首先,在步骤S501中,判定标题语句是否在单元格内。在未生成标 题语句的单元格的情况下,判定为否,转移到步骤S507。在不是这样的 情况下,判定为是,转移到步骤S502。
在步骤S502中,将标题语句的单元格高度代入变量Hmd (图64A (a))。在接下来的步骤S503中,根据各单元格的高度计算平均高度, 在之后的步骤S504中,根据各单元格的宽度计算平均宽度。平均高度和宽度的计算是通过这样来进行的例如使用各单元格的高度和宽度来求 平均,仅使用去除了与该平均大幅不同的单元格后的单元格来再次求平
均。在这样求出高度和宽度的平均之后,转移到步骤S505。
在步骤S505中,使用计算出的平均高度和宽度来校正应校正的单元 格的大小,将作为余量的字符存在范围附加给校正后的单元格范围。在 随后的步骤S506中,计算将字符存在范围附加给校正后的单元格范围而 得到的区域作为梯子形单元格范围。之后,结束梯子形单元格提取处理。
在上述步骤S501的判定为否而转移到的步骤S507中,判定标题语 句的右侧有无单元格。在该右侧不存在单元格的情况下,判定为无,转 移到步骤S508。在不是这样的情况下,判定为有,转移到步骤S503,根 据该右侧的单元格(在有位于该单元格的更右侧的1个以上的单元格的 情况下,包含这些单元格)计算(平均)高度。在之后转移到的步骤S504 中也一样计算(平均)单元格宽度。之后转移到步骤S505,从而实现图 64A (c)或图64B (c)所示的操作。
在步骤S508中,将以标题语句的字符高度Hmdm为棊准而决定的 表示作为数据而输入的字符大小的假定范围的系数乘以该高度Hmdm, 将该乘法结果代入变量Hmd。在随后的步骤S509中,根据附带信息,即 附带记号及其位置、以及位于右侧的标题语句的单元格,进行视为数据 的范围终端的检测。并且,当单元格高度在上下双方都满足的情况下(图 64B (a)的7)双方满足),进行视为数据的范围终端的检测。在进行了 该检测之后,在步骤S510中生成虚拟单元格,之后转移到步骤S505。由 此,实现图65所示的操作。
回到图11所示的在第1逻辑结构分析处理内执行的子程序处理的说明。
图21是在图11所示的第1逻辑结构分析处理内作为步骤S194执行 的连记项目候补提取处理的流程图。下面参照图21来详细说明该提取处 理。
首先,在步骤S55中,判定在对象单元格内标题语句是否仅是一个。 在标题语句仅是一个的情况下,判定为是,转移到步骤S558。在不是这样的情况下,判定为否,转移到步骤S552。
在步骤S552中,判定标题语句是否横向排列。在标题语句排列的方 向是横的情况下,判定为是,转移到步骤S556。在不是这样的情况下, 判定为否,转移到步骤S553。
在步骤S553中,确定成为对象的标题语句的单元格存在的行,在随 后的步骤S554中,提取视为该行的数据的字符串。之后转移到步骤S555, 执行图17所示的单元格内多个项目候补提取处理,之后结束该连记项目 候补提取处理。在转移到步骤S556的情况下,在该步骤S556中确定成 为对象的标题语句的单元格存在的列,在随后的步骤S557中提取视为该 列的数据的字符串,之后转移到该步骤S555。由此,实现图66 图68 的(b) (f)所示的操作。
在上述步骤S551的判定为是而转移到的步骤S558中,执行图16 所示的单元格内项目候补提取处理。通过该执行,实现图66 图68的 (a) (f)所示的操作。
在继步骤S558之后的步骤S559中,判定在与跟标题项目排列的方 向相同的方向排列的标题项目(单元格)数的数据单元格相当的全部明 细中是否有在与该排列方向正交的方向存在多个数据的明细。在有在多 行或多列中存在字符串的数据单元格的情况下,判定为是,在步骤S560 中以数据为1行或1列的方式分割明细,之后结束该连记项目候补提取 处理。在不是这样的情况下,判定为否,在此结束该提取处理。图69是 说明明细分割的图,图69所示的操作是通过执行步骤S560来实现的。
图22是在图11所示的第1逻辑结构分析处理内作为步骤S186执行 的项目分析需要与否判定处理的流程图。最后参照图22来详细说明该判 定处理。该判定处理是按全部字符从字符识别部16取得表示字符识别准 确性的字符确信度、以及字符的手写印刷判别率TK来执行的。图中 "MJth"和"TKth"分别表示字符识别视为准确的字符确信度的阈值、 和用于判别是否手写的阈值。
在该判定处理中,由于存在与各数据候补对应的标题语句,因而步 骤S601 S605是按数据候补数重复执行的。步骤S601 S605中的步骤S601是按成为对象的标题语句的字符数重复执行的。由此,在各标题语
句中,在满足以下任一条件的情况下,需要项目分析,即在构成该标 题语句的字符中存在字符确信度低于阈值MJth的字符;存在与框接触的 字符;存在像片假名"々"分离为"乂"和那样,使构成要素分 离也能识别的字符以及存在手写印刷判别率TK小于阈值TKth的字符。 并且,在执行了图20所示的梯子形单元格提取处理的情况下,也需要项 目分析。因此,使项目分析部21执行所需要的项目分析,从而将精度更 高的标题语句识别结果传递给逻辑结构分析(项目确定)部22。
图23是逻辑结构分析(项目确定)部22执行的第2逻辑结构分析 处理的流程图。下面参照图23来详细说明该分析处理。图中"DTmin"、 "HKT"、 "sm"、 "sd"以及"Jn"分别表示似为数据的最低分,即视为 数据的得分DTnm的阈值、标题语句的最终评价分、为了计算评价分而 与标题得分MTn相乘的系数、为了计算评价分而与得分DTnm相乘的系 数、以及上位数据候补数。
步骤S651 S664形成按每1个标题语句的数据候补数重复执行的处 理环。由此,评价分是考虑全部数据候补来计算的。
首先,在步骤S651中,判定在与成为对象的标题语句对应的单元格 内数据候补是否是未填写。在该数据候补是未填写的情况下,判定为是, 在步骤S652中计算最终评价分HKT,并在步骤S653中对数据候补是未 填写进行登记,之后结束一系列处理。在不是这样的情况下,判定为否, 转移到步骤S654。步骤S652中的最终评价分HKT的计算是通过这样来 进行的使标题得分MTn乘以系数em,并使该乘法结果加上预定的未 填写数据分(-MTnXem+未填写数据分)。 ,
在步骤S654中,判定针对对象标题语句有无实施项目分析。在图 11的步骤S189中执行的项目分析处理中进行了对象标题语句的项目分 析的情况下,判定为进行了项目分析,转移到步骤S655。在不是这样的 情况下,判定为没有进行,转移到步骤S664。因此,在步骤S655 S663 中,执行用于反映项目分析结果的处理。
在步骤S655中,判定得分DTnm是否小于阈值DTmin。在该大小
59关系成立的情况下,判定为是,转移到步骤S656,将用于表示数据不存 在的删除线登记为数据候补,之后结束一系列处理。在不是这样的情况 下,判定为否,转移到步骤S657,判定是否通过项目分析使附带记号恢 复为作为对象的数据候补。在通过项目分析判明存在附给数据候补的附 带记号的情况下,判定为是,转移到步骤S658。在不是这样的情况下, 判定为否,转移到步骤S661。
在步骤S658中,判定所恢复的附带记号是否正确。在由于与根据对 象标题语句所确定的附带记号不同、附带记号的位置不同这样的原因而 使附带记号不正确的情况下,判定为否,在步骤S660中更新得分DTnm, 之后转移到步骤S661。在都不是这样的情况下,判定为是,在步骤S659 中更新得分DTnm,之后转移到步骤S661。步骤S660和S659中的得分 DTnm的更新是分别通过使截至目前的DTnm值减去和加上预定的附带 分来进行的。由此,在附带记号正确的情况下,进一步提高得分DTnm, 在附带记号不正确的情况下,降低得分DRnm。
在步骤S661中,判定所填写的数据候补的属性与根据对象标题语句 确定的属性是否一致。在它们的属性一致的情况下,判定为合格(OK), 在步骤S663中更新得分DTnm,之后转移到步骤S664。在不是这样的情 况下,判定为不合格(NG),在步骤S662中更新得分DTnm,之后转移 到该步骤S664。步骤S663和S662中的得分DTnm的更新是分别通过使 截至目前的DTnm值减去和加上预定的属性合格分来进行的。由此,在 属性没有问题的情况下,进一步提高得分DTnm,在属性有问题的情况下, 降低得分DRnm。
在步骤S664中,进行评价分HKT的计算。该计算是通过这样来进 行的使标题得分MTn乘以系数em后的结果加上得分DTnm与系数sd 的乘法结果(=MTnXem+DTnmXsd)。在进行了该计算后结束一系列 处理。
在按各标题语句的数据候补数执行了上述处理后转移到的步骤S665 中,判定帐票类别是否是连记。在该类别是连记的情况下,判定为是, 转移到步骤S674。在不是这样的情况下,判定为否,转移到步骤S666。在转移到步骤S665的时刻,各标题语句的评价分HKT为全部计算 完成。由此在步骤S666中,按各代表标题,以评价分HKT顺序对标题 语句进行排序。在随后的步骤S667中,按照评价分HKT顺序的排序, 提取与前jn位之前的标题语句对应的数据候补。之后转移到步骤S668, 判定在所提取的数据候补中与不同的代表标题对应的数据候补是否重 复。在产生了该数据候补重复的情况下,判定为是,转移到步骤S671, 在不是这样的情况下,判定为否,在此结束该分析处理。
如上所述,在各明细范围(关联数据输入用的表结构)中以代表标 题不重复的方式生成逻辑结构分析DB 25。因此,数据候补重复意味着 在步骤S666中进行的标题语句的排序中存在不适当的部位。
在步骤S671中,判定与重复的数据候补分别对应的标题语句是否是 相同位。在这些标题语句的评价分HKT是相同值的情况下,判定为是, 在步骤S672中将标题得分MTn大的标题语句作为上位,在接下来的步 骤S673中对上位进行评价分HKT的加分,对下位进行评价分HKT的减 分,之后转移到步骤S669。在不是这样的情况下,判定为否,转移到该 步骤S672,更新与重复的数据候补分别对应的标题语句的评价分HKT。
通过上述的更新,减少了一起选择重复数据候补的可能性。由此, 可抑制发生不利情况。
在步骤S669中,进行评价分HKT的操作,之后再次按评价分HKT 顺序进行标题语句的排序。在之后转移到的步骤S670中,按照评价分 HKT顺序的再排序,再提取与前Jn位之前的标题语句对应的数据候补。 之后,结束该分析处理。
在上述步骤S665的判定为是而转移到的步骤S674中,判定在1个 明细的全部单元格内属性是否是不合格(NG)。在1个明细的全部单元 格内不存在能成为数据候补的字符串的情况下,例如在为了表示所填写 的数据是无效而在数据上划线、由于污浊等而未填写数据、或者有乱涂 那样的填写的情况下,在该全部单元格中上述步骤S655的判定为是。即 如图70所示,1个明细的全部单元格为删除线的候补。因此,在这样的 情况下,判定为是,在步骤S675中用删除线删除1个明细的全部单元格,之后结束该分析处理。在不是这样的情况下,判定为否,在此结束该分 析处理。
图71是说明通过执行上述第2逻辑结构分析处理所得到的识别结果 的图。图71以单票为例说明识别结果。图71 (a)是所输入的帐票图像, 示出字符"块"和"额"为不能识别。图71 (b)示出根据标题得分MTn 提取的标题语句是"金?"、"金?"和"金)"。图71 (c)示出在字符"块" 不能识别而作为"金?"来处理的标题语句中能对应的数据候补。图71 (d)示出根据能应对的数据候补"〇〇〇日元"将标题语句"金?"识 别为代表标题"金额",其数据被确定为"〇〇〇日元"。
图72是示出实际帐票识别结果的图。图72 (a) (d)分别示出不 同帐票的识别结果。从该图72 (a) (d)可知,包含对应关系在内, 能准确地识别标题语句及其数据。
图73是能实现图1所示的本实施方式的帐票识别装置的计算机的结 构图。
图73所示的计算机构成为具有CPU 61,存储器62,输入装置63, 输出装置64,外部存储装置65,介质驱动装置66,以及网络连接装置 67,它们通过总线68相互连接。该图所示的结构是一例,并不限于此。
CPU 61进行该计算机整体控制。
存储器62是在程序执行、数据更新等时将存储在外部存储装置65 (或者移动型记录介质MD)内的程序或数据暂时存储的例如RAM。CPU 61通过将程序读出到存储器62来执行该程序,进行整体控制。
输入装置63例如是与键盘、鼠标等的输入装置、或者与扫描器等的 图像读取装置连接的接口。检测针对输入装置的用户操作,将该检测结 果通知给CPU61。
输出装置64例如是与显示装置连接的显示控制装置、或者是具有这 些装置的装置。将通过CPU61的控制发送来的数据输出到显示装置上。
网络连接装置67用于经由例如内联网和互联网等的网络与外部装 置进行通信。该外部装置可以是图像读取装置,也可以是与该图像读取 装置连接的装置。外部存储装置65例如是硬盘装置。主要用于保存各种数据和程序。
存储介质驱动装置66对光盘和光磁盘等的移动型记录介质MD进行 存取。
本实施方式的帐票识别装置1是通过由CPU 61执行搭载有其所需要 的功能的程序(以下称为"帐票识别软件")来实现的。该识别软件可以 记录在记录介质MD上来发布,或者可以通过网络连接装置67来取得。 这里,假定识别软件和逻辑结构分析DB 25—起被存储在外部存储装置 65内。
在上述的假定中,输入部ll由例如CPU61、存储器62、输入装置 63、外部存储装置65、网络连接装置67以及总线68来实现。输出部23 由例如CPU61、存储器62、输出装置64、外部存储装置65、网络连接 装置67以及总线68来实现。数据库存储部24由例如CPU 61、存储器 62、外部存储装置65以及总线68来实现。存储器26相当于外部存储装 置65。其他由例如CPU 61、存储器62、外部存储装置65以及总线68 来实现。
图74是本实施方式的数据库生成装置的功能结构图。
上述帐票识别装置1参照逻辑结构分析DB 25来进行帐票识别。该 数据库(DB)生成辅助装置700用于辅助生成该分析DB25。
在逻辑结构分析DB 25中,标题语句在分层结构中进行管理,并在 能用于输入关联数据的表结构(单位表结构)中进行管理。由此,在帐 票上作为1个表来处理的范围(明细范围(标题DR"GR区域))的识别 可使用在表结构中进行管理的信息来进行。
在分层结构的管理中,定义认为是标题语句的字符串,作为其上位, 在相同的表结构中定义不重复的具有排他关系的代表标题,并在代表标 题的上位定义标题DR或GR。在分配有相同代表标题的标题语句中,使 在该标题语句中输入的数据涉及的数据信息共享。通过采用这样的分层 结构,即使不登记表结构,也能高精度地识别表结构内的标题语句与所 输入的数据的对应关系。并且,即使不能识别标题语句,也能使用替代 该标题语句的代表语句(维持逻辑匹配性的标题语句)。由此,即使不能
63正确地识别标题语句,也能使用代表标题进行逻辑上适当的分析。即使 存在不能识别的部分,也能准确地估计该部分。因此,可抑制由于字符 识别精度低引起的不良影响,可更高精度地进行逻辑上适当的分析。在 标题语句少的表结构中,也能更容易地理解未作表记的标题语句(追加 代表标题等)和帐票内容。因此,也可以不进行表结构的登记,此外还 能获得这样的效果能适当地进行帐票识别的帐票范围大(可减少由于 污浊和皱折等引起的不良影响),连帐票上没有的信息都能提供。这些通 过上述的帐票识别装置1的说明是很明显的。
辅助生成能实现上述效果的分析DB 25的生成辅助装置700如图74 所示,具有标题数据信息输入部701,其用于输入标题语句和数据信息 等;代表标题生成部702,其根据所输入的标题语句和数据信息生成代表 标题;标题关系输入部703,其用于输入分层间的标题关系;标题关系生 成部704,其根据所输入的标题关系按各分层生成标题语句;以及DB输 出部705,其将所输入的信息和所生成的信息输出并登记到逻辑结构分析 DB25内。
在该各部701 705中,在利用图73所示的结构实现各部701 705 的程序和逻辑结构分析DB 25被存储在外部存储装置65内的假定中,标 题数据信息输入部701 、标题关系输入部704以及DB输出部705都由例 如CPU 61、存储器62、输入装置63、外部存储装置65、网络连接装置 67以及总线68来实现。除此以外,由例如CPU61、存储器62、外部存 储装置65以及总线68来实现。
图75是示出生成代表标题的处理流程的流程图。下面参照图75, 对生成代表标题为止的操作者的操作、以及根据该操作而执行的处理进 行详细说明。在该图75中,在说明上,为了方便起见,假定将l个表结 构(包含变化)的信息登记在分析DB 25内来示出处理流程。这在后述 的图76中也是一样。
首先,在步骤S701中,读入操作者指示输入的标题语句。在随后的 步骤S702中,自动地追加去除了送假名的标题语句。在之后的步骤S703 中,以字符为单位对标题语句进行排序。在该排序后转移到的步骤S704中,从所输入的标题语句中临时设定代表标题。在使该临时设定的代表
标题显示在例如显示装置上后,转移到步骤S705。
操作者确认临时设定的代表标题,根据需要进行修正。由此在步骤 S705中,按照操作者的指示,根据需要变更代表标题的临时设定。在操 作者指示该变更结束后,转移到步骤S706,确定代表标题。在之后的步 骤S707 S710中,按标题语句数进行标题位置和数据信息的输入、以及 所输入的信息的设定等。在这样的信息输入和设定结束后,转移到步骤 S711。在该转移时,作为存储在逻辑结构分析DB 25内的信息,存储图 77 (a)所示的信息。
在步骤S711中,判定在代表标题间的语句是否重复。在存在重复语 句的情况下,判定为是,转移到步骤S712,请求操作者对重复语句进行 确认并根据需要进行校正。由此,在操作者进行与该请求对应的应对后, 转移到步骤S713。在不是这样的情况下,判定为否,转移到该步骤S713。 图77示出重复语句例。
在步骤S713中,判定是否应进行表形式的定义。在应进行该定义的 情况下,判定为是,在步骤S714中督促操作者输入表形式,进行该输入。 在该输入后,在步骤S715中定义表形式,之后转移到步骤S716。在不是 这样的情况下,判定为否,转移到该步骤S716。
图78是说明表形式的定义以及与该定义对应的帐票设计(表结构) 的图。在图78中,例如图78 (a—1)对应于图78 (b—1),该对应关系 由括弧内的数值表示。如图78所示,要定义的表形式能对应于1个以上 的帐票设计。
在步骤S716中,判定是否应进行数据整形。在应进行该数据整形的 情况下,判定为是,在步骤S717中督促操作者输入数据整形信息,进行 该信息的输入。在该输入后,在步骤S718中定义数据整形,在步骤S719 中将截至目前所存储的信息写入到分析DB25内,之后结束一系列处理。
图79是说明数据整形的定义以及根据该定义进行的数据整形的图。 图79 (a)示出定义内容,图79 (b—1) (b—4)分别示出帐票设计。
图76是示出生成标题关系的处理流程的流程图。下面参照图76,
65对在生成标题关系之前的操作者的操作以及根据该操作而执行的处理进
行详细说明。在该图76中,以通过执行图75的处理而存在存储于逻辑 结构分析DB25内的信息为前提。
首先,在步骤S751中,如图80的用户输入数据所示,读入操作者 输入的代表标题对。在接下来的步骤S752中,判定是否有重复的代表标 题对。在代表标题对内有重复的代表标题对的情况下,判定为是,在步 骤S753中仅保留一个代表标题对,并将其他删除,之后转移到步骤S754。 在不是这样的情况下,判定为否,转移到该步骤S754。
在步骤S754中,从逻辑结构分析DB 25中读入需要的信息。在之后 转移到的步骤S755中,判定在根据所读入的信息而定义的标题语句中是 否有由代表标题对表示的标题语句。在标题语句中有由代表标题对表示 代表标题的标题语句的情况下,判定为是,在步骤S756中将该标题语句 修正为代表标题,之后转移到步骤S757。在不是这样的情况下,判定为 否,转移到步骤S757。
在代表标题对中,如图80的用户输入数据所示,将2个代表标题的 位置关系指定为"上侧/左侧"和"下侧/右恻"的位置。g卩,2个代表标 题是以指定相互不同位置的形式来输入的。这些位置表示上下关系,"上 侧/左侧"与"下侧/右侧"相比为上位。由此在步骤S757中,以使"上 侧/左侧"的代表标题优先的形式,即在将"上侧/左侧"的代表标题维持 相同的状态下对"下侧/右侧"的代表标题的全部种类迸行排序。由此, 图80的用户输入数据表示排序后的状态。
在继步骤S757之后的步骤S758中,生成代表标题间的关联。该关 联如图80所示,是确定在代表标题间应成为最上位的代表标题、应成为 最上位的次上位的代表标题等的作业。由此,在号码为1 6的代表标题 对中,代表标题"转帐地址"为最上位,次上位的代表标题为"银行名"、 "分行名"、"项目"以及"帐号"这4个。数据位置位次是按排序顺序 来设定的。在这样生成关联之后转移到步骤S759。
在步骤S759中,判定在关联中是否有矛盾。在图80的用户输入数 据中使用号码为30、 31的代表标题对生成的关联表示在2个代表标题间存在2个上下关系。因此,认为这样的关联存在矛盾,判定为是,在步 骤S760中提示有矛盾的关联,并督促操作者对其进行修正。该修正例如 由操作者进行代表标题对的再输入,从而再生成反映了操作者的修正结 果的关联,之后从步骤S760转移到步骤S761 。
在步骤S761中,生成标题GR关系。标题GR是位于代表标题的上 位的代表标题,标题GR关系是指更上位的标题GR和其次上位的代表标 题的关系。在图80所示的例子中,代表标题"转帐地址"由于存在位于 比其上位的代表标题"收款人",因而被认为是代表标题GR。标题DR 由于是位于比标题GR更上位的代表标题,因而标题DR被认为是"收款 人"。该标题DR和其次上位的代表标题的关系是标题DR关系。
在继步骤S761之后的步骤S762中,判定在所生成的不同标题关系 中是否存在相同标题GR。在不同标题关系中标题GR重复的情况下,判 定为是,转移到步骤S763,以不重复的方式变更(重命名(RENAME)) 标题GR以及作为该标题GR的代表标题。之后,转移到步骤S764。在 不是这样的情况下,判定为否,转移到该步骤S764。
在步骤S764中,生成上述标题DR关系。在该生成后,转移到步骤 S765,生成帐票设计。
图81是说明根据标题GR关系的定义而生成的帐票设计的图。在图 81 (a—1) (a—4)中,图81 (a—l)示出所生成的标题GR关系, 图81 (a—2)示出与所生成的标题GR关系一致的帐票设计的变化,图
81 (a—3)示出实际所读取的帐票设计,图81 (a—4)示出在图81 (a —3)的帐票设计中与各代表标题对应的数据。图中的"1" "4"表示 数据位置位次。并且,图81 (b—1)示出所生成的标题GR关系,图81
(b-2)示出与所生成的标题GR关系一致的帐票设计的变化。
图82是说明根据标题GR关系从帐票设计生成的标题关系的图,图
82 (a) (g)分别示出不同例子。
如上所述,在不存在标题语句、或者由于不能识别而在表结构中有 未检测的标题语句的情况下,按照数据位置位次将代表标题分配给数据 候补。这是为了生成帐票设计并使操作者确认。g卩,这是为了通过帐票设计确认不适当的部分。所生成的标题关系用于根据状况决定分配给未
检测的标题语句的代表标题。图82所示的例子均是根据标题语句识别结 果而生成的标题关系,该标题关系成为图1的逻辑结构分析(项目候补 提取)部20的修正对象。
图83是说明根据标题DR关系的定义而生成的帐票设计的图。图84 是说明根据标题DR关系从帐票设计生成的标题关系的图。从图83和图 84可以看出,即使是标题DR关系,也能实施与标题GR关系一样的内 容。
另外,在本实施方式中,把帐票作为对象,然而只要是对应的信息 配置在表结构中的形式的介质,则也可以是帐票以外的东西。并且,能 对细部进行各种变形。
权利要求
1.一种帐票识别装置,该帐票识别装置对在帐票上任意的表结构内存在的字符串进行识别,其特征在于,该帐票识别装置具有图像取得单元,其取得所述帐票进行了电子化后的帐票图像;字符串识别单元,其识别在所述图像取得单元所取得的所述帐票图像上存在的字符串;字符串提取单元,其从所述字符串识别单元所识别的字符串中提取预定的字符串即标题语句;表结构判定单元,其根据所述字符串提取单元所提取的标题语句、以及所述标题语句在所述帐票图像上的配置,判定在该帐票图像上存在的表结构;以及对应关系确定单元,其使用由所述表结构判定单元进行的所述表结构的判定结果,确定所述标题语句与在该标题语句以外由所述字符串识别单元所识别的字符串之间的对应关系。
2. 根据权利要求l所述的帐票识别装置,其特征在于,所述帐票识 别装置具有存储单元,该存储单元按照作为在所述帐票上填写1个以上 的关联数据的单位的表结构即单位表结构各方,存储有以分层结构定义 了有可能在该单位表结构中出现的标题语句的数据库,所述表结构判定单元参照存储在所述存储单元内的数据库,判定在 所述帐票图像上存在的整体的表结构。
3. 根据权利要求2所述的帐票识别装置,其特征在于,所述分层结 构包含第l层,其定义了 1个以上的标题语句;第2层,其定义了第l 代表标题,该第1代表标题是代表在该第1层所定义的标题语句、并能 与其他标题语句置换的标题语句;以及第3层,其定义了第2代表标题, 该第2代表标题是在所述表结构中位于该第1代表标题的上位的标题语 句,所述表结构判定单元根据由所述字符串提取单元进行的所述第2代 表标题的提取结果,设定具有该第2代表标题的所述单位表结构的范围,对在该设定的范围内所提取的其他标题语句进行评价,确定在该单位表 结构内存在的标题语句。
4. 根据权利要求1所述的帐票识别装置,其特征在于,所述分层结 构包含第1层,其定义了 l个以上的标题语句;第2层,其定义了第l 代表标题,该第1代表标题是代表在该第1层所定义的标题语句、并能 与其他标题语句置换的标题语句;以及第3层,其定义了第2代表标题, 该第2代表标题是在所述表结构中位于该第1代表标题的上位的标题语 句,所述帐票识别装置还具有标题追加单元,该标题追加单元根据由所 述字符串提取单元进行的所述第2代表标题的提取结果,设定具有该第2 代表标题的所述单位表结构的范围,着眼于在该设定的范围内所提取的 能与其他标题语句置换的所述第1代表标题、以及在该单位表结构中被 识别为与所述标题语句不同的字符串的数据,确定并追加应追加给该单 位表结构的第1代表标题。
5. 根据权利要求1所述的帐票识别装置,其特征在于,所述帐票识 别装置还具有位置确定单元,其根据所述字符串提取单元所提取的标题语句、以 及所述表结构判定单元所判定的表结构,确定该字符串识别单元未识别 的标题语句存在于所述帐票图像上的位置;以及语句生成单元,其生成在所述位置确定单元所确定的位置应存在的 标题语句。
6. —种帐票识别装置,该帐票识别装置对在帐票上任意的表结构内 存在的字符串进行识别,其特征在于,该帐票识别装置具有-图像取得单元,其取得所述帐票进行了电子化后的帐票图像; 字符串识别单元,其识别在所述图像取得单元所取得的所述帐票图像上存在的字符串;字符串提取单元,其从所述字符串识别单元所识别的字符串中提取预定的字符串即标题语句;位置确定单元,其根据所述字符串提取单元所提取的结果,确定所述字符串识别单元未识别的标题语句存在于所述帐票图像上的位置语句生成单元,其生成在所述位置确定单元所确定的位置应存在的 标题语句;以及对应关系确定单元,其将所述语句生成单元所生成的标题语句包含 在内,确定该标题语句与在该标题语句以外由所述字符串识别单元所识 别的字符串之间的对应关系。
7. 根据权利要求6所述的帐票识别装置,其特征在于,所述帐票识 别装置还具有表结构判定单元,该表结构判定单元根据所述字符串提取 单元所提取的标题语句、以及所述标题语句在所述帐票图像上的配置, 判定在该帐票图像上存在的表结构,所述位置确定单元使用所述表结构判定单元的判别结果来进行所述 位置的确定,所述语句生成单元根据所述表结构判定单元的判别结果生成在所述 位置应存在的标题语句。
8. 根据权利要求7所述的帐票识别装置,其特征在于,所述帐票识 别装置具有存储单元,该存储单元按照作为在所述帐票上填写1个以上 的关联数据的单位的表结构即单位表结构各方,存储有以分层结构定义 了有可能在该单位表结构中出现的标题语句的数据库,所述表结构判定单元参照存储在所述存储单元内的数据库,判定在 所述帐票图像上存在的整体的表结构。
9. 根据权利要求8所述的帐票识别装置,其特征在于,所述分层结 构包含第1层,其定义了 1个以上的标题语句;第2层,其定义了第l 代表标题,该第1代表标题是代表在该第1层所定义的标题语句、并能 与其他标题语句置换的标题语句;以及第3层,其定义了第2代表标题, 该第2代表标题是在所述表结构中位于该第1代表标题的上位的标题语 句,所述表结构判定单元根据由所述字符串提取单元进行的所述第2代 表标题的提取结果,设定具有该第2代表标题的所述单位表结构的范围, 对在该设定的范围内所提取的其他标题语句进行评价,确定在该单位表结构内存在的标题语句。
10. 根据权利要求8所述的帐票识别装置,其特征在于,所述分层 结构包含第1层,其定义了 1个以上的标题语句;第2层,其定义了 第1代表标题,该第1代表标题是代表在该第1层所定义的标题语句、 并能与其他标题语句置换的标题语句;以及第3层,其定义了第2代表 标题,该第2代表标题是在所述表结构中位于该第1代表标题的上位的 标题语句,所述位置确定单元根据由所述字符串提取单元进行的所述第2代表 标题的提取结果,提取具有该第2代表标题的所述单位表结构的范围, 着眼于在该提取的范围内所识别的能与其他标题语句置换的所述第1代 表标题、以及在该单位表结构中被识别为数据的字符串,在该范围内确 定所述位置,所述语句生成单元通过确定在由所述位置确定单元在所述范围内所 确定的位置应追加的第1代表标题,生成所述标题语句。
11. 根据权利要求10所述的帐票识别装置,其特征在于,所述第l 代表标题具有按照所述单位表结构各方不重复的排他关系,所述语句生成单元利用所述排他关系来确定与在所述范围内所识别 的第1代表标题不同的第1代表标题。
12. 根据权利要求11所述的帐票识别装置,其特征在于,所述数据 库定义了与填写在所述单位表结构上的数据相关的数据信息,所述语句生成单元利用所述排他关系以及所述数据信息来确定与在 所述范围内所识别的第1代表标题不同的第1代表标题。
13,根据权利要求6所述的帐票识别装置,其特征在于,所述帐票 识别装置还具有存储单元,其按照作为在所述帐票上填写1个以上的关联数据的单 位的表结构即单位表结构各方,存储有以分层结构定义了有可能在该单 位表结构中出现的标题语句的数据库;以及标题追加单元,其根据由所述字符串提取单元进行的所述第2代表 标题的提取结果,提取具有该第2代表标题的所述单位表结构的范围,着眼于在该提取的范围内所识别的所述第1代表标题、以及在该单位表 结构中被识别为数据的字符串,追加与该数据对应的第1代表标题。
14. 根据权利要求6所述的帐票识别装置,其特征在于,所述帐票 识别装置具有单元格生成单元,该单元格生成单元使用所述字符串识别 单元的识别结果来生成包含有所述字符串的区域即单元格,所述位置确定单元以所述单元格生成单元所生成的单元格为单位进 行所述位置的确定。
15. 根据权利要求6所述的帐票识别装置,其特征在于,所述帐票识别装置还具有单元格生成单元,其生成包含有所述字符串的区域即单元格;以及 单元格校正单元,其以在所述单元格生成单元所生成的单元格中、供在所述帐票上作为数据填写的字符串用、且在相同方向上连续的多个单元格为对象进行校正。
16. —种帐票识别装置,该帐票识别装置对在帐票上任意的表结构 内存在的字符串进行识别,其特征在于,该帐票识别装置具有图像取得单元,其取得所述帐票进行了电子化后的帐票图像; 存储单元,其按照作为在所述帐票上填写1个以上的关联数据的单位的表结构即单位表结构各方,存储有以分层结构定义了有可能在该单位表结构中出现的标题语句的数据库;字符串识别单元,其识别在所述图像取得单元所取得的所述帐票图像上存在的字符串;字符串提取单元,其参照存储在所述存储单元内的数据库,从所述 字符串识别单元所识别的字符串中提取预定的字符串即标题语句;标题追加单元,其根据所述字符串提取单元的提取结果,提取在所 述帐票图像上存在的所述单位表结构的范围,着眼于在该提取的范围内 所识别的所述标题语句、以及在该单位表结构中被识别为数据的字符串 中的至少一方,追加与该数据对应的标题语句;以及对应关系确定单元,其将所述标题追加单元所追加的标题语句包含 在内,确定该标题语句与在该标题语句以外由所述字符串识别单元所识别的字符串之间的对应关系。
17. 根据权利要求16所述的帐票识别装置,其特征在于,所述分层 结构包含第1层,其定义了 1个以上的标题语句;第2层,其定义了 第1代表标题,该第1代表标题是代表在该第1层所定义的标题语句、 并能与其他标题语句置换的标题语句;以及第3层,其定义了第2代表 标题,该第2代表标题是在所述表结构中位于该第1代表标题的上位的 标题语句,所述标题追加单元根据由所述字符串提取单元进行的所述第2代表 标题的提取结果,提取具有该第2代表标题的所述单位表结构的范围, 着眼于在该提取的范围内所识别的所述第1代表标题、以及在该单位表 结构中被识别为数据的字符串中的至少一方,追加与该数据对应的第1 代表标题。
18. —种帐票识别装置,该帐票识别装置对在帐票上任意的表结构 内存在的字符串进行识别,其特征在于,该帐票识别装置具有-图像取得单元,其取得所述帐票进行了电子化后的帐票图像; 字符串识别单元,其识别在所述图像取得单元所取得的所述帐票图像上存在的字符串;字符串提取单元,其从所述字符串识别单元所识别的字符串中提取 预定的字符串即标题语句;表结构判定单元,其根据所述字符串提取单元所提取的标题语句、 以及所述标题语句在所述帐票图像上的配置,判定在该帐票图像上存在 的表结构;位置确定单元,其根据所述字符串提取单元的提取结果,确定所述 字符串识别单元未识别的标题语句存在于所述帐票图像上的位置;语句生成单元,其生成在所述位置确定单元所确定的位置应存在的 标题语句;标题追加单元,其根据所述字符串提取单元的提取结果,提取在所 述帐票图像上存在的所述单位表结构的范围,着眼于在该提取的范围内 所识别的所述标题语句、以及在该单位表结构中被识别为数据的字符串中的至少一方,追加与该数据对应的标题语句;以及对应关系确定单元,其使用由所述表结构判定单元进行的所述表结 构的判定结果,将所述语句生成单元所生成的标题语句、以及所述标题 追加单元所追加的标题语句包含在内,确定该标题语句与在该标题语句 以外由所述字符串识别单元所识别的字符串之间的对应关系。
19. 根据权利要求l、 6、 16或18所述的帐票识别装置,其特征在 于,所述对应关系确定单元参照按所述标题语句所定义的、与有可能附 加在作为该标题语句的信息存在的字符串中的符号相关的附带信息,确 定所述对应关系。
20. —种帐票识别方法,该帐票识别方法用于对在帐票上任意的表 结构内存在的字符串进行识别,其特征在于,该帐票识别方法具有图像取得步骤,其取得所述帐票进行了电子化后的帐票图像字符串识别步骤,其识别在所述图像取得步骤中所取得的所述帐票 图像上存在的字符串;字符串提取步骤,其从在所述字符串识别步骤中所识别的字符串中 提取预定的字符串即标题语句;表结构判定步骤,其根据在所述字符串提取步骤中所提取的标题语 句、以及所述标题语句在所述帐票图像上的配置,判定在该帐票图像上 存在的表结构;以及对应关系确定步骤,其使用所述表结构判定步骤中的所述表结构的 判定结果,确定所述标题语句与在该标题语句以外在所述字符串识别步 骤中所识别的字符串之间的对应关系。
21. —种帐票识别方法,该帐票识别方法用于对在帐票上任意的表 结构内存在的字符串进行识别,其特征在于,该帐票识别方法具有.-图像取得步骤,其取得所述帐票进行了电子化后的帐票图像; 字符串识别步骤,其识别在所述图像取得步骤中所取得的所述帐票图像上存在的字符串;字符串提取步骤,其从在所述字符串识别步骤中所识别的字符串中提取预定的字符串即标题语句;位置确定步骤,其根据在所述字符串提取步骤中所提取的结果,确 定在所述字符串识别步骤中未识别的标题语句存在于所述帐票图像上的、 语句生成步骤,其生成在所述位置确定步骤中所确定的位置应存在的标题语句;以及对应关系确定步骤,其将在所述语句生成步骤中所生成的标题语句 包含在内,确定该标题语句与在该标题语句以外在所述字符串识别步骤 中所识别的字符串之间的对应关系。
22. —种帐票识别方法,该帐票识别方法对在帐票上任意的表结构 内存在的字符串进行识别,其特征在于,该帐票识别方法具有图像取得步骤,其取得所述帐票进行了电子化后的帐票图像;字符串识别步骤,其识别在所述图像取得步骤中所取得的所述帐票 图像上存在的字符串;字符串提取步骤,其按照作为在所述帐票上填写1个以上的关联数 据的单位的表结构即单位表结构各方,.参照以分层结构定义了有可能在 该单位表结构中出现的标题语句的数据库,从在所述字符串识别步骤中 所识别的字符串中提取预定的字符串即标题语句;标题追加步骤,其根据所述字符串提取步骤中的提取结果,提取在 所述帐票图像上存在的所述单位表结构的范围,着眼于在该提取的范围 内所识别的所述标题语句、以及在该单位表结构中被识别为数据的字符 串中的至少一方,追加与该数据对应的标题语句;以及对应关系确定步骤,其将在所述标题追加步骤中所追加的标题语句 包含在内,确定该标题语句与在该标题语句以外在所述字符串识别步骤 中所识别的字符串之间的对应关系。
23. —种数据库生成辅助装置,该数据库生成辅助装置辅助生成能 用于由权利要求1、 6、 16或18所述的帐票识别装置识别所述帐票上的 字符串的数据库,其特征在于,该数据库生成辅助装置具有-语句输入单元,其输入所述标题语句;以及分层结构生成单元,其生成所述语句输入单元所输入的标题语句间的分层结构。
24. 根据权利要求23所述的数据库生成辅助装置,其特征在于,所述语句输入单元按照作为在所述帐票上填写1个以上的关联数据的单位的表结构即单位表结构各方,将有可能在该单位表结构中出现的2个以上的标题语句、以及该2个以上的标题语句间的分层关系作为输入单位来输入,所述分层结构生成单元根据在所述输入单位间公共的标题语句、以及由各输入单位表示的分层关系,生成3层以上的分层结构。
25. 根据权利要求23所述的数据库生成辅助装置,其特征在于,所述数据库生成辅助装置还具有图像生成单元,该图像生成单元生成与所述分层结构生成单元所生成的标题语句间的分层结构对应的所述单位表结构的设计图像并将其输出。
26. —种数据库生成辅助方法,该数据库生成辅助方法利用计算机辅助生成能用于由权利要求1、 6、 16或18所述的帐票识别装置识别所述帐票上的字符串的数据库,其特征在于,该数据库生成辅助方法具有语句输入步骤,其输入所述标题语句;以及分层结构生成步骤,其生成在所述语句输入步骤中所输入的标题语句间的分层结构。
27. —种程序,该程序用于使计算机实现以下功能,其中,所述计算机能用作对在帐票上任意的表结构内存在的字符串进行识别的帐票识别装置图像取得功能,其取得所述帐票进行了电子化后的帐票图像;字符串识别功能,其识别利用所述图像取得功能所取得的所述帐票图像上存在的字符串;字符串提取功能,其从利用所述字符串识别功能所识别的字符串中提取预定的字符串即标题语句;表结构判定功能,其根据利用所述字符串提取功能所提取的标题语句、以及所述标题语句在所述帐票图像上的配置,判定在该帐票图像上存在的表结构;以及对应关系确定功能,其使用利用所述表结构判定功能的所述表结构的判定结果,确定所述标题语句与在该标题语句以外利用所述字符串识别功能所识别的字符串之间的对应关系。
28. —种程序,该程序用于使计算机实现以下功能,其中,所述计算机能用作对在帐票上任意的表结构内存在的字符串进行识别的帐票识别装置图像取得功能,其取得所述帐票进行了电子化后的帐票图像;字符串识别功能,其识别在利用所述图像取得功能所取得的所述帐票图像上存在的字符串;字符串提取功能,其从利用所述字符串识别功能所识别的字符串中提取预定的字符串即标题语句;位置确定功能,其根据利用所述字符串提取功能所提取的结果,确定利用所述字符串识别功能未识别的标题语句存在于所述帐票图像上的位置;语句生成功能,其生成在利用所述位置确定功能所确定的位置应存在的标题语句;以及对应关系确定功能,其将利用所述语句生成功能所生成的标题语句包含在内,确定该标题语句与在该标题语句以外利用所述字符串识别功能所识别的字符串之间的对应关系。
29. —种程序,该程序用于使计算机实现以下功能,其中,所述计算机能用作对在帐票上任意的表结构内存在的字符串进行识别的帐票识别装置图像取得功能,其取得所述帐票进行了电子化后的帐票图像;字符串识别功能,其识别在利用所述图像取得功能所取得的所述帐票图像上存在的字符串;字符串提取功能,其按照作为在所述帐票上填写1个以上的关联数据的单位的表结构即单位表结构各方,参照以分层结构定义了有可能在该单位表结构中出现的标题语句的数据库,从利用所述字符串识别功能所识别的字符串中提取预定的字符串即标题语句;标题追加功能,其根据所述字符串提取功能的提取结果,提取在所述帐票图像上存在的所述单位表结构的范围,着眼于在该提取的范围内所识别的所述标题语句、以及在该单位表结构中被识别为数据的字符串中的至少一方,追加与该数据对应的标题语句;以及对应关系确定功能,其将利用所述标题追加功能所追加的标题语句包含在内,确定该标题语句与在该标题语句以外利用所述字符串识别功能所识别的字符串之间的对应关系。
30. —种程序,该程序用于使能用作数据库生成辅助装置的计算机实现以下功能,其中,所述数据库生成辅助装置辅助生成能用于由权利要求1、 6、 16或18所述的帐票识别装置识别所述帐票上的字符串的数据库语句输入功能,其输入所述标题语句;以及分层结构生成功能,其生成利用所述语句输入功能所输入的标题语句间的分层结构。
全文摘要
本发明提供一种不用将用于识别记载内容的信息按照设计不同的各个帐票进行登记即能范围广泛地应对帐票的帐票识别装置、方法、数据库生成装置、方法以及程序。关键字提取部(17)提取与项目名等对应的标题语句作为关键字。帐票类别判定部(18)着眼于所提取的关键字的种类、该关键字的提取位置等来判定帐票类别。逻辑结构分析(项目候补提取)部(20)以包含有字符串的区域即单元格为单位对表结构进行逻辑分析,提取单元格内存在的其他未识别的字符串,估计未识别的标题语句并进行恢复。这些操作通过反映帐票类别的判定结果来进行。由此,可实现更高精度的识别,并能应对范围更广的种类的帐票。
文档编号G06F17/30GK101685498SQ200910149359
公开日2010年3月31日 申请日期2009年6月18日 优先权日2008年6月20日
发明者小原胜利, 川岛哉, 江口真一, 矢吹真纪, 金元浩一, 长谷川将平 申请人:富士通先端科技株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1