帐票处理程序以及帐票处理装置的制作方法

文档序号:6570305阅读:190来源:国知局
专利名称:帐票处理程序以及帐票处理装置的制作方法
技术领域
本发明涉及帐票处理程序以及帐票处理装置,尤其涉及用于从扫描 的帐票图像中提取规定的关键字的帐票处理的帐票处理程序以及帐票处 理装置。
背景技术
一直以来,在对纸文件进行电子化的帐票输入业务中有定型帐票输 入和非定型帐票输入两种模式。
在定型帐票输入中,在输入的帐票种类已知的情况下的输入方法中, 预先作成记录有输入的帐票的关键字位置等的布局定义体。然后,对扫 描的帐票图像进行形式识别,根据与形式对应的布局定义体来自动提取 关键字。但是,在定型帐票输入中存在当帐票种类未知时则无法应对的 问题。因此,对于作为对象的各个帐票都必须以手动的方式来预先作成 布局定义体,不过这需要花费非常大的成本。
另一方面,在非定型帐票输入中,在输入的帐票种类未知的情况下 的输入方法中,无法预先作成布局定义体。因此,必须以手动的方式进 行输入操作,从而使输入成本增大。
这样,在定型帐票输入以及非定型帐票输入中都存在问题,为了提 高帐票输入业务的效率,而需要从非定型的帐票中自动提取关键字的方 法。
因此,提出了如下的帐票处理装置,艮口识别帐票的图像,根据已 预先设定的关键字检索读取区域并进行提取,并且取得该区域内的识别 数据(例如,参照专利文献l)。
另外,还提出了如下的图像处理方法,即为了提高关键字提取的 准确度,而从文件图像中提取与格线等的形状对应的虚拟单元区域,对
单元内的图像进行字符识别,根据识别结果来检索与指定关键字对应的
字符串,并根据检索出的字符串来确定单元区域(例如,参照专利文献2)。 专利文献l:日本特开平11-238165号公报(段落编号


图3)
专利文献2:日本特开2001-312691号公报(段落编号


图2)
一直以来,在从非定型帐票中自动提取关键字时,对帐票图像进行 布局识别以确定读取区域,并进行已确定的读取区域的字符识别,从识 别出的字符串中以单词匹配的方式检索与关键字相当的内容。不过,对 没有布局定义的非定型帐票图像进行正确的布局识别和字符识别是困难 的,时常有失败的可能性。但是,现有的帐票处理,由于在经过布局识 别以及字符识别后提取出的字符串中进行匹配,因此存在当识别不正确 时无法提取关键字这样的问题。
举出一例来进行说明。图19是表示由于布局识别失败而无法正确提 取关键字的情况的图。(A)是帐票图像,(B)是表示对(A)的帐票图像进行 了布局识别的文本块的图。
在图中的例子中,由于帐票的污渍等,而导致在利用扫描仪来读取 的帐票图像901内产生噪声902。当对该帐票图像901进行布局识别时,由 于在「估计(金额)」和「估计(物名)」之间存在噪声902,所以将这些识别 为1个块,从而误提取了含有噪声的文本块903。由此导致「估计」和「金 额」以及「估计」和「物名」分离。接着,当对该文本块进行字符识别 时,例如,文本块903被字符识别为「估计...和估计」、文本块904被字 符识别为「金额」、文本块905被字符识别为「物名」、文本块906被字 符识别为「Yl20,000」、以及文本块907被字符识别为「个人电脑」。从 而,即使在进行匹配检索的关键字中有「估计金额」或「估计物名」, 也不能从字符识别结果中来进行检测,所以无法提取关键字。
这样,当在布局识别中失败时,即使正确地识别出字符也不能正确 地排列字符,所以存在无法提取关键字这样的问题。另外,即使布局识 别正确,但如果字符识别失败则也会产生同样的问题。
此外,关键字有项目和数据这2种要素,不过在现有的帐票处理中, 存在有时无法进行项目与数据的正确对应这样的问题。
图20是表示了项目和数据难以对应的情况的图。(A)表示有可能两个 项目对应于一个数据的情况,(B)表示有可能两个数据对应于一个项目的情况。
在(A)的情况下,进行对帐票图像910的布局识别处理以及字符识别 处理,并取得项目「金额」911、 「合计」915、数据「¥40,000」912、
「Y42, 000」913以及「Y82,000」914。根据各个文本块的位置关系, 使垂直方向或水平方向的坐标值大致相等的项目和数据、即视为在垂直 方向或水平方向上排列的项目和数据对应。在此图的例子中,「Y40,000」 912和「Y42,000j 913能够与垂直方向上排列的「金额」911对应。不过,
「¥82,000」914能够与垂直方向上排列的「金额」911、和水平方向上排 列的「合计」915中的任一个对应。这样,根据位置关系无法判断哪个为 正确。
另一方面,在(B)的情况下,通过对帐票图像920的布局识别处理和 字符识别处理,能够取得项目「发行日」921、 「估计有效期限」923、 数据「2005年12月02日」922以及「2005年12月16日」924。根据各个文 本块的位置关系,能够使「估计有效期限」923和「2005年12月16日」924 对应。不过,水平方向上排列的「2005年12月02日」922和垂直方向上排 列的「2005年12月16日」924中的任一个都能与「发行日」921对应。这 样,根据位置关系无法判断哪个为正确。另外,对于「2005年12月16日」 924,其可以与「发行日」921以及「估计有效期限」923两方构成组。
这样,有时难以正确地对应提取出的关键字的项目和数据,在现有 方式中未公开有选择哪个为正确对应的方法。

发明内容
本发明是鉴于这样的问题而作出的,其目的是提供即使识别结果存 在欠缺或噪声也能够稳定地进行关键字提取的帐票处理程序。另外,本 发明的其他目的在于提供可考虑整体匹配性来决定关键字的项目和数据
的对应关系的帐票处理装置。
本发明中为了解决上述课题,而提供用于使计算机执行如图l所示的 处理的帐票处理程序。本发明的帐票处理程序适用于帐票处理装置l,可 使计算机执行以下的处理。帐票处理装置l具备布局识别单元ll、字符 识别单元13、字符串候选提取单元15以及对应单元16,并从扫描的帐票
图像中提取规定的关键字。布局识别单元ll识别帐票图像的布局,并提
取帐票图像中的字符图像的读取区域。字符识别单元13对提取出的读取
区域的字符图像进行字符识别,将识别出的字符作为字符识别结果输出。
字符串候选提取单元15根据帐票逻辑定义体,从字符识别结果中提取在 帐票逻辑定义体中作为关键字来定义的字符串中所包含的字符,并将提 取出的字符间的关系满足作为构成关键字的字符串的位置关系的组合作 为字符串候选,其中上述帐票逻辑定义体根据相同种类的帐票中共同的 逻辑结构而定义了构成关键字的字符串。对应单元16对于由多个要素组 成的关键字,根据与要素对应的字符串候选在帐票图像上的位置关系来 进行对应,确定构成关键字的字符串候选的组合。
根据这样的帐票处理装置l,当输入扫描的帐票图像时,布局识别单 元ll进行帐票图像的布局识别,并提取字符图像的读取区域。字符识别 单元13对提取的读取区域的字符图像进行字符识别并输出字符识别结 果。从而,对布局识别后的字符图像的读取区域进行字符识别,判明在 帐票中所记述的字符。在帐票逻辑定义体数据库14中存储了根据相同种 类的帐票中共同的逻辑结构而定义了构成关键字的字符串的帐票逻辑定 义体。字符串候选提取单元15从字符识别结果中提取在帐票逻辑定义体
中作为关键字来定义的字符串中所包含的字符。并且,对于提取出的字 符,调查字符间关系的匹配性,将关系满足作为构成关键字的字符串的 位置关系的组合作为字符串候选。对应单元16在关键字具有多个要素时, 根据位置关系来将字符串候选对应,确定构成关键字的字符串候选的组合。
本发明的帐票处理,不是根据与帐票布局对应的布局定义体、而是 根据对帐票具有的逻辑结构进行了定义的帐票逻辑定义体来自动提取关
键字,由此只要是具有相同逻辑结构的帐票,即使布局不同也能够自动 提取关键字。另外,在提取关键字时,从字符识别结果中提取作为关键 字定义的字符串中所包含的字符,将各字符间的关系满足作为在帐票逻 辑定义体中定义的字符串的关系的组合作为字符串候选进行提取,使构 成关键字的字符串候选彼此对应。因此,即使与作为关键字定义的字符 串完全不一致,只要能视为满足作为字符串的关系,就可以作为关键字 进行提取。其结果是,不受布局识别失败或字符识别失败的影响,能够 稳定地进行关键字提取。
作为本发明的例子,通过与表示优选实施方式的附图关联的以下说 明,使本发明的上述以及其他目的、特征和优点变得更加明确。


图l是适用于实施方式的发明的概念图。
图2是表示本实施方式的帐票处理装置的硬件结构例的图。
图3是表示本实施方式的帐票处理装置的软件结构例的图。
图4是表示本实施方式的逻辑定义体的一例的图。
图5是输入到本实施方式的帐票处理装置中的帐票图像的一例。
图6是表示本实施方式中的从字符识别结果中进行字符提取的图。
图7是表示本实施方式中的项目字符串匹配的投票结果的图。
图8是表示在本实施方式中生成的图形的一例的图。
图9是表示本实施方式的帐票处理装置中的匹配性图表的一例的图。
图IO是表示本实施方式中的字符配置的适合性验证的一例的图。
图ll是表示在多行中的项目字符串的一例的图。
图12是表示本实施方式中的项目提取处理的过程的流程图。
图13是表示本实施方式中的项目字符串匹配处理的过程的流程图。
图14是表示本实施方式中的项目字符串候选确定处理的过程的流程图。
图15是表示本实施方式中的*部提取的一例的图。
图16是表示本实施方式中的数据提取处理的过程的流程图。
图17是表示本实施方式中的数据字符串匹配处理的过程的流程图。
图18是表示本实施方式中的项目/数据对应处理的过程的流程图。 图19是表示由于布局识别失败而无法正确提取关键字的情况的图。 图20是表示项目和数据难以对应的情况的图。
标号说明
l帐票处理装置;ll布局识别单元;12识别辞典数据库(DB) ; 13字 符识别单元;14帐票逻辑定义体数据库(DB) ; 15字符串候选提取单元; 15a项目字符串候选提取单元;15b数据字符串候选提取单元;16对应 单元。
具体实施例方式
以下,参照附图对本发明的实施方式进行说明。首先,对适用于实 施方式的发明的概念进行说明,然后,对实施方式的具体内容进行说明。 图l是适用于实施方式的发明的概念图。
本发明的帐票处理装置l具有提取读取区域的布局识别单元ll、进
行读取区域的字符识别的字符识别单元13、提取字符串候选的字符串候
选提取单元15以及进行字符串候选的对应的对应单元16的处理单元;和
识别辞典数据库12以及帐票逻辑定义体数据库14的存储单元。另外,帐 票处理装置1的各处理单元通过由计算机执行帐票处理程序,来实现其处 理功能。
布局识别单元ll识别输入的帐票图像的布局,提取包含字符图像的 读取区域,并通知给字符识别单元13。布局识别方法有已知的各种各样 的方法,这里,可采用其中的任意方法。
识别辞典数据库12可存储用于字符图像的字符识别的识别辞典。 字符识别单元13参照识别辞典数据库12对提取出的读取区域的字符 图像进行字符识别,并将识别出的字符作为字符识别结果向字符串候选 提取单元15输出。通常,将所有字的种类作为识别对象来进行字符识别 处理,不过也可以对在帐票逻辑定义体数据库14的帐票逻辑定义体内所
定义的字符串以及字符种类限定识别对象来进行字符识别。如果限定字 符种类,则能够提高字符识别的准确度。
在帐票逻辑定义体数据库14中存储了帐票逻辑定义体,该帐票逻辑
定义体根据相同种类的帐票中共同的逻辑结构而定义了构成关键字的字 符串。帐票的逻辑结构由意思、项目、数据以及在它们之间成立的关系
组成。在帐票逻辑结构定义体中按照每一类别设定有与构成关键字的2种 要素即项目和数据相关的定义。项目是与关键字的意思对应的表现,其 定义了在帐票中记录的项目字符串。数据是与关键字的意思对应的实际 值,其定义了包含在帐票中记录时的正规表现和字符种类等的数据区域 属性。
字符串候选提取单元15根据在帐票逻辑定义体数据库14中存储的帐 票逻辑定义体,提取被字符识别出的字符满足作为在帐票逻辑定义体内 定义的字符串的关系的组合来作为字符串候选。具体来说,项目字符串 候选提取单元15a将在帐票逻辑定义体内定义的项目字符串作为关键字, 从字符识别结果中提取在已定义的字符串中包含的字符。并且,对构成 项目字符串的各个字符进行投票,评价已投票的字符间的位置关系的匹 配性,并求出相互满足作为字符串的位置关系的组合。在匹配性的评价 中,采用图论理论,例如将已投票的字符作为节点,针对全部的两个节 点,对于对应的字符判定与位置相关的匹配性,在判断为有匹配性时, 通过利用路径连接这些节点来作成图形。接着,从该图形中,提取图形 的极大完全部分图形即团(clique)。构成团的全部节点通过路径与自身 以外的节点连接,所以构成团的节点全部满足匹配性。计算各团的评价 值并确定最佳的团,由此来决定项目字符串的匹配度。然后,将最佳的 匹配度的项目字符串作为项目字符串候选进行输出。另外,数据字符串 候选提取单元15b基于在帐票逻辑定义体中定义的数据区域属性,从字符 识别结果中提取数据字符串候选。首先,在数据区域属性内所定义的数 据的正规表现之中,从字符识别结果中提取表示值的部分,并统一为值 部。此外,对所统一的值部和在正规表现中包含的字符串进行与数据字 符串候选提取单元15b相同的处理,并确定数据字符串候选。
对应单元16基于帐票逻辑定义体,对作为构成关键字的字符串的、 由项目字符串候选提取单元15a所确定的项目字符串候选、和由数据字符 串候选提取单元15b所确定的数据字符串候选,进行与位置关系相应的对 应,确定项目字符串和数据字符串的组合。例如,根据项目字符串和数 据字符串的相对位置关系来生成组合,将已生成的组合作为节点,调查 两个组合间的组合上的匹配性,在判断为有匹配性时,通过利用路径来 连接这些节点来生成图形。然后,从图形中提取团,并计算各团的评价 值,确定最佳的团,由此来确定项目字符串和数据字符串的组合。
对这种结构的帐票处理装置l的动作进行说明。
在帐票逻辑定义体数据库14中预先存储有定义了对象帐票的逻辑结 构的帐票逻辑定义体。
当输入帐票图像时,布局识别单元ll进行布局识别以提取字符图像 的读取区域。字符识别单元13参照在识别辞典数据库12中存储的识别辞 典,进行提取出的读取区域的字符识别,并根据识别出的字符来生成字 符识别结果。利用以上的处理来字符识别帐票图像上的字符,并作为字 符识别结果而向字符串候选提取单元15输出。
项目字符串候选提取单元15a从字符识别结果中提取项目字符串中 所包含的字符,并对提取出的各个字符进行投票,其中该项目字符串在 存储于帐票逻辑定义体数据库14内的帐票逻辑定义体中被定义。然后, 在已投票的字符之间,判定与位置相关的匹配性,求出相互满足作为字 符串的关系的组合,并确定项目字符串候选。另一方面,数据字符串候 选提取单元15b根据字符识别结果,基于在帐票逻辑定义体中定义的数据 区域属性,从字符识别结果中提取出正规表现中表示值的部分,并预先 统一为值部。而且,根据字符识别结果,与正规表现的字符串相一致, 与项目字符串候选提取单元15a同样地求出相互满足作为字符串的关系的 组合,并作为数据字符串候选而提取出。对应单元16根据在帐票逻辑定 义体中定义的项目和数据的位置关系,将由字符串候选提取单元15确定 的项目字符串候选和数据字符串候选对应起来,确定项目字符串候选和 数据字符串候选的组合。
按照每一类别反复以上的处理过程,提取所有类别的关键字。 这样,本发明的帐票处理装置l基于定义了关键字的帐票逻辑定义
体,从已字符识别出的各个字符满足作为在帐票逻辑定义体中定义的字 符串的关系的组合的字符集合中,选择匹配度最高的字符。因而,即使 字符识别结果部分错误,也能够根据其他正确的字符识别结果来进行匹 配,所以可构成正确的匹配。另外同样,即使布局识别错误、字符识别 结果没有正确地进行排列,都能够正确地进行匹配。并且,即使在认为 有多个项目字符串和数据字符串的组合时,也能够取出作为整体最有匹 配性的组合,所以可以取得正确的结果。
以下,参照附图对实施方式进行详细的说明。 图2是表示本实施方式的帐票处理装置的硬件结构例的图。
帐票处理装置100中,由CPU(Central Processing Unit:中央处理器)101 来控制整个装置。CPU101上经由总线107连接了RAM(Random Access Memory:随机存储器)102、硬盘驱动器(HDD: Hard Disk Drive:硬盘驱 动器)103、图形处理装置104、输入接口105以及通信接口106。
在RAM102中临时存储CPU101执行的OS(Operating System:操作系 统)的程序或应用程序的至少一部分。另外,在RAM102中存储由CPU101 进行的处理所需的各种数据。在HDD103中存储OS或应用程序。在图形 处理装置104上连接有监视器108,根据来自CPU101的命令将图像显示到 监视器108的画面上。在输入接口105上连接有键盘109a及鼠标109b,将 从键盘109a、鼠标109b发送来的信号经由总线107发送到CPU101。通信 接口106与扫描仪20连接,如果有扫描仪20读取的帐票图像数据发送来, 则经由总线107向CPU101发送。另外,扫描仪20可经由总线107直接连接。
利用这样的硬件结构可实现本实施方式的处理功能。
接着,对实现帐票处理装置100的处理功能的软件结构进行说明。图 3是表示本实施方式的帐票处理装置的软件结构例的图。
帐票处理装置100具有布局识别部110、字符识别部130和关键字提 取部140的处理部、以及识别辞典数据库120和逻辑定义体数据库150的数 据库。
关键字提取部140具有提取项目字符串候选的项目提取部160、提 取数据字符串候选的数据提取部170、以及将项目字符串候选和数据字符 串候选对应起来的对应部180 。
布局识别部110是对扫描仪读取出的帐票图像的布局进行识别,提取 包含字符图像的读取区域的布局识别单元。
在识别辞典数据库120中存储用于字符识别的辞典信息。
字符识别部130是对布局识别部110提取出的读取区域进行字符识 别,输出字符识别结果的字符识别单元。
在逻辑定义体数据库150内存储有对相同种类的帐票中共同的逻辑 结构进行定义的帐票逻辑定义体(以下,称为逻辑定义体)。例如如果是估 计书则含有「日期信息」、「委托编号」等,这样如果是相同种类的帐 票,则即使布局不同,所含有的信息项目等也具有很多相同的地方。归 纳了这些所得到的内容为逻辑结构。帐票的逻辑结构具有由意思、项目、 数据组成的组和在它们之间成立的关系。意思表示帐票中的表现功能。 项目表示在帐票中实际表现与其意思对应的表现功能的字符串。数据表 示在与意思对应的表现功能中的实际值。在它们之间成立的关系表示组 彼此间的关系,包括对应关系及数学公式成立的关系等。详细内容在后 面进行叙述,不过在逻辑定义体数据库150中关于项目定义了项目字符 串,关于数据定义了数据区域属性。
项目提取部160通过字符识别结果投票161、图形生成(匹配性评 价)162、最大团确定163以及项目字符串候选确定164的模块来实现其处理 功能。字符识别结果投票161对照字符识别结果和在逻辑定义体中定义的 项目字符串所包含的字符,在检测出的情况下,对构成所定义的项目字 符串的字符进行投票。图形生成(匹配性评价)162评价通过字符识别结果 投票而取得的各字符间的匹配性,并生成图形。具体来说,将已投票的 字符作为节点,并判断在各字符间是否有作为字符串的位置关系的匹配 性。例如,根据基于两个字符间的、作为在逻辑定义体数据库150中定义 的项目字符串的字符排列顺序的位置关系(当在项目字符串中定义了 「预 订编号」时,按照字符的排列顺序「编」或「号」配置在「订」的后面
即可)、字符彼此的位置关系(是否位于同一行)等,来判断匹配性,如果 有匹配性,则利用路径来连接节点之间。对各个字符(节点)依次执行此过
程,生成图形。最大团确定163从通过图形生成(匹配性评价)162作成的图 形中提取团,从团中选择适合的团,并确定匹配率最高的最大团。匹配 率例如通过包含团的字符集合中所包含的节点的比例等来算出。在一个 类别中定义有多个项目字符串时,按照每一个项目字符串来确定最大团。 因此,按照类别来选择一个项目字符串候选。项目字符串候选确定164在 属于类别的项目字符串中,将由最大团确定163所确定的最大团中的最佳 匹配度的团作为项目字符串候选输出。
这里,对图形进行说明。图形的概念是由节点(节点/顶点)的集合和 连接节点的路径(枝、边)的集合构成的着眼于「连接方式」而进行抽象化 的「点和连接点的线j ,探求图形所具有的各种性质是图论理论。另外, 在图形中的任意2顶点间扩展路径的顶点集合被称为团,发现团中的最大 的团的方法称为最大团提取。从图形中提取最大团的方法是熟知的,例 如公开于「C.Bron and J.Ke rbosch, "Finding all cliques of an undirected graph", Commun.ACM, Vol.l6, No.9, pp575-577, 1973」。
数据提取部170通过*部提取171、字符识别结果投票172、图形生成 (匹配性评价)173以及数据字符串候选确定(最大团确定)174的模块来实现 其处理功能。与利用固定的字符串来表现的项目不同,无法限定表示数 据的字符,不过可以定义表现数据的形式(以下,称为正规表现)和数据的 字符种类。例如,日期可表现为「*年*月*日」。*表示任意的数字或记 号。以下,将以「*」表示的代替所有字符的记号称为通配符。*部提取 171从字符识别结果中统一提取数据的通配符部分,并预先将全体都作为 *部。字符识别结果投票172对由字符识别结果提取的数据的正规表现中 所包含的字符串、和*部,与字符识别结果投票161同样进行投票处理。 然后,在图形生成(匹配性评价)173中,与图形生成(匹配性评价)162同样 地作成图形,在数据字符串候选确定(最大团确定)174中,与项目字符串 候选确定164同样,将最高匹配率的最大团确定为数据字符串候选。
对应部180通过项目/数据组合181、图形生成(匹配性评价)182、组合
确定(最大团确定)183的模块来实现其处理功能。项目/数据组合181—一 列举项目提取部160所提取的项目字符串候选和数据提取部170所提取的 数据字符串候选存在对应的可能性。图形生成(匹配性评价)182将一一列 举出的组合作为节点,当存在组合的位置关系上的匹配性的情况下,利 用路径来连接节点之间,从而作成图形。组合确定183从图形中确定匹配 性最高的最大团。即,确定最具有匹配性的项目字符串和数据字符串的 组合。
以下,对本发明实施方式的帐票处理装置100的动作以及帐票处理过 程进行说明。
首先,对在逻辑定义体数据库150中存储的逻辑定义体进行说明。图
4是表示本实施方式的逻辑定义体的一例的图。
逻辑定义体定义了构成帐票逻辑结构的意思、项目以及数据。 关键字根据意思分类为类别201。在图中的例子中定义了日期210和
帐票编号220。
关于项目可按照每一类别来定义为表现意思的字符串、项目字符串 202。在图中的例子中,在日期210内定义了 「年月日」、「发行日」以 及「作成日」。另外,在帐票编号220内定义了 「预订编号」以及「贵社 受理编号」。
关于数据,可按照每一类别来定义在数据中使用的字符203、在数据 中使用的正规表现204,作为与意思对应的实际值、数据区域属性。在数 据中使用的字符203定义了表示实际值的字符种类。例如,在日期210中 定义了以「数字」来表示数据。在数据中使用的正规表现204中定义了数 据的表现形式。例如,在日期210中示出了釆用「*年*月*日」、「平成* 年*月*日」这样的表现形式的情况。
此外,按照每一类别,根据需要而定义从项目中看到的数据的相对 位置205及可存在于项目和数据之间的字符206等。例如,在日期210中定 义了 「右」、「下」。这表示了从配置项目的区域向右方向或下方向配 置数据的情况。另外,在可存在于项目和数据之间的字符206中定义了 「」,表示在提取出的项目字符串候选和数据字符串候选之间即使存
在「」匹配性也成立。
接着,对输入帐票图像之后的处理过程进行说明。当输入帐票图像 时,依次执行由布局识别部110进行的布周识别处理、由字符识别部130 进行的字符识别处理。以下,采用帐票图像的一例进行说明。
图5是向本实施方式的帐票处理装置输入的帐票图像的一例。
帐票图像300是「估计书」的一部分,布局识别部110输入帐票图像 300并进行布局识别处理来提取读取区域。字符识别部130将所有字的种 类作为识别对象进行读取区域的字符识别。在帐票图像300的情况下,「估 计书」301、 「2005年9月25日」302、 「B株式会社公启」303、 「贵社受 理编号」304、 「20050925-0101」305、 「A株式会社」306、 「电话号码」 307、 「044-123-4445」308作为字符识别结果被输出。
另外,在字符识别中,根据逻辑定义体数据库150的逻辑定义体,可 以对识别对象的字符进行限定。例如,图4所示的日期210使用「年」、
「月」、「日」、「发」、「行」、「作」、「成」、「平」以及数字 来作为字符,所以可知即使将字符种类限定于这些也能够进行字符识别。 同样,帐票编号220还可以限定于「预」、「订」、「编」、「号」、「贵」、
「社」、「受」、「理」以及数字。这样,取出与全部类别相关的识别 对象的字符,取所有类别的和,并将其作为识别对象。从而,提高字符 识别的准确度。
接着,关键字提取部140开始处理。关键字提取处理是在项目提取部 160提取了项目字符串候选、和数据提取部170提取了数据字符串候选之 后,由对应部180进行项目字符串候选和数据字符串候选的对应。
(l)项目提取
在项目提取处理中,基于在逻辑定义体中定义的项目字符串,从字 符识别结果中提取表示项目的项目字符串。
首先,字符识别结果投票161基于在逻辑定义体数据库150中存储的 逻辑定义体,从字符识别结果中提取已定义的项目字符串中所包含的字 符,并进行投票。这里,关于帐票图像300的帐票,定义了 「贵社受理编 号」、「预订编号」以及「受理No.」来作为项目字符串。因而,从字符 识别结果中提取在项目字符串的定义中所包含的字符。
图6是表示本实施方式中的从字符识别结果提取字符的图。图6是从 帐票图像300中选出己提取出字符的位置的图,对与图5相同的内容标注 相同的编号。
依次提取与在项目字符串中所包含的字符一致的内容。此时,用字 母来方便地标注提取出的字符。例如,从「贵社受理编号」304中提取「贵 (a)」、「社(b)」、「受(c)」、「理(d)」、「编(e)」、「号(f)」,从「A 株式会社」306中提取「社(g)」,从「电话号码」307中提取「号(h)」「码 (i)」,从「B株式会社公启」303中提取「社(j)」。接着,将提取出的字 符投票给项目字符串的各字符。
图7是表示本实施方式中的项目字符串匹配的投票结果的图。对与图 6相同的内容标注相同的标号。
对于项目字符串「贵社受理编号」310,对「贵」投票a,对「社」 投票b、 g利,对「受」投票c,对「理」投票d,对「编」投票e和h,对 「号」投票仔ni。同样,对于项目字符串「预订编号」320,对「编」投 票e和h,对「号」投票f和i,对于「受理No.」330,对「受」投票c,对 「理」投票d。
在图形生成(匹配性评价)162中,根据投票结果,生成将被投票的字 符作为节点的图形。首先,针对被投票的字符的集合,对全部的两个字 符的组调査作为字符串的关系、和与位置相关的匹配性。所谓在两个字 符A和B的位置关系中存在匹配性,是指各个字符分别为相应的项目字符 串的第i个字符、第j个字符(其中^j)的时刻是满足如下条件的时刻A的x 坐标〈B的x坐标、且A的y坐标与B的y坐标几乎相等。另夕卜,X为水平方向 的坐标轴,y为垂直方向的坐标轴。
具体来说,在将平均字符尺寸设为m、 yA设为A的y坐标值、ys设为B 的y坐标值时,满足以下公式 I yf yB I …(1)。
平均字符尺寸对于全部字符而言,设为其外接矩形的长边的平均。 另夕卜,在手写字符的情况下,由于A的y坐标和B的y坐标几乎相等这
样的条件过于严格,所以放宽该条件,将公式(l)设为如下的公式来判定 匹配性,该公式为
I yA—yB I …(2)。 这样,根据帐票而适当设定匹配性的基准。 针对两个字符,在它们的关系的匹配性成立时,通过利用路径连接 与这两个字符相当的节点来生成图形。
图8是表示在本实施方式中生成的图形的一例的图。在图6中各节点 a、 b、 c、 d、 e、 f、 g、 h、 i、 j表示对字符赋予的字母。
例如,相对于「贵(a)」,判断为位置关系满足公式(l)的、在项目字 符串「贵社受理编号」中包含的「社」、「受」、「理」、「编」、「号」 具有匹配性。从而,视为「社(b)」、「受(c)」、「理(d)」、「编(e)」、 「号(f)」、「社(g)」具有匹配性,并通过路径进行连接。当针对每一节 点反复进行了同样的处理时,可获得图8所示的图形。
从这样生成的图形中提取图形的极大完全部分图形即团。构成团的 全部节点通过路径与自身以外的节点连接。例如,在图中的例子中, abcdef、 ag、 ei、 hi、 j被作为团提取出。
另外,在帐票处理装置100实际进行处理时,图形采用以表形式来表 现图8所示的图形的匹配性图表等。图9是表示本实施方式的帐票处理装 置中的匹配性图表的 一例的图。
在匹配性图表350中,纵、横地配置节点,在相当于交点的栏中设定 路径的状态。l表示有路径连接,O表示无路径连接。如果能搜索到设定 了1的栏,则能够提取出团。
并且,最大团确定163中,首先,从提取出的团中仅选择适合的团。 例如,仅选择构成团的节点个数为某阈值以上的团。从而,针对项目字 符串,仅剩下具有一定匹配性以上的匹配性的团。在图中的例子中将阈 值设为2时,除去作为团提取的abcdef、 ag、 ei、 hi、 j中的j。相对于项目 字符串仅有一个字符匹配的团为项目字符串的可能性很低,因此将该团 从团中去除。
而且,对剩下的团验证字符配置的适合性。对于与团对应的图像上
的字符集合,将包围它们的区域的长度除以字符数,来计算构成区域的 字符的中心点(区域的中心点)。求出计算出的中心点与实际的字符的中心 点的偏移,如果超过某阈值,则判断为此团不适合,并删除。具体来说,
在将平均字符尺寸设为m、字符数设为n、各字符的偏移设为d时,满足如
下的公式
…(3)
另外,平均字符尺寸对于全部字符而言设为其外接矩形的长边的平 均。下面,举例进行说明。图10是表示本实施方式的字符配置的适合性 验证的一例的图。
与团对应的字符集合「估计有效期限2004年9月30日」400中,「估」 401、 「计」402以及「日」403匹配。对于字符集合400,将包围该字符 集合的外框420的长度除以字符数,使用构成区域的字符的个数来计算字 符的中心点。此时,设为算出了外框420的中心431。与此相对,实际上 取得匹配的「估」、「计」、「日」的字符中心点432。评价该外框420 的中心431和已匹配的字符的中心432的偏移433。在图中的例子中,偏移 433根据公式(3)被判定为不适合。
另外,当在与团中相邻的两字符对应的图像上的两字符之间,除了 该两字符以外还有字时,判断为该团不适合,并删除。在图中的例子中, 当项目字符串为「估计日」时,在「计」402和「日」403之间有其他字 符,所以被判断为不适合。
进行以上这样的处理,削除不适合的团。并且,对于剩下的团,将 最高匹配率的团作为最大团输出。
而且,项目字符串候选确定164针对每一项目字符串,比较已确定的 最大团的匹配率,并将最高匹配率的团确定为项目字符串候选。在多个 团具有相同的匹配率时,将这些团全部输出。例如,通过字符集合中所 包含的节点数、或字符串匹配的位置的比例等来计算匹配率。
通过以上的处理来确定项目字符串候选。 另外,在对提取出的团进行了基于节点个数、字符配置、噪声的验 证后,对于剩下的团还可以通过限定字符种类的再识别来进行评价。具 体来说,对构成该项目字符串的字符集合限定识别对象来进行字符识别。 在字符识别结果中,仅剩下识别可靠度大于某阈值的情况,除此之外的 舍弃。并且,对剩下的字符识别结果进行投票、图形生成、团提取,求 出最大团的个数,并将该个数作为团的评价值。并且,输出评价值最大 的团。在多个团具有相同评价值的情况下,将这些团全部输出。
另外,在上述说明中,对构成关键字的字符串处于同一行的情况进 行了说明,不过还存在由项目分布于多行的布局构成的帐票。此时,在 将提取出的团作为节点,在两个节点间匹配性成立的情况下,利用路径 来连接节点之间而作成图形,并提取最大团,由此来识别分布于多行的 字符串候选及其位置。
图1 l是表示分布于多行的项目字符串的一例的图。
关于与两个团对应的两个字符串「御估计」501和「编号」502,在 上下不重叠、左右重叠的情况下, 一方的先头部字符比另一方的最末尾 字符靠后,当顺序靠后的字符串满足在图像中位于前一字符串的下方的 条件时,判定为具有匹配性。
在图中的例子中,使两个字符串向y方向投影的501y和502y的范围不 重叠,所以判断为上下不重叠。另外,因为向X方向投影的501x和502x 的范围重叠,所以判断为左右重叠。另外,相对于项目字符串「御估计 编号」,顺序靠后的「编号」502位于「御估计」501的后面,位于图像 的下方。
这样,在满足条件的节点(团)间设置路径来生成图形。然后,从 图形中提取团,并提取最大团。
这里,采用流程图对项目提取处理的过程进行说明。图12是表示本 实施方式中的项目提取处理的过程的流程图。
在输入了字符识别结果后,开始处理。为了反复进行在逻辑定义体中定义的全部类别的处理,而 将处理中的指示第i个类别(设为Ci)的i初始化(i=0)。为了反复进行在类别Ci中定义的全部项目字符串的处理, 而将处理中的指示第i个项目字符串(Sj)的j初始化(j=0)。进行对类别Ci的项目字符串Sj的项目字符串匹配处理。处 理的详细内容在后面进行叙述,不过通过匹配处理可确定对于类别Ci的 项目字符串Sj的最大团。为了进行对下一项目字符串的处理,而使j加l。将j与在逻辑定义体中定义的项目字符串的数目进行比较。 当j未达到项目字符串的数目时,返回步骤S13,进行对下一项目字符串的 匹配处理。当达到时,全部项目字符串结束。通过反复进行从步骤S13到步骤S15的处理,来确定与类别 Ci的全部项目字符串对应的最大团,所以进行针对类别Ci的项目字符串 候选确定处理。处理的详细内容在后面进行叙述。为了进行对下一类别的处理,使i加l。将i与在逻辑定义体中定义的类别数进行比较。当i未达到 类别数时,返回步骤S12,进行下一类别的处理。当全部类别的处理结束 时,结束处理。
对项目字符串匹配处理过程进行说明。图13是表示本实施方式中的 项目字符串匹配处理的过程的流程图。
在指定了项目字符串Sj后,开始处理。基于在逻辑定义体数据库150中存储的逻辑定义体,从字 符识别结果中提取在已定义的项目字符串Sj中包含的字符,并进行投票。根据投票结果,生成将被投票的字符作为节点的图形。首 先,对于被投票的字符的集合,针对全部的两个字符的组调查作为字符 串的关系和与位置相关的匹配性,当匹配性成立时通过在节点间设置路 径来生成图形。从在步骤S132中生成的图形中提取图形的极大完全部分 图形即团。构成团的全部节点通过路径与自身以外的节点连接。仅选择在步骤S133中提取的团中、构成团的节点个数为
某阈值以上的团。而且,调查团的字符配置的适合性,删除不适合的团。 并且,对于剩下的团选择匹配率最高的团,并作为最大团输出。
通过执行以上的处理过程,来提取关于类别Ci的项目字符串Sj的最 大团。
接着,对项目字符串候选确定处理过程进行说明。图14是表示本实
施方式中的项目字符串候选确定处理的过程的流程图。 确定与属于类别的项目字符串对应的最大团,并开始处理。将Pi设为第i个项目字符串的匹配度,将Pt设为最大匹配 度,将数组q设为项目字符串候选个数的数组,将n设为项目字符串候选 的个数,对各值进行初始化。即,设1=0, n=0, Pt=0,对数组q进行初 始化。对i和在类别中定义的项目字符串的个数进行比较。如果i 等于项目字符串的个数,则结束处理。因为i不等于项目字符串的个数,所以对第i个项目字符串 的匹配度Pi和最大匹配度Pt进行比较。调査Pi是否大于等于Pt,在小于Pt 时,当前设定的Pt的匹配度最高,使处理进入步骤S167。在Pi大于等于Pt时,进一步调査Pi是否大于Pt。在Pi不大 于Pt时(Pi二Pt)时,使处理进入步骤S166。在P沃于Pt时,对Pt设定Pi(Pt二Pi),将项目字符串候选的 个数n设为l,设数组q
二i,使处理进入步骤S167。由此,第i个项目字 符串在当前时刻成为唯一的项目字符串候选q[O]二i。在Pi和Pt相等时,Pt不变,对数组q[n]设定i(q[n一i),使 项目字符串候选的个数n加l。从而,项目字符串候选成为n个,在数组q 中排列Pt都为最大的项目字符串的编号。使i加l,返回步骤S162进行下一个项目字符串的处理。
通过执行以上的处理过程,取得项目字符串候选的个数n、和项目字 符串候选q[i](満足(^i化)。
(2)数据提取处理
在数据提取处理中,基于逻辑定义体的数据正规表现和数据种类, 从字符识别结果中提取以数据正规表现来记述的数据。
帐票中的关键字的数据大部分限定了字符串的种类或配置的结构。 在逻辑定义体中数据的属性被记述为正规表现。例如,日期关键字的数
据记述为*年*月*日,金额记述为*元,¥*等。*部提取171从逻辑定义体 数据库150中读出在正规表现中记述的*部分的种类(数字、字母等)、和其 他字符串(「年」、「月」、「日」、「.(句号)」、「一(连字符)」等), 从字符识别结果中取出相应的内容。不过,除了句号、连字符以外,还 有某大小以上这样的条件。将取出的字符集合设为A。然后,针对属于A 的字符的外接矩形,取附近区域(左右空白为m、上下空白为n),在存在 于其中的A的要素中,对自身以外的最近的、且投影到y坐标上时重叠的 要素设置链路。将利用链路所连接的A的要素进行结合,并作为此区域的 *部提取。
以下,举出一例进行说明。图15是表示本实施方式中的*部提取的一 例的图。图中示出提取以「*年*月*日」(*为数字)这样的以正规表现来定 义的数据的情况。
基于在逻辑定义体中定义的数据的种类和正规表现,从字符识别结 果中提取数字、「年」、「月」、「日」。这里,取出「2004年9月30日」 这样的字符集合A(601)。设置链路来连接属于A的字符和相邻的字符。当 以「2」为例时,对于「2」的外接矩形602设定左右空白取m、上下空白 取n的附近区域603,在存在于附近区域中的A的要素中,对自身以外的最 近的、且y坐标几乎相等的字符设置链路。此时,对「0」设置链路。另 外,y坐标几乎相等是指满足公式(l)的关系。此时,通过反复进行同样的 处理,对字符集合A(601)的「2004年9月30日」中包含的全部字符设置链 路,并将「2004年9月30日」作为*部提取出。
字符识别结果投票172与项目提取部160的字符识别结果投票161相 同,分别对字符部分和在正规表现中以*表示的*部分进行投票。字符部 分按照每一个字符进行投票,*部分统一为一个进行投票。如果是字符集 合A(601)的例子,则分别对字符部分「年」、「月」、「日」和*部「2004 9 30」进行投票。
图形生成(匹配性评价)173以及数据字符串候选确定(最大团确 定)174与项目提取部160的图形生成(匹配性评价)162以及最大团确定163
同样,进行图形生成、团提取、最大团的确定。在图形生成中,将被投 票的各个字符和*部分作为节点,当基于节点间位置关系的匹配性成立时 设置路径。在最大团的提取中仅选择构成团的节点个数为某阈值以上的 团。此外,在与团中相邻的两个字符对应的图像上的两个字符之间存在 该两个字符以外的字符时,判断为该团不适合,并删除。然后,关于剩 下的团,在节点个数大于某阈值时,全部输出与这些团对应的区域和字 符。
另外,与项目提取部160同样,也可通过字符种类限定再识别来对已 输出的团修改输出字符。
这里,采用流程图对数据提取处理的过程进行说明。图16是表示本 实施方式中的数据提取处理的过程的流程图。 在输入了字符识别结果之后,开始处理。为了反复进行在逻辑定义体中定义的全部类别的处理,而 将处理中的指示第i个类别(设为Ci)的i初始化(i=0)。为了反复进行在类别Ci中定义的全部项目字符串的处理, 而将处理中的指示第i个正规表现(Rj)的j初始化(j = 0)。进行对类别Ci的正规表现(Rj)的数据字符串匹配处理。处 理的详细内容在后面进行叙述,不过通过匹配处理可确定针对类别Ci的 正规表现(Rj)的最大团。为了进行对下一个正规表现的处理,而使j加l 。将j与在逻辑定义体中定义的正规表现的个数进行比较。当 j未达到正规表现的个数时,返回步骤S23,进行对下一个正规表现的匹配 处理。当达到时,全部正规表现结束。为了进行对下一个类别的处理,使i增加l。将i与在逻辑定义体中定义的类别数进行比较。当i未达到 类别数时,返回步骤S22,进行下一个类别的处理。当全部类别的处理结 束时,结束处理。
对数据字符串匹配处理过程进行说明。图17是表示本实施方式中的 数据字符串匹配处理的过程的流程图。
在指定了正规表现Rj后,开始处理。从字符识别结果中取出以在逻辑定义体数据库150中存储 的数据正规表现所记述的*部分的种类、和其他字符串,通过链路来连接 相邻的字符,进行字符合并,将合并的字符集合作为*部提取出。分别对作为*部提取的字符集合中所包含的字符和在正 规表现中以* (数字等)表示的部分进行投票。将被投票的各个字符和*部分作为节点,当在节点间匹配 性成立时,利用路径来连接节点之间,从而生成图形。从在步骤S233中生成的图形中,提取作为图形的极大完 全部分图形的团。构成团的全部节点通过路径与自身以外的节点连接。仅选择在步骤S234中提取的团中,构成团的节点个数在 某阈值以上的团。而且,调查团的字符配置的适合性,删除不适合的团。 并且,关于剩下的团,当节点个数大于某阈值时,全部输出与这些团对 应的区域和字符。
通过执行以上的处理过程,来提取与类别Ci的数据正规表现Rj对应 的数据字符串。
(3)项目/数据对应处理
在项目/数据对应处理中,根据从逻辑定义体所定义的项目中观察到 的数据的相对位置等,来一一列举由项目提取部160提取的项目和由数据 提取部170提取的数据存在对应关系的可能性,通过考虑全体的匹配性来 确定对应关系。另外,与项目提取部160以及数据提取部170同样,生成 图形并提取团来进行全体匹配性的评价。
项目/数据组合181针对由项目提取部160提取的项目字符串候选I , 当项目字符串候选I为从类别C中求出时,根据在逻辑定义体中记述的类 别C的项目和数据的关系(从项目中观察到的数据的相对位置205),设定项 目字符串候选I的附近区域。例如,如果定义了 「下」,则将附近区域 取为项目字符串候选I的区域的下部。另外,如果定义了 「右」,则将
附近区域取为项目字符串候选I的区域的右部。并且,针对位于已设定 的附近区域中、且满足类别C的数据的正规表现的字符,生成项目字符串 候选和数据字符串候选的组合。不过,当在包含项目字符串候选和数据
字符串候选双方的外接矩形中,存在可在逻辑定义体所记述的类别c的项
目和数据之间存在的字符以外的字符时,不生成该项目字符串候选和数 据字符串候选的组合。
在图形生成(匹配性评价)182中,生成将利用项目/数据组合181提取 的项目字符串和数据字符串的组合作为节点的图形。针对项目字符串候 选和数据字符串候选的组合的集合,对全部的两个组合调查匹配性。所 谓两个组合A和B的关系存在匹配性,是指构成各个组合的项目字符串候 选和数据字符串候选不重复。对于两个组合,在它们的关系的匹配性成 立时,通过利用路径来连接与这两个组合相当的节点来生成图形。
在组合确定(最大团确定)183中,与项目字符串匹配处理同样,进行 团提取、最大团确定。在最大团的提取中,输出构成团的节点个数最大 的团。
这里,采用流程图来说明项目和数据的对应处理的过程。图18是表 示本实施方式中的项目/数据对应处理的过程的流程图。
在提取了项目字符串和数据字符串后,开始处理。根据从逻辑定义体所定义的项目中观察到的数据的相对 位置,将类别相同的项目字符串候选和数据字符串候选对应起来,并一 一列举项目字符串候选和数据字符串候选的组合。将在步骤S31中提取出的项目字符串和数据字符串的组合 作为节点,对全部的两个组合调查匹配性(构成各个组合的项目字符串候 选和数据字符串候选不重复),在匹配性成立的情况下,在节点间设置路 径来生成图形。从在步骤S32中生成的图形中,提取图形的极大完全部分 图形即团。从在步骤S33中提取的团中提取最大团。在最大团的提取 中,输出构成团的节点个数最大的团。 通过执行以上的处理过程,考虑全体的匹配性来确定项目字符串候 选和数据字符串候选的组合。从而,即使在存在多个对应的可能性的情 况下,也能够选择正确的对应。
另外,可利用计算机来实现上述处理功能。此时,提供记述了应该 具有帐票处理装置的功能的处理内容的程序。通过由计算机来执行该程 序,可在计算机上实现上述处理功能。记述了处理内容的程序可预先存 储在可利用计算机来读取的记录介质中。作为可利用计算机来读取的记 录介质具有磁记录装置、光盘、光磁记录介质、半导体存储器等。磁
记录装置有硬盘装置(HDD)、软盘(FD)、磁带等。光盘具有DVD(Digital Versatile Disc:数字通用盘)、DVD—RAM(Random Access Memory:随 机存取存储器)、CD-ROM(Compact Disc Read Only Memory)、 CD—R(Recordable :可记录)/RW(可擦写)等。光磁记录介质有 MO(Magneto-Optical disk:磁光盘)等。
在使程序流通时,例如,出售记录有该程序的DVD、 CD—ROM等 移动型记录介质。另外,还可以预先将程序存储在服务器计算机的存储 装置中,经由网络,从服务器计算机向其他计算机传输该程序。
执行程序的计算机例如在自身的存储装置中存储被记录在移动型 记录介质中的程序或从服务器计算机传输来的程序。并且,计算机从自 身的存储装置中读取程序,并执行依据于程序的处理。另外,计算机还 可以从移动型记录介质直接读取程序,并执行依据于该程序的处理。另 外,计算机还可以在每次从服务器计算机传输来程序时,逐次执行依据 于接收的程序的处理。
上述内容仅表示本发明的原理。而且,本领域技术人员可以进行多 种变形以及变更,而并非限定于本发明上述示出的准确结构以及应用例, 对应的全部变形例以及等同物都视为权利要求书以及其等同物所覆盖的 本发明的范围。
权利要求
1.一种帐票处理程序,用于从扫描的帐票图像中提取规定的关键字的帐票处理,其特征在于,该帐票处理程序使计算机发挥如下单元的功能布局识别单元,其识别上述帐票图像的布局,并提取上述帐票图像中的字符图像的读取区域;字符识别单元,其对提取出的上述读取区域的字符图像进行字符识别,将识别出的字符作为字符识别结果输出;字符串候选提取单元,其基于帐票逻辑定义体,从上述字符识别结果中提取在上述帐票逻辑定义体中作为上述关键字来定义的字符串中所包含的字符,并将提取出的字符间的关系满足作为构成上述关键字的字符串的位置关系的组合作为字符串候选,其中上述帐票逻辑定义体根据相同种类的帐票中共同的逻辑结构而定义了构成上述关键字的字符串;以及对应单元,其针对由多个要素组成的上述关键字,将与上述要素相应的上述字符串候选根据上述帐票图像上的位置关系进行对应,确定构成上述关键字的上述字符串候选的组合。
2. 根据权利要求l所述的帐票处理程序,其特征在于, 使计算机作为上述字符串候选提取单元执行以下的处理在提取出作为上述关键字所定义的字符串之前,反复进行如下处理在每次从上述字符识别结果中提取出作为上述关键字所定义的字符串中 所包含的字符时对该字符进行投票,将被投票的字符作为单位,求出在 字符之间相互满足作为字符串的位置关系的组合,进一步将求出的组合 作为单位,求出相互满足作为字符串的位置关系的组合。
3. 根据权利要求l所述的帐票处理程序,其特征在于, 使计算机作为上述字符串候选提取单元执行以下的处理为了求出满足上述位置关系的组合,采用图论理论,将从上述字符 识别结果中提取出的字符或字符组合作为节点,当在上述节点之间基于 位置关系的匹配性成立时,利用路径来连接上述节点之间,从而作成图 形,并提取出最大团。
4. 根据权利要求l所述的帐票处理程序,其特征在于,上述关键字由项目和数据这两种要素构成,上述字符串候选提取单元发挥如下单元的功能项目字符串候选提取单元,其提取与上述项目相关的项目字符串候选;以及数据字符串候 选提取单元,其提取与上述数据相关的数据字符串候选,使计算机作为上述对应单元执行将上述项目字符串候选和上述数据 字符串候选对应起来的处理。
5. 根据权利要求4所述的帐票处理程序,其特征在于, 在上述帐票逻辑定义体中定义了与构成上述关键字的项目对应的项目字符串,使计算机作为上述项目字符串候选提取单元执行以下的处理 在上述字符识别结果中检测出上述项目字符串的字符的情况下,对 相应的上述项目字符串的字符进行投票,并将在被投票的字符之间满足 作为上述项目字符串的关系的组合作为上述项目字符串候选而提取出。
6. 根据权利要求4所述的帐票处理程序,其特征在于, 在上述帐票逻辑定义体中定义了与构成上述关键字的数据对应并包含数据字符种类和数据正规表现的数据区域属性,使计算机作为上述数 据字符串候选提取单元执行以下的处理在上述字符识别结果中检测出上述数据正规表现中的各要素的情况 下,对相应的上述数据正规表现的要素进行投票,并将在被投票的要素 之间满足作为上述数据正规表现的关系的组合作为上述数据字符串候选 而提取出。
7. 根据权利要求6所述的帐票处理程序,其特征在于, 上述数据正规表现利用仅规定上述数据字符种类、且包含用来替代字符的通配符的字符串来表现,使计算机作为上述数据字符串候选提取单元执行以下的处理从上述字符识别结果中提取在上述数据正规表现中记述的上述通配 符的数据字符种类,将提取出的字符满足作为字符串的位置关系的组合 作为通配符部,从上述字符识别结果中提取在上述数据正规表现中记述 的字符串中所包含的字符,并将提取出的字符以及上述通配符部的位置 关系满足作为上述数据正规表现的位置关系的组合作为数据字符串候 选。
8. 根据权利要求4所述的帐票处理程序,其特征在于,使计算机作为上述对应单元执行以下的处理一一列举上述项目字符串候选和上述数据字符串候选对应的可能 性,确定使上述项目字符串候选和上述数据字符串候选对应的个数全体 上最大的对应关系。
9. 根据权利要求l所述的帐票处理程序,其特征在于,使计算机作为上述字符串候选提取单元执行以下的处理-验证构成上述字符串候选的字符的字符配置的适合性,将已验证了 适合性的字符作为上述字符串候选。
10. 根据权利要求9所述的帐票处理程序,其特征在于,使计算机作为上述字符串候选提取单元执行以下的处理算出包围字符集合的区域的中心点,该字符集合构成上述字符串候 选,并且根据构成上述字符串候选的字符个数算出上述字符串候选的中 心点,将包围上述字符集合的区域的中心点和上述字符串候选的中心点 进行对照,根据偏移的大小来判定适合性。
11. 根据权利要求9所述的帐票处理程序,其特征在于,使计算机作为上述字符串候选提取单元执行以下的处理 当在与上述帐票逻辑定义体中定义的相邻的两个字符对应的、构成上述字符串候选的字符集合的两个字符之间存在其他字符时,判断为构成上述字符串候选的字符集合不适合。
12. 根据权利要求l所述的帐票处理程序,其特征在于,使计算机作为上述字符识别单元执行以下的处理 根据上述帐票逻辑定义体,对有可能在上述帐票图像中出现的字符 种类限定识别对象来进行字符识别。
13. 根据权利要求l所述的帐票处理程序,其特征在于, 使计算机作为上述字符串候选提取单元执行以下的处理-在提取了上述字符串候选之后,对构成在上述帐票逻辑定义体中针 对与上述字符串候选对应的上述关键字所定义的上述字符串的字符集合 限定识别对象,来进行字符识别,更新上述字符识别结果,使用已更新 的上述字符识别结果,来提取再次进行了字符识别的字符满足作为上述 字符串的关系的字符串候选。
14. 根据权利要求l所述的帐票处理程序,其特征在于, 使计算机作为上述字符串候选提取单元执行以下的处理-将配置在任意行的、满足作为构成上述关键字的字符串的位置关系的组合作为第l字符串单位,将配置在与上述第l字符串单位不同的行的 第2组合作为第2字符串单位,并将上述第1字符串单位和上述第2字符串 单位满足作为在上述帐票逻辑定义体中定义的字符串的关系的组合作为 分布于多行的上述字符串候选来进行提取。
15. 根据权利要求14所述的帐票处理程序,其特征在于, 使计算机作为上述字符串候选提取单元执行以下的处理-针对上述第1字符串单位和上述第2字符串单位,判断是否满足包围上述第1字符串单位的区域和包围上述第2字符串单位的区域的水平方向 的坐标值至少一部分重叠、垂直方向的坐标值不重叠这样的条件,在不 满足条件时,判断为不是满足作为在上述帐票逻辑定义体中定义的字符 串的关系的组合。
16. —种帐票处理装置,从扫描的帐票图像中提取规定的关键字, 其特征在于,具有如下单元-布局识别单元,其识别上述帐票图像的布局,并提取上述帐票图像 中的字符图像的读取区域;字符识别单元,其对提取出的上述读取区域的字符图像进行字符识 别,将识别出的字符作为字符识别结果输出;帐票逻辑定义体存储单元,其存储根据相同种类的帐票中共同的逻 辑结构而定义了构成上述关键字的字符串的帐票逻辑定义体;字符串候选提取单元,其读出与对象帐票相关的上述帐票逻辑定义体,并且从上述字符识别结果中提取在上述帐票逻辑定义体中作为上述 关键字所定义的字符串中所包含的字符,并将提取出的字符间的位置关系满足作为构成上述关键字的字符串的关系的组合作为字符串候选;以 及对应单元,其针对由多个要素组成的上述关键字,将与上述要素相 应的上述字符串候选根据上述帐票图像上的位置关系进行对应,确定构 成上述关键字的上述字符串候选的组合。
17. —种帐票处理方法,用于从扫描的帐票图像中提取规定的关键 字的帐票处理,其特征在于,具有如下的步骤布局识别单元识别上述帐票图像的布局,并提取上述帐票图像中的 字符图像的读取区域;字符识别单元对提取出的上述读取区域的字符图像进行字符识别, 将识别出的字符作为字符识别结果输出;字符串候选提取单元基于帐票逻辑定义体,从上述字符识别结果中 提取在上述帐票逻辑定义体中作为上述关键字所定义的字符串中所包含 的字符,并将提取出的字符间的关系满足作为构成上述关键字的字符串 的位置关系的组合作为字符串候选,其中上述帐票逻辑定义体根据相同 种类的帐票中共同的逻辑结构而定义了构成上述关键字的字符串;以及对应单元针对由多个要素组成的上述关键字,将与上述要素相应的 上述字符串候选根据上述帐票图像上的位置关系进行对应,确定构成上 述关键字的上述字符串候选的组合。
全文摘要
自动提取关键字。当输入扫描的帐票图像时,布局识别单元(11)提取帐票图像的读取区域,字符识别单元(13)对该读取区域进行字符识别。在帐票逻辑定义体数据库(14)中存储根据相同种类的帐票中共同的逻辑结构而定义了构成关键字的字符串的帐票逻辑定义体。字符串候选提取单元(15)将字符识别出的字符满足已定义的字符串关系的组合作为字符串候选提取。并且,对应单元(16)将字符串候选根据位置关系进行对应,确定构成关键字的字符串候选的组合。
文档编号G06K9/72GK101356541SQ20068005093
公开日2009年1月28日 申请日期2006年1月13日 优先权日2006年1月13日
发明者武部浩明, 藤本克仁 申请人:富士通株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1