账票种类识别程序、账票种类识别方法以及账票种类识别装置的制作方法

文档序号:6457146阅读:196来源:国知局
专利名称:账票种类识别程序、账票种类识别方法以及账票种类识别装置的制作方法
技术领域
本发明涉及使计算机执行账票种类识别处理的账票种类识别程序、 与该账票种类识别程序相对应的账票种类识别方法以及账票种类识别 装置,该账票种类识别处理即接受与账票上填写的字符串有关的字符信 息以及与格线有关的格线信息的输入,并对填写了该字符信息以及该格 线信息的账票的账票种类进行识别的处理。
背景技术
以往,以对纸账票上所写入的字符信息等进行辨认并自动输入辨认 后得到的数据为目的,存在基于预先保持的账票识别信息暂时识别账票 种类的技术。这里,账票识别信息是指账票上的字符信息及格线信息、
用于确定账票种类的识别ID等。
例如,在专利文献l中公开了如下技术,即通过将基于字符辨认结 果所抽取出的组字符串、和对于各账票种类预先保持的账票识别用的关 键字(按每个账票对频繁使用的字符进行管理而得到的字符)进行对照 来识别账票种类,该字符辨认结果与接受输入而得到的账票数据对应。
专利文献l:日本特开2001 - 202466号^^艮

发明内容
然而,上述的现有技术因诸如以下将说明的原因而存在有时候无法 实现高精度的账票种类识别之类的问题点。
即,在接受输入而得到的账票数据之中包含很多说明词句及注释之 类的无用字符串,所以抽取诸如与预先保持的账票识别用的关键字对应 那样的组字符串本身就较为困难。所以,存在如下的问题点例如在将 "交货单"作为与任意账票有关的账票识别用的一个关键字来保持,并 从所输入的账票数据抽取出"交货单(兼收据)"这样的组字符串的情 况下,账票种类识别用的关键字对于组字符串的对照就不起作用,有时
6候无法实现高精度的账票种类识别。
另外,在接受输入而得到的账票数据之中,由3字符组成的字符串 以l个字符错误的状态存在时,此字符串的字符辨认率为67%,通常被 认为不合适而不作为关键字进行抽取。所以,当在账票数据之中由3字 符组成的字符串以l个字符错误的状态存在时,由于为了识别账票种类 而作为重要的标题字符串所使用的、例如"申请书"、"交货单"、"报价 单"等这样的3字符组成的字符串不会作为关键字被抽取出来,结果就 存在有时候无法实现高精度的账票种类识别之类的问题点。
因而,本发明就是为了解决上述的现有技术的i果题而完成的,其目 的是提供一种可以实现高精度的账票种类识别的账票种类识别程序、账 票种类识别方法以及账票种类识别装置。
为了解决上述课题而达到目的,本发明之1提供一种账票种类识别 程序,其特征在于,使计算机执行账票种类识别处理,该账票种类识别 处理是接受与账票上所填写的字符串有关的字符信息以及与格线有关 的格线信息的输入,对填写了该字符信息以及该格线信息的账票的账票 种类进行识别的处理,该账票种类识别程序使计算机执行以下步骤账 票种类识别信息存储步骤,与各账票种类对应地分别在存储部中存储成 为用于识别账票种类的关键的多个关键字信息;部分字符串生成步骤, 使用通过上述账票种类识别信息存储步骤在存储部中所存储的上述多 个关键字信息,按每个关键字信息分别生成用于与账票上所填写的字符 串进行对照的多个部分字符串;字符串排列步骤,基于上述字符信息以 及上述格线信息,在横方向上观看账票上所填写的字符串的情况下,分 别生成在字符高度重叠的范围对该字符串进行分割后的组字符串,并且 对该生成的各组字符串进行排列;部分字符串对照步骤,分别对照通过 上述字符串排列步骤排列的各组字符串和通过上述部分字符串生成步 骤生成的各部分字符串,按每个上述关键字信息取得各部分字符串相对 于各组字符串的对照率最大时的一致字符数,并使用该取得的各一致字 符数对每个账票种类计算出评价了是该账票种类的可能性的评价值;以 及账票种类决定步骤,基于通过上述部分字符串对照步骤对每个账票种 类计算出的各评价值,来决定与填写了上述字符信息以及上述格线信息 的账票相对的账票种类。
7另外,本发明之2的特征是,在上述发明的基础上,上述账票种类决 定步骤判定通过上述部分字符串对照步骤对每个账票种类计算出的各 评价值是否超过了对每个账票种类所规定的阈值,以决定与填写了上述 字符信息以及上述格线信息的账票相对的账票种类。
另外,本发明之3的特征是,在上述发明的基础上,上述账票种类 决定步骤判定通过上述部分字符串对照步骤对每个账票种类计算出的 各评价值是否超过了对每个账票种类所规定的阈值,在与被判定为超过 了该阈值的评价值相对应的账票种类存在多个的情况下,根据该评价值 的高低将该存在多个的账票种类排序。
另外,本发明之4的特征是,在上述发明的基础上,上述账票种类 决定步骤判定通过上述部分字符串对照步骤对每个账票种类计算出的 各评价值是否超过了对每个账票种类所规定的阈值,在与被判定为超过 了该阈值的评价值相对应的账票种类存在多个的情况下,决定为评价值 最高的账票种类。
另外,本发明之5的特征是,在上述发明的基础上,上述字符串排 列步骤在根据上述字符信息以及上述格线信息判明了在上述组字符串 内存在格线的情况下,用格线来分割该组字符串。
另外,本发明之6的特征是,在上述发明的基础上,上述账票种类 识别信息存储步骤进一步在存储部中存储对每个上述关键字规定了可 否使用的使用可否信息,使计算机进一步执行关键字选择步骤,在该关 键字选择步骤中基于通过上述账票种类识别信息存储步骤在存储部中 所存储的上述使用可否信息,从该存储部中所存储的多个关键字信息之 中选择已被许可使用的关键字信息,上述部分字符串生成步骤使用通过 上述关键字选择步骤所选择出的关键字信息分别生成上述多个部分字 符串。
另外,本发明之7的特征是,在上述发明的基础上,在上述账票种 类决定步骤中,每当通过上述部分字符串对照步骤对每个账票种类计算 出各评价值时,基于该各评价值对该账票种类的候补进行缩选,使计算 机进一步执行关键字信息变更步骤,在该关键字信息变更步骤中,每当 通过上述账票种类决定步骤对账票种类的候补进行了缩选时,从通过上述账票种类识别信息存储步骤在存储部中所存储的上述多个关键字信 息之中,考虑该缩选后的账票种类的候补来变更关键字信息,在上述部 分字符串生成步骤中,每当通过上述关键字信息变更步骤变更了关键字 信息时,使用该变更后的关键字信息分别生成上述多个部分字符串,在 上述部分字符串对照步骤中,每当通过上述部分字符串生成步骤生成了 上述多个部分字符串时,分别对照通过上述字符串排列步骤所排列的各 组字符串和通过上述部分字符串生成步骤所生成的各部分字符串,并对 每个账票种类计算出对构成各组字符串的字符串与各部分字符串的一 致度进行了评价的评价值。
另外,本发明之8的特征是,在上述发明的基础上,在上述账票种 类识别信息存储步骤中,与各账票种类对应地,按每个含义相同的组, 分别在存储部中存储上述多个关键字信息,在上述部分字符串对照步骤 中,分别对照通过上述字符串排列步骤所排列的各组字符串、和通过上 述部分字符串生成步骤所生成的各部分字符串,从上述各组内的多个关 键字之中分别抽取各部分字符串相对于各组字符串的对照率最大的关 键字,对于该抽取出的各关键字分别取得一致字符数,并使用该取得的 各一致字符数对每个账票种类计算出评价了是该账票种类的可能性的 评价值。
另外,本发明之9提供一种账票种类识别方法,其特征在于,是接 受与账票上所填写的字符串有关的字符信息以及与格线有关的格线信 息的输入,对填写了该字符信息以及该格线信息的账票的账票种类进行 识別的账票种类识别方法,包括以下工序账票种类识别信息存储工序, 与各账票种类对应地分别在存储部中存储成为用于识别账票种类的关 键的多个关键字信息;部分字符串生成工序,使用通过上述账票种类识 别信息存储工序在存储部中所存储的上述多个关键字信息,按每个关键 字信息分别生成用于与账票上所填写的字符串进行对照的多个部分字 符串;字符串排列工序,基于上述字符信息以及上述格线信息,在横方 向上观看账票上所填写的字符串的情况下,分别生成在字符高度重叠的 范围对该字符串进行分割后的组字符串,并且对该生成的各组字符串进 行排列;部分字符串对照工序,分别对照通过上述字符串排列工序排列 的各组字符串和通过上述部分字符串生成工序生成的各部分字符串,按 每个上述关键字信息取得各部分字符串相对于各组字符串的对照率最大时的一致字符数,并使用该取得的各一致字符数对每个账票种类计算
出评价了是该账票种类的可能性的评价值;以及账票种类决定工序,基 于通过上述部分字符串对照工序对每个账票种类计算出的各评价值,来 决定与填写了上述字符信息以及上述格线信息的账票相对的账票种类。
另外,本发明之io提供一种账票种类识别装置,其特征在于,是 接受与账票上所填写的字符串有关的字符信息以及与格线有关的格线 信息的输入,对填写了该字符信息以及该格线信息的账票的账票种类进
行识别的账票种类识别装置,包括账票种类识别信息存储单元,与各 账票种类对应地分别存储成为用于识别账票种类的关键的多个关键字
信息;部分字符串生成单元,使用由上述账票种类识别信息存储单元所 存储的上述多个关键字信息,按每个关键字信息分别生成用于与账票上 所填写的字符串进行对照的多个部分字符串;字符串排列单元,基于上 述字符信息以及上述格线信息,在横方向上观看账票上所填写的字符串 的情况下,分别生成在字符高度重叠的范围对该字符串进行分割后的组 字符串,并且对该生成的各组字符串进行排列;部分字符串对照单元, 分别对照由上述字符串排列单元排列的各组字符串和由上述部分字符
串生成单元生成的各部分字符串,按每个上述关键字信息取得各部分字 符串相对于各组字符串的对照率最大时的一致字符数,并使用该取得的 各一致字符数对每个账票种类计算出评价了是该账票种类的可能性的 评价值;以及账票种类决定单元,基于通过上述部分字符串对照单元对 每个账票种类计算出的各评价值,来决定与填写了上述字符信息以及上 述格线信息的账票相对的账票种类。
根据本发明,与各账票种类(例如"申请书"或"交货单"、"报价 单"等)对应地分别在存储部中存储成为用于识别账票种类的关键的多 个关键字信息(例如若是"申请书"就是"申请书"、"申请日"、"住所"、 "姓名"等账票上所填写的信息),并利用存储部中所存储的多个关键 字,按每个关键字信息分别生成用于与账票上所填写的字符串进行对照 的多个部分字符串(例如若是"申请书"就是"申请"、"请书"以及"申 书"等由3个字符中的2个字符组成的字符串),并基于与账票上所填 写的字符串有关的字符信息以及与格线有关的格线信息,在横方向上观 看账票上所填写的字符串的情况下,分别生成在字符高度重叠的范围对 该字符串进行分割后的组字符串并且进行排列,分别对照各组字符串和各部分字符串,按每个关键字信息取得各部分字符串相对于各组字符串 的对照率最大时的一致字符数,利用所取得的各一致字符数对每个账票 种类计算出评价了是该账票种类的可能性的评价值(例如,将组字符串 和部分字符串的一致字符数用全关键字的字符数进行了除法运算后的 值),并基于对每个账票种类计算出的各评价值来决定与已填写了字符 信息以及格线信息的账票相对的账票种类,所以可以实现高精度的账票 种类识别而不会局限于与预先保持的账票识别用的关键字对应的那样 的组字符串的抽取。另外,即使在账票上所填写的字符串之中存在错误、 或者在字符串的辨认结果中有错误的情况下,也能够计算出通过利用了 部分字符串的对照而考虑了部分一致的评价值,可以实现高精度的账票 种类识别。
另外,根据本发明,判断对每个账票种类计算出的各评价值是否超 过对每个账票种类规定的阈值来决定与已填写字符信息以及格线信息 的账票相对的账票种类,所以就可以用简易的方法来决定账票种类。
另外,根据本发明,判定对每个账票种类计算出的各评价值是否超 过对每个账票种类所规定的阈值,并在与被判定为超过阈值的评价值相 对应的账票种类存在多个的情况下根据评价值的高低将存在多个的账 票种类排序,所以就可以将账票种类的候补排序后提供给用户。
另外,根据本发明,判定对每个账票种类计算出的各评价值是否超 过对每个账票种类规定的阈值,并在与被判定为超过阈值的评价值相对
应的账票种类存在多个的情况下,决定为评价值最高的账票种类,所以 就可以将最可能的账票种类作为账票种类的候补提供给用户。
另外,根据本发明,在根据字符信息以及格线信息判明了在组字符 串内存在格线的情况下,用格线来分割组字符串,所以就可以在构成正 规词句的范围对组字符串进行分割。
另外,根据本发明,在存储部中进一步存储对多个关键字的每个规 定了可否使用的使用可否信息,并基于存储部中所存储的使用可否信息 从多个关键字信息之中选择已许可使用的关键字信息,使用所选择的关 键字信息分别生成多个部分字符串,所以能够仅仅使用预先保持的关键 字之中的需要的关键字,另外与用所有关键字进行处理相比较可以减少处理时间。
另外,根据本发明,每当对每个账票种类计算出各评价值时,基于 各评价值对账票种类的候补进行缩选(例如将评价值最低的除外等,缩 选成有可能性作为账票种类的候补),每当账票种类的候补被缩选时, 从存储部中所存储的多个关键字信息之中,根据缩选后的账票种类的候 补来变更关键字信息,每当关键字信息被变更时,使用经过变更的关键 字信息分别生成多个部分字符串,每当生成了多个部分字符串时,分别 对照各组字符串和各部分字符串,对每个账票种类计算对构成各组字符 串的字符串与各部分字符串的一致度进行了评价的评价值,所以不会使
用明显不需要的账票种类的关键字进行处理而可以使处理时间以及处 理次数减少,并且可以实现精度更高的账票种类识别。
另外,根据本发明,与各账票种类对应地按含义相同的每组分别在 存储部中存储上述多个关键字信息,分别对照各组字符串和各部分字符 串,并从各组内的多个关键字之中分别抽取各部分字符串相对于各组字 符串的对照率最大的关键字,对于所抽取出的各关键字分别取得一致字 符数,并使用所取得的各一致字符数对每个账票种类计算评价了是该账 票种类的可能性的评价值,所以可以实现高精度的账票种类识别。即, 例如,对于账票种类"申请书",将"申请日"和"填写日"作为持有 相同含义的一个组来处理,如果在根据"申请日"以及"填写日"所生 成的部分字符串和根据输入的字符信息以及格线信息所生成的组字符 串的一致度之中的、与根据"申请日"所生成的部分字符串的一致度较 高,则使用与根据"申请日"所生成的部分字符串的一致字符数来计算 评价值,所以能够实现高精度的账票种类识别而不会使评价值降低。


图1是用于说明实施例1所涉及的账票种类识别装置之概要以及特 征的图。
图2是用于说明实施例1所涉及的部分字符串之生成的图。
图3是表示实施例1所涉及的账票种类识别装置之构成的框图。
图4是表示实施例1所涉及的账票种类识别信息DB中所存储的信息之构成例的图。
图5是表示实施例l所涉及的字符串之排列例的图。
图6是表示实施例l所涉及的组字符串之生成方法的图。
图7是表示实施例1所涉及的组字符串和部分字符串之对照方法的图。
图8是表示实施例1所涉及的组字符串和部分字符串之对照方法的图。
图9是表示实施例1所涉及的组字符串和部分字符串之对照方法的图。
图10是表示实施例1所涉及的组字符串和部分字符串之对照例的图。
图11是表示实施例1所涉及的换算表之构成例的图。
图12是表示实施例l所涉及的账票种类之输出例的图。
图13是表示实施例1所涉及的字符串排列处理之流程的流程图。
图14是表示实施例1所涉及的部分字符串生成处理之流程的流程图。
图15是表示实施例1所涉及的账票种类决定处理之流程的流程图。
图16是表示实施例2所涉及的账票种类识别信息DB之构成例的图。
图17是表示实施例2所涉及的关键字之选择例的图。
图18是表示实施例3所涉及的账票种类识别装置之构成的框图。
图19是表示实施例3所涉及的关键字变更之流程的图。
图20是表示实施例4所涉及的账票种类识别信息DB之构成例的图。
图21是表示执行账票种类识别程序的计算机的图。附图标记说明
10账票种类识别装置
11输入部
12输出部
13存储部
13a账票种类识别信息DB
14控制部
14a字符辨认部
14b字符信息排列部
14c部分字符串生成部
14d字符串对照部
14e账票种类决定部
14f关键字选择部
20计算机
21输入部
22输出部
23 HDD ( Hard Disk Drive)
24 RAM ( Random Access Memory )
25 ROM ( Read Only Memory)
26 CPU ( CentralProcessingUnit) 30总线以下参照附图详细地说明本发明所涉及的账票种类识别程序、账票 种类识别方法以及账票种类识别装置之实施例。此外,下面在将本发明 所涉及的账票种类识别装置作为实施例l进行说明以后,对本发明所包 含的其他实施例进行说明。
实施例1
首先,利用图1以及图2来说明实施例1所涉及的账票种类识别装 置之概要以及特征。图l是用于说明实施例l所涉及的账票种类识别装 置之概要以及特征的图。图2是用于说明实施例1所涉及的部分字符串 之生成的图。
实施例1所涉及的账票种类识别装置其概要如下接受与账票上所 填写的字符串有关的字符信息(账票上的坐标组成的位置信息及用于确 定字符的字符代码组成的信息)以及与格线有关的格线信息(用账票上 的坐标来表示格线的起点以及终点的信息及单元格信息组成的信息)的 输入,并对填写了字符信息以及格线信息的账票的账票种类(例如"申 请书"或"交货单"等账票类别)进行识别,但主要特征在于可以实现 高精度的账票种类识别这一点。
对这一主要特征具体地进行说明,就是实施例1所涉及的账票种类 识别装置如图1所示那样与各账票种类对应地预先保持账票种类识别信 息DB,该账票种类识别信息DB存储了成为用于识别账票种类的关键 (key)的多个关键字(keyword).
而且,若接受了与账票上所填写的字符串有关的字符信息以及与格 线有关的格线信息的输入,则实施例l所涉及的账票种类识别装置,对 账票上所填写的字符串进行排列(参照图l的(l))。具体地进行说明, 就是基于字符信息以及格线信息使账票上所填写的所有字符从左起排 成一列,并在横方向上观看经过排列的字符串的情况下,分别生成在字 符高度重叠的范围对字符串进行分割后的组字符串并进行排列。此外, 实施例1所涉及的账票种类识别装置在生成了组字符串以后,当在组字符串内包含格线的情况下用格线进一步分割组字符串并进行排列。
另外,实施例1所涉及的账票种类识别装置利用账票种类识别信息
DB中所存储的多个关键字,对每个关键字分别生成用于与账票上所填 写的字符串进行对照的多个部分字符串(参照图l的(2))。
利用图2具体地进行说明,就是实施例1所涉及的账票种类识别装 置,例如,若从用户接受了部分字符串的字符数的输入,则从账票种类 识别信息DB13a按每个账票种类读入所有关键字。而且,例如在作为 账票种类"申请书"的关键字从账票种类识别信息DB中所存储的3字 符的关键字"申请书"生成2字符的部分字符串的情况下,将关键字上 的各个字符"申"、"请"、"书"当作"0"或者"1",不重复地仅对2 字符分配"1"。接着,通过挑选所有将被分配"1"的部分看作字符而 成的字符串来生成部分字符串(0:"申书"、1:"申请"、2:"请书")。 此外,通过用二进制数来表达3到6来取得分配"1"的位置。
接着,实施例l所涉及的账票种类识别装置分别对照经过排列的各 组字符串和所生成的各部分字符串(参照图1的(3))。若具体地进行 说明,则,首先实施例1所涉及的账票种类识别装置采用DP (Dynamic Programming )匹配或图表理论等一般的字符辨认方法来对照各组字符 串和各部分字符串。
而且,实施例l所涉及的账票种类识别装置对于对照成功了的各部 分字符串,按每个关键字取得各部分字符串相对于各组字符串的对照率 最大时的正确解字符数。例如,在某3个组字符串和从关键字"申请书" 所生成的2字符的各部分字符串("申书"、"申请"、"请书"三个)的 对照率(将部分字符串的正确解数用成为该部分字符串来源的关键字的 字符数进行了除法运算的值)为66%、 50%、 25%的情况下,取得对照 率最大即66%时的正确解字符数。此外,通过使用部分字符串的字符数 和部分字符串相对于组字符串的正确解数进行换算来取得正确解字符 数。
在按每个关键字取得了各正确解字符数以后,实施例l所涉及的账 票种类识别装置使用各正确解字符数对每个账票种类计算出评价了是 该账票种类的可能性的评价值以决定账票种类(参照图1的(4))。具体地进行说明,就是,实施例l所涉及的账票种类识别装置对每个账票 种类将各正确解字符数的总数用各关键字中所使用的字符的总数进行 除法运算来计算评价值。而且,判定对每个账票种类计算出的各评价值 是否超过对每个账票种类所规定的阈值,作为判定结果,舍弃与未超过 阈值的评价值相对应的账票种类。另一方面,在作为判断结果与超过阈 值的评价值相对应的账票种类仅存在一个的情况下,决定为该账票种类 并进行输出,在与超过阈值的评价值相对应的账票种类存在多个的情况 下,根据评价值的高低将各账票种类排序并进行输出。
通过这样做,实施例l所涉及的账票种类识别装置,可以如上述的 主要特征那样实现高精度的账票种类识别。
下面,利用图3 ~图12来说明实施例1所涉及的账票种类识别装置 之构成。图3是表示实施例1所涉及的账票种类识别装置之构成的框图。 图4是表示实施例1所涉及的账票种类识别信息DB中所存储的信息之 构成例的图。图5是表示实施例l所涉及的字符串之排列例的图。图6 是表示实施例l所涉及的组字符串之生成方法的图。图7~图9是表示实 施例1所涉及的组字符串和部分字符串之对照方法的图。图IO是表示 实施例1所涉及的组字符串和部分字符串之对照例的图。图11是表示 实施例1所涉及的换算表之构成例的图。图12是表示实施例1所涉及 的账票种类之输出例的图。
如图3所示那样,实施例1所涉及的账票种类识别装置10由输入 部ll、输出部12、存储部13、控制部14所构成。此外,在该图中,仅 仅记栽在实现实施例1所涉及的账票种类识别装置上所需要的处理部, 对于其他的处理部则省略记载。
其中,输入部ll是接受各种信息输入的输入部,具备键盘及鼠标、 麦克风等而构成,例如接受并输入由关键字生成的部分字符串长度(字 符数)等。此外,在输入部11中还进一步具备数据读取功能,读取账 票的图像数据并输出到后述的字符辨认部14a。
另外,输出部12是输出各种信息的输出部,具备监视器(或者是显示器、触摸面板)及扬声器而构成,例如除显示输出通过输入部11
所读入的账票的图《象数据外,还显示输出后述的账票种类决定部14e的 处理结果。
存储部13是存储基于控制部14的各种处理所需要的数据以及程序 的存储部,尤其是作为与本发明密切关联的部件具备账票种类识别信息 DB13a。
此账票种类识别信息DB13a是存储后述的部分字符串生成部14c的 部分字符串生成处理所需要的信息的存储部,具体而言,如图4所例示 那样,与账票种类(例如、"交货单"、"报价单"、"申请书"等)对应 地存储成为用于识别账票种类的关键的多个关键字(例如、"交货单"、 "交货日"、"合计金额"等)而构成。
控制部14是具有用于保存规定的控制程序、规定了各种处理步骤 等的程序以及所需数据的内部存储器,并通过它们来执行各种处理的处 理部,尤其是作为与本发明密切关联的部件具备字符辨认部14a、字符 信息排列部14b、部分字符串生成部14c、字符串对照部14d、账票种 类决定部14e。
其中,字符辨认部14a是从账票的图像数据中取得字符信息以及格 线信息的处理部。若具体地进行说明,则,从由输入部11所接受的账 票的图像数据中取得字符信息(账票上的坐标组成的位置信息及用于确 定字符的字符代码组成的信息)、以及与格线有关的格线信息(用账票 上的坐标来表示格线的起点以及终点的信息及单元格信息组成的信息) 并输出到字符信息排列部14b。
字符信息排列部14b是基于从字符辨认部14a所接受的字符信息以 及格线信息来排列账票上所填写的字符串的处理部。若具体地进行说 明,则,如图5所例示那样,在基于字符信息以及上述格线信息使全部 字符从左起排成一列后,在横方向上观看经过排列的字符串的情况下, 分别生成在字符高度重叠的范围对字符串进行了分割后的组字符串(例 如从第1组到第7组的组字符串)并进行排列。
即,字符信息排列部14b在使全部字符从左起排成一列后,在横方向上观看经过排列的字符串,如图6所例示那样,例如观看"申"的字 符的高度和位于"申"右侧的"请"的字符的高度是否重叠。而且,在 "申"的字符的高度和"请"的字符的高度重叠的情况下作为一组来进 行处理,观看"申请"的字符串的高度和位于"请"的右侧的"书"字 符的高度是否重叠,在重叠的情况下作为一组来进行处理。此外,在生 成了组字符串以后,在组字符串内包含格线的情况下,进一步用格线分 割组字符串并进行排列。
此外,在账票上所填写的字符串以竖写方式存在的情况下,如上述 所说明的那样,进行与账票上所填写的字符串以横写方式存在的情况同 样的处理。即,字符信息排列部14b在将全部字符从上起排成一列后, 在纵方向上观看经过排列的字符串,例如在字符的宽度重叠的情况下, 作为组字符串来处理。
部分字符串生成部14c是利用账票种类识别信息DB13a中所存储的 多个关键字,对每个关键字分别生成用于与账票上所填写的字符串进行 对照的多个部分字符串的处理部。
具体地进行说明,若经由输入部11接受了部分字符串的字符数的输 入,部分字符串生成部14c,则从账票种类识别信息DB13a按每个账票 种类读入所有关键字。而且,例如在作为账票种类"申请书"的关键字, 从账票种类识别信息DB13a中所存储的3字符关键字"申请书"生成2 字符部分字符串的情况下,将关键字上的各个字符"申"、"请"、"书" 当作"0"或者"1",不重复地仅对2字符分配"1"。接着,通过挑选 所有将被分配"1"的部分看作字符而成的字符串来生成部分字符串(0: "申书"、1:"申请"、2:"请书")。
此外,例如在从3字符关键字生成2字符部分字符串的情况下通过 用二进制数对3到6进行变换,并生成由"0"以及"1"组成的2值表 示来取得分配"1"的位置。
字符串对照部14d是对由字符信息排列部14b所生成排列的各组字 符串、和由部分字符串生成部14c所生成的各部分字符串分别进行对照 的处理部。若具体地进行说明,则,首先如图7~图9所示例那样,采 用DP (Dynamic Programming)匹配或图表理论等一般的字符辨认方法来对照各组字符串和各部分字符串。
而且,字符串对照部14d对于对照成功了的各部分字符串,对每个 关键字取得各部分字符串相对于各组字符串的对照率最大时的正确解 字符数。
首先,如图10所例示那样,若对照组字符串"申请书"和从关键 字"申请书"所生成的2字符的各部分字符串("申书"、"申请"、"请 书"三个),则部分字符串的正确解数为"3",而部分字符串的字符数 为"2"。通过将此部分字符串的正确解数"3"以及部分字符串的字符 数"2"适用于图ll所例示那样的换算表来换算正确解字符数。详细而 言,在部分字符串的字符数为"2"的情况下将换算表的"m=2"行前 进到部分字符串的正确解数为"3"的位置。而且,在该列的最上段所 记载的换算表的"n,"的值、也就是"n, =3"就成为关键字"申请 书"的正确解字符数。
同样,若以对照组字符串"申边书"和从关键字"申请书"所生成 的2字符的各部分字符串("申书"、"申请"、"请书"三个)的情况(参 照图IO)为例,则部分字符串的正确解数为"1",部分字符串的字符数 为"2",所以若适用于换算表则正确解字符数就成为"n, =2"。
这样,即便是相同的关键字,正确解字符数也因组字符串而异,所 以例如在某3个组字符串和从关键字"申请书"所生成的2字符的各部 分字符串("申书"、"申请"、"请书"三个)的对照率为66%、 50%、 25°/。的情况下,取得对照率最大即66%时的正确解字符数。这里,所谓 对照率,设为将部分字符串的正确解数用作为该部分字符串来源的关键 字的字符数进行了除法运算后的值。这样,通过用从关键字所生成的部 分字符串进行对照,即便在组字符串中有错误字符的情况下也能够应 对。
账票种类决定部14e是使用在字符串对照部14d中对每个关键字所 取得的各正确解字符数,对每个账票种类计算出评价了是该账票种类的 可能性的评价值以决定账票种类的处理部。若具体地进行^L明,则,对 每个账票种类将各正确解字符数的总数用各关键字中所使用的字符的 总数进行除法运算来计算评价值。而且,判定对每个账票种类计算出的各评价值是否超过对每个账票种类所规定的阈值,作为判断结果,分别 舍弃与未超过阈值的各评价值相对应的账票种类,在与超过阈值的评价 值相对应的账票种类仅存在一个的情况下,决定为该账票种类并进行输
另外,账票种类决定部14e,在作为判定对每个账票种类计算出的 评价值是否超过对每个账票种类规定的阈值的结果,存在多个与判定为 超过阈值的评价值相对应的账票种类的情况下,也可以根据评价值的高 低将各账票种类排序后进行输出(参照图12),也可以决定为评价值最 高的账票种类并进行输出。
接着,利用图13 ~图15来说明实施例1所涉及的账票种类识别装 置之处理。图13是表示实施例1所涉及的字符串排列处理之流程的流 程图。图14是表示实施例1所涉及的部分字符串生成处理之流程的流 程图。图15是表示实施例1所涉及的账票种类决定处理之流程的流程 图。
首先,利用图13来说明实施例l所涉及的字符串排列处理之流程。 如该图所示那样,字符信息排列部14b基于从字符辨认部14a所接受的 字符信息以及格线信息使账票上所填写的全部字符从左起排成一列(步 骤S1301 )。
接着,字符信息排列部14b将经过排列的字符串分成组(步骤 S1302),并生成组字符串。具体而言,就是在横方向上观看经过排列的 字符串的情况下,在字符高度重叠的范围(参照图5)来分割字符串。
在生成了组字符串以后,字符信息排列部14b在组字符串内包含格 线的情况下利用格线来分割组字符串(步骤S1303)并将其排列。
此外,在账票上所填写的字符串以竖写方式存在的情况下,如上述 所说明的那样,进行与账票上所填写的字符串以横写方式存在的情况同 样的处理。即,字符信息排列部14b在将全部字符从上起排成一列后,在纵方向上观看经过排列的字符串,例如在字符的宽度重叠的情况下作 为组字符串来处理。
接着,利用图14来说明实施例1所涉及的部分字符串生成处理之 流程。如该图所示那样,若经由输入部11接受了部分字符串的字符数 的输入(步骤S1401 ),部分字符串生成部14c,则从账票种类识别信息 DB13a按每个账票种类读入所有关键字(步骤S1402 )。
而且,部分字符串生成部14c利用账票种类识别信息DB13a中所存 储的多个关键字,对每个关键字分别生成用于与账票上所填写的字符串 进行对照的多个部分字符串(步骤S1403)。
若具体地进行说明,则,部分字符串生成部14c,例如在作为账票
种类"申请书"的关键字从账票种类识别信息DB13a中所存储的3字
符的关键字"申请书"生成2字符的部分字符串的情况下,将关键字上 的各个字符"申"、"请"、"书"当作"o"或者"r,不重复地仅对2
字符分配"1"。接着,通过挑选所有将被分配"1"的部分看作字符而 成的字符串来生成部分字符串(0:"申书"、1:"申请"、2:"请书")。
此外,例如在从3字符的关键字生成2字符的部分字符串的情况下 通过用二进制数对3到6进行变换,并生成由"0"以及"1"组成的2 值表示来取得分配"1"的位置。
接着,利用图15来说明实施例1所涉及的账票种类决定处理之流 程。如该图所示那样,账票种类决定部14e利用在字符串对照部14d中 对每个关键字所取得的各正确解字符数,对每个账票种类计算出评价了 是该账票种类的可能性的评价值(步骤S1501)。
而且,账票种类决定部14e判定对每个账票种类计算出的各评价值 是否超过对每个账票种类规定的阈值,作为判定结果,分别舍弃与未超 过阈值的各评价值相对应的账票种类(步骤S1502),在与超过阈值的 评价值相对应的账票种类仅存在一个的情况下,决定为该账票种类并进行输出。
另外,在作为判定结果,与被判定为超过阈值的评价值相对应的账 票种类存在多个的情况下,根据评价值的高低将各账票种类排序并进行
输出(步骤S1503)。
如上述那样,根据实施例1,与各账票种类(例如"申请书"或"交 货单"、"报价单"等)对应地分别在存储部中存储成为用于识别账票种 类的关键的多个关键字(例如若是"申请书"就是"申请书"、"申请日"、 "住所"、"姓名"等账票上所填写的信息),并利用存储部中所存储的 多个关键字,对每个关键字分别生成用于与账票上所填写的字符串进行 对照的多个部分字符串(例如若是"申请书"则是"申请"、"请书"以 及"申书"等3字符中2字符组成的字符串),并基于与账票上所填写 的字符串有关的字符信息以及与格线有关的格线信息,在横方向上观看
账票上所填写的字符串的情况下,分别生成在字符高度重叠的范围对该 字符串进行分割后的组字符串并且进行排列,分别对照各组字符串和各 部分字符串,对每个关键字取得各部分字符串相对于各组字符串的对照 率最大时的一致字符数,利用所取得的各一致字符数对每个账票种类计 算评价了是该账票种类的可能性的评价值(例如,将组字符串和部分字 符串的一致字符数用全关键字的字符数进行了除法运算的值),并基于 对每个账票种类计算出的各评价值来决定与已填写字符信息以及格线 信息的账票相对的账票种类,所以就可以实现高精度的账票种类识别而 不会局限于如与预先保持的账票识别用的关键字对应那样的组字符串 的抽取。另外,即便在账票上所填写的字符串之中存在错误、或者在字 符串的辨认结果中有错误的情况下,也能够通过利用了部分字符串的对 照而计算出考虑了部分一致的评价值,可以实现高精度的账票种类识 别。
另外,根据实施例1,判定对每个账票种类计算出的各评价值是否 超过对每个账票种类所规定的阈值来决定与已填写字符信息以及格线 信息的账票相对的账票种类,所以就可以用简易的方法来决定账票种 类。
23另外,根据实施例1,判定对每个账票种类计算出的各评价值是否 超过对每个账票种类所规定的阈值,并在与被判定为超过阈值的评价值 相对应的账票种类存在多个的情况下根据评价值的高低将存在多个的 账票种类排序,所以就可以将账票种类的候补排序后提供给用户。
另外,根据实施例1,判定对每个账票种类计算出的各评价值是否 超过对每个账票种类所规定的阈值,并在与被判定为超过阈值的评价值 相对应的账票种类存在多个的情况下,决定为评价值最高的账票种类, 所以就可以将最有可能的账票种类作为账票种类的候补提供给用户。
另外,根据实施例1,在根据字符信息以及格线信息判明了在组字 符串内存在格线的情况下,用格线来分割组字符串,所以就可以在构成 正规词句的范围对组字符串进行分割。
实施例2
虽然在上述实施例1中说明了从账票种类识别信息DB13a中按每 个账票种类读入所有关键字,并对每个关键字生成多个部分字符串的情 况,但本发明并不限定于此,还可以任意地选择将要使用的关键字。
若具体地进行说明,则,如图16所示例那样,将对每个关键字规 定了可否使用的使用标志(将使用的情况设为"0"、不使用的情况设为 "- 1"的标志)存储在账票种类识别信息DB13a中。而且,部分字符 串生成部14c选择使用标志为"0"的关键字,并从账票种类识别信息 DB13a中按每个账票种类进行读入(参照图17),对所读入的每个关键 字生成多个部分字符串。
通过这样,才艮据实施例2,在账票种类识别信息DB13a中进一步存 储对多个关键字的每个规定了可否使用的使用标志,并基于所存储的使 用标志从多个关键字信息之中选择已许可使用的关键字信息,使用所选 择的关键字信息对每个账票种类分别生成多个部分字符串,所以就能够 仅仅使用预先保持的关键字之中的需要的关键字,另外与用所有关键字 进行处理相比较可以减少处理时间。
实施例3虽然在上述实施例1中,说明了根据各组字符串和各部分字符串的对 照结果直接决定账票种类的情况,但本发明并不限定于此,还可以利用 账票种类决定处理的结果来变更关键字,并使用变更后的关键字以递归
的方式反复进行了处理以后,决定账票种类。因而,在下面利用图18 以及图19对实施例3所涉及的账票种类识别装置的构成进行了说明以 后,说明实施例3的效果。图18是表示实施例3所涉及的账票种类识 别装置之构成的框图。图19是表示实施例3所涉及的关键字变更之流 程的图。
首先,利用图18来说明实施例3所涉及的账票种类识别装置之构 成。实施例3所涉及的账票种类识别装置之构成与实施例1所涉及的账 票种类识别装置的构成基本上相同,但以下将要说明的几点不同。
即,账票种类识别信息DB13a对每个账票种类存储按规定的层次划 分后的关键字(参照图19)。作为按层次进行划分的方法之一例,可以 根据账票种类固有的关键字按顺序以第"0"层次、第"1"层次这样的 形式来进行划分。
关键字选择部14f向部分字符串生成部14c输出指示以使仅仅选择 第"0"层次的关键字来生成部分字符串(参照图19)。
与上述实施例1中所说明的相同,在字符信息排列部14b、部分字 符串生成部14c以及字符串对照部14d中进行了处理以后,账票种类决 定部14e判定对每个账票种类计算出的各评价值是否超过对每个账票种 类规定的阈值,作为判断结果,分别舍弃与未超过阈值的各评价值相对 应的账票种类,将与超过阈值的各评价值相对应的账票种类进行缩选, 并将缩选后的各账票种类的信息分别输出给关键字选择部14f。此外, 在各评价值全部未超过阈值的情况下账票种类决定部14e对关键字选择 部14f输出表示不存在与超过阈值的评价值相对应的账票种类的信息。
若从账票种类决定部14e接受了各账票种类的信息,则,关键字选 择部14f,对部分字符串生成部14c输出指示,从使从与所接受的账票 种类的信息相对应的关键字信息之中仅仅选择第"1"层次的关键字并生成部分字符串。此外,关键字选择部14f,在从账票种类决定部14e 接受到表示不存在与超过阈值的评价值相对应的账票种类的信息的情 况下,对部分字符串生成部14c输出指示,以使对于全部账票种类仅仅 选择第"1"层次的关键字并生成部分字符串(参照图19)。
而且,再次在部分字符串生成部14c以及字符串对照部14d中进行
了处理以后,账票种类决定部14e判定对每个账票种类计算出的各评价
值是否超过对每个账票种类规定的阈值,作为判断结果,舍弃与未超过
阈值的评价值相对应的账票种类。另一方面,在与超过阈值的各评价值
相对应的账票种类例如被缩选成规定数量的情况下,既可以根据评价值
的高低将各账票种类排序后进行输出,也可以决定为评价值最高的账票 拙泉乂^仁払山
此外,还可以预先设定在部分字符串生成部14c、字符串对照部14d、 账票种类决定部14e以及关键字选择部14f之间以递归方式反复进行处 理的处理次数,将到达了所设定的处理次数的时间点的账票种类进行输 出。
如上述那样,根据实施例3,每当对每个账票种类计算出各评价值 时,基于各评价值将账票种类的候补进行缩选(例如将评价值最低的除 去等,缩选成有可能性作为账票种类的账票种类的候补),每当账票种 类的候补被缩选时,从存储部中所存储的多个关键字信息之中,根据已 缩选的账票种类的候补来变更关键字信息,每当关键字信息被变更时, 使用经过变更的关键字信息分别生成多个部分字符串,每当生成多个部 分字符串时,分别对照各组字符串和各部分字符串,对每个关键字信息 取得各部分字符串相对于各组字符串的对照率最大时的一致字符数,并 利用所取得的各一致字符数,按每个账票种类计算出对每个账票种类评 价了是该账票种类的可能性的评价值,所以不会使用明显不需要的账票 种类的关键字进行处理而可以使处理时间以及处理次数减少,并且可以 实现精度更高的账票种类识别。
实施例4那么,到此为止对本发明的实施例1~实施例3进行了说明,但本 发明除上述的实施例以外还可以以各种各样不同的方式来实施。因而, 在下面i兌明本发明所包含的其他实施例。
(1) 按每组保持关键字
在上述实施例中还可以按含义相同的每个组分别在账票种类识别 信息DB13a中存储多个关键字。具体而言,如图20所示例那样,对于 账票种类"交货单"将含义相同的"交货日"、"搬入日"以及"寄送日" 作为"交货日"关键字组分别进行存储。
而且,分别对照各组字符串和各部分字符串,并从各组内的多个关 键字之中分别抽取各部分字符串相对于各组字符串的对照率最大的关 键字(例如如果是关键字组"交货日",则从"交货日"、"搬入日"、"寄 送日"之中抽取对照率最大的关键字),与上述所说明的实施例同样地, 对于所抽取出的各关键字分别取得一致字符数,并使用所取得的各一致
字符数对每个账票种类计算出评价了是该账票种类的可能性的评价值, 所以可以实现高精度的账票种类识别。
即,例如,对于账票种类"申请书",将"申请日"和"填写日" 作为持有相同含义的一个组来处理,如果在根据"申请日"以及"填写 日"所生成的部分字符串和根据账票的字符信息以及格线信息所生成的 组字符串的吻合度之中的、与根据"申请日"所生成的部分字符串的吻 合度较高则使用与根据"申请日"所生成的部分字符串之间的一致字符 数来计算评价值,所以就能够实现高精度的账票种类识别而不会使评价 值降低。
(2) 装置构成等
另外,图3以及图18所示的账票种类识别装置10的各构成要素是 功能概念性的要素,不需要在物理上务必如图示那样来构成。即,账票 种类识别装置10的分散/合并的具体方式并不限于图示情形,例如还能 够将字符串对照部14d和账票种类决定部14e进行合并等、根据各种负 荷及使用状况等将其全部或者一部分以任意的单位在功能上或者物理 上进行分散/合并而构成。进而,由账票种类识别装置10所进行的各处理功能其全部或者任意一部分还可以用CPU以及由CPU所解析执行的
程序来实现,或者作为基于布线逻辑的硬件来实现。
(3)账票种类识别程序
可是,能够通过将预先准备好的程序在个人计算机或工作站等计算 机系统上执行来实现上述实施例所说明的各种处理。因而,以下利用图 21来说明执行具有与上述实施例相同功能的账票种类识别程序的计算 机之一例。图21是表示执行账票种类识别程序的计算机的图。
如该图所示那样,计算机20作为账票种类识别装置利用总线30将 输入部21、输出部22、 HDD23、 RAM24、 ROM25以及CPU26连接起 来而构成。此外,输入部21以及输出部22分别对应于图3或者图18 所示的账票种类识别装置10的输入部11以及输出部12。
而且,在ROM25中预先存储有发挥与上述实施例所示的账票种类 识别装置相同的功能的账票种类识别程序、也就是说如图21所示那样 预先存储有字符辨认程序25a、字符信息排列程序25b、部分字符串生 成程序25c、字符串对照程序25d、账票种类决定程序25e以及关键字 选捧程序25f。此外,关于这些程序25a、 25b、 25c、 25d、 25e以及25f 还可以与图3或者图18所示的账票种类识别装置10的各构成要素同样, 适当地进行合并或者分散。此外,ROM25也可以是非易失性的"RAM"。
而且,CPU26从ROM25读出这些程序25a、 25b、 25c、 25d、 25e 以及25f并执行,由此如图21所示那样各程序25a、 25b、 25c、 25d、 25e以及25f作为字符辨认进程26a、字符信息排列进程26b、部分字符 串生成进程26c、字符串对照进程26d、账票种类决定进程26e以及关 键字选择进程26f而发挥功能。此外,各进程26a、 26b、 26c、 26d、 26e 以及26f分别对应于图3或者图18所示的账票种类识别装置IO的字符 辨认部14a、字符信息排列部14b、部分字符串生成部14c、字符串对照 部14d、账票种类决定部14e以及关键字选择部14f。
另外,在HDD23中,如图21所示那样设置有账票种类识别信息数 据表23a。此外,账票种类识别信息数据表23a对应于图3或者图18 所示的账票种类识别信息DB13a。而且,CPU26从账票种类识别信息数据表23a中读出账票种类识别信息数据24a并保存在RAM24中,并 基于RAM24中所保存的账票种类识别信息数据24a来执行处理。
此外,关于上述的各程序25a、 25b、 25c、 25d、 25e以及25f,未 必需要最初就将其存储在ROM25中,例如还可以将各程序存储在计算 机20上所插入的软盘(FD )、 CD-ROM、 DVD盘、光磁盘、IC卡等 "可移动物理介质"中,或者,存储在计算机20的内外所具备的HDD 等"固定用物理介质"中,进而,存储在通过公共线路、因特网、LAN、 WAN等连接到计算机20的"其他计算机(或者服务器)"等中,计算 机20从它们中读出各程序并进行执行。
工业上的可利用性
如以上那样,本发明所涉及的账票种类识别程序、账票种类识别 方法以及账票种类识别装置,在使计算机执行账票种类识别处理,即接 受与账票上所填写的字符串有关的字符信息以及与格线有关的格线信 息的输入,并对填写了该字符信息以及该格线信息的账票的账票种类进 行识别,等情况下有用,尤其适合于实现高精度的账票种类识别。
权利要求
1.一种账票种类识别程序,其特征在于,使计算机执行账票种类识别处理,该账票种类识别处理是接受与账票上所填写的字符串有关的字符信息以及与格线有关的格线信息的输入,对填写了该字符信息以及该格线信息的账票的账票种类进行识别的处理,该账票种类识别程序使计算机执行以下步骤账票种类识别信息存储步骤,与各账票种类对应地分别在存储部中存储成为用于识别账票种类的关键的多个关键字信息;部分字符串生成步骤,使用通过上述账票种类识别信息存储步骤在存储部中所存储的上述多个关键字信息,按每个关键字信息分别生成用于与账票上所填写的字符串进行对照的多个部分字符串;字符串排列步骤,基于上述字符信息以及上述格线信息,在横方向上观看账票上所填写的字符串的情况下,分别生成在字符高度重叠的范围对该字符串进行分割后的组字符串,并且对该生成的各组字符串进行排列;部分字符串对照步骤,分别对照通过上述字符串排列步骤排列的各组字符串和通过上述部分字符串生成步骤生成的各部分字符串,按每个上述关键字信息取得各部分字符串相对于各组字符串的对照率最大时的一致字符数,并使用该取得的各一致字符数对每个账票种类计算出评价了是该账票种类的可能性的评价值;以及账票种类决定步骤,基于通过上述部分字符串对照步骤对每个账票种类计算出的各评价值,来决定与填写了上述字符信息以及上述格线信息的账票相对的账票种类。
2. 按照权利要求l所述的账票种类识别程序,其特征在于,上述账票种类决定步骤判定通过上述部分字符串对照步骤对每个 账票种类计算出的各评价值是否超过了对每个账票种类所规定的阈值, 以决定与填写了上述字符信息以及上述格线信息的账票相对的账票种 类。
3. 按照权利要求l所述的账票种类识别程序,其特征在于,上述账票种类决定步骤判定通过上述部分字符串对照步骤对每个 账票种类计算出的各评价值是否超过了对每个账票种类所规定的阈值,在与被判定为超过了该阈值的评价值相对应的账票种类存在多个的情 况下,根据该评价值的高低将该存在多个的账票种类排序。
4. 按照权利要求l所述的账票种类识别程序,其特征在于,上述账票种类决定步骤判定通过上述部分字符串对照步骤对每个 账票种类计算出的各评价值是否超过了对每个账票种类所规定的阈值, 在与被判定为超过了该阈值的评价值相对应的账票种类存在多个的情 况下,决定为评价值最高的账票种类。
5. 按照权利要求l所述的账票种类识别程序,其特征在于,上述字符串排列步骤在根据上述字符信息以及上述格线信息判明 了在上述组字符串内存在格线的情况下,用格线来分割该组字符串。
6. 按照权利要求l所述的账票种类识别程序,其特征在于,上述账票种类识别信息存储步骤进一步在存储部中存储对每个上 述关键字规定了可否使用的使用可否信息,使计算机进一步执行关键字选择步骤,在该关键字选择步骤中基于 通过上述账票种类识别信息存储步骤在存储部中所存储的上述使用可 否信息,从该存储部中所存储的多个关键字信息之中选择已被许可使用 的关键字信息,上述部分字符串生成步骤使用通过上述关键字选择步骤所选择出 的关键字信息分别生成上述多个部分字符串。
7. 按照权利要求l所述的账票种类识别程序,其特征在于,在上述账票种类决定步骤中,每当通过上述部分字符串对照步骤对 每个账票种类计算出各评价值时,基于该各评价值对该账票种类的候补 进行缩选,使计算机进一步执行关键字信息变更步骤,在该关键字信息变更步 骤中,每当通过上述账票种类决定步骤对账票种类的候补进行了缩选 时,从通过上述账票种类识别信息存储步骤在存储部中所存储的上述多 个关键字信息之中,根据该缩选后的账票种类的候补来变更关键字信 息,在上述部分字符串生成步骤中,每当通过上述关键字信息变更步骤 变更了关键字信息时,使用该变更后的关键字信息分别生成上述多个部分字符串,在上述部分字符串对照步骤中,每当通过上述部分字符串生成步骤 生成了上述多个部分字符串时,分别对照通过上述字符串排列步骤所排 列的各组字符串和通过上述部分字符串生成步骤所生成的各部分字符 串,并对每个账票种类计算出对构成各组字符串的字符串与各部分字符 串的 一致度进行了评价的评价值。
8. 按照权利要求l所述的账票种类识别程序,其特征在于,在上述账票种类识别信息存储步骤中,与各账票种类对应地,按每 个含义相同的组,分别在存储部中存储上述多个关键字信息,在上述部分字符串对照步骤中,分别对照通过上述字符串排列步骤 所排列的各组字符串、和通过上述部分字符串生成步骤所生成的各部分 字符串,从上述各组内的多个关键字之中分别抽取各部分字符串相对于 各组字符串的对照率最大的关键字,对于该抽取出的各关键字分别取得 一致字符数,并使用该取得的各一致字符数对每个账票种类计算出评价 了是该账票种类的可能性的评价值。
9. 一种账票种类识别方法,其特征在于,是接受与账票上所填写 的字符串有关的字符信息以及与格线有关的格线信息的输入,对填写了该字符信息以及该格线信息的账票的账票种类进行识别的账票种类识 别方法,包括以下工序账票种类识别信息存储工序,与各账票种类对应地分别在存储部中 存储成为用于识别账票种类的关键的多个关键字信息;部分字符串生成工序,使用通过上述账票种类识别信息存储工序在 存储部中所存储的上述多个关键字信息,按每个关键字信息分别生成用于与账票上所填写的字符串进行对照的多个部分字符串;字符串排列工序,基于上述字符信息以及上述格线信息,在横方向 上观看账票上所填写的字符串的情况下,分别生成在字符高度重叠的范 围对该字符串进行分割后的组字符串,并且对该生成的各组字符串进行 排列;部分字符串对照工序,分别对照通过上述字符串排列工序排列的各 组字符串和通过上述部分字符串生成工序生成的各部分字符串,按每个上述关键字信息取得各部分字符串相对于各组字符串的对照率最大时的一致字符数,并使用该取得的各一致字符数对每个账票种类计算出评价了是该账票种类的可能性的评价值;以及账票种类决定工序,基于通过上述部分字符串对照工序对每个账票 种类计算出的各评价值,来决定与填写了上述字符信息以及上述格线信 息的账票相对的账票种类。
10. —种账票种类识别装置,其特征在于,是接受与账票上所填写的字符串有关的字符信息以及与格线有关 的格线信息的输入,对填写了该字符信息以及该格线信息的账票的账票 种类进行识别的账票种类识别装置,包括账票种类识别信息存储单元,与各账票种类对应地分别存储成为用 于识别账票种类的关键的多个关键字信息;部分字符串生成单元,使用由上述账票种类识别信息存储单元所存 储的上述多个关键字信息,按每个关键字信息分别生成用于与账票上所 填写的字符串进行对照的多个部分字符串;字符串排列单元,基于上述字符信息以及上述格线信息,在横方向 上观看账票上所填写的字符串的情况下,分别生成在字符高度重叠的范 围对该字符串进行分割后的组字符串,并且对该生成的各组字符串进行 排列;部分字符串对照单元,分别对照由上述字符串排列单元排列的各组 字符串和由上述部分字符串生成单元生成的各部分字符串,按每个上述 关键字信息取得各部分字符串相对于各组字符串的对照率最大时的一 致字符数,并使用该取得的各一致字符数对每个账票种类计算出评价了 是该账票种类的可能性的评价值;以及账票种类决定单元,基于通过上述部分字符串对照单元对每个账票 种类计算出的各评价值,来决定与填写了上述字符信息以及上述格线信 息的账票相对的账票种类。
全文摘要
一种账票种类识别装置,与各账票种类对应地预先保持存储了成为用于识别账票种类的关键的多个关键字的账票种类识别信息DB,对账票上所填写的字符串进行排列,使用账票种类识别信息DB中所存储的多个关键字,对每个关键字分别生成用于与账票上所填写的字符串进行对照的多个部分字符串,分别对照排列后的各组字符串和所生成的各部分字符串,对于对照成功了的各部分字符串,在对每个关键字取得各部分字符串相对于各组字符串的对照率最大时的正确解字符数以后,使用各正确解字符数对每个账票种类计算出评价了是该账票种类的可能性的评价值以决定账票种类。
文档编号G06K9/72GK101622632SQ20078005206
公开日2010年1月6日 申请日期2007年3月8日 优先权日2007年3月8日
发明者武部浩明, 皆川明洋, 藤本克仁 申请人:富士通株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1