计算机、文档识别方法以及系统与流程

文档序号:16247969发布日期:2018-12-11 23:45阅读:157来源:国知局
计算机、文档识别方法以及系统与流程

本发明涉及识别文档的计算机、方法以及系统。

背景技术

伴随数字化的进展,利用电子申请的机会增加。在电子申请中,很多情况下,对象的文档等不能完全数字化,而使用基于纸的文档或者通过对纸进行扫描而生成的图像。

在本说明书中,将电子化的文档记载为电子基文档,也将基于纸的文档以及对纸进行扫描而生成的图像记载为纸基文档。此外,在不对电子基文档以及纸基文档区别的情况,也简单记载为文档。

例如,在企业的出纳业务中,(1)申请者从请求者接收请求书,(2)申请者利用电子申请向财务部门提出记载了对请求者的请求金额的支付的请求书,(3)财务部门所属的人员对请求书中记载的属性进行确认,在判断为电子申请适当的情况下,执行从企业向请求者支付请求金额这样的手续。

在此,所谓属性,是审查对象,并且是表示文档的特征的字符串。例如,在出纳业务的情况下,请求金额、请求金额的存入目的地的银行账户编号等相当于属性。

在处理纸基文档的电子申请的情况下,由于需要人来确认纸基文档,因此,存在业务的效率低并且业务所需的成本大这样的问题。

针对前述的问题,已知使用光学字符识别(ocr:opticalcharacterrecognition)的技术从纸基文档读出属性的方法。例如,已知专利文献1记载的技术。

在专利文献1中,记载了“一种以电子方式提示顾客的请求书的方法,从顾客接收电子的请求书以及纸的请求书,从纸的请求书生成电子图像信息,通过进行扫描来从电子图像信息中提取第一ocr数据,从第一ocr数据中检索被扫描的纸币的种类的至少1个数值标识符,根据数值标识符的比较结果确定被扫描的纸的请求书的类型,使用与所确定出的类型对应的模板从电子图像信息中提取第二ocr数据,并从第二ocr数据中提取请求书信息,将请求书信息与已知的信息进行比较,提示将电子的请求书以及请求书信息进行了组合的顾客请求提示”。

通过使用记载于专利文献1的技术,能够在电子申请的业务中削减人进行的处理的工时,因此能够改善业务的效率,此外,能够削减业务所需的成本。

在先技术文献

专利文献

专利文献1:美国专利第8630949号说明书

专利文献2:jp特开2004-171316号公报

非专利文献

非专利文献1:f.kimuraet.al.“modifiedquadraticdiscriminantfunctionsandtheapplicationtochinesecharacterrecognition”ieeetransactiononpatternanalysisandmachineintelligence,vol.9,pp.149-153

非专利文献2:高桥等,“利用递归转换网络的字符路径探索方式的开发”,电子信息通信学会技术研究报告vol.109no.418pp.141-146



技术实现要素:

发明想要解决的课题

在专利文献1所记载的技术中,需要预先设定数值标识符和请求书的类型。但是,在存在虽然使用包含类似的属性的文档但是审查内容不同的电子申请的情况下,有可能用户无法将数值标识符与请求书的类型恰当地建立关联。此外,也有可能不含有数值标识符。此外,也有可能通过请求书的格式的变更等而致使数值标识符变更。

因此,在现有技术中,由于无法选择最合适的模板,因而属性的提取精度变低,业务效率的改善以及业务所需的成本的削减的效果低。

本发明提供一种能够以高精度来提取属性的装置、文档识别方法、以及系统。

用于解决课题的手段

在本申请中公开的发明的代表性的一例如以下所示。即,一种提取表示记载于纸的文档的特征的字符串即属性的计算机,所述计算机的特征在于,具备处理器以及与所述处理器连接的存储装置,所述存储装置存放模板信息以及词典信息,所述模板信息对定义了至少一个以上的属性的类型的多个模板进行管理,所述词典信息对作为所述属性而提取的字符串进行定义,所述模板信息包含多个条目,所述条目由所述模板的识别信息、表示所述属性的类型的识别信息、以及表示与所述属性的类型对应的属性的纸面上的位置的位置信息构成,所述处理器,针对记载于所述纸的文档的图像数据执行字符识别处理,使用所述字符识别处理的结果以及所述多个模板,提取与所述多个模板各自定义的所述属性的类型对应的属性,使用所述词典信息、所述模板信息以及所提取出的所述属性,针对所述多个模板的每一个,计算与所提取出的所述属性相关的得分,基于所述得分,从所述多个模板之中选择属性的提取精度最高的模板,生成包含使用所选择的所述模板而提取出的属性的输出信息。

发明效果

根据本发明,能够从纸的文档中高精度地提取属性。上述以外的课题、结构以及效果通过以下的实施例的说明会明确。

附图说明

图1是表示实施例1的通信系统的结构例的说明图。

图2是说明实施例1的计算机的硬件结构以及软件结构的图。

图3是表示实施例1的模板信息的数据构造的一例的图。

图4是表示实施例1的单词词典的数据构造的一例的图。

图5是表示实施例1的标记词典的数据构造的一例的图。

图6是说明实施例1的计算机执行的处理的概要的流程图。

图7是表示实施例1的文档审查模块所执行的文档摘要信息生成处理的概要的图。

图8是表示实施例1的文档审查模块所生成的ocr要素的数据构造的一例的图。

图9是表示实施例1的文档审查模块所生成的特征向量的数据构造的一例的图。

图10是说明实施例1的文档审查模块所执行的文档摘要信息生成处理的流程图。

图11是说明实施例1的文档审查模块所执行的ocr处理的一例的流程图。

图12是说明实施例1的文档审查模块所执行的得分计算处理的流程图。

图13是说明实施例1的文档审查模块所执行的代表ocr要素选择处理的一例的流程图。

图14是表示实施例1的计算机所显示的模板输入画面的一例的图。

图15是表示实施例1的计算机所显示的类别分类设定画面的一例的图。

图16是表示实施例1的计算机所显示的输出画面的一例的图。

附图标记说明

100计算机

110输入终端

120客户终端

130扫描仪

150网络

201处理器

202主存储装置

203副存储装置

204网络接口

205输入装置

206输出装置

211文档审查模块

212学习处理模块

221模板信息

222单词词典

223标记词典

701文档图像数据

702ocr要素

703代表ocr要素

704特征向量

705文档摘要信息

1400模板输入画面

1500类别分类设定画面

1600输出画面。

具体实施方式

以下,参照附图说明本发明的实施例。

另外,在说明实施例的附图中,对具有同一功能的部位标注同一符号,省略其重复的说明。另外,以下说明的实施例并不对权利请求书涉及的发明进行限定。此外,在实施例中说明的各要素及其所有的组合并不都是发明的解决手段所必需的。

此外,在以下的说明中,作为信息的一例,有时使用“xxx表格”这样的表现,但是信息的数据构造可以是任何构造。即,为了表示信息不依赖于数据构造,能够将“xxx表格”称为“xxx信息”。此外,在以下的说明中,各表格的结构是一例,一个表格也可以分割成两个以上的表格,两个以上的表格的全部或者一部分也可以是一个表格。

【实施例1】

图1是表示实施例1的系统的结构例的图。

系统由计算机100、输入终端110、客户终端120、以及扫描仪130构成。计算机100、输入终端110、客户终端120经由网络150互相连接。此外,扫描仪130与计算机100连接。

另外,本发明并不被网络150的种类所限定。网络150考虑lan(localareanetwork)以及wan(wideareanetwork)等。此外,本发明并不被网络150的连接方式所限定,可以是无线以及有线的任一种。此外,扫描仪130可以与计算机100直接连接,此外,也可以经由网络连接。

另外,本发明的系统中包含的计算机100、输入终端110、客户终端120、以及扫描仪130的数量能够设定为任意的数量。

计算机100执行与电子申请相关的处理。

客户终端120是进行电子申请的用户(申请者)所操作的终端。用户操作客户终端120,输入电子申请所需的文档。另外,用户也可以对进行电子申请的公司或者行政设施直接提出文档。另外,本发明并不对所要处理的文档进行限定。文档例如可考虑请求书、收据、扣缴所得税证明、以及税款通知等。

在电子申请时输入的文档中,包含多个用于电子申请的审查的字符串即属性。例如,在文档是请求书的情况下,包含请求金额、请求者、请求目标地址、以及指定存入目的地的银行名、支行名、账户类型、以及账户编号等字符串作为属性。在本实施例中,将属性的类型(属性的名称)以及作为属性而提取的字符串建立对应地管理。

输入终端110是管理计算机100的管理者所操作的终端。扫描仪130从纸的文档生成文档图像数据701(参照图7)。扫描仪130可以是平板扫描仪以及带自动进纸的扫描仪等。

另外,可以取代扫描仪130而具备使用ccd(chargecoupleddevice)等元件来拍摄图像的数字摄像机。

图2是说明实施例1的计算机100的硬件结构以及软件结构的图。

计算机100具有处理器201、主存储装置202、副存储装置203、网络接口204、输入装置205、以及输出装置206。各硬件经由内部总线等相互连接。图2中,各硬件的数量是一个,但也可以是两个以上。

另外,输入终端110以及客户终端120的硬件结构与计算机100相同。

处理器201执行存放在主存储装置202的程序。处理器201按照程序执行处理,由此作为实现特定的功能的模块而动作。以下的说明中,在以模块作为主语来说明处理的情况下,表示处理器201执行实现该模块的程序。

主存储装置202存放处理器201执行的程序以及程序所使用的信息。此外,主存储装置202包含程序临时使用的工作区。主存储装置202例如可以考虑存储器等。

本实施例的主存储装置202存放实现文档审查模块211以及学习处理模块212的程序。此外,主存储装置202存放模板信息221、单词词典222、以及标记词典223。

文档审查模块211执行电子申请的审查处理。文档审查模块211执行的处理将后述。学习处理模块212执行与数据的选择方法、提取方法、以及分类方法相关的学习处理。另外,对于机器学习的算法,已知逻辑斯蒂回归、决策森林、决策丛林、提升决策树、神经网络、平均化感知器、支持向量机、局部细节支持向量机、以及贝叶斯点机器等。

模板信息221是对用于从文档中读出用于文档审查的字符串的模板进行管理的信息。使用图3说明模板信息221的详细情况。单词词典222以及标记词典223是对作为属性而提取的字符串进行定义的信息,此外,是在后述的得分的计算时使用的信息。单词词典222的详细情况使用图4说明,标记词典223使用图5说明。

副存储装置203永久地存放数据。副存储装置203例如可以考虑hdd(harddiskdrive)以及ssd(solidstatedrive)等。另外,主存储装置202中存放的程序以及信息也可以存放在副存储装置203。在该情况下,处理器201从副存储装置203读出程序以及信息,加载到主存储装置202。

网络接口204是用于经由网络与其他装置连接的接口。

输入装置205是用于对计算机100输入数据的装置。例如,输入装置205包含键盘、鼠标、以及触摸面板等。

输出装置206是输出数据的输入画面以及处理结果等的装置。例如,输出装置206包含触摸面板以及显示器等。

图3是表示实施例1的模板信息221的数据构造的一例的图。

模板信息221包含由模板编号301、属性302、以及位置信息303构成的条目。一个条目与一个模板对应。此外,在一个条目中,包含一个以上的在模板中定义的属性的行。

模板编号301是存放唯一地识别模板的识别信息的字段。在本实施例中,模板的识别信息也用作条目的识别信息。属性302是存放表示模板中包含的属性的类型的识别名称的字段。位置信息303是存放与对应于属性的类型的属性的纸面上的位置相关的信息的字段。例如,矩形区域的右上以及左上的坐标存放在位置信息303。另外,坐标可以是相对坐标,也可以是绝对坐标。此外,也可以在位置信息303中存放指定多个位置的信息。

另外,本发明并不对存放在位置信息303中的信息进行限定。例如,条目也可以包含存放属性的长度以及记载了属性的范围等的字段。

图4是表示实施例1的单词词典222的数据构造的一例的图。

单词词典222是对作为属性而提取的单词进行定义的信息,包含由属性401以及字符串402构成的条目。一个条目与一个属性对应。

属性401存放属性的识别名称。字符串402存放对属性401分类的单词(字符串)。

图5是表示实施例1的标记词典223的数据构造的一例的图。

标记词典223是对与作为属性而提取的数值对应的字符串进行定义的信息,包含由属性501以及标记502构成的条目。一个条目与一个属性对应。

属性501存放属性的识别名称。标记502存放对属性501分类的数值(字符串)的标记规则。

图6是说明实施例1的计算机100执行的处理的概要的流程图。

计算机100的文档审查模块211从用户所操作的客户终端120,受理电子申请的请求(步骤s101)。在电子申请的请求中,包含审查对象的文档图像数据701(参照图7)。

另外,在文档图像数据701存放在外部的存储装置的情况下,用户也可以将文档图像数据701的识别信息包含在电子申请的请求中。此外,用户也可以提出纸的文档。在提出纸的文档的情况下,计算机100使用扫描仪130对纸的文档进行扫描,生成文档图像数据701。

接着,计算机100的文档审查模块211执行文档摘要信息生成处理(步骤s102)。

在文档摘要信息生成处理中,生成文档摘要信息705(参照图7)。文档摘要信息705是将从与文档图像数据701对应的文档中提取的属性进行了总括的信息。在与请求书对应的文档图像数据701的情况下,在文档摘要信息705中包含与请求金额及确定存入目的地的银行名、支行名、账户类型、账户编号、请求者姓名、以及被请求者姓名等对应的属性(字符串)。在与收据对应的文档图像数据701的情况下,在文档摘要信息705中包含与金额、购买物品或者接受服务的提供的人或者组织的名称、以及进行物品的销售或者服务的提供的人或者组织的名称等对应的属性(字符串)。此外,在与扣缴所得税证明对应的文档图像数据701的情况下,在文档摘要信息705中包含与人的姓名、人所属的组织的名称、人的收入额、以及人的减免征收额等对应的属性(字符串)。

另外,文档摘要信息生成处理的详细情况使用图7至图13来说明。

计算机100使用文档摘要信息705进行电子申请的审查(步骤s103)。作为审查的结果,计算机100将“许可”以及“拒绝”的任一个应答输出给用户。

图7是表示实施例1的文档审查模块211所执行的文档摘要信息生成处理的概要的图。图8是表示实施例1的文档审查模块211所生成的ocr要素的数据构造的一例的图。图9是表示实施例1的文档审查模块211所生成的特征向量的数据构造的一例的图。

在步骤s1中,文档审查模块211在输入了文档图像数据701的情况下,对文档图像数据701执行ocr处理。

在步骤s2中,文档审查模块211使用ocr处理的结果以及模板信息221,计算与各模板中包含的属性相关的得分。如后所述,在本实施例中,针对一个属性计算多个得分。文档审查模块211生成将属性以及得分建立了对应的ocr要素702。图7所示的一个矩形与一个ocr要素702对应。

如图8所示,ocr要素702由属性801、项目值802、位置803、以及得分804构成。

属性801是存放属性的识别名称的字段。项目值802是存放从文档提取出的属性(字符串)的字段。位置803存放纸面上的属性的位置。得分804是对与使用模板提取出的属性(字符串)关联的得分进行存放的字段群。

本实施例中,计算标记得分、单词得分、位置得分、面积得分、项目得分、以及出现次数得分。

标记得分是表示属性与标记词典223中登记的标记规则一致的程度的值。单词得分是表示属性与单词词典222中登记的单词一致的程度的值。

位置得分是表示文档图像数据701中的属性的位置与模板中的属性的位置之间的偏差的程度的值。面积得分是与包含属性的矩形区域的面积相关联的值。项目得分是与属性的类型相同的属性间的距离关联的值。出现次数得分是与属性的出现次数相关的值。

本实施例中,除了表示基于词典的字符串的类似度等的得分以外,特征还在于计算与字符串的位置相关的得分这一点。另外,在ocr要素702中,也可以不包含标记得分、单词得分、位置得分、面积得分、项目得分、以及出现次数得分的全部。例如,也可以是仅包含标记得分、单词得分、以及位置得分的ocr要素702。

在步骤s3中,文档审查模块211基于各模板的ocr要素702,选择适于文档摘要信息705的生成的模板。进而,文档审查模块211从所选择的模板中包含的各属性的类型的ocr要素702之中,选择代表ocr要素703。图7所示的一个矩形与一个代表ocr要素703对应。在所选择出的模板中包含三种属性的情况下,选择三个代表ocr要素703。

在步骤s4中,文档审查模块211使用代表ocr要素703,计算特征向量704,此外,生成文档摘要信息705。

本实施例中,如图9所示,生成以各代表ocr要素703的得分作为分量的向量,作为特征向量704。此外,文档摘要信息705通过将代表ocr要素703的属性801以及项目值802等进行总括而生成。

不同于“发明要解决的课题”中记载的课题,存在如下那样的课题。在现有技术中,使用模板来生成与文档摘要信息相当的信息。但是,该信息不一定是能够用于电子申请的审查的信息。因此,本实施例中,文档审查模块211对所生成的文档摘要信息705的可靠性进行评价。由此,能够避免电子申请中的业务的停止,此外,能够削减修正作业等。

在步骤s5中,文档审查模块211通过将特征向量704代入评价式来计算表示文档摘要信息705的可靠性的评价值,基于所计算出的评价值来进行操作方法(类别)的分类。评价式使用一个参数来定义。另外,评价式的参数是预先设定的。此外,作为其他方法,文档审查模块211也可以通过将特征向量704输入到预先进行了机器学习的分类器来进行类别(class)的分类。本实施例中,分类成情形0、情形1、情形2这三个类别。

在评价值是第1阈值以上的情况下,分类成情形0的类别。在情形0的情况下,由于文档摘要信息705的可靠性高,因此不进行所生成的文档摘要信息705的修正。

在评价值小于第1阈值且为第2阈值以上的情况下,分类成情形1。在步骤s6-1中,文档审查模块211促使一个管理者进行文档摘要信息的输入。管理者参照文档图像数据701等,生成文档摘要信息,并操作输入终端110将文档摘要信息输入到计算机100。

在评价值小于第2阈值的情况下,分类成情形2。在步骤s6-2中,文档审查模块211促使两个管理者进行文档摘要信息的输入。两个管理者分别参照文档图像数据701等,生成文档摘要信息,并操作输入终端110将文档摘要信息输入到计算机100。

在步骤s7中,文档审查模块211选择在申请的审查中使用的文档摘要信息。

在情形0的情况下,选择文档审查模块211所生成的文档摘要信息705。

在情形1的情况下,文档审查模块211判定文档审查模块211所生成的文档摘要信息705与管理者所生成的文档摘要信息是否一致。在判定结果为“是”的情况下,文档审查模块211选择文档审查模块211所生成的文档摘要信息705。在判定结果为“否”的情况下,文档审查模块211促使输入了文档摘要信息的管理者或者其他管理者进行所输入的文档摘要信息的修正或者新的文档摘要信息的输入。在该情况下,文档审查模块211选择修正后的文档摘要信息或者新输入的文档摘要信息。

在情形2的情况下,文档审查模块211判定文档审查模块211所生成的文档摘要信息705与两个管理者所生成的文档摘要信息是否一致。在判定结果为“是”的情况下,文档审查模块211选择文档审查模块211所生成的文档摘要信息705。在判定结果为“否”的情况下,文档审查模块211促使输入了文档摘要信息的任一管理者或者其他管理者进行所输入的文档摘要信息的修正或者新的文档摘要信息的输入。在该情况下,文档审查模块211选择修正后的文档摘要信息或者新输入的文档摘要信息。

图10是说明实施例1的文档审查模块211所执行的文档摘要信息生成处理的流程图。

文档审查模块211在输入了文档图像数据701的情况下,开始以下说明的文档摘要信息生成处理。

首先,文档审查模块211对文档图像数据701执行ocr处理(步骤s201)。ocr处理的详细情况使用图11说明。通过ocr处理,文档图像数据701被变换成计算机能够处理的字符串群的数据。

接着,文档审查模块211从模板信息221选择一个模板(步骤s202)。例如,文档审查模块211从模板信息221的上面的条目起按顺序选择。

接着,文档审查模块211执行得分计算处理(步骤s203)。得分计算处理的详细情况使用图12说明。

接着,文档审查模块211判定是否针对全部模板已完成处理(步骤s204)。

在判定为针对全部模板未完成处理的情况下,文档审查模块211返回到步骤s202,执行同样的处理。

在判定为针对全部模板已完成处理的情况下,文档审查模块211执行代表ocr要素选择处理(步骤s205)。代表ocr要素选择处理的详细情况使用图13说明。

接着,文档审查模块211使用代表ocr要素703来生成特征向量704(步骤s206),此外,生成文档摘要信息705(步骤s207)。

接着,文档审查模块211执行特征向量评价处理(步骤s208),分类成情形0、情形1、以及情形2这三个类别(步骤s209)。

在类别是情形0的情况下,文档审查模块211输出在步骤s207中生成的文档摘要信息705(步骤s214)。之后,文档审查模块211结束处理。

在类别是情形1的情况下,文档审查模块211受理由一个管理者输入的模板以及文档摘要信息的输入(步骤s210、步骤s211)。之后,文档审查模块211在步骤s207中生成的文档摘要信息705与所输入的文档摘要信息一致的情况下,输出文档摘要信息705(步骤s214)。另外,在步骤s207中生成的文档摘要信息705与所输入的文档摘要信息不一致的情况下,文档审查模块211输出所输入的文档摘要信息。

在类别是情形2的情况下,文档审查模块211受理由两个管理者输入的模板以及文档摘要信息的输入(步骤s212、步骤s213)。之后,文档审查模块211在步骤s207中生成的文档摘要信息705与所输入的文档摘要信息一致的情况下,输出文档摘要信息705(步骤s214)。另外,在步骤s207中生成的文档摘要信息705与所输入的文档摘要信息不一致的情况下,文档审查模块211输出所输入的文档摘要信息。

图11是说明实施例1的文档审查模块211所执行的ocr处理的一例的流程图。

文档审查模块211从文档图像数据701中检测框(单元(cell))(步骤s301),从框外的区域以及框内的区域,检测存在字符串的区域(字符串区域)(步骤s302)。另外,字符串区域被检测为矩形的区域。

作为步骤s301以及步骤s302的处理,例如使用专利文献2记载的方法。

接着,文档审查模块211使用词典来执行字符串区域中包含的字符串的识别处理(步骤s303)。字符串的识别处理例如使用非专利文献1记载的方法。之后,文档审查模块211结束ocr处理。

图12是说明实施例1的文档审查模块211所执行的得分计算处理的流程图。

文档审查模块211从所选择的模板中包含的属性的类型之中,选择目标属性类型(步骤s401)。即,选择一个在与所选择的模板对应的条目中包含的属性302。

接着,文档审查模块211生成与目标属性类型对应的ocr要素702(步骤s402)。具体来说,执行以下这样的处理。

文档审查模块211参照单词词典222,从执行了ocr处理后的文档图像数据701中检索和与目标属性类型对应的条目的字符串402一致或者类似的属性(字符串)。此时,文档审查模块211使用未图示的近义词词典,不仅检索与字符串402相同的字符串,而且检索意思等一致或者类似的属性(字符串)。此外,文档审查模块211参照标记词典223,从执行了ocr处理后的文档图像数据701中检索和与目标属性类型对应的条目的标记502一致或者类似的属性(字符串)。

文档审查模块211生成空的ocr要素702,将目标属性类型设定在属性801。文档审查模块211将所检索到的属性设定在项目值802,将所检索到的属性的位置设定在位置803。在该时间点,针对所检索到的一个属性,生成一个ocr要素702。

文档审查模块211基于ocr要素702的位置803,计算出所检索到的字符串间的距离,将距离为阈值以下的字符串的ocr要素702统一为一个ocr要素702。在该情况下,在统一后的ocr要素702的项目值802以及位置803中,设定多个值。

在使用了单词词典222以及标记词典223中的任意一者也没有提取出属性的情况下,文档审查模块211将目标属性类型设定在属性801,将项目值802以及位置803设定为空栏,将得分804的所有的值设定为“0”。此外,文档审查模块211也可以将所选择的模板判定为不合适的模板,结束得分计算处理。以上是步骤s402的处理的说明。

接着,文档审查模块211计算各ocr要素702的得分(步骤s403)。具体来说,执行以下这样的处理。

文档审查模块211参照单词词典222以及项目值802,对与目标属性类型对应的条目的字符串402和使用单词词典222提取出的属性进行比较,基于比较结果来计算单词得分。例如,计算字符串的类似度作为单词得分。另外,作为类似度等的计算方法,例如,使用专利文献2记载的方法。

另外,在通过使用了单词词典222的检索处理而提取出的属性不存在的情况下,文档审查模块211将“0”等既定值设定为单词得分。

文档审查模块211参照标记词典223以及项目值802,对与目标属性类型对应的条目的标记502和使用标记词典223提取出的属性进行比较,基于比较结果来计算标记得分。例如,计算标记502的至少一个标记与属性的一致度作为标记得分。另外,一致度等的计算方法例如使用非专利文献2记载的技术。

另外,在通过使用了标记词典223的检索处理提取出的属性不存在的情况,文档审查模块211将“0”等既定值设定为标记得分。

文档审查模块211基于设定于项目值802的属性的出现次数来计算出现得分。例如,计算出现次数本身作为出现得分。在项目值802中设定有两个以上的属性的情况下,可以使用任一个属性的出现次数来计算出现得分。另外,只要是能够评价出现次数的值,可以是任意的计算方法。

文档审查模块211使用位置803以及与目标属性类型对应的行的位置信息303来计算属性的位置的误差,基于该误差来计算位置得分。在本实施例中,使用以误差作为参数的数学表达式来计算位置得分。另外,只要能够评价属性的位置的误差的值,可以是任意的计算方法。

文档审查模块211基于设定于项目值802的属性的区域的大小来计算面积得分。例如,计算与文档图像数据701对应的纸上的属性的区域的比例作为面积得分。另外,只要是能够评价设定成项目值802的属性的区域的大小的值,可以是任意的计算方法。

文档审查模块211参照位置803,计算属性类型相同的属性间的距离,基于该距离来计算项目得分。例如,计算使用单词词典222提取出的属性与使用标记词典223提取出的属性之间的距离。在本实施例中,使用以属性间的距离的倒数作为参数的数学表达式来计算项目得分。另外,只要是能够评价两个属性的位置的值,可以是任意的计算方法。在项目值802中设定有多个属性的ocr要素702的情况下,基于前述的计算方法来计算项目得分。另一方面,在项目值802中设定有一个属性的ocr要素702的情况下,将“0”等既定值计算为项目得分。

文档审查模块211将上述说明的各得分设定至ocr要素702的得分804。以上是步骤s403的处理的说明。

接着,文档审查模块211判定是否针对全部属性类型已完成处理(步骤s404)。

在判定为针对全部属性类型未完成处理的情况下,文档审查模块211返回到步骤s401,执行同样的处理。

在判定为针对全部属性类型已完成处理的情况下,文档审查模块211结束得分计算处理。

图13是说明实施例1的文档审查模块211执行的代表ocr要素选择处理的一例的流程图。

文档审查模块211选择模板(步骤s501)。此外,文档审查模块211从所选择的模板中包含的属性类型之中选择目标属性类型(步骤s502)。

文档审查模块211判定与目标属性类型对应的ocr要素702是否存在多个(步骤s503)。即,判定属性801与目标属性类型一致的ocr要素702是否存在两个以上。

在判定为与目标属性类型对应的ocr要素702是一个的情况下,文档审查模块211将一个ocr要素702设定成候补ocr要素(步骤s504)。

在判定为与目标属性类型对应的ocr要素702存在多个的情况下,文档审查模块211从多个ocr要素702之中选择一个候补ocr要素(步骤s505)。

例如,文档审查模块211通过在任意的数学表达式中代入ocr要素702的得分804来计算选择指标,并基于选择指标来选择候补ocr要素。在此,将选择指标最大的ocr要素702选择为候补ocr要素。此外,文档审查模块211也可以使用进行了机器学习的分类器来选择候补ocr要素。

在步骤s506中,文档审查模块211判别是否针对所选择的模板中包含的全部属性类型已完成处理(步骤s506)。

在判别为针对所选择的模板中包含的全部属性类型未完成处理的情况下,文档审查模块211返回到步骤s502,执行同样的处理。

在判定为针对所选择的模板中包含的全部属性类型已完成处理的情况下,文档审查模块211使用所选择的模板的候补ocr要素,计算该模板的比较值(步骤s507)。例如,基于以候补ocr要素的得分804作为参数的数学表达式来计算比较值。另外,比较值是用于评价使用模板而提取出的属性的提取精度的值。

接着,文档审查模块211判定是否针对全部模板已完成处理(步骤s508)。

在判定为针对全部模板未完成处理的情况下,文档审查模块211返回到步骤s501,执行同样的处理。

在判定为针对全部模板已完成处理的情况下,文档审查模块211使用各模板的比较值来选择代表模板(步骤s509)。在此,将比较值最大的模板选择为代表模板。

接着,文档审查模块211将与代表模板对应的候补ocr要素选择为代表ocr要素703(步骤s510)。之后,文档审查模块211结束代表ocr要素选择处理。

使用图14、图15、以及图16,说明计算机100所显示的画面的一例。

图14是表示实施例1的计算机100所显示的模板输入画面1400的一例的图。

模板输入画面1400是用于设定模板的画面,在初始设定时或者在步骤s210以及步骤s212中显示。另外,模板输入画面1400能够根据管理者的要求在任意的定时显示。

模板输入画面1400包含属性设定栏1401、追加按钮1402、位置设定栏1403。

属性设定栏1401是设定模板中包含的属性的类型的栏。追加按钮1402是用于在属性设定栏1401追加行的按钮。位置设定栏1403是设定与设定在属性设定栏1401的属性的类型对应的属性的纸面上的位置的栏。登记按钮1404是用于将在画面输入的模板设定到模板信息221的按钮。

在管理者操作了追加按钮1402的情况下,在属性设定栏1401追加行。管理者在所追加的行输入属性的类型。此时,与在属性设定栏1401设定的属性的类型对应的属性的图标显示于位置设定栏1403。管理者通过移动图标,从而设定与属性的类型对应的属性的位置以及范围。

在管理者操作了登记按钮1404的情况下,计算机100在模板信息221追加条目,将识别编号设定为所追加的条目的模板编号301。此外,计算机100对所追加的条目,生成与在属性设定栏1401设定的属性的类型的数量相同数量的行,并在各行设定属性设定栏1401的值。此外,计算机100基于位置设定栏1403,对各行的位置信息303设定值。

图15是表示实施例1的计算机100所显示的类别分类设定画面1500的一例的图。

类别分类设定画面1500是用于设定类别的分类方法的画面,在初始设定时显示。另外,类别分类设定画面1500能够根据管理者的请求在任意的定时显示。

类别分类设定画面1500包含第1阈值设定栏1501、第2阈值设定栏1502、参数设定栏1503、追加按钮1504、ok按钮1505、以及取消按钮1506。

第1阈值设定栏1501以及第2阈值设定栏1502是设定在操作方法(类别)的分类时使用的阈值的栏。参数设定栏1503是设定在代表ocr要素703的选择、以及使用了特征向量的分类中使用的参数(例如,得分的类型等)的栏。追加按钮1504是用于在参数设定栏1503追加行的按钮。ok按钮1505是用于将在各输入栏设定的值登记到计算机100的按钮。取消按钮1506是用于对在各输入栏设定的值进行初始化的按钮。

图16是表示实施例1的计算机100显示的输出画面1600的一例的图。

输出画面1600是显示电子申请的审查结果的画面,在电子申请的审查完成后显示。另外,输出画面1600能够根据管理者或者用户的要求在任意的定时显示。

输出画面1600包含结果显示表格1610。结果显示表格1610包含由id1611、审查结果1612、文档摘要信息1613、分类结果1614、以及得分1615构成的条目。

id1611是存放用于唯一地识别电子申请的识别信息。例如,计算机100在受理了电子申请的情况下,赋予识别信息。审查结果1612存放步骤s103的处理结果。文档摘要信息1613存放用于访问所生成的文档摘要信息的地址或者url等。另外,文档摘要信息705本身也可以存放于文档摘要信息1613。分类结果1614存放步骤s209的分类结果。得分1615存放在步骤s209的分类中使用的得分等。另外,作为得分1615显示的值,能够任意设定。

根据本发明,计算机100能够基于考虑模板中包含的属性的位置以及文档图像数据701中包含的属性的位置的偏差、文档图像数据701中的属性的范围等后得到的得分来选择模板。因此,即使不设定数值标识符与模板的对应关系,也能够选择最合适的模板。

此外,能够基于表示使用该模板生成的文档摘要信息705的可靠性的评价值,来判定是否需要进行文档摘要信息705的修正或者新的文档摘要信息的输入。由此,能够削减管理者的工序数,此外,能够避免电子申请的不必要的停止等,所以能够实现电子申请中的成本的削减。

另外,本发明并不被上述的实施例所限定,而是包含各种变形例。此外,例如,上述实施例为了以容易理解本发明的方式进行说明而详细地说明了结构,并不限定于一定具备所说明的全部结构。此外,针对各实施例的结构的一部分,可以对其他结构进行追加、删除、置换。

此外,上述的各结构、功能、处理部、处理手段等可以以硬件通过例如用集成电路进行设计等来实现它们的一部分或者全部。此外,本发明也能够由实现实施例的功能的软件的程序代码来实现。在该情况下,对计算机提供记录了程序代码的存储介质,由该计算机具备的处理器读出存放于存储介质的程序代码。在该情况下,从存储介质读出的程序代码本身就实现前述的实施例的功能,该程序代码本身以及存储其的存储介质构成本发明。作为用于提供这样的程序代码的存储介质,例如,使用软盘、cd-rom、dvd-rom、硬盘、ssd(solidstatedrive)、光盘、光磁盘、cd-r、磁带、非易失性的存储卡、rom等。

此外,实现本实施例记载的功能的程序代码例如能够用汇编、c/c++、perl、shell、php、java(注册商标)等广范围的程序或者脚本语言来安装。

进而,也可以通过经由网络来分发实现实施例的功能的软件的程序代码,从而将其存放在计算机的硬盘、存储器等存储手段或者cd-rw、cd-r等存储介质中,由计算机具备的处理器读出存放在该存储手段、该存储介质中的程序代码并执行。

在上述实施例中,控制线、信息线示出了在说明上认为需要的线,在产品上并不一定示出所有的控制线、信息线。所有的结构也可以相互连接。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1