一种发票识别的方法、装置、存储介质及计算机设备与流程

文档序号:18740424发布日期:2019-09-21 01:42阅读:168来源:国知局
一种发票识别的方法、装置、存储介质及计算机设备与流程

本发明涉及发票识别技术领域,特别涉及一种发票识别的方法、装置、存储介质及计算机设备。



背景技术:

发票指的是一切单位和个人在购销商品、提供或接受服务以及从事其他经营活动中,所开具和收取的业务凭证,是会计核算的原始依据,也是审计机关、税务机关执法检查的重要依据。

目前,随着经济的发展,发票造假、售假等违法行为也日渐多了起来,为了验证发票真伪,财务人员或日常消费者需要自主查询发票信息。在传统的方式中,当需要查询发票真伪时,一般需要找到官方的税务网站,并在税务网站的查询窗口中手动输入发票号码、发票代码等信息进行查询,由税务网站验证发票真伪,操作繁琐且容易出错,浪费大量人力时间,效率较低。



技术实现要素:

为解决上述问题,本发明提供一种发票识别的方法、装置、存储介质及计算机设备。

根据本发明的第一个方面,提供一种发票识别的方法,包括:

获取目标发票的发票图像;

识别所述发票图像中的发票信息,所述发票信息包括发票字段和与所述发票字段相对应的发票数据;

根据发票验证系统的文本域与所述发票信息的发票字段之间的对应关系,将所述发票信息中相应的发票数据输入至所述发票验证系统的文本域中,并获取所述发票验证系统反馈的验证结果。

在一种可能的实现方式中,所述识别所述发票图像中的发票信息包括:

识别所述发票图像中所有的待定数据,根据所述待定数据的数据格式确定与所述待定数据相对应的一个或多个发票字段,并分别确定每个所述发票字段对应的一个或多个所述待定数据;

当所述发票字段对应一个所述待定数据时,将所述待定数据作为与所述发票字段相对应的发票数据;

当所述发票字段对应多个所述待定数据时,从多个所述待定数据中选取一个待定数据作为有效待定数据,并将所述有效待定数据作为与所述发票字段相对应的发票数据。

在一种可能的实现方式中,所述从多个所述待定数据中选取一个待定数据作为有效待定数据包括:

将已确定与发票字段对应关系的待定数据标记为已识别状态;

剔除所述发票字段对应的多个待定数据中是已识别状态的待定数据,并从剩余的待定数据中选取一个待定数据作为有效待定数据。

在一种可能的实现方式中,所述从多个所述待定数据中选取一个待定数据作为有效待定数据包括:

将对应多个所述待定数据的发票字段作为目标发票字段,并确定所述目标发票字段对应的每个所述待定数据在所述发票图像中的位置;

识别所述发票图像中与所述目标发票字段对应的发票文本,并确定所述发票文本在所述发票图像中的位置;

根据所述发票文本在所述发票图像中的位置以及每个所述待定数据在所述发票图像中的位置,分别确定所述发票文本与所述待定数据之间的间距,所述间距包括行间距和/或列间距;

将所有间距中的最小间距所对应的待定数据作为有效待定数据。

在一种可能的实现方式中,所述从多个所述待定数据中选取一个待定数据作为有效待定数据包括:

根据已确定与发票字段对应关系的待定数据和相对应的发票字段,确定相关的标识信息;

将对应多个所述待定数据的发票字段作为目标发票字段,在所述目标发票字段对应的发票数据中包含所述标识信息时,将与所述标识信息相匹配的待定数据作为有效待定数据。

在一种可能的实现方式中,所述识别所述发票图像中的发票信息包括:

确定发票验证系统所需的有效发票字段;

识别所述发票图像中与所述有效发票字段相关的发票信息,所述发票信息中的发票字段为所述有效发票字段。

在一种可能的实现方式中,在所述获取所述发票验证系统反馈的验证结果之后,该方法还包括:

当所述验证结果为验证通过时,为所述发票信息设置报销标志位,并在所述发票信息对应的目标发票被报销后,更新所述发票信息的所述报销标志位。

根据本发明的第二个方面,提供一种发票识别的装置,包括:

图像获取模块,用于获取目标发票的发票图像;

识别模块,用于识别所述发票图像中的发票信息,所述发票信息包括发票字段和与所述发票字段相对应的发票数据;

验证模块,用于根据发票验证系统的文本域与所述发票信息的发票字段之间的对应关系,将所述发票信息中相应的发票数据输入至所述发票验证系统的文本域中,并获取所述发票验证系统反馈的验证结果。

根据本申请的第三个方面,提供一种计算机可读存储介质,其上存储有计算机可读指令,该计算机可读指令被处理器执行时实现上述步骤。

根据本申请的第四个方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现上述步骤。

本发明实施例提供的一种发票识别的方法、装置、存储介质及计算机设备,可以对发票进行自动识别,并识别出发票图像中的发票字段和发票数据,之后自动将发票数据填入到发票验证系统中对发票真伪进行查询验证,并可以获取到发票验证系统反馈的验证结果,从而可以自动确定发票真伪。该方式不需要人工验证,可以大量节省工作人员的时间和成本,提高验证发票真伪的速度和效率。同时,通过确定有效发票字段,可以减少图像识别的处理量,提高识别效率。通过首先识别发票数据的方式,进一步提高识别的正确率;且首先基于待定数据的数据格式来判断待定数据可能属于的发票字段,之后再基于发票文本进行校正,可以更加准确地确定与目标发票字段相对应的发票数据。

本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:

图1为本发明实施例中一种发票识别的方法的流程示意图;

图2为本发明实施例中识别发票图像中的发票信息的流程示意图;

图3为本发明实施例中发票图像的一种表现形式的示意图;

图4为本发明实施例中一种发票识别的装置的第一结构示意图;

图5为本发明实施例中一种发票识别的装置的第二结构示意图;

图6为本发明实施例中执行发票识别方法的计算机设备的结构示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。

本发明实施例提供的一种发票识别的方法,参见图1所示,包括:

步骤101:获取目标发票的发票图像。

本发明实施例中,目标发票为需要识别验证的发票,即需要验证该目标发票的真伪。具体的,可以通过扫描的方式获取目标发票的发票图像;或者,若该目标发票为电子发票,可以将电子发票对应的图像直接作为发票图像。

步骤102:识别发票图像中的发票信息,发票信息包括发票字段和与发票字段相对应的发票数据。

本发明实施例中,在获取到发票图像后,即可识别出发票图像中的发票字段和相应的发票数据,即识别出发票图像中的发票信息。其中,可以基于图像识别技术识别出发票图像中的发票信息,比如基于OCR(Optical Character Recognition,光学字符识别)技术等。

本发明实施例中,发票字段包括发票代码、发票号码、开票日期、开具金额(不含税)、校验码、购买方名称、购买方纳税人识别号、销售方名称、销售方纳税人识别号等中的一项或多项,发票数据即为该发票字段对应的数据。例如,发票字段为8位的“发票号码”,相对应的发票数据为“12345678”。

步骤103:根据发票验证系统的文本域与发票信息的发票字段之间的对应关系,将发票信息中相应的发票数据输入至发票验证系统的文本域中,并获取发票验证系统反馈的验证结果。

本发明实施例中,发票验证系统为可以验证发票真伪的系统或官方平台,比如国税局官方网站等。文本域为发票验证系统的控件,本实施例中的文本域具体可以为单行或多行的文本框控件。每个文本域对应一个发票字段,用于方便用户提交相应的发票数据,进而可以使得用户能够查询发票真伪。本发明实施例中,在识别出发票字段和发票数据后,若可以确定该发票验证系统的文本域与发票字段之间的对应关系,即可将相应的发票数据自动填入至相应的文本域中,通过该发票验证系统对该目标发票进行验证,并可以获取到发票验证系统反馈的验证结果。若自动提交的发票数据是正确的,则发票验证系统反馈该目标发票是合法发票的验证结果;反之,发票验证系统反馈该目标发票是非法发票的验证结果。

可选的,由于发票中会包含多种信息,但是发票验证系统在验证发票真伪时,只需要用户提交发票的部分信息即可,故本发明实施例中的步骤102“识别发票图像中的发票信息”具体包括:

确定发票验证系统所需的有效发票字段;识别发票图像中与有效发票字段相关的发票信息,发票信息中的发票字段为有效发票字段。

本发明实施例中,有效发票字段为发票验证系统验证发票真伪时所需要的字段,此时在步骤102中识别发票信息时,只需要识别出有效发票字段和相应的发票数据即可。例如,发票验证系统在验证发票时需要用户提供三个发票字段:发票代码、发票号码和开具金额,即有效发票字段包括发票代码、发票号码和开具金额,在识别目标发票的发票信息时,只需要识别出与发票代码、发票号码和开具金额相对应的发票数据即可。通过确定有效发票字段,可以减少图像识别的处理量,提高识别效率。

本发明实施例提供的一种发票识别的方法,可以对发票进行自动识别,并识别出发票图像中的发票字段和发票数据,之后自动将发票数据填入到发票验证系统中对发票真伪进行查询验证,并可以获取到发票验证系统反馈的验证结果,从而可以自动确定发票真伪。该方式不需要人工验证,可以大量节省工作人员的时间和成本,提高验证发票真伪的速度和效率。同时,通过确定有效发票字段,可以减少图像识别的处理量,提高识别效率。

在上述实施例的基础上,为了可以更加准确地识别出发票信息,参见图2所示,上述步骤102“识别发票图像中的发票信息”包括:

步骤1021:识别发票图像中所有的待定数据,根据待定数据的数据格式确定与待定数据相对应的一个或多个发票字段,并分别确定每个发票字段对应的一个或多个待定数据。

本发明实施例中通过首先识别发票数据的方式来确定发票数据和相对应的发票字段。由于发票中的发票数据一般是由数字组成的,即本实施例中的“发票数据”指的是包含数字的数据;例如,对应“开具金额”的发票数据为“100.00”或“¥100.00”,对应“开具日期”的发票数据为“2018年1月1日”或“2018/1/1”等。一般情况下,基于图像识别技术识别数字时的正确率较高,本实施例中通过首先识别发票数据的方式,可以提高识别的正确率。

具体的,本实施例中首先需要识别出发票图像中的待定数据,该待定数据即为包含数字的数据;由于发票中不同发票字段对应的发票数据一般具有特定的格式,本实施例中根据待定数据的数据格式即可确定该待定数据可能对应哪个或哪些发票字段,即可确定待定数据相对应的一个或多个发票字段。其中,待定数据的数据格式指的是该数据的位数、数据的固有表现形式等。例如,12位的发票代码(之前的增值税发票的发票代码为10位)、8位的发票号码,“X年X月X日”格式、“X-X-X”格式或“X/X/X”格式的开票日期,“¥XXX”格式或“XX.XX元”格式的开具金额等。例如,发票号码为8位的数字,电话(比如监督电话等)也为8位的数字,若某个待定数据为“12345678”,则该待定数据“12345678”与“发票号码”和“电话”相对应,即“12345678”可能是发票号码,也可能是电话。

同时,如上所述,本实施例中的待定数据与发票字段之间的是一对一或一对多的对应关系,相应的,发票字段与待定数据之间也可以是一对一或一对多的对应关系,即一个发票字段可能对应一个待定数据,也可能对应多个待定数据。例如,具有8位数字的数据格式的待定数据包括“12345678”和“87654321”,发票字段“发票号码”对应两个待定数据“12345678”和“87654321”,即发票号码可能是12345678,也可能是87654321。

需要说明的是,本实施例中的“待定数据”和“发票数据”是同一数据在不同时间点的两个称呼。具体的,“待定数据”指的是最开始从发票图像中识别出来的数据,此时还不知道该“待定数据”对应哪个发票字段;而“发票数据”指的是知道对应哪个发票字段的数据,即若知道某个数据对应哪个发票字段,则该数据称为“发票数据”。例如,从发票图像中识别出数据“12345678”,则此时该数据“12345678”称为“待定数据”,若之后确定该数据对应“发票号码”这一字段,则此时该数据“12345678”称为“发票数据”。

步骤1022:当发票字段对应一个待定数据时,将待定数据作为与发票字段相对应的发票数据。

步骤1023:当发票字段对应多个待定数据时,从多个待定数据中选取一个待定数据作为有效待定数据,并将有效待定数据作为与发票字段相对应的发票数据。

本发明实施例中,若发票字段与待定数据是一一对应的关系,则可直接确定该待定数据即为与发票字段相对应的发票数据。当发票字段对应多个待定数据时,即可从中选取一个待定数据作为与该发票字段相对应的发票数据。

具体的,上述步骤1023“从多个待定数据中选取一个待定数据作为有效待定数据”包括:

步骤A1:将已确定与发票字段对应关系的待定数据标记为已识别状态。

本发明实施例中,对于部分待定数据,可以唯一确定与该待定数据相对应的发票字段,该类待定数据即为“已确定与发票字段对应关系的待定数据”,此事可以将该待定数据标记为已识别状态。其中,步骤1022中确定的待定数据即为“已确定与发票字段对应关系的待定数据”。例如,开具日期的数据格式为“xx年xx月xx日”或者“xx/xx/xx”,而发票图像中只有一个待定数据符合该开具日期的数据格式,则该待定数据即为发票图像对应的发票数据,此时可以将该待定数据标记为已识别状态。

步骤A2:剔除发票字段对应的多个待定数据中是已识别状态的待定数据,并从剩余的待定数据中选取一个待定数据作为有效待定数据。

本发明实施例中,当发票字段对应多个待定数据时,若其中的某个或某些待定数据是已识别状态,则说明已经确定了该待定数据与其他发票字段的对应关系,即该待定数据一定与当前的发票字段不相关,此时可以剔除该类是已识别状态的待定数据,从剩余的待定数据中选取一个待定数据作为有效待定数据。其中,若剔除已识别状态的待定数据后,该发票字段只与剩余的一个待定数据相对应,则剩余的唯一的待定数据即为有效待定数据。本实施例中通过剔除已识别状态的待定数据,可以进一步提高选取有效待定数据时的准确性。

可选的,由于发票种类比较多,比如普通发票、增值税发票等,且每种发票也存在多种小类,比如增值税发票又包含:增值税专用发票、增值税普通发票、机动车销售统一发票、二手车销售统一发票、货物运输业增值税专用发票等,且还有定额发票、通用机打发票等,每种发票的票面尺寸大小以及排版存在区别,导致识别发票图像中的发票信息存在困难。为克服上述问题,本发明实施例中,上述步骤1023“从多个待定数据中选取一个待定数据作为有效待定数据”包括:

步骤B1:将对应多个待定数据的发票字段作为目标发票字段,并确定目标发票字段对应的每个待定数据在发票图像中的位置。

步骤B2:识别发票图像中与目标发票字段对应的发票文本,并确定发票文本在发票图像中的位置。

本发明实施例中,若某个发票字段对应多个待定数据,为了方便后续描述,将该发票字段称为目标发票字段。同时,待定数据为从发票图像中识别出的数据,待定数据位于发票图像中的特定位置,此时还可以确定与该目标发票字段对应的每个待定数据在发票图像中的位置。例如,对于发票图像建立二维坐标系,此时可以以坐标点的形式描述该待定数据的位置,比如将该待定数据左下角的点的坐标作为该待定数据的位置,或者将该待定数据的中心点的坐标作为该待定数据的位置。

此外,在上述之前的实施例中,在识别发票信息时,首先识别发票数据;由于每个发票包含的发票字段是已知的、甚至相同的,本实施例中识别出的发票信息中的发票字段是根据识别出的发票数据而确定的,并不是通过图像识别技术从发票图像中直接识别出来的。同样的,该目标发票字段也并不是从发票图像中直接识别出来的。但是,在本实施例中,为了正确确定发票数据对应的是哪一个发票字段,基于图像识别技术识别发票图像中的发票文本,该发票文本即为从发票图像中识别出来的、文本形式的发票字段,若识别出来的发票文本与该目标发票字段相对应,则确定该发票文本在发票图像中的位置。其中,确定发票文本在发票图像中的位置与上述“确定待定数据在发票图像中的位置”的过程类似,此处不做赘述。

步骤B3:根据发票文本在发票图像中的位置以及每个待定数据在发票图像中的位置,分别确定发票文本与待定数据之间的间距,间距包括行间距和/或列间距。

步骤B4:将所有间距中的最小间距所对应的待定数据作为有效待定数据。

本发明实施例中,根据发票文本和待定数据在发票图像中的位置,可以确定二者在发票图像中的行间距或列间距。具体的,发票图像的一种表现形式参见图3所示,图3中以发票图像包含四个发票文本和三个待定数据为例说明。

本发明实施例中,发票文本和待定数据之间的行间距指的是发票文本的位置坐标和待定数据的位置坐标在纵轴方向上的差值;相应的,发票文本和待定数据之间的列间距指的是发票文本的位置坐标和待定数据的位置坐标在横轴方向上的差值。行间距越小,说明该发票文本与待定数据越可能在同一行;列间距越小,该发票文本与待定数据越有可能在同一列。如图3所示,发票文本a与待定数据1之间的行间距较小、发票文本d与待定数据1、2、3之间的列间距均较小。

若发票文本与待定数据之间的行间距或列间距是该发票文本与其他相关的所有待定数据之间的间距中最小的,则该行间距或列间距即为最小间距,与该最小间距对应的待定数据与该发票文本极有可能位于同一行或同一列,该最小间距对应的待定数据与该发票文本是相对应的关系,此时即可将将所有间距中的最小间距所对应的待定数据作为有效待定数据。如图3所示,若目标发票字段对应的发票文本为发票文本a,与该目标发票字段对应的待定数据包括待定数据1、待定数据2、待定数据3;此时可知发票文本a与待定数据1之间具有最小间距(最小行间距),此时可以将待定数据1作为发票文本a对应的有效待定数据。

本实施例中,通过最小间距来确定与待定数据相对应的发票字段,可以适应不同的发票样式。同时,机打发票的发票文本和待定数据可能不同行、甚至可能错行(类似图3所示),比如开具金额打印到了开票日期一行;若直接根据发票数据与发票文本之间的位置关系来确定该待定数据所对应的字段,则可能存在误判。本实施例中首先基于待定数据的数据格式来判断待定数据可能属于的发票字段,之后再基于发票文本进行校正,可以更加准确地确定与目标发票字段相对应的发票数据。

需要说明的是,图3中的对应多个待定数据的“发票文本d”一般是“金额”,相应的发票文本a和b分别是消费项目,比如分别是“手机”和“电脑”,则相应的待定数据1就是手机的价格,待定数据2是电脑的价格。但是发票字段中的“开具金额”实际上是总金额,若发票文本c为“总金额”,则与发票文本c对应的待定数据3才是与开具金额对应的发票数据。此时可以将“发票文本c”作为与“目标发票字段”对应的发票文本,也即只是考虑哪个待定数据与发票文本c的行间距或列间距最小。

此外,发票包含有很多数字,即待定数据,比如发票代码、发票号码、发票、检验码等对应的数字;有的发票是直接写明数字的含义,比如“发票号码:12345678”,而有的只是有个数字,比如“12345678”,其并没有写明这个数字是“发票号码”。即,发票中的发票数据是比较完整的,而发票文本可能不完整。或者,同一个发票字段在不同的发票中可能有不同的表现形式,即不同的发票文本,比如“发票号码”这一发票字段,在发票图像中的具体表现形式(即发票文本)可能是“发票号码”,也可能是“No.”。本实施例中先识别发票数据,之后再确定相对应的发票字段,即使发票中的发票字段不完整,也可以清楚、完整地确定所有的发票信息。

在上述实施例的基础上,上述步骤1023“从多个待定数据中选取一个待定数据作为有效待定数据”包括:

步骤C1:根据已确定与发票字段对应关系的待定数据和相对应的发票字段,确定相关的标识信息。

步骤C2:将对应多个待定数据的发票字段作为目标发票字段,在目标发票字段对应的发票数据中包含标识信息时,将与标识信息相匹配的待定数据作为有效待定数据。

本发明实施例中,可以根据已经识别出的发票数据和发票字段来识别其他未识别的发票数据。具体的,根据识别出的发票数据和发票字段确定相关的标识信息,之后根据该标识信息来识别目标发票字段对应的待定数据。其中,该标识信息具体可以为日期信息、位置关系等。例如,一般开票日期的格式特殊,比较容易识别,在识别出开票日期对应的发票数据后,即可确定开票的年份(即标识信息);而发票代码中的第6~7位表示年份代码(比如18表示2018年),此时可以根据开票日期的年份来选取待定数据的第6~7位是该年份的待定数据作为有效待定数据。或者,该标识信息可以为位置关系。例如,一般发票代码和发票号码上下相邻排列,在识别出发票代码后,可将发票代码下方的8位数字作为发票号码。

可选的,随着电子发票的流行,发票易存在重复报销的情况。为解决该问题,在本实施例中,在步骤103“获取发票验证系统反馈的验证结果”之后,该方法还包括:当验证结果为验证通过时,为发票信息设置报销标志位,并在发票信息对应的目标发票被报销后,更新发票信息的报销标志位。

本发明实施例中,可以建立发票数据库,根据发票图像识别出的发票信息也可存储在该发票数据库中,并为数据库中的每条发票信息设置报销标志位,比如未报销发票信息的报销标志位为0,已报销发票信息的报销标志位为1。根据该报销标志位即可确定与该发票信息对应的发票是否已经报销,从而可以避免重复报销。

本发明实施例提供的一种发票识别的方法,可以对发票进行自动识别,并识别出发票图像中的发票字段和发票数据,之后自动将发票数据填入到发票验证系统中对发票真伪进行查询验证,并可以获取到发票验证系统反馈的验证结果,从而可以自动确定发票真伪。该方式不需要人工验证,可以大量节省工作人员的时间和成本,提高验证发票真伪的速度和效率。同时,通过确定有效发票字段,可以减少图像识别的处理量,提高识别效率。通过首先识别发票数据的方式,进一步提高识别的正确率;且首先基于待定数据的数据格式来判断待定数据可能属于的发票字段,之后再基于发票文本进行校正,可以更加准确地确定与目标发票字段相对应的发票数据。

以上详细介绍了发票识别的方法流程,该方法也可以通过相应的装置实现,下面详细介绍该装置的结构和功能。

本发明实施例提供的一种发票识别的装置,参见图4所示,包括:

图像获取模块41,用于获取目标发票的发票图像;

识别模块42,用于识别所述发票图像中的发票信息,所述发票信息包括发票字段和与所述发票字段相对应的发票数据;

验证模块43,用于根据发票验证系统的文本域与所述发票信息的发票字段之间的对应关系,将所述发票信息中相应的发票数据输入至所述发票验证系统的文本域中,并获取所述发票验证系统反馈的验证结果。

在上述实施例的基础上,所述识别模块42包括:

识别单元,与识别所述发票图像中所有的待定数据,根据所述待定数据的数据格式确定与所述待定数据相对应的一个或多个发票字段,并分别确定每个所述发票字段对应的一个或多个所述待定数据;

第一确定单元,用于当所述发票字段对应一个所述待定数据时,将所述待定数据作为与所述发票字段相对应的发票数据;

第二确定单元,用于当所述发票字段对应多个所述待定数据时,从多个所述待定数据中选取一个待定数据作为有效待定数据,并将所述有效待定数据作为与所述发票字段相对应的发票数据。

在上述实施例的基础上,所述第二确定单元从多个所述待定数据中选取一个待定数据作为有效待定数据包括:

将已确定与发票字段对应关系的待定数据标记为已识别状态;

剔除所述发票字段对应的多个待定数据中是已识别状态的待定数据,并从剩余的待定数据中选取一个待定数据作为有效待定数据。

在上述实施例的基础上,所述第二确定单元从多个所述待定数据中选取一个待定数据作为有效待定数据包括:

将对应多个所述待定数据的发票字段作为目标发票字段,并确定所述目标发票字段对应的每个所述待定数据在所述发票图像中的位置;

识别所述发票图像中与所述目标发票字段对应的发票文本,并确定所述发票文本在所述发票图像中的位置;

根据所述发票文本在所述发票图像中的位置以及每个所述待定数据在所述发票图像中的位置,分别确定所述发票文本与所述待定数据之间的间距,所述间距包括行间距和/或列间距;

将所有间距中的最小间距所对应的待定数据作为有效待定数据。

在上述实施例的基础上,所述第二确定单元从多个所述待定数据中选取一个待定数据作为有效待定数据包括:

根据已确定与发票字段对应关系的待定数据和相对应的发票字段,确定相关的标识信息;

将对应多个所述待定数据的发票字段作为目标发票字段,在所述目标发票字段对应的发票数据中包含所述标识信息时,将与所述标识信息相匹配的待定数据作为有效待定数据。

在上述实施例的基础上,所述识别模块42识别所述发票图像中的发票信息包括:

确定发票验证系统所需的有效发票字段;

识别所述发票图像中与所述有效发票字段相关的发票信息,所述发票信息中的发票字段为所述有效发票字段。

在上述实施例的基础上,参见图5所示,该装置还包括标记模块44;

在所述验证模块43获取所述发票验证系统反馈的验证结果之后,所述标记模块44用于:当所述验证结果为验证通过时,为所述发票信息设置报销标志位,并在所述发票信息对应的目标发票被报销后,更新所述发票信息的所述报销标志位。

本发明实施例提供的一种发票识别的装置,可以对发票进行自动识别,并识别出发票图像中的发票字段和发票数据,之后自动将发票数据填入到发票验证系统中对发票真伪进行查询验证,并可以获取到发票验证系统反馈的验证结果,从而可以自动确定发票真伪。该方式不需要人工验证,可以大量节省工作人员的时间和成本,提高验证发票真伪的速度和效率。同时,通过确定有效发票字段,可以减少图像识别的处理量,提高识别效率。通过首先识别发票数据的方式,进一步提高识别的正确率;且首先基于待定数据的数据格式来判断待定数据可能属于的发票字段,之后再基于发票文本进行校正,可以更加准确地确定与目标发票字段相对应的发票数据。

本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,其包含用于执行上述发票识别方法的程序,该计算机可读指令可执行上述任意方法实施例中的方法。

其中,所述计算机可读存储介质可以是计算机能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NAND FLASH)、固态硬盘(SSD))等。

图6示出了本发明的另一个实施例的一种计算机设备的结构框图。所述计算机设备1100可以是具备计算能力的主机服务器、个人计算机PC、或者可携带的便携式计算机或终端等。本发明具体实施例并不对计算机设备的具体实现做限定。

该计算机设备1100包括至少一个处理器(processor)1110、通信接口(Communications Interface)1120、存储器(memory array)1130和总线1140。其中,处理器1110、通信接口1120、以及存储器1130通过总线1140完成相互间的通信。

通信接口1120用于与网元通信,其中网元包括例如虚拟机管理中心、共享存储等。

处理器1110用于执行程序。处理器1110可能是一个中央处理器CPU,或者是专用集成电路ASIC(Application Specific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。

存储器1130用于存储计算机可读指令。存储器1130可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1130也可以是存储器阵列。存储器1130还可能被分块,并且所述块可按一定的规则组合成虚拟卷。存储器1130存储的指令可被处理器1110执行,以使处理器1110能够执行上述任意方法实施例中的方法。

显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1